Модели и алгоритмы обработки корпуса документов научной информации тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Седова, Яна Анатольевна

  • Седова, Яна Анатольевна
  • кандидат технических науккандидат технических наук
  • 2011, Астрахань
  • Специальность ВАК РФ05.13.01
  • Количество страниц 124
Седова, Яна Анатольевна. Модели и алгоритмы обработки корпуса документов научной информации: дис. кандидат технических наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). Астрахань. 2011. 124 с.

Оглавление диссертации кандидат технических наук Седова, Яна Анатольевна

Введение.

Глава 1. Современное положение и результаты исследований по системному анализу неструктурированной текстовой информации.

1.1 Основные понятия информационного поиска.

1.2 Информационная технология поиска текстовых документов.

1.2.1 Агент.

1.2.2 Индексатор.

1.2.3 Семантический анализ корпуса.

1.2.4 Анализ запроса.

1.2.5 Поиск.

1.3 Модели информационного поиска.

1.4 Поиск по смыслу и латентно-семантический анализ.

1.5 Модели процесса поиска информации.31'

1.6 Сравнительная характеристика групп ИПС.

1.7 Оценка поисковых систем.

1.8 Анализ научной информации.

1.9 Постановка задачи исследования.

РЕЗУЛЬТАТЫ И ВЫВОДЫ К ПЕРВОЙ ГЛАВЕ.

Глава 2. Системный анализ неструктурированной текстовой информации, представленной в виде корпуса текстов научного знания.

2.1 Основные определения.

2.2 Алгоритм построения семантической модели корпуса.

2.2.1 Получение списка терминов из документа.

2.2.2 Выделение доминантных терминов.

2.3 Латентный семантический анализ.

2.4 Пример применения латентного семантического анализа.

2.5 Поиск по корпусу.

РЕЗУЛЬТАТЫ И ВЫВОДЫ КО ВТОРОЙ ГЛАВЕ.

Глава 3. Интеллектуальный анализ корпуса текстов научного знания.

3.1 Поиск по корпусу.

3.2 Алгоритм уточнения запроса пользователя.

3.3 Пример работы алгоритма уточнения запроса.

3.4 Описание модифицированной информационной технологии.

РЕЗУЛЬТАТЫ И ВЫВОДЫ К ТРЕТЬЕЙ ГЛАВЕ.

Глава 4. Автоматизированная система анализа корпуса текстов научного знания.

4.1 Описание разработанного программного продукта.

4.2 Структура индекса.

4.3 Информационный агент и индексация.

4.4 Описание исходных данных.

4.5 Морфологический анализ текста.

4.6 Тестирование системы.

4.6.1 Тестирование на одном компьютере.

4.6.2 Индексация распределенного текстового корпуса.

4.6.3 Латентный семантический анализ распределенного корпуса. 103 РЕЗУЛЬТАТЫ И ВЫВОДЫ К ЧЕТВЕРТОЙ ГЛАВЕ.

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Модели и алгоритмы обработки корпуса документов научной информации»

Современный этап развития науки характеризуется увеличением темпа роста научного знания, в том числе представленного документально. Ежегодно в мире появляется 5 млрд. научных книг и статей, 250 тыс. диссертаций и отчетов[17]. Фонд диссертаций Российской государственной библиотеки, в котором хранятся отечественные кандидатские и докторские диссертации с 1944 года, на 1 января 2010 года насчитывал свыше 976 тыс. экземпляров[21].

Согласно статистике, опубликованной веб-ресурсом «Кадры высшей научной квалификации» [13], количество кандидатских диссертаций, утвержденных ВАК, в последнее десятилетие значительно выросло (рис. 1).

Лица, утвержденные ВАК Минобнауки России в ученых степенях

34613 34494

1 16000 14000 12000 10000 8000 6000 4000 2000 -о

1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 годы

Доктора наук

I Кандидаты наук

-Всего

Рис. 1. Количество лиц, утвержденных Высшей аттестационной комиссией в ученых степенях в 1994-2009 гг.

Объем электронных архивов, содержащих научное знание, растет не только за счет появления нового знания, но и за счет перевода в цифровую форму старого.

Данная тенденция будет продолжаться. 8 июля 2010 г. на заседании Президентского совета по развитию информационного общества президент РФ Д.А.Медведев сказал: «Особое внимание. должно быть уделено формированию единой базы научных диссертаций в электронном виде и обеспечению прозрачности процедуры их защиты»[14].

На момент написания данной работы электронная библиотека диссертаций РГБ содержала более 620 ООО полных текстов диссертаций и авторефератов, а электронный архив авторефератов докторских диссертаций на сайте Высшей аттестационной комиссии - почти 10 ООО авторефератов.

Создание базы диссертаций или авторефератов ведет к необходимости их автоматизированного анализа для повышения эффективности доступа к этим документам. Однако современные информационно-поисковые системы стремятся в первую очередь к повышению скорости обработки запросов пользователей и поэтому используют достаточно простые алгоритмы и эвристики.

Важнейшим недостатком большинства существующих информационно-поисковых систем является отсутствие интеллектуального анализа данных, что ведет к большим затратам на поиск данных. Как указывалось в работе[17, с. 119], «по расчетам американских ученых, если открытие или изобретение предполагает стоимость 10 тыс. долларов, то их дешевле открыть заново, нежели отыскать в завалах информации».

Вопросами автоматизации анализа естественного языка занимались многие ученые как в нашей стране, так и за рубежом:

• в области автоматического понимания текстов — Р. Шенк, Э. В. Попов, Н. Н. Леонтьева, Э. Ф. Скороходько;

• в области разработки информационно-поисковых систем -П. И. Браславский, И. Е. Кураленок, И. С. Некрестьянов, Б. В. Добров, Д. В. Ланде, Н. В. Лукашевич;

• в области разработки семантических моделей текста -Т. А. Гаврилова, В. Ф. Хорошевский, А. Е. Ермаков, A. Maedche, Е. Alfonseca, Е. Agirre;

• в области выделения терминов из текста — Е. И. Большакова, К. ¥тп1г[.

Работы этих авторов привели к созданию ряда методов анализа естественного языка, позволяющих в автоматизированном режиме обрабатывать неструктурированные тексты.

Однако существующие модели информационного поиска обладают рядом недостатков: традиционные модели отличаются низкой эффективностью поиска, сложностью формулировки запроса, новые модели - необходимостью создания вручную хранилищ знаний, используемых для поиска.

Таким образом, в настоящее время существует актуальная научная и техническая задача, состоящая в разработке методик, позволяющих автоматизировать анализ представленного документально научного знания. Решение такой задачи позволит повысить эффективность обработки информации при анализе научного знания.

Объектом исследования является корпус документов научной полнотекстовой информации.

Предмет исследования - методы, модели и алгоритмы обработки текстовой информации.

Целью настоящей работы является повышение эффективности аналитической обработки научной информации, представленной в виде распределенных корпусов текстовых документов.

Поставленная цель достигается решением следующих задач:

1. Провести системный анализ процесса обработки неструктурированной текстовой информации для выявления системных характеристик корпуса документов.

2. Разработать семантическую модель корпуса документов и алгоритм ее построения на основе латентно-семантического анализа, использующий статистические меры оценки веса терминов.

3. Разработать алгоритм уточнения поискового запроса на сгенерированной семантической модели корпуса, использующий поиск в глубину и в ширину и кластерный анализ множества терминов.

4. Модифицировать существующую информационную технологию поиска и анализа документов путем применения разработанных алгоритмов и разделения этапа семантического анализа текста на локальный и глобальный этапы.

5. Апробировать модифицированную информационную технологию обработки информации с использованием вновь разработанной автоматизированной системы.

Методы исследования. Для решения поставленной задачи применялись методы системного анализа, линейной алгебры, кластерного анализа, теории графов, теории множеств, теории информации, теории алгоритмов.

Научная новизна.

1. По результатам теоретико-множественного и теоретико-информационного анализа выделены системные характеристики корпуса документов, позволяющие расширить набор параметров информационного поиска.

2. Модифицирована информационная поисковая технология в части анализа и систематизации распределенного научного знания, позволяющая в процессе интеллектуального анализа неструктурированной текстовой информации генерировать семантические модели корпуса документов.

3. Разработан алгоритм построения трехмерной семантической модели корпуса документов, позволяющей представить его в форме графа для дальнейшей визуализации и анализа с использованием введенной системы количественных оценок свойств корпуса.

4. Разработан алгоритм уточнения поискового запроса, осуществляющий кластерный анализ множества терминов и эмулирующий движение по семантической модели корпуса документов как поиск на графе в глубину и ширину. Предложены критерии останова: достижение заданного уровня энтропии, измеряющей детализацию термина, достижение заданного порога количественных характеристик термина.

Практическая ценность работы. Результаты работы могут применяться для анализа как распределенных, так и централизованных хранилищ данных и использоваться для обработки любых документальных знаний, содержащих персоналии, названия организаций, даты и другие устойчивые выражения.

Реализация результатов работы. Результаты исследования реализованы в госбюджетных научно-исследовательских работах ФГОУ ВПО «Астраханский государственный технический университет» «Теоретический анализ и математическое моделирование информационных систем», «Теоретический анализ и математическое моделирование систем поддержки принятия управленческих решений»; внедрены в учебный процесс Астраханского государственного технического университета и в муниципальном бюджетном учреждении г. Астрахань «Информационно-аналитический центр»

На основе модифицированной информационной технологии разработана автоматизированная система «Информационно-аналитическая система интеллектуального анализа текстовых электронных ресурсов», прошедшая государственную регистрацию.

Личный вклад автора. В работах, выполненных в соавторстве, автору принадлежат формализация задачи, построение моделей, разработка алгоритмов, проектирование и реализация программного обеспечения.

Апробация научных результатов. Основные положения докладывались и обсуждались на конференциях студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Нижний Новгород, 2007-2009), XIV-XVI Международных молодежных научных форумах «Ломоносов» (Москва, 2007-2009), V Всероссийской межвузовской конференции молодых ученых (Санкт-Петербург, 2008), XXI-XXIII Международных научных конференциях «Математические методы в технике и технологиях» (Саратов, 2008; Псков, 2009), I Международной научно-практической конференции «Эволюция системы научных коммуникаций ассоциации университетов прикаспийских государств» (Астрахань, 2008), Всероссийской конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Москва, 2009), V Всероссийской научно-инновационной конференции студентов, аспирантов и молодых ученых (Москва, 2009), 54-ой Научно-практической конференции профессорско-преподавательского состава Астраханского государственного технического университета (Астрахань, 2010), Международной научно-практической конференции «Фундаментальные и прикладные исследования университетов, интеграция в региональный инновационный комплекс» (Астрахань, 2010).

Публикации. Основные положения диссертационной работы отражены в 16 опубликованных научных работах, среди которых 3 статьи в журналах, рекомендованных ВАК, 1 свидетельство о регистрации программы для ЭВМ и 12 публикаций в сборниках международных, всероссийских научных конференций.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав основного текста, заключения, списка литературы из 96 наименований и 2 приложений. Общий объем работы 107 страниц машинописного текста, который включает 38 рисунков, 16 таблиц и 39 формул.

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Седова, Яна Анатольевна

6. Результаты работы внедрены в муниципальном бюджетном учреждении г. Астрахань «Информационно-аналитический центр» и использованы при выполнении госбюджетных научно-исследовательских работ Астраханского государственного технического университета. Учебный вариант программного обеспечения используется в Астраханском государственном техническом университете.

Список литературы диссертационного исследования кандидат технических наук Седова, Яна Анатольевна, 2011 год

1. Автоматизированная система «Информационно-аналитическая система интеллектуального анализа текстовых электронных ресурсов. Св. о гос. per. прогр. для ЭВМ №2009610640. / Квятковская И. Ю., Седова Я. А., Филандыш Н. И. Зарег. 28.01.2009.

2. Агеев, М. Официальные метрики РОМИП'2009 / М. Агеев, И. Кураленок, И. Некрестьянов // Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП 2009. (Петрозаводск, 16 сентября 2009г.). Санкт-Петербург: НУ ЦСИ, 2009. - С. 175-185

3. Ашманов, И. С. Продвижение сайта в поисковых системах / И. С. Ашманов, А. А. Иванов. М.: Вильяме, 2007. - 304 с.

4. Барсегян, А. А. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / А. А. Барсегян, M. С. Куприянов, В. В. Степаненко, И. И. Холод. СПб.: БХВ-Петербург, 2007. - 384 е.: ил.

5. Башмаков, А. И. Интеллектуальные информационные технологии / А. И. Башмаков, И. А. Башмаков. М.: Изд-во МГТУ им. Н. Э. Баумана, 2005. -304 е.: ил. — (Информатика в техническом университете).

6. Большакова, Е. И. Формализация лексико-синтаксической информации для распознавания регулярных конструкций естественного языка / Е. И. Большакова, Н. Э. Васильева // Программные продукты и системы. -2008.-№4.-С. 103-106.

7. Гаврилова, Т. А. Базы знаний интеллектуальных систем / Т. А. Гаврилова, В. Ф. Хорошевский. СПб.: Питер, 2000. - 384 с.

8. Диссертации РГБ в сети Интернет Электронный ресурс. -Официальный сайт Российской государственной библиотеки, 2010. Режим доступа: http://www.rsl.ru/ru/news/1307102, свободный. - Загл. с экрана.

9. Еляков, А. Д. Информационная перегрузка людей // Социологические исследования. 2005. - № 5. - С. 114 - 121.

10. Зубов, A.B. Основы искусственного интеллекта для лингвистов / А. В. Зубов, И. И. Зубова. М.: Университетская книга; Логос, 2007. - 320 с.

11. Когаловский, М. Р. Перспективные технологии информационных систем. М.: ДМК Пресс, Компания Ай Ти, 2003. - 288 с.

12. Краткая статистическая справка (по состоянию на 01.01.2010). Электронный ресурс. [М.]: Российская государственная библиотека, 2010. — Режим доступа: http://www.leninka.ru/index.php?doc=2661, свободный. - Загл. с экрана.

13. Ландэ, Д. В. Интернетика. Навигация в сложных сетях: модели и алгоритмы / Д. В. Ландэ, А. А. Снарский, И. В. Безсуднов. М.: Либроком, 2009.-264 с.

14. Ландэ, Д. В. Поиск знаний в Internet. Профессиональная работа. М: Издательский дом Вильяме, 2005. - 272 с.

15. Лацис, А. О. Как построить и использовать суперкомпьютер. — М.: Бестселлер, 2003. 274 с.

16. Леонтьева, H. Н. Автоматическое понимание текстов: системы, модели, ресурсы: учебное пособие для студентов лингвистических факультетов вузов. -М.: Издательский центр «Академия», 2006. 304 с.

17. Маннинг, К. Д. Введение в информационный поиск / К. Д. Маннинг, П. Рагхаван, X. Шютце. М.: Вильяме, 2011. - 528 с.

18. Национальный корпус русского языка Электронный ресурс. [М.], 2011. - Режим доступа: http://ruscorpora.ru/, свободный. - Загл. с экрана.

19. Новый частотный словарь русской лексики Электронный ресурс. / Ляшевская О. Н., Шаров С. А. Электрон, дан. - [М.]: Институт им. В. В. Виноградова РАН, 2008. — Режим доступа: http://dict.ruslang.ru/freq.php, свободный. — Загл. с экрана.

20. Поиск в интернете: что и как ищут пользователи. По данным поиска Яндекса. Осень 2008 года. Электронный ресурс. «Яндекс», 2008. - Режим доступа: http ://do wnload.yandex.ru/company/yandexsearchautumn2008ru.pdf, свободный. - Загл. с экрана.

21. Попов, Э. В. Общение с ЭВМ на естественном языке. М.: Наука. Главная редакция физико-математической литературы, 1982. - 360 с.

22. Прангишвили, И. В. Системный подход и общесистемные закономерности. М.: СИНТЕГ, 2000. - 528 с. - (Системы и проблемы управления).

23. Рунет в 2009 и 2010 году: аналитика по итогам РИФ+КИБ Электронный ресурс. Региональный общественный центр Интернет-технологий, 2010. — Режим доступа: http://www.rocit.ru/analyst/index.php?id=23381, свободный. -Загл. с экрана.

24. Сегалович, И.В. Как работают поисковые системы // Мир Internet.v -2002.-№ 10.-С. 24-32.

25. Седова, Я. А. Анализ несловарных слов русского языка как элемент семантического анализа текста // Вестник Астраханского государственного технического университета. 2007. - №2(37). - С. 170-172.

26. Седова, Я. А. Применение стохастических фракталов к некоторым задачам информационного поиска // Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики. Выпуск 46. 2008. - С. 19-22.

27. Седова, Я. А. Системный анализ корпуса текстов научного знания / Я. А. Седова, И. Ю. Квятковская // Вестник Саратовского государственного технического университета. — 2011. №4 (50). Выпуск 2. - С. 197-206.

28. Солтон, Дж. Динамические библиотечно-информационные системы. -М.: Мир, 1979.-558 с.

29. Тарасов, В. Б. Агенты, многоагентные системы, виртуальные сообщества: стратегическое направление в информатике и искусственном интеллекте // Новости искусственного интеллекта. 1998. — №2. - С.5-63.

30. Теоретические основы системного анализа / В. И. Новосельцев и др.. -М.: Майор, 2006. 592 е.: ил.

31. Терехина, А. Ю. Анализ данных методами многомерного шкалирования. М.: Наука. Главная редакция физико-математической литературы, 1986. -168 с.

32. Чанышев, О. Г. Автоматическое построение терминологической базы знаний // Труды 10-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» -RCDL'2008. Дубна, 2008. С.85-92.

33. Шенк, Р. Обработка концептуальной информации. М.: Энергия, 1980. -360 с.

34. Arthur, D. K-means++: The advantage of careful seeding / D. Arthur, S. Vassilvitskii // Proceedings of the eighteenth annual ACM-SIAM Symposium on Discrete Algorithms. Philadelphia, 2007. - P. 1027-1035.

35. Bates, M. J. The design of browsing and berrypicking techniques for the online search interface // Online Review. 1989. -№5(13). -P.407-431.

36. Buckley, C. Automatic Routing and Retrieval Using Smart: TREC-2 / C. Buckley, J. Allan, G. Salton // Information Processing & Management. 1995. -№3(31).-P. 315-326.

37. Buitelaar, P. Ontology learning from text: methods, evaluation andapplications / P. Buitelaar, P. Cimiano, B. Magnini. Amsterdam, IOS Press, 2005. -180 p.

38. Cimiano, P. Learning concept hierarchies from text corpora using formal concept analysis / P. Cimiano, A. Hotho, S. Staab // Journal of artificial intelligence research. 2005. - №24. - P. 305-339.

39. CIRI — an ontology-based query interface for text retrieval / Airio E. et al. // IWeb Intelligence: STeP 2004. The 11th Finnish Artificial Intelligence Conference. -Helsinki, Finnish Artificial Intelligence Society, 2004. №20. - P. 73-82.

40. Cooper, J. W. The Technology of Lexical Navigation // Workshop on Browsing Technology, First Joint Conference on Digital Libraries. Roanoke, VA, 2001.

41. Dahab, M. TextOntoEx: Automatic Ontology Construction from Natural English Text / M. Dahab, H. Hassan, A. Rafea // Proceedings of AIML 06 International conference. Sharm El Sheikh, 2006. - P.51-57.

42. Del Peso, J. Automatic construction of ontologies for intelligent e-learning systems / J. del Peso, F. de Arriaga // Proceedings of the World congress on engineering and computer science (WCECS 2007). San Francisco, 2007. - P.464-467.

43. Dillon, M. A Prevalence Formula for Automatic Relevance Feedback in Boolean Systems / M. Dillon, J. Ulmschneider, J. Desper // Information Processing & Management. 1983. -№1(19). - P. 27-36.

44. Faatz, A. Ontology enrichment with texts from the WWW / A. Faatz, R. Steinmetz // Semantic Web Mining 2nd Workshop at ECML/PKDD-2002, 20th August 2002. Helsinki, 2002.

45. Frantzi, K. Automatic recognition of multi-word terms: the C-value/NC-value method / K. Frantzi, S. Ananiadou, H. Mima // International Journal of Digital Libraries. 2000. - №3. - P. 115-130.

46. Grootjen, F. A. Conceptual query expansion / F. A. Grootjen, T. P. van der Weide // Data and Knowledge Engineering. 2006. - №2(56). -P. 174-193.

47. Gruber, T. R. A translation approach to portable ontologies // Knowledge Acquisition. 1993. - №2(5). - P.199-220.

48. Handbook of latent semantic analysis / T. K. Landauer, D. S. McNamara, S. Dennis, W. Kintsch. New Jersey, Lawrence Erlbaum Associates, 2007. - 532 p.

49. Harris, Z. Mathematical Structures of Language. — New York, Wiley-interscience, 1968.

50. Hearst, M. Search user interfaces. Cambridge, Cambridge University Press, 2009. - 404 p.

51. Hierarchical Presentation of Expansion Terms / H. Joho, C. Coverson, M. Sanderson, M. Beaulieu // Proceedings of the 17th ACM Symposium on Applied Computing. Madrid, 2002. - P.645-649.

52. Indexing by latent semantic analysis / S. Deerwester et al. // Journal of the American society for information science. 1990. - №6(41). - P.391-407.

53. Keyword suggestion using concept graph construction from Wikipedia rich documents / H. Ainiri et al. // Proceedings of Workshop on exploiting semantic annotations for information retrieval. Glasgow, 2008. - P.63-66.

54. Kietz, J. U. A Method for Semi-Automatic Ontology Acquisition from a Corporate Intranet / J. U. Kietz, A. Maedche, R. Volz // Proceedings of EKAW'2000 Workshop on Ontologies and Texts. Juan-Les-Pins, 2000. - №4(51). - P.l-14.

55. Kuhlthau, C.C. Inside the search process: Information seeking from the user's perspective // Journal of the American Society for Information Science. 1991. -№5(42). - P.361-371.

56. Landauer, T. K. Introduction to latent semantic analysis / T. K. Landauer, P. W. Foltz, D. Laham // Discourse Processes. 1998. - №25. - P.259-284.

57. Maedche, A. Ontology Learning for the Semantic Web / A. Maedche, S. Staab // IEEE Intelligent Systems, Special Issue on the Semantic Web. — 2001. — №2(16). P.72-79.

58. McEnery, T. Corpus linguistics / T. McEnery, A. Wilson. Edinburgh: Edinburgh University Press, 2004. - 236 p.

59. Missikoff, M. The Usable Ontology: An Environment for Building and Assessing a Domain Ontology/ M. Missikoff, R. Navigli, P. Velardi // Proceedings of 1st International Semantic Web Conference (ISWC 2002). Berlin, Springer-Verlag, 2002. -P.39-53.

60. Multiagent systems. A modern approach to distributed artificial intelligence / G. Weiss. Cambridge, Massachusetts, 1999. - 620 p.

61. Porter, M. F. An algorithm for suffix stripping // Program. 1980. - Vol.14, №3. - P. 130-137.

62. Query expansion using associated queries / B. Billerbeck et al. // Proceedings of the CIKM International Conference on Information and Knowledge Management. New Orleans, Louisiana, 2003. - P. 2-9.

63. Query Expansion Using Wikipedia Concept Graph / A. Hadi et al. // University of Wollongong in Dubai — Papers. Jan. 2008.

64. Robertson, S.E. Relevance weighting of search terms / S. E. Robertson, K. Spärck Jones // Journal of the American Society for Information Science. 1976. -Vol. 27.-P. 129-146.

65. Salton, G. A vector space model for automatic indexing / G. Salton, A. Wong, C. S. Yang // Communications of the ACM. 1975. - Vol. 18, №11. - P. 613-620.

66. Singhai, A. Modern Information Retrieval: A Brief Overview // Bulletin of the IEEE Computer Society Technical Committee on Data Engineering. 2000. -№4(24). -P.35-43.

67. Smeaton, A. F. The Retrieval Effects of Query Expansion on a Feedback Document Retrieval System / A. F. Smeaton, C. J. van Rijsbergen // Computer Journal. 1983. - Vol. 26, №3. - P. 239-246.

68. The Vocabulary Problem in Human-System Communication / G. W. Furnas et al. // Communications of the ACM. 1987. - Vol. 30, №11. - P. 964-971.

69. Van Rijsbergen, C.J. Information Retrieval. Boston, Butterworths, 1979. -224 p.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.