Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Чугреев, Валерий Леонидович

  • Чугреев, Валерий Леонидович
  • кандидат технических науккандидат технических наук
  • 2003, Санкт-Петербург
  • Специальность ВАК РФ05.13.01
  • Количество страниц 185
Чугреев, Валерий Леонидович. Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации: дис. кандидат технических наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). Санкт-Петербург. 2003. 185 с.

Оглавление диссертации кандидат технических наук Чугреев, Валерий Леонидович

ВВЕДЕНИЕ.

1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ И ПОСТАНОВКА ЗАДАЧ ИССЛЕДОВАНИЯ.

1.1. Введение в информационно-поисковые системы.

1.2. Обзор моделей поиска и методов тематического анализа текстовой информации.

1.4. Постановка задач исследования.

1.5. Выводы.

2. РАЗРАБОТКА МОДЕЛИ СТРУКТУРНОГО ПРЕДСТАВЛЕНИЯ И МЕТОДА ТЕМАТИЧЕСКОГО АНАЛИЗА ТЕКСТА.

2.1. Графовая модель структурного представления текста произвольного содержания.

2.2. Метод частотно-контекстной классификации тематики текста.

2.3. Алгоритм вычисления степени тематической принадлежности текста к образцу.

2.4. Алгоритм поиска значений информационных признаков тематики текста.

2.5. Выводы.

3. ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ МОДЕЛИ СТРУКТУРНОГО ПРЕДСТАВЛЕНИЯ И МЕТОДА ТЕМАТИЧЕСКОГО АНАЛИЗА ТЕКСТА.

3.1. Организация поиска.

3.2. Программная реализация графовой модели структурного представления текста произвольного содержания.

3.3. Программная реализация метода частотно-контекстной классификации тематики текста.

3.4. Программная реализация алгоритма вычисления степени тематической принадлежности текста к образцу.

3.5. Программная реализация алгоритма поиска значений информационных признаков тематики текста.

3.6. Выводы.

4. ПРОВЕДЕНИЕ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ.

4.1. Планирование эксперимента.

4.2. Результаты экспериментальных исследований метода частотно-контекстной классификации.

4.3. Результаты экспериментальных исследований алгоритма вычисления степёни тематической принадлежности текста к образцу.

4.4. Результаты экспериментальных исследований алгоритма поиска значений информационных признаков тематики текста.

4.5. Результаты экспериментальных исследований сравнения точности вычисления тематической близости.

4.5. Выводы.

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации»

Накопленные к настоящему времени колоссальные объемы информации, в совокупности с непрерывно увеличивающимися темпами ее роста определяют актуальность и значимость исследований в области информационного поиска. Бурное развитие сетевых технологий, в том числе и Интернета, способствуют значительному увеличению доступных информационных ресурсов и объемов передаваемой информации. Зачастую это разнородная, слабо структурированная и избыточная информация, обладающая высокой динамикой обновления.

При сегодняшних объемах доступной информации решение задач информационного поиска становится не только приоритетным, но и элементарно необходимым для обеспечения своевременного доступа к интересующей информации.

Существует ряд авторитетных международных конференций, посвященных обсуждению вопросов информационного поиска [13]. Это такие известные конференции как:

TREC (Text REtrieval Conference) - цикл конференций организованный под эгидой NIST (National Institute for Standards and Technology) - одного из авторитетных органов стандартизации информационных технологий в США;

SIGIR (Special Interest Group on Information Retrieval) - цикл конференций проводимых ACM SIGIR (ACM - Association of Computing Machinery) — международной группой специалистов по информационному поиску.

WWW (World Wide Web) Conference - специально организованная конференция по решению задач, связанных с Интернет.

Высокий авторитет конференций TREC, SIGIR, WWW и участие в них ведущих исследовательских коллективов и разработчиков технологий информационного поиска во многом определяет приоритетные направления исследований и задает общие принципы развития поисковых систем.

Из наших отечественных конференций, посвященных вопросам информационного поиска, нужно отметить ежегодную всероссийскую ^ конференцию "Электронные библиотеки" (RCDL) и семинар по компьютерной лингвистике "Диалог".

Также необходимо отметить ряд отечественных научных школ:

• SPBU IR Group — исследовательская группа в области информационного поиска (Санкт-Петербургский Государственный Университет);

• Исследовательский центр ИИ ИПС РАН; у

• Центр информационных исследований (НИВЦ МГУ).

Кроме того, существуют коммерческие организации, занимающиеся не только вопросами исследований, но и вопросами внедрения информационных технологий, это такие известные организации как Яндекс, Рамблер, Апорт, НейрОК, Гарант-Парк-Интернет, Галактика-Зум, ABBYY-FTR, АОТ и др.

Ряд авторитетных исследователей внесли своими научными трудами значительный вклад в развитие информационно-поисковых систем: И.С. Некрестьянов, И.Е. Кураленок, В.Ю. Добрынин, Дубинский А.Г., А.Е. Ермаков, М.Р. Когаловский, А.В. Сокирко, G. Salton, A. Singhal, М. Mitra, S. Lawrence, P. Foltz, E. Fox, J. Cho, R. Baeza-Yates, K. Tajima, C. Van Rijsbergen, L. Gravano, J. Kleinberg.

Существует широкий спектр предлагаемых решений и перспективных направлений исследований в области информационного поиска, начиная от построения глобальных распределенных информационных структур и поисковых систем, заканчивая элементарными на первый взгляд вопросами анализа документов. Все они, безусловно, важны и полезны при решении своих специфических задач. Тем не менее, именно от методов анализа во многом Ч зависит эффективность существующих поисковых систем, т.к. они являются основой любой поисковой системы и во многом определяют возможности и ограничения этих систем. Ф

Помимо этого существует еще один важный фактор, определяющий, на наш взгляд, эффективность любого информационного поиска — это человеческий фактор. Зачастую в большинстве исследований, относящихся к информационному поиску, этот фактор либо игнорируется, либо его значение во многом недооценивается. Но именно человек в конечном итоге пользуется разработанными информационно-поисковыми системами. Учет человеческого фактора, специфики его работы, предпочтений и ожиданий является * перспективным и многообещающим направлением исследований.

Представленные на сегодняшний день в большинстве популярных поисковых систем способы организации полнотекстового поиска и методы анализа документов не учитывают в достаточной мере как раз человеческий фактор. А именно, не учитывается тот факт, что во многом поиск определяется слабо формализуемыми и нечеткими условиями, в значительной степени зависящими от опыта и предпочтений самого человека. Далеко не всегда пользователь информационно-поисковой системы может четко и однозначно сформулировать именно тот набор ключевых слов, который и приведет его к ^ искомому результату. Речь идет о варианте поиска на основе формирования информационных запросов, состоящих из набора ключевых слов и некоторых управляющих элементов языка запроса. Этот вариант поиска наиболее распространен и методологически проработан на сегодняшний день.

Сложность формирования информационных запросов может быть обусловлена:

• незнанием набора ключевых слов, однозначно определяющих искомый документ; $ • отсутствием достаточного опыта и квалификации формирования таких запросов;

• отсутствием принятой и устоявшейся терминологии в интересующей области.

Нередко человек, осуществляющий поиск, имеет самое приблизительное представление об интересующей его тематике.

Все это обуславливает актуальность и значимость исследований, направленных на решение одной из ключевых проблем информационного поиска — проблемы адекватного отображения информационных потребностей пользователей.

Одним из вариантов решения этой проблемы является поиск документов по образцу, когда человек задает некоторый документ в качестве образца, а система, реализующая данный вариант поиска подбирает документы подобные заданному (подобные по содержанию, тематике).

Анализ существующих исследований, посвященных решению задач поиска документов по образцу, выявил крайне незначительное число готовых и апробированных, решений, что во многом связано с отсутствием достаточно проработанной теории и практики решения задач тематического анализа неструктурированной, естественно-языковой текстовой информации произвольного содержания. Эффективное решение задач такого анализа применительно к реализации поиска документов по образцу и составляет суть диссертационной работы.

Цель работы: метод тематического анализа неструктурированной текстовой информации для эффективного решения задач поиска документов по образцу.

В основе работы лежит модель структурного представления текста в виде ориентированного мультиграфа, а также способы формирования и анализа такой модели применительно к решению задач поиска документов по образцу. А именно, решению двух основных задач, позволяющих реализовать поиск документов по образцу [35]:

1. Выделение тематики документа.

Тематика отражает содержание документа и включает в себя множество ключевых слов, находящихся в некоторой зависимости друг от друга. Один из вариантов такой зависимости - весовые коэффициенты, отражающие значимость того или иного слова в конкретной тематике.

В работе представлен метод, реализующий автоматизированное выделение тематики как для одного документа, так и для набора близких в тематическом отношении документов, т.е. тематическое обобщение набора документов.

2. Вычисление тематической близости документов.

Именно результат вычисления тематической близости, в конечном счете, и определяет результат поиска. Как правило, результат поиска дает множество документов, в той или иной мере удовлетворяющим условиям поиска.

Вычисляя значения тематической близости, эти документы можно проранжировать по степени значимости для пользователя. В работе представлен алгоритм вычисления тематической близости документов.

На защиту выносятся следующие результаты:

1. Графовая модель структурного представления текста произвольного содержания.

2. Метод частотно-контекстной классификации тематики текста.

3. Алгоритм вычисления степени тематической принадлежности текста к образцу.

4. Алгоритм поиска значений информационных признаков тематики текста.

Научная новизна полученных результатов.

Основная научная новизна состоит в том, что разработанная модель, метод и алгоритмы позволяют эффективнее решать задачи поиска документов по образцу, в том числе: 9 i

1. Графовая модель структурного представления текста произвольного содержания отличается учетом связности и последовательности текста, что позволяет более полно отразить его семантическое содержание.

2. Метод частотно-контекстной классификации тематики текста отличается дополнением частотно значимых слов контекстно-связанными с ними словами, что позволяет более точно отобразить тематику текста.

3. Алгоритм вычисления степени тематической принадлежности текста к образцу отличается использованием частотных весов отдельных слов с учетом их контекстной спецификации, что позволяет более точно вычислить степень тематической принадлежности произвольного текста к тексту-образцу.

4. Алгоритм поиска значений информационных признаков тематики текста отличается минимизацией разницы экспертных и вычисленных оценок тематической принадлежности, что позволяет более точно классифицировать тематику текста и учесть субъективную составляющую при определении степени тематической принадлежности.

Практическая значимость результатов диссертационной работы состоит в использовании модели, метода и алгоритмов для решения задач поиска документов по образцу, а также для решения общих задач ^ тематического анализа и обработки речевых высказываний.

Модель, метод и алгоритмы, предложенные в диссертационной работе, позволяют значительно повысить точность и адекватность тематического анализа. Их реализация применительно к решению задач поиска документов по образцу позволяет повысить качество и эффективность такого поиска.

Практическая значимость диссертации подтверждается актами о внедрении результатов исследования в Администрации г. Вологды, Управлении по делам гражданской обороны и чрезвычайным ситуациям г. Вологды, ООО Ф "Премьер-Информ".

Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложения.

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Чугреев, Валерий Леонидович

4.5. Выводы

Результаты экспериментальных исследований успешно подтвердили выдвинутые ранее теоретические положения. Тестирование программной реализации разработанного метода и алгоритмов показало высокую точность и корректность полученных значений.

Вместе с тем, стоит отметить сложность оценки полученных результатов, и значительное влияние субъективной составляющей, присутствующей при оценке. Отчасти это вызвано характером и особенностью решаемых в данной работе задач, отчасти отсутствием формализованных методик оценки подобных исследований. Разработка таких методик может значительно упростить анализ результатов и однозначно определить их корректность и точность.

ЗАКЛЮЧЕНИЕ

В работе рассмотрены теоретические и практические вопросы решения задач поиска документов по образцу. Разработаны: модель структурного представления текстовой информации, метод и алгоритмы ее тематического анализа, позволяющие реализовать тематическую классификацию и вычисление степени тематической принадлежности текста к образцу. Предложенная модель, метод и алгоритмы могут использоваться как для решения конкретных задач поиска документов по образцу, так и для решения общих задач тематического анализа и обработки речевых высказываний.

Также в диссертации заложен базис для дальнейшей теоретической и практической проработки методик экспериментальной оценки корректности и эффективности методов и алгоритмов тематического анализа.

Можно выделить следующие основные результаты, полученные в диссертации:

1. Анализ текущего состояния информационно-поисковых систем, современного состояния исследований в области поиска документов по образцу и существующих методов тематического анализа.

2. Графовая модель структурного представления текста произвольного содержания, позволяющая отобразить семантическую связность и последовательность текста в виде структуры.

3. Метод частотно-контекстной классификации тематики текста, позволяющий выделять тематику текста в виде множества ключевых слов с весами, характеризующими значимость данных слов в тематике.

4. Алгоритм вычисления степени тематической принадлежности текста к образцу, позволяющий получать количественную оценку тематической близости текстов.

5. Алгоритм поиска значений информационных признаков тематики текста, позволяющий учесть субъективный характер оценки тематической близости текстов, и настроить систему, реализующую поиск документов по образцу под конкретного пользователя.

6. Программная реализация модели структурного представления текстовой информации и методов ее тематического анализа.

7. Экспериментальная оценка корректности и эффективности выносимых на защиту результатов.

Разработанная модель, метод и алгоритмы позволяют значительно повысить точность и адекватность тематического анализа. Их реализация применительно к решению задач поиска документов по образцу позволяет значительно повысить качество и эффективность такого поиска.

Программное обеспечение, разработанное в рамках диссертационной работы, нашло свое применение в ряде инженерных проектов, ориентированных на решение задач документооборота и информационно-справочного обеспечения.

Практическая значимость диссертации подтверждается актами о внедрении результатов исследования в Управлении по делам гражданской обороны и чрезвычайным ситуациям г. Вологды, Администрации г. Вологды, ООО "Премьер-Информ".

Основные положения и отдельные результаты работы докладывались и обсуждались на следующих конференциях и семинарах:

- на общероссийской научно-технической конференции "Вузовская наука - региону", (Вологда 2003 г.);

- на международной научно-технической конференции "Информатизация процессов формирования открытых систем на основе САПР, АСНИ, СУБД и систем искусственного интеллекта (ИНФОС - 2003)", (Вологда 2003 г.).

В качестве направлений дальнейших исследований можно выделить: разработка методологии оценки качества и эффективности тематического анализа; разработка алгоритма поиска значений информационных признаков тематики текста для произвольного числа оцениваемых экспертом текстов; разработка модели поиска на основе структурного представления текста.

Список литературы диссертационного исследования кандидат технических наук Чугреев, Валерий Леонидович, 2003 год

1. Ахутина Т. В. Порождение речи. Нейро-лингвистический анализ синтаксиса М.: МГУ, 1989.-215 с.

2. Белянин В.П. Введение в психолингвистику. — Изд. 2-е, испр. и доп., — М.: ЧеРо, 2000.-128 с.

3. Боровиков В. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов. 2-е изд. СПб.: Питер, 2003. - 688 с.

4. Добрынин В.Ю., Некрестьянов И.С., Задача выбора тематических ф коллекций, релевантных запросу. // Труды Всероссийской научнометодической конференции "Интернет и современное сообщество", Санкт-Петербург, декабрь 1998.

5. Дубинский А.Г. Разработка моделей и совершенствование структуры систем информационного поиска в глобальной компьютерной сети: Диссертационная работа к.т.н.: 05.13.06 / Днепропетровский национальный университет. Днепропетровск, 2002.

6. Дубинский А.Г. Проблема автоматизации поиска информации в глобальной сети // Проблемы автоматизации информационных технологий. Днепропетровск, 1999. - С. 40-48.

7. Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. 2001. - №4. - С. 77-83.

8. Ермаков А.Е. Полнотекстовый поиск: проблемы и их решение // Мир ПК. — 2000. -N5.

9. Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задаче классификации // Информационные технологии. 2000. - N 12.

10. Иванов В., Некрестьянов И., Пантелеева Н. Расширение представления документов при поиске в Веб // Труды четвертой всероссийской конференция RCDL'2002. В двух томах. Т.2. Дубна, 2002. - С. 55-68.

11. Когаловский М. Р. Перспективные технологии информационных систем. — М.: ДМК Пресс; М.: Компания АйТи, 2003. 288 с.

12. Когаловский М.Р. Энциклопедия технологий бах данных. — М.: Финансы и статистика, 2002. 800 с.

13. Кураленок И.Е., Некрестьянов И.С. Оценка систем текстового поиска // Программирование. 2002. - N4. - С. 226-242.

14. Лурия А.Р. Основы нейропсихологии М.: МГУ, 1973. — 374 с.

15. Некрестьянов И., Пантелеева Н. Системы текстового поиска для Веб // Программирование. — 2002. — N4.

16. Некрестьянов И.С., Добрынин В.Ю., Клюев В.В. Оценка тематического подобия текстовых документов // Труды второй всероссийской научной конференции "Электронные библиотеки". Протвино, 2000. - С. 204-210.

17. Некрестьянов И.С. Тематико-ориентированные методы информационного поиска: Диссертационная работа к.т.н.: 05.13.11 / Санкт-Петербургский государственный университет — СПб., 2000. 80 с.

18. Романова Е.В., Романов М.В., Некрестьянов И.С. Использование интелектуальных сетевых роботов для построения тематических коллекций // Программирование. — 2000. N3. - С. 63-71.

19. Семенова С.Ю. Поиск параметрической информации в тексте: алгоритмический и лексикографический аспекты // Труды Международного семинара Диалог'96 по компьютерной лингвистике и приложениям. М., 1996. - С. 227-230.

20. Советский энциклопедический словарь / Научно-редакционный совет: A.M. Прохоров (пред.). М.: "Советская энциклопедия", 1981. — 1600 с.

21. Сэлтон Г. Автоматическая обработка, хранение и поиск информации: Пер. с англ. / Под ред. А.И. Китова. М.: Советское радио, 1973. - 560 с.

22. Фрумкина P.M. Психолингвистика: Учебник для студентов высших учебных заведений. М.: Издательский центр "Академия", 2001. - 320 с.

23. Чугреев В.Л., Моделирование систем искусственного интеллекта. // Перспективные технологии автоматизации: Тезисы докладов международной электронной научно-технической конференции. — Вологда: ВоГТУ, 1999.- С. 151-152.

24. Чугреев В.Л., Моделирование систем искусственного интеллекта. // Молодые исследователи — региону: Тезисы докладов Второй областной межвузовской студенческой научной конференции. Вологда: ВоГТУ, 2000.-С. 5-6.

25. Чугреев В.Л., Объектно-ориентированное программирование — перспективы развития. // Современные проблемы информатизации в технике и технологиях: Труды 5-й Международной электронной научной конференции. Воронеж: ЦЧКИ, 2000. - С. 99-100.

26. Чугреев В.Л., Расширение искусственных нейронных сетей применительно к задачам прогнозирования. // Молодые исследователи региону: Материалы межрегиональной научной конференции студентов и аспирантов. - Вологда: ВоГТУ, 2002. - С. 231-232.

27. Чугреев В.Л., Яковлев С.А., Выделение критериев поиска текста на основе подобия значимых документов. // ВУЗОВСКАЯ НАУКА РЕГИОНУ: Материалы 1-й Общероссийской нучн.-техн. конф. — Вологда: ВоГТУ, 2003.-С. 200-202.

28. Чугреев B.JI., Яковлев С.А., Анализ структуры текста и прогнозирование нечисловых величин. // ВУЗОВСКАЯ НАУКА РЕГИОНУ: Материалы 1-й Общероссийской нучн.-техн. конф. - Вологда: ВоГТУ, 2003. — С. 202204.

29. Aalbersberg I.J. Incremental relevance feedback. In Proceedings of the Fifteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 11-22, 1992.

30. Aggarwal С. C., Al-Garawi F., Yu P. S. Intelligent crawling on the world wide web with arbitrary predicates. In Proc. of the WWW10, pp. 96-105, May 2001.

31. Agichtein E., Lawrence S., Gravano L. Learning search engine specific query transformations for question answering. In Proc. of the WWW10, pp. 169-178, 2001.

32. Allan J. Incremental relevance feedback. In Proceedings of the 19th International Conference on Research and Development in Information Retrieval (SIGIR '96), pages 298-306, April 1996.

33. Amento В., Terveen L., Hill W. Does "authority" mean quality? Predicting expert quality ratings of web documents. In Proc. of the SIGIR'00, pp. 296-303, 2000.

34. Arasu A., Cho J., Garcia-Molina H., Paepcke A., Raghavan S. Searching the web. ACM Transactions on Internet Technology, l(l):2-43, Aug. 2001.

35. Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. ACM Press, 1999.

36. Baker D. and McCallum A. Distributional clustering of words for text classification. In Proceedings of the SIGIR'98, pages 96-103,1998.

37. Bharat K., Broder A. A technique for measuring the relative size and overlap of public Web search engines. In Proc. of the WWW7, 1998.

38. Bharat K., Broder A. Z., Dean J., Henzinger M. R. A Comparison of Techniques to Find Mirrored Hosts on the WWW. IEEE Data Engineering Bulletin, 23(4):21-26, 2000.

39. Brown E.W. Execution Perfomance Issue in Full-Text Information Retrieval. Dissertation. University of Massachusetts. Departament of Computer Science. February 1996.

40. Callan J. Learning while filtering documents. In Proc. of SIGIR'98, pages 224231, Melbourne, Australia, 1998.

41. Chakrabarti S., Berg M., Dom B. Focused Crawling: A New Approach to Topic-Specific Web Resource Discovery. In Proc. of the WWW8, May 1999.

42. Chang H., Cohn D., McCallum A. K. Learning to Create Customized Authority Lists. In Proc. of the ICML'OO, pp. 127-134, 2000.

43. Cho J., Garcia-Molina H. The Evolution of the Web and Implications for an Incremental Crawler. The VLDB Journal, pp. 200-209, 2000.

44. Cho J., Shivakumar N., Garcia-Molina H. Finding replicated Web collections. In Proc. of the SIGMOD'OO, pp. 355-366,2000.

45. Cohn D., Chang H. Learning to Probabilistically Identify Authoritative Documents. In Proc. of the ICML'OO, pp. 167-174, 2000.

46. Craswell N., Bailey P. Is it fair to evaluate Web systems using TREC ad hoc methods? In Proc. of the SIGIR'99, 1999.

47. Craswell N., Hawking D., Robertson S. Effective site finding using link anchor information. In Proc. of the SIGIR'01,2001.

48. Cruz I. F., Borisov S., Marks M. A., Webb T. R. Measuring Structural Similarity Among Web Documents: Preliminary Results. In Proc. of the EP'98, pp. 513524,1998.

49. Czumaj A., Finch I., Gasieniec L., Gibbons A., Leng P., Rytter W., Zito M. Efficient Web Searching Using Temporal Factors. In Proc. of the WADS'99, pp. 294-305, 1999.

50. Davison В. D. Topical locality in the Web. In Proc. of the SIGIR'OO, pp. 272279,2000.

51. Dean J., Henzinger M. Finding Related Pages in the World Wide Web. In Proc. of the WWW8, 1999.

52. Ding L., Shivakumar N. Computing Geographical Scopes of Web Resources. In j Proc. of the VLDB'00, Sep 2000.

53. Dreilinger D., Howe A. E. Experiences with Selecting Search Engines Using Metasearch. ACM Transactions on Information Systems, 15(3):195-222,1997.

54. Dublin Core Metadata Element Set Reference Description, Version 1.1, 199907-02. http:/purl.org/dc/documents/proposedrecommendations/pr-dces-19990702.html.

55. Dumais S. Latent semantic indexing: TREC-3 report. In Proc. of the Third Text ф REtrieval Conference, 1995.

56. Edwards J., McCurley K., Tomlin J. An adaptive model for optimizing performance of an incremental web crawler. In Proc. of the WWW10, pp. 106113, May 2001.

57. Finkelstein L., Gabrilovich E., Matias Y., Rivlin E., Solan Z., Wolfman G., Ruppin E. Placing search in context: the concept revisited. In Proc. of the1. WWW10, pp. 406-414, 2001.

58. Flake G., Lawrence S., Giles C. L. Efficient Identification of Web Communities. In Proc. of the SIGKDD'OO, pp. 150-160, Aug. 2000.

59. Foltz P.W. Using latent semantic indexing for information filtering. In ACM Conference on Office Information Systems (COIS), pages 40-47, 1990.

60. Gibson D., Kleinberg J. M., Raghavan P. Inferring web communities from link topology. In Proc. of the UK Conference on Hypertext, pp. 225-234, 1998.

61. Gravano L. Querying Multiple Document Collections Accross the Internet. PhD thesis, Stanford University, Aug 1997.

62. Gruber T. A translation approach to portable ontology specifications. Knowledge Acquisition, 5(2), 1993, pp. 199-220.

63. Harman D. Latent semantic indexing (LSI) and TREC-2. In Proc. of the Second Text REtrieval Conference, 1994.

64. Hatano K., Sano R., Duan Y., Tanaka K. An Interactive Classification of Web Documents by Self-Organizing Maps and Search Engines. In Proc. of the DASFAA'99, pp. 35-42, 1999.

65. Hatzivassiloglou V., Gravano L., and Maganti A. An investigation of linguistic features and clustering algorithms for topical document clustering. In Proc. of the SIGIR'2000,2000.

66. Haveliwala T. Efficient computation of PageRank. Technical report, Stanford Database Group, Oct. 1999.

67. Hawking D., Craswell N. Which Search Engine is best at finding Online Services? In Proc. of the WWW10, 2001.

68. Hawking D., Craswell N., Bailey P., Griffiths K. Measuring Search Engine Quality. Information Retieval, 4(l):33-59, 2001.

69. Hawking D., Craswell N., Thistlewaite P. В., Harman D. Results and Challenges in Web Search Evaluation. In Proc. of the WWW8, pp. 243-252, 1999.

70. Henzinger M., Heydon A., Mitzenmacher M., Najork M. Measuring Index Quality Using Random Walks on the Web. In Proc. of the WWW8, 1999.

71. Henzinger M., Heydon A., Mitzenmacher M., Najork M. On Near-Uniform URL Sampling. In Proc. of the WWW9,2000.

72. Heydon A., Najork M. Mercator: A Scalable, Extensible Web Crawler. World Wide Web, 2(4):219-229, 1999.

73. Hirai J., Raghavan S., Garcia-Molina H., Paepcke A. WebBase: A repository of web pages. In Proc. of the WWW9, 1999.

74. Howe A. E., Dreilinger D. SawySearch: A Metasearch Engine That Learns Which Search Engines to Query. AI Magazine, 18(2): 19-25, 1997.

75. Huang L., Hemmje M., Neuhold E. J. ADMIRE: An Adaptive Data Model for Meta Search Engines. In Proc. of the WWW9, pp. 165-174, 2000.

76. Ipeirotis P., Gravano L., Sahami M. Probe, Count, and Classify: Categorizing Hidden-Web Databases. In Proc. of SIGMOD'Ol, 2001.

77. Jansen B. J., Spink A., Saracevic T. The Use of Relevance Feedback on the Web: Implications for Web IR System Design. In Proc. of the WebNet'99, pp. 550-555, 1999.

78. Jansen B. J., Spink A., Saracevic T. Real life, real users, and real needs: a study and analysis of user queries on the web. Information Processing and Management, 36(2):207-227,2000.

79. Jing Y., Croft W.B. An Association Thesaurus for Informationa Retrieval. Department of Computer Science, University of Massachusetts at Amherst, 1994.

80. Kahle B. Preserving the Internet. Scientific American, pp. 82-83, Mar. 1997.

81. Kleinberg J. M. Authoritative sources in a hyperlinked environment. Journal of the ACM, 46(5):604-632,1999.

82. Landauer Т., Foltz P., and Laham D. An introduction to latent semantic analysis. Discourse Processes, 25:259-284.

83. Lawrence S. Context in Web Search. IEEE Data Engineering Bulletin, 23(3):25-32,2000.

84. Lawrence S., Bollacker K., Giles C. L. Indexing and Retrieval of Scientific Literature. In Proc of the CIKM'99, pp. 139-146, Nov. 1999.

85. Lawrence S., Giles C. L. Inquirus, The NECI Meta Search Engine. In Proc. of the WWW7, pp. 95-105, 1998.

86. Lawrence S., Giles C. L. Searching the World Wide Web. Science, 280(4):98-100, 1998.

87. Lawrence S., Giles C. L. Searching the Web: General and Scientific Information Access. IEEE Communications, 37(1): 116-122, 1999.

88. Lawrence S., Giles C. L. G. Accessibility of information on the web. Nature, 400:107-109,1999.

89. Lempel R., Moran S. The stochastic approach for link-structure analysis and the TKC effect. In Proc. of the WWW9, 2000.

90. Lifantsev M. Voting Model for Ranking Web Pages. In Proc. of the IC'00, pp. 143-148, 2000.

91. Liu K.-L., Meng W., Yu С. Т., Rishe N. R. Discovery of Similarity Computations of Search Engines. In Proc. of the CIKM'00, pp. 290-297,2000.

92. Mark M., Cornelis J. v. R. The potential and actual effectiveness of interactive query expansion. In Proc. of the SIGIR'97, pp. 324-332, 1997.

93. Maron M.E., Kuhns J.L. On relevance, probabilistic indexing and information retrieval. Jornal of the ACM, No. 7,1960, pp. 216-244.

94. McCurley К. S. Geospatial Mapping and Navigation of the Web. In Proc. of the WWW10, 2001.

95. Melnik S., Raghavan S., Yang В., Garcia-Molina H. Building a distributed full-text index for the web. In Proc. of the WWW10, pp. 396-405, May 2001.

96. Meng W., Liu K.-L., Yu С. Т., Wu W., Naphtali R. Estimating the Usefulness of Search Engines. In Proc. of the ICDE'99, pp. 146-153, 1999.

97. Merkl D. A Handbook of Natural Language Processing: Techniques and Applications for the Processing of Language as Text, chapter Text data mining. Marcel Dekker, New York, 1998.

98. Najork M., Wiener J. L. Breadth-first search crawler yields high-quality pages. In Proc. of the WWW10, pp. 114-118, May 2001.

99. Patel A., Petrosjan L., Rosenstiel W., editors. OASIS: Distributed Search System in the Internet. St. Petersburg State University Published Press, St. Petersburg, 1999.

100. Qui Y. and Frei H. Concept based query expansion. In Proc. of the SIGIR'93, pages 160-169, Pitsburgh, USA, 1993.

101. Raghavan S., Garcia-Molina H. Crawling the hidden web. In Proc. of the VLDB'01, Sept. 2001.

102. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval. Information Processing and Management, 24:513-523, 1988.

103. Salton G., McGill M. J. Introduction to modern Information Retrieval. McGraw-Hill Computer Science Series. McGraw-Hill, New York, 1983.

104. Salton G., Allan J., and Singhal A. Automatic text decomposition and structuring. Information Processing & Management, 32(2): 127-138,1996.

105. Salton G., Singhal A., Mitra M., and Buckley C. Automatic text decomposition and summarization. Information Processing & Management, 33(2): 193-208, 1997.

106. Salton G., Fox E., and Wu H. Extended Boolean information retrieval. Communications of the ACM, Vol. 26, No. 4, December 2001, pp. 35-43.

107. Shivakumar N., Garcia-Molina H. Finding Near-Replicas of Documents on the Web. In Proc. of the WebDB'99, 1999.

108. Singhal A. Modern Information Retrieval: A Brief Overview. Data Enginering Bulletin, IEEE Computer Society, Vol. 24, No. 4, December 2001, pp. 35-43.

109. Singhal A., Kaszkiel M. A case study in web search using TREC algorithms. In Proc. of the WWW10, pp. 708-716, 2001.

110. Singhal A., Mitra M., and Buckley C. Learning routing queries in a query zone. In Proc. of the SIGIR'97, pages 25-32, July 1997.

111. Stata R., Bharat K., and Maghoul F. The term vector database: fast access to indexing terms for web pages. In Proc. of the WWW-9, May 2000.

112. Stephen D., Ravi K., Kevin M., Sridhar R., Sivakumar D., Andrew T. Self-similarity in the Web. In Proc. of the VLDB'01, Sept. 2001.

113. Stephen B. Hunter-Gatherer: Applying Constraint Satisfaction, Branch-and-Bound and Solution Synthesis to Natural Language Semantics NMSU CRL Technical Report. MCCS-96-292.

114. Tajima K., Hatano K., Matsukura Т., Sano R., Tanaka K. Discovery and Retrieval of Logical Information Units in Web. In Proc.of the WOWS'99, Aug. 1999.

115. Tajima K., Mizuuchi Y., Kitagawa M., Tanaka K. Cut as a Querying Unit for WWW, Netnews, and E-mail. In Proc. of Hypertextr98, pp. 235-244, June 1998.

116. The 25th ACM SIGIR 2002 Conference, 11-15 August 2002, Tampere, Finland. http://www.sigir2002.org/html/aresofinterest.htm.

117. Turtle H. R. Inference Networks for Document Retrieval. Dissertation. University of Massachusetts. Department of Computer and Information Science. February 1991.

118. Voorhees E., Harman D. Overview of the ninth text retrieval conference. In Proc. of the TREC9, pp. 1-15,2000.

119. Yang Y., Pederson J. Feature selection in statistical learning of text categorization. In Proc. of the ICML'97, pages 412-420, 1997.

120. Zeinalipour-Yazti D., Dikaiakos M. High-Performance Crawling and Filtering in Java. In Proc. of the 8th Panhellenic Conference on Informatics, volume 2, pp. 377-386, Nov. 2001.

121. Zhang D., Dong Y. An efficient algorithm to rank web resources. In Proc. of the WWW9, pp. 449-455,2000.

122. Zhu X., Gauch S. Incorporating quality metrics in centralized/distributed information retrieval on the World Wide Web. In Proc. of the SIGIR'00, pp. 288295,2000.

123. Zonghuan W., Weiyi M., Clement Y., Zhuogang L. Towards a highly-scalable and effective metasearch engine. In Proc. of the WWW10,2001.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.