Исследование методов и разработка средств повышения точности и полноты поиска в сети Интернет тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Тихомиров, Илья Александрович

  • Тихомиров, Илья Александрович
  • кандидат технических науккандидат технических наук
  • 2006, Москва
  • Специальность ВАК РФ05.13.01
  • Количество страниц 170
Тихомиров, Илья Александрович. Исследование методов и разработка средств повышения точности и полноты поиска в сети Интернет: дис. кандидат технических наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). Москва. 2006. 170 с.

Оглавление диссертации кандидат технических наук Тихомиров, Илья Александрович

ВВЕДЕНИЕ.

Актуальность темы.

Новизна.

Цель работы.

Методы исследования.

Научная новизна.

Практическая значимость работы.

Апробация работы.

Структура и объём диссертации.

1. СУЩЕСТВУЮЩИЕ ПОИСКОВЫЕ СИСТЕМЫ И ИХ ОГРАНИЧЕНИЯ

1.1. Задача поиска и методы оценки качества поиска.

1.2. Существующие поисковые системы.

1.2.1. Традиционные системы глобального поиска.

1.2.2. Метапоисковые системы.

1.2.3. Поисковые утилиты рабочего стола.

1.2.4. Системы-надстройки над существующими продуктами.

1.2.5. Системы глобального поиска с функциями семантической обработки текстов.

1.3. Причины низкой точности и полноты поиска в современных поисковых системах.

1.4. Выводы.

1.5. Формулировка задач исследования.

2. ПРИМЕНЕНИЕ СРЕДСТВ МЕТАПОИСКА ДЛЯ ПОВЫШЕНИЯ ПОЛНОТЫ ПОИСКА.

2.1. Полуавтоматическое распознавание интерфейсов поисковых ресурсов.

2.2. Теоретико-множественное описание ДСМ-метода.

2.3. Применение ДСМ-метода для распознавания интерфейсов поисковых ресурсов.

2.4. Выводы.

3. ПРИМЕНЕНИЕ ЭЛЕМЕНТОВ ТЕОРИИ КОММУНИКАТИВНОЙ ГРАММАТИКИ ДЛЯ ПОВЫШЕНИЯ ТОЧНОСТИ ПОИСКА.

3.1. Семантический поиск и элементы теории коммуникативной грамматики.

3.2. Принципы семантической обработки текстов

3.3. Модель текста в виде семантической сети.

3.4. Выводы.

4. РАЗРАБОТКА И РЕАЛИЗАЦИЯ ОСНОВНЫХ НАУЧНО-ТЕХНИЧЕСКИХ РЕШЕНИЙ СИСТЕМЫ СЕМАНТИЧЕСКОГО МЕТАПОИСКА.

4.1. Основные научно-технические решения.

4.1.1. Режим настройки на поисковые ресурсы.

4.1.2. Режим семантического метапоиска.

4.1.3. Описания модулей системы.

4.2. Методика оценки эффективности работы поисковой системы.

4.3. Описание экспериментальной установки для оценки точности поиска.

4.4. Результаты экспериментов оценки точности поиска.

4.5. Результаты оценки качества работы модуля метапоиска.

4.6. Оценка надежности разработанной системы.

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Исследование методов и разработка средств повышения точности и полноты поиска в сети Интернет»

Актуальность темы

В связи с резким ростом объемов информации, циркулирующей в современных телекоммуникационных системах, появился ряд новых задач поиска и анализа полу структурированной информации. Среди них следует отметить задачи повышения эффективности алгоритмов поиска информации, повышение их степени универсальности (независимости от предметных областей), полноты и точности. Существующие методы поиска способны предоставить большие списки более или менее релевантных документов в ответ на запросы пользователей, однако в действительности интерес для пользователя представляют лишь очень немногие документы из этих списков. Хорошо известно, что среди найденных поисковыми системами документов достаточно большое число последних имеют слабое отношение к запросу пользователя, а ряд документов представляет собой шум. Совершенствование методов, применяемых современными поисковыми машинами, ограничено использованием в качестве запроса набором ключевых слов. Таким образом, весьма актуальным является разработка новых методов поиска, обладающих высокой степенью точности и использующих в качестве запроса связный текст на естественном языке.

Новизна

Для выражения поисковых потребностей пользователя следует представить ему адекватные средства. К таковым относится, в частности, использование естественного языка для написания запросов. Отсюда следует необходимость анализа (в том числе семантического) текста запроса и текстов искомых документов. Это означает что для повышения точности поиска требуется привлечение новых методов компьютерной лингвистики и искусственного интеллекта.

В существующих системах имеются серьезные ограничения по полноте и релевантности поиска. Ограничения по полноте поиска связаны с тем, что недостаточно используются лингвистические знания (расширение запроса синонимами и синонимическими именными группами, кореферентными конструкциями, конверсивами и т.д.). Ограничения по точности (релевантности поиска) связаны с тем, что используемые средства написания запроса (набор словоформ) не позволяют отразить действительные поисковые потребности пользователя и смысл его запроса. Существуют веские соображения в пользу того, что решение подобных задач можно получить на пути применения методов искусственного интеллекта, в частности, использовании методов семантического анализа информации. Однако при решении указанных задач приходится иметь дело с полуструктурированной и, следовательно, неформализованной информацией, например, с текстами на естественном языке, html-документами и т. д. Это, в свою очередь приводит к отсутствию замкнутых постановок и корректных алгоритмов решения.

Путь разрешения этих проблем состоит во взаимодействии механизмов увеличения полноты и релевантности поиска с методами метапоиска, машинного обучения и лингвистической семантики. Применение указанных методов и их взаимодействие целесообразно не только для выполнения семантической фильтрации информации, но и для обнаружения и автоматического анализа интерфейсов поисковых ресурсов.

Настоящая работа посвящена применению методов метапоиска, искусственного интеллекта и лингвистической семантики к задачам увеличения полноты и релевантности поиска, что свидетельствует о ее научной новизне.

Методы и алгоритмы реализованы в виде независимых программных модулей и используются в следующих проектах:

1. «Разработка программных средств смыслового поиска и анализа материалов научных исследований в области наук о жизни, опубликованных на естественных языках в научной печати и в Интернете» шифр ИТ-13.5/001, выполняемого в рамках федеральной целевой научно-технической программы «Исследования и разработки по приоритетным направлениям развития науки и техники» на 2002-2006 годы.

2. Государственный контракт № 10002-251 /ОИТВС-01/097-111/210503-178 от 6 мая 2003 г.

3. Программа фундаментальных исследований отделения информационных технологий и вычислительных систем РАН (ОИТВС РАН) "Фундаментальные основы информационных технологий и систем", проект № 2.9.

4. Проект Российского Фонда Фундаментальных Исследований № 04-0790097.

Цель работы

Целью диссертационной работы является разработка основных архитектурных и научно-технических решений построения поисковых систем нового поколения.

Для достижения поставленной цели в работе решены следующие задачи:

1. Выполнен анализ существующих поисковых систем и применяемых в них методов поиска.

2. Предложена модель текста для задачи поиска полуструктурированной информации.

3. Исследованы семантические структуры естественно-языковых высказываний с точки зрения коммуникативной грамматики.

4. Применен ДСМ-метод машинного обучения для решения задачи распознавания интерфейсов поисковых ресурсов.

5. Разработан ряд архитектурных решений системы семантического метапоиска.

6. Разработана методика оценки качества работы поисковой системы на основе использования понятия семантической релевантности поиска.

Методы исследования

В диссертационной работе использованы методы математической логики, системного анализа, теория множеств, теория представления знаний, теория коммуникативной грамматики русского языка, теория неоднородных семантических сетей [9, 36, 37].

Научная новизна

1. Впервые для задач поиска полуструктурированной информации применена теория коммуникативной грамматики русского языка [1,2] .

2. Впервые для задач поиска и семантической фильтрации информации применен формализм неоднородных семантических сетей [9].

3. Разработана модель текста, ориентированная на решение задач поиска.

4. Применен ДСМ-метод машинного обучения для решения задачи распознавания интерфейсов поисковых ресурсов.

5. Разработана методика оценки качества работы поисковой системы на основе использования понятия семантической релевантности поиска.

Практическая значимость работы

Разработанный прототип системы семантического метапоиска может быть использован как в качестве корпоративной поисковой системы, так и в качестве системы глобального поиска с функциями семантической обработки текстов и анализа естественно-языковых запросов.

Апробация работы

Основные положения работы докладывались и обсуждались на следующих научных конференциях:

1. IV российско-украинский научный семинар "Интеллектуальный анализ информации" (Киев 2004).

2. Международная конференция "Программные системы: теория и приложения" (Переславль-Залесский 2004).

3. Всероссийская научно-техническая конференция "Моделирование и обработка информации в технических системах" (Рыбинск 2004).

4. Шестая международная конференция по программированию на основе знаний JCKBSE'2004 (Протвино 2004).

5. 9-я национальная конференция по искусственному интеллекту с международным участием (Тверь 2004).

6. Компьютерная лингвистика и интеллектуальные технологии. Международная конференция Диалог'2005 (Звенигород 2005).

7. V международная конференция "Интеллектуальный анализ информации" (Киев 2005).

8. Российский семинар по Оценке Методов Информационного поиска (Ярославль 2005).

9. VI международная конференция "Интеллектуальный анализ информации" (Киев 2006).

10. 10-я национальная конференция по искусственному интеллекту с международным участием (Обнинск 2006).

Основные результаты, полученные по теме диссертационной работы, опубликованы в 11 печатных работах (в том числе 1 публикация в ведущем рецензируемом научном издании, рекомендованном ВАК, 10 публикаций в трудах научных конференций).

Структура и объём диссертации

Диссертация состоит из введения, четырех глав, основных выводов и результатов, списка литературы и приложений. Работа изложена на 170 стр. машинописного текста, содержит 4 таблицы, 16 рисунков, 4 приложения, библиография включает 90 наименований.

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Тихомиров, Илья Александрович

3.4. Выводы

Построенная синтактико-семантическая модель воплощается при программной реализации в семантический образ текста. Образ текста - это отображение текста на формальную модель. Образ состоит из программных структур, реализующих элементы модели. Для семантического анализа текста используется семантический словарь.

Следует отметить, что сеть может иметь свободные вершины, например, свободная вершина может появиться, если в запросе есть вопросительное слово. При сравнении сетей запроса и найденных документов свободную вершину будет замещать не вопросительное слово, а та синтаксема, которой оно соответствует в найденных документах. Таким образом реализуются возможность вопросно-ответного поиска.

4. Разработка и реализация основных научно-технических решений системы семантического метапоиска

4.1. Основные научно-технические решения

Автор диссертационной работы принимал непосредственное участие в разработке основных научно-технических решений в качестве ответственного исполнителя. Для описания основных научно-технических решений использована объектно-ориентированная методология, в качестве основного языка моделирования системы язык UML [45, 89].

Система состоит из нескольких компонент, связанных друг с другом. Под компонентом понимается набор логически связанных модулей, имеющих общее назначение и представляющих собой законченную подсистему. Основное связующее звено компонентов системы - база данных [90], в которой централизованно хранится основная информация. Кроме реляционной базы данных используются файловые хранилища, которые применяются в случае, когда некоторые данные нерационально хранить в общей базе данных системы. Компонентная модель системы представлена на рис. 11:

Рисунок 11. Компонентная модель системы семантического метапоиска.

Основными научно-техническими решениями системы семантического метапоиска являются:

1. Модуль WEB-интерфейса пользователя (позволяет пользователю вводить запросы на естественном языке и просматривать результаты поиска).

2. Модуль подключения поисковых ресурсов (служит для настройки на интерфейсы поисковых машин Интернет с целью использования их поисковых механизмов и индексов в качестве источника данных для метапоиска).

3. Модуль метапоиска (необходим для повышения полноты поиска за счет отправки поисковых запросов пользователя сразу на несколько поисковых машин Интернет).

4. Модуль загрузки документов (осуществляет загрузку документов, определяет их формат и кодировку, преобразует к plane text в рабочей кодировке системы и помещает в собственное хранилище документов).

5. Модуль лингвистического анализа (состоит из морфологического, синтаксического и семантического анализаторов. Модуль включает специфические функции обработки текстов и применяется для построения семантического образа запроса и найденных документов, а также вычисления релевантности).

6. Модуль семантической фильтрации (осуществляет фильтрацию найденных документов с учетом их релевантности запросу пользователя).

7. Модуль управления словарем синонимов (содержит функции по доступу к словарю и используется при расширении запроса пользователя синонимами).

8. Модуль управления словарем предикатных слов (содержит функции по доступу к словарю предикатных слов и используется в процессе семантического анализа).

Система семантического метапоиска функционирует в двух режимах:

1. Режим настройки на поисковые ресурсы.

2. Режим семантического метапоиска.

4.1.1. Режим настройки на поисковые ресурсы

Администратор запускает модуль подключения поисковых ресурсов и в полуавтоматическом режиме осуществляет настройку на интерфейс поискового ресурса. Процесс настройки представляет собой последовательный процесс.

Определяются общие параметры поискового ресурса, в которые входят: URL поискового ресурса; название ресурса; параметры html-формы поискового запроса; знаки логических операций.

Определяются контексты: ссылок на найденные документы; ссылок на следующие страницы отклика; аннотаций к найденным документам. Для определения контекстов используется супервизорный метод машинного обучения, описанный в п. 3. настоящей диссертационной работы. Администратор в интерактивном режиме предъявляет множество положительных примеров для обучения. По ним вычисляются общие для всех предоставленных примеров фрагменты HTML-кода, которые и являются результатом обучения (структурой описания поисковых ресурсов).

По завершению обучения осуществляется сборка результатов обучения и администратор осуществляет проверку сформированной структуры, а именно производит поиск с использованием поискового ресурса, на который осуществлялась настройка. В случае успешной настройки, структура описания ресурса сохраняется в хранилище, для ресурса задается название-идентификатор, и краткое описание ресурса.

Схема данных для режима настройки на поисковые ресурсы представлена на рисунке 12.

Запрос пользователя

HTML-страницы поискового ресурса

Определение общих параметров

Общие параметры

Определение контекста ссылок на найденные документы

Контекст ссылок

Получение HTML-страниц поискового ресурса

Определение контекста ссылок на следующие страницы отклика

Контекст ссылок на следующие страницы отклика

Определение контекста аннотаций

Контекст аннотаций

Рисунок 12. Схема данных для режима настройки на поисковые ресурсы.

Сначала производится настройка на общие параметры поискового ресурса, далее запускается функция интерактивного обучения. Управление временно передается программам: предоставления положительных примеров ссылок на найденные документы; предоставления положительных примеров ссылок на следующие страницы отклика; предоставления положительных примеров аннотаций к документам. Далее процесс управления передается программе автоматического обучения. Результаты интерактивного обучения сохраняются в хранилище описаний поисковых ресурсов. У администратора есть возможность произвести проверку результатов обучения. В случае успешной настройки запускается функция сохранения настроечных параметров в специализированном файловом хранилище. Схема взаимодействия программ для режима настройки на поисковые ресурсы приведена на рисунке 13.

Рисунок 13. Схема взаимодействия программ для режима настройки на поисковые ресурсы.

В таблице 1 приведены функции, действия и программы, которые их выполняют, в процессе настройки на поисковые ресурсы.

Заключение

В ходе диссертационной работы был выполнен анализ существующих поисковых систем и применяемых в них методов поиска. Анализ показал, что в существующих поисковых системах недостаточно применяются методы лингвистической семантики и методы машинного обучения.

Для задачи распознавания интерфейсов поисковых ресурсов был применен ДСМ-метод машинного обучения.

Для задачи поиска полуструктурированной информации автором была предложена модель текста, ориентированная именно на семантический поиск. Для этих целей были исследованы семантические структуры естественно-языковых высказываний с точки зрения коммуникативной грамматики русского языка.

Чтобы оценить точность поиска, а также точность и полноту метапоисковой системы, автором разработан ряд архитектурных решений системы семантического метапоиска и разработана методика оценки качества работы поисковой системы на основе использования понятия семантической релевантности поиска.

В результате диссертационной работы удалось создать прототип системы семантического метапоиска и провести его исследование. Испытания подтвердили, что прототип обладает качественно новыми характеристиками по сравнению с аналогами.

Точность и полнота поиска достигается за счет применения методов лингвистической семантики, в частности применения теории коммуникативной грамматики русского языка. Испытания подтвердили, что не смотря на медленную скорость лингвистических процессоров возможно создание прототипа поисковой системы, укладывающейся в разумные рамки по скорости поиска.

Точность и полнота распознавания в HTML-документах данных для метапоиска достигается за счет применения ДСМ-метода машинного обучения к задаче распознавания интерфейсов поисковых ресурсов. Метод по сравнению с аналогами дает существенное увеличение полноты при незначительном уменьшении точности.

Список литературы диссертационного исследования кандидат технических наук Тихомиров, Илья Александрович, 2006 год

1. Золотова Г.А., Онипенко Н. К., Сидорова М. Ю. Коммуникативная грамматика русского языка. Институт русского языка РАН им. В. В. Виноградова, М. 2004 544 с.

2. Золотова Г.А. Синтаксический словарь: Репертуар элементарных единиц русского синтаксиса. М.: Наука, 1988 - 440 с.

3. Золотова Г.А. Коммуникативные аспекты русского синтаксиса. М.: Наука, 1982.

4. Лингвистический энциклопедический словарь. Под. ред. Ярцевой В.Н. 2-е изд., доп., М.: Большая Российская Энциклопедия, 2002.

5. Осипов Г.С., Кормалев Д.А., Куршев Е.П., Сулейманова Е. А., Тихомиров И.А., Трофимов И.В. Методы и программные средства семантического поиска и анализа информации.//Труды Института Системного Анализа РАН, т.9 с. 221-230, Москва, 2004.

6. Куршев Е.П., Осипов Г.С., Рябков О.В., Самбу Е.И., Соловьева Н.В., Трофимов И.В. Интеллектуальная метапоисковая система // Труды международного семинара Диалог'2002 «Компьютерная лингвистика и интеллектуальные технологии». М., Наука, 2002. С. 320-330.

7. Осипов Г. С., Куршев Е. П., Кормалев Д.А., Трофимов И.В., Рябков О.В., Тихомиров И.А. Препринт. Семантический поиск в среде Интернет. Переславль-Залесский: ИПС РАН 2003. 37 с.

8. Тихомиров И.А. Полуавтоматическое распознавание интерфейсов Интернет-ресурсов. // Материалы первой международной дистанционной научно-практической конференции "Инновации и инвестиции: региональный опыт". Рыбинск: РГАТА, 2003.

9. Осипов Г.С. Приобретение знаний интеллектуальными системами: Основы теории и технологии. М.: Наука, Физматлит, 1997.

10. Ю.Осипов Г.С., Выборнова О. Е., Завьялова О.С., Смирнов И.В., Тихомиров И.А. Методика оценки эффективности систем информационного поиска//

11. Сборник трудов VI международной конференции Интеллектуальный Анализ Информации ИАИ'2006, г. Киев, стр. 214-227

12. П.Арутюнова Н.Д. Предложение и его смысл. М.: Наука, 1976.

13. Кормалев Д.А., Куршев Е.П., Осипов Г.С., Сулейманова Е.А., Трофимов И.В. Методы поиска и анализа информации. Автоматическое извлечение данных. Препринт. Переславль-Залесский: ИПС РАН, 2003.

14. Nahm U. Y., Mooney R. J. Mining soft-matching rules from textual data // IJCAI-2001 Pp. 979-986.

15. Кормалев Д. А., Куршев Е. П., Сулейманова Е. А., Трофимов И. В. Приложения технологии извлечения информации из текстов: теория и практика // Вестник РУДН. М., 2003. - Т. 2 №1. - С. 118-125.

16. Агеев М.С., Вершинников И.С., Добров Б.В. Извлечение значимой информации из web-страниц для задач информационного поиска // "Интернет-Математика-2005": семинар в рамках Всеросс. науч. конф. RCDL'2005 Яндекс, 2005. - С.283-301.

17. Keijola М. On Smart and Natural Language Technology Support of Strategy Work. Helsinki University of Technology, 2003.

18. Tapanainen P., Jarvinen T. A non-projective dependency parser // Proceedings of the 5th Conference on Applied Natural Language Processing, USA, 1997.

19. Ермаков A.E., Плешко B.B., Митюнин B.A. RCO Pattern Extractor: компонент выделения особых объектов в тексте. // Информатизация и информационная безопасность правоохранительных органов: XI Международная научная конференция. Сборник трудов М., 2003.

20. Ермаков А.Е., Плешко В.В. Синтаксический разбор в системах статистического анализа текста // Информационные технологии. 2002. -N7.

21. Ермаков А.Е. Компьютерная лингвистика и анализ текста // Мир ПК. -2002.-N9.

22. Ермаков А.Е. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтеза // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2003. Москва, Наука, 2003.

23. Ajay Hemnani and Stephane Bressanlnformation Extraction Tree Alignment Approach to Pattern Discovery in Web Documents.//Proceedings of the 13th International Conference on Database and Expert Systems Applications. Springer-Verlag, London, UK 2002.

24. Freitag, D. Information Extraction from HTML: Application of a general Machine Learn-ing Approach.// In Proc. 15th National Conference on Artificial Intelligence, 1998.

25. Soderland, S. Learning Information Extraction Rules for Semi-structured and Free Text.// Machine Learning, 1999, vol. 34.

26. Rahardjo, В.: Information Extraction from Web using Matching techniques. PhD Dissertation, National University of Singapore (2001).

27. Doorenbos, R.B., Etzioni, O., Weld, D. S.: A scalable comparison-shopping agent for the World Wide Web. In Proc. 1st international conference on Autonomous Agents. ACM Press., NewY ork (1997) 39-48

28. Yih, W.T.: Template-based Information Extraction from Tree-structured HTML Documents. PhD Dissertation, National Taiwan University (1997).

29. Финн В.К. Правдоподобные рассуждения в интеллектуальных системах типа ДСМ. Итоги науки и техники. Информатика, Т.15, М.: 1991, с. 54101.

30. Финн В.К. Об особенностях ДСМ-метода как средства интеллектуального анализа данных, НТИ, сер.2, №5,2001, с. 1-4.

31. Козлов Е.Б., Метелкин А.В., Нарушев Е.С., Соколов Д.И., Хорошевский В.Ф. Метапоиск в Интернет на основе онтологий предметных областей Труды Всероссийской научной конференции "Научный сервис в сети Интернет 2001" стр. 57-60

32. Khoroshevsky V.F., Maikevich N.V. Intelligent Processing of Web-Resourses: Ontology-Based Approach and Multiagent Support, Accepted to CEEMAS-99, St.-Peterburg, Junel999.

33. Беляев А.Б., Голубев С.А., Сулейманова Е.А. Система выявления семантической структуры текста. В сб. Программные системы: теоретические основы и приложения, М. Физматлит, 1999, стр.122-130

34. Г. К. Бронников. Семантика без синтаксиса. // Труды международного семинара Диалог'2002 по компьютерной лингвистике и ее приложениям. -Протвино, 2002, т. 1, с. 27-34.

35. Апресян Ю.Д. Экспериментальное исследование семантики русского глагола. Москва, "Наука", 1967.

36. Сокирко А. В. Морфологические модули на сайте www.aot.ru, // Труды Международного семинара Диалог'2004 по компьютерной лингвистике и ее приложениям. Верхневолжский, 2004,

37. Зализняк А.А. Грамматический словарь русского языка М.: Русский язык, 1980 г.

38. Кормалев Д.А., Куршев Е.П., Сулейманова Е.А., Трофимов И.В. Извлечение данных из текста. Анализ ситуаций ньюсмейкинга. // КИИ-2002. Труды конференции, т.1 М., Физматлит, 2002.

39. Г. Буч. Объектно-ориентированный анализ и проектирование. М.: «Издательство Бином», 2000.

40. Эрик Дж. Нейбург, Роберт А. Максимчук; Проектирование баз данных с помощью UML. 288 стр., 2002 г.

41. A. Arampatzis, Т. van der Weide, С. Koster, and P. van Bommel. Linguistically motivated information retrieval. 69, December 2000. To appear. Currently available on-line from http://www.cs.kun.nl/ avgerino/encyclopTR.ps.Z.

42. Sergey Brin, Lawrence Page. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, 30(17):107117, 1998.

43. Яндекс: Базовые поисковые возможности.http ://help .yandex.ru/search/?id=481936.

44. James A. Danowski. Wordij: A word-pair approach to information retrieval. In TREC, pages 131J36, 1992.

45. Adelberg В.: NoDoSE: A Tool for Semi-Automatically Extracting Structured and Semi-Structured Data from Text Documents. SIGMOD Record, 27(2), (1998), 283-294.

46. Ashish N. and Knoblock C.: Wrapper Generation for Semi-structured Internet

47. Sources. In Proc. of Workshop on Management of Semi-structured Data, (1997)

48. Baumgartner R., Flesca S. and Gottlob G.: Visual Web Information Extraction with Lixto. In Proceedings of the 27th International Conference on Very Large Data Bases, (2001), 119-128

49. Berners-L.T., Hendler J., Lassila 0.: Semantic Web. Scientific American, (2001)

50. Buttler D., Liu L. and Pu C.: A Fully Automated Object Extraction System for the World Wide Web. In Proceedings of the 21th International Conference on Distributed Computing Systems, (2001), 361-370

51. Cohen W. W. and Jensen L. S.: A Structured Wrapper Induction System for Extracting Information from Semi-structured Documents. In Proceedings of IJCAI2001 Workshop on Adaptive Text Extraction and Mining, (2001)

52. Document Object Model (DOM): http://www.w3.org/DOM/

53. Embley D. W., Campbell D. M., Jiang Y. S., Liddle S. W., Ng Y.-K., Quass D. and Smith R. D.: A Conceptual-Modelling Approach to Extracting Data from the Web. In Proc. of Int. Conference on Conceptual Modelling. (1998), 78-91

54. Gerbe O. and Mineau G. W.: The CG Formalism as an Ontolingua for Web

55. Oriented Representation Languages. In Proceedings of the ICCS 2002, Springer

56. Verlag, LNAI2392, (2002), 205-219

57. Kokkoras F., Sampson D. and Vlahavas I.: A Knowledge Based Approach on Educational Metadata Use. Post-proc. 8th Panhellenic Conf. in Informatics, Y.Manolopoulos, S. Evripidou and A. Kakas (Eds.), Springer, LNCS 2563, (2003)

58. Kokkoras F., Jiang H., Vlahavas I., Elmagarmid A. K., Houstis E. N. and Aref W. G.: Smart VideoText: A Video Data Model based on Conceptual Graphs. ACM-Multimedia Systems Journal, Springer, Vol.8, (2002), 328-338

59. Kushmerick N., Weld D. S. and Doorenbos R. В.: Wrapper Induction for Information Extraction. In Proceedings of the 15th International Joint Conference on Artificial Intelligence, (1997), 729-737

60. Laender A.H.F., Ribeiro-Neto В .A. and da Silva A.S.: DEByE Data Extraction by Example. Data and Knowledge Engineering, 40(2), (2001), 121154

61. Laender A., Ribeiro-Neto В., da Silva A. and Teixeira J.: A Brief Survey of Web Data Extraction Tools. SIGMOD Record, 31(2), (2002)

62. Liu L., Pu C. and Han W.: XWRAP: An XML-Enabled Wrapper Construction System for Web Information Sources. In Proceedings of the 16th IEEE International Conference on Data Engineering, (2000), 611-621

63. Muslea I., Minton S. and Knoblock C.: Wrapper induction for semi structured information sources. Journal of Autonomous Agents and Multi-Agent Systems, 16(12), (1999)

64. Sahuguet A. and Azavant F.: Building intelligent web applications using lightweight wrappers. Data and Knowledge Engineering, 36(3), (2001), 283316

65. Sowa J.: Conceptual Structures: Information Processing in Mind and Machine. Addison-Wesley Publishing Company, (1984)

66. Yamada Y., Ikeda D. and Hirokawa S.: Automatic Wrapper Generation for Multilingual Web Resources. In Proceedings of the 5th International Conference on Discovery Science, Springer-Verlag, LNCS 2534, (2002), 332339

67. G. Dias, S. Guillore, J-C. Bassano, and J.G. Pereira Lopes. Combining linguistics with statistics for multiword terra extraction: A fruitful association?

68. Proc. of Recherche (informations Assistee par Ordinateur 2000 (RIAO'2000), 2000.

69. Massimo Melucci Franco Crivellari. Web document retrieval usingcppsage retrieval, connectivity information, and automatic link weighting. In The Tenth Text REtrieval Conference (TREC 2001), pages 624633, 2001.

70. Donna Harman. What we have learned, and not learned, from tree. In Proc. of the BCS IRSG'2000, pages 220.

71. Hideki Kozima. Text segmentation based on similarity between words. In Meeting of the Association for Computational Linguistics, pages 286 288, 1993.

72. George A. Mihaila Krishna Bharat. Hilltop: A search engine based on expert documents, http://www.cs.toronto.edu/~georgem/hilltop/, 2003.

73. M.L. Mauldin. Lycos: Design choices in an internet search service. Technical report, 1997.

74. Markus Mittendorfer and Werner Winiwarter. Exploiting syntactic analysis of queries for information retrieval. Data Knowl. Eng., 42(3):315325, 2002.

75. Christof Monz. Computational semantics and information retrieval. In Proceedings of the 2nd Workshop on Inference in Computational Semantics (ICoS-2), pages 15,2000.

76. G.B. Newby. Information space based on html structure. In Proceedings of TREC9, pages 600601, 2000.

77. Jay M. Ponte and W. Bruce Croft. Text segmentation by topic. In European Conference on Digital Libraries, pages 113125, 1997.

78. M. Cutler Y. Shih and W. Meng. Using the structure of html documentsto improve retrieval. In USENIX symposium on Internet Technologiesand Systems (NISTS'97), pages 241251, 1997.

79. Amit Singhal and Marcin Kaszkiel. A case study in web search using tree algorithms, pages 708716, 2001.

80. Fei Song and W. Bruce Croft. A general language model for information retrieval (poster abstract). In Research and Development in Information Retrieval, pages 279280, 1999.

81. T. Takaki. Ntt data: Overview of system approach at trec-8 ad-hoc and question answering. In Proc. of the 8'th Text REtrieval Conference, 2000.

82. Ellen M. Voorhees. Natural language processing and information retrieval. In Information Extraction: Towards Scalable, Adaptable Systems, pages 3248, 1999.

83. C. Zhai, X. Tong, N. Milic-Frayling, and D. Evans. Evaluation of syntactic phrase indexing clarit nip track report. In The Fifth Text Retrieval Conference (TREC-5). NIST Special Publication, 1997.

84. Губин M.B. Исследование качества информационного поиска с использованием пар слов. In Труды RCDL-2003, pages 186 191, 2003.

85. Российский Семинар по Оценке Методов Информационного Поиска. http ://romip .narod .ru.

86. Booch G. Object-Oriented Analysis And Design With Application, second edition. The Benjamin/Cummings Publishing Company, Inc. 1994. 589 p.

87. Эрик Дж. Нейбург, Роберт А. Максимчук; Проектирование баз данных с помощью UML. 288 стр., 2002 г.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.