Контекстно-ассоциативный метод уточнения поисковых запросов с обратной связью по релевантности тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Беляев, Дмитрий Владимирович

  • Беляев, Дмитрий Владимирович
  • кандидат физико-математических науккандидат физико-математических наук
  • 2006, Москва
  • Специальность ВАК РФ05.13.11
  • Количество страниц 135
Беляев, Дмитрий Владимирович. Контекстно-ассоциативный метод уточнения поисковых запросов с обратной связью по релевантности: дис. кандидат физико-математических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Москва. 2006. 135 с.

Оглавление диссертации кандидат физико-математических наук Беляев, Дмитрий Владимирович

ВВЕДЕНИЕ.

Глава 1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ. ПОСТАНОВКА

ЗАДАЧ ИССЛЕДОВАНИЯ.

1.1. Определения используемых терминов.

V|Tv 1.2. Постановка задачи уточнения поисковых запросов.

1.3. Подходы к решению задач полнотекстового информационного поиска.

1.3.1. Виды полнотекстового информационного поиска.

1.3.2. Классификация моделей полнотекстового поиска.

1.3.3. Обзор моделей полнотекстового поиска.

1.4. Подходы к решению задачи уточнения поисковых запросов

1.4.1. Классификация методов уточнения поисковых запросов

1.4.2. Обзор методов уточнения поисковых запросов.

1.5. Выводы по главе.

Глава 2. КОНТЕКСТНО-АССОЦИАТИВНАЯ МОДЕЛЬ ТЕКСТОВЫХ ДОКУМЕНТОВ ф 2.1. Модель смысловых контекстов текста.

2.1.1. Построение словаря терминов.

2.1.2. Определение смысловых контекстов текстового документа

2.1.3. Свойства смысловых контекстов текстового документа

2.2. Контекстно-ассоциативная модель текста.

2.3. Алгоритм решения задачи уточнения запросов.

2.4. Выводы по главе.

Глава 3. ОЦЕНКА ЭФФЕКТИВНОСТИ МЕТОДА УТОЧНЕНИЯ

• ПОИСКОВЫХ ЗАПРОСОВ.

3.1. Планирование экспериментов.

3.1.1. Тестовые коллекции электронных документов.

3.1.2. Тестовые наборы заданий

3.1.3. Выбор информационно-поисковой системы.

3.1.4. Критерии оценки.

3.2. Эффективность решения задачи уточнения поисковых запросов

3.2.1. Оценка оптимальных параметров.

3.2.2. Анализ влияния уровня контекстно-ассоциативной сети

3.2.3. Оценка устойчивости к ошибкам пользователей.

3.3. Эффективность решения задачи поиска п,о документу-образцу

3.4. Сравнительный анализ применения контекстно-ассоциативного метода.

3.4.1. Подготовка и проведение экспериментов.

3.4.2. Результаты экспериментов.

3.5. Выводы по главе.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Контекстно-ассоциативный метод уточнения поисковых запросов с обратной связью по релевантности»

Теоретические исследования в области автоматизированных полнотекстовых информационно-поисковых систем (ИПС) начались в связи с появлением первых компьютерных хранилищ электронных текстовых документов [39, 50, 21, 100]. В настоящее время миллиарды документов стали доступными в электронной форме, созданы десятки тысяч электронных библиотек практически по всем областям человеческих знаний, многие из которых носят распределенный характер. Важную роль в этом процессе сыграло появление и развитие глобальных сетей передачи данных, и, в первую очередь, сети Интернет.

Большинство существующих в настоящее время современных ИПС основаны на хорошо известных и апробированных методах информационного поиска [33, 49, 50, 18]. Эти методы ориентированы, прежде всего, на решение общей задачи информационного поиска в хранилищах электронных документов, расположенных в компьютерных сетях общего пользования, и учитывают специфику и тенденций развития этих сетей [80, 44]. К таким тенденциям можно отнести: быстрый рост числа новых документов и высокие темпы изменения уже имеющихся, низкую степень структурированности документов и избыточность (дублирование) информации [47, 13] и т.д.

По типу и целевому назначению хранилища электронных документов можно условно разделить на несколько видов:

• электронные средства массовой информации, такие как Gazeta.Ru, RBC.Ru, ленты новостей (Lenta.Ru, Top.RBC.Ru и т.д.), электронные версии традиционных "бумажных" периодических изданий (Kommersant.Ru, Vedomosti.Ru и т.д.);

• электронные библиотеки — книжно-журнальная продукция, хранящаяся в электронном виде в фондах обычных или полностью электронных библиотек — электронные каталоги и хранилища Российской государственной библиотеки (RSL.Ru), Государственной публичной научно-технической библиотеки России (GPNTB.Ru), других библиотек, фондов, таких как Научная электронная библиотека, созданная при содействии РФФИ (ELibrary.Ru), а также электронные библиотеки ряда высших учебных заведений, охватывающих большой объем публикаций в виде научных статей, книг, рефератов научно-технических журналов, патентной информации и учебной литературы;

• коллекции документов целевого назначения — тексты, вводимые в компьютер специально для информационного обеспечения определенных видов деятельности (например, информационно-поисковые правовые системы "Консультант Плюс", "Кодекс", "Гарант" и т.п.)

Одной из наиболее известных электронных библиотек общего доступа в сети Интернет является архив научных статей из области компьютерных и информационных технологий CiteSeer (http://citeseer.ist.psu.edu/), созданный в NEC Research Institute и содержащий библиографические ссылки, тексты и индекс цитирования публикаций, сделанных в этой области за последние 20 лет.

Тенденции быстрого роста числа и объема электронных хранилищ текстов обуславливают интерес к решению задач полнотекстового поиска в предметно-ориентированной литературе, которые имеют свою специфику и требуют разработки новых или модификации уже имеющихся информационно-поисковых методов, использующих анализ особенностей терминологического состава и структуры хранилищ электронных документов [31, 29, 26, 27].

В России проблемами исследования методов информационного поиска занимается достаточно большое число групп специалистов, среди которых И.Е. Кураленок, И.С. Некрестьянов, В.Ю. Добрынин (СПбГУ, Санкт-Петербург), М.С. Агеев (НИВЦ МГУ, Москва), Б.В. Добров (УИС РОССИЯ, Москва), П.И. Браславский (ИМаш УрО РАН, Екатеринбург), В.В. Плешко, А.Е. Ермаков ("Гарант-Парк-Интернет", Москва), М. Губин ("Кодекс", Санкт-Петербург), М.Р. Когаловский (ИПР РАН, Москва), А.В. Сокирко ("АОТ", Москва), И.В. Сегалович ("Яндекс", Москва), И.С. Ашманов, В.И. Шабанов ("Рамблер", Москва), А.В. Антонов, B.C. Мешков ("Галактика", Москва), А.Н.Федоровский ("Mail.Ru", Москва), О.Г. Чанышев (ИИТПМ СО РАН, Омск), В.Л. Чугреев (ЛЭТИ, Санкт-Петербург) и др.

Вопросам исследований в области информационного поиска посвящены всероссийская конференция "Электронные библиотеки: перспективные методы и технологии"(RCDL), являющаяся одной из секций АСМ SIGMOD, международная конференция по компьютерной лингвистике и интеллектуальным технологиям "Диалог", а также Российский семинар по Оценке Методов Информационного Поиска (РОМИП), начавший свою ежегодную работу в 2003 году и ставший российским аналогом международных конференций по исследованиям, анализу и оценке методов информационного поиска: Text Retrieval Conference (TREC, США), Cross Language Evaluation Forum (CLEF, EC), ACM Special Interest Group on Information Retrieval (SIGIR), NII-NACSIS Test Collection for IR Systems (NTCIR, Япония).

Несмотря на достаточно высокий современный уровень исследований, в теории информационного поиска остается ряд открытых проблем, одной из которых является проблема неоднозначного выбора терминов, используемых пользователями ИПС в поисковых запросах. Эта проблема состоит в том, что пользователи ИПС часто применяют для описания ключевых понятий термины, отличные от терминов, которые используют авторы для описания тех же понятий в текстах [24]. Эта проблема является особенно актуальной в случае поиска в технической и специализированной литературе. В общем случае данную проблему можно сформулировать следующим образом: новые или неопытные пользователи неверно или неточно выражают свою информационную потребность ключевыми словами и, как следствие, получают информацию, не соответствующую их информационным потребностям [74].

В большинстве случаев найденные в ходе поиска документы оказываются нерелевантными (т.е. не соответствующими по смыслу или требованиям) информационной потребности пользователя ИПС, что обусловлено:

• неумением большинства пользователей ИПС сформулировать запрос, используя средства языка запросов конкретной ИПС;

• отсутствием у ряда пользователей ИПС предметных знаний, позволяющих подобрать правильные ключевые термины;

• различием между поисковой релевантностью, являющейся оценкой степени соответствия найденных документов запросу, и релевантностью, которая является мерой соответствия этих документов информационной потребности пользователя ИПС.

Несмотря на то, что ключевые термины не всегда хорошо описывают смысловое содержание искомых документов, подавляющее большинство ИПС основываются исключительно на поиске по ключевым словам. Это объясняется тем, что пользователям ИПС проще выразить свою информационную потребность на привычном им естественном языке в виде нескольких, по их мнению - ключевых, терминов.

Однако, практика показывает, что в общем случае два различных человека (автор искомого документа и пользователь ИПС) используют один и тот же термин для описания одного и того же понятия менее чем в 20% случаев [74].

Эта проблема стоит еще более остро для коротких поисковых запросов: чем длиннее запрос, тем больше вероятность того, что наиболее важные термины из искомых документов попадут в поисковый запрос. Тем не менее, пользователи ИПС обычно не склонны выражать свою информационную потребность в виде длинных поисковых запросов или использовать специальные средства, позволяющие более точно формулировать запрос (например, языки поисковых запросов). Практика показывает, что поисковые запросы, включающие более 2-х терминов, встречаются реже чем в 25% от общего числа случаев, а запросы из 4-х и более терминов — менее чем в 2% случаев [13].

В большинстве случаев решение этой проблемы сводится к работе, связанной с итерационным переформулированием исходного запроса, которую пользователь ИПС берет на себя. Несмотря на высокий уровень исследований в теории информационного поиска, методики уточнения поисковых запросов "вручную" в настоящее время играют ключевую роль для эффективного применения ИПС. Тот факт, что в настоящее время проводятся соревнования среди специалистов по поиску в Web (например, "Кубок Яндекса"), лишний раз показывает актуальность подобных методик и сложность их практического использования.

Вышеперечисленное обуславливает актуальность разработки и внедрения специальных средств, связанных с решением задачи уточнения поисковых запросов, в связи с чем в теории информационного поиска возникло направление, связанное с исследованием, методов автоматизации процесса уточнения поисковых запросов. В рамках этого направления актуальной остается проблема разработки модели естественно-языковых текстов, которая бы позволила проводить их совместный анализ с целью выделения и оценки значимости общих ключевых терминов, что, в частности, позволило бы применять ее в алгоритмах уточнения поисковых запросов с обратной связью по релевантности с пользователями ИПС.

Цель работы — разработка независимого от применяемой ИПС метода уточнения поисковых запросов с использованием обратной связи по релевантности (т.е. по соответствию результатов поиска информационным потребностям пользователей ИПС), основанного на анализе найденных в результате поиска по исходному запросу документов, которые пользователь ИПС выделил в качестве релевантных его информационным потребностям.

Для достижения цели диссертационной работы решаются следующие основные задачи:

1. Выделение смысловых контекстов текстовых документов, представляющих собой фрагменты текста, в которых наблюдаются устойчивые связи между определенными группами терминов.

2. Построение контекстно-ассоциативной модели для структурированной коллекции документов, позволяющей оценить значимость смысловых контекстов в рамках текстового документа, определить ключевые термины документа и дать количественную оценку их смысловой значимости в анализируемом текстовом документе.

3. Разработка метода уточнения запросов посредством использования ключевых терминов из документов, помеченных пользователем ИПС как релевантные исходному запросу.

4. Планирование и проведение экспериментальной оценки эффективности метода уточнения поисковых запросов путем анализа результатов поиска с использованием критериев оценки точности и полноты поиска, а также сравнительного критерия оценки качества поиска по исходному и уточненному запросам.

На защиту выносятся следующие результаты:

1. Модель смысловых контекстов текстового документа.

2. Контекстно-ассоциативная модель текстового документа.

3. Алгоритм определения ключевых терминов документа и количественной оценки их смысловой значимости в анализируемом текстовом документе.

4. Метод уточнения поисковых запросов посредством обратной связи по релевантности с применением контекстно-ассоциативной модели.

Научная новизна полученных результатов состоит в разработке контекстно-ассоциативной модели текстовых документов и исследовании эффективности ее применения для решения задачи уточнения поисковых запросов методом обратной связи по релевантности.

Методы исследования. При проведении исследований был использован математический аппарат алгебры множеств и методов прикладной лингвистики.

Практическая ценность работы позволяет использовать полученные модели, алгоритмы и метод для решения задач уточнения поисковых запросов при разработке прикладных информационно-поисковых систем, а также в задачах, связанных с анализом терминологического состава исследуемых текстов.

Пакет программ, реализующий разработанные в диссертационной работе методы и алгоритмы, автономен, не требует от пользователей предварительного изучения применяемых в нем методов и может использоваться в качестве модуля уточнения поисковых запросов в информационно-поисковых системах, реализующих полнотекстовые методы информационного поиска по ключевым словам.

Результаты работы внедрены в качестве математического и программного обеспечения:

• модуля информационного поиска в электронной библиотеке учебно-методических пособий кафедры N805 "Математическая кибернетика" МАИ;

• подсистемы информационного поиска "Медицинской информационно-консультационной системы (МИС)" (патент на изобретение N 2207623 от 16.02.2001).

Апробация работы. Основные положения и результаты диссертационной работы обсуждались и докладывались на:

• VIII Международном научно-техническом семинаре "Современные технологии в задачах управления, автоматики и обработки информации" (Алушта, 1999);

• Научной сессии "МИФИ-2000" (Москва, 2000);

• III Международной конференции "Авиация и космонавтика-2004" (Москва, 2004);

• XIV Международной конференции по Вычислительной Механике и Современным Прикладным Программным Системам (ВМСППС'2005, Алушта).

Экспериментальная проверка эффективности применения разработанного метода на различных тестовых коллекциях электронных документов была осуществлена в рамках участия в III Российском семинаре по Оценке Методов Информационного Поиска (РОМИП'2005, Ярославль).

Публикации. По теме диссертационной работы опубликовано 9 печатных работ.

Структура и объем работы. Диссертационная работа состоит из введения, 3 глав, заключения, списка использованных источников из 108 наименований и 2 приложений. Общий объем работы - 135.страниц. Основной текст работы изложен на 1-12 страницах, из которых 8 страниц занимают графики и таблицы.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Беляев, Дмитрий Владимирович

3.5. Выводы по главе

1. Поведено планирование эксперимента для оценки эффективности применения разработанного алгоритма уточнения поисковых запросов с обратной связью по релевантности, в ходе которого были созданы:

• тестовые коллекции электронных документов;

• тестовые задания, моделирующие информационную потребность пользователей ИПС.

2. Осуществлена экспериментальная проверка эффективности применения алгоритма уточнения поисковых запросов с обратной связью по релевантности, основанного на предложенной контекстно-ассоциативной модели. Оценка эффективности, проведенная на коллекциях электронных документов различной тематической направленности выявила хорошую применимость предложенного алгоритма для уточнения поисковых запросов:

• при поиске в тематических коллекциях текстов небольшого объема (новостные статьи, страницы Web-сайтов);

• при поиске в коллекциях текстов из областей с устоявшейся терминологией (техническая документация, нормативно-правовые документы);

• в качестве математического обеспечения модуля уточнения запросов в ИПС, осуществляющих поиск в Web.

3. Осуществлена экспериментальная проверка применимости алгоритма уточнения поисковых запросов в задаче поиска по документу-образцу, принадлежащему коллекции электронных документов, в которой производится поиск. Оценка эффективности решения задачи поиска по документу-образцу показала применимость предложенного алгоритма к этому виду задач. При этом для его эффективного применения необходим контроль за положением документа-образца при поиске по исходному и уточненному запросу.

4. В ходе экспериментов проведен анализ влияния параметров предложенной контекстно-ассоциативной модели на эффективность работы алгоритма уточнения поисковых запросов и даны рекомендации по выбору:

• уровня контекстно-ассоциативной сети — не выше 2;

• числа терминов, используемых при построении уточненных запросов — 4-5 ключевых термина;

• объема релевантной выборки (рекомендуемого числа документов, которые пользователь ИПС должен указать в качестве релевантных) — 3-4 документа.

5. Получена экспериментальная оценка влияния ошибок пользователей ИПС на результаты работы алгоритма.

ЗАКЛЮЧЕНИЕ

Основным итогом диссертационной работы является метод уточнения поисковых запросов с применением обратной связи по релевантности с пользователями информационно-поисковых систем, использующий контекстно-ассоциативные модели документов, признанных релевантными среди результатов поиска по исходному запросу.

В работе получены следующие результаты:

1. Сформулирована математическая постановка задачи уточнения информационно-поисковых запросов с использованием обратной связи по релевантности, рассмотрены критерии оценки эффективности ее решения и сформулирован сравнительный критерий оценки качества поиска по исходному и уточненному запросу.

2. Разработана и апробирована математическая модель смысловых контекстов, учитывающая терминологический состав произвольных текстов на естественном языке и отражающая наличие смысловых связей между группами терминов в различных фрагментах анализируемых текстов. Исследованы свойства модели смысловых контекстов и доказана возможность ее построения для произвольного текстового документа.

3. Разработана и апробирована контекстно-ассоциативная модель, позволяющая количественно оценивать значимость ассоциативных связей между смысловыми контекстами и эффективно выделять ключевые термины анализируемых текстов.

4. Разработан и исследован метод уточнения поисковых запросов с обратной связью по релевантности, использующий свойства контекстно-ассоциативной модели и позволяющий строить уточненные поисковые запросы, улучшающие качество поиска.

5. Осуществлена программная реализация модели смысловых контекстов, контекстно-ассоциативной модели и метода уточнения поисковых запросов в виде модуля, который может применяться совместно с различными информационно-поисковыми системами, основанными на методах поиска по ключевым словам.

6. Проведена экспериментальная оценка эффективности применения предложенного метода, позволившая выявить его применимость к коллекциям электронных документов различного типа, оценить оптимальные параметры используемых в нем моделей и выявить устойчивость метода к ошибкам пользователей.

Список литературы диссертационного исследования кандидат физико-математических наук Беляев, Дмитрий Владимирович, 2006 год

1. Беляев Д.В. Экспериментальная проверка применения контекстно-Ф ассоциативных моделей в задаче уточнения поисковых запросов.//Информационные технологии и програм-мирование: Межвузовский сборник статей. Вып. 2 (14) - М.: МГИУ, 2005. - с. 19-30.

2. Беляев Д.В. Повышение эффективности поиска экономической и правовой информации.// Экономические науки: Современная экономика*(Приложение) N 4, 2005. - с. 5-18.

3. Беляев Д.В. Ассоциативная модель смысловых контекстов и ее применение в задаче уточнения поисковых запросов.'// Электронный журнал "Труды МАИ". — 2005, N18 — http://www.mai.ru/projects/maiworks/articles/numl8/article9/auther.htm— 17 С.

4. Беляев Д.В. Ассоциативная модель структурированной коллекции текстовых документов и ее применение для уточнения запросов. —^ В кн.: Тезисы докладов III Международной выставки-конференции"Авиация и Космонавтика-2004". — М.: Изд-во МАИ, 2004. — с. 134136.

5. Беляев Д.В. Применение информационно-поисковых систем в технологии дистанционного обучения. — В. сб. трудов VI Международного совещания-семинара (24-26 сентября 2002 г.), под ред. Климовско-го А.Б. — Ульяновск: УлГТУ, 2002. - с. 71-73.

6. Беляев Д.В., Семенов В.В. Семантический поиск в текстовых массивах. — В кн.: Научная сессия МИФИ-2000. Сборник научных трудов. В 13 томах. Т.2. М.: МИФИ, 2000. - с. 124-125.

7. Агеев М.С., Кураленок И.Б. Официальные метрики РОМИП. — В кн.: Труды третьего российского семинара РОМИП'2005 (Ярославль, 6 октября 2005 г.) - Санкт-Петербург: НИИ Химии СПбГУ, 2005. -224 с.

8. Альсведе Р., Вегенер И. Задачи поиска. М.: Мир, 1982.

9. Ахо А., Хопкрофт Дж., Ульман Дж. Построение и анализ вычислительных алгоритмов. М.: Мир, 1979.

10. Ашманов И.С. Национальные особенности поисковых систем// Компьютер в школе, N1, 2000.

11. Ашманов И.С. Автоматический поиск документов: осознанная необходимость/ / http://www.medialingua.ru/dos/mlingua/Refs/autosrch.htm

12. Враславский П., Колычев И. eXtragon: экспериментальная система для автоматического реферирования веб-документов// Труды третьего российского семинара РОМИП'2005 (Ярославль, 6 октября 2005 г.)- Санкт-Петербург: НИИ Химии СПбГУ, 2005. - с. 40-53.

13. Гаскаров Д.В. Интеллектуальные информационные системы. М.: Изд-во "Высшая школа", 2003.

14. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. — М.: Наука. Главная редакция физико-математической литературы, 1985. — 144 с.

15. Гринберг И., Гарбер Ли. Разработка новых технологий информационного поиска. Открытые системы, NN9-10, 1999.

16. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры// Информационные технологии. — 2000. — N 11.щ 24. Ермаков А.Е. Полнотекстовый поиск: проблемы и их решение//

17. Мир ПК. N5, 2000. - http://www.osp.ru/pcworld/2001/05/064.htm щ (15.05.2001)

18. Зацман И.М. Электронные библиотеки научных документов в Интер-ф нет: структуризация, формальное описание и поиск невербальной информации// Научно-техническая информация (серия 2 "Информацией1 онные процессы и системы"). - 1998. No 11.

19. Когаловский М.Р. Перспективные технологии информационных систем. - М.: ДМК-Пресс, 2003, 288 с.

20. Кураленок И.Е., Некрестьянов И.С. Оценка систем текстового поиска// Программирование.28(4), 2002. - С. 226-242.

21. Лукашевич Н.В., Салий А.Д. Представление знаний в системе автоматической обработки текстов// НТИ, Сер.2. 1997. N3. С. 1-6.

22. Некрестьянов И.С., Некрестьянова М.С., Нозик А. К вопросу об эффективности метода общего котла. — В кн. Труды Седьмой Всероссийской научной конференции (RCDL'2005). Ярославль, 4-6 октября 2005 г. — Ярославль: ЯрГУ им. П.Г. Демидова, 2005. - 288 с.

23. Некрестьянов И.С., Пантелеева Н. Системы текстового поиска в Web// Программирование.28(4), 2002. - С.207-225.

24. Попов И.И. Оценка и оптимизация информационных систем. — М.: МИФИ, 1981.

25. Попов И.И., Храмцов П.Б. Распределение частоты встречаемости терминов для линейной модели информационного потока. НТИ, Сер.2, N2, 1991, стр. 23-26.

26. Попов Э.В. Общение с ЭВМ на естественном языке. — М.: Наука, 1982. - 360 с.

27. Попов Э.В. Разработка технологии и методов общения конечных пользователей с реляционными БД на ограниченно естественном языке. — Научная сессия МИФИ-2000. Сборник научных трудов В 13 томах.■ Т.З. М.: МИФИ, 2000. - 228 с.

28. Решентников В.Н. Алгебраическая теория информационного поиска// Программирование. — 1979, N3. — С.68-74.

29. Сэлтон Дж. Динамические библиотечно-информационные системы. М.: Мир, 1979.

30. Уилкинсон Дж. X. Алгебраическая проблема собственных значений М., 1970 г. 564 с.

31. Финн В.К. К формальному определению понятия информационно-поисковой системы// Науч.-техн. информ. Сер. 2, Информ. процессы и системы. 1981. N5. С. 5-15.

32. Форсайт Дж., Малькольм М., Моулер К. Машинные методы математических вычислений./Пер. с англ.-М.:Мир, 1980. 279 с.

33. Хан У, Мани И. Системы автоматического реферирования// Открытые системы, 2000. — N12. Эл. версия: http://www.osp.ru/os/2000/12/067print.html

34. Храмцов П.Б. Информационно-поисковые системы в Internet, Открытые системы, N3, 1996, стр. 46-51.

35. Allan J. Relevance Feedback With Too Much Data. Research and Development in Information Retrieval, 337-343, 1995.

36. Arsau A., Cho J., Garcia-Molina H., Paepcke A. and Raghavan S. Searching the web. ACM Transactions on Internet Technology, 1(1), pp. 2-43, 2001.

37. Attar R., Fraenkel T.S. Local feedback in full-text retrieval systems. Journal of the Association for Computing Machinery, 24(3), July 1977, pp. 397-417.

38. Baeza-Yates R.A., Ribeiro-Neto B. Modern Information Retrieval. ACM Press, 1999.

39. Bartschi M. An Overview of Information Retriveal Subjects, IEEE Computer, N5, 1985, pp. 67-84.

40. Belkin N.J., Vickery A. Interaction in Information Systems: A Review of Research from Document Retrieval to Knowledge-Based Systems. London: British Library; 1985.

41. Berry M.W., Dumais S.T., and Letsche T.A. Computational Methods for Intelligent Information Access. Proceedings of Supercomputing'95, San Diego, CA, December 1995.

42. Bookstein A., Swanson D.R. Probabilistic models for automatic indexing. Journal of the American Society for Information Science 25 (5), 1974, pp. 313-318.

43. Brooks T. The Semantic Distance Model of Relevance Assessment. In Proc. of the annual meeting of ASIS, pp. 33-44, 1998.

44. Buckley C., Singhal A., Mitra M., Salton G. New retrieval approaches using SMART: TREC 4. In Harman D., editor, Proceedings of the TREC-4 Conference, pages 25-48, 1996.

45. Buckley C., Salton G., Allan J., Singhal A. Automatic query expansion using SMART, TREC 3. Overview of the Third Text REtrieval Conference (TREC-3), NIST, November 1994, pp. 69-80.

46. Buckley C., Mitra M., Walz J., Cardie C. Using clustering and superconcepts within SMART. In Proceedings of the 6th text retrieval conference (TREC-6), E. Voorhees ed., 1998, pp. 107-124.

47. Caid W., Dumais S., Gallant S. Learned vector-space models for document retrieval. Information Processing and Management, 31(3):419-429, 1995.

48. Carpineto C., Romano G. Effective reformulation of Boolean queries with concept lattices, In Proceedings of the 3rd International Conference on Flexible Query-Answering Systems, Roskilde, Denmark, 1998, pp. 83-94.

49. Carpineto C., Romano G., Bigi B. An information-theoretic approach to automatic query expansion, ACM Transactions on Information Systems, 19(1), January 2001, pp. 1-27.

50. Cody Т.К., Oren E., and Daniel S.W. Scaling question answering to the web. In Proc. of the WWW10, pages 150-161, May 2001.

51. Croft W.B., Harper D.J. Using probabilistic models of document retrieval without relevance information. Journal of Documentation, 35:285-295, 1979.

52. Crouch C.J., Yang B. Experiments in automatic statistical thesaurus construction, In Proceedings of the ACM-SIGIR Conference on Researchand Development in Information Retrieval, Copenhagen, Denmark, 1992, pp. 77-88.

53. Cutting D., Karger D., Pedersen J., and Tukey J. Scatter/gather: A cluster-based approach to browsing large document collections. In Proc. ACM SIGIR, pages 318-329, 1992.

54. Draper S. Mizzaro's framework for relevance// http://staff.psy.gla.ac.uk/ steve/stefano.html

55. Dublin Core Metadata Element Set Reference Description, Version 1.1, 02.07.1999// http://dublincore.org/documents/.

56. Dumais S., Furnas G., and Landauer T. Using latent semantic analysis to improve access to textual information. In Proceedings of Computer Human Interaction '88, pp. 281-285, 1988.

57. Dumais S., Deerwester S., Furnas G., Landauer Т., and Harshman R. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41(6):391-407, 1990.

58. Efthimiadis E. Query expansion, In: Williams, Martha E., ed, Annual Review of Information Systems and Technology, Vol.31, 1996, pp. 121— 187.

59. Efthimiadis E., Biron P. UCLA-Okapi at TREC-2: Query Expansion Experiments, In D. K. Harman, editor, Proceedings of the Second Text Retrieval Conference (TREC-2), NIST Special Publication, 1994.

60. Evans D., Lefferts R. Design and Evaluation of the CLARIT-TREC-2 system, In D. K. Harman, editor, Proceedings of the Second Text Retrieval Conference (TREC-2), NIST Special Publication, 1994.

61. Furnas G.W., Landauer Т.К., Gomez L.M., Dumais S.T. The vocabulary-problem in human-system communication. Communications of the ACM, 30(11):964-971, November 1987.

62. Gabrielli S., Mizzaro S. Negotiating a multidimensional framework for relevance space. In Proc. of the MIRA'99, pp. 1-15, 1999.

63. Grootjen F.A., Th.P. van der Weide. Conceptual Query Expansion. Technical Report NIII-R0406, Nijmegen Institute for Information and Computing Sciences, University of Nijmegen, Nijmegen, The Netherlands, EU, 2004.

64. Harman D.K. Relevance Feedback Revisited, In Proceedings of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Copenhagen, Denmark, June 2124, 1992, pp. 2-10.

65. Harter S.P. An algorithm for probabilistic indexing. Journal of the American Society for Information Science 26 (4), 1975, pp. 280-289.

66. Harter S.P. Online Information Retrieval: Concepts, Principles, and Techniques. Orlando: Academic Press, 1986.

67. Hawking D., Craswell N., Thistlewaite P.B., and Harman D. Results and challenges in web search evaluation. In Proc. of the WWW8, pp. 243-252, 1999.

68. Hofmann T. Probabilistic latent semantic indexing. In Proc. of the SIGIR'99, Berkley, USA, 1999, pp. 50-57.

69. Jing Y., Croft W.B. An association thesaurus for information retrieval. In Proceedings of RIAO-94, 146-160, 1994.

70. Jones K.S. Information Retrieval Experiment. Butterworth, London, 1981.

71. Lee J.H. Analyzing the effectiveness of extended boolean models in information retrieval. Technical Report TR95-1501, Cornell University, 1995.

72. Lesk M.E. Word-Word Associations in Document Retrieval Systems, American Documentation. 1969, 20(1), pp. 27-38.

73. Lu A., Ayoub M., Dong J. Ad hoc experiments using EUREKA. TREC-5, 1997, pp. 229-240.

74. Luhn H.P. A statistical approach to mechanised encoding and searching of literary information. IBM Journal of Research and Development 1(4), 1957, pp.309-317.

75. Maron M.E. and Kuhns J.L. On relevance, probabilistic indexing and information retrieval. Journal of the Association for Computing Machinery 7, 1960, pp. 216-244.

76. Meadow C.T., Cochrane P.A. Basics of Online Searching. New York, N.Y.: John Wiley & Sons, 1981.

77. Minker J., Wilson G., Zimmerman B. An evaluation of query expansion by the addition of clustered terms for a document retrieval system. Information Storage and Retrieval, 8:329-348, 1972.

78. Mitra M., Singhal A., Buckley C. Improving Automatic Query Expansion. In Proc. of the 21st Annual Int. ACM SIGIR Conf. on Research and Development in Information Retrieval, Melbourne, August 24-28, 1998, pp. 206-214.

79. Paice C.P. Soft evaluation of boolean search queries in information retrieval systems. Information Technology: Research and Development 3 (1), 1984, 33-42.

80. Qiu Y., Frei H.P. Concept based query expansion. In Proceedings of ACM SIGIR International Conference on Research and Development in Information Retrieval, 160-169, 1993.

81. Robertson S.E. The probability ranking principle in IR. Journal of Documentation 33 (4), 1977, pp. 294-304.

82. Robertson S.E., van Rijsbergen C.J., Porter M. F. Probabilistic models of indexing and searching. In R. N. Oddy et al. (Eds.), Information Retrieval Research, 1981, pp. 35-56. Butterworths.

83. Robertson S.E., Walker S., Sparck-Jones M. Okapi at TREC-3, In D. K. Harman, editor, Proceedings of the Second Text Retrieval Conference (TREC-3), NIST Special Publication, 1995.

84. Rocchio J.J. Relevance feedback in information retrieval. In G. Salton (Ed.), The SMART Retrieval System: Experiments in Automatic Document Processing, Prentice Hall, 1971, pp. 313-323.

85. Sakai Т., Robertson S.E., Walker S. Flexible Pseudo-Relevance Feedback via Direct Mapping and Categorization of Search Requests, BCS-IRSG ECIR 2001 Proceedings, pp. 3-14.

86. Salton G., Buckley C. Term weighting approaches in automatic text retrieval. Information Processing and Management, 24(5), 1988, pp. 513— 523.

87. Salton G. and McGill M.J. Introduction in modern Information Retrieval. McGraw-Hill Computer Science Series. New York, 1983.

88. Salton G., Buckley C. Improving retrieval performance by relevance feedback. Journal of the American Society for Information Science, 41(4), pp. 182-188, 1990.

89. Salton G., Fox E.A., and Wu H. Extended boolean information retrieval. Communications of the ACM 26(11), 1983, pp.1022-1036.

90. Silverstein C., Henzinger M., Marais H. Moricz M. Analysis of a very large altavista query log. Technical Report 1998-014, COMPAQ System Research Center, October 1998.

91. Sparck-Jones K., Jackson D.M. The use of automatically-obtained keyword classifications for information retrieval. Information Processing and Management, 5:175-201, 1970.

92. Van Rijsbergen C.J. Information Retrieval, second edition. Butterworths, 1979// http://www.dcs.gla.ac.uk/Keith/Preface.html

93. Xu J., Croft W.B. Improving the effectiveness of information retrieval with local context analysis. ACM Transactions on Information Systems, 18(1), 2000, pp. 79-112.

94. Xu J., Croft W.B. Query expansion using local and global document analysis. In Proceedings of.the 19th International Conference on Research and Development in Information Retrieval, 1996, pp. 4-11.

95. The Twelfth Text Retrieval Conference (TREC'2003). Appendix 1. http://trec.nist.gov/pubs/trecl2/appendices / measures.ps

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.