Разработка методов и алгоритмов тематически ориентированного распределенного поиска информации в глобальных сетях типа Интернет тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Амамра Рушди Ахмад
- Специальность ВАК РФ05.13.11
- Количество страниц 209
Оглавление диссертации кандидат технических наук Амамра Рушди Ахмад
ВВЕДЕНИЕ.
ГЛАВА 1. АНАЛИЗ СУЩЕСТВУЮЩИХ СИСТЕМ И МЕТОДОВ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТ.
1.1. Информационный поиск.
1.1.1. Место изучаемых методов поиска в теории информационного поиска.
1.1.2. Информационные потребности пользователя и язык запросов.
1.1.3. Релевантность.
1.1.4. Оценка качества поиска.
1.1.5. Основные модели представления данных и поиска.
1.1.5.1. Булева модель.
1.1.5.2. Модель векторного пространства.
1.1.5.3. Вероятностная модель.
1.1.6. Латентное семантическое индексирование.
1.1.7. Вероятностное латентное семантическое индексирование.
1.2. Анализ существующих систем поиска информации в Интернет.
1.2.1. Характеристика классических поисковых систем
1.2.2. Описание, задачи и основные требования к поисковым системам WWW.
1.2.3. Обзор классических поисковых систем WWW.
1.2.4. Архитектура и недостатки поисковых систем.
1.2.4.1. Системы с централизованной архитектурой.
1.2.4.2. Децентрализованная распределенная архитектура предлагаемой поисковой системы.
1.2.5. Основные задачи, решаемые компонентами разрабатываемой системы с децентрализованной распределенной архитектурой.
1.2.5.1. Информационный агент.
1.2.5.2. Маршрутизация запросов пользователей.
1.2.5.3. Настраиваемый пользовательский интерфейс.
1.3. Выводы.
ГЛАВА2. РАЗРАБОТКА АЛГОРИТМАМ АРХИТЕКТУРЫ ТЕМАТИЧЕСКОГО ИНФОРМАЦИОННОГО АГЕНТА.
2.1. Архитектура агента.
2.2. Фильтр ядра индекса.
2.3. Фильтр запросов пользователей.
2.4. Управление очередью ссылок.
2.5. Алгоритм работы агента.
2.6. Эксперименты.
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Развитие методов и моделей формирования интеллектуального контента2012 год, кандидат экономических наук Евсюткин, Александр Сергеевич
Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы2002 год, кандидат технических наук Волков, Сергей Сергеевич
Разработка архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет2004 год, кандидат технических наук Арутюнян, Роман Эрнстович
Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах2006 год, кандидат технических наук Кустов, Денис Викторович
Многоагентная система для поиска и обработки тематико-ориентированной информации2007 год, кандидат технических наук Карцан, Игорь Николаевич
Введение диссертации (часть автореферата) на тему «Разработка методов и алгоритмов тематически ориентированного распределенного поиска информации в глобальных сетях типа Интернет»
Информация, становясь стратегическим ресурсом нового, высокотехнологического общества, ставит перед человеком задачу разработки принципиально новых методов своей обработки, хранения и контроля.
Переход к информационному обществу 21 века неразрывно связан с развитием информационных структур, призванных эффективно решать проблемы обработки информации. В первую очередь сюда относятся компьютерные сети всех уровней и электронные хранилища данных, обеспечивающие хранение, быстрый доступ и контроль огромного количества данных самой разнообразной природы: числовой, текстовой, мультимедиа информации. В развитых странах практически вся актуальная служебная, технологическая и коммерческая информация уже переведена в электронную форму и хранится в бесчисленных базах данных и знаний, цифровых библиотеках различного масштаба. Из созданных хранилищ данных наиболее обширным является Интернет. Возникший на базе мировой компьютерной сети WWW являет собой пример информационных систем нового поколения. Поистине планетарный масштаб указанных систем определяет некоторые принципиальные их свойства.
1. Гигантский объем хранимой информации. Самая популярная система Интернет WWW к настоящему моменту содержит более ста миллиардов единиц информации (гипертекстовых документов) [5,6,27,28], что не является пределом. Каждые 4 месяца количество информации, хранимой в Интернет удваивается [95].
2. Случайный характер возникновения. Такие системы формируют свою структуру в результате действий миллионов пользователей, включающих в Интернет собственную информацию независимо друг от друга. Возникновение системы начинается, как правило, с создания небольшого ядра ограниченным количеством лиц [31,68]. Дальнейшее расширение производится независимыми пользователями, включающими в Интернет информацию по собственному усмотрению. При этом никто, в том числе и создатели Интернет не в состоянии контролировать всю информацию, поступающую в систему. Масштабность
Интернет делает невозможным полное согласование или контроль всей хранимой в ней информации какой-либо организацией. Можно сказать, что общая система Интернет формируется как результат самоорганизации: отдельные ин-дивидумы-создатели Интернет создают нечто большее чем та "микроинформация", с которой они работают.
3. Сверхвысокая территориальная распределенность. Фактически, территория, покрываемая современной Интернет, включает в себя все населенные материки. Входящий в Интернет информационный ресурс (сервер) может быть расположен в любой стране или месте земного шара.
4. Распределенность и децентрализованность. Данное свойство вытекает из вышеописанного способа возникновения и развития Интернет, а также из факта территориальной распределенности. Работа отдельных частей системы Интернет поддерживается заинтересованными в их существовании организациями, которые в совокупности осуществляют децентрализованное управление информационными ресурсами системы. Если бы существовала единая организация, через которую бы проходили абсолютно все запросы, и где регистрировалась бы вся поступающая информация, она должна бы была обрабатывать количество информации, соизмеримое со всеми данными, накопленными человечеством и успевать обрабатывать количество запросов соизмеримое с численностью населения всей планеты [95,79]. В силу сказанного, распределенная структура Интернет, позволяющая распределить растущую нагрузку на соразмерно увеличивающиеся вычислительные ресурсы базовой компьютерной сети, представляется единственно возможной.
5. Динамичность. В Интернет постоянно происходят изменения, связанные с включением новых информационных ресурсов, переориентацией содержания или исключением старых. При этом наблюдается существенные изменения таких параметров как загруженность информационных ресурсов и каналов связи. Такие изменения могут быть долговременными (например, вследствие изменения физической структуры базовой глобальной вычислительной сети), так и кратковременными, например, связанными с суточными изменениями активности пользователей [4,21,23,75].
Обладая вышеперечисленными свойствами, Интернет являют собой пример совершенно новой глобальной информационной среды, возникшей на базе мировой компьютерной сети и включившей в себя информационные ресурсы всей планеты. Но Интернет на сегодняшний день решает только самые насущные проблемы, возникшие при появлении глобальных компьютерных сетей: проблемы объединения сверхбольшого числа разнородных информационных ресурсов в единую систему, обеспечения к ним единообразного доступа и способа использования. Теоретически каждый пользователь Интернет может получить доступ к любому открытому ресурсу сети. Однако громадный объем и слабая упорядоченность информации, хранимой в Интернет, порождает новую проблему: "Как найти новый ресурс или требуемую информацию?". Если неизвестен точный адрес ресурса, где располагаются необходимые данные, найти их крайне тяжело, а зачастую просто невозможно. Таким образом, возникает своего рода парадокс: пользователь системы потенциально имеет в своем распоряжении все информационное богатство глобальной информационной среды, но использовать его эффективно он не в состоянии. Следует отметить, что Интернет изначально не был рассчитан на столь глобальное применение. Масштабы и тематическое содержание системы были ограниченными, нахождение требуемой информации при этих условиях не было затруднительным. Однако весьма удачная открытая для расширения архитектура WWW позволила ей буквально за несколько лет превратиться в основу сети Интернет. В результате неконтролируемого роста как общего объема содержащейся информации, так и тематического содержания хранимых сведений, данная система перестала быть способной к эффективному использованию информации в масштабах, которых сама же достигла [89,90,98].
Резюмируя, можно сказать, что решив проблему объединения и обеспечения доступа к огромному числу ресурсов в рамках единой информационной среды, WWW породила новую проблему - проблему эффективного использования информационного богатства. В настоящий момент актуальность данной проблемы очевидна. В развитых странах, где оперативное получение и слежение за информацией в Интернет для многих уже стало жизненной необходимостью, появились фирмы, поставляющие из Интернет необходимую информацию. Кроме того, уже созданы и работают автоматические поисковые системы первого поколения, такие как Altavista, Yandex, Google , Yahoo! и другие [65,39]. Однако, как будет показано в данной работе, архитектура этих систем основанная на классическом подходе, разработанном для относительно простых, локализованных хранилищ данных, не способна полностью решить возникшую проблему [28,49,50]. Слишком большой объем поисковых данных и достаточно примитивный, неадаптивный поиск по ключевым словам, производимый поисковыми системами, зачастую неэффективен: в ответ на введенный запрос пользователю предлагается сотни тысяч найденных документов, лишь малая часть которых оказывается действительно релевантной (соответствующей) запросу пользователя. Таким образом, проблема эффективного нахождения информации в глобальных информационных средах по прежнему остается открытой. В связи с этим в зарубежных научных кругах проводятся исследования и разработки поисковых систем нового поколения, призванных вести эффективный поиск и контроль за изменением в Интернет полезной информации. Одним из перспективных направлений является построение поисковых систем, в отличие от классических моделей, на основе метода анализа семантических структур текста и децентрализованная обработка информации на основе относительно независимых информационных компонент - агентов, брокеров, тематических индексов, решающих общую задачу коллективным образом. Как будет показано в данной работе, основные характеристики перечисленных компонент отвечают свойствам и требованиям глобальных информационных сред, что открывает возможность построения систем, в частности поисковых, способных эффективно работать в указанных средах.
Современные поисковые системы не обладают свойствами высокой точности и оперативности, в результате пользователь получает много лишней информации.
Целью настоящей диссертационной работы является разработка принципов построения, архитектуры, методов и алгоритмов поиска для функциони9 рования в распределенных поисковых системах, повышающих точность и оперативность результатов поиска информации в сложных глобальных средах гипертекстовой информации типа Интернет.
Для достижения поставленной цели в диссертации решаются следующие задачи:
• Разработка алгоритма и архитектуры тематического сетевого робота;
• Разработка алгоритма и архитектуры брокера, осуществляющего маршрутизацию запросов пользователя;
• Разработка настраиваемого пользовательского интерфейса;
• Разработка общей архитектуры поисковой системы для гипертекстовой информационной среды.
Использованные подходы
Данная работа относится к области информационного поиска, которая в англоязычной литературе носит название information retrieval. Это, по существу, экспериментальная, прикладная наука, целью которой является разработка технологий, обеспечивающих качественный и эффективный поиск информации, распределенной в глобальных сетях.
В силу этого, и данная работа носит экспериментальный характер. Все ее три задачи решаются в рамках одного подхода, основанного на использовании относительно нового метода вероятностного латентного семантического индексирования. Данный метод представляется весьма перспективным, и разработка технологий его применения в различных областях информационного поиска является актуальной научной задачей.
Оценки качества тех или иных методов, систем поиска могут быть только экспертными, т.к. само понятие релевантности документа запросу не может быть формализовано. Все масштабные тестовые испытания поисковых систем основаны на использовании оценок групп экспертов. В силу многокритериального характера задачи поиска информации необходимо использовать некоторые интегральные характеристики качества поиска. В данной работе в качестве такой характеристики используется точность поиска при заданном числе возвращаемых результатов, усредненная по всем тестовым запросам. Такая характеристика соответствует реальным потребностям пользователей, которые заинтересованы в получении максимального числа релевантных ссылок среди заданного, относительно небольшого числа полученных результатов. Предметом исследования являются
• Эффективность построения описания тематики индекса на основе использования метода вероятностного латентного семантического индексирования
• Маршрутизация запросов в рамках системы распределенного поиска, производимого брокером
• Выявление информационных интересов конкретного пользователя на основе анализа тематической принадлежности документов, возвращаемых системой поиска в ответ на запросы пользователя
• Эффективность применения метода вероятностного латентного семантического индексирования
Методы исследования:
В качестве основных методов исследования использованы математические модели и тестирование реальных данных в Интернет.
Научная новизна предлагаемых в диссертационной работе методов, алгоритмов и архитектуры компонентов (агент, брокер, интерфейс пользователя), в отличие от широко используемых в настоящее время классических методов и архитектур являются распределенной децентрализованной поисковой системой, ориентированной на тематический поиск документов, выполняемых агентом, с помощью брокера, принимающего решения о маршрутизации запроса и интерфейса, выявляющего информационные потребности пользователя. Все перечисленные компоненты обладают высокой адаптацией и в совокупности обеспечивают высокую релевантность результатов поиска.
В процессе исследований и теоретических обобщений получены следующие новые результаты.
1. Разработан и реализован информационный агент для формирования тематических коллекций (индексов). Поставлены и решены некоторые новые задачи и даны новые решения для ранее известных задач. В том числе:
• Поставлена и решена новая задача тематической фильтрации потока документов на основе использования архива запросов пользователей Обычно тематические коллекции формируются сетевыми роботами, использующими фильтр, построенный на анализе уже имеющейся коллекции документов. В результате, с течением времени тематика коллекции может устаревать, т.к. она будет ограничена тематикой первоначально сформированной коллекции.
В данной работе предложено аккумулировать все запросы пользователей, направляемые в данный тематический индекс. На основе анализа этих запросов формируется фильтр, отражающий текущие информационные потребности всего сообщества пользователей данного индекса. Использование данного фильтра приведет к обновлению тематики индекса, которая будет отражать те направления данной конкретной области, которые интересуют пользователей. Новый документ индексируется, если он проходит любой из двух фильтров: обычный фильтр, отражающий текущее содержание индекса, или новый фильтр, отражающий текущие интересы пользователей, интересующихся заданной тематикой.
• Предложен новый итерационный метод вычисления весов термов из запросов пользователей и доказана его сходимость.
При построении фильтра, отражающего текущее состояние индекса, используются термы, веса которых вычисляются на основе применения метода вероятностного латентного семантического индексирования.
Эти же веса используются при построении фильтра, отражающего потребности пользователей. Но это возможно только для термов, упомянутых в тематическом индексе. В то же время, многие термы в запросах пользователей могут быть новыми для данного индекса. Для оценивания их весов предлагается подход, основанный на предположении, что термы, встречающиеся в одном запросе, семантически близки с относительно большой вероятностью. Данное предположение позволяет построить систему линейных алгебраических уравнений, неизвестными в которой являются веса новых термов. Для решения этой системы предлагается использовать метод простой итерации. Доказывается его сходимость в том случае, когда каждый новый термин входит хотя бы в один запрос вместе с термином, вес которого уже известен.
• Предложен новый метод формирования и управления очередью ссылок на документы, подлежащих загрузке из сети информационным агентом при формировании тематического индекса
При работе информационного агента (сетевого робота) быстро растет очередь ссылок на документы, которые агент должен загрузить из сети и проанализировать на релевантность тематике индекса, в интересах которого агент работает. Для эффективной работы агента эта очередь должна формироваться и динамически перестраиваться таким образом, чтобы для ссылок в ее начале была велика вероятность релевантности заданной тематике. Предложен алгоритм, в котором для каждой из стоящих в очереди ссылок динамически оценивается вероятность того, что документ, на который указывает данная ссылка, релевантен заданной тематике. Это позволяет каждый раз загружать документ по ссылке с максимальной вероятностью релевантности заданной теме.
• Проведены эксперименты с реализованным информационным агентом, подтвердившие эффективность предложенных методов. Доля релевантных документов среди всех загруженных из сети составила 0.793.
2. Модифицирован и реализован известный алгоритм маршрутизации запросов пользователей в распределенной поисковой системе. В том числе:
• Предложен новый способ оценивания весов термов в запросах и документах . При решении задачи маршрутизации запросов запрос сопоставляется с описаниями индексов, в которые этот запрос может быть направлен для поиска. Обычно при формировании описания индекса используется частотная модель (модель векторного пространства) для вычисления весов термов. В данной работе предложен способ взвешивания термов, основанный на использовании метода вероятностного латентного семантического индексирования.
• Выведено новое, более простое для проверки достаточное условие оптимальности найденного решения задачи маршрутизации запросов Известное условие оптимальности требует построения ряда числовых последовательностей и проверки того, что все они являются монотонно возрастающими. Найдено более простое эквивалентное условие, показано, что оно выполняется во всех практически важных случаях.
• Проведены эксперименты с брокером запросов пользователей, реализующим рассмотренный алгоритм маршрутизации запросов. Усредненная по всем запросам точность выбора тематического индекса, соответствующего тематике запроса, составила 0.655.
3. Предложен и реализован новый подход к построению настраиваемого на пользователя интерфейса пользователя в поисковой системе. В том числе:
• Предложен новый метод выявления информационных потребностей пользователя . Предложенный метод основан на аккумулировании запросов данного пользователя и результатов поиска по этим запросам. На основе метода вероятностного латентного семантического индексирования из результатов поиска выделяются темы, которые могут интересовать данного пользователя, выполняется их кластеризация и организуется диалог с пользователем, в процессе которого пользователь анализирует свои информационные потребности, а система автоматически формирует их описания.
• Разработан метод оценивания релевантности документа, возвращаемого поисковой системой в ответ на запрос пользователя, информационным потребностям данного пользователя
Формируется описание основной темы данного документа, которое сопоставляется с описаниями всех информационных потребностей данного пользователя. В результате система оказывается способной оценивать соответствие полученного документа той или иной информационной потребности пользователя.
• Проведены эксперименты с реализацией разработанного интерфейса пользователя. Средняя по всем запросам точность определения тематики документа (из тематик, соответствующих информационным потребностям пользователя) составила 0.904.
Положения, выносимые на защиту:
• Архитектура и алгоритм тематически ориентированного поиска (в средах гипертекстовой информации) тематическим агентом на основе вероятностного латентного семантического индексирования, формирующего тематический индекс
• Архитектура и алгоритм брокера, осуществляющего маршрутизацию запросов пользователя для выбора тематических коллекций на основе вероятностного латентного семантического индексирования и оптимального распределения ресурсов
• Сценарий и алгоритм работы интерфейса пользователя, выявляющий информационные потребности конкретного пользователя
• Архитектура распределенной децентрализованной поисковой система для поиска в гипертекстовой информационной среды
• Метод индексирования тематического индекса, позволяющий повысить качество поиска информации
Практическую ценность диссертационной работы представляют следующие результаты:
• Разработанный метод интеллектуального поиска релевантной информации в гипертекстовой информационной среде (Интернет), позволяющий существенно сократить объем просматриваемой при поиске информации за счет ориентации поиска в перспективных для тематического индекса направлениях.
• Внедрен комплекс программ, реализующих алгоритм тематического агента, служащий основой при формировании тематического индекса (коллекции) поисковых систем нового поколения с более высокой точностью поиска, меньшей нагрузкой на сетевые ресурсы, способностью настройки на интересы пользователя-владельца
• Комплекс программ, реализующих алгоритм маршрутизации запросов пользователей позволяющий существенно повысить точность релевантности поиска за счет максимизации доходов пользователя и оптимального распределения ресурсов выделенных пользователем для поиска
• Разработанный сценарий интерфейса пользователя облегчает получением пользователем общего впечатления о результатах поиска за счет хранения, анализа и кластеризации данных о тематической принадлежности документов, возвращаемых системой поиска в ответ на запрос пользователя
• Программный модуль, реализующий разработанный сценарий интерфейса пользователя, который служит для выявления информационных потребностей пользователя, сокращает время навигации пользователя по результатам поиска в ответ на его запрос за счет сопровождения каждого документа тематической меткой.
• Практические рекомендации для проектирования действующих поисковых систем с децентрализованной архитектурой на основе разработанных вариантов функционирования распределенных децентрализованных поисковых систем на базе тематического агента, брокера, тематического индекса, интеллектуального интерфейса пользователя.
Апробация работы.
Основные результаты работы докладывались и обсуждались на III научно-методической конференции " Интернет технологии и современное общество" (Санкт-Петербург, 2000), международной научно-методической конференции "Телематика" (Санкт-Петербург, 2000 и 2001), международной конференция по мягким вычислениям и измерениям (Санкт-Петербург, 2000 и 2001).
Публикации. Результаты, полученные в работе, нашли отражение в 12 печатных работах, из них две - в журнале "Приборостроение", семь работ были опубликованы в сборниках научных трудов международных конференций.
Структура работы. Диссертационная работа состоит из введения, четырех глав и заключения, изложенных на 132 страницах, содержит 16 рисунков, 4 таблицы и 6 приложений на 73 страницах; всего 205 страниц.
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Повышение эффективности автоматизированного документального поиска в гипертекстовых ресурсах Интернет2005 год, кандидат технических наук Козлов, Артем Владимирович
Исследование и моделирование систем управления доступом к гетерогенным информационным ресурсам2001 год, доктор технических наук Максимов, Николай Вениаминович
Разработка моделей и алгоритмов автоматизации полнотекстового поиска документированной информации повышенной релевантности в распределенных производственных структурах2007 год, кандидат технических наук Слюсарь, Валентин Викторович
Разработка и исследование принципов построения вертикальных образовательных порталов с открытой архитектурой2008 год, кандидат технических наук Силаев, Антон Валерьевич
Разработка принципов создания информационно-поисковой Интернет-системы в области наук о Земле2006 год, кандидат технических наук Рябинков, Артем Иванович
Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Амамра Рушди Ахмад
ЗАКЛЮЧЕНИЕ
Проведенный в диссертации анализ проблематики информационного поиска и полученные результаты позволяют сделать следующие выводы:
1. Преимущество архитектуры распределенного поиска по отношению к централизованной архитектуре
Основная проблема, встающая перед системами информационного поиска в Интернет, связана с поиском масштабируемого решения задачи сканирования Интернет и поиска необходимой информации. Скорость обновления информации, опубликованной в Интернет, столь велика, что ресурсов одной организации, сколь крупной она бы ни была, не достаточно для индексирования всей вновь размещаемой в Интернет информации.
Распределенная архитектура поисковой системы позволяет разделить различные компоненты системы между различными владельцами, т.е. привлечь дополнительные ресурсы, что и обеспечивает масштабируемое решение задачи.
Такими принадлежащими различным владельцам компонентами единой распределенной поисковой системы могут быть индексы (тематические коллекции) и брокеры.
2. Необходимость тематической ориентации индексов
В распределенной поисковой системе различные индексы должны быть тематически ориентированы. Это необходимое условие для эффективного решения задачи маршрутизации запросов пользователей, решаемой брокерами. Если бы индексы не были тематически ориентированными, брокер был бы вынужден направлять каждый запрос пользователя в большое число различных индексов, содержащих ссылки на документы тематически близкие запросу. Это привело бы к тому, что в результатах, полученных из каждого индекса была бы велика доля " мусора"(нерелевантных документов). Причина - один индекс не может в достаточной степени охватить все многообразие тем, представленных в Интернет.
Тематическая ориентация всех индексов позволяет брокеру выбрать относительно небольшое число индексов, которые способны обеспечить высокую точность ответов на запрос пользователя.
3. Ориентация на информационные потребности пользователя, а не на его запрос.
Наиболее распространенные коммерческие поисковые системы не хранят никакой информации о пользователе. При каждом входе в систему один и тот же пользователь предстает перед системой как новый пользователь. В результате система ориентирована на "среднего" пользователя. Распределенная архитектура позволяет обеспечить регистрацию всех пользователей. Действительно, как число индексов, так и число брокеров заранее ни чем не ограничено. Каждый пользователь может выбирать любого из брокеров, через которого он будет получать доступ ко всем сервисам, предоставляемым системой. При этом выбор пользователя может определяться тематической направленностью брокера, который может ограничить тематику принимаемых от пользователей запросов с целью повышения общей эффективности своей работы. При наличие подобных тематических ограничений пользователь может регистрироваться в одном или нескольких брокерах, чья тематическая ориентация соответствует информационным потребностям данного брокера.
При наличии регистрации пользователей брокер может аккумулировать запросы пользователей и выявлять их информационные потребности. Эта информация может использоваться далее, например, при расширении коротких запросов пользователей с целью повышения точности поиска.
4. Применимость метода вероятностного латентного семантического индексирования в задачах информационного поиска
При решении задач, возникающих при информационном поиске, используются разнообразные модели, среди которых булева модель, модель векторного пространства, разнообразные вероятностные пространства.
Метод вероятностного латентного семантического индексирования представляет собой относительно новую и неисследованную модель, которая может найти широкое применение в области информационного поиска.
В данной диссертации эта модель использовалась при решении всех рассмотренных в работе задач. Сравнение данной модели проводилось с моделями, которые традиционно используются при решении соответствующих задач. Проведенные эксперименты показали, что применение модели вероятностного латентного семантического индексирования имеет явное преимущество перед применением традиционно используемых моделей.
5. Адаптация информационного агента, формирующего тематический индекс, к информационным потребностям пользователей
Традиционно такой агент (сетевой робот) работает в интересах своего владельца. В данном случае это тематический индекс, тематика которого определяется его администратором. Таким образом, при традиционном подходе, сетевой робот сканирует Интернет с целью поиска новых документов, релевантных тематике индекса. Однако такой подход имеет крупный недостаток - старение тематики индекса. Действительно, тематика индекса в момент его создания может достаточно полно отражать различные направления, важные для данной области. Однако, с течением времени, происходит естественное изменение данной области. Часть прежде важных направлений теряют свою былую привлекательность и уходят в тень, появляются новые, актуальные направления. Конечно, если администратор индекса отслеживает эти изменения в области, связанной индексом, то он может модифицировать тематическую ориентацию сетевого робота вручную. Однако это предполагает очень высокую квалификацию такого администратора.
Более реалистичное решение проблемы - автоматическая модификация тематической направленности индекса, отражающее реальные изменения в соответствующей области. Что может служить источником информации о новых направлениях, об устаревании ранее актуальных? Это запросы пользователей. Ранее уже отмечалось, что весьма было бы полезно аккумулировать запросы каждого пользователя в брокере с целью выявления его информационных потребностей. Аналогично, тематический индекс может аккумулировать запросы всех пользователей, приходящих в данный индекс. Эти запросы отражают текущие информационные потребности всего сообщества пользователей, чьи информационные потребности релевантны тематике данного индекса. Анализ их статистики позволяет выполнить настройку сетевого робота, ориентируя его на поиск новых актуальных для пользователей документов.
6. Возможность оценки значимости всех ключевых слов из запросов пользователей
Как правило, поисковые системы оценивают значимость (вес) только тех ключевых слов из запроса пользователя, которые присутствуют и в индексе. И это совершенно оправдано, так как ключевые слова, не встречавшиеся в проиндексированных документах, не оказывают никакого влияния на поиск. В результате, при формировании запроса, в котором все слова отсутствуют в индексе, пользователь получает естественный результат - найдено 0 документов.
При работе сетевого робота, учитывающего тематические интересы пользователей путем аккумуляции и анализа всей совокупности поданных ими запросов, возникает новая задача оценки значимости (веса) тех ключевых слов, которые являются для данного индекса новыми (не входят ни в один из ранее проиндексированных документов). В данном случае было бы неправильно пренебрегать этими словами, так как именно они определяют новые, ранее не учтенные в индексе тематические направления.
Информация, которая может быть использована при выполнении оценки значимости новых слов, содержится в самой совокупности аккумулированных запросов. Естественно предположить, что ключевые слова, встретившиеся в одном и том же запросе с относительно высокой вероятностью относятся к одной и той же тематике. Это предположение дает принципиальную возможность оценить значимость новых ключевых слов, зная ранее полученные оценки значимости ключевых слов, присутствующих в индексе.
Один из подходов к построению таких оценок продемонстрирован в данной диссертационной работе. Результаты экспериментов, показавшие высокое качество работы сетевого робота, спроектированного на основе разработанного подхода, являются косвенным подтверждением обоснованности предложенной методики.
7. Эффективность алгоритма тематического обхода Интернет, основанного на использовании оценки вероятности релевантности ссылок из ранее загруженных релевантных документов
Классический алгоритм обхода Интернет основан на загрузке и анализе релевантности документов, на которые имеются ссылки из ранее загруженных и признанных релевантными документах. Число таких ссылок быстро растет, и от алгоритма формирования очереди ссылок зависит эффективность работы сетевого робота в целом.
В данной работе предложен новый алгоритм формирования очереди ссылок. Он основан на динамической оценке вероятности того, что ранее не просмотренная ссылка из данного документа является релевантной тематике поиска. Эти оценки сходятся к истинным значениям вероятности релевантности, но в начальной стадии поиска могут быть весьма далеки от истинных значений. Тем не менее, эксперименты с прототипом сетевого робота показали, что предложенный способ построения и управления очередью ссылок обеспечивает высокую долю (около 80 процентов) релевантных документов среди всей совокупности документов, просмотренных сетевым роботом. Это делает возможным реальное автоматическое построение тематически ориентированных индексов, что будет способствовать нахождению масштабируемого решения задачи поиска в рамках всего Интернет.
8. Задача маршрутизации запросов в рамках системы распределенного поиска допускает адекватную постановку в форме максимизации среднего дохода пользователя.
Эффективность решения задачи маршрутизации запросов пользователя определяет итоговую эффективность работы всей системы распределенного поиска. Традиционно критерий качества поиска формулируется в форме, задающей некоторую интегральную оценку степени релевантности документов, найденных в ответ на запросы пользователей. В диссертационной работе проанализирована и протестирована известная модель, в которой критерий качества поиска формируется в форме максимизации среднего дохода пользователя. Такой "экономический" подход к проблеме построения интегральной оценки представляет интерес в связи с возможностью построения более обоснованных и понятных пользователям критериев качества.
Проведенные эксперименты показали, что результаты решения задачи поиска, оптимальные с точки зрения максимизации доходов пользователей, обеспечивают достаточно высокую точность поиска (61 процент в поведенных экспериментах). Таким образом, использование "экономических" моделей при построении критерия качества поиска является перспективным для построения новых эффективных методов решения задачи маршрутизации запросов пользователей.
9. Необходимость использования теоретико-игровых постановок задач распределенного поиска
Анализ различных сценариев функционирования распределенной поисковой системы, в которой различные компоненты принадлежат различным владельцам, показал необходимость проведения исследований в рамках теоретико-игрового подхода.
Основная проблема может быть сформулирована следующим образом. Для пользователя система распределенного поиска представляется как единая система, предоставляющая определенный набор сервисов с определенным уровнем качества. Пользователь выбирает данную систему, если качество предоставляемого сервиса не ниже качества подобных услуг, предоставляемых конкурирующими системами. От числа пользователей, обращающихся к данной системе, зависит ее совокупный доход, который далее делится между владельцами ее отдельных компонентов пропорционально, например, числу обслуженных клиентов.
С одной стороны, владельцы всех компонент системы заинтересованы в повышении качества работы системы как единого целого, т.к. только в этом случае будет возрастать число пользователей, и, следовательно, доходы системы в целом и отдельных компонент в частности. Для достижения этой цели отдельные компоненты должны передавать своих клиентов другим компонентам системы, если они способны более качественно обслужить данного конкретного клиента. Такое "честное" поведение будет способствовать повышению конкурентоспособности системы в целом.
С другой стороны, отдельная компонента может использовать "эгоистическую" тактику, обслуживая всех приходящих к ней клиентов не взирая на качество обслуживания. При условии, что все остальные компоненты "играют" честно, эта компонента может получить повышенный доход. Однако, если число "эгоистических" компонент достаточно велико, падает средний уровень качества обслуживания системы в целом, что может привести к оттоку клиентов и гибели самой системы.
Анализ динамики среднего качества услуг, предоставляемых распределенной системы, в зависимости от стратегий поведения владельцев отдельных компонент необходим позволит принять правильные решения на этапе проектирования самой системы. Например, может понадобиться принятие специальных мер по контролю за качеством сервисов, предоставляемых отдельными компонентами. Это приведет к дополнительным накладным расходам, но может оказаться необходимым для обеспечения устойчивого развития системы при включении в нее все новых и новых компонент.
В данной диссертации данные вопросы не анализировались, т.к. их решение возможно только в рамках отдельной большой работы. Но саму постановку указанной проблемы, вытекающей из содержания данной диссертационной работы, можно считать одним из результатов данной работы.
10. Эффективность построения описания тематики индекса на основе использования метода вероятностного латентного семантического индексирования В рамках распределенной системы поиска брокер принимает решение о направлении запроса пользователя в зависимости от оценки числа документов, проиндексированных в конкретном индексе, релевантных данному запросу. Указанные оценки формируются различными способами на основании использования так называемых описаний коллекций, предоставляемых самими индексами и хранящихся в доступном для всех брокеров репозита-рии.
В диссертационной работе проведено сравнение двух способов построения таких описаний - на основе обычно используемого частотного подхода и на основе применения метода вероятностного латентного семантического индексирования.
Тестовые испытания показали, что при использовании последнего подхода средняя точность решения задачи маршрутизации запросов пользователей повысилась на 28 процентов.
11. Необходимость выявления и учета информационных потребностей конкретного пользователя
Современные коммерческие поисковые системы с централизованной архитектурой ориентированы на работу со средним пользователем, что объясняется тем, что они не имеют возможности регистрировать всех пользователей и анализировать их информационные потребности.
Известны статистические данные, показывающие, что средняя длина запроса пользователя мала. Это, наряду с рядом других факторов, объясняет относительно невысокую точность поиска, обеспечиваемую поисковыми системами с централизованной архитектурой.
В рамках распределенной архитектуры возможна регистрация пользователей у отдельных брокеров, которые получают возможность отслеживать работу зарегистрированных пользователей и выявлять, анализировать их информационные потребности. Информация об информационных потребностях конкретного пользователя может быть использована далее на этапе поиска для повышения его качества.
12. Возможность выявления информационных интересов пользователя на основе анализа тематической принадлежности документов, возвращаемых системой поиска в ответ на запросы пользователя
В рамках известного в области информационного поиска подхода - локального контекстного анализа, предполагается, что в начальной части ранжированного списка документов, возвращенных поисковой системой на запрос пользователя, велика доля документов, которые действительно релевантны поставленному вопросу. Это предположение позволяет связать тематику запроса пользователя с темами, наиболее полно представленными в полученных пользователем документах.
Для выявления тем документов в диссертационной работе использовался метод вероятностного латентного семантического индексирования. В рамках данного метода тематика документа представляется в неявной форме в виде списка слов, который можно считать ее описанием. Кластеризация всех тем, выявленных в документах, полученных данным пользователем, позволяет построить описания информационных потребностей данного конкретного пользователя.
В качестве приложения данного подхода в работе реализована система поиска, которая приписывает каждому из документов, полученных в ответ на запрос пользователя, одну из интересующих его тем. Тем самым облегчается отсеивание так называемого "мусора" - документов, не релевантных запросу.
В проведенных экспериментах средняя точность определения темы документа составляла около 90 процентов.
Список литературы диссертационного исследования кандидат технических наук Амамра Рушди Ахмад, 2002 год
1. Ахо Альфред В., Хопкрофт Джон, Ульман Джеффрид. Структуры данных и алгоритмы: пер. с англ. : М.: издательский дом "Вильяме", 2001, 384с. ил.
2. Бабанин А.Г., Бенссов М. Б., Клюев В.В.,Петросян Л.А., OAS1S-система поиска информации в INTERNET нового поколения. //Сб. Всеросс. Научно-метод. Конференция"Интернет и современное общество", 1998.
3. Банков В.Д. Интернет: поиск информации и ппродвижение сайтов. СПб.: БХВ-Петербург,2000.-288с.:ил.
4. Божич В.И. Модель мультиагентной поисковой системы internet на основе нейросетевых агентов // VI Всероссийская конференция "Нейрокомпьютеры и их применение" (НКП 2000), 16-18 февраля 2000. Сборник научных трудов. — Москва, 2000.
5. Волкова В. Н. Документальные и Документально-фактографические информационные системы: Учебное пособие для студентов. -СПб.: СПбГТУ, 1998.-68с.
6. Волкова В.Н. Документальные и Документально -фрактографические информационные системы : Учебное пособие для студентов. СПБ.: СПбГТУ, 1998.-68.
7. Гаврилова Т. А., Хорошевский В.Ф. Базы знаний интеллектуальных систем СПб.: Питер, 2001.-384 е.: ил.
8. Ю. Гаврилолова Т.А., Зудилова Е.В., Ильясов М.З., Интеллектуальные и обучающие системы: Учеб. Пособие/ СПб. Гос. Техн. Ун-т, СПб.,1996.-110с.
9. Гилстер П. Новый навигатор Internet.- К.: Диалектика, 1996-305с.
10. Горелов И. И., Седов К.Ф. Основы психолингвистики. Учебное пособие.- Издательство "Лабринт", М. 1998.-256с.
11. Горностаев Ю. М. Технологии Электронных Коммуникации: Мировая сеть Internet применение в науке и безнесс.-М.:Экотендз, 1993.-136с.
12. Городецкий В.И. Многоагентные системы: современное состояние исследований и перспективы // Новости искусственного интеллекта,— 1996. N.1.C.1-8.
13. Горькова В. И., Гусева Т. И. Анализ Документальных информационных потоков и запросов потребителей информации: Лекции. М.: ИПКИР, 1974. - 59с.
14. Дейт К. Дж., Введение в системы базы данных, 7-е издание.: пер. с англ. М.: издательский дом "Вильяме", 2001, 1072с.
15. Денисов А.А., Волкова В. Н. Денисов А.А. Основы теории систем и системного анализа.: Учебник для студентов вузов. Изд. 2-е, перераб. И дополн. - СПб.: издательство СПбГТУ, 1999.-512с.
16. Дика В.В.,Ирмационные системы в экономике -М.: Финансы и статистика, 1996. --370с.
17. Дмитриев П.А., Проектирование комплексных систем поддержки электронных изданий // Сб. трудов Третьей Всероссийской конференции по Электронным Библиотекам. " Электронные Библиотеки: Перспективные методы и технологии", Петрозаводск, Сентябрь 2001
18. Добрынин В.Ю., Некрестьянов И.С.Задача выбора тематических коллекций, релевантныхзапросу. Труды Всероссийской научно-методической конференции "Интернет и современное сообщество", Санкт-Петербург, декабрь 1998
19. Жутта Маркс, Интеграция неоднородных информационных коллекций // Сб. трудов Третьей Всероссийской конференции по Электронным Библиотекам. " Электронные Библиотеки: Перспективные методы и технологии", Петрозаводск, Сентябрь 2001
20. Илан Гринберг, Ли Гарбер. Разработка новых технологий информационного поиска.Открытые Системы, 10, 1999.
21. Карпова Т., Базы данных: моделей, разработка, реализация, СПб. Питер, 2001-304с.
22. Кирх О., Доусон Т. Linux для профессионалов. Руководство администратора сети, 2-е изд.: СПб.: Питер, 2001.-496с.:ил.
23. Корнеев В.В., Гареев А.Ф., Райх В.В., Бвз данных: Интеллектуальная обработка информации- М.: издательство Нолидж, 2001.-490 с.
24. Котус Р., Влеймник И. Интерфейс "человек-компьютер".: Пер. с англ. -М.: Мир, 1990. -501с.
25. Крол Эд. Все об Internet , Пер. с англ. — К.: Торгово-издательское бюро ВНV, 1995.— 5 92 с.: ил. — ISBN-5 -87419-001 -5.
26. Кузина И.А., Попов И.И., Храмцов П.Б., Информационно-поисковые системы Internet // Междунар. Конф. Совмест. с Междунар. Федерацией по инф. и док."Инф. ресурсы интеграция технол.". Москва ,26-28 Ноябрь 1997.
27. Культина М.В.,Тимофеев Е.В. Теоретико-игровая распределительная модель в открытой архитектуре поиска и доставки информации. В Сб. Всеросс. Научно-метод. Конференция"Интернет и современное общество", 1998.
28. Кунт Дональд Эвравин, Искусство программирование, Том 1.
29. Основные алгоритмы , 3-е изд.: пер. с англ. : Уч. Посп,- М. издательский дом "Вильяме", 2000, 720с.
30. Кунт Дональд Эвравин, Искусство программирование, Том 2. Полу численные алгоритмы , 3-е изд.: пер. с англ. : Уч. Посп,- М.: издательский дом "Вильяме", 2000, 789с.
31. Кунт Дональд Эвравин, Искусство программирование, Том 3. Сортировка и поиск , 2-е изд.: пер. с англ. : Уч. Посп.- М.: издательский дом "Вильяме", 2000, 832с.
32. Кураленок И.Е., Автоматическая классификация документов с использованием семантического анализа. Программирование, 4:31-41, 2000.
33. Курбаков К. И. Информации в автоматическом словаре. М.: Сов. Радио, 1986. - 248с.
34. Курник А. Поиск в Интернете-СПб. Литер,2001.-272с. :ил.
35. Курт Ланг, Джефф Чоу. Публикация баз данных в Интернете,- пер. Сангл.-СПб: Символ-плюс, 1998.-480с е.: ил.
36. Мандел Т. Разработка пользовательского интерфейса: пер. с англ. : М.: ДМК пресс. 2001, 416с. ил.
37. Некрестьянов И. С. Маршрутизация запросов в системах распределенного поиска. Труды второй всероссийской научной конференции 'Электронные библиотеки", стр. 280-287, Протвино, Россия, сентябрь 2000.
38. Некрестьянов И.С., Добрынин В.Ю., Клюев В.В. Оценка тематического подобия текстовых документов. Труды второй всероссийской научной конференции Электронные библиотеки", стр. 204-210, Протвино, Россия, сентябрь 2000.
39. Павлов А. CGl-программирование: Учеб. Курс СПб.: Питер,2000 -414с.
40. Панфиолов С.А. Афончкин А.В. Качество информационного обеспечения в процессах управления,- Саратов: изд-во саратовского унта, 1988.-175с.
41. Патель А., Пегросян Л. А., Розенштиль В., OASIS: Система распределенного поиска в Internet -СПб.:НИИ Химии СПбГУ, 1999 -614с.
42. Пэтчет К., Райт М. CGI/Perl: Создание программ для Web: пер. с англ,-К: издательство BHV,2000.-6244В. Робачевский А. М. Операционная система ЦМХ.-СПб.:-БХВ-Петербург,2001.-528 е.: ил.
43. Рушди А. Амамра. Интеллектуальная система распределенного поиска в Интернет // Телематика 2000. Материалы международной научно-технической конференции 29 мая 1 июня 2000 г.- СПб., 2000, с. 95.
44. Рушди А. Амамра. Методы распределенного поиска информации в Интернет // Компьютерные инструменты в образовании. СПб., 2001, №3-4 с. 111.
45. Рушди А. Амамра. Модель мультиагентного поиска релевантной информации в WWW // Интернет технологии и современное общество. Материалы Всероссийской объединенной конференции 20-24 ноября 2000 г.- СПб., 2000
46. Рушди А. Амамра. Мультиагентная система распределенного поиска и формирования тематических коллекций // Приборостроение, № 9, 2000, с. 10.
47. Рушди А. Амамра. Шкодырев В.П. Интеллектуальный интерфейс пользователя // Приборостроение № 1, 2002.
48. Рушди А. Амамра. Шкодыров В.П. Интеллектуальные программные агенты распределенных систем сбора данных // Материалы международной конференции по мягким вычислениям и измерениям, 27-30 июня. СПб, 2000, с. 258.
49. Рушди А. Амамра., Шкодырев В.П. Брокер для системы распределенного поиска // К омпьютерные инструменты в образовании. Электронная версия: URL: WWW.ipo.spb.ru/journal., 2001.
50. Соколов А.Г. Генератор автоматизированных документально-фактографических информационно-поисковых систем "УНИСК". -СПб.: изд-во СПбГТУ, 1998 25с.
51. Соколов А.И. Возможности сервисов сети Internet для обеспечения различных сфер деятельности предприятий и организаций и проблемы их использования. -М.: издательство "Экономика", 1998.-С.215-^-217
52. Солтон Дж. Динамические библиотечно-информационные системы пер. с англ., М.: изд. "МИР",1979
53. Сэлтон Г. Автоматическая обработка, хранение и поиск информации .М.: Сов. радио, 1973.-560с.
54. Трахтенгерц Э.А. Взаимодействие агентов в многоагентных средах // Автоматика и телемеханика. — 1998. N. 8. — М.: Наука, 1998. — С.З-52.
55. Тузов В.А. Компьютерная обработка текстов в гуманитарных исследования. Сб. Информационные технологии в гуманитарных и общественных науках, РАН СПЭМИ, с. 16-23, 1999.
56. Тузов В.А. Семантический анализ текстов. Вестник СПбГУ, Вып. 1:4550,1998.
57. Фролов А.В., Фролов Г.В. Глобальные сети компьютеров. Практическое введение в Internet, E-mail, FTP, WWW и HTML -M.: ДИАЛОГ-МИФИ, 1996.
58. Хелеби Сэм, Марк-Ферсон Денни. Принцип маршрутизации в Internet, 2-е издание.: пер. с англ. -М.: издательскии Дом "Вилямс", 2001.-448с. :ил.
59. Хомоненко А.Д. Базы данных, учебник для высших учебных заведений Издательство КОРОНА принт ,С.-Петербург 2000.
60. Храмцов Б.П. Лабиринт Internet: Практическое руководство — М.: Электроинформ, 1996.—256с.
61. Цинбал А. Технология CORBА.-Санкт-Петербург, Питер, 2001-624с.
62. Четвериков В.Н. , Ревунков Г. И.,Самохвалов Э. Н. Базы и банки данных.-М.: Высщая школа, 1987.-248с.
63. Шапошников И.В. Интернет-программирование.: СПб.: БХВ, 2000 -224с.: ил.
64. Шилдт Г. Самоучитель С++: : пер. с англ. 3-е изд.: . СПб.: БХВ, 2001.-688с.:ил.
65. Шимакин Ю.И. Тезаурус в автоматизированных системах управление и обработки информации. -М.:Военидат,1974. -172с.
66. Шимакин Ю.И. Теоретическая информатика : Учебное пособие./ под ред. К.И. Курбакова. ML: изд-во Рос. Экон. Акад., 1998,- 132с.
67. Шрайберг Я.Л., Воройский B.C. Автоматизированные библиотечноинформационные системы России: состояние, выбор, внедрение, разветие. М.: изд-во "Либерия" ,1996.-271с.
68. Шумский С.А., Яровой А.В., Зорин O.JT. Ассоциативный поиск текстовой информации // Научная сессия МИФИ 99. Всероссийская научно-техническая конференция "Нейроинформатика-99". Сборник научных трудов. В 3 частях. 4.3. — М.: МИФИ, 1999. — С. 101-110.
69. Ardo A. and Lundberg S. A regional distributed WWW search and indexing service Computer Networks and ISDN Systems, 30:173-183, 1998.
70. Babanin A., Bessonov M., Dobrynin V. Dobrynin, Use of the OASIS Service in Education // Proceeding of the International Conference New Thechnology in Education , page 348, July 1999.
71. Callan James P., Zhihong Lu, and W. Bruce Croft. Searching distributed collections with inference networks. In Proceedings of the SIGIR'95, 1995
72. Cheong F.Internet agents: Spiders, wanders, brokers, and bots. New Riders, 1996.
73. Danzig P., Li S.,and Obraczka K.Distributed indexing of autonomous internet services. Computing Systems, 5(4):433-459, 1992.
74. David R. H. Miller,Tim Leek, Richard M. Schwartz . Ahidden Markov Model Information Reteieval System. // SIGIR 99 Berkley, CA, USA
75. Demaster A., Laird N., Maximum likelihood from incomplete data via the EM al-gorithm. J. Royal Statist. Soc. В 39 (1977), 1-38.
76. Giles C. Lee. Searching the Word Wide Web./'/ Science, 280(5360): 98-100, 1998.
77. Gudivada V.N., Raghavan V.V. Information Retrieval on the World Wide Web //IEEE Internet Computing. 1997. V.I. N. 5. P. 58-68.
78. Haverkamp S. Intelligent information Agents. Journal of the American
79. Society of Information Science ,V49,N4,1998
80. Hendler J.A. Guest Editors Introduction:Intelligent Agents:Where AI Meets Information Technology // IEEE Expert Intelligent Systems and Their Applications. — 1996. V.ll.N. 6. P. 20-24.
81. Hofman Т., Probabilistic latent semantic analysis. 15th conference on Uncertainty in AI (1999).
82. Kluev V., Granev S. Intelligent Constructions of Application Oriented Databases. // Proceeding of the Intentional Conference on Soft Computing and Measurement, pages 233-236, May 1999.
83. Kotz D., Gray R. Nog S., Rus D., Chawla S, Gubenko G. Agent TCL:Targeting the Needs of Mobile Computers // IEEE Internet Computing.— 1997. V.I, N. 4. P. 58-67.
84. Lesser V. R. Multiagent Systems // ACM Computing Surveys. — 1995. V.27. September. P. 340-342
85. Lieming Huang, Matthias Hemmje. An Adaptive data model for meta search engine, The 9th International World Wide Web Conference, http://www9.0rg, Amsterdam, 15-19 May 2000.
86. Michael W. Berry, Susan T. Dumais, and Gavin W. O'Brien. Using linear algebra for intelligent information retrieval. Technical Report UT-CS-94-270, 1994.
87. Micheal N. Huhns, Munindar P. Singh, Readings in Agents, Morgan Kaufmann puplishers INC, San Francisco, California, 1998. 532p.
88. Michea! W. Berry, Ricardo D. Fierro. Low-rank Orthogonal decompositions for Information Retrieval Applications // Numerical Liner Algebra with Applications, vol.3(4),301-327 (1996)
89. Morris H., Kahle В., Goldman J., Erickson Т., and Curran. J. Interfaces for distributed systems of information servers. Journal of the American Society for Information Science, 44(8):453-485, 1993
90. Nekrestyfnov I., Romanov E., and T.O'Meara. Building Topic-Specific Collections with Intelligents. The Sixth International Conference on1.telligence in Services and Networks, Apr. 1999.
91. Norbert Fuhr. A decision-theoretic approach to database selection in networked ir. In Workshop on Distributed IR, Germany, 1996.
92. Pereia F., Tishby N., Distributional clustering of English words. In Proceedings of the ACL (1993), pp. 183-190.
93. Peter B. Danzig, Jongsuk Ahn, John Noll, and Katia Obraczka. Distributed indexing: A scalable mechanism for distributed information retrieval. In Proc. of the SIGIR'91, 1991.
94. Porter M.F. Algorithm for suffix stripping, Program 14 (3): 130-137,July 1980.
95. Richard Boulton. An introduction to information retrieval, http: //sourceforge.net/proj ects/openmuscat.
96. Ricardo Baeza-Yates and Berthier Ribeiro-Neto. Modern Information Retrieval. ACM Press, 1999.
97. Rushdi A. Hamamreh. Abrocker for distributed search engine // International conference on Telematics and web-based education. St.-Petersburg, 18-21 June. P. 31-32.
98. Rushdi A. Hamamreh. Agent for generation of subject-specific collection of electronic documents // International conference on computing and
99. Measurements, St.- Petersburg 25-27 June, 2001 p. 204-207.
100. Salton G., Allan J. and A. Singhal . Automatic Text Decompostion and Structuring. Processding & Management, 32 (2): 127-138,1996.
101. Salton G. and Buckley C. Term-weighting approaches in automatic text retrieval. Information Processing and Management, 24:513-523, 1988
102. Sahami Mehran.Koller Daphen.Hierarchically classifying documents using very few words. In Proc. of the ICML'97, pages 170-178, 1997
103. Scott C. Deerwester, Susan T. Dumais, Thomas K. Landauer, George W. Furnas, and Richard A. Harshman. Indexing by latent semantic analysis. Journal of the American Society of Information Science, 41(6):391-407, 990.
104. Sergey Brin, Lawrance Page. The Anatomy of a large-scale Hyper textual Web Search Engine.// 7th International World Wide Web Conference, April 15-19, 1998, Australia, http://www7.org ,
105. Singhal Amit, Mitra Mandar, and Buckley Chris. Learning routing queries in a query zone. In Proc. of the SIGIR'97, pages 25-32, July 1997.
106. Soumen Chakrabarti, Martin Van den Berg, Foucuse crawling: A new approach to topic-specific web resource discovery. The Eighth International World Wide Web Conference, May 11-14, Tronto 1999.http://www8.0rg/w8jpapers/sasearchquery/crawling/index.html,
107. Steve Lawrence and C. Lee Giles, NEC Research Institute. Analysis Web, 1999. http://www.neci.nj,nec.com/homepages/lawrence/websize
108. Stone P. Veloso M. Multiagent Systems: A Survey from the Machine Learning Perspective // Under review for journal publication. — Pittsburgh (PA): Carnegie Mellon University. Computer Science Department, 1997. — 40 p.
109. Sugiura Atsushi and Etzioni Oren. Query routing for web search engines: Architecture and experiments.In Proc. of the WWW-9, May 2000.
110. Thomas Hofmann. Probabilistic latent semantic indexing. In Proc. of the SKjHR'99, pages 50-57, Berkley, CA, USA, August 1999.
111. Tomasic A., Gravano L., Lue C., Schwarz P., and Haas L. Data Structures for Brocker Implementation. ACM Transaction on Information Systems, 15(2), Apr. 1997.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.