Математическое и программное обеспечение интеллектуальных поисковых систем на основе использования мультиагентной архитектуры тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Минашкин, Сергей Александрович

  • Минашкин, Сергей Александрович
  • кандидат науккандидат наук
  • 2013, Рязань
  • Специальность ВАК РФ05.13.11
  • Количество страниц 153
Минашкин, Сергей Александрович. Математическое и программное обеспечение интеллектуальных поисковых систем на основе использования мультиагентной архитектуры: дис. кандидат наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Рязань. 2013. 153 с.

Оглавление диссертации кандидат наук Минашкин, Сергей Александрович

Оглавление

Введение

Глава 1. Поисковые агенты в современных глобальных сетях

1.1 Подходы к информационному поиску в глобальных сетях

1.2 Поисковые системы Яндекс, Google, Bing

1.2.1 Система Яндекс

1.2.2 Система Google

1.2.3 Система Bing

1.3 Математические формализмы, используемые в поисковых агентах

1.3.1 Вычисление коэффициента PageRank

1.3.2 Математические основы поиска Яндекс с использованием алгоритма Matrixnet

1.4 Анализ функциональных особенностей и недостатков существующих систем

информационного поиска

Основные результаты

Глава 2. Построение алгебраического OWL-ориентированного формализма для анализа и проектирования интеллектуальных поисковых агентов

2.1 Технология Semantic Web

Целевое назначение концепции Semantic Web для описания Интернет-ресурсов

2.2 Языки RDF, RDFS, OWL, OWL-S

2.2.1 Язык RDF

2.2.2 Язык RDFS

2.2.3 Язык OWL

2.2.4 Язык OWL-S

2.3 Алгебра OWL-ориентированных поисковых агентов

2.3.1 Основные определения, понятия и операции

2.3.2 Оптимизация поиска с помощью алгебры Aowl

2.3.3 Алгебраическая система OWL-ориентированных поисковых агентов для исследования их адаптивных свойств

2.3.4 Обучение поисковой системы на основе решения уравнений ASowl

2.4 OWL-описание компонент инструментальной системы интеллектуального поиска

2.4.1 Описание информационных ресурсов в глобальных сетях

2.4.2 Использование поисковых агентов с применением OWL-S описаний

Основные результаты

Глава 3. Архитектурные и проектные решения при автоматизации проектирования интеллектуальных поисковых агентов

3.1 Архитектуры современных систем информационного поиска в глобальных сетях

3.1.1 Общие принципы архитектуры современных систем интеллектуального поиска в глобальных сетях

3.1.2 Особенности архитектуры информационного поиска в поисковой машине Яндекс

3.2 Вопросы программной реализации систем интеллектуального поиска

3.2.1 Особенности программной реализации поиска в системе Russian Context Server

3.2.2 Структура поисковой машины Convera RetrievalWare

3.2.3 Особенности программной реализации поисковой машины Яндекс

3.2.4 Программная платформа поисковой машины Google

3.2.5 Принципы программной реализации системы интеллектуального поиска

3.3 Архитектура системы интеллектуального поиска

3.4 Алгоритм работы системы интеллектуального поиска

3.5 Алгоритмы "обучения и самообучения" интеллектуальных агентов

3.6 Проектные решения при программной реализации интеллектуальных агентов

Основные результаты

Глава 4. Программный инструментарий Spider v2.0 для работы с интеллектуальными

поисковыми агентами

4.1 Цель и назначение программы

4.2 Архитектура программы

4.3 Классы и методы программы Spider v2.0

4.4 Функциональные особенности инструментария Spider v2.0

4.5 Пользовательский интерфейс. Пример работы программы Spider v. 2.0

4.6 Анализ работы инструментария и практические результаты разработки

Основные результаты

Заключение

Список литературы

Приложение

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Математическое и программное обеспечение интеллектуальных поисковых систем на основе использования мультиагентной архитектуры»

Введение

Актуальность темы

В настоящее время глобальная сеть Интернет стала наиболее популярным средством поиска различной информации. Поисковые механизмы - ядро глобальной сети (ГС), их задача состоит в обеспечении эффективной навигации и выдачи искомой информации. Способ современного решения этой задачи -качественная система интеллектуального поиска, способная на любой запрос пользователя подбирать источники, максимально релевантные или пертинентные запросу. В этой области выполнено множество научных и технологических работ. Вместе с тем число информационных ресурсов в Интернете растет лавинообразно. При этом ресурсы в основной своей массе не имеют должного стандартного описания. Отсутствует их классификация. Так, например, при поиске информации по какой-либо тематической рубрике можно весьма долго просматривать \УеЬ-сайты, которые, на первый взгляд, описывают нужную рубрику, но используют бытовую лексику, не уделяя никакого внимания ни теоретическим основам, ни подробностям конкретных технологий. Это, как правило, коммерческие сайты, цель которых - любыми средствами привлечь посетителя в рекламных целях. Миллионы копирайтеров и рерайтеров производят большое количество некачественной информации. Таким образом, выявляется актуальная проблема - отсутствие стандартов описания и единообразной унифицированной системы классификации ресурсов ГС, а также отсутствие алгоритмов поиска с использованием систем, классифицирующих ресурсы.

Одним из способов решения данной проблемы является подход к описанию информационных ресурсов, разработанный ученым из Швейцарии Тимати Бернерсом-Ли. Им предложен семантический подход к описанию информационных ресурсов. Развитие подхода предполагает представление и запись информации в форме семантической сети с помощью онтологий. Онтология - это попытка всеобъемлющей и детальной формализации некоторой области знаний с помощью определённой концептуальной схемы. Таким образом,

программа-клиент может непосредственно извлекать из ГС знания и делать из них логические заключения. Эта технология получила название Semantic Web.

Весомые результаты в работах по представлению знаний связаны с такими учеными, как В.П. Гладун, Д.А. Поспелов, Э.В. Попов, В.Ф. Хорошевский, И.Ю.Каширин, Д. Бобров, М. Минский, Р. Шенк, Т. Виноград, Г.С. Осипов.

Для реализации концепции Semantic Web консорциумом W3C, технологически развивающим Интернет, был предложен стандарт в форме языка описания онтологии OWL (Ontology Web Language). Язык OWL последовательно расширяется от простых его подмножеств к более сложным по схеме OWL-Lite Q OWL-DL С OWL-Full. В настоящее время существует также OWL-S - язык описания Интернет-сервисов.

Семантическое описание требует разработки новых поисковых средств, повышающих релевантность и пертинентность на основе автоматического построения программ небольшого объема - интеллектуальных поисковых агентов, которые получают информацию от ресурсов ГС и работают с ними для улучшения результирующей информационной выборки. Преимущества такого подхода в том, что агенты настроены на узко специализированную область, для которой они выдают наиболее точный результат в соответствии с предварительным семантическим описанием.

Цель работы

Целью диссертационной работы является улучшение качества информационного поиска в ГС на основе создания новой архитектуры вспомогательных интеллектуальных средств за счет применения и построения поисковых агентов. Для построения интеллектуальных агентов необходимо разработать формализм представления знаний на основе современных языков семантического описания Интернет-ресурсов. Для повышения оперативности, релевантности и пертинентности поиска необходимо разработать математический аппарат, дающий возможность производить операции композиции и оптимизации на множестве OWL- ориентированных поисковых агентов.

Для практического решения поставленной цели необходима разработка алгоритмов, инструментария и программных средств, обеспечивающих надежную и эффективную работу интеллектуальных поисковых агентов.

Основные задачи

Для достижения цели диссертации необходимо решение следующих задач:

- выполнить расширенный анализ существующих систем информационного поиска в ГС с целью выявления их технологических преимуществ и недостатков;

- в соответствии с рядом выявленных требований определить основные критерии для построения системы интеллектуального поиска;

- произвести анализ современных средств описания Интернет-ресурсов, позволяющих представлять их в форме знаний с формализацией семантики для разработки адекватного описания поисковых агентов;

- разработать математический аппарат, позволяющий производить операции на множестве поисковых агентов для оптимизации поиска;

- разработать новую архитектуру системы интеллектуального поиска;

- разработать алгоритмы и методы для работы с семантическими структурами и построения на их основе поисковых агентов;

- разработать программный инструментарий, реализующий созданную архитектуру и алгоритмы системы интеллектуального поиска для их практического применения, а также для качественной проверки математического аппарата, созданного для оптимизации интеллектуальных поисковых агентов.

Объект исследования

Объектом исследования настоящей диссертации являются системы поиска информации в ГС, а также их оптимизация с помощью точных интеллектуальных агентов.

Методы исследования

Теоретические исследования в диссертации выполнены на основе теории множеств, универсальных алгебр, прикладного исчисления предикатов. Прикладная часть работы использует теорию объектно-ориентированного программирования.

Научная новизна

Разработан математический формализм и введены основные понятия для работы с интеллектуальными поисковыми агентами. Показано, что предложенный формализм достаточен для эффективного анализа современных поисковых машин. Для оптимизации поиска с целью повышения его пертинентности создана алгебраическая система 0\УЬ-ориентированных поисковых агентов, позволяющая производить операции композиции на множестве поисковых агентов. Предложен оригинальный алгоритм интеллектуального поиска на основе применения обучающихся агентов, позволяющий улучшить поисковые характеристики.

На защиту выносятся:

алгебраический формализм, позволяющий адекватно описывать композиционные свойства поисковых агентов, а также производить оптимизацию таких композиций;

- новое архитектурное решение для проектирования интеллектуальных поисковых машин, позволяющее создавать, адаптировать к конкретной предметной области и применять на практике специализированные поисковые агенты;

- инструментальный программный комплекс, реализующий на практике математические и архитектурные решения диссертационной работы.

Теоретическая значимость

Теоретическая значимость работы заключается в разработке математического формализма :

- введены основные определения, понятия и операции для алгебры А0\уь > алгебры 0\\Т,-ориентированных поисковых агентов;

- выполнен анализ адаптивных свойств композиции поисковых агентов на основе Ас^ь;

- разработан способ обучения поисковой системы на основе решения уравнения АЭоиъ.

Практическая значимость

На основе полученных теоретических результатов автором диссертации разработан программный инструментарий (набор классов и методов языка программирования С#), в основе которого лежит объектно-ориентированное программирование, для создания интеллектуальных поисковых агентов и работы с ними. Эффективность применения инструментария достигается за счет улучшения следующих составляющих:

- упрощается процесс разработки; как следствие, сокращается время для создания поисковых систем с применением интеллектуальных агентов;

- на основе автоматического решения уравнения ASowl выполняется обучение поисковой системы для повышения релевантности и пертинентности поиска;

- на основе оригинального алгоритма сопоставления OWL-онтологий выполняется автоматическое построение поисковых агентов.

Программный инструментарий, реализованный в рамках диссертационной работы, дал возможность разработать программный продукт Spider v2.0, представляющий собой систему интеллектуального поиска с возможностью использования поисковых агентов как основных средств получения информации. Он позволяет производить поиск информации в ГС, имеет возможность описания модели пользователя и на практике демонстрирует работу алгоритма обучения поисковых агентов. Выполненные эксперименты показали улучшение оперативности, релевантности и пертинентности поиска.

Реализация и внедрение результатов диссертационной работы

Результаты диссертационной работы внедрены в управлении образования и молодежной политики администрации города Рязани, в производственной деятельности ФГУП "ГНПРКЦ "ЦСКБ-Прогресс" - ОКБ "Спектр", а также в учебный процесс Рязанского государственного радиотехнического университета при выполнении практических занятий по дисциплине «Проектирование систем искусственного интеллекта» в студенческих группах специальности 231000 «Программная инженерия».

Апробация работы

Основные научные положения диссертационной работы докладывались и обсуждались на следующих научных конференциях:

- международной научно-практической конференции "Наука и образование в XXI веке" (Тамбов, 30 сентября 2013);

- международной научно-практической конференции "Актуальные научные вопросы и современные образовательные технологии" (Тамбов, 28 июня 2013);

- международной научно-технической конференции "Проблемы передачи и обработки информации в сетях и системах телекоммуникаций" (Рязань, 6-8 мая 2012);

- международной научно-практической конференции "Вопросы образования и науки в XXI веке" (Тамбов, 29 апреля 2013);

- 56-й студенческой научно-технической конференции РГРТУ, секция вычислительной и прикладной математики (Рязань, 22 апреля 2009);

- XVII Всероссийской научно-технической конференции студентов, молодых ученых и специалистов "Новые информационные технологии в научных исследованиях" ( Рязань, РГРТУ, 2012);

Публикации

По теме диссертации опубликовано 11 печатных работ, в том числе: две статьи в издании, входящем в перечень ВАК для кандидатских и докторских диссертаций; 3 статьи в научно-технических журналах и межвузовских сборниках научных трудов; 6 докладов на международных и всероссийских конференциях.

Структура и объем диссертации

Диссертационная работа состоит из введения, четырех глав, списка литературы, заключения, изложенных на 150 страницах (включая 23 рисунка и 15 таблиц), и 1-го приложения на 3 страницах. Список литературы содержит 112 наименований.

Глава 1. Поисковые агенты в современных глобальных сетях

1.1 Подходы к информационному поиску в глобальных сетях

Одним из основных способов поиска информации в глобальной сети (ГС) Интернет являются поисковые машины [5]. Поисковые машины ежедневно сканируют Интернет, посещая Web-страницы и занося их в информационные хранилища и базы данных (БД) сверхбольших объемов. Все это позволяет пользователю, воспользовавшись каким-либо из поисковых инструментов, набрать нужные ключевые слова поискового предписания, выбрать графическую кнопку "Найти" и получить Web-страницы, удовлетворяющие требованиям его запроса.

В то же время основные протоколы, используемые в глобальной сети Интернет, не обеспечены достаточными встроенными функциями поиска, не говоря о множестве серверов, находящихся в ней. Протокол HTTP [11], используемый в Интернет, хорош лишь в отношении навигации, которая рассматривается только как средство просмотра страниц, но не их поиска. То же самое относится и к протоколу FTP [11], который более прост, чем HTTP. Из-за быстрого роста информации, доступной в ГС, навигационные методы просмотра быстро достигают предела своих функциональных возможностей, не говоря уже о пределе их эффективности [13]. Не указывая точных числовых характеристик, можно сказать, что нужную информацию в настоящее время не представляется возможным получить сразу, так как в ГС сейчас находятся около 270 миллионов Web-сайтов и других информационных ресурсов [1], на которых располагаются триллионы документов различных форматов. Все они находятся в распоряжении пользователей Интернет, к тому же сегодня их количество возрастает в экспоненциальной зависимости от времени. Количество изменений, которым подвергнута информация, весьма велико и все они произошли за короткий период времени. Основная проблема заключается в том, что единой полной функциональной системы обновления и занесения большого объема информации, одновременно доступного всем пользователям Интернет, до сих пор не

существует. Для того чтобы структурировать информацию, накопленную в сети Интернет, и обеспечить ее пользователей удобными средствами поиска необходимых им данных, были созданы поисковые системы [19].

Поисковые системы обычно состоят из трех компонент:

- агент (паук, робот или кроулер) [24], который перемещается по ГС и собирает информацию;

- БД, которая содержит информацию, собираемую агентами;

- поисковый механизм, который используется как интерфейс для взаимодействия с БД [31].

Средства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь пользователям найти информацию, в которой они нуждаются. Средства поиска, такие как поисковые агенты, пауки, кроулеры и роботы, используются для сбора информации о документах, находящихся в ГС. Это - специальные программы, которые занимаются поиском \УеЬ-страниц, извлекают гипертекстовые ссылки, присутствующие на этих страницах, и автоматически индексируют информацию, которую они находят для построения БД. Каждый поисковый механизм имеет собственный набор правил, определяющих, как выбирать документы [8]. Некоторые из них следуют за каждой ссылкой на каждой найденной Web-странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц и так далее. Другие поисковые механизмы игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации. Существуют поискеры, игнорирующие ссылки к ресурсам, содержимое которых формируется динамически. Другие механизмы просматривают \УеЬ-страницы с наибольшей популярностью, которая определяется, например, количеством ссылок на данную страницу с других информационных ресурсов [10].

Агенты - самые "интеллектуальные" из поисковых средств [10]. Они могут выполнять намного больше операций, чем просто поиск. Например, они могут выполнять даже транзакции от имени пользователя, кроме того, могут искать информационные ресурсы специфической тематики и возвращать их списки,

отсортированные по параметру посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, причем не только текстовые страницы, но даже фотографии. Они могут также быть запрограммированы для извлечения информации из уже существующих БД. Независимо от информации, которую агенты индексируют, они передают ее обратно в БД поискового механизма.

Общий поиск информации в ГС осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Они также просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

Кроулеры просматривают заголовки и возвращают только первую ссылку, найденную в Интернете [18]. Это самые простые механизмы поиска, а потому наименее эффективные.

Роботы могут быть запрограммированы так, чтобы переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе [28]. Вследствие конструктивных особенностей они могут долго обрабатывать циклические ссылки информационных ресурсов, поэтому при проходе по ссылкам им нужны значительные ресурсы. Однако имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы их ресурсы были проиндексированы.

В основе принципа работы поискового механизма в настоящее время лежит достаточно сложный процесс обработки информации, но в упрощенном виде этот процесс можно представить так, как описано далее. Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важные,например, 100 слов в каждом, фиксируют размер документа и число слов в нем, индексируют название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск

может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Агенты могут также перемещаться по ГС и находить информацию, после чего помещать ее в БД поискового механизма. Администраторы поисковых систем могут заранее задать в настройках, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано ранее.

Пользователи могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных.

Когда кто-либо хочет найти информацию, доступную в ГС, он посещает страницу поисковой системы, заполняет форму, детализирующую эту информацию. Здесь могут использоваться ключевые слова, даты и другие критерии. Данные в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по ГС.

Существует три основных типа поисковых систем.

1. Робот индексов или поисковая машина - это по сути сервер с огромной базой данных URL-адресов, который автоматически обращается к страницам ГС по всем этим адресам, изучает содержимое этих страниц, формирует и прописывает ключевые слова со страниц в свою базу данных (индексирует страницы). Для поисковых систем довольно важна конструкция каждого документа. Большое значение имеют title, meta-теги и содержимое страницы. Более того, этот сервер обращается ко всем встречаемым на страницах ссылкам и, переходя к новым страницам, проделывает с ними то же самое. Так как почти любая Web-страница имеет множество ссылок на другие страницы, то при подобной работе поисковая машина в конечном результате теоретически может обойти все ресурсы в ГС. Представтели поисковых машин - Google, Яндекс, Bing и др.

2. Каталоги. В отличие от поисковых машин в каталог информация

заносится по инициативе человека, в редких случаях - автоматизированными интеллектуальными рубрикаторами. Добавляемая страница должна быть жестко привязана к принятым в каталоге категориям.

3. Метапоисковая система - может быть реализована как в самой ГС, например на Telnet- или Web-доступном узле, так и в виде локальной клиентской программы. Не обладая собственной индексной базой данных, метапоисковая система выступает в качестве шлюза, который передает через свой интерфейс запросы на автономные информационно-поисковые системы и возвращает результаты поиска. Одно из назначений метапоискового сервиса при поиске -тестирование ГС на предмет информации, релевантной запросу. Метасистемы позволяют также оценить результативность применения отдельных поисковых систем для решения конкретной поисковой задачи. Отметим, что метасистема допускает передачу запросов не только на автоматические индексы, но и в те каталоги, которые сопровождаются локальной поисковой машиной. Среди довольно известных продуктов сетевого базирования можно выделить следующие системы: MetaBot, MetaPing и др.

Поисковые системы отыскивают предмет запроса, основанный на информации, указанной в заполненной форме, и выводят соответствующие документы, подготовленные и хранимые в БД. Чтобы определить порядок, в котором список документов будет показан, механизм актуализации БД применяет алгоритм ранжирования. В идеальном случае документы, наиболее релевантные пользовательскому запросу, будут помещены первыми в ранжированном списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные общие составляющие для вычисления релевантности следующие:

- количество слов запроса в текстовом содержимом документа (т.е. в HTML-коде);

- теги, в которых эти слова располагаются;

- местоположение искомых слов в документе;

- удельный вес слов, относительно которых определяется релевантность в общем количестве слов документа;

- доверие к информационному ресурсу, в котором содержится информация

[32].

Эти характеристики применяются всеми поисковыми системами. Перечислим далее другие известные характеристики, которые используются лишь некоторыми поисковыми механизмами, такими как, например, Яндекс, Google.

1. Время, которое страница находится в базе поискового сервера. Может показаться, что это довольно бессмысленная характеристика. В то же время в ГС существует множество сайтов, которые функционируют максимум месяц. Если же информационный ресурс существует довольно долго, это означает, что его владелец весьма опытен в данной теме и пользователю больше подойдет именно этот ресурс.

2. Индекс цитируемости. В общих чертах — это число ссылок, ведущих на индексируемую страницу с других страниц, зарегистрированных в БД поисковой системы.

Механизм актуализации БД выводит ранжированный согласно всем критериям список документов пользователю, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка. Некоторые из них показывают только ссылки. Другие выводят ссылки с первыми несколькими предложениями, содержащимися в документе, или заголовок документа вместе со ссылкой. Когда пользователь выбирает ссылку к одному из документов, который его интересует, этот документ запрашивается у соответствующего сервера, на котором он находится [36].

1.2 Поисковые системы Яндекс, Google, Bing 1.2.1 Система Яндекс

Особое внимание следует уделить анализу поисковой машины Яндекс, поскольку на данный момент это — одна из самых мощных систем поиска в русскоязычном Интернете. Следует учитывать, что главным достижением

разработчиков Яндекс можно считать возможность построения запросов на естественном языке, реализованную одной из первых в системах такого рода [46].

Программные продукты серии Яндекс (Языковый index) - это набор средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского языка. Яндекс включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких как анализатор документов, языки разметки, конверторы форматов, сетевой "паук". Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система полнотекстового индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с учетом логических операторов [106]. Яндекс, кроме стандартного HTML, индексирует страницы в следующих форматах: PDF, DOC, RTF и SWF [46].

Яндекс обладает развитым языком запросов, позволяющим осуществлять тонкий поиск. Для того чтобы воспользоваться широким спектром возможностей, используется страница "расширенный поиск", где большая часть настроек Яндекса задается простой входной формой. Следует обратить внимание на то, что при заполнении нескольких полей запрос будут составлен таким образом, чтобы все условия выполнялись одновременно (через документное "И" - &&) [69]. Далее рассмотрим основные настроечные элементы поиска.

Словарный фильтр

Словарный фильтр позволяет указать, какие слова обязательно должны встретиться в документе, каких быть не должно, а какие желательны (то есть могут быть, а могут не быть). Поле "все формы" или "точная форма" указывает Яндексу, надо ли учитывать при запросе все словоформы. "Точная форма" обычно требуется только для поиска цитат. Зоной поиска слова может быть как текст документа (слова находятся в одном предложении или во всем документе), так и его заголовок, аннотация (тег description), ссылка (подпись URL) или адрес (сам URL). Вариант "во фразе" означает необходимость искать слова в том

порядке, в котором они введены. Можно задавать несколько ключевых слов через запятую.

Ссылка

Если ввести в поле «ссылка» адрес Web-сайта, можно узнать, какие ресурсы ссылаются на этот сайт. Здесь же можно исключить из поиска страницы, содержащие ссылку на определенный адрес. На основе этой возможности рассчитывается индекс цитируемости. Чтобы исключить все внутренние ссылки (то есть ссылки с одних страниц ресурса на другие его же страницы), необходимо использовать поле «сайт/вершина» и исключить ресурс из поиска ссылок.

При поиске объектов: скрипт, объект, апплет, java в поле «объект» указывается имя объекта.

Язык

Яндекс умеет определять язык, на котором составлен документ. Можно задать язык документов, среди которых следует провести поиск: русский (кириллица) или не русский. В базе Яндекса находятся не только документы русскоязычного Интернета (по умолчанию в поисковую машину вносятся серверы в доменах su, ru, am, az, by, ge, kg, kz, md, tj, ua, uz), но также зарубежные информационные ресурсы, представляющие интерес для русскоязычного поиска.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Список литературы диссертационного исследования кандидат наук Минашкин, Сергей Александрович, 2013 год

Список литературы

1. Аветисян Д.О. Проблемы информационного поиска / Д.О. Аветисян. - М.: Финансы и статистика, 2011. - 206 с.

2. Агеев М.С., Добров Б.В., Лукашевич Н.В., Сидоров A.B. Экспериментальные алгоритмы поиска/классификации и сравнение с «basic line» // Российский семинар по оценке методов информационного поиска (РОМИП 2004).- Пущино, 2012. - С. 62-89.

3. Аляев Ю. А. Алгоритмизация и языки программирования Pascal, С++, Visual Basic: учебно-справ. пособие / Ю.А. Аляев. - М.: Финансы и статистика, 2007. - 319 с.

4. Артемьева И.Л. Модель онтологии предметной области / И.Л. Артемьева, В.И. Высоцкий, Н.В. Рештаненко // НТИ, сер.2. 2010. - №8. - С. 19-27.

5. Ашманов И. Оптимизация и продвижение сайтов в поисковых системах / И. Ашманов. - СПб.: Питер , 2009. - 400 с.

6. Болушевский С. В. Эффективный Интернет / C.B. Болушевский. - СПб.: Питер, 2009. - 299 с.

7. Браун М. Методы поиска информации в Интернет / М. Браун. - М.: Новый издательский дом, 2005. - 144 с.

8. Гаврил ова Т. А. Базы знаний интеллектуальных систем / Т.А. Гаврилова, В.Ф. Хорошевский. - СПб.: Питер, 2011 - 384 с.

9. Гладун А.Я. Онтологический анализ Web-сервисов в интеллектуальных сетях / А.Я Гладун, Ю.В. Рогушина, В. Штонда. //International Conference «KnOWLedge-Dialogue-Solutions» 2007. - С. 12-15

10. Гусев B.C. Google: эффективный поиск. Краткое руководство / B.C. Гусев. -М.: Вильяме, 2006. - 240 с.

11. Гусев B.C. Эффективный поиск информации в Internet. Самоучитель / B.C. Гусев. - М.: Диалектика, 2004. - 336 с.

12. Дейтел X. М. Как программировать на XML / Х.М. Дейтел, П.Дж. Дейтел, Т.Р. Нието, Т.М. Лин, П. Садху. - М.: Бином-Пресс, 2007. - 944 с.

13. Дерецкий В. А. Разработка приложений в сервис-ориентированной архитектуре семантического Веб / В. А. Дерецкий // Проблемы программирования, 2010. -№ 1. - С. 66-78.

14. Дрешер Ю. Н. Информационное обеспечение ученых и специалистов: учеб.-метод. пособие / Ю. Н. Дрешер. - СПб. : Профессия, 2008. - 464 с.

15. Ермаков А.Е. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтез // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции "Диалог'2003". - М.: Наука, 2003. - С. 15-22

16. Золотова Г. А. Синтаксический словарь. Репертуар элементарных единиц русского синтаксиса / Г.А. Золотова. - М.: Эдиториал, 2001. - 224 с.

17. Золотова Г. А. Коммуникативная грамматика русского языка / Г.А. Золотова, Н.К. Онипенко, М.Ю. Сидорова. - М.: МГУ, 2008. - 442 с.

18. Иванов А. Идеальный поиск в Интернете глазами пользователя / А. Иванов. - СПб.: Питер, 2011. - 208 с.

19. Каширин Д.И. Интеллектуальные системы информационного поиска с алгебраическим представлением запросов / Д-И. Каширин, Х.М. Гучапшев // МНТК «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций»: материалы конференции.-Рязань, РГРТА, 2003.-56 с.

20. Клещев A.C. Онтологии и их классификация / A.C. Клещев, Е.А. Шалфеева. - Владивосток: РАН ДО ИАПУ, 2010. - 19 с.

21. Клещёв A.C., Москаленко Ф.М., Черняховская М.Ю. Модель онтологии предметной области "Медицинская диагностика". В 2-х ч., / A.C. Клещев, Ф.М. Москаленко // НТИ. Сер. 2. Часть 1: 2005. - №.12. - С. 1-7. Часть 2, 2006. -No 2.-С. 19-30.

22. Козлов Е.Б. Мультиагентная система поиска информации в Интернет / Е.Б. Козлов, A.B. Метелкин, В.Ф. Хорошевский // Труды седьмой национальной

конференции по искусственному интеллекту с международным участием КИИ'2011.-М.: Физматлит, 2011.-С. 840-850.

23. Круглов В.В. Искусственные нейронные сети. Теория и практика. - 1-е изд. /В.В. Круглов, В.В. Борисов. -М.: Горячая линия - Телеком, 2001. - С. 382.

24. Кудряшов Б.Д. Теория информации: учеб. пособие для студентов вузов / Б.Д. Кудряшов. - СПб.: Питер, 2009. - 314 с.

25. Куршев Е. П. Интеллектуальная метапоисковая система / Е.П. Куршев, Г.С. Осипов, О.В. Рябков, Е.И. Самбу, Н.В. Соловьева, И.В. Трофимов // Труды международного семинара Диалог'2002 «Компьютерная лингвистика и интеллектуальные технологии». - М.: Наука, 2002. -С. 320-330.

26. Куршев Е. П. Метод извлечения полуструктурированных данных из Интернет / Е.П. Куршев // Труды седьмой национальной конференции по искусственному интеллекту с международным участием КИИ'2011. - М.: Физматлит, 2011. - С. 260-263.

27. Ланде Д.В. Infostream. Мониторинг новостей из Интернет: технология, система, сервис: научно-методическое пособие / Д.В. Ланде, А.Н. Григорьев, С.А. Бороденков и др. - К.: ООО "Старт 98", 2007.-40 с.

28. Ланде Д.В. Поиск знаний в Internet. Профессиональная работа / Д.В. Ланде. - М.: Вильяме, 2005. - 272 с.

29. Минский М. Фреймы для представления знаний / М. Минский. - М.: Энергия, 1979.- 151 с.

30. Овдей О.М. Обзор инструментов инженерии онтологии // Труды 6-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL2004 / О.М. Овдей, Г.Ю. Проскудина. - Пущино, 2012. - 11 с.

31. Олифер В.Г. Компьютерные сети: принципы, технологии, протоколы: учеб. пособие. - 3-е изд / В.Г. Олифер. - СПб. Питер, 2008. - 958 с.

32. Осипов Г. С. Приобретение знаний интеллектуальными системами: Основы теории и технологии / Г.С. Осипов. - М.: Наука, Физматлит, 2007. - 456 с.

33. Осипов Г. С. Семантический поиск в среде Интернет / Г.С. Осипов, Е.П. Куршев, Д.А. Кормалев, И.В. Трофимов, О.В. Рябков, И.А. Тихомиров. -Переславль-Залесский: ИПС РАН, 2003. - С.50-57.

34. Почанский О.М. Модель пстроения ааптивных Web-сраниц на основе интеллектуального анализа сети Internet / О.М. Почанский // Восточноевропейский журнал передовых технологий. 2010. -№ 4/7(46). - С. 66-69.

35. Почанский О.М. Критерий «чистоты» как основная характеристика модели улучшения работы поискового агента / О.М. Почанский // Математическое и программное обеспечение интеллектуальных систем Mpzis-2010. - : Днепропетровск, 10-12 ноября 2010. - С. 180-181.

36. Рассел С. Искусственный интеллект: современный подход (АГМА).- 2-е издание.: пер. с англ. / С. Рассел, П. Норвиг. - М.: Издательский дом "Вильяме", 2011. - 1424 с.

37. Рогушина Ю.В. Онтологическая модель интеллектуализации сервис-ориентированных вычислений в распределенной среде / Ю.В. Рогушина, А.Я. Гладун // Проблемы программирования. - 2006. - № 2-3.-С. 526-536.

38. Свердлов С.З. Языки программирования и методы трансляции [Комплект]: учеб. пособие для студентов вузов / С.З. Свердлов. - СПб: ПИТЕР, 2007. -637 с.

39. Сергеева И.И. Информатика: учеб. для студентов уч-ий ср. проф. образ / И.И. Сергеева. - М.: ИД ФОРУМ: ИНФРА-М, 2008. - 335 с.

40. Словарь по кибернетике / под ред. академика В. С. Михалевича. - 2-е изд. -Киев: Главная редакция Украинской советской энциклопедии имени М. П. Бажана, 1989. - 751 с.

41. Степанов А.Н. Информатика: учеб. пособие. - 5-е изд / А.Н. Степанов. -СПб.: Питер, 2008. - 764 с.

42. Сэлтон Г. Автоматическая обработка, хранение и поиск информации / Г. Сэлтон. -М.: Советское радио, 1973. - 555 с.

43. Трофимов И.В. Эволюция выразительных способностей языка OWL / И.В. Трофимов // Программные системы: теория и приложения : электрон, науч. журн., 2011. -№ 4(8). - С.85-94.

44. Финн В.К. Логические проблемы информационного поиска / В.К. Финн. -М.: Наука, 1976. - 152 с.

45. Хабибулин И.Ш. Разработка WEB-служб средствами JAVA / И.Ш. Хабибулин. - СПб.: БХВ-Петербург, 2003 - 400 с.

46. Холмогоров В. Поиск в Интернете и сервисы Яндекс / В. Холмогоров. -СПб.: Питер, 2006. - 123 с.

47. Щербань А.Б. Об одном алгоритме поиска изоморфных отображений обобщённых структурных моделей// А.Б. Щербань, В. А. Егоров// Современные информационные технологии-2010: тез. доклмеждунар. науч-техн. конф. Пенза, ПГТА, 2010 г.- Пенза: Изд-во Пенз. гос. технолог, акад., 2010-С. 17-20.

48. Яковлев А.А. Раскрутка и продвижение сайтов: основы, секреты, трюки / А.А. Яковлев. - СПб.: Бхв-Петербург, 2007. - 336 с.

49. Ярушкина Н.Г. Нечеткие ителлектуальные сстемы в среде Scilab: методическое указания к лабораторным работам / Н.Г. Ярушкина, Н.Н. Ястребова, А.В. Чекина. - Ульяновск.: УлГТУ, 2009. - 28 с.

Иностранная литература

50. Adamo J.-M. Data mining for association rules and sequential patterns: sequential and parallel algorithms. N.Y.; Berlin; Heidelberg: Springer, 2002.

51. Baader F., Horrocks L, Sattler U. Description Logics. In Frank van Harmelen, Vladimir Lifschitz, and Bruce Porter, editors, Handbook of KnOWLedge Representation. Elsevier, 2007.

52. Baader F., Narendran. P. Unification of concepts terms in description logics// J. of Symbolic Computation, 31(3), 2011.-p. 277-305.

53.

54,

55.

56.

57,

58

59

60

61

62

63

64

65

66

67

Beckett D. RDF/XML Syntax Specification (Revised), W3C Recommendation, 10 February 2004.

Beckett D. W3C Recommendation, February 10, 2004.

Benett J., Engelmore R. Experience Using EMYCIN// Rule-Based Expert Systems, Reading. Addison-Wesley (Mass.), 1984.

Berners-Lee T., Hendler J., Lassila O. The Semantic Web// Scientific American, 17. Mai 2011.

Braijn J., Polleres A., Lara R., Fensel D. OWL DL vs. OWL Flight: Conceptual modeling and reasoning on the Semantic Web// In Proceedings of the 14th International World Wide Web Conference (WWW 2005), Chiba, Japan, 2005. Bruauxs S., Kassel G., Morel G. An Ontological approach to the construction of problem-solving models, LARIA RESEARCH REPORT: LRR 2005-03, May, 2005.-1 p.

Bryson J., at al. Agent-Based Composite Services in DAML-S. - 2010. CEEMAS'99, St.-Peterburg, June 1999.

Chia-Hui Ch. A Survey Of Web Information Extraction / Ch. Chia-Hui, K. Mohammed, R.G. Moheb And Oth// IEEE Transactions On KnOWLedge And Data Engineering. -Nj, USA, 2006.-№ 18/10.-P. 1411-1428. Cilibrasi R. The Google Similarity Distance / R. Cilibrasi, P. Vitanyi // IEEE Transactions On KnOWLedge And Data Engineering. - Nj, USA, 2007. -№19/3.-P. 370-383.

Cohen Gideon David. Intelligent information retrieval system// Vigil, №2, 2000.

Daniel E. O'Leary. KnOWLedge-Management Systems: Converting and

Connecting// IEEE Intelligent systems. -1998.- №3. -P. 30- 33.

Daniel E. O'Leary. Using AI in KnOWLedge Management: KnOWLedge Bases

and Ontologies// IEEE Intelligent systems. -1998. -№3.- P. 34- 39.

David J. Skyrme Valuing KnOWLedge: Is It Worth It?// Managing Information.-

№2.- 1998.-P. 24-26.

Denning S. What is knOWLedge management? A background document to the World Development Report. The World Bank, 1998.- 19 p.

68

69.

70,

71

72

73.

74

75

76

77

78

79

80

Didier Dubois & Henri Prade Fuzzy Set Modelling in Case-Based reasoning// International Journal of intelligent systems.- 1998.- Vol. 13.- P. 345-373. Dieter F. Ontology-Based KnOWLedge Management// IEEE Computer Society.-2002.-№11.

Fensel D., Harmelen F., Horrocks I., McGuinness D., Patel-Schneider P. F. OIL: An Ontology Infrastructure for the Semantic Web// IEEE Intelligent Systems.-16(2).-201 l.-38-45p.

Fensel D., Lausen H., Polleres A., Braijn J., Stollberg M., Roman D., Domingue J. Enabling Semantic Web Services. The Web Service Modeling Ontology. -Springer-Verlag, Berlin Heidelberg.- 2007. - 188 p.

Han J., Chen-Chuan Chang K. Data Minning for Web Intelligence// IEEE Computer Society. 2002. №8.

Henzinger M.R. Hyperlink analysis for the Web// IEEE Internet Computing.-2011.-P. 45-50.

Highland F. Embedded AI// IEEE Expert.- 1994.- №3.- P. 18- 20. James R. Natural language method and system for searching for and ranking relevant documents from a computer database// Univ. № 5. 2000. James R. System for searching relevant documents // Univ.- № 2.- 2001. Kashirin D., Guchapshev H. Intellectual Systems of Information Retrieval Based On Algebraic Representation of Queries/ Interactive Systems: The Problems of Human-Computer Interaction. - Proceedings of the International Conference, 2327 September 2010. - Ulyanovsk: U1STU.

Kennedy, Niall (January 8, 2008). Google processes over 20 petabytes of data per day. Niall Kennedy's Weblog . Niall Kennedy .- Retrieved July 5.- 2010. Khoroshevsky V.F., Maikevich N.V. Intelligent Processing of Web-Resources: Ontology-Based Approach and Multiagent Support, Accepted to Klein M. Supporting Evolving Ontologies on the Internet, in EDBT Workshops 2002.- 2002. - P. 597-606.

81. Krhriyenko O. Similarity/Closeness-Based Resource Browser / O. Krhriyenko, V. Terziyan // Visualization, Imaging, and Image Processing. - Cambridge, July 13 - 15, 2009.-P. 184-191.

82. Kumar B.V. Implementing SOA using Java EE / B.V. Kumar, Prakash Narayan, Tony Ng. - Sun Microsystems, Inc., 2010.-351 p.

83. Lassila O., Hendler J. Embracing «Web 3.0». IEEE Internet Computing. May/June 2007.- IEEE Computer Society, 2007.

84. Lutz. CNExpTime-complete description logics with concrete domains. In R. Gore, A. Leitsch, and T. Nipkow, editors// Proc. of the Int. Joint Conf. on Automated Reasoning (IJCAR-01). Number 2083 in Lecture Notes in Artificial Intelligence, Springer-Verlag, 2010. - P. 45-60.

85. Marianne Broadbent. Phenomenon of KnOWLedge Management: What Does It Mean To The Information Profession?// Information Outlook.- Vol.5.- №5. 1998.-P. 23-36.

86. Menczer F., Belew R.K. Adaptive information agents: Internalizing local context and scaling up to the Web. Machine Learning, 2000, P.203-242.

87. Missikoff M., Velardi P. Integrated Approach to Web Ontology Learning and Engineering// IEEE Computer Society.- 2002.- №9.

88. Moukas. A., Maes. P. Amalthaea: An evolving Multi-Agent Information Filtering and Discovery System for the WWW, Autonomous Agents and Multi- Agent Systems.- 1.- 2008.-P. 59-88.

89. Muller B., Reinhardt J. Neural networks. Springer-Verlag.- 1990.- 267 p.

90. Naumenko A. Service Matching In Agent System / A. Naumenko, S. Nikitin, V. Terziyan // Applied Intelligent - Ma, USA, 2006. - № 25/2. - P. 223-237.

91. Newell A. Heuristic Programming: Ill-Structured Problems// Progress in operation research- New York, Wiley & Sons.- V.3, 1969.- P. 362-414.

92. Ohkubo Masaaki, Sugizaki Masayuki, Inoue Takafumi, Tanaka Kazuo. Information associating apparatus and method// Nippon Telegraph and Telephone Corp.- № 9.- 2000.

93. Pandia Search Engine News — Google: one million servers and counting" . Pandia Search Engine News.- July 2.- 2007.

94. Passin T.B. Explorer's guide to the Semantic Web, Manning Publication Co., Greenwich, 2011. - 282 p.

95. Patel-Schneider P. F., Hayes P., Horrocks I. OWL Web Ontology Language Semantics and Abstract Syntax, W3C Recommendation, 10 February 2004.

96. Popov B. Kim. Semantic Annotation Platform / B. Popov, A. Kiryakov, D. Manov // Natural Language Engineering - Cambridge, 2004. - № 10/3-4. - P. 375-392.

97. Prudhommeaux E., Seaborne A. SPARQL Query Language for RDF. W3C working draft, 26 Mar. 2007.

98. Ronald R.Y. Database Discovery Using Fuzzy Sets// International journal of intelligent systems.- 1996.- Vol.- 11.- P. 697 712.

99. Sleeman D., Brown J.S. Assessing aspects of competence in basic algebra/ Intelligent Tutoring Systems.- N.Y.: Academic press, 1982.- P. 185-199.

100. Thuraisingham Bh. Building Trustworthy Semantic Web / Bh. Thuraisingham. -N. Y.,USA: Auerbach Publication, 2008. - 402.

101. Van Heijst G., Schreiber A.T., Wielinga B.J. Using explicit ontologies in KBS development // Intern. J. of Human and Computer Studies.- 1996.- Vol. 46.- N (2-3).-P. 183-292.

Собственные публикации автора диссертации

102. Каширнн И.Ю., Минашкин С. А. Алгебра для описания композиционных свойств поисковых агентов в глобальных информационных сетях // Математическое и программное обеспечение вычислительных систем: межвуз. сб. науч. тр./под ред. А. Н. Пылькина. -Рязань РГРТУ, декабрь 2012.-С. 33-36.

103. Каширин И.Ю., Минашкин С. А. Полиморфическое сопоставление онтологий с частично унифицированными тезаурусами //Проблемы передачи и обработки информации в сетях и системах телекоммуникаций:

материалы 17-й Международной науч.-техн. конф. Рязань: РГРТУ, 2012. -С. 34-36.

104. Каширин, И.Ю., Минашкин С. А. Онтологии для представления знаний в интерактивных сервисах информационных сетей // Вестник Рязанского государственного радиотехнического университета № 1 (выпуск 39). 2012. -Часть 2. - С. 72-76.

105. Каширин И.Ю., Минашкин С. А. Обучение поисковой системы на основе решения уравнений алгебры поисковых агентов// Новые информационные технологии в научных исследованиях: сбо. науч. тр. по материалам XVII Всероссийской науч.-техн. конф. студентов, молодых ученых и специалистов Рязань: РГРТУ, 2012. - С. 94-97.

106. Каширин И.Ю., Минашкин С. А. Тенденции развития современных поисковых систем// Информационные технологии в учебном процессе и начных исследованиях: межвуз. сб. науч. тр. /под ред. А. Н. Пылькина -Рязань РГРТУ, 2012. - С. 42-45.

107. Минашкин С. A. Semantic Web как современное средство описания Интернет-ресурсов // Математическое и программное обеспечение вычислительных систем: межвуз. сб. науч. тр. /под ред. А. Н. Пылькина -Рязань РГРТУ, декабрь 2012. - С. 121-130.

108. Минашкин С.А. Программный инструментарий для разработки поискового агента // Программное обеспечение вычислительных и информационных систем (Приложение к межвузовскому сборнику научных трудов «Математическое и программное обеспечение вычислительных систем»): тезисы докладов 56-й студенческой научно-технической конференции; секция вычислительной и прикладной математики / под ред. А.Н. Пылькина - Рязань:РГРТУ, 2009. - 45 с.

109. Минашкин С.А. Проектирование адаптивной архитектуры системы интеллектуального поиска // Вопросы образования и науки в XXI веке: сбо. науч. тр. по материалам Международной научно-практической

конференции 29 апреля 2013 г.: в 11 частях. Часть 7; М-во обр. и науки РФ. - Тамбов: Изд-во ТРОО "Бизнес-Наука-Общество". 2013. - С. 114-116.

110. Минашкин С.А. Алгоритм сопоставления концептуальных понятий онтологий // Актуальные научные вопросы и современные образовательные технологии: сбо. науч. тр. по материалам Международной научно-практической конференции 28 июня 2013 г.: в 7 частях. Часть 3; М-во обр. и науки РФ. Тамбов: Изд-во ТРОО "Бизнес-Наука-Общество", 2013. -С. 89-91.

111. Минашкин С. А. Анализ модели пользователя и определение его потребности при поиске в интернете // Естественные и технические науки №5 (67). 2013. - С. 296-298.

112. Минашкин С. А. Определение отношений между понятиями для программной реализации словаря синонимов // Наука и образование в XXI веке: сбо. науч. тр. по материалам Международной научно-практической конференции 30 сентября 2013 г.: Часть 32; М-во обр. и науки РФ. - Тамбов: Изд-во ТРОО "Бизнес-Наука-Общество". 2013. - С. 109-110.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.