Разработка методов и инструментальных средств повышения пертинентности поиска в современных информационных средах тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат технических наук Терехов, Алексей Андреевич
- Специальность ВАК РФ05.13.17
- Количество страниц 165
Оглавление диссертации кандидат технических наук Терехов, Алексей Андреевич
ВВЕДЕНИЕ.
1. ПРОБЛЕМЫ ПОИСКА ИНФОРМАЦИИ В СОВРЕМЕННОЙ ИНФОРМАЦИОННОЙ СРЕДЕ.
1.1. Предварительные замечания.
1.2. Поиск информации в документальных системах.
1.2.1. Понятие документальных систем.
1.2.2. Общая функциональная структура документальных информационно-поисковых систем.
1.3. Семантический поиск и технология Semantic Web.
1.3.1. Технология Semantic Web.
1.3.2. Формализация и обработка знаний на основе онтологического подхода.
1.4. Интеллектуальные поисковые системы.'.
1.4.1. Принципиальный алгоритм работы системы.
1.4.2. Концептуальная архитектура интеллектуальных поисковых систем
1.5. Поиск в сети Интернет.
1.5.1.1. Поисковые роботы.
1.5.1.2. Использование поисковых роботов.
1.5.1.3. Комбинированное использование.
1.5.2. Повышение затрат и потенциальные опасности при использовании поисковых роботов.
1.5.2.1. Сетевой ресурс и загрузка сервера.
1.5.2.2. Обновление документов.
1.5.2.3. Проблемы индексации документов.
1.6. Основные результаты.
2. РАЗРАБОТКА МЕТОДИКИ ЭКСПЕРИМЕНТАЛЬНОЙ ОЦЕНКИ ПЕРТИНЕНТНОСТИ РЕЗУЛЬТАТОВ ПОИСКА.
2.1. Предварительные замечания.
2.2. Классификация поисковых запросов.
2.2.1. Классификация поисковых запросов по многословности.
2.2.2. Классификация по четкости формулировки.
2.2.3. Классификация по конкурентности запроса.
2.2.4. Классификация на основе частотности запроса.
2.2.5. Классификация по коммерческой привлекательности запроса.
2.2.6. Классификация по целям пользователей.
2.3. Характеристики поисковых систем Интернет, механизмы обеспечивается релевантности и пертинентности.
2.3.1. Статические факторы ранжирования.
2.3.2. Ссылочное ранжирование.
2.3.3. Внутренние факторы ранжирования.
2.3.4. Влияние собственных ресурсов поисковых машин.
2.3.5. Персонализация поиска.
2.4. Методика определения пертинентности поиска при помощи экспертных оценок.
2.4.1. Количественные оценки пертинентности.
2.4.2. Описание эксперимента.
2.4.3. Список определений и обозначений при проведении эксперимента
2.4.3.1. Информацинная единица.
2.4.3.2. Степень емкостной контентной эквивалентности.
2.4.3.3. Степень относительной контентной эквивалентности.
2.4.3.4. Степень абсолютной контентной эквивалентности.
2.4.3.5. Степень эквивалентности по обобщённой ранговой корреляции
2.4.3.6. Степень эквивалентности по условной ранговой корреляции.
2.4.3.7. Степень эквивалентности по плотности общих элементов.
2.5. Основные результаты.
3. РАЗРАБОТКА МЕТОДОВ ВЫЧИСЛЕНИЯ ПОКАЗАТЕЛЕЙ ССЫЛОЧНОЙ АВТОРИТЕТНОСТИ СТРАНИЦ И САЙТОВ В СЕТИ ИНТЕРНЕТ.
3.1. Предварительные замечания.
3.2. Определение PageRank.
3.3. Методы вычисления PageRank.
3.3.1. Итерационный метод расчета PageRank.
3.3.2. Матричный метод расчета PageRank.
3.3.3. Недостаток итерационных методов расчета PageRank.
3.3.4. Функциональный метод расчета PageRank.
3.3.5. Специфика функционального метода.
3.3.6. Предлагаемый метод расчета PageRank.
3.3.6.1. Вычисление PageRank как решение СЛАУ.
3.3.6.2. Методика формирования матрицы коэффициентов СЛАУ.
3.3.6.3. Учёт внешнего окружения или «функциональность» в предложенном методе.
3.4. Недостатки вычисления авторитетности страницы с помощью алгоритма расчета классического показателя PR.
3.5. Понятие SolidPageRank.
3.6. Преимущества Solid PageRank.
3.7. Инструментарий для реализации предложенного метода.
3.8. Основные результаты.'.
4. РАЗРАБОТКА ИНТЕРФЕЙСНОЙ ПОИСКОВОЙ СИСТЕМЫ СЕТИ ИНТЕРНЕТ.
4.1. Предварительные замечания.
4.2. Концепция интерфейсной поисковой системы.
4.2.1. Персонализированный поиск в Google.
4.2.2. Сервисы социальных закладок в, сети Интернет как источник определения пертинентности поиска.
4.2.3. Структура интерфейсной поисковой системы.
4.2.4. Методика формирования выдачи ИнтПС.
4.3. Реализация многоальтернативного поиска и последующего адаптивного переранжирования.
4.3.1. Текущая и специальная оценка показателей качества ИнтПС.
4.3.1.1. Схема формирования общей выдачи.:.
4.3.1.2. Выбор показателей для контроля качества результатов поиска
4.3.1.3. Организация процесса оценивания качества ИнтПС.
4.3.2. Контроль и прогнозирование оценок пертинентности.
4.3.3. Хранение оценок качества ИнтПС в виде временных рядов. Определение алгебраических операций над временными рядами
4.3.4. Ситуации, возникающие в процессе решения задачи идентификации статистического материала.
4.3.5. Формирование консолидированного временного ряда.
4.4. Идентификация структуры фрагмента сети Интернет.
4.4.1. Предварительные замечания.
4.4.2. Алгоритм построения матрицы смежности для произвольного фрагмента сети Интернет.
4.5. Методика определения пертинентности поиска на основе программы AltoSearch и Search Analyzer.
4.5.1. Общий алгоритм расчета оценок пертинентности.
4.5.2. Программа AltoSearch.
4.5.2.1. Аннотация.
4.5.2.2. Модули програмы.
4.5.3. Программа SearchAnalyzer: аннотация.
4.5.4. Результаты опытной эксплуатации первой версии интерфейсной поисковой машины.
4.6. Основные результаты.
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Развитие методов и моделей формирования интеллектуального контента2012 год, кандидат экономических наук Евсюткин, Александр Сергеевич
Диалоговые алгоритмы поиска и навигации в автоматизированной системе текстового документооборота металлургического предприятия2007 год, кандидат технических наук Бодров, Даниил Александрович
Метод поисковой оптимизации веб-сайтов в российском сегменте сети Интернет2011 год, кандидат технических наук Лысенко, Дмитрий Сергеевич
Исследование и моделирование взаимодействия пользователя с информационной системой в задачах документального поиска2006 год, кандидат технических наук Свириденко, Светлана Викторовна
Алгоритмическое и программное обеспечение региональной системы контекстной рекламы в среде Интернет2008 год, кандидат технических наук Силич, Василий Викторович
Введение диссертации (часть автореферата) на тему «Разработка методов и инструментальных средств повышения пертинентности поиска в современных информационных средах»
Актуальность проблемы; Накопленные к настоящему времени колоссальные объемы информации в совокупности с непрерывно увеличивающимися темпами её роста определяют актуальность и значимость; исследований в области информационного поиска. Бурное развитие сетевых технологий, в том числе и Интернета, способствуют значительному увеличению доступных информационных ресурсов и: объемов передаваемой информации. Зачастую это разнородная; слабо структурированная:и избыточная информация, обладающая высокой динамикой обновления.
При сегодняшних объемах доступной информации решение; задач информационного поиска является, приоритетным для обеспечения своевременного доступа к интересующим данным в рамках информационной среды (ИСр).
Концепция информационной среды впервые была предложена Ю.А. Шрейдером [83], который рассматривает информационную среду не только как проводника информации, но и как активное начало; воздействующее на её участников. Инфорлшционная среда - совокупность технических и программных средств хранения, обработки и передачи информации,. а также социально-экономических и культурных условий реализации процессов/информатизации.
В настоящее время работает ряд авторитетных международных конференции, посвящённых обсуждению вопросов информационного поиска [24], например, таких как: ; •
• TREC (Text Retrieval Conference) - цикл конференций организованный под эгидой! NIST (National Institute for Standards and TecHnology) - одного из авторитетных органов стандартизации информационных технологий в США [110,111] i
• SIGIR (Special Interest Group on Information Retrieval);- цикл конференций проводимых ACM SIGIR (ACM - Association of Computing Machinery) -международной группой специалистов по информационному поиску;
• WWW (World Wide Web) Conference - специально организованная конференция для решения задач, связанных с Интернет [-107,1.11,114,115,117]
Высокий авторитет конференций TREC, SIGIR, WWW и участие в них ведущих исследовательских коллективов и разработчиков технологий информационного поиска во многом определяет приоритетные направления исследований и задает общие принципы развития поисковых систем.
Из отечественных конференций, посвященных вопросам информационного поиска, нужно отметить ежегодную всероссийскую конференцию «Электронные библиотеки» (RCDL) и семинар по компьютерной лингвистике «Диалог».
Также необходимо отметить ряд отечественных научных школ:
• SPBU IR Group - исследовательская группа в области информационного поиска (Санкт-Петербургский Государственный Университет);
• Исследовательский центр ИИ ИПС РАН;
• Центр информационных исследований (НИВЦ МГУ).
Кроме того, существуют коммерческие организации, занимающиеся не только вопросами исследований, но и вопросами внедрения информационных технологий, это такие известные организации как Яндекс, Рамблер, Апорт, НейрОК, Гарант-Иарк-Интернет, Галактика-Зум, ABBYY-FTR, АОТ и др.
Ряд авторитетных исследователей внесли своими научными трудами значительный вклад в развитие информационно-поисковых систем: И.С. Некресть-янов, И.Е. Кураленок, В.Ю. Добрынин, А.Г. Дубинский, А.Е. Ермаков, М.Р. Ко-галовский, А.В. Сокирко, G. Salton, A. Singhal, М. Mitra, S. Lawrence, P. Foltz, E. Fox, J. Cho, R. Baeza-Yates, K. Tajima, C. Van Rijsbergen, L. Gravano, J. Kleinberg, J. Sparck, D. Carmel, Si Brin, L. Page, A. Singhal., T. Haveliwala.
Существует широкий спектр предлагаемых решений и перспективных направлений исследований в области информационного поиска, начиная от построения глобальных распределенных информационных структур и поисковых систем, заканчивая элементарными на первый взгляд вопросами анализа документов при помощи латентно семантического анализа [94,96,97]. Все они, безусловно, важны и полезны при решении своих специфических задач. Тем не менее, именно от методов анализа во многом зависит эффективность существующих поисковых систем, т.к. они являются основой любойшоисковош системы^ и. во многом? определяют возможности и ограничения этих систем [89].
Современные информационно-поисковые системы, в основе которых по большей степени лежит полнотекстовый поиск, позволили добиться высокой степени классической релевантности — соответствия запроса пользователя результатам выдачи поиска. Однако качество информационного поиска характеризуется не только релевантностью; но и пертинентностыо — соответствием результатов- поиска, информационной- потребности: пользователя. Результаты работы поисковой; системы часто не удовлетворяют требованиям; высокой пер-тинентности. Это связано с такими свойствами; естественного языка; как синонимия, полисемия; омонимия.и другие [99,100,102,104,88].
Представленные на сегодняшний день в большинстве-популярных поисковых систем! способы^ организации полнотекстового• поиска не учитывают в достаточной мере семантику. В то же время, именно семантическое;сходство непосредственно обусловливает высокую; степень пертинёнтности. Далеко не всегда пользователь информационно-поисковой системы может четко и однозначно сформулировать именно тот набор ключевых слов^ который; и»: приведет его к искомому результату. Зачастую; низкая пертинентность обусловлена сложностью; формирования информационных, запросов для полнотекстового поиска. Эти сложностшвызваны следующими причинами: ; ■ '
• незнанием набора;ключевых слов;;однозначно определяющих семантику искомых документов;
• отсутствием достаточного опыта и квалификации формированияшоиско-вых запросов;
• - отсутствием принятойt и устоявшейся терминологии в интересующей предметной области.
Нередко человек, осуществляющий поиск, имеет самое: приблизительное представление об интересующей его тематике. Все это обусловливает актуальность и. значимость исследований, направленных на решение одной из. ключевых проблем информационного поиска - проблемы адекватного отображения информационных потребностей пользователей,, и, как следствие, повышения пертинентности поиска.
Одним из вариантов решения проблемы низкой пертинентности в настоящее время является динамично развивающаяся технология Semantic Web [21,22]. В основе актуальности этой технологии лежит уже осознанная человечеством необходимость представления информационных ресурсов не просто как единиц хранения информации, но как носителей знаний. То есть документы, отчеты, статьи, банки данных интересуют специалиста, главным образом, своей семантической составляющей. Семантический подход к глобальным информационным1 ресурсам, предполагающий не только их индексацию, но и сопровождение семантическим описанием, было предложено реализовать в технологии «Semantic Web», разработанную W3C-K0HC0p4HyM0M, занимающимся разработкой и внедрением Web-технологий: В1 наиболее завершенной' форме требования ю, описанию и стандартизация описания знаний в этой* технологии были предложены в 2004 г.
Как правило, авторы' программных средств, предназначенных для формального описания знаний в Semantic Web; не претендуют на завершенность своей разработки и отсутствие возможности создания более эффективных теоретических концепций и версий программных систем этого назначения. В то же время нужно согласиться! с тем, что принятие единого стандарта в описании знаний - важнейший фактор реальной работы Semantic Web. Исходя из этого, новые формализмы, представления знаний целесообразно разрабатывать на принципах совместимости с существующими средствами; такими, как RDF и OWL DL.
Диссертационная работа посвящена вопросам повышения пертинентности поиска в современной информационной среде.
Целью работы является разработка и исследование способа повышения показателей пертинентности информационного поиска, основанного на концепции интерфейсной поисковой системы (ИнтПС), осуществляющей объединение и переупорядочивание откликов на запросы пользователей популярных ■. ■■■ 9 ■ . , поисковых-систем: сети Интернет. .
Для достижения;поставленной цели решаются следующие задачи:
- формализация описаний-факторов ранжирования поисковых систем; 1
- модификация существующих факторов ранжирования; слабо -защищенных от искусственного влияния структуры информационной;среды; создание методологии оценки пертинентности информационного поиска на основе экспертных оценок; разработка: концепции поисковой системы многоальтернативного поиска и адаптивного переранжирования: .
Методы исследования; Исследования» осуществлялись-на основе теории нечетких, множеств, теории графов, теории баз. данных, методов:, системного' анализа; методов структурного и компонентно-ориентированного- программирования.
Научная--новизна.- . .
1;. Разработаны формализованные описания основных .факторов^ранжирования поисковых систем сети Интернет и-методика.их: расчета, отличающиеся-алгоритмической- завершённостью вычислительных: процедур; позволяющие рассчитывать факторы-ранжирования в собственных поисковых машинах. .
2. Предложены новые показатели; контентной эквивалентности, двух последовательностей разной длины как числовых, так и лингвистических;, которые могут использоваться в различных! приложениях, в том числе и в статистических исследованиях аналогично коэффициентам ранговой корреляции; в диссертации используются для сравнения альтернативных откликов поисковых систем на один и тот же запрос пользователя с упорядоченным экспертным набором: документов с целью формирования суждения о степени пертинентности отклика конкретной поисковой системы. ; :
3. Сформулированы и доказаны теоремы, определяющие свойства показателей контентной эквивалентности, которые могут использоватьсяшри создании правил логического вывода в процедурах адаптации алгоритма формирования итоговой выдачи в интерфейсной поисковой системе.
4. Предложены новые показатели пертинентности откликов поисковых систем на запросы пользователей, предназначенные для реализации процедур адаптации алгоритмов формирования итоговой выдачи: 1) пертинентностная точность выдачи 2) подлинная пертинентность документа \\i; 3) максимальная пертинентность документов выдачи vymax; 4) кумулятивная пертинентность выдачи 5) векторная пертинентность выдачи fj = (Ч^Л^,); 6) средние значения указанных показателей, вычисляемые по 32-м точечным значениям: a,1-321, v1321, v™. W32' = (?I32,,iv!2).
5. Разработана методика экспертной оценки пертинентности на основе показателей контентной эквивалентности, позволяющая многосторонне, сравнить пертинентности выдач нескольких информационно-поисковых систем в процессе начальной настройки и последующей адаптации алгоритма формирования итоговой выдачи в собственной поисковой системе.
6. Сформулирована и доказана теорема, определяющая диапазон возможных значений показателя авторитетности страниц произвольного фрагмента сети Интернет, которая может использоваться для контроля корректности результатов в процедурах вычисления PageRank.
7. Сформулирована и доказана теорема, определяющая зависимость показателя авторитетности страниц произвольного фрагмента сети Интернет от авторитетности страниц, не вошедших в рассматриваемый фрагмент, которая может практически использоваться для контроля корректности результатов в процедурах символьного вычисления PageRank при исследовании влияния внешней части сети Интернет.
8. Предложена новая методика вычисления PageRank страниц для произвольного фрагмента сети, не использующая итерационный способ решения СЛАУ, обеспечивающая наивысшую точность вычислений, определяемую только погрешностью представления вещественных данных и ошибками округления.
9. Предложена новая методика-' исследования, зависимости авторитетности страниц произвольного - фрагмента сети от внешнего потока; PageRank, отличающаяся' способом формирования4 системы,линейных алгебраических? уравнений в блоке решения рабочего листа среды MathCAD и, применением: символьного решения сформированной системы.
10.Предложен новый показатель авторитетности страницы как фактор ранжирования в поисковых системах — SolidPageRank, отличающийся тем, что позволяет избежать накрутки PageRank за счет циклической перелинковки страниц, позволяет повысить релевантность: итоговой выдачи документов в собственных поисковых машинах как в метапоисковых, так и интерфейсных.
1 Г.Разработана концепция интерфейсной, поисковой системы многоальтернативного поиска и адаптивного перерапжпрования, отличающаяся формированием точечных и средних значений оценок подлинной пертинентности документов, выдаваемых системой, контролем указанного среднего значения и; изменением способа формирования;итоговой выдачшпри попадании этого значения в критическую область. ' . |
12.Разработан рекурсивный алгоритм определения структуры произвольного фрагмента сети Интернет, отличающийся рекурсивным использованием стандартного сервиса определения, обратных ссылок.
Практическая ценность.
Совокупность полученных теоретических и практических результатов может использоваться для: построения метапоисковых ^ интерфейсных информационно-поисковых систем, позволяющих повысить эффективность информационной поддержки профессиональной целенаправленной деятельности сотрудников малых и средних предприятий и организаций, для которых гипотеза о тематической однородности запросов наиболее правдоподобна.
Для практического воплощения концепции интерфейсной поисковой системы в диссертации созданы два программных продукта (AltoSeareh/АльтПоиск и SearchAnalizer/ПоискАнализатор), позволяющие автоматически формировать общую выдачу - обобщённый набор документов, получаемых от нескольких поисковых систем сети Интернет в ответ на запрос пользователя и расчет показателей контентной эквивалентности. Создан макет интерфейсной поисковой системы, опытная эксплуатация которого в рабочем процессе ООО «Мегапром» показала повышение подекадного среднего значения подлинной пертинентности на 10 - 18 % по сравнению с популярными1 поисковыми системами.
Внедрение результатов работы. Разработанные в диссертационной работе теоретические и практические результаты внедрены в ООО «Мегапром», ОАО «Рязанский проектно-технологический институт» (ОАО РПТИ), в ГОУВПО «Рязанский государственный радиотехнический университет» (ГОУВПОРГРТУ).
Разработанные программные продукты имеют свидетельства1 об официальной регистрации программных систем и баз данных в Российском агентстве по патентам и товарным знакам (РОСПАТЕНТ):
1) программная система SearchAnalizer/ ПоискАнализатор. Зарегистрировано в Реестре программ для ЭВМ 24.04.20091г., per. № 2009612105 // Программы для ЭВМ, базы данных, топологии интегральных микросхем (RU ОБПБТ). Программы для* ЭВМ № 3 (68). 2009'г. С. 90. (Доступно для просмотра на сайте http://wwwl.fips.ru/ Electronicbulletin/Programsdbtopology/0 lPR.pdf);
2) программа AltoSearch/АльтПоиск. Зарегистрировано в Реестре программ для ЭВМ 24.04.2009 г., № 2009612104 // Программы для ЭВМ, базы данных, топологии интегральных микросхем (RU ОБПБТ). Программы для ЭВМ № 3 (68)i 2009 г. С. 90. (Доступно для просмотра на сайте http://wwwl .fips.ru/Electronicbulletin/Programsdbtopology/01 PR.pdf).
Основные результаты выносимые на защиту
1. Формализованные описания основных факторов ранжирования поисковых систем сети Интернет и методика их расчета.
2. Показатели контентной эквивалентности двух последовательностей разной длины как числовых, так и лингвистических. ;
3. Теоремы, определяющие свойства показателей контентной эквивалентности.
4. Показатели пертинентности откликов поисковых i систем на, запросы пользователей.,
5. Методика экспертной оценки пертинентности на основе показателей контентной эквивалентности.
6. Теорема, определяющая диапазон возможных значений показателя авторитетности^страницпроизвольного фрагмента сети Интернет.
7. Теорема, определяющая зависимость показателя авторитетности страниц произвольного фрагмента' сети Интернет от авторитетности страниц, не вошедших в рассматриваемый фрагмент.
8. Методика вычисления PageRank страниц для произвольного фрагмента сети. • • ,
9г Методика исследования зависимости: авторитетности страниц произвольного фрагмента сети от внешнего потока PageRank.
10.Дополнительный показатель авторитетности страницы как фактор, ранжированиям поисковых системах - SolidPageRank. "
11 .Концепция интерфейсной- поисковой системы многоальтернативного поиска и адаптивного переранжирования;
12.Рекурсивный;алгоритм определения структуры произвольного фрагмента сети Интернет.
Апробация работы. По теме диссертации: сделаны доклады на 13-й Международной научно-технической- конференции «Проблемы передачи и? обработки информации в^сетях и,системах телекоммуникаций», Рязань, 2004 г.; 14-й Международной* научно-технической конференции «Проблемы передачи и обработки информации; в сетях и системах телекоммуникаций», Рязань, 2005 г.; 15-й Международной научно-технической конференции «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций», Рязань, 2008 г.; X Всероссийской научно-технической конференции студентов; молодых учёных и специалистов «Новые информационные технологии в научных исследованиях и в образовании», Рязань, 2005 г.; XII Всероссийской научно-технической конференции студентов, молодых учёных и специалистов «Новые информационные технологии в научных исследованиях и в образовании», Рязань, 2007 г.; XIII Всероссийской научно-технической конференции студентов, молодых учёных и специалистов «Новые информационные технологии в научных исследованиях и в образовании», Рязань, 2008 г.; XIV Всероссийской научно-технической конференции студентов, молодых учёных и специалистов «Новые информационные технологии в научных исследованиях и в образовании», Рязань, 2009 г.; 4-й межвузовской научно-технической студенческой конференции «Актуальные проблемы, персональных компьютеров и сетей», Москва, 2006 г.; Международной конференции «Инновационное управление в! информационной среде», Рязань, 2007 г.; Третьей международно№конференции «Инновационное управление в информационной- среде», Рязань, 2008 г.; 52-й студенческой научно-технической конференции, Рязань, 2005 г., а также на научных семинарах кафедры ВПМ РГРТУ.
Публикации. По- теме диссертации опубликовано 20 научных работ, в том числе 13 материалов^ тезисов, докладов на международных и всероссийских конференциях и семинарах. Опубликовано1 5 статей, из них 2 в-издании, включённом в список ВАК. В-Реестре программ для ЭВМ зарегистрированы 2 программы. s
Структура диссертационной^ работы. Диссертационная работа состоит из введения, четырех глав, заключения,,основных обозначений и сокращений, списка использованной литературы и приложений. Основной текст содержит 165 страниц, 5 таблиц, 38 рисунка. Список литературы состоит из 119 наименований. Приложения выполнены на 5 страницах.
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Использование связей между web-страницами и закономерностей рассеяния информации для повышения эффективности поиска в WWW2002 год, кандидат технических наук Нгуен Куанг Чунг
Исследование и разработка автоматизированной информационно-управляющей системы с интегрированной функцией поиска в массиве неструктурированных данных2007 год, кандидат технических наук Салбиев, Алан Тасолтанович
Моделирование и разработка средств и технологий поиска документальной информации2004 год, кандидат технических наук Голицына, Ольга Леонидовна
Математическое и программное обеспечение построения списков семантически близких слов на основе рейтинга вики-текстов2008 год, кандидат технических наук Крижановский, Андрей Анатольевич
Разработка и исследование принципов построения вертикальных образовательных порталов с открытой архитектурой2008 год, кандидат технических наук Силаев, Антон Валерьевич
Заключение диссертации по теме «Теоретические основы информатики», Терехов, Алексей Андреевич
Основные результаты работы состоят в следующем.
1. Рассмотрены подходы к информационному поиску, выявлены преимущества и недостатки документального поиска, интеллектуального поиска, технологии Semantic Web. Указана проблема низкой пертинентности информационного поиска, обусловленная сложностью формализации информационной потребности пользователя в поисковый запрос, используемый поисковыми системами. Предложен новый подход многоальтернативного информационного поиска, позволяющий в конечном итоге увеличить пертинентность.
2. Представлены и алгоритмизированы основные факторы ранжирования^ поисковых систем сети Интернет: внутренние факторы, внешние факторы, собственные факторы.
3. Конкретизирована общая формула расчета релевантности поисковыми системами Интернет за счет формализации влияния собственных и внутренних факторов ранжирования поисковых систем.
4. Предложены новые показатели пертинентности откликов поисковых систем на запросы пользователей, предназначенные для реализации процедур адаптации алгоритмов формирования итоговой выдачи: 1) пертинентностная точность выдачи ; 2) подлинная пертинентность документа \\j ; 3) максимальная пертинентность документов выдачи vj/max; 4) кумулятивная пертинентность выдачи 5) векторная пертинентность выдачи fj = (Ч*,Nyien)-, 6) средние значения указанных показателей, вычисляемые по 32-м точечным значениям:
Г321, vl32], Г2] =
5. Предложен способ сравнения качества двух альтернативных откликов поисковых систем по векторному показателю пертинентности f\.
6. Определено понятие информационного набора и информационной единицы, описаны структура и базовые признаки определенных понятий, основные характеристики.
7. Предложены новые показатели контентной эквивалентности, применяемые для экспертной оценки пертинентности результатов поиска ПС сети Интернет - емкостной, относительной, абсолютной контентной эквивалентности, эквивалентности по обобщенной ранговой корреляции, по условной ранговой корреляции, по плотности общих элементов.
8. Сформулированы теоремы, определяющие свойства показателей контентной эквивалентности, которые могут использоваться при создании правил логического вывода в процедурах адаптации алгоритма формирования итоговой выдачи в интерфейсной поисковой системе.
9. Разработана методика экспертной оценки пертинентности на основе показателей контентной эквивалентности, позволяющая многосторонне сравнить пертинентности выдач нескольких информационно-поисковых систем в процессе начальной настройки и последующей адаптации алгоритма формирования итоговой выдачи в собственной поисковой системе.
10.Сформулирована теорема, характеризующая свойства значений PageRank страниц произвольного фрагмента сети Интернет, в том числе определяющая диапазон возможных значений показателя авторитетности отдельных сайтов.
11. Сформулирована теорема, описывающая зависимость PageRank страниц сайтов от интегрального потока авторитетности со стороны не учтённой части сети.
12.Разработана методика изучения влияния оставшейся вне рассмотрения части сети на PageRank страниц рассматриваемого фрагмента.
13.Предложен новый альтернативный показатель авторитетности страницы - SPR (жесткий показатель авторитетности), позволяющий избежать искусственных накруток значения.
14.Предложена новая методика вычисления PageRank страниц для произвольного фрагмента сети, не использующая итерационный способ решения СЛАУ, обеспечивающая наивысшую точность вычислений, определяемую только погрешностью представления вещественных данных и ошибками округления.
15 .Предложена архитектура интерфейсной поисковой системы (ИнтПС).
16.Описаны элементы персонифицированного поиска Google, применимые для повышения пертинентности в ИнтПС.
17.Разработан рекурсивный алгоритм идентификации структуры произвольного фрагмента сети Интернет на основе базы данных поисковой системы Yahoo!.
18.Разработан программный продукт AltoSearch, интегрирующий результаты поиска информационно-поисковых систем, представленных в сети Интернет.
19.Разработан программный продукт Search Analyzer, который может быть использован для оценки качества алгоритмов функционирования конкурирующих информационно-поисковых систем.
20.Разработана первая версия интерфейсной поисковой машины, опытная эксплуатации которой показала наличие выигрыша по среднему значению подлинной пертинентности в сравнении с популярными поисковыми системами Интернет.
21.Определены алгебраические операции над временными рядами, позволяющие манипулировать наборами данных с целью консолидации пользовательских и экспертных оценок пертинентности откликов поисковых систем на запросы пользователей.
Указанные результаты могут быть использованы при построении собственных информационно-поисковых систем, в том числе метапоисковых или интерфейсных.
Дальнейшее направление развития проведённых исследований может состоять в разработке и исследовании достаточно сложных алгоритмов адаптации процедур переранжирования документов общей выдачи и разработка полнофункциональных интерфейсных поисковых систем.
• 149
ЗАКЛЮЧЕНИЕ
Выполненная диссертационная работа включает исследования, направленные на разработку методов, алгоритмов и программ для решения задач, связанных с повышением пертинентности информационного поиска в современных информационных средах. Крупнейшим представителем информационной среди является сеть Интернет. Предметными областями применения результатов диссертации явились поисковые системы Интернет Yandex и Google, на основании поисковых алгоритмов которых проводились исследования. В диссертации представлен анализ факторов ранжировании поисковых систем, формализованы их описания. Реализовано программное обеспечение для решения задач экспертной оценки пертинентности информационного поиска. Разработан жесткий показатель авторитетности страницы Solid PageRank, представляющий1 собой нижнюю пессимистическую, в то же время адекватную оценку авторитетности страницы. В качестве иллюстрирующих примеров в работе приведены решения конкретных задач расчета Solid Page Rank и классического PageRank.
Список литературы диссертационного исследования кандидат технических наук Терехов, Алексей Андреевич, 2010 год
1. Автоматизированные информационные технологии в экономике: Учебник / Под ред. проф. Г.А. Титоренко. М.: Компьютер, ЮНИТИ, 1998. 400 с.
2. Барановская Т.П., Лойко В.И., Семенов М.И., Трубилин А.И. Информационные системы и технологии в экономике: Учебник. 2-е изд. / Под ред.
3. B.И. Лойко. М.: Финансы и статистика, 2003. 416 с.
4. Белов В.В., Терехов А.А. Показатель авторитетности страниц сайтов фрагмента сети Интернет // Известия ВУЗов. Проблемы полиграфии и издательского дела. 2009. № 6. С. 85-101.
5. Благодатских В.А., Волнин В.А., Поскакалов К.Ф. Стандартизацияразработки программных средств: Учеб; пособие. М.: Финансы и статистика, 2003.288 с.
6. Бройдо В.Л. Вычислительные системы, сети и-, телекоммуникации: Учебник. 2-е изд. СПб.: Питер, 2003. 704 с.
7. Введение в информационный бизнес: Учеб: пособие. / О.В. Голосов,
8. C.А. Охрименко, А.В. Хорошилов. М.: Финансы и статистика, 1996. 240 с.
9. Вендров A.M. Проектирование программного обеспечения экономических информационных систем. М.: Финансы и статистика, 2000. 352 с.
10. Гайдамакин Н.А. Автоматизированные информационные системы, базы и банки данных. Вводный курс: Учеб. пособие. М.: Гелиос АРВ, 2002. 368 е.
11. Годин В.В., Корнеев И.К. Управление информационными ресурсами: 17 модульная программа для менеджеров «Управление развитием организации». Модуль 17. М.: ИНФРА-М, 1999. 432 с.
12. Грабауров В.А. Информационные технологии для менеджеров. М.: Финансы и статистика, 2001. 368 с.
13. Гулин А., Маслов М., Сегалович И. Алгоритм текстового ранжирования Яндекса на РОМИП-2006 // Труды четвертого российского семинара по оценке методов информационного поиска / Под ред. И.С. Некрестьянова. Спб: НИИ Химии СПбГУ, 2006.
14. Добрынин В.Ю. Теория информационно-логических систем. Информационный поиск: Метод, указания к курсу информационного поиска. СПб.: Изд-во СПбГУ, 2002.
15. Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. 2001. № 4.
16. Н.Ермаков А.Е. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтеза // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2003. М.: Наука, 2003.
17. Золотова Г.А. Синтаксический словарь. Репертуар элементарных единиц русского синтаксиса. М.: Эдиториал, 2001.
18. Золотова Г.А., Онипенко Н.К., Сидорова М.Ю. Коммуникативная грамматика русского языка. М.: МГУ, 1998.
19. Информатика: Учебник. / Под ред. Н.В. Макаровой. 3-е изд. М.: Финансы и статистика, 2001. 768 с.
20. Информационные системы в экономике: Учебник. / Под ред. В.В. Дика. М.: Финансы и статистика, 1996. 272 с.
21. Информационные технологии управления: Учеб. пособие / Под ред. Г.А. Титоренко. М.: ЮНИТИ-ДАНА, 2002. 280 с.
22. Капустин В.А. Основы поиска информации в Интернете. Методическое пособие. СПб.: Институт «Открытое общество», С.-Петерб. отд-ние, 1998.
23. Каширин Д.И. Повышение эффективности поиска документов с помощью унификации признаковых структур // Современные проблемы информатизации в моделировании и анализе сложных систем: Сб. трудов. Вып. 12 (по итогам
24. XII международной конференции) / Под ред. О.Я.Кравца Воронеж: Издательство «Научная книга», 2007. с. 173-175.
25. Когаловский М.Р. Основы информационного поиска М.: ДМК Пресс; М.: Компания АйТи, 2002. 312 с.
26. Когаловский М.Р. Перспективные технологии информационных систем. М.: ДМК Пресс: Компания АйТи, 2003. 288с
27. Козлов Е.В., Метелкин А.В., Хорошевский В.Ф. Мультифасептная система поиска информации в Интернет // Труды седьмой национальной конференции по искусственному интеллекту с международным участием КИИ'2000.—М.: Физматлит, 2000, с.840 850.
28. Колин К.К. Социальная информатика: Учеб. пособие. М.: Академический проект. М.: Фонд «Мир», 2003. 432 с.
29. Кормалев Д.А., Куршев Е.П., Осипов Г.С., Сулейманова Е.А., Трофимов И.В.: Препринт // Методы поиска и анализа информации. Автоматическое извлечение данных. Переславль-Залесский, ИПС РАН, 2003.
30. Кромер В.В. Об одной поправке к каноническому закону // Телеконференция «Информационные технологии в гуманитарных науках». Казань, 1998.
31. Кураленок И.Е., Некрестьянов И.С. Оценка систем текстового поиска // Программирование. 2002. № 4.
32. Куршев Е. П. Метод извлечения полуструктурированных данных из Интернет // Труды седьмой национальной конференции по искусственному интеллекту с международным участием КИИ'2000. М.: Физматлит, 2000, с. 260 -263.
33. Липаев В.В. Системное проектирование сложных программных средств для информационных систем. М.: СИНТЕГ, 1999. 224 с. (Серия «Информатизация России на пороге XXI века»).
34. Людкевич С, Есипов Е. Основные факторы, влияющие на релевантность сайта для поисковых систем // «Промо.Текарт», 2003. http://www.seop.ru/ sitesrelevant.html.
35. Людкевич С, Есипов Е. Наиболее часто встречающиеся ошибки, препятствующие хорошему ранжированию сайта в поисковых машинах. Пути их решения. // «Промо.Текарт», 19.11.2004. http://httpd.apache.org/docs/mod/modrewrite.html.
36. Малыхина М.П. Базы данных: основы, проектирование, использование: Учеб. Пособие. СПб.: БХВ-Петербург, 2004. 512 с.
37. Мишенин А.И. Теория экономических информационных систем: Учебник. 4-е изд. М.: Финансы и статистика, 2003. 240 с.
38. Морозов В.П., Тихомиров В.П., Хрусталев Е.Ю. Гипертексты в экономике. Информационная технология моделирования: Учеб. пособие. М.: Финансы и статистика, 1997. 256 с.
39. Некрестьянов И.С. Пантелеева Н.В. Системы текстового поиска для Веб // Программирование. 2002. № 4.
40. Ойхман Е.Г., Попов Э.В. Реинжиниринг бизнеса: реинжиниринг организации и информационные технологии. М.: Финансы и статистика, 1997. 336 с.
41. Орлов Е.С. Технологии разработки программного обеспечения: Учебник. СПб.: Питер, 2002. 464 с.
42. Осипов Г.С. Приобретение знаний интеллектуальными системами: Основы теории и технологии. М.: Наука, Физматлит, 1997.
43. Осипов Г.С., Куршев Е.П., Кормалев Д.А., Трофимов И.В., Рябков О.В., Тихомиров И.А.: Препринт // Семантический поиск в среде интернет. Пе-реславль-Залесский, ИПС РАН, 2003.
44. Острейковский В.А. Информатика: Учебник. М.: Высш. шк., 2000. 511с.
45. Першиков А.И., Савинков В.М. Толковый словарь по информатике. 2-е изд. М.: Финансы и статистика, 1995. 544 с.
46. Петров В.Н. Информационные системы. СПб.: Питер, 2002. 688 с.
47. Попов А. Поиск в Интернете внутри и снаружи // Internet. 1996. № 2.
48. Райдингс К., Садовский А. Растолкованный PageRank, или все, что вы всегда хотели знать о PageRank: сайт. URL: http://digits.ru/ articles/promotion/ pagerank.html (дата обращения 25.12.2009).
49. Романов А.Н., Одинцов Б.Е. Советующие информационные системы в экономике: Учеб. пособие. М.: ЮНИТИ-ДАНА, 2000. 487 с.
50. Романов В.П. Интеллектуальные системы в экономике: Учеб. пособие / Под ред. Н.П. Тихомирова. М.: Экзамен, 2003. 496 с.
51. Сахаров А.А. Концепции построения и реализации информационных систем, ориентированных на анализ данных // Системы управления базами данных. 1996, №4. С. 55-70
52. Сегалович И. В. Как работают поисковые системы // Мир Internet. 2002. № 10.
53. Семантическое ядро ресурса сети Интернет, http://me.miralab.ru/2007/ 11/21/ sos tavly aem-semanticheskoe-yadro/
54. Смирнова Г.Н., Сорокин А.А., Тельнов Ю.Ф. Проектирование экономических информационных систем: Учебник. / Под ред. Ю.Ф. Тельнова. М.: Финансы и статистика, 2001. 512 с.
55. Советов Б.Я., Цехановский В.В. Информационные технологии: Учебник. М.: Высш. шк., 2003. 263 с.
56. Солтон Дж. Динамические библиотечно-информационные системы. М.: Мир, 1979.
57. Терехов А.А. Подсистема накопления данных в интеллектуальной системе прогнозирования // Задачи системного анализа, управления и обработки информации: Межвузовский сборник научных трудов. Вып. 1. М.: МГУПИ, 2006. Стр. 64 67.
58. Терехов А.А. Накопление данных в системе прогнозирования // Программное и информационное обеспечение систем различного назначения на базе персональных ЭВМ: Межвуз. сб. науч. тр. М.: МГУПИ, МГИЭМ (ТУ), МИРЭА (ТУ), РГРТУ, 2006. С. 236 239.
59. Терехов А.А. Представление данных в интеллектуальной системе прогнозирования // 4 межвузовская научно-техническая студенческая конференция «Актуальные проблемы персональных компьютеров и сетей»: Тезисы докладов конференции. Москва: МГУПИ. 2006. С. 27.
60. Терехов А.А. Применение механизма нечеткого вывода для решения задачи идентификации временных рядов // Инновационное управление в информационной среде: Материалы третьей/ международной конференции / Под ред. Е.Н. Мооса. Рязань, 2008. С. 79 80.
61. Терехов А.А. Идентификация информации на основе комбинации семантического и классического информационного поиска // Задачи системного анализа, управления и обработки информации: Межвузовский сборник научных трудов. Вып. 2. М.: МГУП, 2008. Стр. 158 167.
62. Терехов А.А. Идентификация статистического материала и консолидация-временных рядов // Вестник РГРТУ. 2009. № 1 (Вып. 27). С. 62 70.
63. Терехов А.А. Организация жданных для решения задачи прогнозирования // Материалы международной конференции «Инновационное управление в информационной среде» / Под ред. Е.Н. Мооса. Рязань, 2007. С. 64-65.
64. Трофименко Е. PageRank: начала анализа: сайт URL: http:// promosite.ru/articles/pagerank-begin.php (дата обращения 25.05.2009).
65. Уткин В.Б., Балдин К.В. Информационные системы и технологии в экономике. М: ЮНИТИ-ДАНА, 2003. 335 с. (Серия «Профессиональный учебник: Информатика»).
66. Фаулер М., Скотт К. UML в кратком изложении. Применение стандартного языка моделирования: Пер. с англ. М.: Мир, 1999.
67. Хорошилов А., Селетков С. Мировые информационные ресурсы: Учеб. пособие. СПб.: Питер, 2003. 176 с. (Серия «Учебники для вузов»).
68. Храмцов П. Информационно-поисковые системы' Internet // Открытые системы. 1996. № 3(17).
69. Храмцов П. Моделирование и анализ работы информационно-поисковых систем Internet // Открытые системы. 1996. № 6(20).
70. Чурсин Н.Н. Популярная информатика. Киев: Техника, 1982.
71. Шрейдер Ю.А. Социокультурные и технико-экономические аспекты развития информационной среды // Информатика и культура. Новосибирск: Наука. Сибирское отделение. 1990. С. 50 82.
72. Экономика, разработка и использование программного обеспечения ЭВМ: Учебник /В.А. Благодатских, М.А. Енгибарян, Е.В. Ковалевская и др. М.: Финансы и статистика,- 1995. 288 с.
73. Экономическая информатика. / Под ред. П.В. Конюховского и Д.Н.' Колесова. СПб.: Питер, 2000. 560 с.
74. Экономическая информатика: Учебник / Под ред. В.П. Косарева и Л.В. Еремина. М.: Финансы и статистика, 2002. 592 с.
75. Электронные библиотеки: перспективные методы и технологии, электронные коллекции // Сборник трудов пятой всероссийской научной конференции, 29 31 октября 2003 г. / Науч. ред. Л.А. Калиниченко. СПб, 2003.
76. Якубайтис Э.А. Информационные сети и системы: Справочная книга. М.: Финансы и статистика, 1996. 368 с.
77. Ярочкин В.И. Информационная безопасность: Учебник. М.: Академический проект; Фонд «Мир», 2003. 640 с.
78. Baeza-Yates R. Ribeiro-Neto B. Modern Information Retrieval // ACM Press Series. New York: Addison Wesley, 1999. http://citeseer.ist.psu.edu/ baezayates99modern.html (дата обращения 26.12.2009).
79. Brin S., Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine // Computer Networks and ISDN Systems. 1998. № 30.
80. Carmel D., Soffer A. Probabilistic Models of Information Retrieval. Israel: Haifa University, 2003.
81. Draper S. Mizzaro's Framework for Relevance. 1998. http://www.psu.gla. ac.uk/~steve/stefano.htm (дата обращения 26.12.2009).
82. Dumais S.T. Using Latent Semantic Indexing (LSI) for Information Retrieval, Information Filtering, and Other Things // Talk at Cognitive Technology Workshop. April 4-5, 1997.
83. Osipov G.S., Smirnov I.V., Tikhomirov I.A., Vybornova O.V., Zavjalova O.S. Linguistic Knowledge for Search Relevance Improvement // Papers of Joint conference on knowledge-based software engineering JCKBSE'06, IOS Press, 2006. P:. 294-302.
84. Gabrielli S., Mizzaro S. Negotiating a Multidimensional Framework for Relevance Space // Proc. of the MIRA'99. 1999.
85. Greisdorf H. Relevance: An Interdisciplinary and Information Science Perspective. Informing Science, N3 (2), 2000.
86. Haveliwala T. (1999) Efficient Computation of PageRank. Technical Report. Stanford: сайт. URL: http://ilpubs.stanford.edu: 8090/386/ (дата обращения 25.05.2009).
87. Hofmann Т. Probabilistic Latent Semantic Indexing. // 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Berkeley, CA, USA, 1999.
88. Indexing by Latent Semantic Analysis / S. Deerwester and others.'// Journal of the American Society for Information Science. 1990. № 41(6),
89. Inmon W. H. Building The Data Warehouse (Second Edition). NY, NY: Wiley John, 1993.
90. Larry Page, Sergey Brin, The PageRank Situation Ranking: Bringing Order to the Web. http://devaka.ru/files/ThePageRankCitationRanking.pdf (дата обращения 26.12.2009).
91. Lin JJ. Indexing and Retrieving Natural Language Using Ternary Expressions // Master's Thesis of Massachusetts Institute of Technology. 2001.
92. Mizzaro S. How Many Relevances in Information Retrieval? // Interacting With Computers. 1998. № 10(3).
93. Mizzaro S. Relevance: The Whole History // Journal of the American Society of Information Science. 1997. № 48(9).
94. Pinkerton B. Finding What People Want: Experiences with the Web-Crawle // Proc. of the 2nd World Wide Web conference. 1994.
95. Robins D. Interactive Information Retrieval: Context and Basic Notions // Informing Science. 2000. № 3(2).
96. Saracevic T. Relevance Reconsidered '96 // Proc. of the Second Conference on Conceptions of Library and Information Science (CoLIS 2). Copenhagen, 1996.
97. Searching the Web. / A. Arasu, and others. // ACM Trans, on Internet Technology/2001. № 1(1).
98. Singhal A., ICaszkiel M. A Case Study in Web Search Using TREC Algorithms // Proc. of the 10th International World Wide Web Conference. Hong Kong, 2001.
99. Sparck J.K., Walker S., Robertson S.E. A Probabilistic Model of Information Retrieval: Development and Comparative Experiments // Information Processing and Management. 2000. № 36(6).
100. Sparck J. K. Reflections on TREC. // Information Processing & Management. 1995. №31.
101. The Term Vector Database: fast access to indexing terms for Web pages. / R. Stata, K. Bharat, F. Maghoul // Proceedings of WWW9, 2000: сайт URL: http://www9.org/w9cdrom/159/159.html (дата обращения 26.12.2009).
102. Vakkari P. Cognition and Changes of Search Terms and Tactics During Task Performance: A Longitudinal Study // Proceedings of the RIAO 2000 Conference. Paris, 2000.
103. Wallis P., Thom J.A. Relevance Judgements for Assessing Recall // Information Processing & Management. 1996. № 32(11).
104. Wiemer-Hastings P., Wiemer-Hastings K., Graesser A. How Latent is Latent Semantic Analysis? // Proceedings of the Sixteenth International Joint Congress on Artificial Intelligence. San Francisco, 1999.
105. Yuwono В., Lam S.L.Y., Ying J.H., Lee D.L. A World Wide Web Resource Discovery Systems // World Wide Web Journal. 1996. № 1(1).
106. Yuwono В., Lee D. Search and Ranking Algorithms for Locating Resources on the World Wide Web // Proc. of the 12th International Conference on the Data Engineering. New Orleans (Louisiana), 1996.161
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.