Развитие методов и моделей формирования интеллектуального контента тема диссертации и автореферата по ВАК РФ 08.00.13, кандидат экономических наук Евсюткин, Александр Сергеевич
- Специальность ВАК РФ08.00.13
- Количество страниц 152
Оглавление диссертации кандидат экономических наук Евсюткин, Александр Сергеевич
Содержание
Термины и определения
Введение
1. Сравнительная характеристика современных технологий поиска, методов организации поиска и поисковых систем для сети Интернет
1.1. Задачи информационного поиска
1.1.1. Классификация документов
1.1.2. Кластеризация документов
1.1.3. Выделение информации из текста
1.1.4. Разработка архитектуры поисковой системы и интерфейса пользователя
1.1.5. Оценка качества информационного поиска
1.2. Устройство и принцип функционирования современных Интернет-поисковых систем
1.2.1. Составные части поисковых систем
1.2.2. Современные алгоритмы обработки поисковых запросов
1.2.3. Организация параллельного поиска
1.2.4. Алгоритмы ссылочного ранжирования, применяемые в современных поисковых системах
1.3. Концепция информационной экологии
1.3.1. Понятие экологического Интернета
1.3.2. Принципы, лежащие в основе экологического подхода
1.4. Сравнительная характеристика существующих поисковых систем
1.4.1. История возникновения поисковых систем для сети Интернет
1.4.2. Сравнительный анализ возможностей современных поисковых систем
1.4.3. Индивидуальные особенности современных поисковых систем
1.4.4. Недостатки современных поисковых систем
1.5. Выводы по Главе 1
2. Теоретические и методические вопросы формирования интеллектуального контента
2.1. Повторное автоматическое ранжирование поисковой выдачи
2.1.1. Комбинация признаков ранжирования поисковой выдачи
2
2.1.2. Метод повторного автоматического ранжирования
2.2. Метод автоматического реферирования
2.2.1. Типы используемых рефератов
2.2.2. Принцип функционирования, архитектура системы автоматического реферирования
2.2.3. Применение модели автоматического реферирования к htrnl-документам
2.2.4. Применение нейронной сети для автоматического реферирования htrnl-документов
2.3. Применение латентно-семантического индексирования для поиска текстов одинаковой тематики
2.3.1. Принципы, лежащие в основе латентно-семантического индексирования
2.3.2. Алгоритм латентно-семантического анализа
2.3.3. Возможное улучшение существующего алгоритма LSI
2.4. Алгоритм «Стеммер Портера» для обработки текстовой информации перед латентно-семантическим анализом
2.4.1. Задача выделения корня из слова
2.4.2. Описание алгоритма стемминга
2.5. Механизм формирования интеллектуального контента при поиске
2.5.1. Принципы построения модели формирования интеллектуального контента
2.5.2. Алгоритм формирования интеллектуального контента
2.6. Выбор CMS для реализуемого модуля «Формирование интеллектуального контента»
2.6.1. Понятие системы управления контентом (CMS)
2.6.2. Классификация CMS
2.6.3. Сравнение существующих CMS с открытым исходным кодом
2.6.4. Обзор отличительных особенностей системы управления контентом «Drupal»
2.7. Выводы по Главе 2
3. Разработка системы формирования интеллектуального контента при поисковом запросе
3.1. Модель формирования интеллектуального контента
3.1.1. Метод извлечения значимого текста из htrnl-документа
3.1.2. Математическая модель формирования интеллектуального контента
3.1.3. Применение нейронной сети с целью улучшения метода извлечения значимого текста из Ыт1-документа
3.2. Разработка архитектуры системы формирования интеллектуального контента
3.2.1. Функциональные модули Интернет-портала
3.2.2. Компоненты системы формирования интеллектуального контента
3.2.3. Методические рекомендации по организации процесса поиска и формированию интеллектуального контента
3.3. Распределение ролей и прав доступа пользователей при эксплуатации системы формирования интеллектуального контента
3.3.1. Выделение классов пользователей системы
3.3.2. Выделение процессов системы
3.3.3. Распределение прав доступа в системе
3.4. Оценка трудоемкости и эффективности создания системы формирования интеллектуального контента при поисковом запросе
3.4.1. Оценка трудоемкости создания системы для органов муниципального самоуправления
3.4.2. Оценка трудоемкости создания системы для субъектов малого и среднего бизнеса
3.4.3. Оценка экономической эффективности от создания системы
3.5. Выводы по Главе 3
Заключение
Список литературы
Копипаст метод создания текста, заключающийся в механическом комбинировании цитат из одного или нескольких источников
Тайпсквоттер регистрация доменных имен близких по написанию с популярными сайтами
Доменное имя символьное имя, служащее для идентификации единиц административной автономии в сети Интернет
Рунет русскоязычная часть сети Интернет
стандарт интерфейса, используемый для связи внешней программы с веб-сервером
ИС информационная система
ИПС информационно-поисковая система
Дата-центр центр хранения и обработки данных, чаще всего, отдельное специализированное здание для размещения серверного и коммуникационного оборудования
Хостинг услуга по предоставлению вычислительных мощностей для физического размещения информации на сервере, постоянно находящимся в сети
8ЕО комплекс мер для повышения рейтинга сайта в поисковой выдаче по определенным пользовательским запросам
Парсер Программа, выполняющая синтаксический анализ
Бот Поисковый робот
Рекомендованный список диссертаций по специальности «Математические и инструментальные методы экономики», 08.00.13 шифр ВАК
Разработка методов и алгоритмов тематически ориентированного распределенного поиска информации в глобальных сетях типа Интернет2002 год, кандидат технических наук Амамра Рушди Ахмад
Разработка методов и инструментальных средств повышения пертинентности поиска в современных информационных средах2010 год, кандидат технических наук Терехов, Алексей Андреевич
Разработка и исследование принципов построения вертикальных образовательных порталов с открытой архитектурой2008 год, кандидат технических наук Силаев, Антон Валерьевич
Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы2002 год, кандидат технических наук Волков, Сергей Сергеевич
Метод поисковой оптимизации веб-сайтов в российском сегменте сети Интернет2011 год, кандидат технических наук Лысенко, Дмитрий Сергеевич
Введение диссертации (часть автореферата) на тему «Развитие методов и моделей формирования интеллектуального контента»
Введение
В настоящее время существуют разнообразные поисковые системы по базам данных, по локальным ресурсам, по локальным и глобальным сетям, в которых применяются математические модели и инструментальные средства для получении релевантных данных, удовлетворяющих заданным критериям поиска. Данные системы могут как локально устанавливаться на компьютер пользователя, так и разворачиваться в сети Интернет. Подобных систем сегодня насчитывается несколько десятков, среди них присутствуют как зарубежные, так и отечественные разработки. Учитывая сегодняшние объемы электронного контента, получить требуемую релевантную и актуальную информацию за разумный промежуток времени становится сложно. Если рассмотреть бизнес и экономику на любом уровне от местного до глобального, в сутки обрабатывается десятки миллионов поисковых запросов при использовании наиболее популярных механизмов и инструментов поиска. Поисковые системы бывают как узкоспециализированными, направленными на решение конкретных задач, например, поиск изображений, поиск химических формул, так и широкого применения.
Задача поиска информации осложняется еще и тем, что по запросу пользователя, как правило, выводится огромное множество документов, а некоторые, представляющие интерес для пользователя, и вовсе не индексируются. Это связано не только с изобилием информации, которое постоянно растет, но и с широко распростаненными сегодня копипастерскими ресурсами, тайпсквоттерами и другими представителями черного и серого SEO. Однако даже если детально рассмотреть результаты поиска, то часто в них обнаруживается изобилие так называемого «мусора», т.е. той информации, которая не имеет ощутимой пользы для пользователя. Все это говорит о необходимости совершенствования поисковых систем,
самих алгоритмов поиска, а также о расширении существующего функционала.
Мировые лидеры по разработке поисковых систем, такие как Google и Yandex, постоянно совершенствуют алгоритмы, заложенные в их продукты, а также разрабатывают новые механизмы, нацеленные на повышение качества поиска. Технологии и алгоритмы, применяемые ими, держатся в строгом секрете, публикуется лишь частичное описание нововведений. Согласно данным рейтингового агентства Liveinternet об охвате русскоязычных поисковых запросов Яндекс занимает 48,1% всех переходов с поисковых систем, а Google - 37,2%, остальные поисковики в десятки и сотни раз меньше [111]. Данные поисковые системы предназначены для поиска на естественном языке информации разного типа (текст, изображения, видео) по любой тематике. Кроме двух названных систем поиска информации в сети Интернет существуют менее распространенные в рунете, но имеющие интересные особенности поисковики, такие как Bing от компании Microsoft и Нигма, созданная при МГУ им. Ломоносова, позиционирующие себя в качестве интеллектуальных поисковых систем, применяющих методы интеллектуальной обработки информации такие, как кластеризация документов на основе нейронных сетей.
Целью данной работы является развитие инструментария и математического аппарата для формирования интеллектуального контента при поисковом пользовательском запросе с целью повышения релевантности поиска и качества принимаемых управленческих решений на основе полученной в результате поиска информации.
Основными задачами исследования являются:
1. Проведение анализа и сравнительной характеристики современных поисковых систем и технологий поиска.
2. Разработка инновационных методов формирования и обработки контента.
3. Разработка метода обучения классификатора при автоматическом реферировании поисковой выдачи.
4. Разработка модели формирования интеллектуального контента.
5. Разработка механизма функционирования системы формирования интеллектуального контента.
Предметом исследования являются методы и модели формирования интеллектуального контента.
Объектом исследования является информационное обеспечение деятельности государственных, муниципальных органов самоуправления, а также субъектов бизнеса.
Методологические и теоретические основы диссертационного исследования.
Диссертационное исследование основывается на информационной, методологической и теоретической базе математического анализа, прикладной математики, маркетинговых исследований, разработок в области поиска и обработки информации и высокоуровневого программирования, а так же трудов ведущих отечественных и зарубежных специалистов в области искусственного интеллекта, поиска и обработки информации, таких как Журавлёв Ю.И., Рязанов В.В., Сенько О.В., Загоруйко Н. Г., Круглов В. В., Борисов В. В., Уоссермен Ф., Роберт К., Розенблатт Ф., Дж. Солтон., Федоровский А.Н, Костин М. Ю., Губин М. В., Колисниченко Д. Н.
Научная новизна. Научная новизна диссертационного исследования заключается:
в разработке инструментария для формирования интеллектуального контента с использованием экологического подхода на основе развития и комбинации методов повторного автоматического ранжирования, автоматического реферирования, латентно-семантического
индексирования и стемминга;
в разработке метода извлечения значимого текста из исходного html - документа с применением классификатора на основе нейронной сети и построении модели формирования интеллектуального контента при осуществлении релевантного поиска, как в глобальных, так и в локальных сетях.
Основными результатами диссертационного исследования, обладающими элементами научной новизны, являются следующие:
1. Проведен анализ и сравнительная характеристика современных поисковых систем и технологий поиска, в результате которого установлено, что на сегодняшний день не существует ни одной поисковой системы, формирующей выдачу действительно релевантных документов с помощью функции автоматического реферирования.
2. Предложена комбинация методов формирования и обработки контента с использованием экологического подхода к осуществлению поиска.
3. Разработана конфигурация нейронной сети для обучения классификатора при автоматическом реферировании, применение которой позволяет исключить участие пользователя для извлечения значимого текста из исходного html документа.
4. Предложена модель формирования интеллектуального контента, алгоритм функционирования которой основан на применении предлагаемых в диссертационном исследовании методов и реализован в виде надстройки для поискового модуля системы управления контентом Drupal.
5. Разработан механизм функционирования системы формирования интеллектуального контента на базе Интернет-портала, представляющий инструментальное средство, реализующее функции поиска и обработки информации, позволяющее обеспечить дружественный интерфейс пользователя и повысить эффективность и оперативность обработки запросов при принятии экономических и управленческих решений.
6. Проведена оценка эффективности от внедрения системы формирования интеллектуального контента в Администрации г. Реутов Московской области.
Практическая значимость полученных в исследовании выводов и рекомендаций определяется возможностью повышения эффективности поиска необходимой релевантной информации внутри локальных и глобальных сетей при хозяйственной деятельности за счет комплексного интегрированного применения современных информационных технологий.
Разработанные методические рекомендации по организации процесса поиска и формированию интеллектуального контента можно использовать в рамках осуществления хозяйственной деятельности и процесса управления как для органов государственного и муниципального управления, так и для коммерческих организаций малого, среднего и крупного бизнеса.
Достоверность научных результатов подтверждается опытом применения разработанных методов и моделей в повседневной деятельности экономического управления Администрации города Реутова Московской области. Основные результаты диссертации опубликованы в печатных работах и неоднократно обсуждались на международных и всероссийских конференциях и получили одобрение специалистов.
Апробация результатов исследования. Основные положения диссертации докладывались на научных конференциях:
15-я Всероссийская научно-практическая конференция «Актуальные проблемы управления - модернизация и инновации в экономике», Москва, ГУУ, 27-28 октября 2010 г.
21-ая ежегодная выставка-конференция информационных и коммуникационных технологий Softool, Москва, ВВЦ, 26-29 октября
2010 г.
Третья ежегодная научно-практическая конференция «Информационные бизнес системы», Академия IBS, Институт информационных бизнес систем НИТУ «МИСиС», Факультет информационных бизнес систем МФТИ, 23 апреля 2011 г.
23-я международная выставка-конференция
телекоммуникационного оборудования, систем управления, информационных технологий и услуг связи «Связь-Экспокомм-2011», Москва, ЦВК «Экспоцентр», 10-13 мая 2011 г.
22-ая ежегодная выставка-конференция информационных и коммуникационных технологий Softool, Москва, ВВЦ, 25-28 октября
2011 г.
1. Сравнительная характеристика современных технологий поиска, методов организации поиска и поисковых систем для сети Интернет
1.1. Задачи информационного поиска
Основной задачей информационного поиска является помощь пользователю в удовлетворении его информационной потребности. Формально описать эти потребности с технической стороны достаточно непросто, потому что в большинстве случаев они формулируются как запрос,
состоящий из набора ключевых слов, характеризующих суть того, что пользователь ищет.
В самом начале зарождения этой области решалась классическая задача — поиск документов из некоторого статического набора, которые удовлетворяют запросу пользователя. Однако с развитием информационных технологий и с многократным увеличением объемов и видов представления электронной информации, список задач информационного поиска постоянно расширяется и включает в себя: классификацию, фильтрацию и кластеризацию документов, проектирование архитектур поисковых систем и пользовательских интерфейсов, извлечение информации (аннотирование и реферирование документов), разработка новых и совершенствование существующих языков запросов. Рассмотрим перечисленные задачи подробнее.
1.1.1. Классификация документов
Данная задача заключается в отнесении документа к определенной категории на основании его содержания. Существует три основных подхода к задаче классификации документов. Самым простым и старым является ручная классификация, без использования ЭВМ. Данный способ является достаточно дорогостоящим и не применим при больших объемах документов из-за крайне низкой скорости обработки. В настоящее время практически не используется, исключение составляют лишь небольшие библиотеки, а также некоторые субъекты малого бизнеса, для которых автоматизация данного процесса экономически неоправданна.
Следующий подход основан на написании правил (регулярных выражений), с помощью которых текст можно отнести к тому или иному классу. Например, если текст содержит слова «рентабельность» и «индекс доходности», то его следует автоматически отнести к категории экономика. Данные правила пишутся специалистом в конкретной предметной области,
после чего они применяются к поступающим в обработку документам. Описанный подход требует меньших людских трудозатрат, а также позволяет обрабатывать практически неограниченное количество документов. Кроме того, построение регулярных выражений специалистом вручную дает лучшую точность классификации, однако возникает проблема, связанная с созданием и поддержанием правил в актуальном состоянии. Из-за постоянных изменений, имеющих место в политике, экономике, социальной сфере, данная проблема может стать очень существенной для классификации ряда документов, например, новостной ленты. В связи с этим был разработан новый подход к классификации, основанный на машинном обучении. В этом подходе создание правил осуществляется автоматически, путем вычисления из обучающих данных (классификатора). Под обучающими данными понимается достаточное количество документов из каждого класса. Описанный подход к классификации документов является примером обучения с учителем, где в роли учителя выступает человек, задающий набор классов и осуществляющий первоначальную ручную разметку обучающего множества документов, т.е. приписывание класса документу.
1.1.2. Кластеризация документов
Данный процесс похож на классификацию, документы также группируются по некоторым критериям, однако его отличие заключается в том, что категории (классы) заранее не определены. Заранее также не задаются ни какие из характеристик категорий. Основной целью кластеризации документов является автоматическое выделение групп семантически похожих документов, с последующим отнесением документов к выделенным классам. В процессе кластеризации заданная выборка документов разбивается на подмножества (кластеры) таким образом, чтобы каждый кластер состоял из схожих объектов, а объекты различных кластеров существенно отличались. В результате кластеризации пользователь ищет
информацию по определенным группам, имея возможность фильтрации документов по ним. Данная возможность широко используется российским поисковиком Нигма и позволяет существенно сократить объем конечной выборки документов путем обращения к только тем категориям информации (кластерам), которые интересуют пользователя [97].
1.1.3. Выделение информации из текста
Во время поиска пользователю приходится сталкиваться с изобилием ненужной информации. Например, запрос выглядит так «формула для расчета NPV», любой поисковик выдаст множество страниц со статьями по данной теме, в то время, когда найти требовалось лишь одну формулу. Данная проблема осложняется еще и тем, что в процессе развития информационных технологий, а также систем хранения информации (баз данных, хранилищ данных) объем обрабатываемых данных резко возрастает. На лицо избыточность информации, для того, чтобы решить данную проблему можно использовать технологии выделения информации из текста или text mining. Согласно технологии text mining, выделим основные уровни представления информации:
• исходные данные - необработанные массивы данных, получаемые в результате наблюдения за некоторым динамическим объектом и отображающие его состояние в определенный момент времени (например, данные об уровне инфляции за прошедший год),
• информация - исходные данные, представленные в удобном для пользователя виде (в более сжатом виде), а также обладающие некой информационной ценностью,
• знания - информация, к которой добавляются некоторые скрытые взаимосвязи между объектами, не являющиеся общедоступными и не заметные с первого взгляда на эту информацию, часто данные взаимосвязи доступны лишь экспертам-аналитикам в той или иной области.
Технология text mining может использовать как исходные данные, так и предварительно обработанную информацию, анализирует текстовую информацию с помощью различных математических методов (интерполяции, экстраполяции, аппроксимации, методы нечеткой логики, методы математической статистики) и позволяет получать знания [9]. Например, имеются данные о затратах и доходах некоторой компании за определенный промежуток времени, эти данные могут быть представлены в любом виде, например, в текстовом. Экономист берет эти данные и с помощью MS Excel рассчитывает ЧДД, получая информацию об изменении по некоторым временным отрезкам, после, с помощью модуля Поиск решений, происходит расчет ВНД, в результате чего получаем знание о том, насколько эффективно функционирует предприятие. Text mining может решать многие задачи: поиск шаблонов, нахождение структурированной информации, кластеризация и классификация данных, но особо хочется отметить такие операции как: определение тематики знаний, автоматическое реферирование документов, фильтрация контента и определение семантических связей.
1.1.4. Разработка архитектуры поисковой системы и интерфейса пользователя
Любая поисковая система, будь-то локальный поиск на жестком диске или Интернет-поисковик, имеет некоторую архитектуру и интерфейс пользователя. Безусловно, можно выделить общие компоненты, которые присущи всем поисковым системам, но также между ними существуют и определенные отличия. Особенности отдельных систем будут рассмотрены чуть позже, а сейчас поговорим об общих чертах. Классическая архитектура поисковой системы представлена на рисунке 1.
Рисунок 1 - Архитектура поисковой системы
Существует клиентская ЭВМ, например, под управлением ОС Windows и существует Web-сервер под управлением UNIX-подобной ОС. На стороне клиента запущен Интернет-браузер, такой как Netscape. На стороне сервера запущен web-сервер, который обслуживает запросы от браузера, передавая запросы презентационному слою, понимающему CGI. Презентационный слой передает запросы к поисковому механизму в случае вызова услуги поиска или отображает наполнение (content) сайта. При работе администратора презентационный слой также может передавать запросы на инициализацию механизма индексации нового контента, который еще не индексирован. Это необходимо по той причине, что пока текст не индексирован, поиск в нем с помощью поисковой машины невозможен,
поскольку потребует больших затрат времени. Через браузер осуществляется интерфейс с пользователем, как правило, это главная страница поискового сервиса, например, http://www.yandex.ru, написанная на языке html в случае Интернет-поисковика. На данной странице имеется адресная строка поиска, а также меню пользователя, с возможностью выбора дополнительных опций поиска. Разработчики поисковых систем постоянно совершенствуют архитектуры своих систем с целью повышения скорости, качества и релевантности поиска, а также модернизируют интерфейс пользователя для повышения удобства работы с поисковой системой, добавляя такие особенности как автозаполнение поисковой строки по первым буквам ключевых слов, сохранение результатов поиска, кластеризация по поисковым группам, фильтрация документов по регионам и городам т.д.
1.1.5. Оценка качества информационного поиска
Существует множество способов оценки качества соответствия найденных документов поисковому запросу (релевантности). Однако само понятие степени релевантности субъективно и сильно зависит от конкретного пользователя. Для повышения объективности оценки требуется несколько человек, а результат усредняется. Общепринятыми критериями оценки эффективности сегодня является расчет таких показателей, как точность, полнота и выпадение [58]. Рассмотрим эти характеристики подробнее.
Точность (precision). Определяется как отношение числа релевантных документов, найденных ИПС, к общему числу найденных документов:
т-у . . \Drel П A-eír|
.Precision = —
reír
(1)
где Д.е/ — это множество релевантных документов в базе, а -—
множество документов, найденных системой. По результатам исследований
18
компании, оценивающей релевантность показателей основных русских и зарубежных поисковых систем.
Полнота (recall). Отношение числа найденных релевантных докум ентов, к общему числу релевантных документов в базе:
jD,-r-.,' П Dretr Recall = 1 1
\Пге11 ? (2)
где Dre!— это множество релевантных документов в базе, a Dretr — множество документов, найденных системой.
Выпадение (fall-out). Выпадение характеризует вероятность нахождения нерелевантного ресурса и определяется, как отношение числа найденных нерелевантных документов к общему числу нерелевантных документов в базе:
^ „ „ \Dnrein Dretj ball-out = -
\Dnrel
(3)
где Д1ге1 — это множество нерелевантных документов в базе, а Д.е,г — множество документов, найденных системой.
Определенно данные характеристики зависят друг от друга. Чаще всего, если стремиться увеличить точность, это приведет к снижению полноты поиска и наоборот. Однако, чем выше значение для обеих характеристик, тем более высокого класса поисковая система. Для повышения объективности оценки качества поиска в большинстве случаев используют методику, согласно которой точность оценивается по 11 значениям полноты от 0 до 100% с шагом в 10%, по полученным точкам строят график полноты/точности. Чем выше проходит полученный график, тем более качественный поиск система способна осуществить. Однако данная методика не является наилучшей для всех случаев информационного
поиска, например, при огромном массиве отобранных документов, пользователю становится неважна полнота (все ли существующие документы были отобраны по запросу) в связи с тем, что физически просто невозможно просмотреть все эти документы.
По исследованиям, проведенным компанией Rambler, в отношении поведения пользователей поисковых систем были сделаны следующие выводы: Пользователю требуется 20 секунд для анализа результатов поиска до первого клика и 60 секунд для анализа сайта, на который перешёл из результатов поиска [99].
Если смотреть по сессиям, то 30% заканчивается ничем, 35% сессий заканчиваются 1 кликом, 15% - 2 кликами, 20% - 3 и более. Если смотреть по глубине вхождения, то оказывается, что 13% сессий заканчиваются тем, что посетитель уходит дальше 1 страницы. Остальной трафик остаётся на первой странице. Если смотреть, что доступно в базе Рамблера, то оказывается, что пользователи просматривают только 2% документов. Остальные 98% не просматриваются. Известно, что большинство сессий заканчиваются 1 кликом [99]. Но, если посмотреть, какой результат достаётся первому клику, то получаем распределение по позициям в выдаче:
• 1 позиция - 40%
• 2 позиция - 10%
• 3 позиция - 8%
То есть трафик падает очень быстро.
Если у какого-то результата очень плохая аннотация, то трафик падает в несколько раз.
Основная часть пользователей старается тратить на поисковый запрос
как можно меньше собственного времени, что на практике выливается в
просмотр одной или двух первых страниц поисковой выдачи. Это нельзя
20
исправить, поисковым системам нужно подстраиваться. Между различными мерами оценки поиска существуют разные корреляции. Для выделения самых качественных способов оценки информационного поиска компанией Рамблер был проведен эксперимент. На небольшой аудитории пользователей ухудшали качество и смотрели, какие коэффициенты увеличивались, а какие уменьшались. Далее ухудшали либо улучшали качество поиска. Отмечали, какие коэффициенты изменились в обратную сторону. Повторив процедуру несколько раз, получали метрики, которые зависят от качества, остальные отфильтровывали.
Одна из этих метрик называется сШ. Это доля первого результата при одном клике. Среднее значение сШ составляет 0,4 х 0,35 = 14% (с1 — первый клик, 11 - первый результат). То есть 35% сессий заканчивается 1 кликом. И на первый результат приходится 40% таких кликов. Получается, в 14 из 100 сессий пользователь сделал ровно 1 клик, и он достался первому результату. Эти 14% и есть качество. 100% - идеальное и недостижимое качество [99].
Кроме методологии, основанной на 11 оценках с последующим построением графика качества, иногда оказывается полезным объединить классические критерии оценки точности и полноты в одном показателе для получения все тех же усредненных результатов оценки. Для этой цели среднее арифметическое не подходит, так как, например, поисковой системе достаточно вернуть вообще все документы, чтобы обеспечить равную единице полноту при близкой к нулю точности, и среднее арифметическое точности и полноты будет не меньше 1/2. Среднее гармоническое не обладает этим недостатком, поскольку, при большом отличии усредняемых значений, приближается к минимальному из них.
Поэтому хорошей мерой для совместной оценки точности и полноты является Р-мера (мера Ван Ризбергена) [51], которая определяется как взвешенное гармоническое среднее точности Р и полноты Я:
1
а
€ [0, 1].
Обычно Т^-меру записывают в виде
_ ^ + 1)РЯ 2 _ (1 - а) 2
При а = 1 / 2 либо Р = 1 ^-мера придает одинаковый вес точности и полноте и называется сбалансированной или Р\-мерой (в нижнем индексе принято указывать величину (3), выражение для неё упрощается
2РН
Рл
P + R (6)
Использование сбалансированной F-меры не является обязательным: при 0 < ß < 1 предпочтение отдаётся полноте, а при ß > 1 больший вес приобретает точность.
1.2. Устройство и принцип функционирования современных Интернет-поисковых систем
Выше была рассмотрена базовая структура, которая присуща всем поисковым системам, однако, поскольку нас в большей степени интересуют именно Интернет-поисковики, остановимся подробнее на их архитектуре, а также проанализируем механизм функционирования. Для примера возьмем две наиболее популярные в рунете поисковые системы Google и Yandex.
1.2.1. Составные части поисковых систем
1. Поисковый робот (индексатор, спайдер, краулер). Он отвечает за
сбор информации. Посещая страницы и запоминая их в БД, робот выполняет
22
действия обычного пользователя, но в автоматическом режиме, так же выделяет из страницы специальные элементы, такие как теги title, strong, hi. Для правильной индексации страницы роботом важно правильное форматирование ее элементов. Очень часто поисковики ограничивают глубину индексации и максимальный размер сканируемого текста, поэтому слишком большие сайты часто индексируются не полностью. Порядок обхода страниц, частота заходов, критерии выделения значимой информации определяются конкретными поисковыми алгоритмами. Чаще всего, переходы осуществляются по ссылкам на первой и последующих страницах. Большинство поисковиков дают возможность автоматически добавить сайт в очередь индексации, что, при отсутствии внешних ссылок, является единственной возможностью обнаружить данный сайт. Для запрета индексации отдельных страниц используется файл robots.txt, который создается разработчиком сайта, однако некоторые роботы могут игнорировать данный файл, поэтому часто дополнительно применяются альтернативные механизмы защиты вроде пароля или регистрационной формы.
2. База данных. Собранная роботом информация сохраняется и сортируется в базе данных. Существует два основных варианта хранения записей в базе данных поисковой машины, т.е. полей, по которым осуществляется сортировка и наличие дополнительной информации, это прямой и обратный индексы. При использовании прямого индекса записи в БД сортируются по номеру документа. Для каждого документа хранится отсортированный по номеру список слов. Для каждого слова хранятся первые несколько позиций вхождения слова в документ, количество и формат вхождения. Под форматом вхождения имеется в виду вхождение слова в заголовке, в описании к картинке или таблице, в тексте ссылки, данные слова будут иметь приоритет при поиске. Прямой индекс обновляется постоянно в процессе индексирования. Для каждой
проиндексированной страницы в БД хранится частота переиндексации, которая рассчитывается в зависимости от наличия обновлений. При очередном заходе робота на данную страницу, в случае отсутствия изменений, частота увеличивается в два раза, а при наличии таковых -уменьшается. Обычно переиндексируются не все слова и лишь часть документов с одного сайта. В случае использования обратного индекса записи сортируются по словам. Для каждой записи хранится номер слова, список документов, в которые входит это слово, а также полная информация о позиции вхождения. Стоит отметить, что обратный индекс обновляется реже прямого, примерно раз в сутки. Поисковики используют алгоритм инвертированного индекса, поскольку использование прямого индекса более ресурсоемко. Поскольку восстановление из обратного индекса произойдет с потерей таких параметров, как знаки препинания, падежи, а так же стоп символы (предлоги, личные местоимения и т.д.), поисковые машины сохраняют и прямой индекс, который позволяет восстановить найденный и интересующий нас документ.
3. Клиент. Отдельный модуль поисковой системы, обрабатывающий запросы пользователя. Формирует пользовательский интерфейс, загрузка которого осуществляется средствами браузера при обращении по 1Р-адресу клиента. В современных поисковых системах используется, как правило, разнесенный клиент, т.е. части клиентского модуля размещаются на нескольких, физически несвязанных ЭВМ. Это необходимо для повышения производительности из-за огромного количества обрабатываемых запросов. Однако стоит отметить, что все эти ЭВМ обязательно имеют высокоскоростной доступ к базе данных поисковой машины, по средствам которого и осуществляется синхронизация фрагментов модуля. Рассмотрим подробнее принцип работы клиентской части. В первую очередь запрос, введенный пользователем в адресную строку, разбивается на отдельные слова, после чего происходит удаление
стоп-слов - предлоги, частицы, союзы, встречающиеся в любом документе. Далее каждому значимому слову сопоставляется его номер из репозитория, таким образом, длинные слова, состоящие из нескольких символов, заменяются коротким числовым номером. Затем по каждому слову (в виде числового номера) подбирается список документов из обратного индекса, в которых оно содержится, после чего происходит формирование нового списка документов, который удовлетворяет только ключевым словам запроса. На следующем шаге вычисляется релевантность документа (соответствие слова данному документу). Происходит это по следующим критериям:
• Наличие искомого слова в документе.
• Частота вхождения. Чем чаще слова попадаются на странице документа, тем выше его релевантность.
• Форматирование. Если ключевые слова выделены html - тэгами, то документ окажется выше в результатах.
• Морфологическое вхождение. Род, лицо, падеж искомого слова. (Учитывается системой Yandex и некоторыми другими).
• Ссылки. Количество и авторитетность внешних ссылок, ведущих к документу, чем их больше, тем выше позиция в поиске.
• Наличие ресурса в каталоге поисковой системы. Каталоги составляются вручную и содержат подробное описание ресурса.
После вычисления релевантности происходит сортировка документов в порядке уменьшения. После чего формируются аннотации документов, удовлетворяющих условиям поиска, по первому предложению, первому вхождению слова в документ, заголовку, либо по описанию документа в тэгах. На следующем шаге клиент направляет браузеру пользователя результаты поиска в виде привычного для нас списка. Принцип работы клиента поисковой системы показан на рисунке 2.
—> URL Server ->[ Crawler ;-^ Store Server )
H URL Resolver
Links
PageRank
Рисунок 2 - Структура обработки поискового запроса в Google
• URL Server - пространство всех Интернет адресов
• Crawler - поисковый робот
• Store Server сохраняет страницы в репозиторий (Repository), обычно в формате html, дополнительная информация (картинки, flash) не сохраняется.
• Indexer анализирует документы из Repository и сохраняет их в Barrels (база данных) в виде обратного индекса.
• Lexicon - список всех слов. Таблица с двумя полями «номер» и «слово».
• Anchors - выделенные компонентом Indexer URL-ссылки.
• URL Resolver - обработчик URL. Если находятся новые ссылки, то они передаются в URL Server.
• Links отслеживает внешние ссылки на документ, передавая информацию в Page Rank.
, .....________
Anchors ) í
г-i Repository
• Page Rank - определяет рейтинг сайта с помощью математических моделей и интеллектуальных алгоритмов.
• Searcher - клиент.
1.2.2. Современные алгоритмы обработки поисковых запросов
Зная архитектуру и принцип функционирования поисковой системы Google, алгоримт обработки информации в системе с момента написания поискового запроса до выдачи результата может быть представлен следующим образом (рис.3):
Вы вводите запрос
итгг
Гугл формирует поисковую выдачу
ИИГ"
Результаты сортируются по весу ресурса
Применяются фильтры
Отображаются результаты
Рисунок 3 - Алгоритм поиска Google
Учитывая постоянно повышающуюся нагрузку на поисковые системы (около 2,5 млрд. запросов за месяц обрабатывает Яндекс и около 41,5 млрд. Google), постоянно повышаются и требования, предъявляемые к вычислительным мощностям поисковиков. Например, Яндекс владеет целой сетью дата-центров и ежедневно устанавливает по несколько новых
i
Контент проверяется на соответствие нормам
серверов, Google имеет не только собственные дата-центры, но также электростанции и спутники [45]. Однако, одним «железом» не обойтись, поэтому постоянно совершенствуются и алгоритмы, и технологии поиска.
Сегодня в жестких условиях конкуренции скорость и полнота выполнения запросов выходят на первое место для пользователя. Для запроса средней сложности (при поиске не слишком частотного слова) время отклика системы (без учета времени передачи данных по каналу система-пользователь) должно исчисляться десятыми долями секунды.
На сегодня существует три основных подхода к решению этой проблемы:
• Увеличение вычислительных мощностей, регулярное обновление аппаратной части
• Оптимизация базовых поисковых алгоритмов и архитектуры поисковой системы
• Использование масштабируемой архитектуры программного обеспечения, которая должна закладываться при проектировании системы
По поводу увеличения вычислительных мощностей уже было сказано выше, поэтому обратимся к оптимизации поисковых алгоритмов. Компания Яндекс начала анонсировать введение новых алгоритмов с июля 2007 года. В то время компания не разглашала никакой информации, касающейся алгоритмов, а тестирование осуществлялось самими сотрудниками компании, однако уже к концу года стало очевидно, что без привлечения пользователей с целью тестирования уже не обойтись, т.к. внедрение новых алгоритмов стало осуществляться примерно два раза в год.
В мае 2008 года появляется первый алгоритм поиска под названием «Магадан», первоначально доступный по отдельной ссылке, в тестировании
которого мог принять участие любой желающий. Далее эволюция алгоритмов выглядит следующим образом «Находка» (сентябрь 2008 года), «Арзамас» (апрель 2009 года), «Снежинск» (ноябрь 2009 года), «Конаково» (декабрь 2009 года), «Обнинск» (сентябрь 2010 года), «Краснодар» (декабрь 2010 года). На сегодняшний день Яндекс использует алгоритм «Краснодар», его ключевыми особенностями являются [46]:
• Классификация запросов с выделением из них объектов (имена, фамилии, марки автомобилей) и присвоением категорий (товары, лекарства, поэты и Т.д.)
• Использование технологии «Спектр» - интеллектуальный анализ многозначных запросов с целью установления наиболее вероятной категории принадлежности.
• Учет поведенческих факторов (совокупность действий посетителей на определенном сайте, таких как время пребывания, частота посещения, просмотр страниц) при выдаче результатов.
• Ранжирование по геозависимым запросам
Если взглянуть на оптимизацию поисковых алгоритмов Google, последней разработкой компании является алгоритм «Panda», которому предшествовал «Mayday». Взглянем на основные особенности алгоритма «Panda»:
• Фильтрация сайтов, содержащих статьи с почти идентичным содержимым, различающихся лишь вариацией ключевых слов.
• Ранжирование сайтов в зависимости от наличия стилистических или орфографических ошибок, а так же ошибок в фактах.
• Проверка ресурсов на соответствие содержимого тематике.
• Анализ сайтов на наличие чрезмерной рекламы.
• Внедрение технологии Google Instant, поиск стал давать подсказки пользователю по мере введения запроса [40]. Часто пользователю даже не приходится нажимать кнопку «поиск», система сама быстрее выдает искомый результат.
Т" V»
• 1естирование скорости загрузки сайта, которая также стала влиять на ранжирование.
1.2.3. Организация параллельного поиска
Значимым моментом в увеличении скорости выполнения запросов является масштабируемость архитектуры, остановимся на этом поподробнее, обратившись к технологии параллельного поиска Яндекса, представленной на рисунке 4.
содержат кластеры - Ь'ЗО базы, отрабатывают запросы от всех веб-сграерсв
Рисунок 4 - Параллельный поиск Яндекса
На верхнем уровне распределение нагрузки между базовыми вебсерверами осуществляется средствами сетевого устройства балансировки нагрузки, Яндекс традиционно применяет Cisco. Данное устройство перенаправляет пользователя па наименее загруженный веб-сервер, в зависимости от IP-адреса и cookies [46].
На среднем уровне, состоящем из веб-серверов, количество которых постоянно увеличивается, применяются следующие технологии распараллеливания запросов пользователей:
• Разделение коллекции документов. Параллельный поиск - это одновременный поиск в специализированных коллекциях (базах данных). Как правило, это отдельные базы данных небольшого размера, отличные от основного индекса поисковой системы. Если при поиске по основной базе находятся также документы из отдельных коллекций, то их список попадает в выдачу. Поскольку базы параллельного поиска имеют в разы меньше основной базы данных, а индексация документов для них производится отдельными роботами, данный процесс происходит намного быстрее традиционного поиска. На сегодняшний день в Яндексе существуют четыре основные базы параллельного поиска: по новостям, по товарным предложениям, по заголовкам статей энциклопедий, по каталогу (ручному описанию ресурсов). Данные базы обновляются намного быстрее и, как следствие, чаще, основного индекса.
• Выбор коллекции и трансформация запроса пользователя. Перед началом поиска пользователь самостоятельно может указать коллекцию, если же он этого не сделает, то система на основе эвристического анализа запроса может определить, по какой коллекции приоритетнее производить поиск.
• Раздача запроса по коллекциям. Чаще всего, при поиске используются все коллекции. Собирающий сервер раздает по коллекциям модифицированные запросы.
• Исполнение и ранжирование запроса в коллекциях. Запрос выполняется параллельно для всех коллекций. Веб-коллекции документов не всегда распределяются по физическим машинам, они могут находиться на одном
сервере. Слияние результатов поиска производится на метапоисковом сервере, с которого пользователь отправлял запрос.
На нижнем уровне, на поисковых серверах используются многопроцессорные технологии, а также RAID массивы, позволяющие распараллеливать операции чтения и записи данных. Реализация распределения нагрузки по процессорам и RAID-массивам возлагается на операционную систему, большинство поисковых машин используют для этих целей FreeBSD.
1.2.4. Алгоритмы ссылочного ранжирования, применяемые в современных поисковых системах
Под ссылочным ранжированием понимается алгоритм, применяемый
поисковой машиной для определения релевантности документа запросу пользователя. Как правило, алгоритмы ссылочного ранжирования основываются на анализе внешних ссылок на документ, содержащих ключевые слова. Данные алгоритмы применяются для автоматического ранжирования подмножества документов, при их выдаче по запросу пользователя. Во время обучения ранжирующей модели и при ее работе, пары «документ-запрос» переводятся в числовой вектор из множества ранжирующих признаков (ранжирующие факторы или сигналы), характеризующих свойство документа и влияющих на его положение в выдаче.
Ранжирующие признаки бывают нескольких типов:
• Запросно-независимые (статистические) признаки - зависят непосредственно от самого документа, а не от запроса. Например, тИЦ (тематический индекс цитирования) системы Яндекс или PageRank (ранг документа) от Google. Данные признаки, чаще всего, вычисляются при индексации документа.
• Признаки, зависящие только от самого запроса пользователя
• Запросно-зависимые или динамические признаки. Это те признаки, которые зависят и от документа, и от запроса. Например, мера TF-IDF (мера соответствия документа запросу). Данная мера используется для оценки важности слова в контексте всего документа, являющегося частью коллекции документов. Идея заключается в том, что вес некоторого слова пропорционален количеству употребления этого слова в документе (TF -частота слова), и обратно пропорционален частоте употребления слова в других документах коллекции (IDF - обратная частота документа).
Z^feWfc , (7)
где Hi есть число вхождений слова в документ, а в знаменателе — общее число слов в данном документе.
IDF = log Г ;|Г?|, ,
(8)
Где |D| — количество документов в корпусе; K^t ^ h)\— количество документов, в которых встречается t, (когда ni 0).
Таким образом, мера TF-IDF является произведением двух сомножителей: TF и IDF. Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.
В настоящее время существует множество различных формул расчета меры соответствия документа запросу, основанных на методологии TF-IDF, самой популярной из них является Okapi ВМ25, разработанная в 1980-ых годах и впервые примененная в поисковой системе Okapi [47]. Данная формула представляет поисковую функцию на неупорядоченном множестве термов и множестве документов,
которые она оценивает на основе встречаемости слов запроса в каждом документе, без учета взаимоотношений между ними. Математически это выглядит следующим образом:
Пусть дан запрос содержащий слова тогда функция
ВМ25 даёт следующую оценку релевантности документа £> запросу О;.
В) ■ (кг + 1)
■г?
scordD.Q) — > IDFfffi) --
ti ' fi>l„D) + h-il-b + b-—d,
Df_
(9)
гдеj{qt,D) есть частота слова (англ. term frequency, TF) qt в документе D,\D \ есть длина документа (количество слов в нём), a avgdl— средняя длина документа в коллекции. к\и b— свободные коэффициенты, обычно их выбирают как к\ — 2.0 и b = 0.75.
YDYiqj) есть обратная документная частота (англ. inverse document frequency, IDF) слова qh Есть несколько толкований IDF и небольших вариации его формулы. Классически, она определяется как:
I N
fog
«(фГ (10)
где Доесть общее количество документов в коллекции, а и(дг) — количество документов, содержащих qi. Но чаще применяются «сглаженные» варианты этой формулы, например:
Лг — п(дг) + 0.5
IDFfe) = k>g
n(gt-) + 0.5 ;(11)
Вышеуказанная формула IDF имеет следующий недостаток. Для слов, входящих в более чем половину документов из коллекции, их IDF отрицателен, поэтому для любых почти идентичных документов, в одном из которых есть слово, а в другом — нет, второй может получить большую оценку.
Иными словами, часто встречающиеся слова испортят окончательную оценку документа. Это нежелательно, поэтому во многих приложениях вышеприведённая формула может быть скорректирована следующими способами:
• Игнорировать вообще все отрицательные слагаемые в сумме (что эквивалентно занесению в стоп-лист и игнорированию всех соответствующих высокочастотных слов);
• Налагать на IDF некоторую нижнюю границу г: если IDF меньше s, то считать её равной е
• Использовать другую формулу IDF, не принимающую отрицательных значений.
Сами алгоритмы ранжирования бывают трех видов:
1. Поточечные алгоритмы. В данном случае парам «запрос-документ» в соответствие ставится численная оценка, задача обучения ранжированию сводится к построению регрессии: для каждой пары предсказывается ее оценка.
2. Алгоритмы попарного сравнения. Сводятся к построению бинарного классификатора, на вход поступают два документа, соответствующих одному и тому же запросу, а его задача определить, какой из них лучше.
3. Списочные алгоритмы. Данные алгоритмы отличаются тем, что на вход поступают сразу все документы, соответствующие запросу, а на выходе задается порядок их выдачи.
Наиболее популярными из существующих алгоритмов ссылочного ранжирования, применяемых поисковыми машинами в настоящее время, являются PageRank и ИЦ, рассмотрим подробнее принцип их работы.
PageRank представляет числовую величину, характеризующую «важность» страницы. Чем больше ссылок на страницу, тем важнее она
становится. Кроме того, вес страницы А определяется весом ссылки, передаваемой страницей В. Таким образом, Page Rank - это метод вычисления веса страницы путем подсчета важности ссылок на нее [52]. ИЦ (индекс цитирования) и тИЦ (тематический индекс цитирования) -технологии, применяемые в поисковой машине Яндекс , для определения авторитетности Интернет-ресурсов с учетом ссылок на нее. Отличие тИЦ от ИЦ заключается в том, что тИЦ учитывает тематическую близость ресурса и ссылающихся на него сайтов. На тИЦ не могут влиять сайты, где человек может поставить свою ссылку без ведома администратора, соответственно данный показатель достаточно проблематично накрутить. И Page Rank, и тИЦ имеют систему апдейтов (пересчет показателей), который происходит обычно около двух раз в месяц [57]. Вообще говоря, данные алгоритмы очень похожи и постоянно совершенствуются, рассмотрим их подробнее с математической точки зрения на примере PageRank, который явился родоначальником всех, применяемых сегодня алгоритмов ссылочного ранжирования веб-документов.
По сути алгоритм Page Rank моделирует действия пользователя, осуществляя переход от одного документа по имеющимся ссылкам к другому. Page Rank использует так называемую «Модель случайного блуждания», которая представляет направленный граф, в вершинах которого располагаются документы, а ребра являются ссылками. Для наглядности данная модель представлена на рисунке 5. Пользователь начинает свое движение из случайной вершины, после чего на каждом следующем шаге он с вероятностью s (обычно около 0,15) переходит в случайную вершину и с вероятностью 1-е по одному из ребер, ведущих из данной вершины.
Рисунок 5 - Модель случайного блуждания
Введем понятие предельной вероятности: Р Кк(1) — это вероятность оказаться в вершине I через к шагов.
Утверждение: - рн.щ (9), то есть для каждой вершины
существует предельная вероятность находиться в ней.
Введем некоторые обозначения: Т1,....., Тп — вершины, из которых
идут ребра в ¡, С(Х) — количество ребер исходящих из вершины X. Тогда имеет место следующее утверждение.
г-.«.-. те! РК(Ъ.\
Утверждение: (12)
Доказательство:
По определению Р Ик(1) верно следующее:
>'•> — - ; V — ' ! — " Г" ' _
— (13)
Теперь переходим к пределу в обеих частях последнего равенства и получаем доказываемое утверждение.
Что и требовалось доказать.
Разберемся, откуда берутся оба слагаемых в правой части равенства: s/N — вероятность того, что начало перехода произойдет из данной вершины, а сумма это сумма вероятностей прихода с других страниц по ссылкам.
Практически предельный PageRank не используют, а вместо PR(i) берут PR50(i). После расчета PageRank нормализуется и округляется так, чтобы это было целое число от 1 до 10.
Матричная интерпретация
Рассмотрим матрицу L для построенного в предыдущем пункте графа. Заполнять матрицу будем по следующему принципу: h = если из вершины i в вершину j нет ребра, и =£/лг + п -s'ß/CU}^ если ребро есть. Введем следующие обозначения:
Р?Л - г7,\ 1 . . Г1\ Л /\-м .ГРУ
Тогда будут верны следующие соотношения:
Похожие диссертационные работы по специальности «Математические и инструментальные методы экономики», 08.00.13 шифр ВАК
Контекстно-ассоциативный метод уточнения поисковых запросов с обратной связью по релевантности2006 год, кандидат физико-математических наук Беляев, Дмитрий Владимирович
Разработка архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет2004 год, кандидат технических наук Арутюнян, Роман Эрнстович
Информационно-поисковая система с ранжированием на основе нейронных сетей с бинарной функцией выхода2009 год, кандидат технических наук Занин, Дмитрий Евгеньевич
Алгоритмическое и программное обеспечение региональной системы контекстной рекламы в среде Интернет2008 год, кандидат технических наук Силич, Василий Викторович
Математическое и программное обеспечение полнотекстового поиска в базах данных на основе концептуального моделирования2012 год, кандидат технических наук Колосов, Алексей Павлович
Заключение диссертации по теме «Математические и инструментальные методы экономики», Евсюткин, Александр Сергеевич
3.5. Выводы по Главе 3
В третьей главе разработка системы интеллектуального контента началась с выделения функциональных модулей на базе Интернет-портала, поскольку, варьируя набор модулей, можно дополнять или ограничивать функциональность информационного портала, для максимального соответствия потребностям пользователей.
Создаваемая система формирования интеллектуального контента на базе Интернет-портала состоит из трёх основных компонентов: Удалённый сервер, Автоматизированное рабочее место администратора системы и Автоматизированное рабочее место пользователя, соединение между которыми будет осуществляться через сеть Интернет.
Кроме того, компонентами информационной системы могут являться локальные вычислительные сети любых заинтересованных организаций, в которые будут объединяться АРМ пользователей информационной системы, работающих в данных организациях, ЛВС должны будут построены по принципу клиент-сервер, а сервер должен иметь подключение к сети Интернет.
Поскольку была поставлена задача автоматизированного реферирования, реализация и поддержка узкоспециализированных парсеров не применимы в качестве решения проблемы. С целью универсального решения разработан новый метод извлечения значимого текста из html.
Первоначально для извлечения значимого текста из html документа была произведена разбивка документа на множество частей (строки, абзацы, параграфы) с последующим подсчетом количества html разметки в каждой части. При анализе большого количества документов разной тематики, выбранных случайным образом, было установлено, что количество html разметки в местах со значимым текстом, в разы меньше, чем в остальных частях исходного документа, а также, что изобилие JavaScipt и html-комментариев на порядок снижает качество реферата. Поэтому было принято решение удалять их еще до начала реферирования.
Для отбора значимого текста от «мусора» необходимо включить в реферат те строки, в которых коэффициент отношения длины html разметки к длине строки меньше заданной константы, которую назовем константой отбора (const). После чего была построена математическая модель формирования интеллектуального контента.
После анализа результата стал заметен главный недостаток примененной модели: в тексте сохранилась подпись (теги). Кроме этого, могут быть пропущены строки значимого текста, если в данной строке оказалось очень много разметки или сама строка была слишком короткой. Данный недостаток не отвечает требованию универсальности предложенного метода. Поэтому, с целью улучшения фильтрации текста, было решено рассматривать не только текущую строку, но и соседние с ней.
С этой целью применен метод машинного обучения, а именно нейронная сеть. Основная идея состоит в том, чтобы при проверке очередной строки на наличие значимого текста, обратиться к предварительно натренированной на тестовом наборе данных нейронной сети.
Для решения задачи была выбрана простая нейронная сеть с прямым распространением ошибки, а в качестве активирующей функции, с целью введения нелинейной зависимости, гиперболический тангенс.
Для выбора оптимальной конфигурации нейронной сети применяется алгоритм прореживания, позволяющий последовательно упрощать, либо усложнять нейронную сеть, в поисках варианта с наименьшей ошибкой. В итоге лучшие результаты получились с нейронной сетью из трех невидимых уровней, с семью нейронами в первых двух и с тремя в последнем. Стоит отметить, что слишком большое количество невидимых уровней позволит слишком точно настроить сеть на конкретные данные, что в итоге скажется на ухудшении результатов работы алгоритма.
В результате анализа созданной нейронной сети получились следующие параметры: количество ложных срабатываний 0.3%, количество пропусков события 0%. На 100% данный алгоритм назвать универсальным нельзя, потому что он зависит от тренировочного набора данных, однако, в процессе тестирования, зарекомендовал себя неплохо для решения задачи формирования интеллектуального контента.
Поскольку тестовой площадкой для внедрения системы выбраны органы самоуправления муниципальных образований и субъекты бизнеса, были построены организационные диаграммы Администрации города Реутов Московской области и ООО «Социально-деловой центр «Интициатива» в качестве примера. После чего была выделена структура классов пользователей и прав доступа при эксплуатации системы формирования интеллектуального контента.
В итоге была рассчитана трудоемкость создания системы формирования интеллектуального контента и оценена экономическая эффективность от внедрения данной системы.
Таким образом, при ожидаемой команде разработчиков из 5 человек, 8-часовом рабочем дне и 5-дневной рабочей неделе система формирования интеллектуального контента будет готова через 4 месяца с учётом добавления месяца для непредвиденных ситуаций.
Внутренняя норма доходности системы формирования интеллектуального контента составит 23 %, что намного выше нормы дисконта, которая при расчётах принималась равной 12 %, срок окупаемости составит 1,5 года.
Заключение
Сегодня Интернет стал привычной средой обитания для человечества, ведь большинство людей проводит во Всемирной сети хотя бы несколько часов в день. Во второй половине XX века человечество осознало, что информация не менее, а даже более важный фактор социального развития, чем вещество, энергия и другие ресурсы.
Овладение нарастающими массивами и потоками информации с помощью новых специализированных технологий превратилось в широкомасштабный проект информатизации общества. Информатизация призвана стать основанием кардинальной трансформации качества и уровня жизнедеятельности человека. Подлинное информационное общество должно обеспечить правовые и социальные гарантии того, что каждый гражданин общества, находящийся в любом пункте в любое время, сможет получать всю необходимую для его жизнедеятельности и решения, стоящих перед ним проблем, информацию. Если таких гарантий нет, то общество не может считаться информационным.
Различие в уровне информационного обеспечения сегодня становится одной из причин дисбаланса экономического развития передовых и слаборазвитых стран, порождает нестабильность в отношениях между странами. Сложный, противоречивый характер взаимодействия в системе «человек — информация», обусловлен природой информации как таковой. При этом все возрастающее значение приобретает управляющая функция информации и растет зависимость общества от информационной среды.
Рассмотрение и анализ существующих методов и моделей, лежащих в основе современных информационно-поисковых систем, показали, что ни одна из них не лишена недостатков, а, кроме того, из-за изобилия контекстной рекламы поиск существенно осложняется, а релевантность снижается.
Указанные недостатки осложняются еще и тем, что сегодня главной задачей всех поисковых систем является максимальная коммерческая выгода, что противоречит основной задаче информационного поиска, заключающейся в помощи пользователю в удовлетворении его информационной потребности.
Для пользователя же сегодня в жестких условиях конкуренции скорость и полнота выполнения запросов выходят на первое место.
На российском рынке поиска информации доля использования поисковых систем распределена следующим образом: подавляющее большинство представлено двум поисковиками («Яндекс» с долей рынка 46,3% и «Google» - 34,4%). Высокий процент использования сразу двух поисковых систем на отечественном рынке объясняется во многом индивидуальной и непохожей друг на друга выдачей. Это связано с использованием и постоянным совершенствованием алгоритмов индексации, ранжирования и расчета релевантности.
Проанализировав работу современных поисковых систем и дав им сравнительную характеристику, становится понятным, что однозначного выбора в отношении того или иного поисковика быть не может, поскольку каждый из них обладает рядом индивидуальных особенностей и возможностей.
Прежде чем останавливать свой выбор на том или ином поисковике, следует разграничить зарубежный и отечественный рынки поиска. Это связано с особенностями российской модели развития ИТ, а также с особенностями законодательства, подхода к созданию Интернет-ресурсов и финансированию научной деятельности в сфере информационных технологий.
В рамках диссертационного исследования была рассмотрена проблема качества информационного поиска, выделены и проанализированы такие показатели оценки качества поиска, как точность, полнота, выпадение, были установлены зависимости между данными характеристиками. Были выделены составные части современных поисковых систем, такие как поисковый робот, индекс, клиент, а так же рассмотрены современные алгоритмы ссылочного ранжирования, применяемые поисковой машиной для определения релевантности документа запросу пользователя.
Кроме того, была предложена концепция экологичсекого подхода к поиску, строящаяся на следующих основных принципах:
1. Изучение взаимодействия человека с поисковыми системами на основе мониторинга состояния информационной среды.
2. Осуществление прогноза возможных последствий внедрения новых информационных технологий во все сферы человеческой деятельности.
3. Невостребованная информация как продукт жизнедеятельности человека загрязняет окружающую среду.
4. При поиске тематического Интернет-ресурса должны соблюдаться следующие условия:
• Четко обозначенный предмет Интернет-ресурса
• Четко выраженный и обособленный перечень целевых групп, для которых предназначается ресурс
• Обозначены основные вопросы, которым соответствует запрашиваемый ресурс
• Собственно информация, соответствующая интересу пользователя
5. Создание научно-методических рекомендаций по обязательному проведению информационно-экологической экспертизы поисковых систем, а также самих Интернет-ресурсов, хранящихся в индексе.
Становится очевидно, что необходимо совершенствовать средства и методы поиска информации. Проведенное научное исследование предлагает
1 1 КУ с« эффективный концептуальный, алгоритмический, математическии, модельный и методический инструментарий для реализации системы формирования интеллектуального контента. Дальнейшие исследования в данном направлении представляются перспективными в контексте совершенствования предложенной модели формирования интеллектуального контента и повышения релевантности поиска информации в распределенных телекоммуникационных сетях.
Список литературы диссертационного исследования кандидат экономических наук Евсюткин, Александр Сергеевич, 2012 год
Список литературы
1. Абрамзон М., Яндекс для всех. — СПб : БХВ-Петербург, 2007.
2. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: классификация и снижение размерности. — М : Финансы и статистика, 1989.
3. Аксак В.А., Жизнь в сети с @MAil.Ru. Шаг за шагом. — М : Эксмо, 2008.
4. Ашманов И.С., Иванов A.A. Продвижение сайта в поисковых системах. — М : Вильяме, 2007.
5. Байков В.Д., Интернет. Поиск информации. Продвижение сайтов. — СПб : БХВ-Петербург, 2000.
6. Беркинблит М.Б., Нейронные сети. — М : МИРОС, 1993.
7. Бонгард М.М., Проблема узнавания. — М : Наука, 1967.
8. Брюхомицкий Ю.А., Нейросетевые модели для систем информационной безопасности. — Таганрог : ТРТУ, 2005.
9. Вейзе A.A., Методика обучения реферативному переводу. — Минск : ИТКНАНБ, 1980.
10. Вейзе A.A., Чтение, реферирование и аннотирование иностранного текста: Учебное пособие. — М : Высшая школа, 1985.
11. Вороновский Г.К., Махотило К.В., Петрашев С.Н., Сергеев С.А. Генетические алгоритмы, искусственные нейронные сети и проблемы виртуальной реальности. — X : ОСНОВА, 1997.
12. Голуб Дж., Ван Лоун Ч. Матричные вычисления. — М : Мир, 1999.
13. Горбань А.Н., Обучение нейронных сетей. — М : СССР-США Параграф, 1990.
14. Губин М.В., Модели и методы представления текстового документа в системах информационного поиска: дис. ... канд. физ-мат. наук : 05.13.11 : защищена 22.01.2005. — СПб, 2005. — С. 90.
15. Гуруге А., Корпоративные порталы на основе XML и Web-служб. — М : Кудиц-Образ, 2006.
16. Гусев B.C., Яндекс: эффективный поиск информации в Интернет. Краткое руководство. — М : Диалектика, 2007.
17. Дюк В., Самойленко А. Data Mining: учебный курс. — СПб : Питер, 2001.
18. Евсюткин A.C., Анализ систем управления контентом. // Материалы третьей ежегодной научно-практической конференции "Информационные бизнес системы". — Москва : Академия IBS, 2011. — С. 188-191. — 0,4 п.л.
19. Евсюткин A.C., Интеллектуальные технологии поддержки современного бизнеса. // Вестник университета. — Москва : ГУУ, 2011. — 19. — С. 169-171.-0,3 п.л.
20. Евсюткин A.C., Формирование интеллектуального контента при поисковом запросе. // Вестник университета. — Москва : ГУУ, 2011. -— 21.— С. 39-42. — 0,3 п.л.
21. Евсюткин A.C., Формирование контента на базе CMS Drupal. // Материалы 15-ой Всероссийской научно-практической конференции "Актуальные проблемы управления - модернизация и инновации в экономике". — Москва: ГУУ, 2010. — С. 39-46. — 0,4 п.л.
22. Еремин Д.М., Гарцеев И.Б. Искусственные нейронные сети в интеллектуальных системах управления. — M : МИРЭА, 2004.
23. Журавлев Ю.И., Рязанов В.В., Сенько О.В. Распознавание. Математические методы. Программная система. Практические применения. — M : Фазис, 2006.
24. Загоруйко Н.Г., Методы анализа данных. — Новосибирск : Ин-т математики, 1999.
25. Загоруйко Н.Г., Прикладные методы анализа данных и знаний. — Новосибирск : ИМ СО РАН, 1999.
26. Зиновьев А.Ю., Визуализация многомерных данных. — Красноярск : КГТУ, 2000.
27. Карпова Т.С., Базы данных: Модели, разработка, реализация. — СПб : Питер, 2002.
28. Колисниченко Д.Н., Поисковые системы и продвижение сайтов в Интернете. — M : Диалектика, 2007.
29. Колисниченко Д.Н., Самоучитель PHP 5. — СПб : Наука и Техника, 2006.
30. Колков А.И., К вопросу становления информационно-экологической системы. // Информационные ресурсы России. —М, 2000. — 4. — С. 23-27.
31. Круглов В.В., Борисов В.В. Искусственные нейронные сети. — M : Горячая линия - Телеком, 2001. — 1-е.
32. Кузнецов М.В., Симонов И.В., Голышев C.B. PHP Практическая разработка web-сайтов. — СПб : БХВ-Петербург, 2006.
33. Ландэ Д.В., Поиск знаний в Internet. — M : Диалектика, 2005.
34. Мак-Каллок У.С., Питтс В. Логическое исчисление идей, относящихся к нервной активности = A logical calculus of the ideas immanent in nervous activity. — M : Автоматы, 1956. — С. 363-384.
35. Мандель И.Д., Кластерный анализ. — М : Финансы и статистика, 1988.
36. Маннинг К., Рагхаван П., Шютце X. Введение в информационный поиск. — М : Вильяме, 2011.
37. Мизинцева М.Ф., Королева JI.M., Бондарь В.В. Информационная экология и вопросы теории и практики развития информационного общества // Технологии информационного общества — Интернет и современное общество: Материалы Всерос. объединенной конф. Санкт-Петербург, 20-24 нояб. 2000 г. — СПб, 2000. — С. 292.
38. Минский М., Пейперт С. Персептроны = Perceptrons. — М : Мир, 1971.
39. Миркес Е.М., Логически прозрачные нейронные сети и производство явных знаний из данных. // Нейроинформатика. — Новосибирск : Наука, 1998.
40. Миркес Е.М., Нейрокомпьютер. — Новосибирск : Наука, 1999.
41. Миркес Е.М., Нейрокомпьютер. Проект стандарта. — Новосибирск : Наука, 1999.
42. Некрестьянов И.С., Тематико-ориентированные методы информационного поиска : дис. ... канд. физ-мат. наук : 05.13.11 : защищена 21.03.2000. —СПб, 2000, —С. 123.
43. Олдендерфер М.С., Блэшфилд Р.К. Факторный, дискриминантный и кластерный анализ / ред. Енюкова И.С.,. — М : Финансы и статистика, 1989.
44. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям. — СПб : Питер, 2009.
45. Пирогов C.B., Обзорных крупных проектов. // Электронная коммерция. — Москва, 2002. — С. 61-69.
46. Попов В., Практикум по Интернет - технологиям: учебный курс. — СПб : Питер, 2003.
47. Роберт К., Основные концепции нейронных сетей = The Essence of Neural Networks First Edition. —M : Вильяме, 2001. — 1-е.
48. Розенблатт Ф., Принципы нейродинамики: Перцептроны и теория механизмов мозга = Principles of Neurodynamic: Perceptrons and the Theory of Brain Mechanisms. — M : Мир, 1965.
49. Савельев A.B., На пути к общей теории нейросетей. К вопросу о сложности. // Нейрокомпьютеры: разработка, применение. — M : Радиотехника, 2006. — 4. — С. 4-14.
50. Саймон X., Нейронные сети: полный курс = Neural Networks: А Comprehensive Foundation. — M : Вильяме, 2006. — 2-е.
51. Соловьев А.Н., Моделирование процессов понимания речи с использованием латентно-семантического анализа : дис. ... канд. физ-мат. наук : 05.13.11 : защищена 12.03.2008. — СПб, 2008. — С. 165.
52. Солтон Д., Динамические библиотечно-поисковые системы. — M : Мир, 1979.
53. Терехов В.А., Ефимов Д.В., Тюкин И.Ю. Нейросетевые системы управления. — M : Высшая школа, 2002. — 1-е.
54. Уоссермен Ф., Нейрокомпьютерная техника: Теория и практика = Neural Computing. Theory and Practice. — M : Мир, 1992.
55. Уоссермен Ф., Нейрокомпьютерная техника: Теория и практика = Neural Computing. Theory and Practice. — M : Мир, 1992.
56. Федоровский А.Н., Костин М.Ю. Mail.ru на РОМИП-2005 // Труды третьего российского семинара по оценке методов информационного поиска / ред. Некрестьянова И.С.,. — СПб : СПбГУ, 2005. — С. 106-124.
57. Хайдуков Д.С., Применение кластерного анализа в государственном управлении. // Философия математики: актуальные проблемы. — М : МАКС Пресс, 2009.
58. Хайкин С., Нейронные сети: Полный курс = Neural Networks: А Comprehensive Foundation. — М : Вильяме, 2006. — 2-е.
59. Хеменвей К., Калишейн Т. Взломы Web-узлов. — М : ЭКОМ, 2006.
60. Чубукова H.A., Data Mining: учебное пособие. — М : БИНОМ, 2006.
61. Шапцев В.А., Информационная экология человека. Постановка проблемы. // Математические структуры и моделирование. — М : ИТК, 1999, —3. —С. 125-133.
62. Шлезингер М., Главач В. Десять лекций по статистическому и структурному распознаванию. — Киев : Наукова думка, 2004.
63. Шуметов В.Г., Шуметова J1.B. Кластерный анализ: подход с применением ЭВМ. — Орел : ОрелГТУ, 2000.
64. Яковлев С.С., Система распознавания движущихся объектов на базе искусственных нейронных сетей. — Минск : ИТК НАНБ, 2004. — С. 230234.
65. Ясницкий J1.H., Введение в искусственный интеллект. — М : Академия, 2005, — 1-е.
66. Abramson В., Control Strategies for Two-Player Games // ACM Computing Surveys. — 1989, —21.
67. Christopher D.M., Prabhakar R., Hinrich S. An Introduction to Information Retrieval Draft. — Cambridge University Press, 2005.
68. Deerwester S., Dumais S.T., Furnas G.W., Landauer Т.К., Harshman R. Indexing by Latent Semantic Analysis // Journal of the American Society for Information Science. — 1990. — 41. — C. 391-407.
69. Edwards D.J., Hart T.P. The Alpha-Beta Heuristic. — Massachusetts Institute of Technology, 2006.
70. Gorban A.N., Mirkes E.M., Tsaregorodtsev V.G. Generation of Explicit Knowledge from Empirical Data through Pruning of Trainable Neural Networks // Proc. IJCNN'99. — Washington, 1999.
71. Hassibi В., Stork D.G. Second order derivatives for network pruning: Optimal brain surgeon // NIPS. — 1993. — 5.
72. Hastie Т., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining. Inference and Prediction. — Springer-Verlag, 2009. — 2nd.
73. Ishikawa S., Structural learning with forgetting // Neural Networks. — 1996. —C. 509-521.
74. Jain, Murty Flynn Data clustering: a review // ACM Comput. Surv.. — 1999. —31.
75. Knuth D.E., Moore R.W. An Analysis of Alpha-Beta Pruning // Artificial Intelligence. — 1975. — 6. — C. 293-326.
76. Kussul E., Baidyk Т., Kasatkina L., Lukovich V. Перцептроны Розенблатта для распознавания рукописных цифр = Rosenblatt Perceptrons for Handwritten Digit Recognition. — IEEE, 2001.
77. Landauer Т., Dumais S.T. A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition. Induction and Representation of Knowledge. //
Journal of the American Society for Information Science. — 1997. — 56. — C. 211-240.
78. Landauer T., Foltz P.W., Laham D. Introduction to Latent Semantic Analysis // Discourse Processes. — 1998. — 25. — C. 259-284.
79. LeCun Y., Denker J.S., Solla S.A. Optimal brain damage // Advances in Neural Information Processing Systems. — San Mateo : CA, 1990. — C. 598-605.
80. Lemaire B., Denhiere G. Cognitive Models based on Latent Semantic Analysis. —Paris, 2003.
81. Marsland T.A., Computer Chess Methods. — Wiley & Sons, 2006. — C. 159171.
82. McCarthy J., Human Level AI Is Harder Than It Seemed in 1955 // Retrieved. — 2006.
83. Miller D.A., Zurada, J.M. A dynamical system perspective of structural learning with forgetting // IEEE Transactions on Neural Networks. — 1998. — 9, —C. 508-515.
84. Mozer M.C., Smolensky P. Skeletonization: a technique for trimming the fat from a network via relevance assessment // Advances in Neural Network Information Processing Systems. — Morgan Kaufmann, 1989. — C. 107-115.
85. Newell A., Simon H.A. Computer Science as Empirical Inquiry: Symbols and Search // Communications of the ACM. — Retrieved, 2006. — 19.
86. Russell S.J., Norvig P. Artificial Intelligence: A Modern Approach. — New Jersey : Pearson Education, 2010.
87. Russell S.J., Norvig P. Artificial Intelligence: A Modern Approach. — New Jersey : Prentice Hall, 2001.
88. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval // Information Processing & Management. — 1988. — 24. — C. 513-523.
89. Salton G., Fox E.A., Wu H. Extended Boolean information retrieval // Commun. ACM. — 1983. — 26.
90. Salton G., McGill M.J. Introduction to modern information retrieval // McGraw-Hill. — 1983.
91. Sietsma J., Dow R.J. Neural net pruning — why and how. — San Diego : С A, 1988.
92. Stormo G.D., Schneider T.D., Gold L., Ehrenfeucht А. Использование перцептрона для выделения сайтов инициации в Е. coli = Use of the 'Perceptron' algorithm to distinguish transational initiation sites in E. coli // Nucleic Acids Research. — 1982.
93. Защита прав и свобод граждан в сфере информационных технологий. — 11 январь 2012 г. — www. 146uk.ru.
94. Интеллектуальная поисковая система Нигма. — 20 ноябрь 2011 г. — www.nigma.ru.
95. Маркетинговая группа Newmann Bauer. — 24 ноябрь 2011 г. — www.nbmarketing.ru.
96. Местное самоуправление от Екатерины Великой до современности. — 6 декабрь 2011 г. — www.amo.ru.
97. Московская область РФ. Администрация города Реутова. — 6 декабрь 2011 г. — www.reutov.net.
98. О ПРОГРАММИРОВАНИИ, АЛГОРИТМАХ И НЕ ТОЛЬКО. — 23 октябрь 2011 г. — www.algorithmist.ru.
99. Рамблер. — 20 ноябрь 2011 г. — www.rambler.ru.
100. РосБизнесКонсалтинг. — 3 февраль 2012 г. — www.rbc.ru.
101. Хабрахабр. — 16 январь 2012 г. —www.habrahabr.ru.
102. Экологический Интернет. — 6 декабрь 2011г. — www.reutovonline.ru.
103. Энциклопедия поисковых систем. — 14 январь 2012 г. — www. searchengines .ru.
104. Яндекс. — 20 ноябрь 2011 г. — www.yandex.ru.
105. @Mail.ru. — 20 ноябрь 2011 г. — www.mail.ru.
106. Drupal - Open Source CMS. — 14 январь 2012 г. — www.drupal.org.
107. Google. — 20 ноябрь 2011 г. — www.google.com.
108. Liveinternet Статистика. — 23 декабрь 2011 г. — www.liveinternet.ru.
109. PHP. — 14 январь 2012 г. — www.php.org.
110. phpMyAdmin. — 10 декабрь 2011 г. — www.phpmyadmin.net.
111. Rasmussen Reports. — 24 ноябрь 2011 г. — www.rasmussenreports.com.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.