Система поиска текстовых документов на основе автоматически формируемого электронного каталога тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Борисюк, Федор Владимирович

  • Борисюк, Федор Владимирович
  • кандидат технических науккандидат технических наук
  • 2010, Нижний Новгород
  • Специальность ВАК РФ05.13.18
  • Количество страниц 120
Борисюк, Федор Владимирович. Система поиска текстовых документов на основе автоматически формируемого электронного каталога: дис. кандидат технических наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Нижний Новгород. 2010. 120 с.

Оглавление диссертации кандидат технических наук Борисюк, Федор Владимирович

Введение.^.

Глава I. Общая характеристика проблемы тематического ранжирования, на основе автоматически построенного электронного каталога текстовых документов.

1.1 Предлагаемая математическая модель поиска по ключевым словам с тематическим ранжированием.

1.2 Предлагаемая математическая модель автоматического построения электронного каталога.

1.3 Постановка задачи текстовой кластеризации.

1.4 Обзор существующих алгоритмов текстовой кластеризации.

1.4.1 Алгоритмы кластеризации, использующие критерий квадратичной ошибки.:.

1.4.2 Алгоритмы основанные на технологии нейронных сетей.

1.4.3 Алгоритмы кластеризации, основанные на концепции плотности.

1.4.4 Алгоритмы, основанные на теории графов.

1.4.5 Иерархические алгоритмы, строящие бинарное дерево.

1.4.6 Алгоритм кластеризации основанный на суффиксном дереве.

1.4.7 Методы нечеткой кластеризации.

1.5 Оценка качества кластеризации текстовой коллекции.

1.6 Оценка качества ранжирования поисковых результатов.

1.7 Постановка задачи формирования информационных образов текстовых документов.

1.8 Морфологический анализ.

1.9 Обзор методов статического анализа формирования информационных образов документов.

1.9.1 Критерий порога частоты встречаемости слова в документах коллекции.

1.9.2 Критерий информационного веса слова в рубрике.

1.9.3 Критерий прироста информации.

1.10 Оценка важности терминов по формуле TF-IDF.

Выводы по главе 1.

Глава II Разработка математической модели поиска по ключевым словам с тематическим ранжированием на основании автоматического построения электронного каталога текстовых документов.

2.1 Подготовка информационных образов текстовых документов.

2.2 Построение инвертированного индекса.

2.3 Иерархическая кластеризация по областям текстовых документов.

2.3.1 Инициализация алгоритма иерархической кластеризации по областям.

2.3.2 Этап обработки входящего потока документов.

2.3.3 Критерий качества уровня дерева.

2.3.4 Операция разделения области.

2.3.5 Операция интеграции подобластей.

2.3.6 Анализ вычислительной сложности алгоритма иерархической кластеризации по областям.

2.4 Преобразование иерархии кластеров в иерархию электронного каталога

2.5 Построение вербального описания иерархического каталога.

2.6 Описание выбранной технологии распределенного программирования MapReduce.

2.7 Параллельная реализация построения информационных образов текстовых документов.

2.8 Параллельная реализация алгоритма иерархической кластеризации по областям текстовых документов.

2.9 Поиск по ключевым словам с тематическим ранжированием, на основе электронного каталога.

Выводы по главе II.

Глава III. Программная реализация системы поиска с тематическим ранжированием, на основе автоматически построенного электронного каталога

3.1 Структура программного комплекса поисковой системы с тематическим ранжированием, на основе автоматически построенного электронного каталога.

3.1.1 Компонент построения иерархической структуры каталога.

3.1.2 Компонент построения образов текстовых документов.

3.1.3 Компонент поиска с тематическим ранжированием результатов.

3.1.4 Компонент алгоритмов параллельного построения электронного каталога.

3.2 Описание тестовых текстовых коллекций.

3.3 Выбор параметров алгоритма иерархической кластеризации по областям

3.4 Результаты испытаний предлагаемой математической модели автоматического построения электронного каталога.

3.4.1 Результаты испытаний последовательных версий разработанных алгоритмов.

3.4.2 Исследование предлагаемого способа формирования описания кластеров.

3.4.3 Результаты испытаний параллельных версий разработанных алгоритмов.

3.5 Результаты испытаний качества работы предлагаемого алгоритма тематического ранжирования.

Выводы по главе III.

Выводы.

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Система поиска текстовых документов на основе автоматически формируемого электронного каталога»

В настоящее время в различных хранилищах знаний (электронных и традиционных) накоплены огромные массивы информации. При этом по причине больших объемов информации, ее слабой структурированности, представления в неэлектронном виде, получение актуальной и полной информации по конкретной теме является достаточно сложным, а также бесполезной становится, большая часть накопленных информационных ресурсов из-за их необозримости. Можно отметить, что решение конкретной научной задачи требует высоких трудозатрат по поиску и анализу информации по теме. Поэтому, в связи с выше сказанным, возникает задача эффективного структурирования, хранения, обработки и поиска в информационных массивах.

Традиционными подходами к решению данной задачи являются: классификационный поиск и поиск по ключевым словам. К классификационному поиску относится поиск с использованием различных тематических классификаторов, рубрикаторов, электронных каталогов, которые позволяют искать (автоматически или вручную) документы в небольшом подмножестве исходной коллекции документов по интересующей' пользователя тематике. Рубрикатор (электронный каталог) обычно представляет собой множество рубрик, объединенных в иерархию. К каждой рубрике приписываются соответствующие ее тематике документы. В настоящее время распространены два вида рубрикации. -ручной и автоматизированный. При ручном процессе рубрикации при добавлении в каталог нового документа его нужно вручную проанализировать и определить, к каким рубрикам каталога он относится, после этого документ становится доступным для поиска. Среди традиционных ручных методов каталогизации можно выделить универсальные библиотечные классификаторы, например, УДК [1], ГРНТИ[2], ББК[3]. Данные классификаторы имеют фиксированную структуру и зачастую не поддерживают высоких темпов развития различных областей знаний в науке и технике, а также требуют высоких временных затрат на адаптацию классификаторов, и классификацию по ним документов. 6

Существуют автоматизированные системы поддержки рубрикатора, в которых для каждой рубрики хранится множество признаков, используя которые программа определяет, какой рубрике соответствует анализируемый документ. Можно выделить два существующих класса поддержки автоматизированных систем поддержки каталогов: а) методы, основанные на знаниях, когда список признаков для каждой рубрики составляется экспертом; б) методы, основанные на алгоритмах машинного обучения, которые автоматически извлекают признаки документов на основании подготовленного экспертами обучающего множества (заранее подготовленного множества отрубрицированных документов). Разработками в данной сфере занимались такие исследователи как М. С. Агеев [4], И. С. Некрестьянов [5], В. И. Шабанов [6], Т. Joachims [7], D. D. Lewis [8], Н. Schutze [9], F. Sebastiani [10], S. Т. Dumais [11], P. Bennett [12] и ряд других. Основным недостатком существующих автоматизированных систем является их статичность и невозможность автоматически, без участия эксперта перестроить сформированный ранее каталог. Для примера, трудоёмкость описания рубрик для первого класса методов составляет до 8 человеко-часов^ на одну рубрику [13].

При втором способе поиска пользователь вводит ключевые слова, отражающие его информационную-потребность. При этом результатом поиска, как правило, является достаточно-большое количество документов, среди которых пользователь должен выбрать нужные. Отметим, что одно и то же ключевое слово может соответствовать разным понятиям, поэтому результат поиска заведомо избыточен. Кроме этого, пользователь может ввести ключевые слова не соответствующие интересующему его документу. Для улучшения качества выдаваемых поисковых результатов не так давно появилось новое направление в области информационного поиска поюпочевым словам — поиск поюпочевым словам с использованием категориальной- информации подготовленных вручную электронных каталогов. Среди наиболее известных работ можно выделить работы P. Bennett [14], S. Т. Dumais [15], R. White [15], М. Daoud [16], В. Xiang 7

17]. В данных работах использовался созданный и поддерживаемый группой экспертов-волонтеров по всему миру каталог ODP (Open Directory Project) [18]. Исследователям удалось повысить качество выдаваемых поисковых результатов за счет их тематического ранжирования, когда наиболее важные по тематике документы помещаются алгоритмом ранжирования выше в списке результатов. Однако, исследователи применяли тематическое ранжирование с заранее предопределенным набором тематических групп, а также использовали помощь экспертов при подготовке обучающего множества алгоритма ранжирования, поэтому для применения данного подхода на конкретной области знаний требуется подготовка соответствующего классификатора. Как было замечено, подготовка нового или адаптация существующего классификатора является достаточно затратной, поэтому требуется применение новых, более эффективных методов подготовки электронных тематических каталогов.

Среди известных подходов к решению задачи автоматического построения иерархического каталога можно выделить работы О.В. Песковой [19], а также Tao Li и Shenghuo Zhu [20], D.R. Cutting [63]. В данных работах использовались алгомеративные (построение иерархии снизу вверх) алгоритмы текстовой кластеризации построения иерархической структуры каталога. Однако в данных работах не предполагалось использование автоматически сформированного каталога в задаче тематического ранжирования. Предложенные в данных работах методы автоматического построения^ электронного каталога обладают высокой вычислительной трудоемкостью, что является существенным минусом при учете объемов накопленных текстовых данных. Также можно отметить, что в настоящее время уже невозможно иметь эффективную инфраструктуру без использования распределенных вычислений. Предложенные в упомянутых работах подходы не предлагают распределенных программных решений. Поэтому требуется разработать эффективные методы текстовой кластеризации, которые смогли бы автоматически строить электронный каталог, и позволяли распределенную поддержку больших коллекций текстовых документов. 8

Таким образом, актуальной является задача создания новых математических моделей информационного поиска по ключевым словам с тематическим ранжированием результатов поиска, на основе автоматически построенного с использованием методов автоматической каталогизации (способных без участия человека строить электронные каталоги заданных коллекций текстовых документов) электронного каталога.

Цель работы

Цель работы заключается в создании математических моделей и методов поиска по ключевым словам с тематическим ранжированием, на основе электронного каталога заданных коллекций текстовых документов (автоматически построенного с использованием разработанных алгоритмов текстовой кластеризации).

Для достижения данной цели были поставлены и решены следующие задачи:

- проведены исследования подходов к извлечению текстовых признаков документов, и обзор существующих алгоритмов текстовой кластеризации;

- разработаны последовательные и параллельные варианты предложенного метода иерархической текстовой кластеризации, учитывающие недостатки существующих подходов.

- разработаны последовательные и параллельные варианты алгоритмов извлечения текстовых признаков;

- разработана математическая модель поиска с тематическим ранжированием, на основе автоматически построенного электронного каталога;

- разработана модель автоматического построения электронного каталога, на основе предложенного в работе алгоритма иерархической кластеризации по областям;

- разработана программная система поиска (поисковая система) на основе математической модели поиска по ключевым словам с тематическим ранжированием, на основе автоматически построенного электронного каталога текстовых документов;

- проведено исследование эффективности и качества работы предложенных математических моделей, и алгоритмов с использованием разработанной программной системы.

Методы исследований, достоверность и обоснованность результатов.

Для решения поставленных задач были использованы методы математического моделирования, системного анализа, методы математической статистики, кластерного анализа. Эффективность разработанных алгоритмов оценивалась с помощью математических методов анализа алгоритмов. В разработке программного обеспечения применялись методы объектно-ориентированного программирования с использованием инструментов интегрированной среды разработки Eclipse [21]. Для разработки параллельных версий алгоритма использовались программные средства платформы для распределенных вычислений Apache Hadoop [22].

Достоверность и обоснованность результатов подтверждается корректностью разработанных математических моделей, согласованностью данных экспериментов и научных выводов, сделанных в работе, результатами апробации алгоритмов и разработанной программной системы.

Научная новизна

В работе предложена новая математическая модель поиска по ключевым' словам с тематическим ранжированием результатов поиска, на основе автоматически построенного электронного каталога заданных коллекций текстовых документов (без ограничения на тематику и размер исходной текстовой коллекции).

В рамках реализации этой модели разработаны:

• Новый метод тематического ранжирования, основанный на автоматически построенном электронном каталоге.

• Новую математическую модель автоматического построения электронного

10 каталога, основанную на предложенном в работе методе текстовой кластеризации - иерархическая кластеризации по областям текстовых документов, учитывающем недостатки существующих методов иерархической текстовой кластеризации (разработаны последовательные и параллельные варианты предложенного метода кластеризации).

• Методы извлечения текстовых признаков (разработаны последовательные и параллельные варианты предложенных методов), используемые для построения индекса текстовой коллекции, необходимого во время кластеризации и поиска.

Практическая значимость работы

Предложенные в работе новая математическая модель информационного поиска по ключевым словам с тематическим ранжированием, математическая модель автоматического построения электронного каталога, и алгоритмы тематического ранжирования могут быть использованы в качестве поисковой системы по специализированным коллекциям научной литературы, и электронным хранилищам библиотек.

Внедрение

Произведена апробация и внедрение предложенных в данной работе математических моделей и методов поиска по ключевым словам с тематическим ранжированием, на основе автоматически' построенного электронного каталога, в качестве поисковой системы с тематическим ранжированием по статьям журнала "Вестник Нижегородского государственного университета им. Н.И. Лобачевского" (http://www.unn.ru/e-library/vestnik.html) на интернет-портале Нижегородского государственного университета им. Н.И. Лобачевского.

Апробация результатов

Результаты диссертации докладывались и обсуждались на всероссийской конференции «Технологии Microsoft в теории и практике программирования 2009» (ДНовгород, 2009 г.) [23], международной научно-практической

11 конференции по графическим информационным технологиям и системам «КО-ГР АФ-2009» (Н.Новгород,2009), 9-й международной конференции "Высокопроизводительные параллельные вычисления на кластерных системах" (Владимир, ВлГУ, 2009) [24], всероссийской' научной школе' для молодежи "Управление информационными ресурсами образовательных, научных и производственных организаций" (Магнитогорск, Магнитогорский государственный университет, 2009) [25], всероссийской конференции «Технологии Microsoft в теории и практике программирования' 2010» (Н.Новгород, 2010) [26], международном коллоквиуме SYRCoSE (Н.Новгород, 2010) [27], на семинаре кафедры математического обеспечения-ЭВМ факультета ВМК ННГУ.

Основные положения, выносимые на защиту

• Новая математическая модель информационного поиска по ключевым словам с тематическим ранжированием, основанная на использовании автоматически построенного электронного каталога.

• Новая математическая- модель автоматического построения электронного каталога текстовых документов без. ограничения на тематику и размер исходнойтекстовой коллекции:

• Новый метод текстовой* кластеризации - иерархическая кластеризация по областям текстовых документов, учитывающий недостатки существующих алгоритмов иерархической текстовой кластеризации. Последовательные и параллельные версии предложенного алгоритма.

• Архитектура и функциональные возможности разработанной программной системы.

• Результаты проведенных вычислительных экспериментов, подтверждающих работоспособность предлагаемого подхода к автоматическому построению электронного каталога. Публикации и личный вклад автора.

Основное содержание диссертации нашло отражение в 6 опубликованных научных работах, в том числе 1 статья в рецензируемом издании, рекомендованном ВАК РФ. Также, принята в печать научная статья "Распределенная реализация построения индекса поискового каталога" в №1 (2011 г.) журнала Вестник ИНГУ им. Н.И. Лобачевского, входящего в список ВАК. Результаты совместных научных работ [23,24,27,28], использованные в диссертационной работе, принадлежат лично автору диссертации.

Структура и объем работьг

Работа состоит из введения, трех глав, заключения, списка литературы. Общий объем работы составляет 115 страниц. Список литературы составляет 68 наименований. Основные результаты излагаются в главах 2 и 3.

Краткое содержание работы

Во введении обосновывается актуальность задачи создания новых моделей информационного поиска по ключевым словам с тематическим ранжированием результатов поиска, на основе автоматически построенного электронного каталога, сформулированы цели и задачи исследования. Приводится краткий обзор содержания диссертации.

В первой главе производится описание предлагаемой математической модели поиска по ключевым словам с тематическим ранжированием (раздел 1.1), которое основано на использовании автоматически построенного электронного каталога коллекции текстовых документов. В части 1.2 первой главы производится описание предлагаемой математической модели автоматического построения электронного каталога. Построение электронного каталога производится автоматически с использованием предложенного в работе алгоритма иерархической кластеризации по областям текстовых документов.

В частях 1.3-1.4 первой главы приводится постановка задачи текстовой кластеризации, и производится обзор и анализ существующих алгоритмов текстовой кластеризации. В части 1.5-1.6 первой главы производится обзор

13 общепринятых методов оценки результатов текстовой кластеризации и методов оценки полученного ранжирования поисковых результатов. В частях 1.7-1.10 первой главы диссертации производится постановка задачи формирования образов текстовых документов, производится обзор существующих методов формирования информационных образов текстовых документов, их анализ и выбор оптимального подхода. Во второй главе приводится описание разработанных автором алгоритмов построения образов текстовых документов, алгоритмов автоматического построения электронного каталога, а также, алгоритмов тематического' ранжирования, основанных на автоматически построенном электронном каталоге.

Функционирование предлагаемой математической модели поиска по ключевым словам с тематическим ранжированием можно разбить на следующие этапы:

• Индексирование текстовой коллекции, включающее: подготовку информационных образов текстовых документов; построение инвертированного индекса текстовой коллекции (в индексе каждому слову (списку слов) будет соответствовать некоторый список документов, его содержащих). автоматическое формирование электронного каталога заданной» текстовой коллекции:

• иерархическая кластеризация по областям текстовых документов;

• преобразование иерархии кластеров в иерархию электронного каталога;

• автоматическое формирование названий и описания для сформированных кластеров автоматически построенного электронного каталога.

• Поиск и тематическое ранжирование документов с использованием построенного индекса текстовой коллекции.

Для применения предложенных последовательных алгоритмов формирования иерархического каталога больших коллекций текстовых документов были разработаны их параллельные версии:

• В части 2.7 второй главы данной работы представлено описание распределенной версии алгоритма подготовки образов текстовых документов.

• В части 2.8 второй главы кандидатской диссертации представлена реализация параллельной версии алгоритма иерархической кластеризации по областям текстовых документов, которая позволяет масштабировать решение задачи на необходимое количество вычислительных узлов.

В части 2.9 второй главы диссертации представлено описание алгоритмов тематического ранжирования, основанных на автоматически построенном электронном каталоге.

В третьей главе приводится описание архитектуры разработанной программной системы, реализующей предлагаемые математические модели и методы поиска по ключевым словам с тематическим ранжированием,, на основе электронного каталога заданных коллекций-текстовых документов, автоматически построенного с использованием предлагаемого в работе алгоритма текстовой кластеризации. Приведено описание тестовых текстовых коллекций и результаты испытаний,предлагаемого метода автоматического построения электронного каталога^ исследование качества тематического ранжирования результатов поиска по ключевым словам.

Программная поисковая система по ключевым словам с тематическим ранжированием, на основе автоматически построенного- электронного каталога, разработана с использованием технологий объектно-ориентированного анализа с использованием инструментов интегрированной среды разработки Eclipse и платформы для распределенных вычислений Apache Hadoop:

Разработанная программная система- состоит из четырех основных компонент:

• Компонент построения иерархической структуры каталога;

• Компонент поиска с тематическим ранжированием результатов;

• Компонент построения информационных образов документов;

• Компонент алгоритмов параллельного построения электронного каталога.

По; итогам проведенных исследований; предлагаемый« способ автоматического формирования электронного каталога показал результаты, превосходящие по качеству и скорости существующие подходы. Проведенное экспериментальное исследование предложенного-в работе алгоритма текстовой^ кластеризации, на;; котором основано построение иерархии электронного каталога, на> различных; коллекциях реальных текстовых данных показало высокое качество кластеризации; текстов (лучший результат по сравнению с 3 другим® алгоритмами, способными« строить иерархические структуры);.

Результаты апробации представленных в настоящей работе параллельных версий алгоритмов индексирования и» иерархической? кластеризации по областям показали линейное ускорение в зависимости от количества задействованных вычислительных узлов. Таким образом, в результате применения используемой в настоящей работе парадигмы.распределенных вычислений1 МарКес1исе удалось существенно сократить время построения; индекса коллекции текстовых документов и проведения^ кластеризации текстовых данных.

Используя введенный критерий? оценки'качества ранжирования (КБ(1!(3@10 [30]), были проведены численные эксперименты по измерению качества работы предлагаемых алгоритмов ранжирования на коллекции научных статей журнала "Вестник Нижегородского государственного университета им. Н.И. Лобачевского", которые показали превосходство предлагаемого алгоритма ранжирования по сравнению с базовым алгоритмом Okapi ВМ25 [31].

По итогам проведенных исследований предлагаемый способ тематического ранжирования, на основе автоматически построенного электронного каталога, показал результаты, превосходящие по качеству и скорости существующие подходы. Таким образом, предложенная математическая модель поиска с тематическим ранжированием, на основе автоматически построенного электронного каталога удовлетворяет всем требованиям, вытекающим из цели исследования.

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Борисюк, Федор Владимирович

Основные результаты кандидатской диссертации:

1) Разработана новая математическая модель информационного поиска с тематическим ранжированием, основанным на автоматически построенном электронном каталоге. Предложенные методы тематического ранжирования показали улучшение качества ранжирования результатов поиска от 1% до Л 5,6% по метрике NDCG@10.

2) Разработана новая математическая модель автоматического построения электронного каталога текстовых документов без ограничения на тематику и размер исходной текстовой коллекции.

3) Предложен новый метод текстовой кластеризации - иерархическая» кластеризация по областям текстовых документов, учитывающий недостатки существующих алгоритмов иерархической текстовой кластеризации. Разработаны последовательные и параллельные версии предложенного алгоритма. Проведенные испытания' показали преимущество в качестве предложенного алгоритма иерархической кластеризации по областям по сравнению с тремя традиционными алгоритмами кластеризации. Улучшение качества кластеризации составило от 9 % до 22% по метрике F1'.

4) Разработаны параллельные версии алгоритмов извлечения текстовых признаков и иерархической кластеризации по областям текстовых документов. Проведенные эксперименты показали линейное ускорение в зависимости от количества вычислительных узлов.

5) Разработан метод автоматического выбора названия и описания для сформированных кластеров автоматически построенного электронного каталога.

6) Разработан, апробирован и внедрен в качестве поисковой системы по публикациям программный комплекс, реализующий предложенную математическую модель поиска по ключевым словам с тематическим ранжированием, основанным на использовании предложенного подхода к автоматическому построению электронного каталога.

Список литературы диссертационного исследования кандидат технических наук Борисюк, Федор Владимирович, 2010 год

1. Государственный рубрикатор научно-технической информации.

2. Всероссийский институт научной и технической информации. 5-е изд. - М.: ВИНИТИ, 2001.-391 с.

3. Сукиасян Э.Р. Новые таблицы Библиотечно-библиографической классификации. Организация и технология использования. Методические рекомендации. М.: Либерея, 2005. - 96 с.

4. Универсальная десятичная классификация. УДК: сокр. изд. М.: . ВИНИТИ РАН, 2006. - 148 с.

5. Агеев М.С. Автоматическая рубрикация текстов: методы и проблемы.

6. Агеев М.С., Добров Б.В., Лукашевич Н.В. // Ученые записки Казанского Государственного Университета. Серия Физико-математические науки. -2008 Том 150, книга 4 - с.25-40.

7. Добрынин В. Ю. Оценка тематического подобия текстовых документов. / В. Ю. Добрынин, В.В. Клюев, И. С. Некрестьянов

8. Электронные библиотеки: перспективные методы и технологии: Труды второй всероссийской научной конференции. Санкт-Петербург, 2000. - с. 54-62.

9. Андреев A.M. Модели и методы автоматической классификации текстовых документов. / Андреев А.М.,Березкин Д.В.,Сюзев В.В., Шабанов В.И. // Вестник МГТУ. Сер. Приборостроение. М.:Изд-во МГТУ.- 2003.- №3.

10. Т. Joachims. Transductive Inference for Text Classification using Support Vector-Machines. International Conference on Machine Learning // Proceedings of the Sixteenth International Conference on Machine Learning, 1999. p. 200 -209.

11. Sebastiani F. Machine Learning in Automated Text Categorization // ACM Computing Surveys. 2002. - Vol. 34, No. 1. - 47 p.

12. Dumais S. T. "Hierarchical classification of web content" / Dumais S. T., Chen H. //Proceedings ofSIGIR'00. 2000. p. 256-263:

13. Bennett P.N. Classification-Enhanced Ranking. / Bennett P.N., Svore K., Dumais S.T. // Proceedings of the 19th Annual International World Wide Web Conference (WWW* 10). Raleigh, NC. April 2010. P. 111-120.

14. Daoud M. Using a concept-based user context for search personalization. / Daoud M., Tamine-Lechani L., Boughanem M. Electronic resource. Access mode: ftp://ftp.irit.MMT/SIG/DaoudMariamICDMKE,08.pdf

15. Biao Xiang. Context-aware ranking in web search./ Biao Xiang, Daxin

16. Jiang, Jian Pei, Xiaohui Sun, Enhong Chen, Hang Li. // In SIGIR '10: Proceeding of the 33 rd international ACM SIGIR conference on Research and development in information retrieval (2010), pp. 451-458.

17. Open directory project. Electronic resource. Access mode: http://www.dmoz.org/

18. Пескова О. В. Разработка метода автоматического формирования рубрикатора полнотекстовых документов: Дис. . канд. техн. наук: 05.13.17. — Москва, МГТУ им. Н. Э. Баумана. 2008.

19. Tao Li. Hierarcical document classification using automatically generated hierarchy. / Tao Li, Shenghuo Zhu. // Journal of Intelligent Information Systems, V. 29, Issue 2,2007, p. 211 230.

20. The Eclipse Foundation. Electronic resource. Access mode: http://www.eclipse.org/

21. Apache Hadoop project. Electronic resource. Access mode: http://hadoop.apache.org/

22. Борисюк Ф.В. Иерархическая кластеризация по областям текстовых документов. / Борисюк Ф.В., Швецов В.И. // Материалы всероссийской конференции Технологии Майкрософт в теории и практике программирования 2009, с. 48-54.

23. Борисюк Ф.В. Параллельная реализация иерархической кластеризации« по областям текстовых документов. // Материалы всероссийской конференции Технологии Майкрософт в теории-и практике программирования 2010, с. 38-40.

24. BorisyukF.V. Adaptation of Hierarchical clustering by areas for automatic construction of electronic catalogue. / Borisyuk F.V., Shvetsov V.I. // SYRCoSE. 2010; -p. 141-145.

25. Борисюк Ф.В. Новый метод поиска на основе иерархической кластеризации по областям текстовых документов. / Борисюк Ф.В., Швецов В.И. // Вестник ННГУ им. Н.И. Лобачевского, 2009, № 4, с. 165-171.

26. Словарь по-естественным наукам. Глоссарий.ру - Электрон, дан.- -- Режим доступа: www.glossary.ru, свободный.

27. Search Engine Land industry online publication site. Electronic resource. Accessmode: http://searchengineland.com/search-illustrated-search-engine-click-thru-behavior-youve-got-to-be-in-the-top-ten-11883

28. Марков А. Концепция построения электронного архива.// Открытые системы. 1997.- №1. -с. 54-58

29. С. А. Айвазян. Прикладная статистика: Классификация и снижение размерности: Справ, изд. / С. А. Айвазян, В. М. Бухштабер, И. С. Еню-ков, JI. Д. Мешалкин; Под. ред. С. А. Айвазяна. М.: Финансы и статистика, ' 1989. - 607с.: ил.

30. Halkidi М. On Clustering Validation Techniques / M. Halkidi, V. Batistakis, M. Vazirgiannis // Journal of Intelligent Information Systems, Kluwer Academic Publishers. Manufactured in The Netherlands. 2001. - 17:2/3. - P. 107-145.

31. MacQueen J. B. Some Methods for classification and Analysis of Multivariate Observations// Proceedings of5-th Berkeley Symposium on

32. Mathematical Statistics and Probability. Berkeley, 1967. - Vol. 1. - P. 281-297.

33. Arthur D. How Slow is the k-Means Method? / Arthur D., Vassilvitskii S. // Proceedings of the twenty-second annual symposium on Computational geometry table of contents, Sedona, Arizona, USA. 2006. p. 144-153.

34. Mendes M.E.S. Dynamic Knowledge Representation for e1.arning Applications / Mendes M.E.S., Sacks L. // Proc. of the 2001 BISC International Workshop on Fuzzy Logic and the Internet, FLINT'2001. Berkeley, 2001.-P. 176-181.

35. Kohonen T. Self organization of a massive document collection

36. T. Kohonen, S. Kaski, K. Lagus, J. Salojarvi, J. Honkela, V. Paatero, A. Saarela // IEEE Transactions on neural networks. 2000. - Vol. 11, No. 3. - P. 574 - 585.

37. Ester M. A Density-Based Algorithm for Discovering Clusters in1.rge Spatial Databases with Noise / M. Ester, H.-P .Kriegel, J. Sander, X. Xu

38. Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining (KDDL96). Portland, 1996. - P. 226-231.

39. Zheng Xiao-Shen Algorithm of documents clustering based on minimum spanning tree / Zheng Xiao-Shen, He Pi-Lian, Tian Mei, Yuan Fu-Yong // International Conference on Machine Learning and Cybernetics. Xi-an, 2003.-Vol. l.-P. 199-203.

40. Manning C. D., Schutze H. Foundations of statistical natural language processing. Cambridge: MIT Press, 1999. - 620 p.

41. Zamir O. E. Clustering Web Documents: A Phrase-Based Method for Grouping-Search Engine Results Electronic resource. Electronic text and" graphic data. - 1999. - Access mode:http://turing.cs.washington:edu/papers/zamirthesis.pdf.

42. Nurminen M. ExtMiner: combining multiple ranking and-clustering algorithms for structured document retrieval / M. Nurminen, A. Honkaranta,

43. T. Karkkainen // Proceedings of Database and Expert Systems Applications, 2005. Sixteenth International Workshop on. Copenhagen, 2005. - P. 1036-1040.

44. E. Ukkonen. On-lme constoction of suffix trees. Electronic resource. . Access mode:http://citeseerx.ist.psu:edu/viewdoc/download?doi=l 0; 1.1.74.8759&rep=rep 1 &ty pe=pdf:

45. Porter M.F. An Algorithm.for Suffix Stripping, Program, 14(3). 1980. p. 130-137

46. Jl B. Lovins; Development of a stemming algorithm. Mechanical Translation and Computational Linguistics 11.- 1968; p.22-31.

47. Bekkerman R. Using Bigrams in Text Categorization. / Bèkkerman R., Allan J. Electronic resource. 2003. - Electronic text and graphic data: - Access mode: www.cs.umass.edu/~ronb/papers/bigrams.pdf.

48. Mladenic D. Word sequences as features in textlearning. / Mladenic D., Grobelnik M. // Proceedings of the 17th Electrotechnical and Computer Science Conference. Ljubljana, 1998.-P. 145-148.

49. Tan Ch.-M. The Use of Bigrams to Enhance Text Categorization /Ch.-М. Tan, Y.-F. Wang, Ch.-D. Lee// Information Processing and Management. 2002. - Vol. 38 (4). - P. 529-546.

50. Губин M.B. Исследование качества информационного поиска с использованием пар слов / Губин М. В. // Научно-техническая информация. Сер.2. 2005. - №2. - С. 13-16.

51. Peng Н.С. Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy. / Peng H.C., Long F., Ding C. // IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, p. 1226-1238,2005.

52. Yang Y. A. Comparative Study on Feature Selection in Text Categorization: / Yang Y. A.,Pedersen J. O. // The Fourteenth International Conference on Machine Learning: Proceedings of ICML'97. San Francisco, 1997. - P. 412-420.

53. Luhn H.P. A statistical approach to mechanized encoding and search of library information. // IBM Journal of Research and Development. 1957. -№1.-P. 309-317.

54. Salton G. Weighting approaches in automatic textretrieval. / Salton G., Buckley C. // Information Processing and Management. -1988. Vol. 24(5). - P. 513-523.

55. The Porter stemming algorithm. Electronic resource. Access mode: http://tartarus.org/~martin/PorterStemmer/

56. Baeza-Yates R. Ribeiro-Neto B. Modern information retrieval. Reading, Massachusetts: Addison-Wesley Longman. 1999. p. 192.

57. Treeratpituk P. Automatically labeling hierarchical clusters. / Treeratpituk P., Callan J. // Proceedings of the 2006 international conference on Digital government research. 2006. P. 167-176

58. Труды РОМИП 2009. Российский семинар по оценке методов информационного поиска. Под ред. Некрестьянинова И.С. Санкт-Петербург: НУ ЦСИ. 2009. - 198 с.

59. Buckley С., Voorhees Е. Evaluating evaluation measure stability. // Proceedings of the SIGIR'00. 2000. p. 33-40.

60. А. Акт о внедрении результатов диссертации1. У'1 ВЕРЖДЛЮ» ^«УТВЕРЖДАЮ»проректор по информатизации и ' Проректор-по научной работедовузовской гюдгот овке у Г- Нижегорож^го государственногогосударственного *, ^ 'униием«^<Гим>>И1Л!обачсиского

61. З&нпепыакташ^ Н.И.Лобачевского • " • ' ' ' ( Гупбаюн С.Н.

62. Швецов в.и. ~: •; ^•„ /$* /{./О

63. АКТ о внедрении результатов диссертации «Система поиска текстовых документов на основе автоматически формируемогоэлектронного каталога»

64. Процесс внедрения проходил с 14 октября по 3 ноября 2010 г.

65. На момент подписания настоящего Акта система установлена на сервере Нижегородского университета по URL адресу http://www.unn.ru/e-library/vcslnik.html.

66. Начальник отдеда.телекоммуникаций ИНГУ ^-ЧрГ Горохов С.В.

67. Заведующий лабораторией WWW-серверов ¿C%t,fСоколова Е.И.1. Разработ'Н;1. Борискж Ф.В.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.