Терминологический поиск в коллекциях математических текстов тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Заикин, Данила Александрович

  • Заикин, Данила Александрович
  • кандидат науккандидат наук
  • 2014, Казань
  • Специальность ВАК РФ05.13.11
  • Количество страниц 125
Заикин, Данила Александрович. Терминологический поиск в коллекциях математических текстов: дис. кандидат наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Казань. 2014. 125 с.

Оглавление диссертации кандидат наук Заикин, Данила Александрович

Оглавление

Введение

Глава 1. Обзор литературы

1.1. Автоматическое извлечение терминологии

1.2. Использование терминологии в поисковых системах

1.3. Математически-ориентированные поисковые системы

1.4. Поиск по научным статьям

1.5. Выводы к первой главе

Глава 2. Автоматическое извлечение терминологии

2.1. Выбор метода автоматического извлечения терминологии

2.2. Автоматическое извлечение терминологии

2.3. Словари

2.4. Алгоритм автоматизированного построения словарей

2.5. Морфологический анализ

2.6. Ручное построение словарей

2.7. Автоматическое построение словарей

2.8. Практическая реализация автоматического извлечения терминологии

2.9. Использование контекста для выделения терминологических словосочетаний

2.10. Обработка дефисов при выделении специальной лексики

2.11. Выводы ко второй главе

Глава 3. Организация поиска

3.1. Формальная постановка задачи

3.2. Архитектура системы

3.3. Метаданные статей

3.4. Ранжирующие функции

3.5. Формирование XML-файла для Soir

3.6. Обработка запроса

3.7. Выводы к третьей главе

Глава 4. Оценки ключевых характеристик информационно-поисковой системы

4.1. Оценки сложности используемых алгоритмов

4.2. Оценки качества информационного поиска

4.3. Выводы к четвертой главе

Заключение

Список литературы

Приложение А. Таблицы

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Терминологический поиск в коллекциях математических текстов»

Введение

Актуальность темы исследования. Взрывообразный рост разнообразных публикаций в сети Интернет приводит к тому, что постоянно повышаются требования к информационно-поисковым системам [1]. Актуальность исследований в области информационного поиска также обусловлена тем, что при поиске информации в сети Интернет число документов, возвращаемых на запрос пользователя, как правило, получается очень большим за счет огромного числа нерелевантных документов, попавших в отклик. Например, в работе Чуна отмечается, что Google, фокусируясь на релевантности первых результатов, мало заботится о числе ответов и качестве низкоранжированных документов [2].

Однако для небольших текстовых корпусов, таких как литература по узкой специальности или архивы статей журналов, подход, ограничивающийся улучшением только первых результатов неприменим по причине малого общего числа документов в отклике [3]. В таком случае часто возникает ситуация, в которой пользователь поисковой системы просматривает все выданные ему результаты. Из-за этого исследователям приходится принимать во внимание точность всей выдачи поисковика, не имея возможности переложить решение проблемы на ранжирование.

В последние годы появились многочисленные поисковые сервисы, стремящиеся усовершенствовать поисковые технологии, выходя за рамки стандартного поиска по ключевым словам [4, 5j. Разработчики поисковых систем стали использовать более сложные модели представления документов для наиболее эффективного использования имеющихся в нем данных [6, 7].

Одним из направлений подобных исследований является использование специальной лексики (терминов или терминологических словосочетаний, которые в дальнейшем понимаются как синонимы) предметных областей для улучшения качества поиска [8, 9].

Цели и задачи диссертационной работы: Исследовать модели и методы организации информационного поиска в математических статьях с использованием специальной лексики предметной области. Изучить влияние способов использования информации о терминах в тексте на качество информационного поиска.

Для достижения поставленных целей были решены задачи:

• разработка метода автоматического извлечения терминов для задач информационного поиска;

• разработка алгоритма автоматической генерации приближения словаря терминов предметной области;

• извлечение метаданных и библиографических ссылок статей и их представление в виде связанных данных;

• разработка модели информационного поиска с использованием информации о терминах в тексте;

• построение прототипа системы поиска по терминам, работающего в режиме реального времени на базе полнотекстовой поисковой платформы;

• разработка функции ранжирования на основе метрики схожести терминологических словосочетаний в тексте и запросе;

• оценка эффективности полученных в ходе исследования алгоритмов;

• оценка качества поиска.

Научная новизна. Предложенный метод поиска отличается от предшествующих подходов к обработке научно-технических текстов тем, что фокусирует внимание на терминологических словосочетаниях статей для увеличения точности выдачи. Использование для ранжирования терминов, выделенных в

тексте, позволяет получить результаты, превосходящие уровень существующих решений поставленной задачи.

Разработанный подход к извлечению терминологии имеет высокий показатель полноты результатов для математических текстов, при этом допуская перенос на другие естественно-научные области.

Теоретическая и практическая значимость. Возможность использования разработанных моделей извлечения специальной предметной лексики и моделей использования извлеченных терминов для организации информационного поиска в текстах соответствующей предметной области составляет теоретическую значимость исследования. Проведенные сравнения эффективности могут служить основанием для дальнейших исследований в данной области.

Практическая значимость работы заключается в разработке прототипа информационно-поисковой системы на основе построенных моделей и алгоритма поиска с использованием специальной лексики предметной области. Прототип может быть использован в качестве поискового сервиса для корпуса текстов узкой предметной области, например архива статей научного журнала.

Положения, выносимые на защиту: В работе получены следующие основные результаты:

1. Разработан алгоритм автоматической генерации приближения словаря русскоязычных терминов предметной области по корпусу статей этой предметной области и общенаучному словнику. Исследовано влияние различных статистических фильтров на качество автоматического построения словников. Разработан метод автоматического выделения терминологических словосочетаний с использованием данных словников.

2. Разработана модель информационного поиска, использующая специальную лексику для улучшения качества результатов в отклике. Получены оценки сложности алгоритмов.

3. Разработан алгоритм обхода web-интерфейсов научных публикаций для сбора метаданных с последующим их представлением в виде связанных данных. Разработана функция ранжирования, базирующаяся на схожести терминологических словосочетаний в тексте и запросе. Проведено сравнение данной функции с распространенными функциями ранжирования документов применительно к задаче информационного поиска по корпусу научных статей.

4. Реализован прототип информационно-поисковой системы для корпуса математических статей с использованием разработанных методов и принципов1. Проведены оценки эффективности алгоритмов и качества работы поиска.

Степень достоверности и апробация результатов. Основные результаты диссертации докладывались на следующих конференциях: Казанская школа по компьютерной и когнитивной лингвистике TEL-2009, TEL-2012 (Казань, 2009, 2012), Интернет и современное общество (Санкт-Петербург, 2010), Научная сессия МИФИ-2011 (Москва, 2010), Системный анализ и семиотическое моделирование SASM-2011 (Казань, 2011), Шестая Российская конференция молодых ученых по информационному поиску RuSSIR-2012 (Ярославль, 2012), Итоговая научная конференция КФУ (Казань, 2010-2012).

Также результаты освещались на республиканском научном семинаре КНИ-ТУ «Методы моделирования», семинарах КФУ «Когнитивное моделирование и компьютерная лингвистика» и «Актуальные информационные технологии».

Публикации. Материалы диссертации опубликованы в 10 печатных работах, из них 3 статьи в рецензируемых журналах в изданиях, рекомендованных ВАК РФ [10-12], 1 включена в реферативную базу данных Scopus [13], 5 статей в сборниках трудов конференций [14-18] и 1 тезис доклада [19].

1 Прототип доступен по адресу: http://searchsh.zapto.org/ Исходные коды доступны по адресу: https: //github.com/ksugltronteal / search .sh /

В публикации [17] вклад автора заключается в извлечении метаданных статей и обработке библиографических ссылок. В статьях [12, 13] автору принадлежит основополагающий вклад в части построения библиографически связанной коллекции и преобразования метаданных в RDF. В работах [10, 15, 18, 19] все научные результаты принадлежат автору, Соловьевым В.Д. осуществлялись лишь постановки задач и редакторские правки.

Личный вклад автора. Все представленные в диссертации результаты получены лично автором.

Структура и объем диссертации. Диссертация состоит из введения, 4 глав, заключения и библиографии. Общий объем диссертации 125 страниц, из них 102 страниц текста, включая 21 рисунок. Библиография включает 122 наименования на 16 страницах.

Глава 1

Обзор литературы

1.1. Автоматическое извлечение терминологии

Задача выделения ключевых слов и терминов из текста возникает в библиотечном деле, лексикографии и терминоведении, а также в информационном поиске.

Термин - слово или словосочетание, точно и однозначно именующее понятие и его соотношение с другими понятиями в пределах специальной сферы. Термины служат специализирующими, ограничительными обозначениями характерными для этой сферы предметов, явлений, их свойств и отношений. В отличие от слов общей лексики, которые зачастую многозначны и несут эмоциональную окраску, термины в пределах сферы применения однозначны и лишены экспрессии [20].

Термины - это языковые представления понятий в определенной предметной области, обладающие специальной характеристикой: быть направленными на классификацию специальных знаний [21]. ,

Если выделять термины, руководствуясь этим правилом, то становится возможной только ручное выделение терминов силами экспертов предметной области. Это весьма трудозатратная операция, а с учетом современных информационных потоков и вовсе невозможная [22].

Автоматическое извлечение терминологии используется в большом числе различных приложений, таких как индексация в электронных библиотеках, построение индексов книг, категоризация текста, машинный перевод, построение специализированных словарей, а также для создания гипертекстовых ссылок [23].

Задача автоматического извлечения терминов имеет шесть основных под-

ходов к решению: словарный, основанный на правилах, статистический, опирающийся на машинное обучение, с использованием поисковых машин Интернета и гибридный (комбинация вышеперечисленных) [24].

1.1.1. Подходы, основанные на правилах

Данная группа подходов сосредотачивается вокруг построения списков правил, описывающих различные распространенные терминологические конструкции. Составляются, как правило, данные списки вручную, экспертами предметной области. Правила могут опираться как на простые орфографические и лексические признаки, так и на сложную морфологическую, синтаксическую и семантическую информацию. Системой в качестве терминов извлекаются слова или словосочетания, если они соответствуют какому-либо из заданных правил.

Существенным минусом подхода является его жесткая привязка на конкретные язык и предметную область [25]. Изменение любого из этих параметров требует составления новых правил, что, как правило, осуществляется вручную и весьма ресурсозатратно.

Например, в исследовании британских ученых [26] была построена четырехуровневая система морфологии для английского языка, основанная на происхождении медицинских терминов и правилах словообразования. Эти уровни представляют собой: образование основ в латинском языке, морфологические аффиксы латинского языка, морфологические аффиксы английского языка и естественное сочетание слов. Используя эти правила возможен автоматический разбор слов на компоненты, основываясь на котором делается вывод о принадлежности данного слова к терминологии.

1.1.2. Статистические подходы

Статистические подходы основаны на использовании информации о частотности слов и сочетаний слов в достаточно большом текстовом корпусе. После чего производится отбор терминов-кандидатов, базируясь на некоторой статистической метрике и специальных пороговых значениях. Популярными пороговыми метриками являются t — test, метрика х2, Log — likelihood(LL) и Pointwisemutualinformation(PMI) [27]. Отделение от общей лексики производится либо экспертами, либо автоматически с использованием контрастной коллекции.

Преимуществом данного подхода является отсутствие необходимости ручной работы экспертов для составления словарей и правил, что позволяет легко перенастраивать систему для различных видов исходных текстов и обрабатываемых предметных областей. Кроме того, данный метод не имеет ограничений связанных с конструкцией термина и его длиной, а также идентификацией новообразованной терминологической лексики.

Однако к настоящему моменту почти не существует удовлетворительных пороговых метрик для отсечения качественных терминов из списка терминов-кандидатов [28].

xTract

Например, авторы системы Xtract [29] использовали многоуровневый статистический подход. На первом шаге с помощью модуля разметки частей речи [30] текст разбивается на предложения, и формируются списки всех возможных пар слов, которые можно составить, не выходя за границы предложений. После этого собирается статистика по всей коллекции о встречаемости подобных терминов-кандидатов, и на выход подаются только те, что превышают некоторый заданный порог. Далее, полученные биграммы расширяются частотными словами из их контекстов до п-грамм-кандидатов.

На третьем шаге производится фильтрация кандидатов на основе морфологической информации, полученной парсером на первом шаге. Сравниваются морфологические конструкции построения словосочетаний и отсеиваются n-граммы, соответствующие малочастотным конструкциям.

1.1.3. Подходы на основе машинного обучения

В основе подхода лежит использование алгоритмов машинного обучения для задачи классификации. Рассматриваемыми классами служат термины и не термины, признаками - всевозможные орфографические, морфологические и синтаксические характеристики слов, а в качестве тренировочного множества, как правило, используются предметные указатели соответствующих области книг.

Основными проблемами данного подхода являются: необходимость выбора подходящих признаков для машинного обучения, сложность идентификации границ многословных терминов и сложность создания хороших тренировочных множеств [21].

Extracting the Names of Genes and Gene Products with a Hidden Markov Model (N. Collier, C. Nobata, and J. Tsujii)

Нобата и коллеги провели ряд экспериментов [31] по применению Скры- ' той Марковской модели (СММ) [32] для задачи автоматического извлечения терминологии из электронной базы данных медицинских статей MEDLINE1.

Для токенов в тексте вычислялись значения 23 различных признаков, после чего производилась классификация по 11 классам (из которых 10 - терминологические). В терминах СММ решение задачи формулируется как вычисление

/

максимальных значений Pr(C| < W, F >), где С - классы, W - слова, a F -признак.

1 http://www.nlm.nih.gov/databases/databases_medline.html

В качестве тренировочного множества использовались 100 аннотаций статей корпуса, вручную размеченные экспертом предметной области. В качестве .тестового множества бралось уже 3300 аннотаций.

Подбором различных настроечных параметров модели, а также выбором набора признаков F удалось достигнуть значения F — score = 0,728.

1.1.4. Словарные подходы

Словарный подход к автоматическому извлечению терминологии предполагает существование готовых терминологических ресурсов, например, специализированных словарей. В качестве терминов извлекаются такие слова или словосочетания, которые совпадают с какой-либо записью в одном из имеющихся терминологических ресурсов.

Существенным минусом данного подхода является его низкая чувствительность, так как значительное число терминов может быть не распознано по причине неполноты исходных словарей. Кроме того, все новообразованные термины (неологизмы) неизбежно будут пропущены. Сильнее всего эта проблема заметна для новых областей знания.

Особенностью рассматриваемого подхода является то, что он дает высокую полноту определения терминов, но при этом значительно теряет в точности. Например, в работе Хиршмана, Моргана и Йеха [33] при использовании базы данных «FlyBase» для автоматического извлечения медицинской терминологии были достигнуты результаты в 84% полноты и 2% точности.

Плохая точность в первую очередь вызвана большим количеством неправильно отобранных терминов-кандидатов маленькой длины, что может быть исправлено соответствующими фильтрами [34].

Boosting Precision and Recall of Dictionary-Based Protein Name Recognition (Yoshimasa Tsuruoka and Jun'ichi Tsujii)

Tsuruoka и Tsujii в своей работе [34] рассматривают задачу автоматического извлечения терминологии (названий протеинов) из корпуса медицинских текстов MEDLINE, используя в качестве основы составленный вручную словарь протеинов.

Авторы предлагают усовершенствование стандартного подхода с использованием расстояния Левенштейна [35] путем присвоения различных весовых значений в зависимости от типа изменения строк.

На основании этого сравнения в зависимости от значения функции сравнения слова заносятся в список терминов-кандидатов.

Полученный перечень терминов подвергается фильтрации с использованием Наивного Байесовского классификатора [36]. Алгоритм распределяет термины-кандидаты по классам «термин принят» и «термин отклонен» на основании 5 признаков, основанных на контексте.

В качестве тренировочного множества использовались 200 случайным образом выбранных аннотаций статей, размеченных с использованием онтологии GENIA [37]. Остальные 1800 размеченных статей использовались для оценки качества работы алгоритма.

С различными настройками порога для функции сравнения и наборами признаков для классификатора были получены результаты в 74,3% точности, 70,7% полноты и 70,2% F-меры.

1.1.5. Подходы с использованием поисковых систем

Распространенность и доступность поисковых машин Интернета в наши

дни позволяет использовать их в качестве инструмента для автоматического

/

решения других задач.

Специально сформированные запросы к поисковым системам используют-

ся для получения дополнительной информации, которой нет в исходном корпусе и других источниках информации (словарях, тезаурусах, онтологиях).

Как правило, используется следующая информация:

• число результатов на запрос:

— частотность отдельных слов;

— взаимная встречаемость пар слов;

— встречаемость длинных словосочетаний;

• текст в п первых поисковых сниппетах:

— сбор информации об окружении термина;

— встречаемость слова b по запросу а;

— нахождение более длинных вариантов термина;

• «близкие» слова (на основании сервисов «схожие запросы» и аналогичных) .

Полученная информация используется, как правило, в сочетании с каким-либо из вышеперечисленных подходов к автоматическому извлечению терминологии.

В исследовании Браславского и Соколова [38] указывается на значительную временную ресурсозатратность методики. В большой степени это связано с ограничениями, которые накладывают сами поисковые системы. Кроме того, точность результатов данного метода сильно зависит от предметной области (насколько контрастным является Web по отношению к рассматриваемому корпусу текстов) и не намного превосходит достигаемую другими методами.

В то же время в работе [39] отмечается очень низкая полнота результатов, полученных системой BootCaT [39], построенной на идее использования запросов к Google для улучшения качества извлечения терминов.

1.1.6. Гибридные подходы

К гибридным относятся подходы, комбинирующие несколько или все из вышеперечисленных методов. Как правило, один из алгоритмов выбирается как основной, а остальные служат как вспомогательные для лучшей фильтрации списков терминов-кандидатов или получения некоторой дополнительной информации.

В работе [40] проводился эксперимент по извлечению двухсловных терминологических словосочетаний на основе комбинирования трех видов признаков.

• Статистические признаки, построенные на основе текстовой коллекции предметной области: соотношения частот слов и словосочетаний, извлеченных из документов коллекции.

• Признаки, полученные на основе информации глобальной поисковой машины. Используется информация о встречаемости слов в 100 первых снип-петах поисковой машины Яндекс, полученных по специально сформулированным запросам.

• Признаки, полученные на основе заданного тезауруса предметной области (синонимия, полнота описания).

1.1.7. Терминологические словосочетания

В области авоматического извлечения терминологии принято различать выделение однословных (униграмм), двухсловных (биграмм) и многословных (п-грамм) терминов как различные задачи. Большинство подходов изначально направлено на обработку именно униграмм и биграмм, так как задача извлечения терминологических п-грамм неограниченной длины является гораздо более сложной задачей [41].

Зачастую задача решается путем нахождения некоторого способа расширения исходных полученных биграмм. Например, система хТгас1 [29] осуществ-

ляет переход от двусловий к терминологическим n-граммам путем нахождения предложений, содержащих исходную биграмму, с последующим формированием всех возможных для полученных предложений словосочетаний. После чего собирается статистика о встречаемости в коллекции собранных n-грамм и проводится фильтрация по более низкому, чем для исходных биграмм-кандидатов, порогу.

В работе Frantzi и Ananiadou [42] в качестве основной ставится проблема извлечения многословной терминологии произвольной длины. Для решения этой задачи авторами предложены специальные статистические метрики С — value, NC — value отдающие предпочтение более длинным терминологическим конструкциям, но также принимающие во внимание высокочастотные короткие.

1.2. Использование терминологии в поисковых системах

Системы автоматического извлечения терминологии, а также уже готовые терминологические словари и предметные тезаурусы уже достаточно давно применяются в информационном поиске [43]. В первую очередь они востребованы в областях связанных с предметно ориентированным информационным поиском (domain spécifié information retrieval). Авторы исследований опираются на то, что терминология предметной области несет большую информацию, чем сопровождающая ее общая лексика. Можно выделить несколько основных направлений применения словарей специальной лексики в поисковых системах:

• расширение запросов

Данное направление основывается на идее обогащения исходного запроса пользователя за счет использования информации из третьих источников и логических операций на языке запросов поисковой системы. Целью такого изменения запроса, как правило, является улучшение одного из двух основных параметров качества результатов - точности или полноты.

В работах [44, 45] терминологичечкие словари и тезаурусы используются для улучшения техники расширения запроса. Например, в статье [46] исходные ключевые слова запроса дополняются набором более узких формулировок из словаря, что приводит к улучшению полноты при несущественном падении точности результатов.

• межъязыковой поиск [47] в рамках предметной области

Задача предполагает, что язык, на котором пользователь обращается к поисковой системе, отличается от языка документов в ее индексе. Переход к конкретной предметной области и использование специальных словарей с терминологией позволяет устранить множество проблем с лексической многозначностью и улучшить результаты поиска.

В исследовании [48] применялись специальные словари юридической терминологии для межъязыкового поиска в архиве Шведских законов. Полученные результаты продемонстрировали, что подобный подход улучшает качество информационного поиска до того, что результаты запроса на другом языке выдаются не чуть не хуже, чем для запроса на языке оригинала.

Пиркола в своей статье [49] описал результат, согласно которому использование специальных предметных словарей с терминологией дает преимущество при межъязыковом поиске в области медицины.

• классификация текстов по предметным областям

Для подавляющего большинства документов в Вебе их принадлежность к той или иной предметной области заранее не установлена. Исключением являются создаваемые вручную каталоги (например, каталог Yahoo!2) и специализированные тематические сайты. В то же время, знание категории документа является необходимым условием для предметно-ориен-

2 Электронный каталог Yahoo! Directory http://dir.yahoo.com/

тированного поиска. Готовые предметные словари выступают в качестве метрик для классификации документов, либо как тренировочные данные для алгоритмов машинного обучения.

1

Например, в работе [50] авторы отказались от популярной модели «мешка слов» (Bag-of-Words) [51] и используют терминологические словосочетания в качестве критерия для машинного обучения. Избранный подход показал результаты, не уступающие распространенным алгоритмам, а в ряде ситуаций превосходящие их.

• извлечение ключевых фраз

Данное направление ставит перед собой целью формирование короткого выражения, представляющего собой важнейший информационный сегмент документа. Использование априорной информации о том, что терминология несет большую информационную ценность, чем общая лексика сужает область поиска и упрощает задачу.

Исследование, описанное в [52], основывалось на использовании наивного байесовского подхода к машинному обучению. В результате экспериментов, проведенных на большой коллекции технических отчетов в компьютерной области, было обнаружено, что качество выделенных ключевых фраз существенно улучшается, если обучение алгоритма производится на текстах предметной области и соответствующих терминологических словарях.

Авторы системы Keyphrase Identification Program (KIP) [53] отказались от популярной идеи использования машинного обучения для извлечения ключевых фраз и полагались на использование базы данных предметно-ориентированных словарей. Из текста извлекались все именные группы и соотносились с соответствующим словарем, согласно которому назначались веса ключевым фразам-кандидатам. В качестве результата система

выдает кандидаты с наибольшим значением весовой функции. Сравнение с несколькими существующими системами извлечения ключевых фраз показало, что использование терминологии дает заметное преимущество.

• улучшение ранжирования

Термины предметной области рассматриваются исследователями как некоторая характеристика для функции ранжирования. Как и в предыдущем случае подходы базируются на том, что термины несут большую информационную ценность, чем общая лексика.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Список литературы диссертационного исследования кандидат наук Заикин, Данила Александрович, 2014 год

Список литературы

1. Roberts L. G. Beyond Moore's Law: Internet Growth Trends // Computer. — 2000. - Vol. 33, no. 1. - P. 117-119.

2. Choon H. D., B. Rajkumar. Guided Google: A Meta Search Engine and its Implementation Using the Google Distributed Web Services // International Journal of Computers and Applications. — Vol. 26. — ACTA Press, 2004. — P. 181-187.

3. A Scalable Topic-Based Open Source Search Engine / W. Buntine, J. Lof-strom, J. Perkio et al. // Proceedings of the 2004 IEEE/WIC/ACM International Conference on Web Intelligence. — WI '04. — Washington : IEEE Computer Society, 2004. — P. 228-234.

4. Web-assisted annotation, semantic indexing and search of television and radio news / M. Dowman, V. Tablan, H. Cunningham, B. Popov // Proceedings of the 14th international conference on World Wide Web. — New York : ACM, 2005. - P. 225-234.

5. Koster C. H. A., Seibert O., Seutter M. The PHASAR search engine // Proceedings of the 11th international conference on Applications of Natural Language to Information Systems. — Berlin : Springer-Verlag, 2006.— P. 141-152.

6. Aggressive morphology and lexical relations for query expansion / W. A. Woods, S. Green, P. Martin, A. Houston // Proceedings of the Tenth Text REtrieval Conference (TREC-2001). — Gaithersburg, USA : National Institute of Standards and Technology, 2001. — P. 479-485.

7. Crivellari F., Melucci M. Web Document Retrieval Using Passage Retrieval, Connectivity Information, and Automatic Link Weighting-TREC-

9 Report // Proceedings of the Ninth Text REtrieval Conference (TREC-9). — Gaithersburg, USA : National Institute of Standards and Technology, 2000.-P. 611-627.

8. Johannsson D. V. Biomedical information retrieval based on document-level term boosting : Ph. D. thesis / D. V. Johannsson ; Norwegian University of Science and Technology. — 2009. — 69 p.

9. Модель семантического поиска в коллекциях математических документов на основе онтологий / Е.В. Биряльцев, A.M. Елизаров, Н.Г. Жильцов и др. // Труды 12й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL'2010. - Казань : ФГАОУ ВПО КФУ (Изд-во КФУ), 2010. — С. 296-300.

10. Заикин Д.А., Соловьев В.Д. Модификация метода поиска по ключевым словам в математических коллекциях // Вестник КГТУ им. А.Н. Туполева. - 2011. - № 1. - С. 136-141.

11. Заикин Д.А. Подход к ранжированию результатов для терминологического поиска // Ученые зап. Казан, ун-та. Серия физ.-мат. науки. — 2014.— Т. 156, № 1. - С. 12-21.

12. Прототип программной платформы для публикации семантических данных из математических научных коллекций в облаке LOD / Невзорова О.А., Жильцов О.А., Заикин Д.А. и др. // Ученые зап. Казан, ун-та. Серия физ.-мат. науки. - 2013. - Т. 154, № 3. - С. 216-232.

13. Bringing Math to LOD: A Semantic Publishing Platform Prototype for Scientific Collections in Mathematics / O. Nevzorova, N. Zhiltsov, D. Zaikin et al. // The Semantic Web - ISWC 2013. — Vol. 8218 of Lecture Notes in Computer Science. — Berlin : Springer, 2013. — P. 369-384.

14. Заикин Д.А. Построение словарей терминов для предметных областей // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2009. - Казань : Отечество, 2010. - С. 71-76.

15. Заикин Д.А., Соловьев В.Д. Сравнение эвристик формирования индекса в терминологическом поиске // Системный анализ и семиотическое моделирование: материалы первой всероссийской научной конференции с международным участивем (SASM-2011). — Казань : Изд-во «Фэн» Академии наук РТ, 2011.- С. 197-204.

16. Заикин Д.А. Метод извлечения метаданных статей из web-интерфейсов научных коллекций в терминах Linked Open Data // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2012. — Казань : Изд-во «Фэн» Академии наук РТ, 2012. — С. 93-101.

17. Khasanshin A., Zaikin D., Zhiltsov N. Indexing mathematical scholarly papers as Linked Open Data // Proceedings of the Sixth Russian Young Scientists Conference in Information Retrieval. — Yaroslavl, 2012. — P. 24-34.

18. Заикин Д.А., Соловьев В.Д. Терминологический поиск в коллекциях математических статей // Интернет и современное общество: Труды XIII Всероссийской объединенной конференции. — СПб. : МПСС, 2010. — С. 80-85.

19. Заикин Д.А., Соловьев В.Д. Новый алгоритм поиска по ключевым словам (на примере коллекции математических текстов) // Научная сессия МИФИ-2011. Труды. - Т. 3. - М. : МИФИ, 2011. - С. 59.

20. Лопатин В. В., Лопатина Л. Е. Русский толковый словарь : около 35000 слов. Библиотека словарей русского языка. — 4-е издание изд. — М. : Русский язык, 1997. — 832 с.

21. Ananiadou S., McNaught J. Text Mining for Biology and Biomedicine.— London : Artech House, 2006. — 286 p.

22. Bontas E., Mochol M. Towards a Cost Estimation Model for Ontologies // Proceedings of the 3rd Berliner XML Tage. — Berlin, 2005. — P. 153-160.

23. Hadjitofallis D. Automatic term recognition. Background report.— URL: homepages.cs.manchester.ac.uk/resources/library/thesis_ abstracts/BkgdReportsMSclO/Hadjitof allis-Demetris .pdf (online; accessed: 18.01.2013).

24. Frantzi K., Ananiadou S. Automatic Term Recognition using Contextual Cues // Proceedings of 3rd DELOS Workshop. — Zurich, 1997.- P. 8.

25. Krauthammer M., Nenadic G. Term Identification in the Biomedical Literature // Journal of Biomedical Informatics. — 2004. — Vol. 37, no. 6. — P. 512-526.

26. Ananiadou S. A methodology for automatic term recognition // Proceedings of Fifteenth International Conference on Computational Linguistics. — Kyoto : ICCL, 1994. - P. 1034-1038.

27. Dunning T. Accurate Methods for the Statistics of Surprise and Coincidence // Computational Linguistics. — 1993. — Vol. 19(1). — P. 61-74.

28. Korkontzelos I., Klapaftis I. P., Manandhar S. Reviewing and Evaluating Automatic Term Recognition Techniques // Advances in Natural Language Processing. — Vol. 5221 of Lecture Notes in Computer Science. — Berlin : Springer, 2008. — P. 248-259.

29. Smadja F. Retrieving Collocations from Text: Xtract // Computational Linguistics. - 1993. - Vol. 19(1). - P. 143-177.

30. Church K. Stochastic parts program and noun phrase parser for unrestricted text // Proceedings of Second Conference on Applied Natural Language Processing. — Austin : TX, 1988. — P. 136-143.

31. Collier N., Nobata C., Tsujii J. Extracting the Names of Genes and Gene Products with a Hidden Markov Model // Proceedings of the 18th conference on Computational linguistics. — Vol. 1. — Saarbruecken : ACL Press, 2000. — P. 201-207.

32. Baum L.E., Petrie T. Statistical inference for probabilistic functions of finite state Markov chains // The Annals of Mathematical Statistics. — 1966. — Vol. 37. — P. 1554-1563.

33. Hirschman L., Morgan A., Yeh A. Rutabaga by any other name: extracting biological names // Journal of Biomedical Informatics. — 2002. — Vol. 35, no. 4. — P. 247-259.

34. Tsuruoka Y., Tsujii J. Boosting Precision and Recall of Dictionary-Based Protein Name Recognition // Proceedings of the ACL-03 Workshop on Natural Language Processing in Biomedicine. — ACL Press, 2003. — P. 41-48.

35. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклады Академии наук СССР. — 1965. — Т. 163. — С. 845-848.

36. Domingos P., Pazzani М. On the Optimality of the Simple Bayesian Classifier under Zero-One Loss // Machine Learning. — 1997. — Vol. 29. — P. 103-137.

37. The GENIA corpus: An annotated research abstract corpus in molecular biology domain / T. Ohta, Y. Tateishi, H. Mima, J. Tsujii // Proceedings of the Human Language Technology Conference. — Elsevier Science Publishers В. V., 2002.-P. 73-77.

38. Браславский П. И., Соколов Е. А. Автоматическое извлечение терминологии с использованием поисковых машин интернета // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог'2007. - М. : Изд-во РГГУ, 2006. - С. 88-94.

39. Baroni M., Bernardini S. BootCaT: Bootstrapping Corpora anr Terms from the Web // Proceedings of LREC 2004. — Libson : ELDA, 2004. — P. 13131316.

40. Логачев Ю. M., Лукашевич H. В. Комбинирование признаков для автоматического извлечения терминов // Вычислительные методы и программирование. - 2010. - Т. И. - С. 108-116.

41. Ananiadou S., Frantzi К. A hybrid Approach to Term Recognition // Proceedings of NLP-flA. - 1996. - P. 93-98.

42. Frantzi K, Ananiadou S., Mima H. Automatic Recognition of Multi-Word Terms: the C-value/NC-value Method // International Journal on Digital Libraries. - 2000. - Vol. 3. - P. 115-130.

43. Voorhees E. M. Natural Language Processing and Information Retrieval // Information Extraction. — Vol. 1714 of Lecture Notes in Computer Science. — Berlin : Springer, 1999. — P. 32-48.

44. Greenberg J. Optimal query expansion (QE) processing methods with se-mantically encoded structured thesauri terminology // Journal of the American Society for Information Science and Technology. — 2001.— Vol. 52.— P. 487-498.

45. Hersh W., Price S., Donohoe L. Assessing thesaurus-based query expansion using the UMLS metathesaurus // Proceedings of the 2000 American Medical Informatics Association (AMIA) Symposium. — Philadelphia : Hanley к Belfus, Inc., 2000. - P. 344-348.

46. Greenberg J. Automatic query expansion via lexical-semantic relationships // Journal of the American Society for Information Science and Technology. - 2001. — Vol. 52. - P. 402-415.

47. Manning C. D., Raghavan P., Schütze H. Introduction to Information Retrieval. — Cambridge : Cambridge University Press, 2008. — 482 p.

48. Sheridan P., Schäuble P. Cross-Language Information Retrieval in a Multilingual Legal Domain // Proceedings of the First European Conference on Research and Advanced Technology for Digital Libraries. — Vol. 1324 of Lecture Notes in Computer Science. — Berlin : Springer, 1997. — P. 253-268.

49. Pirkola A. The Effects of Query Structure and Dictionary-Setups in Dictionary-Based Cross-language Information Retrieval // Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. — New York : ACM, 1998. — P. 55-63.

50. Bloehdorn S., Hotho A. Text classification by boosting weak learners based on terms and concepts // Proceedings of the Fourth IEEE International Conference on Data Mining. — IEEE Computer Society Press, 2004. — P. 331334.

51. Zhang Y., Jin R., Zhou Z.-H. Understanding bag-of-words model: a statistical framework // International Journal of Machine Learning and Cybernetics. - 2010. - Vol. 1. — P. 43-52.

52. Domain-Specific Keyphrase Extraction / E. M. Frank, G. W. Paynter, I. H. Witten et al. // Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence. — San Francisco : Morgan Kaufmann Publishers, 1999.- P. 668-673.

53. Domain-specific Keyphrase Extraction / Y. Wu, Q. Li, R. S. Bot, X. Chen // Proceedings of the 14th ACM international conference on Information and knowledge management. — New York : ACM, 2005. — P. 283-284.

54. Liu Y.-H. On the potential search effectiveness of MeSH (medical subject

/

headings) terms // Proceedings of the third symposium on Information interaction in context. — New York : ACM, 2010. — P. 225-234.

55. A Machine Learning Approach to Building Domain-Specific Search Engines / A. Mccallum, K. Nigam, J. Rennie, K. Seymore // Proceedings of the 16th International Joint Conference on Artificial Intelligence.— Vol. 2,— San Francisco : Morgan Kaufmann Publishers Inc., 1999. — P. 662-667.

56. Zhao J., Kan M.-Y., Theng Y. Math information retrieval: user requirements and prototype implementation // Proceedings of the 8th ACM/IEEE-CS joint conference on Digital libraries. — New York : ACM, 2008. — P. 187196.

57. Al-Tamimi M. E. Mathematical search for content mathml digital libraries : Ph. D. thesis / M. E. Al-Tamimi ; George Washington University. — Washington, USA : ProQuest, 2008. — 142 p.

58. Miner R., Munavalli R. An approach to mathematical search through query formulation and data normalization // Towards Mechanized Mathematical Assistants. — Vol. 4573 of Lecture Notes in Computer Science. — Berlin : Springer, 2007. — P. 342-355.

59. Libbrecht P., Melis E. Methods to access and retrieve mathematical content in activemath // Mathematical Software - ICMS 2006. — Vol. 4151 of Lecture Notes in Computer Science. — Berlin : Springer, 2006. — P. 331-342.

60. Kohlhase M., Sucan I. A search engine for mathematical formulae // Artificial Intelligence and Symbolic Computation. — Vol. 4120 of Lecture Notes in Computer Science. — Berlin : Springer, 2006.— P. 241-253.

61. Sojka P., Liska M. The art of mathematics retrieval // Proceedings of the 11th ACM symposium on Document engineering. — New York : ACM, 2011.- P. 57-60.

62. Adeel M., Cheung H. S., Khiyal S. H. Math GO! Prototype of a content based mathematical formula search engine // Journal of Theoretical and Applied Information Technology. — 2008. — Vol. 10. — P. 1002-1012.

63. Solovyev V., Zhiltsov N. Logical structure analysis of scientific publications in mathematics // Proceedings of the International Conference on Web Intelligence, Mining and Semantics. — New York : ACM, 2011. — P. 21:1-21:9.

64. Three options for citation tracking: Google Scholar, Scopus and Web of Science / N. Bakkalbasi, K. Bauer, J. Glover, L. Wang // Biomedical digital libraries. — 2006. — Vol. 3. — P. 1-8.

65. Comparison of PubMed, Scopus, Web of Science, and Google Scholar: strengths and weaknesses / M. E. Falagas, E. I. Pitsouni, G. A. Malietzis, G. Pappas // The FASEB Journal. - 2008. — Vol. 22. - P. 338-342.

66. Rasmussen E. Information Retrieval Challenges for Digital Libraries // Digital Libraries: International Collaboration and Cross-Fertilization.— Vol. 3334 of Lecture Notes in Computer Science. — Berlin : Springer, 2005. — P. 95-103.

67. Medeiros N. Introducing Scirus: Elsevier's shot at the title // OCLC Systems k Services. - 2002. — Vol. 18. - P. 121-124.

68. CiteSeerx: an architecture and web service design for an academic document search engine / H. Li, I. Councill, W.-C. Lee, C. L. Giles // Proceedings of the 15th international conference on World Wide Web. — New York : ACM, 2006. - P. 883-884.

69. Ramampiaro H., Li C. Supporting BioMedical Information Retrieval: The BioTracer Approach // Transactions on Large-Scale Data- and Knowledge-Centered Systems IV. - 2011. - Vol. 6990. — P. 73-94.

70. Giles C. L., Councill I. G. Who gets acknowledged: Measuring scientific contributions through automatic acknowledgment indexing // Proceedings of the National Academy of Sciences. — Vol. 101.— Washington : National Academy of Sciences, 2004. — P. 17599-17604.

71. Chua T. S., Liu J. Learning pattern rules for Chinese named entity extraction // Eighteenth national conference on Artificial intelligence.— Menlo Park, USA : American Association for Artificial Intelligence, 2002. — P. 411418.

72. Cristianini N., Shawe-Taylor J. An Introduction to Support Vector Machines and other kernel-based learning methods. — Cambridge, United Kingdom : Cambridge University Press, 2000. — 204 p.

73. Sato K., Saito H. Extracting word sequence correspondences with support vector machines // Proceedings of the 19th international conference on Computational linguistics. - Vol. 1 of COLING'02. — Stroudsburg, USA : ACL Press, 2002. - P. 1-7.

74. Takeuchi K., Collier N. Use of support vector machines in extended named entity recognition // Proceedings of the 6th conference on Natural language learning. — Vol. 20 of COLING'02. — Stroudsburg, USA : Association for Computational Linguistics, 2002. — P. 1-7.

75. Reference metadata extraction using a hierarchical knowledge representation framework / M. Y. Day, R. T.-H. Tsai, C. L. Sung et al. // Decision Support Systems. — 2007. — Vol. 43, no. 1. — P. 152-167.

76. Combining machine learning and human judgment in author disambiguation / Y. Qian, Y. Hu, J. Cui et al. // Proceedings of the 20th ACM international conference on Information and knowledge management. — CIKM'll. — New York : ACM, 2011.- P. 1241-1246.

77. Ramampiaro H. Retrieving BioMedical Information with BioTracer: Challenges and Possibilities // Proceedings of the Norsk Informatikk Konferanse (NIK 2009). — Trondheim, Norway : Tapir, 2009. — P. 49-60.

78. Sato S., Sasaki Y. Automatic collection of related terms from the web // Proceedings of the 41st Annual Meeting on Association for Computational Linguistics. — Vol. 2. — Stroudsburg, USA : Association for Computational Linguistics, 2003. — P. 121-124.

79. Враславский П., Соколов E. Сравнение пяти методов извлечения терминов произвольной длины // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4-8 июня 2008 г.)Г— Т. 7.- М. : РГГУ, 2008. — С. 67-74.

80. Settles В. Biomedical named entity recognition using conditional random fields and rich feature sets // Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications. — Stroudsburg, USA : Association for Computational Linguistics, 2004.— P. 104-107.

81. Bourigault D. Surface grammatical analysis for the extraction of terminological noun phrases // Proceedings of the 14th conference on Computational linguistics. — Vol. 3.— Stroudsburg, USA : Association for Computational Linguistics, 1992.—P. 977-981.

82. Математическая энциклопедия / Под ред. И. М. Виноградов, С. И. Адян, П. С. Александров и др. — М. : Советская энциклопедия, 1977.— Т. 1.— 1152 с.

83. Александров П.С. Англо-русский словарь математических терминов. — М. : Изд-во иностранной лит-ры, 1962.— 369 с.

84. Lohwater A.J., Boas R.P., Thorpe A.I. Russian-English Dictionary of the Mathematical Sciences. — Providence, USA : American Mathematical Societ, 1990. —343 p.

85. Segalovich I. A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine // Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications. — Las Vegas, USA : CSREA Press, 2003. — P. 273-280.

86. Сокирко А.В. Морфологические модули на сайте www.aot.ru // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог'2004. - М. : Наука, 2004. — С. 559-564.

87. Журнал «Проблемы передачи информации».— URL: http://www. mathnet.ru/ppi (дата обращения: 05.03.2013).

88. Теория кодов, исправляющих ошибки / Под ред. Ф.Дж. Мак Вильяме, Н.Дж.А. Слоэн. — М. : Радио и связь, 1979. — 744 с.

89. Журнал «Известия высших учебных заведений. Математика». — URL: http://www.mathnet.ru/ivm (дата обращения: 05.03.2013).

90. Russian spellcheck dictionary extension for LibreOffice.— URL: http://extensions.libreoffice.org/extension-center/ russian-spellcheck-dictionary.-based-on-works-of-aot-group (online; accessed: 08.03.2013).

91. Глава 11. Хеш-таблицы / Т. Кормен, Ч. Лейзерсон, Р. Ривест, К. Штайн // Алгоритмы: построение и анализ / Под ред. И. В. Красикова. — 2-е издание изд. — М. : Вильяме, 2005. — 1296 с.

92. Smiley D., Pugh D.E. Apache Solr 3 Enterprise Search Server. From technologies to solutions. — Packt Publishing, 2011. — 418 p.

93. DB-Engines Ranking of Search Engines. — URL: http: //db-engines. com/ en/ranking/search+engine (online; accessed: 25.03.2013).

94. Создание электронной библиотеки русскоязычных научных статей / А. Васильев, С. Самусев, Д. Козлов, О. Шамина // Интернет-математика 2007: сборник работ участников конкурса научных проектов по информационному поиску. — Екатеринбург : Изд-во Урал, ун-та, 2007. — С. 37-45.

95. Извлечение метаинформации и библиографических ссылок из текстов русскоязычных научных статей / А. Васильев, С. Самусев, Д. Козлов, О. Шамина // Труды 9ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». — Переславль-Залесский : Изд-во «Университет города Переславля», 2007. - С. 224-234.

96. A Comparison of On-line Computer Science Citation Databases / V. Pet-ricek, I. J. Cox, H. Han et al. // Proceedings 9th European Conference on Research and Advanced Technology for Digital Libraries. — Springer, 2005. — P. 438-449.

97. Апанович 3. В., Винокуров П. С., Кислицина Т. А. Средства визуального анализа информационного наполнения порталов, входящих в облако Linked Open Data // Труды 13й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL'2011. - Воронеж, 2011. — С. 113-120.

98. Alani Н., Harris S., O'Neill В. OntologyWinnowing: A Case Study on the АКТ Reference Ontology // Proceedings of the International Conference on Computational Intelligence for Modelling, Control and Automation and International Conference on Intelligent Agents, Web Technologies and Internet Commerce. — Vol. 02. — Washington : IEEE Computer Society, 2005. — P. 710-715.

99. Glaser H., Millard I., Carr L. RKBExplorer: Repositories, Linked Data and Research Support // Eprints User Group, Open Repositories 2009.— Atlanta : Georgia Institute of Technology, 2009. — P. 1-21.

100. Paskin N. Digital object identifiers // Information Services and Use. — 2002. - Vol. 22, no. 2-3. - P. 97-112.

101. The PageRank Citation Ranking: Bringing Order to the Web : Technical Report : 1999-66 / Stanford InfoLab ; Executor: L. Page, S. Brin, R. Mot-wani, T. Winograd. — Stanford : 1999.

102. Kleinberg J. M. Hubs, authorities, and communities // ACM Computing Surveys. — 1999. — Vol. 31, no. 4es. — P. 1-3.

103. Jansen B. J., Spink A. How are we searching the World Wide Web? A comparison of nine search engine transaction logs // Information Processing and Management. — 2006. — Vol. 42, no. 1. — P. 248-263.

104. Kondrak G. N-gram similarity and distance // String Processing and Information Retrieval. — Vol. 3772 of Lecture Notes in Computer Science. — Berlin : Springer, 2005.—P. 115-126.

105. Winkler W. E. String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage // Proceedings of the Section on Survey Research Methods.— Boston, USA : American Statistical Association, 1990. — P. 354-359.

106. Hopcroft J.E., Motwani R., Ullman J.D. Introduction to automata theory, languages, and computation. Addison-Wesley series in computer science. — Boston : Addison-Wesley, 2001.

107. Кнут Д.Э., Красиков И.В. Искусство программирования: Сортировка и

поиск / Под ред. Ю.В. Козаченко. — 2-е издание изд.— М. : Вильяме,

2000.-Т. 3.- 822 с.

108. Zipf G. К. Human behavior and the principle of least effort. — Oxford, England : Addison-Wesley Press, 1949. — 573 p.

109. Левитин А.В. Алгоритмы: введение в разработку и анализ. — М.: Вильяме, 2006.-С. 307-310.

110. Class org.gephi.statistics.plugin.PageRank. — URL: gephi.org/docs/ toolkit/org/gephi/statistics/plugin/PageRank.html (online; accessed: 06.05.2013).

111. Class org.gephi.statistics.plugin.Hits. — URL: gephi.org/docs/toolkit/ org/gephi/statistics/plugin/Hits.html (online; accessed: 06.05.2013).

112. Ishii H., Tempo R. A distributed randomized approach for the PageRank computation: Part 1 // Proceedings of 47th IEEE Conference on Decision and Control. — Cancun, Mexico : IEEE, 2008. — P. 3523-3528.

113. Ishii H., Tempo R. A distributed randomized approach for the PageRank computation: Part 2 // Proceedings of 47th IEEE Conference on Decision and Control. - Cancun, Mexico : IEEE, 2008. — P. 3529-3534.

114. Finding authorities and hubs from link structures on the World Wide Web / A. Borodin, G. O. Roberts, J. S. Rosenthal, P. Tsaparas // Proceedings of the 10th international conference on World Wide Web. — New York : ACM,

2001.-P. 415-429.

115. Михалевич B.C. Словарь по кибернетике. — 2-е издание изд. — Киев : Глав, ред. Укр. Сов. Энциклопедии им. М.П. Бажана, 1989. — 751 с.

116. Applying Science Models for Search / P. Mayr, P. Mutschke, V. Petras et al. // Computing Research Repository. — 2011. — Vol. abs/1101.1639.— P. 1-14.

117. Building a diversity featured search system by fusing existing tools / J. Tang, T. Arni, M. Sanderson, P. Clough // Proceedings of the 9th Cross-language evaluation forum conference on Evaluating systems for multilingual and multimodal information access. — Berlin, Heidelberg : Springer-Verlag, 2009. — P. 560-567.

118. Apache Soir 4.2.1,—URL: http://lucene.apache.org/solr/4_2_l/ (online; accessed: 02.05.2013).

119. Eye tracking in web search tasks: design implications / J. H. Goldberg, M. J. Stimson, M. Lewenstein et al. // Proceedings of the 2002 symposium on Eye tracking research k. applications. — New York : ACM, 2002. — P. 5158.

120. Anick P. Using terminological feedback for web search refinement: a log-based study // Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval. — New York : ACM, 2003. - P. 88-95.

121. Aizawa A. An information-theoretic perspective of tf-idf measures // Information Processing and Management. — 2003. — Vol. 39, no. 1. — P. 45-65.

122. Linked data on the web (LDOW2008) / C. Bizer, T. Heath, K. Idehen, T. Berners-Lee // Proceedings of the 17th international conference on World Wide Web. - New York, : ACM, 2008. - P. 1265-1266.

122

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.