Разработка и исследование модели текста для его категоризации тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Мордвинов, Алексей Вячеславович

  • Мордвинов, Алексей Вячеславович
  • кандидат технических науккандидат технических наук
  • 2010, Нижний Новгород
  • Специальность ВАК РФ05.13.01
  • Количество страниц 159
Мордвинов, Алексей Вячеславович. Разработка и исследование модели текста для его категоризации: дис. кандидат технических наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). Нижний Новгород. 2010. 159 с.

Оглавление диссертации кандидат технических наук Мордвинов, Алексей Вячеславович

Содержание

Введение

Глава 1. Обзор предметной области и постановка задачи

1.1 Категоризация текстов: определение, виды, ограничения

1.2 Прикладное использование категоризации текстов

1.2.1 Автоматическое индексирование для систем извлечения информации

1.2.2 Организация и управление документами

1.2.3 Фильтрация текста

1.2.4 Определение значений многозначных слов на основе контекста

1.2.5 Иерархическая категоризация страниц в Интернете

1.3 Решение задачи категоризации текстов на основе машинного обучения

1.3.1 Инженерия знаний и машинное обучение

1.3.2 Машинное обучение: базовые понятия, задачи, алгоритмы

1.3.3 Применение техник машинного обучения в задаче категоризации текстов

1.4 Использование механизмов из области извлечения информации в жизненном цикле системы по категоризации текстов

1.4.1 Индексирование документа

1.4.2 Снижение размерности пространства элементов

1.4.3 Индуктивное построение текстовых классификаторов

1.4.4 Оценка классификаторов

1.5 Анализ этапов и методов построения системы категоризации документов.

Постановка задачи

Выводы к главе 1

Глава 2. Разработка и описание модели текста

2.1 И-граммы как элементы модели

2.2 Алгоритм выбора ТчГ-грамм из текста

2.2.1 Распределение отобранных Ы-грамм по частоте в зависимости от значения N

2.2.2 Зависимость количества отобранных алгоритмом К-грамм от длины документа

2.2.3 Динамика занесения Ы-граммы в словарь

2.2.4 Оценка сложности алгоритма отбора 1Ч-грамм

2.3 Древовидная модель текста. Спектры модели

2.3.1 Оценка сложности алгоритма построения спектра М-грамм

Выводы к главе 2

Глава 3. Использование разработанной модели в модульной системе категоризации текстов

3.1 Необходимость следования принципам модульного дизайна при разработке системы категоризации текстов

3.2 Моделирование текста в виде дерева М-грамм с точки зрения модульного дизайна 93 3.2.1 Экспериментальная методика категоризации текстов

Выводы к главе 3

Глава 4. Программная реализация и оценка эффективности тестовой системы категоризации текстов, использующей И-граммную модель текста

4.1 Описание тестовой программной системы

4.2 Описание условий проведенного эксперимента и его особенностей

4.3 Анализ результатов экспериментов по оценке эффективности системы категоризации текстов с использованием древовидной М-граммной модели

4.4 Сравнение эффективности систем категоризации текстов, использующих

представление текста в виде дерева №грамм и вектора слов

Выводы к главе 4

Заключение

Литература

Приложение 1

Приложение 2

Приложение 3

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка и исследование модели текста для его категоризации»

Введение

Актуальность работы

За последние 10-15 лет задачи управления документами на основании их содержимого (обобщенное название извлечение информации) приобрели особенно важное значение в области информационных систем ввиду постоянно повышающейся доступности документов в цифровой форме и вытекающей отсюда необходимости получать к ним доступ максимально быстрыми и удобными способами. Одной из таких задач является категоризация текста (синонимы - классификация по категориям, определение тематики) - задача распределения текстов на естественном языке по тематическим категориям из заранее определенного набора. Появление задачи категоризации текстов (КТ) относится к началу 60-х годов прошлого века, но только в 90-х она приобрела свою истинную значимость благодаря возросшему прикладному интересу и доступности более мощных аппаратных средств. КТ сейчас применяется во многих контекстах, начиная от индексирования документов на основе контролируемого словаря, заканчивая фильтрацией документов, автоматической генерацией метаданных, заполнением иерархических каталогов Web ресурсов, атрибуцией текстов неизвестных авторов и вообще в любых приложениях, требующих автоматизированной организации или диспетчеризации документов.

До конца 80-х наиболее популярным подходом к КТ, по крайней мере, в сообществе, занимающемся прикладными исследованиями, была инженерия знаний. Этот подход состоит в ручном задании набора правил на основании знаний экспертов о том, как классифицировать документы по заданным категориям. В 90-х этот подход стремительно утратил популярность (особенно в исследовательском сообществе) в пользу машинного обучения. В соответствии с этим подходом производится индуктивное автоматическое построение текстового классификатора с

4

помощью обучения на наборе заранее классифицированных документов. Важную роль в развитии машинного обучения сыграли В. Н. Вапник и А. Я. Червоненкис, активными исследованиями в области KT занимаются Apte С., Damerau F.J., Fuhr. N., Sebastiani F., Cohen W.W., Dumais S.T., Joachims T., Lam S.L., Larkey L.S., Lewis D.D., Yang Y.

Тексты в обычном представлении не могут быть интерпретированы классификатором или алгоритмом построения классификатора. Поэтому к документам должна быть заранее применена процедура индексирования, которая ставит в соответствие каждому тексту компактное представление его содержимого. Выбор этого представления зависит от того, что считать значимыми элементами текста и какие правила естественного языка считать значимыми для комбинирования этих элементов. В задаче KT вторая проблема обычно игнорируется, и текст представляется вектором весов элементов, выбранных в качестве "текстообразующих". Типичным выбором на сегодняшний день является представление текста в виде вектора слов. Подобное представление текста представляется сильно ограниченным, соответственно исследования в области моделирования текста продолжаются и являются актуальными и необходимыми с точки зрения развития методик KT.

Целью работы является разработка и структурный анализ модели текста, использование которой вместо общепринятых векторов слов или фраз позволит повысить эффективность KT за счет более гибкого решения задачи снижения размерности модели и обобщения существующих подходов к индексированию документов.

Для достижения поставленной цели требовалось решить следующие задачи:

- проанализировать существующие способы моделирования текста, используемые в задаче категоризации, обобщить информацию о том, какие элементы текста считаются значимыми при построении моделей,

5

как при использовании этих моделей решаются задачи индексирования документа и уменьшения размерности модели;

- сформулировать требования к разрабатываемой модели текста;

- разработать алгоритм для индексирования текста, то есть для выбора из текста элементов, на основе которых будет построена модель;

- разработать модель текста в виде дерева И-грамм и проанализировать ее свойства;

- разработать алгоритмы обработки данных модели, а также способы создания представлений модели с разным уровнем детализации;

- разработать методику категоризации документов, моделируемых в виде деревьев 14-грамм;

- разработать тестовую систему, позволяющую получить оценки эффективности методики КТ;

- протестировать разработанную методику КТ с различными алгоритмами классификации данных;

- провести эксперимент с целью сравнения эффективности методик КТ, использующих представление текста в виде вектора слов и в виде дерева 14-грамм;

Методы исследования

Для решения поставленых задач применялись методы системного анализа, теории информации, теории вероятностей, а также методы и техники, использующиеся в задачах извлечения информации и категоризации документов. Вычислительные эксперименты проводились с использованием статистического программного комплекса КММЕ. Научная новизна работы заключается в следующем:

1. Предложена модель текста в виде дерева 14-грамм, позволяющая использовать ее в любых приложениях, связанных с решением задачи категоризации документов. Данная модель позволяет значительно

повысить эффективность автоматизированных систем категоризации текстов.

2. Разработаны алгоритмы представления модели текста в виде деревьев в памяти ЭВМ, обработки данных модели и последующего построения спектров модели с различным уровнем детализации.

3. Разработана практическая методика категоризации текстов, использующая предложенную модель вместо общепринятых векторов слов или фраз. Эффективность методики достигается за счет применения более точной модели текста вместо использования ресурсоемких классификаторов или увеличения объема тестовых наборов документов.

Практическая ценность работы

Полученные в ходе написания диссертации теоретические и практические результаты наглядно показывают большую важность этапа моделирования текста в задачах его автоматизированной обработки; доказывают, что существующие методики могут быть усовершенствованы за счет использования более совершенных моделей текста; позволяют развить методики категоризации текстов, применяемые в таких областях как автоматическое индексирование для систем извлечения информации, фильтрация текста, иерархическая категоризация страниц во всемирной сети Интернет, автоматическая каталогизация электронных статей и т.д.

Обоснованность и достоверность результатов обеспечены корректным использованием современного математического аппарата, использованием результатов последних исследований в таких областях как извлечение информации, категоризация текстов и машинное обучение и подтверждены результатами экспериментальных исследований на реальном примере.

На защиту выносятся:

1. Модель текста в виде дерева М-грамм.

2. Алгоритмы представления текстовых моделей в виде спектров Ы-грамм для получения возможности динамической настройки точности (детализации) модели после ее создания.

3. Методика категоризации текстов, построенная на основе использования предложенной модели текста.

Реализация результатов работы

Практические результаты, полученные в ходе выполнения диссертационной работы, используются в производственном процессе одного из проектов компании "МЕРА НН", что подтверждается актом о внедрении.

Результаты работы использованы в НИОКР "Использование алгоритмов сжатия данных в задаче определения авторства текста" для программы УМНИК (Участник Молодежного Научно-инновационного Конкурса) фонда содействия развитию малых форм предприятий в научно-технической сфере, № 08-2-7335. Апробация работы

Основные положения и результаты диссертационной работы докладывались и обсуждались на следующих научных конференциях:

- VII международная научно-техническая конференция НТИ 2007 "Информационные технологии" ВИНИТИ РАН, г. Москва, 2007 г.;

- XIV Международная научно-техническая конференция "Информационные системы и технологии - ИСТ" (г. Нижний Новгород, 2008);

- VIII международный симпозиум "Интеллектуальные системы" -INTELS'2008 (г. Нижний Новгород-Москва,МГТУ им. Н.Э. Баумана-НГТУ им.Р.Е. Алексеева 2008);

- Международная открытая научно-практическая конференция "Современные проблемы информатизации" (г. Воронеж, 2008);

- VII международная молодежная научно-техническая конференция "Будущее технической науки" (г. Нижний Новгород, 2008);

- XV Международная научно-техническая конференция "Информационные системы и технологии - ИСТ-2009" (г. Нижний Новгород, 2009);

- XVI Международная научно-техническая конференция "Информационные системы и технологии - ИСТ-2010" (г. Нижний Новгород, 2010);

Публикации

Основные положения диссертационной работы отражены в 10 работах, опубликованных соискателем лично или в соавторстве в научных изданиях, в том числе в одной статье, представленной в рецензируемом издании из перечня ВАК РФ. Структура и объём работы

Диссертационная работа состоит из введения, четырёх глав, заключения, библиографического списка и приложений. Общий объём работы 153 страницы текста, содержащего 47 рисунков и 8 таблиц. Список литературы содержит 116 наименований.

Во введении дается общая характеристика работы, обосновывается актуальность исследований, формулируется цель работы, раскрывается научная новизна и практическая значимость полученных результатов. Дается краткий обзор содержания по главам.

В первой главе производится описание предметной области, раскрывается понятие задачи категоризации текстов, рассматриваются

9

основные подходы к решению данной задачи в их историческом развитии; дается обзор существующих методик и используемых в них моделей текста; рассматриваются "узкие места", возникающие при решении задачи категоризации текстов; делается постановка задачи и задается основное направление исследований.

Во второй главе рассматриваются Ы-граммы в качестве элементов текста, подлежащих индексированию; описывается и анализируется алгоритм отбора 14-грамм из текста и его свойства; рассматривается модель текста в виде дерева Ы-грамм и ее представление с помощью спектров ]ЧГ-грамм.

В третьей главе объясняется необходимость следования принципам модульного дизайна при разработке системы КТ; рассматривается моделирование текста в виде дерева ТчГ-грамм с точки зрения модульного дизайна; описываются экспериментальная методики по созданию системы КТ.

В четвертой главе приводится описание тестовой программной системы, используемой для проведения экспериментов, описываются условия экспериментов и их особенности; проводится анализ результатов экспериментов по оценке эффективности системы КТ, использующей модель текста в виде дерева Ы-грамм; сравнивается эффективность систем КТ, использующих представление текста в виде дерева Ы-грамм и вектора слов.

В заключении изложены основные результаты диссертационной работы.

Приложение содержит акт о внедрении разработанной системы в производственный процесс компании "МЕРА", а также свидетельство о государственной регистрации программы для ЭВМ "Система моделирования текстов".

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Мордвинов, Алексей Вячеславович

Выводы к главе 4

1. С помощью разработанной программной системы, были протестированы несколько алгоритмов классификации данных. Эксперименты показали, что все исследуемые алгоритмы могут быть использованы совместно с моделью текста в виде дерева ]Ч-грамм без каких-либо изменений или введения в процесс дополнительных шагов по обработке данных;

2. Проведен анализ результатов экспериментов по оценке эффективности системы категоризации документов, использующей ]Ч-граммную модель текста. Показано, что использование предложенной модели позволяет достичь эффективности категоризации в 95-100 %;

3. Прослежена динамика изменения оценок эффективности различных алгоритмов классификации данных при изменении параметров 1ЧГ-граммной модели. Выяснено, что оптимальное качество категоризации достигается для разных алгоритмов при различных настройках модели текста. Эффективность зависит как от уровня детализации спектров и от количества 1\[-грамм, так и от используемой техники отбора значимых для категории И-грамм;

4. Выполнено сравнение результатов экспериментов по категоризациии документов для систем КТ, использующих два способа представления текста: в виде вектора слов и в виде дерева ЗЧ-грамм. Эксперименты показали значительное увеличение эффективности категоризации при использовании ТЧ-граммной модели для всех тестируемых алгоритмов классификации данных;

Заключение

1. Проанализированы существующие способы моделирования текста, используемые в задаче категоризации, выявлены слабые места этих способов, сформулированы требования к разрабатываемой модели текста;

2. Разработана модель текста в виде дерева ]М-грамм, позволяющая использовать ее в любых приложениях, связанных с решением задачи категоризации документов;

3. Разработаны алгоритмы представления модели текста в виде деревьев в памяти ЭВМ, обработки данных модели и последующего построения спектров модели с различным уровнем детализации;

4. Разработана практическая методика категоризации текстов, использующая предложенную модель вместо общепринятых векторов слов или фраз. Эффективность методики достигается именно за счет применения более точной модели текста, а не путем применения ресурсоемких классификаторов или увеличения объема тестовых наборов документов;

5. Проведены эксперименты по оценке эффективности использования разработанной модели текста с различными алгоритмами классификации данных;

6. Проведен эксперимент по сравнению эффективности методик КТ, использующих представление текста в виде вектора слов и в виде дерева 1Ч-грамм. Доказана возможность значительного увеличения эффективности категоризации при использовании разработанной модели текста;

7. Результаты диссертационной работы внедрены в производственный процесс компании "МЕРА".

Список литературы диссертационного исследования кандидат технических наук Мордвинов, Алексей Вячеславович, 2010 год

Литература

1. Прангишвили, И.В., Системный подход и общесистемные закономерности / И.В. Прангишвили. - М.: СИНТЕГ. - 2000. - 528 с.

2. Урманцев, Ю.А. Общая теория систем: состояние, приложение и перспективы развития. Система, симметрия, гармония / Ю.А. Урманцев. - М.: Мысль. - 1988.

3. Урманцев, Ю.А. Системная философия / Ю.А. Урманцев // Вест. Моск. Ун-та. Серия 7. Философия, №5 - 1999.

4. Гладкий, A.B. Формальные грамматики и языки / A.B. Гладкий. - М.: Наука.- 1973.-368 с.

5. Иорданская, JI.H. Автоматический синтаксический анализ / JI.H. Иорданская. - М.: Наука. - 1967.

6. Шрейдер, Ю.А. Характеристики сложности структуры текста / Ю.А. Шрейдер // Научно-техническая информация, №7 - 1966. - С. 34-39.

7. Хомский, Н. Введение в формальный анализ естественных языков / Н. Хомский, Дж. Миллер // Кибернетический сборник, вып. 1 - М.: Мир. - 1965.

8. Ахо, А. Теория синтаксического анализа, перевода и компиляции / А. Ахо, Дж. Ульман. - М.: Мир. - 1978.

9. Аршинов, М.Н. Коды и математика (Рассказы о кодировании) / М.Н. Аршинов, JI.E. Садовский. - М.: Наука. - 1983.

10. Пиотровский, Р.Г. Математическая лингвистика / Р.Г. Пиотровский, К.Б. Бектаев, A.A. Пиотровская. - М.: Высшая школа. - 1977.

11. Ферстер, Э. Методы корреляционного и регрессионного анализа / Э. Ферстер, Б. Ренц. - М.: Финансы и статистика. - 1983.

12. Козлов, М.В. Введение в математическую статистику / М.В. Козлов, A.B. Прохоров. - М.: Изд-во МГУ. - 1987.

13. Феллер, В. Введение в теорию вероятностей и ее приложения / В. Феллер. - М.: Мир. - 1984.

14. Зеленков, Ю.Г. Сравнительный анализ методов определения нечетких дубликатов для Web-документов / Ю.Г. Зеленков, И.В. Сегалович // Труды IX Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" - RCDL'2007. - Переславль-Залесский. -2007.

15. Моченов, C.B. Векторная модель представления текстовой информации / C.B. Моченов, А.М. Бледнов, Ю.А. Луговских // Материалы международной научной конференции. - Ижевск 13-17 июля 2006 г.-2006.

16. Финн, В.К. О роли машинного обучения в интеллектуальных системах / В.К. Финн // НТИ. Сер. 2, №12. - 1999. С. 1-3.

17. Солодухин, A.C. Классификация текстов на основе приближенных оценок вероятностей классов / A.C. Солодухин // Вестник ВГУ, серия Системный анализ и информационные технологии, №1. - 2008.

18. Кормалев, Д.А. Приложения методов машинного обучения в задачах анализа текста / Д.А. Кормалев // Программные системы: теория и приложения. - Переславль-Залесский. - 2004.

19. Айвазян, С.А. Прикладная статистика. Классификация и снижение размерности. / С. А. Айвазян, В.М, Бухштабер, Е.С, Енюков, Л.Д. Мешалкин - М.: Финансы и статистика. - 1989.

20. Вапник, В.Н. Восстановление зависимостей по эмпирическим данным / В.Н. Вапник - М.: Наука - 1979.

21. Дорофеюк, A.A. Алгоритмы автоматической классификации / A.A. Дорофеюк // Автоматика и телемеханика, - №12. - 1971. С. 78-113.

22. Куперштох, В.JI. Сумма внутренних связей как критерий качества классификации / В.Л. Куперштох, Б.Г. Миркин, В.А. Трофимов // Автоматика и телемеханика, - №3. - 1976. С. 91-98.

23. Раудис, Ш. Ошибки классификации при выборе признаков / Ш. Раудис // Статистические проблемы управления, - №38. - Вильнюс. -1979. С. 9-25.

24. Хайкин, С. Нейронные сети. Полный курс, 2-е издание / С. Хайкин. -Изд. 2-е, перераб. и доп. - М.: Вильяме. - 2008. - 1104 с.

25. Бородкин, Л.И. Математические методы и компьютер в задачах атрибуции текстов / Л.И. Бородкин // От Нестора до Фонвизина. Новые методы определения авторства; под ред. Л.В. Милова - М.: Прогресс. - 1994.

26. Марков, A.A. Об одном применении статистического метода / A.A. Марков // Известия Имп. Акад. Наук, серия VI, т. X. - №4. - 1916. С. 239.

27. Колмогоров, А.Н. Три подхода к определению понятия "Количество информации" / А.Н. Колмогоров // Новое в жизни, науке, технике. Серия "Математика, кибернетика", №1. - 1991. С. 24-29.

28. Кукушкина, О.В. Определение авторства текста с использованием буквенной и грамматической информации / О.В. Кукушкина, А.А Поликарпов, Д.В. Хмелев // Проблемы передачи информации, т. 37, вып. 2.-2001. С. 96-108.

29. Морозов, H.A. Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или иного известного автора. Стилеметрический этюд / H.A. Морозов // Известия отд. Русского языка и словестности Имп. Акад. Наук, т. XX, кн. 4. - 1915.

30. Севбо, И.П. Графическое представление синтаксических структур и стилистическая диагностика / И.П. Севбо. - К.: Наук. Думка. - 1981. - 192 с.

31. Фоменко, В.П. Авторский инвариант русских литературных текстов / В.П. Фоменко, Т.Г. Фоменко // Новая хронология Греции: Античность в средневековье, т.2. - М.: Изд-во МГУ. - 1996. - С. 768820.

32. Хмелев, Д.В. Распознавание автора текста с использованием цепей А.А. Маркова / Д.В. Хмелев // Вестник МГУ, сер. 9: Филология. -№2.-2000. С. 115-126.

33. Хьетсо, Г. Кто написал "Тихий Дон?" / Г. Хьетсо, С. Густавссон, Б. Бекман, С. Гил. - М., 1989.

34. Salomon, D. Data Compression. The Complete reference, 3rd edition / D. Salomon. - New York: Springer-Verlag, Inc. - 2004.

35. Andreasen, P. Universal Source Coding. / P. Andreasen // A thesis submitted to the University of Copenhagen for the degree of Master of Science in the faculty of Mathematics. - July 2001.

36. Stamatatos, E. Automatic Authorship Attribution. / E. Stamatatos, N. Fakotakis, G. Kokkinakis // Dept. of Electrical and Computer Engineering, University of Patras, Greece.

37. Van Halteren, H. Linguistic Profiling for Author Recognition and Verification. / H. Van Halteren // Language and Speech, Univ. of Nijmegen, The Netherlands.

38. Sanderson, C. Short Text Authorship Attribution via Sequence Kernels, Markov Chains and Author Unmasking: An Investigation / C. Sanderson, S. Guenter// Australian National University, Canberra, Australia.

39. Craig, H. Common-words frequencies, Shakespeare's style, and the Elegy by W. S. / H. Craig // University of Newcastle, New South Wales.

40. Forest, D. A Text Mining Approach to Thematic Analysis of a Phylosophical Corpus / D. Forest, J.-G. Meunier // Laboratoire d'Analyse Cognitive de 1'Information. Univerite du Quebec a Montreal. CHWP A.32 publ. - August 2005.

41. Ziv, J. A universal algorithm for sequential data compression. / J. Ziv, A. Lempel // IEEE Trans.Inf.Theory IT-23. - №3 (May). - 1977. P. 337-343.

42. Ziv, J. Compression of individual sequences via variable-rate coding. / J. Ziv, A. Lempel // IEEE Trans.Inf.Theory IT-24. - №5 (Sept.). - 1978. P. 530-536.

43. Ziv, J. On the complexity of finite sequences / J. Ziv, A. Lempel // IEEE Trans.Inf.Theory IT-22. - №1 (January). - 1976. P. 337-343.

44. Shafer, J. SPRINT: A Scalable Parallel Classifier for Data Mining / J. Shafer, R. Agrawal, M. Mehta // Proceedings of the 22nd VLDB Conference. Mumbai (Bombay). - 1996.

45. Berthold, M.R. Mixed fuzzy rule formation / M.R. Berthold // International Journal of Approximate Reasoning. - №32. - 2003. P. 6784.

46. Gabriel, T.R. Influence of fuzzy norms and other heuristics on "Mixed fuzzy rule formation" / T.R. Gabriel, M.R. Berthold // International Journal of Approximate Reasoning. - №35. - 2004. P. 195-202.

47. Klawonn, F. Fuzzy clustering and fuzzy rales / F. Klawonn, A. Keller // Proceedings of the 7th International Fuzzy Systems Association World Congress (IFSA'97). vol. 1, Academia, Prague. - 1997. P. 193-198.

48. Liddy, E.D. Text categorization for multiple users based on semantic features from a machine-readable dictionary / E.D. Liddy, W. Paik, E.S. Yu // ACM Trans. Inform. Syst. 12, 3. - 1994. P. 278-295.

49. Michie, D. Machine Learning, Neural and Statistical Classification / D. Michie, D.J. Spiegelhalter, C.C. Taylor. - Chichester: Ellis Horwood Limited, UK. -1994.

50. Mitchell, T. Machine Learning / T. Mitchell. - New York: McGraw Hill. -1996.

51. Schiffmann, W. Optimization of the backpropagation algorithm for training multilayer perceptrons. Technical report / W. Schiffmann, M. Joost, R. Werner. - University of Koblenz. Institute of Physics. - 1993.

52. Berthold, M.R. Constructive training of probabilistic neural networks / M.R. Berthold, J. Diamond. // Neurocomputing. - № 19. - 1998. P. 167183.

53. Specht, D.F. PNN: from fast training to fast running / D.F. Specht // Computational Intelligence. A Dynamic System Perspective. - IEE Press. - 1995. P. 246-258.

54. Osuna, E. An improved training algorithm for support vector machines / E. Osuna, R. Freund, F. Girosi. // Neural Networks for Signal Processing VII - Proceedings of the 1997 IEEE Workshop. - New York. - 1997. P. 276-285.

55. Yang, Y. A re-examination of text categorization methods / Y. Yang, X. Liu. // Proceedings of the 22nd ACM SIGIR Conference on Research and Information Retrieval. - №8. - Berkley, CA. USA - 1999.

56. Yang, Y. A study of approaches to hypertext categorization / Y. Yang, S. Slattery, R. Ghani // J. Intell. Inform. Syst. 18, 2/3. - 2002. P. 219-241.

57. Apte, C. Text mining with decision rules and decision trees / C. Apte, F. Damerau, S. Weiss // Proceedings of the Conference on Automated Learning and Discovery. Worshop 6: Learning from Text and the Web. -1998.

58. Fuhr, N. Air/x - a rule-based multistage indexing systems for large subject fields / N. Fuhr, S. Hartmanna, G. Lustig, M. Schwantner, K. Tzeras // Proceedings of RIAO'91. - 1991. P. 606-623.

59. Fuhr., N. Retrieval test evaluation of a rule-based automated indexing (AIR/PHYS) / N. Fuhr, G. Knorz // Proceedings of SIGIR-84, 7th ACM International Conference on Research and Development in Information Retrieval. - 1984. P. 391-408.

60. Joachims, T. Text Categorization with Support Vector Machines: Learning with Many Relevant Features / T. Joachims // European Conference on Machine Learning (ECMIL). - 1998.

61. McCallum, A. A comparison of event models for naive bayes text classification / A. McCallum, K. Nigam // AAAI-98 Workshop on Learning for Text Categorization. - 1998.

62. Yang, Y. Feature selection in statistical learning of text categorization / Y. Yang, J.P. Pedersen // 14th International Conference on Machine Learning. - 1997. P. 412-420.

63. Cavnar, W.B. N-Gram-Based Text Categorization / W.B. Cavnar, J.M. Trenkle // Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval. - Las Vegas. - 1994. P. 161-175.

64. Cavnar, W.B. N-gram-based matching for multi-field database access in postal applications / W.B. Cavnar, A.J. Vayda // Proceedings of the 1993 Symposium On Document Analysis and Information Retrieval. University of Neveda. - Las Vegas. - 1993.

65. Cavnar, W.B. N-Gram-Based Text Filtering For TREC-2 / W.B. Cavnar // Proceedings of the Second Text Retrieval Conference (TREC-2). - NIST, Gaithersburg, Maryland. - 1993.

66. Kimbrell, R.E. Searching for Text? Send and N-gram! / R.E. Kimbrell // Byte, May 1998. - 1998. P. 297-312.

67. Deerwester, S. Indexing by latent semantic analysis / S. Deerwester, S.T. Dumais, G.W. Furnas, T.K. Landauer, R. Harshman // J. Amer. Soc. Inf. Sci 1,6.-1990. P. 391^107.

68. Larkey, L.S. Combining Classifiers in Text Categorization / L.S. Larkey, W.B. Croft // Proceedings of the 19th ACM SIGIR Conference on Research and Information Retrieval. - Berkley, CA. USA - 1996.

69. Larkey, L.S. A patent search and classification system / L.S. Larkey // Proceedings of DL-99, 4th ACM Conference on Digital Libraries. - 1999. P. 179-187.

70. Hull, D. Improving text retrieval for the routing problem using latent semantic indexing / D. Hull // Proceedings of the 17th Annual ACM/SIGIR Conference. - 1994. P. 282-291.

71. Salton, G. Term weighting approaches in automatic text retrieval / G. Salton, C. Buckley // Information Processing and Management. - 24(5). -1988. P. 513-523.

72. Lewis, D.D. Evaluating Text Categorization / D.D. Lewis // Proceedings of the Speech and Natural Language Workshop. - Asilomar. - 1991. P. 312-318.

73. Robertson, S.E. Relevance weighting of search terms / S.E. Robertson, K. Sparck Jones // Journal of the American Society for Information Science. -№27.- 1976. P. 129-146.

74. Robertson, S.E. Understading Inverse Document Frequency: On theoretical arguments for IDF / S.E. Robertson // Journal of Documentation 60. - №5. - Cambridge, UK. P. 503-520.

75. Joachims, T. A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization / T. Joachims // Proceedings of ICML-97, 14th International Conference on Machine Learning. San-Francisco: Morgan Kauffmann Publishers. - 1997. P. 143-151.

76. Papineni, K. Why inverse document frequency? / K. Papineni // Proceedings of the North American Association for Computational Linguistics, NAACL. - 2001. P. 25-32.

77. Frank, E. Text categorization using compression models / E. Frank, C. Chui, I.H. Witten // Proc Data Compression Conference. Los Alamitos: IEEE Press. P. 555.

78. Scholkopf, B. Learning with Kernels. Support Vector Machines, Regularization, Optimization, and Beyond / B. Scholkopf, A.J. Smola -MIT Press, Cambridge, MA. - 2002.

79. Witten, I.H. Data Mining: Practical Machine Learning Tools and Techniques (Second Edition) / I.H. Witten, E. Frank - Morgan Kaufmann. -2005.

80. Manning, C.D. An Introduction to Information Retrieval Draft / C.D. Manning, P. Raghavan, H. Schütze - Online edition. Cambridge University Press. - 2009.

81. Sebastiani, F. Machine Learning in Automated Text Categorization / F. Sebastiani // ACM Computing Serveys, Vol. 34. - №1. - 2002. P. 1-47.

82. Apte, C. Automated learning of decision rales for text categorization / C. Apte, F.J. Damerau, S.M. Weiss // ACM Trans, on Inform. Syst. 12, 3. -1994. P. 233-251.

83. Domingos, P. On the optimality of the simple Bayesian classifier under zero-one loss. / P. Domingos, M.J. Pazzani // Mach. Learn. 29, 2-3. -1997. P. 103-130.

84. Dumais, S.T. Hierarchical classification of Web content / S.T. Dumais, H. Chen // Proceedings of SIGIR-00, 23rd ACM International Conference on Research and Development in Information Retrieval. Athens, Greece. -2000. P. 256-263.

85. Furnkranz, J. Exploiting structural information for text classification on the WWW / J. Furnkranz // Proceedings of IDA-99, 3rd Symposium on Intelligent Data Analysis. - Amsterdam, The Netherlands. - 1999. P. 487497.

86. Gale, W.A. A method for disambiguating word senses in a large corpus / W.A. Gale, K.W. Church, D. Yarowsky // Comput. Human. 26, 5. - 1993. P. 415-439.

87. Govert, N. A probabilistic description-oriented approach for categorizing Web documents. / N. Govert, M. Lalmas, N. Fuhr // Proceedings of CIKM-99, 8th ACM International Conference on Information and Knowledge Management. - Kansas City, MO. - 1999. P. 475-482.

88. Joachims, T. Transductive inference for text classification using support vector machines. / T. Joachims // Proceedings of ICML-99, 16th International Conference on Machine Learning. - Bled, Slovenia. - 1999. P. 200-209.

89. Lewis, D.D. Naive (Bayes) at forty: The independence assumption in information retrieval. / D.D. Lewis // Proceedings of ECML-98, 10th European Conference on Machine Learning. - Chemnitz, Germany. -1998. P. 4-15.

90. Lewis, D.D. Training algorithms for linear text classifiers. / D.D. Lewis, R.E. Schapire, J.P. Callan, R. Papka // Proceedings of SIGIR-96, 19th ACM International Conference on Research and Development in Information Retrieval. - Zurich, Switzerland. - 1996. P. 298-306.

91. Mladenic, D. Feature subset selection in text learning. / D. Mladenic // Proceedings of ECML-98, 10th European Conference on Machine Learning. - Chemnitz, Germany. - 1998. P. 95-100.

92. Mladenic, D. Word sequences as features in text learning. / Proceedings of ERK-98, the 7th Electrotechnical and Computer Science Conference. -Ljubljana, Slovenia. - 1998. P. 145-148.

93. Moulinier, I. Text categorization: a symbolic approach. /1. Moulinier, G. Raskinis, J.-G. Ganascia // Proceedings of SDAIR-96, 5th Annual Symposium on Document Analysis and Information Retrieval. - Las Vegas, NV. - 1996. P. 87-99.

94. Pazienza, M.T. Information Extraction / M.T. Pazienza // Lecture Notes in Computer Science, Vol. 1299. - Heidelberg: Springer. - 1997.

95. Riloff, E. Little words can make a big difference for text classification. / E. Riloff// Proceedings of SIGIR-95, 18th ACM International Conference on Research and Development in Information Retrieval. - Seattle, WA -1995. P. 130-136.

96. Riloff, E. Information extraction as a basis for high-precision text classification. / E. Riloff, W. Lehnert // ACM Trans. Inform. Syst. 12, 3. -1994.-P. 296-333.

97. Robertson, S.E. Probabilistic automatic indexing by learning from human indexers. / S.E. Robertson, P. Harding // J. Document. 40, 4. - 1984. P. 264-270.

98. Fuhr, N. A probabilistic learning approach for document indexing / N. Fuhr, C. Buckley // ACM Trans. Inform. Syst. 9, 3. - 1991. P. 223-248.

99. Schutze, H. Automatic word sense discrimination. / H. Schutze // Computational Linguistics. 24, 1. - 1998. P. 97-124.

100. Taira, H. Feature selection in SVM text categorization. / H. Taira, M. Haruno // Proceedings of AAAI-99, 16th Conference of the American Association for Artificial Intelligence. - Orlando, FL. - 1999. P. 480-486.

101. Van Rijsbergen, C.J. A theoretical basis for the use of co-occurrence data in information retrieval. / C.J. Van Rijsbergen // J. Document. 33, 2. -1977.-P. 106-119.

102. Van Rijsbergen, C.J. Information Retrieval, 2nd edition. / C.J. Van Rijsbergen - Butterworths, London, UK - 1979.

103. Weigend, A.S. Exploiting hierarchy in text categorization / A.S. Weigend, E.D. Wiener, J.O. Pedersen // Inform Retr. 1,3.- 1999. P. 193-216.

104. Cleverdon, C. Optimizing convenient on-line access to bibliographic databases / C. Cleverdon // Inform. Serv. Use, 4,1. - 1984. P. 37^7.

105. Lewis, D.D. An evaluation of phrasal and clustered representations on a text categorization task / D.D. Lewis // Proceedings of SIGIR-92, 15th

ACM International Conference on Research and Development in Information Retrieval. - 1992. P. 37-50.

106. Cohen, W.W. Learning to classify English text with ILP methods / W.W. Cohen // Advances in Inductive Logic Programming. - Amsterdam: IOS Press.- 1995. P. 124-143.

107. Wiener, E.D. A neural network approach to topic spotting / E.D. Wiener, J.O. Pedersen, A.S. Weigend // Proceedings of SDAIR-95, 4th Annual Symposium on Document Analysis and Information Retrieval. - 1995. P. 317-332.

108. Мордвинов, A.B. Системный подход в моделировании текста / А.В. Мордвинов // Математическое Моделирование. Оптимальное управление: Вестник Нижегородского университета им. Н.И. Лобачевского. - 2010. - № 2. С. 185-190.

109. Мордвинов, А.В. Использование алгоритмов сжатия в задаче атрибуции / А.В. Мордвинов, Л.С. Ломакина// Мат. VII Междунар. молодеж. науч.-техн. конф. "Будущее технической науки". Н. Новгород, 2007 г. - Н. Новгород: НГТУ, 2007. - С. 79.

110. Мордвинов, А.В. Исследование текстовой системы в контексте задачи атрибуции / А.В. Мордвинов, Л.С. Ломакина // Мат. 7-й Междунар. конф. "НТИ-2007". Информационное общество. Интеллектуальная обработка информаци. Информационные технологии. Москва, 24-26 окт. 2007 г. - М.: ВИНИТИ РАН, 2007. -С. 215-217.

111. Мордвинов, А.В. Анализ, моделирование и атрибуция текстовой системы / А.В. Мордвинов, Л.С. Ломакина // Мат. Междунар. науч.-техн. конф. "Информационные системы и технологии (ИСТ 2008)". Н. Новгород, 2008 г. - Н. Новгород: НГТУ, 2008. - С. 254.

112. Мордвинов, А.В. Эффективное моделирование текста в задаче атрибуции. / А.В. Мордвинов // Тр. Междунар. симп.

155

"Интеллектуальные системы 2008 INTELS'08". Н. Новгород, 30 июня - 4 июля 2008 г. - М.: МГТУ им. Баумана - Н. Новгород: НГТУ им. P.E. Алексеева, 2008. - С. 249-252.

113. Мордвинов, A.B. Модель текста в задаче атрибуции / A.B. Мордвинов // Современные проблемы информатизации в экономике и обеспечении безопасности: Сб. трудов. Вып. 13. - Воронеж: Научная книга, 2008. - С. 73-74.

114. Мордвинов, A.B. Текст как система. / А. В. Мордвинов // Мат. Междунар. науч-техн. конф. "Информационные системы и технологии (ИСТ 2009)". Н. Новгород, 2009 г. - Н. Новгород: НГТУ, 2009.-С. 314.

115. Мордвинов, A.B. Атрибуция текстов: сравнение текстовых систем. / А. В. Мордвинов // Мат. Междунар. науч-техн. конф. "Информационные системы и технологии (ИСТ 2010)". Н. Новгород, 2010 г. - Н. Новгород: НГТУ, 2010. - С. 241.

116. Мордвинов, A.B. Методика автоматической категоризации текстов / A.B. Мордвинов // Труды НГТУ. Системы обработки информации и управления. - Н. Новгород: НГТУ. - 2010. - №4(83). - С. 75-81.

"УтвейКдаю' технологиям

.В. Крылов

^/¿¿2010 т.

АКТ

внедрения результатов диссертационной работы Мордвинова A.B.

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МОДЕЛИ ТЕКСТА ДЛЯ ЕГО

КАТЕГОРИЗАЦИИ Специальность 05.13.01. - "Системный анализ, управление и обработка

информации (в науке и промышленности) по техническим наукам"

Настоящий Акт составлен в том, что диссертация A.B. Мордвинова была предоставлена предприятию ООО "МераЛабс" автором на безвозмездной основе с целью определения возможных применений научных результатов, изложенных в выполненной работе, а также для использования тех результатов, которые предприятие считало целесообразным применить в своих разработках и исследованиях.

Мы подтверждаем, что при разработке проекта компании SearchLiveStream нами были использованы результаты, представленные автором в параграфах: 2.2.1 Распределение отобранных N-грамм по частоте в зависимости от значения N (стр.86) и 2.2.2 Зависимость количества отобранных алгоритмом N-грамм от длины документа (стр.88), что позволило существенно сократить время на исследования оптимальных алгоритмов анализа текстов пользовательских запросов.

Также при выполнении работы были использованы результаты диссертации, изложенные в параграфах : 4.3 Анализ результатов экспериментов по оценке эффективности системы категоризации текстов с использованием древовидной N-граммной модели (стр.128) и 4.4 Сравнение эффективности систем категоризации текстов, использующих представление текста в виде дерева N-грамм и вектора слов (стр.142) для сравнительной оценки разработок компании.

Орел Д.О., руководитель проекта Брычев О. А., инженер по ИТ

IPOOTIHliCEAffl ФЩЩИРАЩ

СВИДЕТЕЛЬСТВО

о государственной регистрации программы для ЭВМ

№ 2010615295

Система моделирования текстов

Правообладатель(ли): Государственное образовательное учреждение высшего профессионального образования Нижегородский государственный технический университет им. P.E. Алексеева (RU)

Автор(ы): Мордвинов Алексей Вячеславович, Ломакина Любовь Сергеевна (RU)

Заявка № 2010613754

Дата поступления 28 ИЮНЯ 2010 Г. Зарегистрировано в Реестре программ для ЭВМ

18 августа 2010 г.

Руководитель Федеральной службы по интеллектуальной собственности, патентам и товарным знакам

Б.П. Симонов

Министерство образования и науки Российской Федерации Фонд содействия развитию малых форм предприятий в научно-технической сфере Федеральное агентство по науке и инновациям Федеральное агентство по образованию

ПОЧЕТНАЯ ГРАМОТА

Мордвинов Алексей Вячеславович

Победитель(и) программы «Участник Молодежного Научно-Инновационного Конкурса» («УМНИК») 2007 года

НАГРАЖДАЕТСЯ

Секретарь

Председатель оргкомитета Програмк

О.В. Мовсесян

И.МъБортник

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.