Вычислительный комплекс-классификатор текстов с использованием морфологического анализа и нейро-семантических сетей тема диссертации и автореферата по ВАК РФ 05.13.15, кандидат наук Ле Мань Ха

  • Ле Мань Ха
  • кандидат науккандидат наук
  • 2017, Москва
  • Специальность ВАК РФ05.13.15
  • Количество страниц 148
Ле Мань Ха. Вычислительный комплекс-классификатор текстов с использованием морфологического анализа и нейро-семантических сетей: дис. кандидат наук: 05.13.15 - Вычислительные машины и системы. Москва. 2017. 148 с.

Оглавление диссертации кандидат наук Ле Мань Ха

Оглавление

Введение

Глава 1: Критический анализ существующих методов представления и классификации текстов

1.1 Методы представления текстов

1.1.1 Статистический метод ТЕ-ГОЕ

1.1.2 Векторное представление слов

1.2 Байесовский метод для классификации текстов

1.3 Метод Роччио

1.4 Метод «К» ближайших соседей

1.5 Метод опорных векторов

1.6 Логистическая регрессия

1.6.1 Бинарная логистическая регрессия

1.6.2 Мультиномиальная логистическая регрессия - Бойтах

1.7 ЕМ-алгоритм

1.7.1 Функция правдоподобия

1.7.2 ЕМ-алгоритм

1.8 Скрытая марковская модель

1.8.1 Марковская модель

1.8.2 Скрытая марковская модель

1.8.3 Алгоритм прямого-обратного хода

1.8.4 Алгоритм Витерби

1.9 Латентно-семантический анализ

1.9.1 Латентно-семантический анализ с использованием нейронной сети

1.9.2 Вероятностный латентно-семантический анализ

1.10 Рекурсивный автоэнкодер

1.11 Свёрточные нейронные сети для классификации текстов

1.12 Рекуррентные нейронные сети для классификации текстов

1.13 Выводы

Глава 2: Анализ методов глубокого обучения посредством искусственных нейронных сетей для обработки и классификации

текстов

2.1 Многослойные нейронные сети

2.2 Метод обратного распространения ошибки

2.3 Метод стохастического градиента

2.4 Автоэнкодер

2.4.1 Скрытые признаки и глубинное обучение

2.4.2 Автоэнкодер

2.5 Свёрточная нейронная сеть

2.5.1 Свёртка

2.5.2 Субдискретизация

2.5.3 Обучение свёрточной нейронной сети

2.5.4 Преимущества свёрточной нейронной сети

2.6 Рекуррентная нейронная сеть

2.6.1 Long Short-Term Memory

2.7 Выводы

Глава 3: Математическое и алгоритмическое обеспечение вычислительного комплекса-классификатора текстов с использованием морфологического анализа и нейро-семантических сетей

3.1 Разработка метода морфологического анализа текстов

3.1.1 Структура морфологического словаря

3.1.2 Морфологический разбор

3.1.3 Разрешение морфологической многозначности

3.2 Разработка математического и алгоритмитического обеспечения вычислительного комплекса семантической нейронной сети

3.3 Разработка математического и алгоритмитического обеспечения вычислительного комплекса рекурсивного автоэнкодера морфологического анализа

3.4 Разработка метода «К» ближайших соседей с использованием двоичного дерева

3.5 Выводы

Глава 4: Экспериментальное исследование вычислительного комплекса-классификатора текстов

4.1 Разработка программного обеспечения вычислительного комплекса-классификатора текстов с использованием морфологического анализа и нейро-семантических сетей

4.2 Эксперименты и оценка результатов

4.2.1 Метод оценки результатов экспериментов

4.2.2 Экспериментальное исследование нейро-семантической сети на основе морфологического анализа

4.2.3 Экспериментальное исследование рекурсивного автоэнкодера морфологического анализа

4.2.4 Экспериментальное исследование алгоритма «К» ближайших соседей с использованием двоичного дерева

4.3 Выводы

Заключение

Список литературы

Приложения

Приложение 1. Русские морфологические характеристики OpenCorpora 134 Приложение 2. Английские морфологические характеристики PennTreeBank138 Приложение 3. Demo морфологического анализа и классификации текстов

Приложение 4. Пример технического задания классификации эмоциональной окраски отзывов пользователей

Приложение 5. Патент на изобретение голосовой связи на естественном

языке между человеком и устройством

Приложение 6. Акты о внедрении в практические разработки

Рекомендованный список диссертаций по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК

Введение диссертации (часть автореферата) на тему «Вычислительный комплекс-классификатор текстов с использованием морфологического анализа и нейро-семантических сетей»

Введение

Актуальность темы диссертации

Обработка естественного языка [1] является одним из самых важных технологий информационной эпохи. Понимание языков является также важнейшим элементом искусственного интеллекта [2]. Приложения обработки естественного языка есть везде, потому что люди общаются все на языке: веб-поиск, рекламы, электронная почта, обслуживание клиентов, перевод языка, и т. д. [3] Существует большое разнообразие базовых задач и моделей машинного обучения для реализации приложений обработки естественного языка. В последнее время, методы глубокого обучения с применением искусственных нейронных сетей получили очень хорошие результаты для различных задач обработки естественного языка [4]. Эти модели часто могут быть обучены с помощью разных наборов данных и не требуют традиционные решения конкретных задач [5].

Классификация текстов [6] — одна из главных задач обработки естественного языка, заключающаяся в определении категории текста, список категорий может быть известен или нет [7]. Классификация текстов часто реализуется на основании содержания текстов, анализа элементов текста (слова, предложения и т.п.) и взаимодействия между ними [8]. Классификация может осуществляться вручную или автоматически с применением методов машинного обучения [9]. Современные методы классификации текстов требуют огромных баз данных для обучения, и способны изучать и классифицировать семантические значения текстов [10].

С развитием компьютерных технологий появились требования к созданию интеллектуальных систем, которые способны решать творческие задачи без участия человека [11]. Спустя полвека, технология машинное обучение, в том числе обработка естественных языков и классификация текстов еще далеки от совершенства [12].

Для классификации данных интернет-ресурсов требуются современные алгоритмы, способные не только обработать огромное количество информации, но и решать задачи, которые несколько лет назад решали полностью вручную [13]:

1. Разделение сайтов по тематическим каталогам [14]

2. Борьба со спамом [15]

3. Распознавание эмоциональной окраски текстов [16]

4. Персонификация рекламы [17]

и т.п.

Российские и иностранные ученые и исследователи, такие как Л. Л. Иомдин [18], А. И. Галушкин [19], А. А. Харламов [9], В. О. Толчеев [20], М. В. Киселев [21], Д. О. Жуков [22], В. Я. Цветков [23], А. О. Казенников [24], A. Ng [25], D. Jurafsky [26], J. H. Martin [26], C. D. Manning [3], R. Socher [27], T. Mikolov [28], внесли значительный вклад в развитие теории информационных систем, методов информационного поиска, методов классификации и кластеризации текстов, методов синтаксического анализа и извлечения знаний из текстов. Активно ведут работы в этих направлениях такие организации, как Институт Проблем Передачи Информации РАН, Институт системного анализа РАН, Яндекс, Mail.ru, ABBYY, Google, Facebook, Microsoft.

В диссертационной работе, на основе критического анализа существующих методов классификации текстов гипотезируется, что создание вычислительного комплекса-классификатора текстов с использованием морфологического анализа и нейро-семантических сетей может обеспечить высокое качество и быстродействие обработки и классификации текстов.

Цель и задачи исследования

Целью диссертации является разработка математического, алгоритмитиче-ского и программного обеспечения вычислительного комплекса-классификатора текстов с использованием морфологического анализа и нейро-семантических сетей.

Для достижения этой цели в диссертационной работе сформулированы следующие задачи :

1. Проведение критического анализа существующих методов представления и классификации текстов.

2. Проведение анализа методов глубокого обучения посредством искусственных нейронных сетей для обработки и классификации текстов

3. Разработка метода морфологического анализа текстов.

4. Разработка математического и программного обеспечения вычислительного комплекса семантической нейронной сети для получения векторного представления грамматических структур текстов.

5. Разработка алгоритмитического и программного обеспечения вычислительного комплекса рекурсивного автоэнкодера морфологического анализа для получения векторного представления текстов.

6. Разработка метода «К» ближайших соседей с использованием двоичного дерева.

7. Разработка архитектуры сервер-клиент и веб-интерфейса демо комплекса для морфологического анализа и классификации текстов.

8. Внедрение результатов и научных положений диссертации в практические разработки.

Объектом исследования диссертации является вычислительный комплекс морфологического анализа и классификации текстов.

Предмет исследования определен паспортом специальности 05.13.15, областями исследования: №2 - «Теоретический анализ и экспериментальное исследование функционирования вычислительных комплексов с целью улучшения их технико-экономических и эксплуатационных характеристик» и №3 - «Разработка научных методов и алгоритмов организации специальной обработки данных, хранения и ввода-вывода информации», а также перечнем задач, решаемых в диссертации.

Научная новизна работы состоит в следующем:

1. Разработан метод обработки данных для создания морфологических словарей.

2. Разработан метод морфологического анализа для предварительной обработки текстов, позволяющий методом развитых словоформ выделять морфологические признаки слов для последующей классификации.

3. Разработаны математическое и программное обеспечения вычислительного комплекса нейро-семантической сети для определения адекватного векторного представления грамматических структур текстов, который позволяет

повышать точность классификации текстов на 5-12% по сравнению с другими методами классификации.

4. Разработаны алгоритмитическое и программное обеспечения вычислительного комплекса рекурсивного автоэнкодера с объединием векторов-слов и векторов-морфологий, который позволяет повышать точность классификации текстов на 7-13% по сравнению с другими методами классификации.

5. Разработан метод «К» ближайших соседей с использованием двоичного дерева для уменьшения количества вычислительных операций, который позволяет увеличить скорость классификации текстов в 2-4 раза.

• Модуль кодирования текстов с помощью морфологического анализа. Для каждого слова, ищем его морфологические разборы и решаем морфологическую многозначность, получаем представление текста в виде массива индексов слов в словаре и их морфологических разборов.

• Модуль уменьшения числа потенциальных ближайших соседей. Для снижения количества вычислительных операций, будем сравнивать только тексты, имеющие общие термины, другими словами, нет смысла сравнивать тексты, которые не имеют никаких связей.

• Модуль поиске ближайших соседей с использованием двоичного дерева для повышения быстродействия вычислительного комплекса.

Основные результаты выносимые на защиту

1. Проведен критический анализ существующих методов представления и классификации текстов.

2. Проведен анализ методов глубокого обучения посредством искусственных нейронных сетей для обработки и классификации текстов.

3. Разработан метод морфологического анализа для предварительной обработки текстов, позволяющий методом развитых словоформ выделять морфологические признаки слов для последующей классификации.

4. Разработаны математическое и программное обеспечения вычислительного комплекса нейро-семантической сети для определения адекватного векторного представления грамматических структур текстов, который позволяет

повышать точность классификации текстов на 5-12% по сравнению с другими методами классификации.

5. Разработаны алгоритмическое и программное обеспечения вычислительного комплекса рекурсивного автоэнкодера с объединием векторов-слов и векторов-морфологий, который позволяет повышать точность классификации текстов на 7-13% по сравнению с другими методами классификации.

6. Разработаны метод «К» ближайших соседей с использованием двоичного дерева для уменьшения количества вычислительных операций, который позволяет увеличить скорость классификации текстов в 2-4 раза.

7. Разработаны архитектура сервер-клиент и веб-интерфейс демо комплекса для морфологического анализа и классификации текстов.

8. Внедрение полученных в диссертации результатов в пратические разработки.

Практическая значимость полученных результатов состоит в повышении точности классификации текстов на 5-13% по сравнению со другими методами классификации, в повышении скорости классификации текстов в 2-4 раза, так же в возможности применения морфологического анализа и нейронных сетей для решения других задач обработки естественного языка. Результаты диссертационного исследования были использованы в технологиях научно-производственного инновационного центра МИКРОСИСТЕМЫ и в исследовании системы голосового управления в Институте Военных Автоматизированных Технологий, Академия Военных Наук и Технологий, Министерство Обороны Вьетнама, что подтверждено актами о внедрении, кроме того автору был выдан патент на изобретение «Голосовая связь на естественном языке между человеком и устройством» (ЯИ 2583150) [29].

Обоснованность и достоверность результатов и выводов

определяется следующими факторами:

• Согласованностью теоретических выводов с результатами экспериментов на разных базах данных;

• Докладами на российских и международных научных конференциях и публикациями результатов исследования в рекомендованных Высшей аттестационной комиссией научных изданиях.

• Положительными результатами практического использования результатов диссертационной работы, подтвержденными актами о внедрении;

• Патентом на изобретение;

Личный вклад соискателя в работах заключается в следующем:

1. Разработка метода обработки данных для создания морфологических словарей.

2. Разработка метода морфологического анализа текстов.

3. Разработка математического и программного обеспечения вычислительного комплекса нейро-семантической сети на основе морфологических словарей.

4. Разработка алгоритмического и программного обеспечения вычислительного комплекса рекурсивного автоэнкодера с объединием векторов-слов и векторов-морфологий.

5. Разработка метода «К» ближайших соседей с использованием двоичного дерева.

Основные результаты диссертационной работы получены автором самостоятельно [30][31][32][33][34][35][36][37][38][39], совместно с коллегами [29][40][41].

Апробация результатов работы

Основное содержание работы докладывалось на 55-ой и 57-ой научных конференциях МФТИ 2012 и 2014г., XI, XIII, XIV и XV Всероссийских научных конференциях «Нейрокомпьютеры и их применение» 2013, 2015, 2016 и 2017г. а также на международной конференции «Инжиниринг и Телекоммуникации -EnT 11/2014».

Публикации автора по теме диссертации

По теме диссертации опубликовано 12 статьей в журналах и докладов на конференциях, 5 из них в списке научных изданий, зарегистрированных в Высшей аттестационной комиссией Минобрнауки России, которые рекомендуемые для опубликования основных научных результатов исследований на соискание ученой степени кандидата наук [30][31][32][40][41].

Структура диссертационной работы

Данная диссертационная работа состоит из титульного листа, оглавления, введения, пяти глав, заключения, списка литературы и приложений. Объем диссертации составляет 148 страниц формата А4, 46 рисунков и 11 таблиц. Список литературы включает 182 наименований.

Краткое содержание работы по главам

Во введении обоснована актуальность темы диссертации, определены её цель, задачи, объект и предмет исследования, сформулированы научная новизна и практическая значимость полученных результатов и приведены публикации автора по теме диссертации.

В первой главе диссертации проведен критический анализ существующих методов представления и классификации текстов.

Вторая глава посвящен анализ методов глубокого обучения посредством искусственных нейронных сетей для обработки и классификации текстов.

В третьей главе представлен математическое, алгоритмическое и программное обеспечения вычислительного комплекса-классификатора текстов с использованием морфологического анализа и нейро-семантических сетей.

В четвертой главе представлено экспериментальное исследование вычислительного комплекса-классификатора текстов.

В заключении приведены основные результаты диссертационной работы.

Приложения содержат таблицы морфологических признаков, демо, пример технического задания классификации эмоциональной окраски отзывов пользователей, патент на изобретение голосовой связи на естественном языке между человеком и устройством и акты о внедрении в практические разработки.

Благодарности

Автор выражает глубокую благодарность научному руководителю профессору д.т.н. Галушкину А. И. за постановку задач и многочисленные идеи; научному руководителю д.т.н. Харламову А. А. за постоянное внимание к работе; д.т.н. Нгуену К. Т., профессору д.т.н. Аведьяну Э. Д. и преподавателям кафедры интеллектуальных информационных систем и технологий МФТИ Воронкову И. М. и Пантюхину Д. В. за поддержку на всех этапах выполнения данной работы; всем своим коллегам за активное обсуждение результатов.

Глава 1

Критический анализ существующих методов представления и классификации текстов

1.1 Методы представления текстов 1.1.1 Статистический метод TF-IDF

TF-IDF (Term Frequency — Inverse Document Frequency) [42] это популярный метод оценки важности терминов в документах. TF-IDF есть произведение TF - частоты появления термина в документе и IDF - частоты документа в базе данных.

Задан докумен d, для термина t имеем:

t/м (1.1)

Ък Пк

где ni - сколько раз термин ti появляется в документе, а ^k nk - суммарное количество терминов документа (с учетом повторений). Таким образом, чем чаще термин появляется в документе, тем выше у него частота TF.

(1.2)

где \D\ - общее количество документов, а \(di С ti)\ - количество документов, содержащих термин t{. Таким образом, чем реже термин появляется в других документов, тем выше у него обратная частота IDF по данному документу.

tf-idf вычисляется как произведение частоты появления термина в документе и частоты документа в базе данных:

1.1.2 Векторное представление слов

Векторное представление слов [43] - это метод, в котором каждое слово представляется как числовой вектор из В качестве расстояния между словами можно использовать косинусную близость, которая является скалярным произведением нормализованных векторов. Чем ближе семантические смысли слов, тем больше косинусная близость между векторами слов [27]. Сегодня метод векторного представления слов является одним из важнейших методов обработки текстов, с помощью которого повышается точность классификации текстов.

tf - idfti,d,D = tfu,d х idfti,n.

(1.3)

Рис. 1.1: Векторное представление слов.

Метод векторного представления слов word2vec был предложен в работе [28]. word2vec — это набор алгоритмов для вычисления векторных представлений слов. На вход подается набор текстов для обучения, а на выходе набор векторов слов, которые содержатся в текстах. Word2vec собирает статистику по совместному появлению слов в фразах, после чего методами нейронных сетей решает задачу снижения размерности и выдает на выходе компактные векторные представления слов, в максимальной степени отражающие отношения этих слов в обрабатываемых текстах. Word2vec реализует две основные архитектуры — Continuous Bag of Words (CBOW) и Skip-gram.

Рис. 1.2: Методы CBOW и SkipGram. Continuous Bag-of-Words (CBOW)

Jneg = logQo(D = IK h) + kEf^pnmse[logQo(D = 0|WW, h)]. (1.4) Skip-Gram:

Jneg = log Qo(D = l|ht, w) + log Qo(D = 0lhnoise,w).

(1.5)

В работе [44] был предложен другой метод векторного представления слов С1оУе. Этот метод учитывает вероятность проявления одного слова в контексте другого слова в корпусе.

Функция потерь для модели С1оУе:

V

J =J2 f (Xij)(wTWj + bi + ~bj - logXj)2

ij=i

(1.6)

Где:

f (x) =

(x/xmax)a если x < xr

(1.7)

1 в противном случае

Близость между двумя словами можно рассчитывать как косинус угла между векторами (скалярное произведение векторов) [45]:

cos(tf) = ^AuBï = , E"=1 A г B • (1-8)

т\вii i (Аг)уЕГ=1 (вг)2

1.2 Байесовский метод для классификации текстов

Байесовский метод [46] — это класс статистических алгоритмов классификации по оценке вероятности принадлежности объекта классу. Для каждого объекта вычисляются функции правдоподобия вероятности принадлежности объекта каждому из классов. Объект принадлежит классу, с максимальной вероятность принадлежности [47].

Байесовский метод классификации основан на тем, что если известны плотности распределения каждого из классов, то функции вероятности принадлежности объекта каждому из классов можно вычислять аналитическим образом. Этот алгоритм обладает минимальной вероятностью ошибок, он простой и легко реализуется [48].

Байесовский метод классификации очень широко используется и дает удивительно хорошие результаты несмотря на его простой принцип, он обладает прочную позицию в машинном обучении, в том числе и классификация. Многие современные алгоритмы классификации были разработаны на основе байесовского метода [49].

Наивный байесовский классификатор (Naïve Bayes) [50] - это алгоритм классификации, который основан на Байесовском методе с предположением, что признаки объекта являются независимыми.

Формула Байеса для условной вероятности:

Р(А|В ) = . (1.9)

Для классификации наивный байесовский классификатор использует модели, в которых объекты представляются в виде векторов значений признаков.

Вероятность принадлежности объекта классу можно записать таким образом:

Р(С,Х\,Х2, ..., %ш) = Р{Х\,Х2, ..., Хт, С) (1.10)

= Р(Хх|Х2, ...,Хт,с) Р(Х2, ...,Хт,с) (1.11)

= Р(Хх|Х2, ...,Хт,с) Р(Х2|Хз, ...,Хт,с) Р(Хз, ...,Хт,с) (1.12) = Р(Х1| Х2, Хт, с ) Р(Х2|

x3, Хтч с)... Р(Хт-1|xm, с) Р(Хт|с).

(1.13)

(1.14)

Так как признаки объекта независимы, имеем:

Р(Хг|Хг+1, ..., Хт, с) = Р(Х»|с). (1.15)

Получаем:

Р(с,Х1,Х2, ...,Хт) = Р(Х1|с) Р(Х2|с)... Р(Хт|с). (1.16)

По формуле Байеса для условной вероятности:

т

Р(с|Х1,Х2,...,Хт) « Р(с) П Р(Х<|с). (1.17)

¿=1

В работе [51] был предложен наивный байесовский подход к классификации текстов. Каждый текст можно считать как набор слов. Вероятность того, что слово ш относится к классу с выписываем как: Вероятность класса с:

п

Р(с) = ^, (1.18)

где пс - количество текстов класса с, N - суммарное количество текстов в обучаемой выборке.

Р(^|С) = к + Г V-П^' (1.19)

где Ос - набор текстов класса с в обучаемой выборке, к - размер словаря. Вероятность того, что данный текст d относится к классу с:

Р(ф) = Р(с) П РМ^, (1.20)

где - сколько раз слово ш встречается в тексте d, Р(^) - константа. Чтобы избежать погрешность вычисления, на практике используются лог-вероятности:

Piog (c) = log( n), (1.21)

PlogMc) = log(. + "*"' ), (1.22)

+ w deDc nwjdJ

Plog(c|d) = log P(c) П P(w|c)nw4 = P log (c) + ^^ nwd P log (w|c). (1.23)

w^d w&d

Для нового текста d класс, к которому он относится определяется как класс с наибольшей вероятностью:

Cd = argmax6eo Plog(с|d). (1.24)

С одной стороны, байесовский классификатор работает очень быстро, его принцип работы простой и легко реализовать. С другой стороны, байесовский классификатор не учитывает порядок и сематические значения слов в тексте, поэтому он не подходит для задачи классификации текстов по эмоциональной окраске [52].

1.3 Метод Роччио

По методу Роччио [53], каждый объект является точкой во векторном пространстве, каждый класс имеет центроид - усреднение координат всех объектов этого класса, для нового объекта его класс определяется как класс, центроид которого находится ближе всего данного объекта [54].

Рис. 1.3: Метод Роччио.

Центроид класса с вычисляется как усреднение координат всех текстов -векторов этого класса:

= S v(d), (1.25)

1 c| deDc

где Dc - множество текстов класса c.

Класс для нового текста d определяется как ближайший к v(d) центроид:

cd = argmintac distance(fl(c),v (d)), (1.26)

где distance(x,y) - евклидово расстояние между векторами x и y. В работе [55] был изучен метод Роччио для классификации текстов, в заключение следует отметить, что метод Роччио лучше работает с классификацией новостей чем байесовский классификатор.

1.4 Метод «К» ближайших соседей

«К» ближайших соседей (англ. K Nearest Neighbors - KNN) [56] - один из самых используемых методов классификации. Для классификации объекта рассматриваем его ближайшие соседи в векторном пространстве, объект принадлежит тому классу, которому принадлежат больше всего соседей из этих ближайших соседей [57].

Рис. 1.4: Метод ^^

KNN широко используется для классификации текстов. Для начала считаем координаты текстов в пространстве [58]. Размер пространства есть количество терминов в корпусе (объем словаря). Считая ТЕ-ГОЕ для всех текстов в корпусе, получаем представления текста в виде числовых векторов, каждый компонент вектора - важность соответствующего слова для данного текста. Координаты текстов используются для решения различных задач, в том числе классификация. [59]

В работе [60] был использован метод KNN для классификации текстов. Эксперименты показали, что классификация текстов с использованием KNN выдает качество лучше чем метод Роччио и байесовский классификатор [61]. Недостаток KNN - медленная скорость [62], для классификации нового текста, нужно вычислять расстояния между этим текстом со всеми текстами в корпусе, а их количество может быть миллионы. В разделе 3.4 данной работы был предложен вычислительный комплекс алгоритма «К» ближайших соседей с использованием двоичного дерева для повышения скорости работы алгоритма.

1.5 Метод опорных векторов

Метод опорных векторов (англ. Support Vector Machine - SVM) [63] является алгоритмом машинного обучения с учителем, который широко используют для решения задачи классификации. Основная идея метода заключается в поиске гиперплоскости, которые разделяют объектов разных классов с максимальным зазором в этом пространстве, этот зазор ограничиваются двумя параллельными гиперплоскости, на которых находятся ближайшие к разделяющей гиперплоскости объекты разделяемых классов [64]. Чем дальше разделяющие гиперплоскости находятся друг от друга, тем меньше средняя ошибка классификации объектов. Метод опорных векторов хорошо работает с данными многомерных пространств [65], многие считают его одним из лучших методов классификации.

Поиск оптимальной разделяющей гиперплоскости [66]:

Для начала рассмотрим линейный классификатор для решения задачи клас-

Рис. 1.5: Метод опорных векторов.

сификации. Линейный классификатор - это прямая, которая отделяет объекты (точки) двух классов. Для классификации новой точки, если точка лежит выше прямой, то она принадлежит первому классу, если ниже — второму. Иными словами, необходимо найти вектор w и b, что для нового объекта x имеем:

w.xi + b > 0 ^ y = 1, (1.27)

w.x, + b < 0 ^ yi = -1. (1.28)

Уравнение гиперплоскости, которая разделяет классы в пространстве Rn:

wAXi + b = 0. (1.29)

Выбор разделяющей гиперплоскости может быть произвольным, нашей целю является расположение разделяющей гиперплоскости такое, чтобы расстояние между ей и ближайшими к ней объектами обоих классов были максимальным, другими словами надо найти такие w и b, что для некоторого £ >0 имеем:

w.xi + b> +£ ^ уг = 1, (1.30)

w.xi + b < —£ ^ yi = -1. (1.31)

Здесь можно умножить w и b на любую константу, неравную нулю, и результат классификации не изменится. Это свойство позволяет выбрать константу такую, чтобы для ближайших к разделяющей гиперплоскости объектов выполнялись равенство:

w.xi + b = yi. (1.32)

При оптимальном варианте все пограничные объекты находятся на крае разделяющей полосы, то есть на одинаковом расстоянии к оптимальной разделяю-

щей гиперплоскости, а остальные объекты находятся дальше от нее. Умножим пару неравенств на 1 и выберем £ =1. Таким образом, для всех объектов х{ из обучаемой выборки:

и!.Х{ + Ь > 1, если у{ = 1, (1.33)

и.х{ + Ь < -1, если у{ = -1. (1.34)

— 1 < и.х{ + Ь < 1 есть уравнение полосы, разделяющую классы. Ширина разделяющей полосы равна . Очевидно, что чем больше ширина полосы, тем точнее классифицируются объекты, соответственно, выбор (и, Ь) с самой широкой полосой является лучшим вариантом.

/ Ч к» и и

Случаи линеинои разделимости

Записываем уравнение оптимальной разделяющей полосы:

у(^.Х{ + Ь) > 1. (1.35)

Переформируем задачу, необходимо найти и и Ь, чтобы —1- было максимальным, следовательно, разделяющая полоса была максимально широкой. Для этого надо минимизировать выражение:

||и||2 = и.и. (1.36)

при линейных ограничениях у(и.х{ + Ь) > 1. Это задача оптимизации квадратичной функции при линейных ограничениях.

/ Ч к» и и

Случаи отсутствия линеинои разделимости

Для обучаемых выборок с ошибками может не существует линейный классификатор. Чтобы допускать ошибки при обучении введем дополнительную переменную > 0, которая является ошибкой на объектах Х { ЕЕ 1 ..^^п ].

Переписываем уравнение оптимальной разделяющей полосы:

у(ш.хг + Ь) > 1 - (1.37)

Необходимо решать задачу максимизации разделяющей полосы, или минимизации нормы ||ш||2 = ш.ш по ш и Ь при линейных ограничениях у(ш.хг + Ь) > 1 — Для поиска оптимальной разделяющей гиперплоскости надо минимизировать сумму:

М12

+ (1.38)

Будем решать эту задачу с помощью метода Лагранжа [67]. Чтобы использовать стандартные методы поиска минимума функции нужно формировать задачу поиска безусловного минимума. Для этого преобразуем целевую функцию, которую необходимо минимизировать 1 ш.ш+С ^г6—^г Лг(6 + уг(ш.хг — Ь) — 1).

Формулируем задачу: найти минимум по ш, Ьи максимум по Лг функции:

1 ш.ш + С ^ 6 — ^ Лг(6 + Уг (ш.Хг — Ь) — 1). (1.39)

2

г

При ограниченных условиях:

6 > 0,Лг > 0. (1.40)

В работе [68] был применен метод опорных векторов для классификации текстов, преимущества метода опорных векторов состоят в следующем:

Похожие диссертационные работы по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК

Список литературы диссертационного исследования кандидат наук Ле Мань Ха, 2017 год

Литература

[1] Chowdhury GG. Natural language processing. Annual review of information science and technology. 2003 Jan 1;37(1):51-89.

[2] Periñan-Pascual C, Arcas-Túnez F. Cognitive modules of an NLP knowledge base for language understanding. Procesamiento del Lenguaje Natural. 2007;39.

[3] Manning CD, Schütze H. Foundations of statistical natural language processing. Cambridge: MIT press; 1999 Jun 18.

[4] Socher R, Lin CC, Manning C, Ng AY. Parsing natural scenes and natural language with recursive neural networks. InProceedings of the 28th international conference on machine learning (ICML-11) 2011 (pp. 129-136).

[5] Gao J, Nie JY, Wu G, Cao G. Dependence language model for information retrieval. InProceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval 2004 Jul 25 (pp. 170-177). ACM.

[6] Forman G. An extensive empirical study of feature selection metrics for text classification. Journal of machine learning research. 2003;3(Mar):1289-305.

[7] Жонин А. А., Сергиевский Н.А., Смирнов С.А., Харламов А.А. Интеллектуализация сервисов элетронных библиотек на основе самообучаемой системы классификации контента // Программная инженерия No 8, 2012г.

[8] Yu B. An evaluation of text classification methods for literary study. Literary and Linguistic Computing. 2008 Sep 1;23(3):327-43.

[9] Харламов А. А. Способ автоматизированной классификации текстов на естественном языке. Заявка на патент на изобретение No 2013139069 от 22 августа 2013

[10] Sebastiani F. Machine learning in automated text categorization. ACM computing surveys (CSUR). 2002 Mar 1;34(1):1-47.

[11] Collobert R, Weston J. A unified architecture for natural language processing: Deep neural networks with multitask learning. InProceedings of the 25th international conference on Machine learning 2008 Jul 5 (pp. 160-167). ACM.

[12] Kawahara D, Kurohashi S. Case frame compilation from the web using highperformance computing. InProceedings of the 5th International Conference on Language Resources and Evaluation 2006 May (pp. 1344-1347).

[13] Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys, 34(1):1-47, 2002.

[14] Kosala R, Blockeel H. Web mining research: A survey. ACM Sigkdd Explorations Newsletter. 2000 Jun 1;2(1):1-5.

[15] Lai CC, Tsai MC. An empirical performance comparison of machine learning methods for spam e-mail categorization. InHybrid Intelligent Systems, 2004. HIS'04. Fourth International Conference on 2004 Dec 5 (pp. 44-48). IEEE.

[16] Pang B, Lee L, Vaithyanathan S. Sentiment classification using machine learning techniques. InProceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10 2002 Jul 6 (pp. 79-86). Association for Computational Linguistics.

[17] Fan TK, Chang CH. Sentiment-oriented contextual advertising. Knowledge and information systems. 2010 Jun 1;23(3):321-44.

[18] Иомдин ЛЛ, Апресян ЮД, Большаков ИА. Автоматическая обработка текста на естественном языке: модель согласования. Nauka; 1990.

[19] Галушкин А. И. Нейрокомпьютеры в информационных и экспертных системах. Серия "Нейрокомпьютеры и их применение книга 27, Из-во "Радиотехникам., 2007 г.

[20] Бородкин А. А., Некрасов И. В., Толчеев В. О. Методы повышения быстродействия непараметрических классификаторов в задачах обработки и анализа библиографических текстовых документов. Приложение к журналу «Информационные технологии», №11, 2013, с.1-32.

[21] Киселев М. В. Асинхронно-полихронный метод кодирования информации в импульсных нейронных сетях. Нейроинформатика 2016.

[22] Жуков Д. О. Программное обеспечение мультимедийных систем обучения и диагностики знаний. Радио и связь; 2003.

[23] Цветков В.Я. Разработка и исследование моделей и методов семантического управления интенсифицированными потоками мультимедиа в образовательном пространстве // Научная монография // Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Московский государственный технический университет радиотехники, электроники и автоматики» - М., 2013.

[24] Казенников А. О. Разработка моделей и алгоритмов для комплекса автоматической обработки и анализа потоков новостных сообщений на основе методов компьютерной лингвистики // Диссертации на соискание степени кандидата технических наук, 2014.

[25] Ng A. CS229 Lecture notes. CS229 Lecture notes. 2000;1(1):1-3.

[26] Martin JH, Jurafsky D. Speech and language processing. International Edition. 2000;710:25.

[27] Socher R, Huval B, Manning CD, Ng AY. Semantic compositionality through recursive matrix-vector spaces. InProceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural

Language Learning 2012 Jul 12 (pp. 1201-1211). Association for Computational Linguistics.

[28] Mikolov T. , Chen K. , Corrado G. , Dean J. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781. 2013 Jan 16.

[29] Романенко А. А., Кудинов М. С., Ле М. Х., Пионтковская И. И., Музычка С. А. Голосовая связь на естественном языке между человеком и устройством, патент RU 2583150, 2016.

[30] Ле Мань Ха. Свёрточная нейронная сеть для решения задачи классификации // Труды МФТИ. 2016. Т.8, No 3. С.91-97.

[31] Ле Мань Ха. Прогнозирование настроения человека по анализу текста // Информатизация и связь. 2012. No 8. С.97-98

[32] Ле Мань Ха. Оптимизация алгоритма KNN для классификации текстов // Труды МФТИ. 2015. Т. 7, No 3. С. 92-94.

[33] Ле Мань Ха - Прогнозирование настроения человека по анализу текста -55-я научная конференция МФТИ 11/2012

[34] Ле Мань Ха - Прогнозирование настроения человека по анализу текста - XI Всероссийская научная конференция «Нейрокомпьютеры и их применение» 3/2013

[35] Le Manh Ha - Sentiment Estimation - Международная конференция "Инжиниринг и Телекоммуникации - EnT 11/2014"

[36] Ле Мань Ха - Спам-фильтр с использованием метода опорных векторов -57-я научная конференция МФТИ 11/2014

[37] Ле Мань Ха - Классификация текстов с использованием метода опорных векторов - XIII Всероссийская научная конференция «Нейрокомпьютеры и их применение» 3/2015

[38] Ле Мань Ха - Алгоритм KNN для классификации текстов и его оптимизация - XIV Всероссийская научная конференция «Нейрокомпьютеры и их применение» 3/2016

[39] Ле Мань Ха - Нейросетевые подходы к классификации текстов на основе морфологического разбора - XV Всероссийская научная конференция «Нейрокомпьютеры и их применение» 3/2017

[40] А. А. Харламов, Ле Мань Ха. Нейросетевые подходы к классификации текстов на основе морфологического анализа // Труды МФТИ. 2017. Т. 9, No 2. С. 143-150.

[41] Нгуен Нгок Зиеп, Ле Мань Ха. Нейросетевой метод снятия омонимии // Труды МФТИ. 2015. Т.7, No 3. С.174-182

[42] Wu HC, Luk RW, Wong KF, Kwok KL. Interpreting tf-idf term weights as making relevance decisions. ACM Transactions on Information Systems (TOIS). 2008 Jun 1;26(3):13.

[43] Maas AL, Daly RE, Pham PT, Huang D, Ng AY, Potts C. Learning word vectors for sentiment analysis. InProceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language TechnologiesVolume 1 2011 Jun 19 (pp. 142-150). Association for Computational Linguistics.

[44] Pennington J. , Socher R. , Manning C. D. Glove: Global Vectors for Word Representation. InEMNLP 2014 Oct 25 (Vol. 14, pp. 1532-1543).

[45] Goethals B, Laur S, Lipmaa H, Mielikainen T. On private scalar product computation for privacy-preserving data mining. InICISC 2004 Dec 2 (Vol. 3506, pp. 104-120).

[46] McCallum A. , Nigam K. A comparison of event models for naive bayes text classification. InAAAI-98 workshop on learning for text categorization 1998 Jul 26 (Vol. 752, pp. 41-48).

[47] Rish I. An empirical study of the naive Bayes classifier. InIJCAI 2001 workshop on empirical methods in artificial intelligence 2001 Aug 4 (Vol. 3, No. 22, pp. 41-46). IBM.

[48] Domingos P, Pazzani M. On the optimality of the simple Bayesian classifier under zero-one loss. Machine learning. 1997 Nov 1;29(2):103-30.

[49] Dumais S, Platt J, Heckerman D, Sahami M. Inductive learning algorithms and representations for text categorization. InProceedings of the seventh international conference on Information and knowledge management 1998 Nov 1 (pp. 148-155). ACM.

[50] Zhang H, Li D. Naïve Bayes text classifier. InGranular Computing, 2007. GRC 2007. IEEE International Conference on 2007 Nov 2 (pp. 708-708). IEEE.

[51] Frank E. , Bouckaert R. R. Naive bayes for text classification with unbalanced classes. InEuropean Conference on Principles of Data Mining and Knowledge Discovery 2006 Sep 18 (pp. 503-510). Springer Berlin Heidelberg.

[52] Khan A, Baharudin B, Lee LH, Khan K. A review of machine learning algorithms for text-documents classification. Journal of advances in information technology. 2010 Feb;1(1):4-20.

[53] Miao YQ, Kamel M. Pairwise optimized Rocchio algorithm for text categorization. Pattern Recognition Letters. 2011 Jan 15;32(2):375-82.

[54] Li X, Liu B. Learning to classify texts using positive and unlabeled data. InIJCAI 2003 Aug 9 (Vol. 3, No. 2003, pp. 587-592).

[55] Joachims T. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. Carnegie-mellon univ pittsburgh pa dept of computer science; 1996 Mar.

[56] Dudani SA. The distance-weighted k-nearest-neighbor rule. IEEE Transactions on Systems, Man, and Cybernetics. 1976 Apr(4):325-7.

[57] Manning C. D. , Raghavan P. , Schütze H. Introduction to information retrieval. Cambridge: Cambridge university press; 2008 Jul 12.

[58] Song J, Su F, Tai CL, Cai S. An object-oriented progressive-simplification-based vectorization system for engineering drawings: model, algorithm, and performance. IEEE transactions on pattern analysis and machine intelligence. 2002 Aug;24(8):1048-60.

[59] Daniel J. , James H. M. Speech and Language processing. Computational Linguistics, and Speech Recognition, UK: Prentice-Hall Inc, 2000pp. 2000:22105.

[60] Tan S. An effective refinement strategy for KNN text classifier. Expert Systems with Applications. 2006 Feb 28;30(2):290-8.

[61] Yang Y, Liu X. A re-examination of text categorization methods. InProceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval 1999 Aug 1 (pp. 42-49). ACM.

[62] Gayathri K, Marimuthu A. Text document pre-processing with the KNN for classification using the SVM. InIntelligent Systems and Control (ISCO), 2013 7th International Conference on 2013 Jan 4 (pp. 453-457). IEEE.

[63] Cortes C, Vapnik V. Support vector machine. Machine learning. 1995 Sep;20(3):273-97.

[64] Ng A. Stanford CS229 Lecture notes. Support Vector Machine.

[65] Tong S, Koller D. Support vector machine active learning with applications to text classification. Journal of machine learning research. 2001;2(Nov):45-66.

[66] Лифшиц Ю. Метод опорных векторов. URL: http://logic.pdmi.ras.ru/ yura/internet/07ia.pdf. 2006.

[67] Гольштейн, Евгений Григорьевич, and Николай Владимирович Третьяков. "Модифицированные функции Лагранжа. Теория и методы оптимиза-ции."(1989).

[68] Joachims T. Text categorization with support vector machines: Learning with many relevant features. Machine learning: ECML-98. 1998:137-42.

[69] Kivinen J., Warmuth M. K. The perceptron algorithm vs. winnow: linear vs. logarithmic mistake bounds when few input variables are relevant. InProceedings of the eighth annual conference on Computational learning theory 1995 Jul 5 (pp. 289-296). ACM.

[70] Hosmer Jr DW, Lemeshow S, Sturdivant RX. Applied logistic regression. John Wiley & Sons; 2013 Apr 1.

[71] Kleinbaum, David G., and Mitchel Klein. "Analysis of matched data using logistic regression."Logistic regression. Springer New York, 2010. 389-428.

[72] Gold S, Rangarajan A. Softmax to softassign: Neural network algorithms for combinatorial optimization. Journal of Artificial Neural Networks. 1996 Aug 1;2(4):381-99.

[73] Dempster AP, Laird NM, Rubin DB. Maximum likelihood from incomplete data via the EM algorithm. Journal of the royal statistical society. Series B (methodological). 1977 Jan 1:1-38.

[74] Chen Z, Kulperger R, Jiang L. Jensen's inequality for g-expectation: part 1. Comptes Rendus Mathematique. 2003 Dec 1;337(11):725-30.

[75] Rabiner L, Juang B. An introduction to hidden Markov models. ieee assp magazine. 1986 Jan;3(1):4-16.

[76] Ramage D. Hidden Markov models fundamentals. Lecture Notes. http://cs229.stanford.edu/section/cs229-hmm.pdf. 2007 Dec 1.

[77] Ito K, Kunisch K. Augmented Lagrangian formulation of nonsmooth, convex optimization in Hilbert spaces. Lecture Notes in Pure and Applied Mathematics. Control of Partial Differential Equations and Applications. 1995 Sep 20;174:107-17.

[78] Eddy SR. Hidden markov models. Current opinion in structural biology. 1996 Jun 1;6(3):361-5.

[79] Yu SZ, Kobayashi H. An efficient forward-backward algorithm for an explicit-duration hidden Markov model. IEEE signal processing letters. 2003 Jan;10(1):11-4.

[80] Forney GD. The viterbi algorithm. Proceedings of the IEEE. 1973 Mar;61(3):268-78.

[81] Bellman, Richard. Dynamic programming. Courier Corporation, 2013.

[82] McLachlan G, Krishnan T. The EM algorithm and extensions. John Wiley and Sons; 2007 Nov 9.

[83] Devijver PA. Baum's forward-backward algorithm revisited. Pattern Recognition Letters. 1985 Dec 1;3(6):369-73.

[84] Dumais ST. Latent semantic analysis. Annual review of information science and technology. 2004 Jan 1;38(1):188-230.

[85] Bingham E, Mannila H. Random projection in dimensionality reduction: applications to image and text data. InProceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining 2001 Aug 26 (pp. 245-250). ACM.

[86] Landauer, Thomas K. Latent semantic analysis. John Wiley and Sons, Ltd, 2006.

[87] Wiener E, Pedersen JO, Weigend AS. A neural network approach to topic spotting. InProceedings of SDAIR-95, 4th annual symposium on document analysis and information retrieval 1995 Apr 24 (Vol. 317, p. 332).

[88] Лоули Д. Факторный анализ как статистический метод. Рипол Классик; 1967.

[89] Ishii N, Murai T, Yamada T, Bao Y. Text classification by combining grouping, LSA and kNN. InComputer and Information Science, 2006 and 2006 1st IEEE/ACIS International Workshop on Component-Based Software Engineering, Software Architecture and Reuse. ICIS-COMSAR 2006. 5th IEEE/ACIS International Conference on 2006 Jul 10 (pp. 148-154). IEEE.

[90] Hinton G. A practical guide to training restricted Boltzmann machines. Momentum. 2010 Aug 2;9(1):926.

[91] Хайкин С. Нейронные сети: полный курс. 2-е изд. — М.: Вильямс, 2006.

[92] Hinton G. E. , Salakhutdinov R. R. Replicated softmax: an undirected topic model. InAdvances in neural information processing systems 2009 (pp. 16071614).

[93] Yu B, Xu ZB, Li CH. Latent semantic analysis for text categorization using neural network. Knowledge-Based Systems. 2008 Dec 31;21(8):900-4.

[94] Беклемишев, Д. В. Дополнительные главы линейной алгебры. "Нау^ Главная редакция физико-математической литературы, 1983.

[95] Brants T, Chen F, Tsochantaridis I. Topic-based document segmentation with probabilistic latent semantic analysis. InProceedings of the eleventh international conference on Information and knowledge management 2002 Nov 4 (pp. 211-218). ACM.

[96] Hofmann T. Probabilistic latent semantic indexing. InProceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval 1999 Aug 1 (pp. 50-57). ACM.

[97] Воронцов К. В. Вероятностное тематическое моделирование. Москва. 2013 Oct.

[98] Никулин ВН. О разложении матриц при помощи метода стохастического градиентного спуска в приложении к задаче направляемой классификации микрочипов. Компьютерные исследования и моделирование. 2013;5(2):131-40.

[99] Akaike H. Information theory and an extension of the maximum likelihood principle. InSelected Papers of Hirotugu Akaike 1998 (pp. 199-213). Springer New York.

[100] Gaussier E, Goutte C. Relation between PLSA and NMF and implications. InProceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval 2005 Aug 15 (pp. 601-602). ACM.

[101] Socher R., Pennington J., Huang E. H., Ng A., Manning C. D. Semi-supervised recursive autoencoders for predicting sentiment distributions. InProceedings of the conference on empirical methods in natural language processing 2011 Jul 27 (pp. 151-161). Association for Computational Linguistics.

[102] Socher R, Huang EH, Pennin J, Manning CD, Ng AY. Dynamic pooling and unfolding recursive autoencoders for paraphrase detection. InAdvances in Neural Information Processing Systems 2011 (pp. 801-809).

[103] Memisevic R, Zach C, Pollefeys M, Hinton GE. Gated softmax classification. InAdvances in neural information processing systems 2010 (pp. 1603-1611).

[104] Dunne RA, Campbell NA. On the pairing of the softmax activation and cross-entropy penalty functions and the derivation of the softmax activation function. InProc. 8th Aust. Conf. on the Neural Networks, Melbourne, 181 1997 (Vol. 185).

[105] Mandic DP. A generalized normalized gradient descent algorithm. IEEE Signal Processing Letters. 2004 Feb;11(2):115-8.

[106] Kim Y. Convolutional neural networks for sentence classification. arXiv preprint arXiv:1408.5882. 2014 Aug 25.

[107] Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences. arXiv preprint arXiv:1404.2188. 2014 Apr 8.

[108] Margarit H, Subramaniam R. A batch-normalized recurrent network for sentiment classification. Advances in Neural Information Processing Systems. 2016.

[109] Liu P., Qiu X., Huang X. Recurrent neural network for text classification with multi-task learning. arXiv preprint arXiv:1605.05101. 2016 May 17.

[110] I-Ting Fang. Deep Learning for Query Semantic Domains Classification. 2016.

[111] Галушкин А. И. Теория нейронных сетей. М.: ИПРЖР; 2000.

[112] Галушкин А. И., Фомин Ю.И., Нейронные сети, как линейные последовательностью машины. Из-во МАИ, 1991 г.

[113] Hepner GF. Artificial neural network classification using a minimal training set. Comparison to conventional supervised classification. Photogrammetric Engineering and Remote Sensing. 1990;56(4):469-73.

[114] Богданов Ю. М., Галушкин А. И., Старовойтов А. В. - Направления фундаментальных исследований в области нейросетевыхтехнологий - Информатизация и связь 2012(8):5-9.

[115] Cochocki A, Unbehauen R. Neural networks for optimization and signal processing. John Wiley & Sons, Inc.; 1993 Jun 1.

[116] Lee KY, Cha YT, Park JH. Short-term load forecasting using an artificial neural network. IEEE Transactions on Power Systems. 1992 Feb;7(1):124-32.

[117] Галушкин А. И., Тюхов Б.П., Василькова Т.А., Слободенюк В.А. Анализ динамики систем распознавания нестационарных образов. Труды МИЭМ. вып. 23, 1971 г.

[118] Demuth HB, Beale MH, De Jess O, Hagan MT. Neural network design. Martin Hagan; 2014 Sep 1.

[119] Hornik K, Stinchcombe M, White H. Multilayer feedforward networks are universal approximators. Neural networks. 1989 Dec 31;2(5):359-66.

[120] Demuth HB, Beale MH, De Jess O, Hagan MT. Neural network design. Martin Hagan; 2014 Sep 1.

[121] Krogh A, Vedelsby J. Neural network ensembles, cross validation, and active learning. Advances in neural information processing systems. 1995 May;7:231-8.

[122] Benediktsson, Jon A., Philip H. Swain, and Okan K. Ersoy. "Neural network approaches versus statistical methods in classification of multisource remote sensing data."(1990).

[123] Tu JV. Advantages and disadvantages of using artificial neural networks versus logistic regression for predicting medical outcomes. Journal of clinical epidemiology. 1996 Nov 1;49(11):1225-31.

[124] Patterson DW. Artificial neural networks: theory and applications. Prentice Hall PTR; 1998 Aug 1.

[125] Fausett LV. Fundamentals of neural networks. Prentice-Hall; 1994.

[126] White H. Artificial neural networks: approximation and learning theory. Blackwell Publishers, Inc.; 1992 Oct 1.

[127] Галушкин А. И. Синтез многослойных систем распознавания образов. — М.: «Энергия», 1974.

[128] Werbos P. J., Beyond regression: New tools for prediction and analysis in the behavioral sciences. Ph.D. thesis, Harvard University, Cambridge, MA, 1974.

[129] Leshno M, Lin VY, Pinkus A, Schocken S. Multilayer feedforward networks with a nonpolynomial activation function can approximate any function. Neural networks. 1993 Dec 31;6(6):861-7.

[130] Rummelhart D. E., Hinton G. E., Williams R. J. Learning internal representations by error propagation // Vol. 1 of Computational models of cognition and perception, chap. 8. — Cambridge, MA: MIT Press, 1986. — Pp. 319-362.

[131] Воронцов К. В. Математические методы обучения по прецедентам (теория обучения машин). Москва. 2011.

[132] Murata N, Yoshizawa S, Amari SI. Network information criterion-determining the number of hidden units for an artificial neural network model. IEEE Transactions on Neural Networks. 1994 Nov;5(6):865-72.

[133] Lagaris IE, Likas A, Fotiadis DI. Artificial neural networks for solving ordinary and partial differential equations. IEEE Transactions on Neural Networks. 1998 Sep;9(5):987-1000.

[134] Mandic DP. A generalized normalized gradient descent algorithm. IEEE Signal Processing Letters. 2004 Feb;11(2):115-8.

[135] Bottou L. Large-scale machine learning with stochastic gradient descent. InProceedings of C0MPSTAT'2010 2010 (pp. 177-186). Physica-Verlag HD.

[136] Hinton G. E., Salakhutdinov R. R. Reducing the dimensionality of data with neural networks. science. 2006 Jul 28;313(5786):504-7.

[137] Lee H., Grosse R., Ranganath R., Ng A. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. InProceedings of the 26th annual international conference on machine learning 2009 Jun 14 (pp. 609-616). ACM.

[138] Bengio Y. Learning deep architectures for AI. Foundations and trends® in Machine Learning. 2009 Nov 15;2(1):1-27.

[139] Королев ВЮ. ЕМ-алгоритм, его модификации и их применение к задаче разделения смесей вероятностных распределений. Теоретический обзор. М. 2007.

[140] Andrews N. O., Fox E. A. Recent developments in document clustering. Technical report, Computer Science, Virginia Tech; 2007 Oct 16.

[141] Qi Y, Wang Y, Zheng X, Wu Z. Robust feature learning by stacked autoencoder with maximum correntropy criterion. InAcoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on 2014 May 4 (pp. 6716-6720). IEEE.

[142] Vincent P, Larochelle H, Lajoie I, Bengio Y, Manzagol PA. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion. Journal of Machine Learning Research. 2010;11(Dec):3371-408.

[143] Denny Britz, Implementing a CNN for Text Classification in TensorFlow, 2015.

[144] LeCun Y. LeNet-5, convolutional neural networks. URL: http://yann. lecun. com/exdb/lenet. 2015.

[145] Bengio Y., Courville A., Vincent P. Representation learning: A review and new perspectives. IEEE transactions on pattern analysis and machine intelligence. 2013 Aug;35(8):1798-828.

[146] Bengio Y., LeCun Y. Scaling learning algorithms towards AI. Large-scale kernel machines. 2007 Sep;34(5):1-41.

[147] Brants, Thorsten, and Alex Franz. Web 1T 5-gram Version 1 LDC2006T13. DVD. Philadelphia: Linguistic Data Consortium, 2006.

[148] Funahashi KI, Nakamura Y. Approximation of dynamical systems by continuous time recurrent neural networks. Neural networks. 1993 Dec 31;6(6):801-6.

[149] Mikolov T, Karafiat M, Burget L, Cernocky J, Khudanpur S. Recurrent neural network based language model. InInterspeech 2010 Sep 26 (Vol. 2, p. 3).

[150] Hochreiter S, Schmidhuber J. Long short-term memory. Neural computation. 1997 Nov 15;9(8):1735-80.

[151] Харламов А.А., Ермоленко Т.В. Автоматическое формирование неоднородной семантической сети на основе выявления ключевых предикатных структур предложений текста // Труды Международной научно-технической конференции «Открытые семантические технологии проектирования интеллектуальных систем» (OSTIS'2012), - Минск: 2012

[152] Lee J. Y., Dernoncourt F. Sequential Short-Text Classification with Recurrent and Convolutional Neural Networks. InProceedings of NAACL-HLT 2016 (pp. 515-520).

[153] Narayanan V., Arora I., Bhatia A. Fast and accurate sentiment classification using an enhanced Naive Bayes model. InInternational Conference on Intelligent Data Engineering and Automated Learning 2013 Oct 20 (pp. 194-201). Springer Berlin Heidelberg.

[154] Zhaopeng Tu, Yang Liu, Lifeng Shang, Xiaohua Liu, Hang Li, Neural Machine Translation with Reconstruction. 2017.

[155] Luong M. T., Manning C. D. Stanford neural machine translation systems for spoken language domains. InProceedings of the International Workshop on Spoken Language Translation 2015.

[156] Andrew Carstairs-McCarthy, An Introduction to English Morphology: Words and Their Structure, Edinburgh: Edinburgh University Press; 2002.

[157] Харламов А. А., Ермоленко Т. В. Разработка компонента синтаксического анализа предложений русского языка для интеллектуальной системы обработки естественно-языкового текста // Программная инженерия No 7, 2013. Стр. 37-47

[158] А. А. Харламов Когнитивный подход к анализу текстов в технологии автоматического смыслового анализа текстов TextAnalyst //В сборнике «Актуальные вопросы теоретической и прикладной фонетики» - М.:, 2013 - С. 398 - 428

[159] Усков ИВ. Лемматизация русских текстов компьютером. Автоматизация, мехатроника, Информационные технологии-Омск. 2013:182-5.

[160] Зализняк А. А."Грамматический словарь русского языка"М.: Русский язык, 1980 г.

[161] Lima SD. Morphological analysis in sentence reading. Journal of Memory and Language. 1987 Feb 28;26(1):84-99.

[162] Молдован А. М. Национальный корпус русского языка. Вестник Российской академии наук. 2007;77(6):498-504.

[163] Lee YS. Morphological analysis for statistical machine translation. InProceedings of HLT-NAACL 2004: Short Papers 2004 May 2 (pp. 57-60). Association for Computational Linguistics.

[164] Carus AB, Wiesner M, Boone K, inventors; Inso Corporation, assignee. Method and apparatus for morphological analysis and generation of natural language text. United States patent US 5,794,177. 1998 Aug 11.

[165] Грановский Д. В., Бочаров В. В., Бичинева С. В. "Открытый корпус: принципы работы и перспективы."(2010): 19-22.

[166] Erjavec T, Ignat C, Pouliquen B, Steinberger R. Massive multi lingual corpus compilation: Acquis Communautaire and totale. Archives of Control Science. 2005 Apr 21;15(4):529.

[167] Marcus M., Kim G., Marcinkiewicz M. A., MacIntyre R., Bies A., Ferguson M., Katz K., Schasberger B. The Penn Treebank: annotating predicate argument structure. InProceedings of the workshop on Human Language Technology 1994 Mar 8 (pp. 114-119). Association for Computational Linguistics.

[168] Knuth D. E. The Art of Computer Programming: Volume 3: Sorting and Searching. Addison-Wesley Professional; 1998 Apr 24.

[169] Schulz S, Hahn U. Morpheme-based, cross-lingual indexing for medical document retrieval. International Journal of Medical Informatics. 2000 Sep 1;58:87-99.

[170] Zavrel J, Degroeve S, Kool A, Daelemans W, Jokinen K. Diverse classifiers for NLP disambiguation tasks comparisons, optimization, combination, and evolution. InTwente Workshops on Language Technology 2000 Nov 22 (Vol. 18, pp. 201-221).

[171] Hindle D. Acquiring disambiguation rules from text. InProceedings of the 27th annual meeting on Association for Computational Linguistics 1989 Jun 26 (pp. 118-125). Association for Computational Linguistics.

[172] Hajic J., Krbec P., Kveton P., Oliva K., Petkevic V. Serial combination of rules and statistics: A case study in Czech tagging. InProceedings of the 39th Annual Meeting on Association for Computational Linguistics 2001 Jul 6 (pp. 268-275). Association for Computational Linguistics.

[173] Thede S. M. , Harper M. P. A second-order hidden Markov model for part-of-speech tagging. InProceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics 1999 Jun 20 (pp. 175-182). Association for Computational Linguistics.

[174] Memisevic R., Zach C., Pollefeys M., Hinton G. E. Gated softmax classification. In Advances in neural information processing systems 2010 (pp. 1603-1611).

[175] Van Den Berg MH, Thione GL, Walters CP, Crouch RS, inventors; Microsoft Corporation, assignee. Indexing role hierarchies for words in a search index. United States patent US 8,229,730. 2012 Jul 24.

[176] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167. 2015 Feb 11.

[177] Zhang H, Berg AC, Maire M, Malik J. SVM-KNN: Discriminative nearest neighbor classification for visual category recognition. InComputer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on 2006 (Vol. 2, pp. 2126-2136). IEEE.

[178] Thomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest, Clifford Stein, Introduction to algorithms. Cambridge: MIT press; 2001 Sep.

[179] Abadi M., Agarwal A., Barham P., Brevdo E., Chen Z., Citro C., Corrado G., Davis A., Dean J., Devin M., Ghemawat S. TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems. 2015.

[180] Willard DE. New trie data structures which support very fast search operations. Journal of Computer and System Sciences. 1984 Jun 1;28(3):379-94.

[181] Forney GD. The viterbi algorithm. Proceedings of the IEEE. 1973 Mar;61(3):268-78.

[182] Efron B., Tibshirani R. Bootstrap methods for standard errors, confidence intervals, and other measures of statistical accuracy. Statistical science. 1986 Feb 1:54-75.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.