Автоматическое распознавание точки зрения автора текста на основе ансамблей методов машинного обучения тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Вычегжанин Сергей Владимирович

  • Вычегжанин Сергей Владимирович
  • кандидат науккандидат наук
  • 2021, ФГБОУ ВО «Нижегородский государственный технический университет им. Р.Е. Алексеева»
  • Специальность ВАК РФ05.13.17
  • Количество страниц 167
Вычегжанин Сергей Владимирович. Автоматическое распознавание точки зрения автора текста на основе ансамблей методов машинного обучения: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГБОУ ВО «Нижегородский государственный технический университет им. Р.Е. Алексеева». 2021. 167 с.

Оглавление диссертации кандидат наук Вычегжанин Сергей Владимирович

ВВЕДЕНИЕ

ГЛАВА 1. ЗАДАЧА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ТОЧКИ ЗРЕНИЯ АВТОРА ТЕКСТА

1.1. Формальная постановка задачи распознавания точки зрения автора

1.2. Постановка задачи машинного обучения

1.3. Предварительная обработка текстовых данных

1.4. Модели представления текста

1.5. Подходы к классификации текстовых документов

1.5.1. Линейный подход

1.5.2. Вероятностный подход

1.5.3. Метрический подход

1.5.4. Логический подход

1.5.5. Ансамблевый подход

1.5.6. Нейросетевой подход

1.6. Оценка качества классификации

1.6.1. Меры качества классификации

1.6.2. Процедура ^-кратной перекрестной проверки

1.6.3. Непараметрический критерий Уилкоксона

1.7. Выводы по главе

ГЛАВА 2. МЕТОД И АЛГОРИТМЫ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ТОЧКИ ЗРЕНИЯ АВТОРА ТЕКСТА

2.1. Определение количества релевантных признаков

2.1.1. Методы ранжирования и выбора количества признаков

2.1.2. Алгоритм определения количества релевантных признаков

2.2. Определение множества релевантных признаков

2.2.1. Подходы к построению ансамблей методов отбора признаков

2.2.2. Алгоритм определения множества релевантных признаков

2.3. Формирование ансамбля классификаторов

2.3.1. Подходы к составлению ансамблей классификаторов

2.3.2. Алгоритм формирования ансамбля классификаторов

2.4. Метод распознавания точки зрения автора текста

2.5. Выводы по главе

ГЛАВА 3. СТРУКТУРА И ПРОГРАММНАЯ РЕАЛИЗАЦИЯ СИСТЕМЫ РАСПОЗНАВАНИЯ ТОЧКИ ЗРЕНИЯ АВТОРА ТЕКСТА

3.1. Структура системы распознавания точки зрения автора

3.2. Особенности программной реализации

3.3. Графический интерфейс пользователя

3.4. Выводы по главе

ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ

4.1. Текстовые корпуса

4.1.1. Англоязычный корпус

4.1.2. Русскоязычный корпус

4.2. Результаты применения алгоритма определения количества релевантных признаков

4.3. Результаты применения алгоритма определения множества релевантных признаков

4.4. Результаты применения алгоритма формирования ансамбля классификаторов

4.5. Исследование метода распознавания точки зрения автора текста

4.6. Выводы по главе

ЗАКЛЮЧЕНИЕ

СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ

СПИСОК ЛИТЕРАТУРЫ

ПРИЛОЖЕНИЯ

Приложение 1. Копия свидетельства о государственной регистрации

программы для ЭВМ

Приложение 2. Копии документов, подтверждающих внедрение результатов диссертационного исследования

ВВЕДЕНИЕ

Актуальность темы исследования. В последнее время в связи с развитием компьютерных технологий и глобальной сети Интернет среди участников информационного обмена наблюдается стремительный рост популярности социальных медиа. К ним относятся социальные сети, блоги, микроблоги, интернет-форумы и др. Перечисленные интернет-ресурсы позволяют пользователям свободно выражать свою точку зрения в форме текстовых сообщений, в которых содержится большое количество ценной информации. Например, коллекция сообщений, посвященных системе образования в Российской Федерации, может содержать точки зрения пользователей о едином государственном экзамене в школах. Анализ данных сообщений позволит выявить отношение общества к введенной форме государственной итоговой аттестации и спрогнозировать последствия изменений в системе образования. Проблема извлечения этой информации из огромного массива данных является одной из ключевых проблем, стоящих перед компьютерной лингвистикой - областью исследований, в которой используются математические методы и компьютерные инструменты для автоматической обработки естественного языка. Перспективным направлением компьютерной лингвистики является автоматическое распознавание точки зрения (stance detection) автора текста [131].

Задача распознавания точки зрения автора текста заключается в классификации документов на заданное количество классов по шкале позиций авторов. В данной задаче выделяют шкалы двух типов: двухзначная, содержащая позиции «за» и «против», и многозначная, содержащая дополнительно нейтральную позицию и/или невозможность определения позиции. Распознавание точки зрения автора применяется для выявления позиции социальных сообществ по отношению к актуальным проблемам (миграция населения, глобализация, генно-модифицированные продукты и

т. п.); для рекомендации пользователям веб-контента, соответствующего или противоречащего их точке зрения; для поиска подходящих аргументов в поддержку или против заданной позиции по дискуссионным вопросам на деловых совещаниях; для прогнозирования направления изменения цен на рынках.

Проблеме определения точки зрения автора текста уделяется особое внимание исследователей в области компьютерной лингвистики. В последние несколько лет одним из популярных направлений международного семинара SemEval, посвященного оценке систем автоматической обработки текстов, выступает распознавание точки зрения автора текста. В 2016 году [92] данная задача решалась участниками семинара в отношении текстовых документов, содержащих точки зрения авторов по отношению к политическим деятелям, религиозным взглядам, общественным движениям, социально значимым проблемам и климатическим процессам, а в 2017 [44] и 2019 [59] годах с помощью определения точек зрения авторов комментариев к новостным сообщениям устанавливалась истинность или ложность новостей. Следует отметить, что в соревнованиях использовались коллекции англоязычных текстов, составленных из сообщений пользователей Twitter. Однако существующие подходы имеют невысокую точность вследствие ряда особенностей рассматриваемой задачи: приведение автором доводов в пользу своей позиции и против другой позиции, использование в тексте иронии, сарказма и др. Недавний обзор исследований [131, c. 41107] показывает, что для существующих методов значение F1-меры, оценивающей качество решения задачи, не превышает 0,75. Таким образом, актуальной научно-технической проблемой является невысокая точность методов автоматического распознавания точки зрения автора текста. Важный вклад в развитие данного направления исследований также может внести разработка лингвистических ресурсов в виде русскоязычных текстовых корпусов, так как в настоящее время для русского языка наблюдается недостаток текстовых корпусов, содержащих разные точки зрения авторов.

Важный вклад в область автоматической обработки текста внесли такие отечественные и зарубежные ученые, как М. С. Бурцев, К. В. Воронцов, Б. В. Добров, В. В. Иванов, Л. Л. Иомдин, Л. С. Ломакина, Н. В. Лукашевич,

A. Г. Пазельская, П. В. Паничева, Ю. В. Рубцова, В. Д. Соловьев, А. С. Суркова, С. Ю. Толдова, Д. Ю. Турдаков, Е. В. Тутубалина, И. И. Четверкин, E. Cambria, M. Dragoni, A. F. Gelbukh, I. Gurevych, Y. He, A. Hussain, D. Jurafsky, S. Kiritchenko, B. Liu, C. D. Manning, S. M. Mohammad, B. Pang, S. Poria,

B. W. Schuller, P. Sobhani, M. Stede, J. Wiebe, M. Wojatzki и др.

Объект исследования - корпуса текстовых документов на естественном языке.

Предмет исследования - методы и алгоритмы автоматического распознавания точки зрения автора текста.

Цель и задачи

Целью работы является повышение точности автоматического распознавания точек зрения авторов текстовых документов на основе разработки композиционного подхода.

Задачи:

1. Разработать метод распознавания точки зрения автора текста на основе композиционного подхода.

2. Разработать алгоритмы определения количества релевантных признаков и формирования множества релевантных признаков.

3. Разработать алгоритм формирования ансамбля классификаторов.

4. Разработать структуру и программную реализацию системы распознавания точки зрения автора текста.

5. Выполнить экспериментальное исследование эффективности разработанных алгоритмов, метода и системы распознавания точки зрения автора текста.

Область исследования

Область исследования соответствует пунктам 5, 6 и 14 паспорта специальности 05.13.17 «Теоретические основы информатики» в части разработки и исследования моделей и алгоритмов анализа текста (п. 5), разработки принципов и методов извлечения данных из текстов на естественном языке (п. 6), разработки теоретических основ создания программных систем для новых информационных технологий (п. 14).

Научная новизна

1. Разработан метод распознавания точки зрения автора текста (ESD1), основанный на алгоритмах DNRFAF2, DSRFE3 и DECCV4, предназначенный для классификации текстов по заданным классам позиций авторов, отличающийся от известных способом совместного сокращения размерности признакового пространства и построения композиции классификаторов.

2. Разработан алгоритм определения количества релевантных признаков (DNRFAF), предназначенный для поиска числа наиболее информативных признаков, необходимых для решения задачи распознавания точки зрения автора текста, отличающийся от известных одновременной минимизацией количества признаков и максимизацией меры качества решения задачи в зависимости от обучающих данных на основе анализа скорости роста аппроксимирующей функции.

3. Разработан алгоритм определения множества релевантных признаков (DSRFE), предназначенный для сокращения размерности признакового пространства и формирования набора признаков, содержащего наиболее значимые для решения задачи распознавания точки зрения автора текста признаки, отличающийся от известных способом формирования нескольких подмножеств признаков на основе гомогенных ансамблей методов отбора

1 ESD - Ensemble-based Stance Detection.

2 DNRFAF - Determining the Number of Relevant Features by the Approximating Function.

3 DSRFE - Determining the Set of Relevant Features by Ensemble.

4 DECCV - Determining the Ensemble of Classifiers by the Cross-validation.

признаков и способом комбинирования этих подмножеств с помощью операций пересечения и объединения.

4. Разработан алгоритм формирования ансамбля классификаторов (ЭЕССУ), предназначенный для составления ансамбля алгоритмов машинного обучения, наилучшим образом совместно решающих задачу распознавания точки зрения автора текста, отличающийся от известных двухэтапным процессом формирования ансамбля на основе процедуры д-кратной перекрестной проверки.

Практическая значимость работы

В диссертации разработана программная система распознавания точки зрения автора текстового документа, основанная на предложенных методе и алгоритмах, которая предназначена для использования в качестве инструмента автоматического анализа текстовых корпусов с целью определения точек зрения авторов текстов относительно интересуемого целевого объекта. Система может служить отдельным независимым средством анализа текстов на естественном языке или применяться в качестве одного из компонентов более сложного программного обеспечения, выполняющего поиск документов, соответствующих интересам пользователей.

Методология и методы исследования

Для решения поставленных задач использовались методы компьютерной лингвистики, машинного обучения, теории информационного поиска, теории вероятностей и математической статистики, теории информации, математического анализа; для реализации программной системы - методы структурного и объектно-ориентированного программирования.

Положения, выносимые на защиту

1. Метод распознавания точки зрения автора текста ЕБЭ, позволяющий классифицировать тексты по заданным классам позиций авторов.

2. Алгоритм определения количества релевантных признаков DNRFAF, позволяющий находить минимальное число признаков, учитываемых в модели представления текста, в зависимости от обучающих данных, сохраняя при этом качество решения задачи на высоком уровне.

3. Алгоритм определения множества релевантных признаков DSRFE, повышающий качество классификации при меньшем по размеру множестве признаков по сравнению с полным множеством за счет применения алгоритма DNRFAF и способа формирования ансамблей методов отбора признаков.

4. Алгоритм формирования ансамбля методов машинного обучения DECCV, повышающий качество классификации (по сравнению с известными классификаторами) и определяющий наилучшую композицию базовых классификаторов из предложенного набора на основе процедуры q-кратной перекрестной проверки.

5. Результаты экспериментальных исследований алгоритмов DNRFAF, DSRFE, DECCV и метода ESD на русскоязычном и англоязычном корпусах текстовых документов, содержащих позиции авторов.

Степень достоверности и апробация работы

Основные положения и результаты диссертационной работы доложены и обсуждены на следующих научно-технических конференциях:

1. XIV Международная научно-методическая конференция «Информатика: проблемы, методология, технологии», г. Воронеж (2014 г.);

2. XV Международная научно-методическая конференция «Информатика: проблемы, методология, технологии», г. Воронеж (2015 г.);

3. 6th International Conference on Analysis of Images, Social Networks and Texts (AIST), г. Москва (2017 г.);

4. XIX Всероссийская научно-практическая конференция «Общество, наука, инновации», г. Киров (2019 г.);

5. XIV Международная научно-методическая конференция «Информатика: проблемы, методология, технологии», г. Воронеж (2019 г.);

6. 8th International Conference on Analysis of Images, Social Networks and Texts (AIST), г. Казань (2019 г.);

7. 9th International Conference on Information Communication and Management (ICICM-2019), Prague, Czech Republic (2019 г.);

8. Открытая международная конференция ИСП РАН им. В.П. Иванникова, г. Москва (2019 г.);

9. XIX Всероссийская молодежная научно-техническая конференция «Будущее технической науки», г. Нижний Новгород (2020 г.).

Публикации

По теме диссертации опубликовано 14 печатных работ, в том числе три статьи в рецензируемых научных журналах из перечня ВАК РФ по специальности 05.13.17 [10, 13, 14], четыре статьи в изданиях, входящих в реферативную базу данных Scopus [125-128], одна статья в журнале из перечня ВАК РФ по другим специальностям [8], одна депонированная статья в ВИНИТИ РАН [7] и пять статей в других изданиях [9, 11, 12, 15, 16]. Получено свидетельство Федеральной службы по интеллектуальной собственности о государственной регистрации программы для ЭВМ [6].

Внедрение результатов

Полученные в диссертационном исследовании результаты использованы при выполнении работ по следующим проектам:

1. «Разработка модели и программного средства автоматического распознавания точек зрения авторов текстовых документов», выполненной по гранту для студентов и аспирантов ВятГУ, номер проекта 008-16-гр (2016 г.).

2. «Разработка метода аспектно-эмоционального анализа текста на основе тонально-ориентированных распределенных представлений слов», выполненной по гранту Российского фонда фундаментальных исследований, номер проекта 16-37-00311 мол_а (2016-2017 гг.).

3. «Разработка и исследование словарей оценочной лексики для анализа тональности текстов», выполненной в рамках государственного задания Министерства образования и науки Российской Федерации, номер проекта 34.2092.2017/4.6 (2017-2019 гг.).

4. «Обзор современных словарей оценочной лексики для анализа мнений на русском и английском языках», выполненной по гранту Российского фонда фундаментальных исследований, номер проекта 19-17-50117 (2019-2020 гг.)

Диссертационная работа поддержана стипендий Правительства Российской Федерации для направлений подготовки, соответствующим приоритетным направлениям модернизации и технологического развития российской экономики (2016 г., 2018-2019 гг.).

Метод и алгоритмы распознавания точки зрения автора текста реализованы в виде программной системы и внедрены в работу АО «Научно-исследовательский институт средств вычислительной техники» (г. Киров) и в учебный процесс Вятского государственного университета при подготовке бакалавров и магистров по направлениям «Фундаментальная информатика и информационные технологии» и «Прикладная информатика».

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Автоматическое распознавание точки зрения автора текста на основе ансамблей методов машинного обучения»

Краткая характеристика работы

Во введении приводятся обоснование актуальности темы исследования, цель и задачи, формулировка научной новизны и практической значимости работы, перечисление методов исследования и выносимых на защиту основных положений диссертационной работы, сведения об апробации и внедрении результатов исследования.

В первой главе представлена формальная постановка задачи распознавания точки зрения автора текста и задачи машинного обучения с учителем. Рассмотрены модели текстового представления и подходы к классификации текстовых документов. Приведены основные меры для оценки качества классификации, способы получения объективных оценок качества и проверки статистической значимости результатов.

Вторая глава содержит описание разработанных алгоритмов определения количества и множества релевантных признаков, алгоритма формирования ансамбля классификаторов, а также основанного на них метода решения задачи распознавания точки зрения автора текста.

В третьей главе описана структура разработанной системы распознавания точки зрения автора текста, представлены диаграмма классов системы и графический интерфейс пользователя.

Четвертая глава содержит характеристики русскоязычного и англоязычного корпусов текстовых документов, с использованием которых осуществлялось исследование эффективности предложенного метода и алгоритмов. Приведены оценки качества классификации текстов, полученные на данных корпусах, в сравнении с современными методами.

В заключении сформулированы выводы и перечислены основные результаты, полученные в процессе выполнения диссертационной работы.

ГЛАВА 1. ЗАДАЧА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ТОЧКИ ЗРЕНИЯ АВТОРА

ТЕКСТА

1.1. Формальная постановка задачи распознавания точки

зрения автора

Развитие сети Интернет позволило накопить огромный объем текстовых данных, в которых выражены мнения пользователей, что послужило важным условием возникновения задачи извлечения мнений из текстов автоматическим способом. Под мнением понимают суждение автора, содержащее эмоциональную оценку по отношению к некоторому объекту. Объектом мнения может быть предмет, факт, процесс или явление. Одной из известных задач компьютерной лингвистики является задача автоматического анализа тональности (sentiment analysis) [80], т. е. определения выраженного в тексте эмоционального отношения автора к некоторому объекту. С задачей анализа тональности тесно связана задача автоматического распознавания точки зрения (позиции) автора текста (stance detection), которая заключается в автоматическом определении отношения автора к некоторому объекту мнения, выражающееся в поддержке автором данного объекта, или выступлении автора против данного объекта, или нейтральной позиции автора к объекту. В качестве целевого объекта в данной задаче может выступать отдельная личность, коммерческая организация, политическая партия, социальное движение, товар, услуга и т. п.

Постановка задачи распознавания точки зрения автора текста формулируется следующим образом: для заданного корпуса текстовых документов D, содержащих точки зрения авторов относительно некоторого

целевого объекта д, и шкалы позиций авторов S построить функцию (классификатор) с:

c-.DgXS^ [true, false}. (1.1)

Задача распознавания точки зрения автора текста является задачей определения принадлежности текстовых документов к заданным классам позиций авторов.

Выделяют следующие основные классы позиций [51, 92]:

1. За (favor) - на основании текста можно сделать вывод, что автор является сторонником целевого объекта.

Пример51. Целевой объект: ЕГЭ в школе. Текст: ЕГЭ - отличная штука, прогресс в сфере образования. Сам сдавал его давно, но остались только приятные воспоминания.

2. Против (against) - на основании текста можно сделать вывод, что автор является противником целевого объекта.

Пример 2. Целевой объект: Вакцинация детей. Текст: Мы прививки не делаем и не будем, считаю, что это огромная нагрузка на нервную и иммунную систему.

3. Нейтрально (neutral) - по тексту можно определить наличие нейтральной позиции автора к объекту («Я нейтрально отношусь к ...»).

Пример 3. Целевой объект: Клонирование человека. Текст: Отношусь к этому нейтрально. Но немного не понял первый пост... ведь нельзя возродить

5 Все примеры сообщений приводятся с сохранением авторской орфографии и пунктуации

великого человека со всей его памятью и знаниями. Внешне может он и будет похож, но все остальное будет с чистого листа.

4. Противоречиво (conflict) - в тексте автор приводит аргументы в поддержку и против целевого объекта, но не склоняется ни к одной из позиций за или против; вследствие малой доли сообщений, относящихся к этому классу, его часто объединяют с классом нейтрально.

Пример 4. Целевой объект: ЕГЭ в школе. Текст: В ЕГЭ есть свои плюсы и минусы. По моему мнению для точных наук вполне приемлемо, в отличии от гуманитарных.

5. Невозможно определить точку зрения (neither) - по тексту нельзя сделать вывод о позиции автора, например, в случае отсутствия аргументов за и против.

Пример 5. Целевой объект: Вакцинация детей. Текст: Я лично агрессивно ни на кого не реагирую. Прививки - личное дело каждого, как и охрана в доме!

6. Согласие с предыдущей точкой зрения (observing) - в тексте автор повторяет ранее высказанное мнение.

Пример 6. Целевой объект: ЕГЭ в школе. Текст: Я согласна с Марусей -ЕГЭ - это хорошо. Сама сдавала ЕГЭ. Ничего страшного в этом не вижу. Главное - подготовится как положено.

Наряду с тесной взаимосвязью у задач анализа тональности и распознавания точки зрения есть отличия. В задаче анализа тональности определяется эмоциональная окраска фрагмента текста, которая может быть позитивной, негативной или нейтральной, а также мнение автора о целевом

объекте. В задаче распознавания точки зрения автора определяется позиция, которой придерживается автор по отношению к предварительно выбранному целевому объекту. Таким образом, можно выделить два главных отличия:

- в задаче распознавания точки зрения автора текста используется шкала «за - против», в задаче анализа тональности текста - шкала «позитив -негатив»;

- в задаче распознавания точки зрения автора текста целевой объект всегда должен быть задан, в задаче анализа тональности текста целевой объект может отсутствовать.

Существуют следующие особенности выражения позиции и тональности в тексте:

1. Отсутствие тональности и наличие позиции.

Пример 7. Целевой объект: Прививки детям. Текст: Я от прививок отказалась. Не вижу смысла заражать ребенка болезнью, которой, возможно, он никогда не заболеет.

2. Выражение тональности относительно объекта, противопоставляемого целевому объекту, относительно которого определяется позиция.

Пример 8. Целевой объект: ЕГЭ в школе. Текст: ЕГЭ - это равнение на запад. Советская система образования была признана одной из лучших в мире, многие страны перенимали наш опыт, а сейчас все берется из западной системы и внедряется у нас.

3. Несовпадение тональности и позиции.

Пример 9. Целевой объект: Клонирование человека. Текст: Я считаю, что это мерзость, у клона нет души, хотя, думаю, эта идея имеет смысл и дальнейшее процветание, это своеобразный шаг к вечной жизни.

4. Отсутствие объекта у тональности.

Пример 10.

Целевой объект: ЕГЭ в школе. Текст: Мы перешли в 10-ый класс! Мы все счастливы! Теперь можно спать спокойно, но не долго, т.к. впереди ЕГЭ!

Существует ряд причин, обуславливающих сложность решения задачи автоматического распознавания точки зрения автора текста:

- в одном и том же тексте автор выражает противоположные точки зрения относительно целевого объекта или приводит доводы в поддержку своей позиции и против другой позиции [117];

- на протяжении дискуссии автор меняет позицию по отношению к целевому объекту [118];

- в тексте отсутствует упоминание целевого объекта [91];

- авторы, придерживающиеся разных позиций, используют одинаковую или близкую лексику [24];

- в тексте используются различные риторические приемы, такие как ирония, сарказм и др. [85].

Множество целевых объектов, по отношению к которым определяется позиция автора, может включать один объект, например, «легализация абортов» или «феминистское движение» [92], два объекта, например, «iPhone против Blackberry» [117], или большее количество объектов, например, «левые, правые и другие политические ориентации» [85].

Целевые объекты могут относиться к различным областям знаний и сферам деятельности [25, 92]: политике («коммунизм против капитализма», «Дональд Трамп»), религии («существование Бога», «православие и католицизм»), социально значимым вопросам («изменение климата», «смертная казнь»), продуктам («Firefox против Internet Explorer», «Windows против Mac») и развлечениям («Супермен против Бэтмена», «Звездные войны против Властелина колец»).

Наряду с социальными медиа, к которым относятся интернет-форумы [117, 129] и социальные сети [102, 116], источниками мнений могут быть дебаты в законодательных собраниях [36, 119], онлайн-новости [51] и комментарии к новостным статьям [115].

Существует два основных подхода, в рамках которых решается задача распознавания точки зрения автора текста [131]:

1) традиционное обучение с учителем (supervised learning);

2) слабое обучение с учителем (weak-supervised learning).

Методы, разработанные в рамках первого подхода, по результатам многих исследований оказываются лучше методов, основанных на втором подходе.

1.2. Постановка задачи машинного обучения

Формальная постановка задачи машинного обучения с учителем (supervised learning) имеет следующий вид. Пусть задано некоторое множество объектов X и сформированное для него множество ответов Y, а также имеется конечное множество объектов {x1,...,xm} ^ X, называемое обучающей выборкой [31, с. 2], для которой известны ответы:

Уь = y(xi),i = 1, ...,т, (1.2)

где y(x) - целевая функция, возвращающая правильный ответ для переданного ей объекта.

Задача машинного обучения с учителем состоит в нахождении по заданным входным элементам объект-ответ (xi,yi)EXxY алгоритма (модели) а: X ^ Y, который для нового объекта x Е X предсказывает ответ y(x) Е Y. Найденный алгоритм а представляет собой приближение, аппроксимацию целевой зависимости y на всем множестве X. Процесс построения модели а называется обучением (learning).

Алгоритм обучения работает с описаниями объектов. Наиболее распространенным является признаковое описание, при котором объект х представляется набором признаков Zj-.X^ Zj,j = 1,..., N, т. е. в виде вектора признаков х = (z1(x), z2(x),..., zN(x)). Компонента Zj(x) называется j-м признаком (feature) объекта х. Существуют следующие разновидности признаков:

- бинарный, когда Zj = {0,1};

- номинальный (категориальный), когда Zj = {1,2,3,..., к} - конечное множество;

- порядковый, когда Zj - конечное упорядоченное множество;

- количественный, когда Zj = R.

Множество X называется пространством признаков. Задача восстановления регрессии и задача классификации на к классов являются двумя большими классами задач обучения с учителем, определяемых характером множества Y. В первой задаче данное множество совпадает с множество действительных чисел ( Y = R), а во второй задаче оно конечное ( Y = {1,2.....к}).

Существует также класс задач обучения без учителя (unsupervised learning) [31, с. 3], в которых не известны ответы на объектах выборки. В таких задачах требуется найти зависимости между входными объектами {xt,..., хт} с X, не имеющими меток. К данному типу задач относится задача кластеризации, которая заключается в группировании объектов по кластерам. При этом внутри кластеров объекты должны быть схожи, а между кластерами они должны различаться.

Задача распознавания точек зрения авторов текстовых документов относится к задачам классификации. При классификации текстов на два класса позиций в качестве множества объектов X выступает корпус текстовых документов, в качестве множества Y - двухэлементное множество меток {«за», «против»}. В этом случае задача обучения с учителем заключается в

построении алгоритма а: X ^ У, который для нового текста х Е X, предсказывает метку у(х) Е {«за», «против»}.

Обучение с учителем является наиболее распространенным подходом в машинном обучении. На рисунке 1.1 представлена общая схема данного подхода.

Начало

Сбор данных

Т.

Предварительная обработка данных

Да

Деление данных на обучающее и контрольное подмножества

I '

Изменение параметров _алгоритма_

Изменить Да тараметры?

Выбор алгоритма

Обучение алгоритма на обучающем подмножестве

1

Оценка алгоритма на контрольном подмножестве

Рисунок 1.1 - Блок-схема алгоритма машинного обучения с учителем

Подход на основе обучения с учителем состоит из следующих основных этапов:

1. Сбор данных.

На первом этапе важно правильно собрать данные. От качества и количества данных зависит качество итоговой модели и точность искомого результата.

2. Предварительная обработка данных.

На этапе предварительной обработки осуществляется поиск и удаление нерелевантных данных, которые могут привести к снижению точности модели. К ним относятся пропущенные значения, выбросы и другие данные, которые выбиваются из общего ряда. На этом же этапе осуществляют извлечение множества характеристик данных, называемых признаками. С целью удаления нерелевантных данных также может применяться процедура отбора признаков.

3. Деление данных на контрольное и обучающее подмножества.

После предварительной обработки данные перемешивают случайным

образом и делят на два подмножества: обучающее (train) и контрольное (test). Обучающее подмножество размеченных данных используется для обучения алгоритма, т. е. извлечения статистических шаблонов, на основе которых алгоритм сможет предсказывать метки для новых данных. Контрольное подмножество используется для оценки способности алгоритма предсказывать метки для новых данных.

4. Выбор алгоритма.

Существует большое число алгоритмов обучения с учителем, каждый из которых строит модель на основе входных данных различными способами и лучше всего подходит для обработки определенного типа данных: аудиоданные, изображения, текст и т. д. Как следствие, каждый алгоритм обладает определенными преимуществами и недостатками. На этапе выбора алгоритма важно учитывать следующие характеристики:

- Точность. Получение приближенных, а не максимальных значений точности позволяет значительно сократить время обработки данных.

- Время обучения. Продолжительность процесса обучения зависит от выбора алгоритма, а также от количества обучающих данных. Часто наблюдается зависимость точности алгоритма от времени обучения.

- Количество параметров. Параметры влияют на количество итераций в процессе обучения алгоритма и на его чувствительность к ошибкам. Чем больше у алгоритма параметров, тем больше следует сделать итераций при выборе наилучшего сочетания их значений. Однако большое число параметров позволяет получить более высокую точность и увеличивает гибкость алгоритма.

5. Обучение алгоритма на обучающем подмножестве.

Обучение заключается в поиске математической функции, которая наиболее точно решает поставленную задачу. Обучающее подмножество данных в виде извлеченных наборов признаков с соответствующими им значениями целевой функции (метками) подается на вход выбранного алгоритма машинного обучения. Используя эти данные, алгоритм создает математическую модель, которая наилучшим образом описывает зависимость между наборами признаков и метками.

6. Оценка алгоритма на контрольном подмножестве.

Оценка алгоритма осуществляется с целью определения способности построенной математической модели правильно предсказывать метки классов для данных, которые еще не обрабатывались алгоритмом. Такой подход предотвращает переобучение, которое происходит, когда алгоритм сильно подстраивается под обучающие данные и плохо работает на новых данных. Если полученная оценка меньше предварительно заданного порогового значения, то используются следующие альтернативные способы изменения поведения алгоритма: изменение значений параметров алгоритма, выбор другого алгоритма, внесение изменений на этапе предварительной обработки данных.

7. Изменение параметров алгоритма.

Данный этап является достаточно эффективным и в некоторых случаях необходим, но имеет определенные проблемы: слишком хорошо подобранные значения параметров могут привести к наилучшему качеству на контрольной выборке, которая очень сильно похожа на обучающую, но обобщающая способность модели может оказаться низкой.

8. Прогноз.

После получения оптимальной оценки на контрольном подмножестве данных, готовая модель используется для предсказания значений целевой функции на новых данных, с которыми модель ранее не сталкивалась.

1.3. Предварительная обработка текстовых данных

Как правило, перед выполнением основных процедур анализа текстовые данные подвергаются предварительной обработке с целью преобразования их в удобную для последующего анализа форму представления. Процедура предварительной обработки текста оказывает существенное влияние на результирующее качество решения задачи классификации и состоит из совокупности нескольких алгоритмов. На рисунке 1.2 в виде схемы изображены основные этапы данной процедуры.

На первом этапе осуществляется разбиение текста на отдельные слова (токенизация). Далее решается важная задача сокращения количества слов. Существуют следующие способы решения этой задачи:

1. Удаление стоп-слов, т. е. слов, которые не несут смысловой нагрузки, например, местоимений, предлогов, союзов и т. д. [20].

2. Удаление слов с низкой частотой встречаемости в текстовых документах корпуса. Согласно работе [109] такой способ может сократить размерность пространства признаков практически на порядок, сохранив точность классификации на прежнем уровне.

Обучение по

прецедентам, или

индуктивное обучение, основано на выявлении общих закономерностей по частным

эмпирическим данным. Дедуктивное обучение предполагает формализацию знаний экспертов и их перенос в компьютер в виде базы знаний...

Обучение

по

прецедентам

или

индуктивное обучение

основано

на

выявлении

общих

закономерностей

по

частным

эмпирическим

данным

обучение

прецедентам

индуктивное обучение

основано

выявлении

общих

закономерностей

частным

эмпирическим

данным

дедуктивное обучение

предполагает формализацию

обучение

прецедент

индуктивный

обучение

основывать

выявление

общий

закономерность частный

эмпирический

данные

дедуктивный

обучение

предполагать формализация

обучение 5

данные 4

знание 3

основывать 3

общий 2

выявление 2

предполагать 2

закономерность 1

частный 1

эмпирический 1

индуктивный 1

дедуктивный 1

прецедент 1

формализация 1

эксперт 1

обучение 5

данные 4

знание 3

основывать 3

общий 2

выявление 2

предполагать 2

закономерность 1

частный 1

эмпирический 1

индуктивный 1

дедуктивный 1

прецедент 1

формализация 1

эксперт 1

Ю 4

Рисунок 1.2 - Этапы и пример предварительной обработки текстовых данных

3. Морфологический анализ. Может быть выполнен на основе двух методов: стемминг (процедура, в ходе которой от слов отбрасываются окончания и суффиксы с целью получения одинаковой оставшейся части для всех грамматических форм слова) и лемматизация (процесс, в ходе которого осуществляется приведение словоформы к ее первоначальной словарной форме, называемой леммой) [72, с. 46]. На практике для русского языка наиболее эффективным оказывается использование лемматизации [76].

Далее выполняется процедура взвешивания слов. Для определения весов слов существует ряд методов [17, 20]:

- Статистический подход. Вес слова вычисляется на основе частоты его встречаемости в тексте, в классе или во всем корпусе документов в целом.

- Место появления слова. В данном походе учитывается структура текста. Слову назначается разный вес в зависимости от места его появления в тексте: в названии, в аннотации, в списке ключевых слов, в начале, середине или конце документа.

- Оформление слова. Некоторые основные термины, определения, идеи могут быть выделены различными шрифтами и стилями, заключены в кавычки. Такая информация используется для определения ценности слов и назначения им большего веса.

Задачу классификации текстов обычно решают с использованием статистического подхода. На заключительном этапе процедуры предварительной обработки на основании вычисленных весов выбирают наиболее значимые (информативные) признаки. Результатом предварительной обработки является модель представления текста.

1.4. Модели представления текста

На этапе предварительной обработки текст преобразуется к виду, который может быть распознан компьютерной программой. Результат такого преобразования называется текстовым представлением. Моделью

представления текста (text representation model) называют совокупность характеристик текста, которые учитываются в используемом для его анализа подходе [17].

Базовой моделью представления документа является модель «мешок слов» (Bag-of-Words), которая представляет текст в виде набора слов, игнорируя их порядок и связи между ними [104]. Данная модель широко применяется в задаче классификации документов, когда в качестве признака при обучении классификатора используется частота встречаемости слова.

Модель «мешок слов» позволяет представить текст в виде набора терминов. Такое представление называется векторной моделью (Vector Space Model), которая предложена Дж. Солтоном в работе [107]. В векторной модели текстовый документ d представляется в следующем виде:

где - термин, содержащийся в тексте. Если каждому термину назначить вес согласно важности этого термина в документе, то документ может быть описан формулой:

Рассматривая элементы 11,12,...,1к в системе координат ^-мерного пространства, величины м1)м2)...,мк будут являться значениями этих элементов в данной системе координат. Тогда множество ( №2,..., мк) будет представлять собой вектор в ^-мерном векторном пространстве.

Вес термина может быть вычислен на уровне отдельного документа и на уровне коллекции документов. На уровне документа вес обычно представляется в следующих формах [86]:

- булевский вес - двоичное значение, указывающее наличие или отсутствие термина в соответствующем документе:

d = (t1,t2, ...,tk),

(1.3)

d = (Wi,W2, ...,Wk).

(1.4)

_ (1, при наличии tt в документе dj, Wij = {0, иначе. ( . )

частота термина (Term Frequency, TF) - значение, характеризующее частоту появления термина в документе:

А _

^Lkfkj

Wij=^T^, (1.6)

где fij - количество вхождений термина ti в документ dj; ^ufkj - общее количество терминов в документе dj.

Для определения веса термина на уровне корпуса документов используется обратная частота документа (Inverse Document Frequency, IDF):

i l°l (17)

Wij = \°g—, (1.7)

где ID I - количество всех документов в текстовом корпусе; — - количество документов, содержащих термин ti. Термин обладает большей важностью, когда встречается в меньшем количестве документов коллекции.

Вес термина может быть определен произведением TF и IDF. Это позволяет учесть одновременно локальный и глобальный вес термина. Формула для вычисления веса термина по методу TF-IDF имеет вид:

fij , IDI

Wij (1.8)

Достоинства векторной модели:

- является простой моделью, основанной на линейной алгебре;

- позволяет оценить степень сходства текстовых документов;

- вес терминов соответствует их значимости в тексте. Недостатки векторной модели:

- слова рассматриваются независимо друг от друга. Например, слово «торт» имеет тенденцию более часто встречаться со словом «выпекать», чем со словом «читать»;

- выражения, состоящие из нескольких слов, теряют свой смысл. Например, фраза «часть речи» означает синтаксическую роль слова в предложении, но смысл фразы теряется, если слова рассматривать по отдельности, взяв их из разного контекста;

- не учитываются значения многозначных слов. Слова, которые имеют несколько значений, попадают в одно и то же измерение вектора;

- невозможно выявить закономерность появления слов или другие зависимости, так как каждое слово не зависит от других слов;

- сложно определить сходство документов в случае, когда они содержат одинаковый смысл, выраженный разными словами.

Несмотря на перечисленные недостатки, векторная модель часто используется исследователями вследствие ее простоты. Другим важным современным способом представления текстов являются модели, основанные на нейросетевом подходе, которые будут рассмотрены в п. 1.5.6.

Следующим этапом решения задачи классификации текстовых документов с использованием машинного обучения с учителем является выбор алгоритма классификации.

1.5. Подходы к классификации текстовых документов

Главным компонентом в схеме подхода обучения с учителем, представленной на рисунке 1.1, является метод машинного обучения (классификатор). Существует ряд подходов к классификации текстовых документов, в рамках которых разработаны различные методы машинного обучения, каждый из которых обладает определенными преимуществами и недостатками.

1.5.1. Линейный подход

Линейный подход основан на построении разделяющей поверхности, описываемой линейной функцией. Одним из наиболее часто используемых классификаторов в рамках данного подхода является метод опорных векторов (Support Vector Machine, SVM), основанный на концепции построения гиперплоскости, которая разделяет множество объектов, принадлежащих различным классам. Метод предложен В. Н. Вапником в работах [4, 33] и принадлежит группе методов обучения с учителем.

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Список литературы диссертационного исследования кандидат наук Вычегжанин Сергей Владимирович, 2021 год

СПИСОК ЛИТЕРАТУРЫ

1. Баранов В. Г., Кондратьев В. В., Милов В. Р., Зарипова Ю. Х. Нейросетевые алгоритмы распознавания образов // Нейрокомпьютеры: разработка, применение. 2007. № 11. - С. 20-27.

2. Баранов В. Г., Милов В. Р., Зарипова Ю. Х., Эпштейн А. Ю. Интеллектуализация системы распознавания образов на основе сравнения эффективности методов классификации // Информационно-измерительные и управляющие системы. 2010. Т. 8. № 2. - С. 35-39.

3. Буч Г., Рамбо Д., Джекобсон А. Язык UML. Руководство пользователя = The Unified Modeling Language user guide. - 2-е изд. - М., СПб.: ДМК Пресс, Питер, 2004. - 432 с.

4. Вапник В. Н., Лернер А. Я. Узнавание образов при помощи обобщенных портретов // Автоматика и телемеханика. 1963. Т. 24. № 6. - C. 774-780.

5. Воронцов К. В. Комбинаторный подход к оценке качества обучаемых алгоритмов // Математические вопросы кибернетики; под ред. О.Б. Лупанова. - М.: Физматлит, 2004. T. 13. - 37 c.

6. Вычегжанин С. В. Автоматическое определение точки зрения автора текста на основе ансамблей классификаторов: свидетельство о государственной регистрации программы для ЭВМ № 2018662576 // Федеральная служба по интеллектуальной собственности. - 11.10.2018.

7. Вычегжанин С. В. Обзор моделей представления текста / С.В. Вычегжанин: Вятский государственный университет. - Киров, 2016.

- 58 с.: - Библиогр. 141 назв. - Рус. - Деп. в ВИНИТИ 21.10.2016. № 141.

- 2016.

8. Вычегжанин С. В. Программная система распознавания точки зрения автора текста на основе композиционного подхода // Программная инженерия. 2020. № 1. Т. 11. - С. 54-64.

9. Вычегжанин С. В. Распознавание точки зрения автора текста на основе композиции классификаторов // Будущее технической науки: сборник материалов XIX Всероссийской молодежной научно-технической конференции, НГТУ им. Р.Е. Алексеева. - Нижний Новгород, 2020. -С. 66-67.

10. Вычегжанин С. В., Котельников Е. В. Анализ влияния моделей представления текстов на качество классификации отзывов по тональности // Фундаментальные исследования. 2015. № 11. Т. 2. -С. 247-251.

11. Вычегжанин С. В., Котельников Е. В. Исследование влияния компонентов ДСМ-метода на качество анализа тональности текстов // Информатика: проблемы, методология, технологии: материалы XIV Международной научно-методической конференции. - Воронеж: Издательский дом ВГУ, 2014. Т. 3. - С. 259-262.

12. Вычегжанин С. В., Котельников Е. В. Исследование влияния способов взвешивания терминов на качество анализа тональности текстов с использованием ДСМ-метода // Информатика: проблемы, методология, технологии: материалы XV Международной научно-методической конференции. - Воронеж: Издательский дом ВГУ, 2015. Т. 3. - С. 236241.

13. Вычегжанин С. В., Котельников Е. В. Определение точки зрения автора текста на основе ансамблей классификаторов // Программирование. 2019. № 5. С. 10-24.

14. Вычегжанин С. В., Котельников Е. В. Распознавание точки зрения автора текста на основе ансамблей методов отбора признаков и методов классификации // Cloud of Science. 2020. № 1. Т. 7. - С. 114-134.

15. Вычегжанин С. В., Котельников Е. В. Экспериментальное исследование методов отбора признаков для решения задачи определения точки зрения автора текста // Информатика: проблемы, методология, технологии:

материалы XIX Международной научно-методической конференции. -Воронеж: Издательский дом ВГУ, 2019. Т. 3.

16. Вычегжанин С. В., Котельников Е. В., Разова Е. В. Исследование методов выбора оптимального количества признаков для решения задачи определения точки зрения автора текста // Advanced Science. 2019. № 1.

17. Губин М. В. Модели и методы представления текстового документа в системах информационного поиска: дис. канд. физ.-мат. наук: 05.13.11. -СПб: Санкт-Петерб. гос. ун-т, 2005. - 95 с.

18. Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. Погружение в мир нейронных сетей. - Санкт-Петербург: Питер, 2018. -480 с.

19. Рассел С., Норвиг П. Искусственный интеллект: современный подход / С. Рассел, П. Норвиг. - 2-е изд. Пер. с англ. - М.: Издательский дом «Вильяме», 2006. - 1408 с.

20. Сэлтон Г. Автоматическая обработка, хранение и поиск информации. -М: Советское радио, 1973. - 560 с.

21. Язык программирования Python. - Режим доступа: https://www.python.org/ (Дата обращения: 30.09.2020).

22. Abiodun O. I., Jantan A., Omolara A. E., Dada K. V., Mohamed N. A. E., Arshad H. State-of-the-art in artificial neural network applications: A survey // Heliyon. 2018. Vol. 4, No. 11. - P. 217-225.

23. Adel A., Omar N., Al-Shabi A. A comparative study of combined feature selection methods for Arabic text classification // Journal of Computer Science. 2014. Vol. 10(11). - P. 2232-2239.

24. Agrawal R., Rajagopalan S., Srikant R., Xu Y. Mining Newsgroups Using Networks Arising from Social Behavior // 12th International Conference on World Wide Web (WWW 2003). 2003. - P. 529-535.

25. Anand P., Walker M., Abbott R., Tree J. E. F., Bowmani R., Minor M. Cats Rule and Dogs Drool!: Classifying Stance in Online Debate // 2nd Workshop

on Computational Approaches to Subjectivity and Sentiment Analysis. 2011. -P. 1-9.

26. Artstein R., Poesio M. Inter-coder agreement for computational linguistics // Journal of Computational Linguistics. 2008. No. 4. Vol. 34. - P. 555-596.

27. Bahassine S., Madani A., Kissi M. An improved Chi-square feature selection for Arabic text classification using decision tree // 11th International Conference on Intelligent Systems: theories and Applications (SITA). 2016. -P. 1-5.

28. Bahassine S., Madani A., Al-sarem M., Kissi M. Feature selection using an improved Chi-square for Arabic text classification // Computer and Information Sciences. 2018. - P. 1-7.

29. Benkeser D., Lendle S. D., Cheng J., Laan M. J. Online cross-validation-based ensemble learning // Statistics in Medicine. 2017. Vol. 37(2). - P. 249-260.

30. Bhuvaneswari K., Parimala R. Sentiment Classification using Feature Weights // International Journal of Advanced Research in Computer and Communication Engineering. 2017. No. 1. Vol. 6. - P. 1-8.

31. Bishop C. Pattern Recognition and Machine Learning / Springer, 2006. - 740 P.

32. Bolon-Canedo V., Alonso-Betanzos A. Ensembles for feature selection: A review and future trends // Information Fusion 52. 2019. No. 12. Vol. 1.

33. Boser B. E., Guyon I. M., Vapnik V. N. A training algorithm for optimal margin classifiers // Proceedings of the fifth annual workshop on Computational learning theory. 1992. - P. 144-152.

34. Breiman L. Bagging predictors // Machine Learning. 1996. No. 2. Vol. 24. -P. 123-140.

35. Bryll R., Gutierrez-Osuna R., Quek F. Bagging: improving accuracy of classifier ensembles by using random feature subsets // Pattern Recognition. 2003. No. 6. Vol. 36. - P. 1291-1302.

36. Burfoot C., Bird S., Baldwin T. Collective Classification of Congressional Floor-Debate Transcripts // 49th Annual Meeting of the Association for Computational Linguistics. 2011. - P. 1506-1515.

37. Burtsev M., Seliverstov A., Airapetyan R., Arkhipov M., Baymurzina D., Bushkov N. , Gureenkova O., Khakhulin T., Kuratov Y., Kuznetsov D., Litinsky A. , Logacheva V., Lymar A., Malykh V., Petrov M., Polulyakh V., Pugachev L. , Sorokin A., Vikhreva M., Zaynutdinov M. DeepPavlov: Open-source library for dialogue systems // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics-System Demonstrations. 2018. - P. 122-127.

38. Cai J., Wang J., Liu J. Novel feature selection algorithm for Chinese text categorization based on CHI // 13th International Conference on Signal Processing (ICSP). 2016. - P. 1035-1039.

39. Chakraborty T. EC3: Combining Clustering and Classification for Ensemble Learning // IEEE International Conference on Data Mining (ICDM), November 18-21, 2017. - P. 781-786.

40. Chatcharaporn K., Kittidachanupap N., Kerdprasop K. Comparison of feature selection and classification algorithms for restaurant dataset classification // Proceedings of the 11th Conference on Latest Advances in Systems Science & Computational Intelligence. 2012. - P. 129-134.

41. Chan P. K., Stolfo S.J. Toward parallel and distributed learning by meta-learning // AAAI Workshop in Knowledge Discovery in Databases. 1993. -P. 227-240.

42. Chen P., Wilbik A., Loon S., Boer A.-K., Kaymak U. Finding the Optimal Number of Features Based on Mutual Information // Advances in Intelligent Systems and Computing. 2017. Vol. 641. - P. 477-486.

43. Cover T. M., Hart P. E. Nearest Neighbor Pattern Classification // IEEE Transactions on Information Theory. 1967. No. 1. Vol. 13. - P. 21-27.

44. Derczynski L., Bontcheva K., Liakata M., Procter R., Hoi G.W.S., Zubiaga A. SemEval-2017 Task 8: RumourEval: Determining rumour veracity and support for rumours // Proceedings of the 11th International Workshop on Semantic Evaluation. 2017. - P. 60-67.

45. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2019. P. 41714186.

46. Dietterich T. G. Ensemble methods in machine learning // Multiple Classifier Systems. 2001. Vol. 1857. - P. 1-15.

47. Dietterich T. G., Bakiri G. Solving multiclass learning problems via error-correcting output codes // Journal of Artificial Intelligence Research. 1995. Vol. 2. - P. 263-286.

48. Ding J., Fu L. A Hybrid Feature Selection Algorithm Based on Information Gain and Sequential Forward Floating Search // Journal of Intelligent Computing. 2018. No. 3. Vol. 9. - P. 93-101.

49. Dzeroski S., Zenko B. Is combining classifiers with stacking better than selecting the best one? // Machine Learning. 2004. No. 3. Vol. 54. - P. 255273.

50. Feng G., Cai S. An Improved Feature Extraction Algorithm Based on CHI and MI // International Conference on Computer Mechatronics Control and Electronic Engineering. 2015. - P. 1113-1116.

51. Ferreira W., Vlachos A. Emergent: a novel data-set for stance classification // Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2016. - P. 1163-1168.

52. Flach P. A. Machine Learning: The Art and Science of Algorithms That Make Sense of Data // Cambridge University Press, 2012. - 409 P.

53. Fleiss J. L. Measuring nominal scale agreement among many raters // Psychological Bulletin. 1971. No. 5. Vol. 76. - P. 378-382.

54. Freund Y., Schapire R. E. Experiments with a new boosting algorithm // Machine learning: proceedings of the thirteenth international conference. 1996. - P. 325-332.

55. Furnkranz J. Round robin classification // Journal of Machine Learning Research. 2002. Vol. 2. - P. 721-747.

56. Ghosh M., Sanyal G. Performance Assessment of Multiple Classifiers Based on Ensemble Feature Selection Scheme for Sentiment Analysis // Applied Computational Intelligence and Soft Computing. 2018. - P. 1-12.

57. Gonen M., Alpaydin E. Multiple kernel learning algorithms // The Journal of Machine Learning Research. 2011. Vol. 12. - P. 2211-2268.

58. Gopi S. C., Suvarna B., Padmaja T. M. High Dimensional Unbalanced Data Classification vs SVM Feature Selection // Indian Journal of Science and Technology. 2016. No. 3. Vol. 9. - P. 1-7.

59. Gorrell G., Aker A., Bontcheva K., Derczynski L., Kochkina E., Liakata M., Zubiaga A. SemEval-2019 task 7: RumourEval, determining rumour veracity and support for rumours // Proceedings of the 13th International Workshop on Semantic Evaluation. 2019. - P. 845-854.

60. Guru D. S., Suhil M., Pavithra S. K., Priya G. R. Ensemble of Feature Selection Methods for Text Classification: An Analytical Study // Proceedings of the 17th International Conference on Intelligent Systems Design and Applications (ISDA 2017). 2017. - P. 337-349.

61. Guyon I., Weston J., Barnhill S., Vapnik V. Gene selection for cancer classification using support vector machines // Machine Learning. 2002. Vol. 46 (1-3). - P. 389-422.

62. Hall M. A. Correlation-based Feature Selection for Machine Learning, PhD dissertation Department of Computer Science, Waikato University, Hamilton, NZ. 1999.

63. Hancer E., Xue B., Zhang M. J. Differential evolution for filter feature selection based on information theory and feature ranking // Knowledge-Based Systems. 2018. Vol. 140. - P. 103-119.

64. Hunt E. B., Marin J., Stone P. J. Experiments in induction // England: Academic Press, 1966.

65. Ho T. K. The random subspace method for constructing decision forests // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1998. No. 8. Vol. 20. - P. 832-844.

66. Hoque N., Singh M., Bhattacharyya D. K. EFS-MI: an ensemble feature selection method for classification // Complex & Intelligent Systems. 2017. Vol. 4(2). - P. 105-118.

67. Iqbal F. Sentiment Analysis Using Ensemble Learners and Gini Index // International Journal of Engineering and Techniques. 2018. No. 2. Vol. 4. -P. 586-591.

68. Jedrzejowicz J., Kostrzewski R., Neumann J., Zakrzewska M. Imbalanced Data Classification using MapReduce and RelieF // Journal of Information and Telecommunication. 2018. Vol. 2(2). - P. 217-230.

69. Jia X., Sun J. An improved text classification method based on Gini index // Journal of Theoretical and Applied Information Technology. 2012. Vol. 43(2). - P. 267-273.

70. Jin X., Li R., Shen X., Bie R. Automatic web pages categorization with RelieF and hidden naive Bayes // Proceedings of the 2007 ACM symposium on Applied computing. 2007. - P. 617-621.

71. Joulin A., Grave E., Bojanowski P., Mikolov T. Bag of tricks for efficient text classification // Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. 2017. - P. 427-431.

72. Jurafsky D., Martin J. H. Speech and Language Processing // 2nd ed. - Prentice-Hall Inc., Upper Saddle River, 2009.

73. Kalaivani P., Shunmuganathan K. L. Feature Reduction Based on Genetic Algorithm and Hybrid Model for Opinion Mining // Scientific Programming. -2015.

74. Kamalov F., Thabtah F. A feature selection method based on ranked vector scores of features for classification // Annals of Data Science. 2017. No. 4. Vol. 4. - P. 483-502.

75. Koller D., Friedman N. Probabilistic Graphical Models: Principles and Techniques. 2009. - 1265 P.

76. Kotelnikov E., Razova E., Fishcheva I. A Close Look at Russian Morphological Parsers: Which One Is the Best? // Filchenkov A., Pivovarova L., Zizka J. (eds.) Artificial Intelligence and Natural Language. AINL 2017. Communications in Computer and Information Science. 2018. Vol. 789. - P. 131-142.

77. Lei S. A Feature Selection Method Based on Information Gain and Genetic Algorithm // International Conference on Computer Sciences and Electronics Engineering. 2012. - P. 355-358.

78. Lewis D. Evaluating and optimizing autonomous text classification systems // Proceedings of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 1992. - P. 246-254.

79. Li J., Cheng K., Wang S., Morstatter F., Trevino R. P., Tang J., Liu H. Feature Selection: A Data Perspective // ACM Computing Surveys (CSUR). 2017. Vol. 50, Issue 6. Article No. 94. - P. 1-44.

80. Liu B. Sentiment analysis and opinion mining // Synthesis lectures on human language technologies. 2012. No. 1. Vol. 5. - P. 1-167.

81. Liu C., Li W., Demarest B., Chen Y., Couture S., Dakota D., Haduong N., Kaufman N., Lamont A., Pancholi M., Steimel K., Kubler S. IUCL at SemEval-2016 task 6: An Ensemble Model for Stance Detection in Twitter. 2016. -P. 406-412.

82. Liu L., Feng S., Wang D., Zhang Y. An Empirical Study on Chinese Microblog Stance Detection Using Supervised and Semi-supervised Machine Learning Methods // Natural Language Understanding and Intelligent Applications. Lecture Notes in Computer Science. 2016. Vol. 10102.

83. Liu Y., Yao X. Ensemble learning via negative correlation // Neural Networks. 1999. No. 10. Vol. 12. - P. 1399-1404.

84. Luo M., Luo L. Feature selection for text classification using OR+SVM+REF // Control and Decision Conference (CCDC). 2010. - P. 1648-1652.

85. Malouf R., Mullen T. Taking sides: User classification for informal online political discourse // Internet Research. 2008. Vol. 18. - P. 177-190.

86. Manning C. D., Raghavan P., Schütze H. Introduction to Information Retrieval. Cambridge University Press, 2008.

87. McCallum A. K. Bow: A toolkit for statistical language modeling, text retrieval, classification and clustering. 1996. URL: http://www.cs.cmu.edu/~mccallum/bow (Дата обращения: 30.09.2020).

88. McKinney W. Python for data analysis: agile tools for real-world data. -O'Reilly Media, 2013. - 452 P.

89. Mikolov T., Chen G., Corrado G., Sutskever I., Dean J. Efficient estimation of word representations in vector space // Proceedings of Workshop at the International Conference on Learning Representations (ICLR). 2013.

90. Mikolov T., Sutskever I., Chen K., Corrado G., Dean J. Distributed representations of words and phrases and their compositionality // Proceedings of the 26th International Conference on Neural Information Processing Systems. 2013. Vol. 2. - P. 3111-3119.

91. Mohammad S. M. Sentiment Analysis: Detecting Valence, Emotions, and Other Affectual States from Text // Emotion Measurement. 2016. - P. 201237.

92. Mohammad S. M., Kiritchenko S., Sobhani P., Zhu X., Cherry C. SemEval-2016 Task 6: Detecting Stance in Tweets // Proceedings of SemEval-2016. 2016. - P. 31-41.

93. Park H., Kwon H. C. Improved Gini-index algorithm to correct feature-selection bias in text classification // IEICE Transactions on Information and Systems D. 2011. No. 4. Vol. 94. - P. 855-865.

94. Pedregosa F., Varoquaux G., Gramfort A., Michel V., Thirion B., Grisel O., Blondel M., Prettenhofer P., Weiss R., Dubourg V., Vanderplas J., Passos A., Cournapeau D., Brucher M., Perrot M., Duchesnay E. Scikit-learn: Machine Learning in Python // Journal of Machine Learning Research. 2011. Vol. 12. -P. 2825-2830.

95. Pennington J., Socher R., Manning C.D. Glove: Global vectors for word representation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014. - P. 1532-1543.

96. Peters M., Neumann M., Iyyer M., Gardner M., Clark C., Lee K., Zettlemoyer L. Deep Contextualized Word Representations // Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2018. - P. 22272237.

97. Pratiwi A. A. On The Feature Selection and Classification Based on Information Gain for Document Sentiment Analysis // Applied Computational Intelligence and Soft Computing. 2017.

98. PyPI - the Python Package Index. - Режим доступа: https://pypi.python.org/pypi (Дата обращения: 30.09.2020).

99. Quinlan J. R. C4.5: Programs for Machine Learning. // San Mateo: Morgan Kaufmann Publishers Inc. 1993. - 302 P.

100. Quinlan J. R. Induction of decision trees // Machine Learning. 1986. 1(1). -P. 81-106.

101. Rahman A., Verma B. Novel layered clustering-based approach for generating ensemble of classifiers // IEEE Transactions on Neural Networks and Learning Systems. 2011. No. 5. Vol. 22. - P. 781-792.

102. Rajadesingan A., Liu H. Identifying Users with Opposing Opinions in Twitter Debates // 7th International Conference on Social Computing, Behavioral-Cultural Modeling, and Prediction (SBP 2014). 2014. - P. 153-160.

103. Refaeilzadeh P., Tang L., Liu H. Encyclopedia of Database Systems / US: Springer. 2010. - 3818 P.

104. Ren Y., Zhang L., Suganthan P. N. Ensemble Classification and Regression -Recent Developments, Applications and Future Directions // IEEE Computational Intelligence Magazine. 2016. No. 1. Vol. 11. - P. 41-53.

105. Rokach L. Ensemble-based classifiers // Artificial Intelligence Review. 2010. No. 1. Vol. 33. - P. 1-39.

106. Saeys Y., Inza I., Larranaga P. A review of feature selection techniques in bioinformatics // Bioinformatics. Vol. 23(19). - P. 2507-2517.

107. Salton G. A., Wong A., Yang C. S. Vector Space Model for Automatic Indexing // Communications of the ACM. 1975. Vol. 18(11). - P. 613-620.

108. Sarkar S. D., Goswami S., Agarwal A., Aktar J. A Novel Feature Selection Technique for Text Classification Using Naive Bayes // International Scholarly Research Notices. 2014. - P. 1-10.

109. Sebastiani F. Machine Learning in Automated Text Categorization // ACM Computing Survey. 2002. Vol. 34(1). - 147 P.

110. Seetha H., Murty M. N., Tripathy B. K. Modern Technologies for Big Data Classification and Clustering. 2018. - 382 P.

111. Segalovich I. A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine // Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications (MLMTA-2003). 2003.

112. Seijo-Pardo B., Porto-Diaz I., Bolon-Canedo V., Alonso-Betanzos A. Ensemble feature selection: Homogeneous and heterogeneous approaches // Knowledge-Based Systems. 2017. Vol. 118. - P. 124-139.

113. Shang S., Shi M., Shang W., Hong Z. Improved feature weight algorithm and its application to text classification // Mathematical Problems in Engineering. 2016.

114. Silva N. F., Hruschka E. R., Hruschka E. R. Tweet Sentiment Analysis with Classifier Ensembles // Decision Support Systems. 2014. Vol. 66. - P. 170179.

115. Sobhani P., Inkpen D., Matwin S. From Argumentation Mining to Stance Classification // 2nd Workshop on Argumentation Mining. 2015. - P. 67-77.

116. Sobhani P., Mohammad S. M., Kiritchenko S. Detecting Stance in Tweets and Analyzing its Interaction with Sentiment // 5th Joint Conference on Lexical and Computational Semantics (*SEM 2016), Berlin. 2016. - P. 159-169.

117. Somasundaran S., Wiebe J. Recognizing Stances in Online Debates // 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP. 2009. -P. 226-234.

118. Sridhar D., Foulds J., Huang B., Getoor L., Walker M. Joint Models of Disagreement and Stance in Online Debate // Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. 2015. -P. 116-125.

119. Thomas M., Pang B., Lee L. Get out the vote: Determining support or opposition from Congressional floor-debate transcripts // Conference on Empirical Methods in Natural Language Processing. 2006. - P. 327-335.

120. Trivedi S. K., Dey S. A Comparative Study of Various Supervised Feature Selection Methods for Spam Classification // International Conference on Information and Communication Technology for Competitive Strategies. 2016.

- P. 1-6.

121. Tutek M., Sekulic I., Gombar P., Paljak I., Culinovic F., Boltuzic F., Karan M., Alagic D., Snajder J. TakeLab at SemEval-2016 Task 6: Stance Classification in Tweets Using a Genetic Algorithm Based Ensemble // Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016). 2016.

- p. 476-480.

122. Van der Walt S., Colbert C., Varoquaux G. The NumPy Array: A Structure for Efficient Numerical Computation // Computing in Science & Engineering. 2011. No. 2. Vol. 13. - P. 22-30.

123. Vapnik V. N. The Nature of Statistical Learning Theory. NY: Springer, 2000.

- 314 P.

124. Vora S., Yang H. A comprehensive study of eleven feature selection algorithms and their impact on text classification // 2017 Computing Conference. 2017. -P. 440-449.

125. Vychegzhanin S., Kotelnikov E. Comparison of Named Entity Recognition Tools Applied to News Articles // Proceedings of Ivannikov ISPRAS Open Conference. 2019. - P. 72-77.

126. Vychegzhanin S., Razova E., Kotelnikov E., Milov V. Selecting an Optimal Feature Set for Stance Detection // Analysis of Images, Social Networks and Texts (AIST 2019). Lecture Notes in Computer Science. 2019. Vol. 11832. -P. 242-253.

127. Vychegzhanin S., Kotelnikov E. Stance detection in Russian: a feature selection and machine learning based approach // Supplementary Proceedings of the 6th International Conference on Analysis of Images, Social Networks and Texts (AIST-SUP 2017), Moscow, Russia, July 27-29, 2017. 2017. -P. 166-179.

128. Vychegzhanin S. V., Razova E. V., Kotelnikov E. V. What number of features is optimal? A new method based on approximation function for stance detection task // ACM International Conference Proceeding Series: 9th International Conference on Information Communication and Management, ICICM 2019. Prague, Czech Republic, 23-26 August 2019. 2019. - P. 43-47.

129. Walker M. A., Anand P., Abbott R., Grant R. Stance Classification using Dialogic Properties of Persuasion // Conference of the North American Chapter of the ACL: Human Language Technologies. 2012. - P. 592-596.

130. Wang S., Zhou W., Jiang C. A survey of word embeddings based on deep learning // Computing. 2020. Vol. 102. - P. 717-740.

131. Wang R., Zhou D., Jiang M., Jiasheng S. A Survey on Opinion Mining: from Stance to Product Aspect // IEEE Access. 2019. Vol. 7. - P. 41101-41124.

132. Weibull W. A statistical distribution function of wide applicability // Journal of Applied Mechanics, Transactions ASME. 1951. Vol. 18(3). - P. 293-297.

133. Wilcoxon F. Individual comparisons by ranking methods // Biometrics Bulletin. 1945. No. 6. Vol. 1. - P. 80-83.

134. Windows Presentation Foundation. - Режим доступа: https://msdn.microsoft.com/en-us/library/ms754130(v=vs.100).aspx (Дата обращения: 30.09.2020).

135. Wolpert D. H. Stacked generalization // Neural Networks. 1992. Vol. 5. -P. 241-259.

136. Wu L., Wang Y., Zhang S. Fusing Gini index and term frequency for text feature selection // Proceedings of IEEE 3rd international conference on multimedia big data. 2017. - P. 280-283.

137. Xiao H., Xiao Z., Wang Y. Ensemble classification based on supervised clustering for credit scoring // Applied Soft Computing. 2016. Vol. 43. - P. 7386.

138. Xu J., Zheng S., Shi J., Yao Y., Xu B. Ensemble of Feature Sets and Classification Methods for Stance Detection // Lin C.-Y., Xue N., Zhao D., Huang X., Feng Y. (eds.) Natural Language Understanding and Intelligent Applications. ICCPOL 2016, NLPCC 2016. Lecture Notes in Computer Science. 2016. Vol. 10102. - P. 679-688.

139. Yang Y., Pedersen J. O. A comparative study on feature selection in text categorization // Proceedings of 14th International Conference on Machine Learning (ICML-97). 1997. - P. 412-420.

140. Youn E., Jeong M. K. Class dependent feature scaling method using naive Bayes classifier for text datamining // Pattern Recognition Letters. 2009. Vol. 30(5). - P. 477-485.

141. Zhu W., Lin Y. Using GINI-index for feature weighting in text categorization // Journal of Computational Information Systems. 2013. No. 14. Vol. 9. -P. 5819-5826.

ПРИЛОЖЕНИЯ

Приложение 1. Копия свидетельства о государственной регистрации программы для ЭВМ

Свидетельство о государственной регистрации программы для ЭВМ № 2018662576 «Автоматическое определение точки зрения автора текста на основе ансамблей классификаторов» от 11.10.2018 г.

Приложение 2. Копии документов, подтверждающих внедрение результатов диссертационного исследования

2.1 Акт о внедрении результатов диссертационной работы в АО «Научно-

исследовательский институт средств вычислительной техники». -АКЦИОНЕРНОЕ ОБЩЕСТВО «НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ИНСТИТУТ СРЕДСТВ ВЫЧИСЛИТЕЛЬНОЙ ТЕХНИКИ» ПРЕДПРИЯТИЕ КОНЦЕРНА «ВЕГА»

Мельничная ул., д.31, г. Киров, Россия, 610025, тел.: (8332) 67-99-75, факс: (8332) 67-97-00, e-mail: niisvt@niisvt.nj, web: www.niisvt.ru ОКПО 07517462 / ОГРН 1114345026784 ИНН 4345309407 / КПП 434501001

_№

на № от

акт внедрения

результатов диссертационной работы на соискание ученой степени кандидата технических наук

Вычегжанина Сергея Владимировича на тему «Автоматическое распознавание точки зрения автора текста на основе ансамблей методов машинного обучения»

Мы, нижеподписавшиеся члены комиссии - представители АО «НИИ СВТ»: заместитель генерального директора по научно-техническому развитию, и.о. ученого секретаря A.B. Вельдяев, начальник научно-исследовательского отдела 150 Д.Е. Прозоров, составили настоящий акт о том, что разработанные в диссертационной работе C.B. Вычегжанина метод, алгоритмы и программное средство распознавания точки зрения автора текста на основе ансамблей методов машинного обучения были использованы АО «НИИ СВТ» при разработке специального математического программного обеспечения системы автоматического мониторинга интернет-ресурсов и текстовых баз данных, в виде технических предложений по реализации процедур определения точки зрения автора текста, которая в настоящее время прошла этап опытной эксплуатации. Внедрение разработанных C.B. Вычегжаниным метода, алгоритмов и программного средства позволило повысить качество анализа текстовых документов.

Акт внедрения рассмотрен на заседании секции научно-технического совета АО «НИИ СВТ» «Программное обеспечение и технологии программирования».

Заместитель генерального директора по научно-техническому развитию, и.о. ученого секретаря

Начальник научно-исследовательского отдела, д.т.н.

2.2 Акт о внедрении результатов диссертационной работы в образовательную деятельность ФГБОУ ВО «Вятский государственный университет».

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.