Методы и алгоритмы построения информационных систем для классификации текстов социальных сетей по тональности тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Рубцова Юлия Владимировна

  • Рубцова Юлия Владимировна
  • кандидат науккандидат наук
  • 2020, ФГБОУ ВО «Сибирский государственный университет телекоммуникаций и информатики»
  • Специальность ВАК РФ05.13.17
  • Количество страниц 141
Рубцова Юлия Владимировна. Методы и алгоритмы построения информационных систем для классификации текстов социальных сетей по тональности: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГБОУ ВО «Сибирский государственный университет телекоммуникаций и информатики». 2020. 141 с.

Оглавление диссертации кандидат наук Рубцова Юлия Владимировна

Введение

ГЛАВА 1. Автоматический анализ тональности текстов. Обзор задач и подходов к их решению

1.1 Виды классификации текстов

1.2 Формальное описание задачи классификации текста

1.3 Модели представления текста

1.4 Подходы и методы решения задачи классификации текстов

1.4.1 Подход на основе машинного обучения с учителем

1.4.2 Методы, основанные на словарях и синтаксических правилах

1.4.3 Подход на основе машинного обучения без учителя

1.4.4 Комбинированные подходы

1.5 Критерии оценки качества классификации текстов по тональности

1.6 Выводы к первой главе

ГЛАВА 2. Снижение качества классификации текстов по тональности из-за изменения тональной лексики

2.1 Подготовка коллекций текстов, разнесенных во времени

2.1.1 Сбор коллекций коротких текстов

2.1.2 Предобработка и фильтрация коллекций

2.1.3 Метод отдаленного наблюдения для автоматической разметки коллекций

2.1.4 Описание разнесенных во времени текстовых коллекций

2.1.5 Полнота обучающей коллекций

2.1.6 Однородность исследуемых коллекций

2.2 Алгоритм классификации

2.3 Выбор признаков для обучения классификатора

2.3.1 Выбор признаков

2.3.2 Сокращение размерности вектора признаков

2.4 Переносимость полученного словаря признаков на другие текстовые коллекции для классификации текстов по тональности

2.5 Снижение качества классификации по тональности на коллекциях, разнесенных во времени

2.6 Теоретическое подтверждение снижения качества классификации на коллекциях, разнесенных во времени

2.7 Выводы ко второй главе

ГЛАВА 3. Методы преодоления деградации результатов классификации на коллекциях, разнесенных во времени

3.1 Использование весовой схемы с линейной вычислительной сложностью

3.2 Использование внешних словарей оценочных слов и выражений

3.3 Использование распределенных представлений слов в качестве признаков

3.3.1 Пространство распределённых представлений слов

3.3.2 Модель Skip-Gram

3.3.3 Использование модели Skip-Gramm для снижения зависимости от обучающей коллекции

3.4 Выводы к третьей главе

ГЛАВА 4. Экспериментальное исследование системы и программная реализация97

4.1 Программная реализация

4.2 Описание текстовых коллекций SentiRuEval

4.2.1 Разметка коллекций

4.3 Применение предложенных подходов к коллекциям SentiRuEval

4.3.1 Критерии оценки качества классификации на SentiRuEval

4.3.2 Описание результатов экспериментов на коллекциях SentiRuEval-16

4.3.3 Улучшение результатов классификации на коллекциях SentiRuEval-16

4.4 Выводы к четвертой главе

ЗАКЛЮЧЕНИЕ

Список рисунков

Список таблиц

СПИСОК ЛИТЕРАТУРЫ

ПРИЛОЖЕНИЕ А. Словарь эмотиконов

ПРИЛОЖЕНИЕ Б. Акт о внедрении

ПРИЛОЖЕНИЕ В. Грамоты

Введение

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы и алгоритмы построения информационных систем для классификации текстов социальных сетей по тональности»

Актуальность темы исследования

В современном мире существует большое количество электронных устройств а также web- и мобильных приложений, являющихся средствами коммуникации. Люди пользуются интернет-форумами, чатами, создают блоги, взаимодействуют друг с другом посредством социальных сетей. В результате такого взаимодействия появляется огромное количество информации о самих пользователях, об их отношении к другим людям, к событиям, происходящим в их жизнях и в мире. Такая информация может быть полезна при моделировании процессов, протекающих в обществе, прогнозировании поведения его участников и т. д. Поэтому методы сбора и анализа информации, содержащейся в виртуальных социальных сетях или на форумах, представляют большой интерес для исследований.

Большая часть информации, которая находится в сети Интернет, представлена в текстовом виде на естественном языке. Это усложняет ее обработку и требует привлечения методов компьютерной лингвистики. В связи с этим в настоящее время возрастает актуальность лингвистических исследований, разработок новых эффективных программных систем извлечения фактов из неструктурированных массивов текстовой информации, классификации и кластеризации информации, нацеленных как на анализ самих сообщений в сети, так и на выявление источников распространяемой информации.

Подобные программные продукты могут использоваться как различными организациями, так и отдельными пользователями, которым регулярно требуется находить и анализировать различного рода информацию на форумах и в социальных сетях: технологическую, новостную, политическую, социально-экономическую, военную и др.

По данным бюллетеня Фонда Общественное Мнение (ФОМ) на осень 2017 года месячная аудитория интернет-пользователей (ответившие, что выходи-

ли в Сеть Интернет за последний месяц) составляет 70 % населения России - это более 80,5 млн. человек. Годовой прирост интернет-пользователей, выходящих в сеть Интернет хотя бы раз за месяц, составил 9,2 % [1]. Всероссийский центр изучения общественного мнения (ВЦИОМ) утверждает, что в 2015 году 85 % пользователей Интернета имеет один и более аккаунтов в социальных сетях [2].

Как сообщает ФОМ, 58 % интернет-пользователей при принятии решений опираются на онлайн-отзывы и рекомендации других людей. [3] У ВЦИОМ похожие данные: порядка 62 % пользователей доверяют отзывам в социальных сетях, 47 % верят советам на форумах и в блогах и 48 % при выборе товара или услуги ориентируются на сайты с отзывами [4].

Социальные сети становятся объектом пристального внимания социологов, психологов, маркетологов и РЯ-специалистов. Пользователи социальных сетей одними из первых реагируют на происходящее в мире, становятся свидетелями различных событий, часто опережая новостные Интернет-ресурсы, не говоря уже о традиционных СМИ: газетах и телевидении. Для того, чтобы иметь возможность решать поставленные перед специалистами задачи, огромный объем информации, появляющийся в социальных сетях, приходится регулярно обрабатывать и классифицировать. Одна из таких задач - это поиск отзывов и упомина-нийи классификация найденных текстов по тональности. Практическая ценность анализа тональности включает, но не ограничивается, следующими примерами:

• при запуске нового продукта, компании могут быстро узнать, как покупатели оценивают этот продукт, нужно ли что-то исправить в продукте или рекламных материалах;

• правительство сможет отследить реакцию населения на новый закон, уточнения, заявление;

• организаторы мероприятий (напр. конференций) могут собрать отзывы участников в социальных сетях и оценить как прошло мероприятие, понравилось оно или нет;

• Учитывая вопросы и отзывы пользователей, IT компании могут разработать эффективную систему поддержки пользователей;

• проведение маркетинговых исследований: изучение потребительских предпочтений, измерение степени удовлетворения потребностей потребителей, определение эффективности распространения продуктов или услуг;

• финансовые рынки. В работе [5] говорится, что существует множество новостей, статей в блогах и сообщений в твиттере о каждом акционерном обществе. Система автоматического анализа тональности может использовать эти источники для извлечения отзывов, что может стать основой для системы автоматической торговли на бирже.

Таким образом, у маркетологов и PR-специалистов крупных и средних компаний появились новые задачи: следить за тем, что пишут в Интернете об организации, о её товарах и услугах; работать с отзывами и формировать положительную репутацию о бренде, товарах и услугах.

Но не только коммерческий сектор уделяет внимание этой теме. На протяжении последних лет, задачей автоматического извлечения и анализа отзывов и мнений из социальных медиа занимается много ученых и исследователей по всему миру. При этом в качестве одной из главных задач рассматривается задача классификации текстов по тональности. Тональность текста - это эмоциональная оценка, выраженная в тексте (англ. Sentiment или Opinion). Основной задачей анализа тональности является нахождение мнений в тексте и выявление их свойств. Задача анализа тональности решается с помощью класса методов компьютерной лингвистики, которые предназначены для автоматизированного выделения в текстах эмоционально окрашенной лексики и эмоциональной оценки текста.

Как правило, при определении эмоциональной окраски текста используется два класса - «позитивно», «негативно» или классификация производится по 3-х бальной шкале: «позитивно», «негативно», «нейтрально». Реже используются 4-х, 5-ти, 10-ти бальные шкалы.

Согласно зарубежным публикациям, при классификации по тональности узкотематических текстов на два класса («позитивно», «негативно»), точность классификаторов, основанных на униграммах, превышает 82 % [6], однако, при определении положительного или отрицательного влияния текста на репутацию упомянутого в нем объекта, точность снижается до 40 %.

При решении задачи классификации более чем на два класса («позитивно», «негативно», «нейтрально»), точность классификации существенно снижается. Это связанно с субъективным восприятием информации: то, что один человек считает «позитивным», другой может отнести к «нейтральному» или даже «склонному к негативному». В статье [7] авторы показывают, что при разделении текстов на большое количество классов, даже человек показывает низкую точность классификации по тональности. Так, например, если необходимо классифицировать тексты одного автора (это допущение важно, так как нет необходимости в настройке на авторский стиль) по шкале от 1 до 10 - точность классификации снижается до 55 %. В этой же статье было показано, что при настройке классификатора на индивидуальный стиль автора отзыва, качество классификации текстов по тональности существенно возрастает и достигает 75 %. Российские исследователи замеряли коэффициент каппа статистики Коэна - уровень согласия экспертов в задаче классификации отзывов по тональности без учета настройки на авторский стиль. При классификации на два класса значение согласия находится на уровне 80 %, при классификации на три класса уменьшается до 70 % [8]. Таким образом, верхние оценки качества работы автоматических алгоритмов классификации текстов по тональности должны соответствовать этим уровням.

Задача автоматической классификации текстов по тональности является востребованной и актуальной. За последние несколько лет в России и за рубежом было организовано и проведено несколько соревнований между системами, предназначенными для автоматической классификации текстовых сообщений по тональности. Соревнования задают направления для исследований. Наблюдая за задачами, которые решают исследователи на соревнованиях, можно проследить какие подзадачи в задаче классификации текстов по тональности были наиболее

значимы в разное время, соответственно, какие задачи решались научным сообществом, и каких результатов удалось достичь.

В 2012 - 2013 гг., в рамках конференции CLEF было проведено соревнование систем по оценке онлайн репутации RepLab [9, 10]. Задача состояла в том, чтобы определить несет ли указанный твит положительные или отрицательные последствия для репутации указанной в твите компании.

В 2013 - 2017 годах в рамках конференции SemEval проводились соревнования классификаторов по тональности. Коллекции для соревнования были подготовлены на основе микроблоговой платформы Twitter. В 2013 - 2014 годах перед участниками стояло две задачи: выявление тональности отдельной фразы в контексте твита и определение тональности на уровне твита [11, 12]. В 2015 году организаторы добавили три новых подзадачи [13]. В 2016 и 2017 годах организаторы соревнования сосредоточились на определении эмоции автора по отношению к определенной теме. Определение эмоциональной оценки происходит по пятибалльной шкале [14, 15].

Соревнования по оценке автоматических систем классификации текстов по тональности проводятся не только за рубежом, но и в России. В 2011 - 2012 годах на международной конференции по компьютерной лингвистике «Диалог», совместно с российским семинаром по оценке методов информационного поиска (РОМИП), были подведены итоги двух соревнований между системами автоматического анализа текста: синтаксических анализаторов (парсе-ров) и системами анализа тональности текстов (англ. sentiment analysis) [8, 16].

В 2015 - 2016 годах проходило соревнование систем репутационного анализа на русском языке SentiRuEval, в рамках которого системам предлагалось оценить тональность текста относительно заранее заданной организации [17, 18, 19, 20]. Задача соревнования состояла в классификации twitter-сообщений в зависимости от их влияния на репутацию указанной организации. Как и в соревновании RepLab, обучающая и тестовая коллекции были разнесены во времени промежутком около полугода. Но в отличие от RepLab обучающая и тестовые коллекции

были максимально приближены к реальным данным, не было искусственного завышения количества тонально окрашенных текстов.

Всего в соревновании SentiRuEval в 2015 году приняло участие 9 команд, которые отправили 33 прогона [18], в 2016 году команд было уже 10, и отправили они 59 прогонов для каждой из предметных областей1 [20].

Таким образом, видно, что задача классификации текстов по тональности вызывает активный интерес у исследователей. На основании вышесказанного, можно сделать вывод, что постановка задачи классификация текстов по тональности в разных формах является важной и востребованной исследовательской задачей.

Степень разработанности темы исследования

Классификация текстовых документов по тональности исследуется в трудах российских и зарубежных ученых таких как Лукашевич Н.В., Браславский П.И., Котельников Е.В., Turney P., Mohammad S, Kiritchenko S, Zhu X., Pang B. и другие.

Как было показано выше, задача классификации текстов по тональности является общепризнанной и достаточно хорошо изученной. Но, как правило, классификация текстов исследуется на коллекциях собранных в один временной промежуток и не рассматривается на текстовых коллекциях, собранных в разные временные интервалы. Поэтому, задача анализа текстов по тональности на текстовых коллекциях, разнесенных во времени, является актуальной теоретической и прикладной задачей.

Объект исследования

Объектом исследования являются коллекции текстов социальных сетей на русском языке.

1 Под предметной областью здесь понимается часть реального мира, рассматриваемая в пределах данного контекста. Под контекстом здесь может пониматься, например, область исследования или область, которая является объектом некоторой деятельности.

Предмет исследования

Предметом исследования являются методы классификации неструктурированных текстов на естественном языке по тональности.

Цель и задачи диссертационной работы

Целью данной диссертационной работы является разработка моделей и методов классификации текстов, обеспечивающих качественный анализ тональности текстов из социальных сетей за счет учета динамики обновления используемой в них лексики. Разрабатываемые методы и программные средства должны удовлетворять следующим требованиям.

1. Обеспечивать адаптацию тональных словарей таким образом, чтобы они позволяли классификатору текстов по тональности учитывать события, происходящие в данный момент и активно обсуждаемые в социальных сетях.

2. Быть применимыми к различным предметным областям.

Для достижения поставленной цели необходимо решить ряд задач.

1. Разработать программный комплекс для сбора постоянно обновляемых текстов социальных сетей на базе микроблоговой платформы twitter.

2. Создать наборы коллекций текстов, собранных в разное время.

3. Исследовать проблему снижения качества заранее обученного классификатора текстов по тональности на коллекциях, разнесенных во времени.

4. Разработать методы построения пространства признаков классификации, обеспечивающих качественную работу классификаторов в условиях изменения лексики текстов во времени.

5. Разработать методы автоматического определения тональности текстов на естественном языке в динамически обновляемых текстовых коллекциях.

Соответствие диссертации паспорту научной специальности

Диссертация соответствует области исследований специальности 05.13.17 -Теоретические основы информатики по п.1 «Исследование, в том числе с помо-

щью средств вычислительной техники, информационных процессов, информационных потребностей коллективных и индивидуальных пользователей»; п.2 «Исследование информационных структур, разработка и анализ моделей информационных процессов и структур»; п.5 «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений»; п. 9 «Разработка новых Интернет-технологий, включая средства поиска, анализа и фильтрации информации, средства приобретения знаний и создания онтологии, средства интеллектуализации бизнес-процессов».

Основные положения, выносимые на защиту:

1. Разработан метод сбора, организации хранения и обработки постоянно обновляемых коллекций текстов, извлеченных из социальных сетей, на базе микроблоговой платформы twitter. С помощью этого метода было собрано и размечено несколько коллекций текстов, которые были опубликованы в открытом доступе. Показана значимость собранных коллекций для исследовательских целей. В частности, на основе этих коллекции были подготовлены обучающая и тестовые коллекции для задачи репутационной оценки твитов по тональности для соревнований автоматических классификаторов по тональности на SentiRuEval 2015 и SentiRuEval 2016 [17, 18, 19].

2. Описана модель информационного процесса снижения качества классификации текстов по тональности со временем.

3. Разработаны методы автоматического определения тональности текстов на естественном языке в динамически обновляемых текстовых коллекциях.

4. Разработан программный комплекс для сбора, разметки и классификации по тональности коллекций текстов из социальных сетей, собранных в разное время.

Достоверность результатов

Достоверность результатов заключается в корректном применении методов обработки текстов на естественном языке и методов машинного обучения, что подтверждается экспериментальными исследованиями. Также достоверность подтверждается апробацией основных положений работы на международных и российских конференциях и актом о внедрении информационно-аналитическим управлением Администрации Губернатора и Правительства Новосибирской области.

Научная новизна

Научная новизна настоящей диссертационной работы заключается в следующем:

1. Обнаружена закономерность, подтверждающая существование проблемы снижения качества работы заранее обученного тонального классификатора на коллекциях, разнесенных во времени. Эта закономерность обоснована как экспериментально, так и численно с помощью статистических методов.

2. Разработаны методы построения пространства признаков классификации текстов по тональности для алгоритмов машинного обучения, которые обеспечивают качественную работу тонального классификатора в условиях изменения лексики текстов во времени.

3. На основе разработанных методов построения пространства признаков классификации текстов по тональности, предложены методы анализа тональности сообщений, собранных в разное время, основанные на комбинации алгоритмов предварительной обработки текстов и фильтрации текстовых коллекций. Применимость методов обоснована численно, для чего были проведены эксперименты с использованием извлеченных знаний. Разработанные методы могут применяться для разного типа задач классификации текстов по тональности. Методы не зависят от предметных областей и актуальных в конкретный момент времени обсуждаемых общемировых событий.

Методы исследования

Для решения поставленных задач в данной диссертационной работе были использованы методы компьютерной лингвистики, основанные на правилах и существующих лингвистических ресурсах, а также вероятностные тематические модели, основанные на комплексе методов машинного обучения. Для программной реализации системы использовались методы функционального и объектно-ориентированного программирования.

Теоретическая и практическая значимость

Разработано три метода извлечения признаков для обучения классификатора текстов по тональности. На основе предложенного подхода спроектирована и реализована программная система для извлечения, обработки и хранения динамически обновляемых коллекций текстов социальных сетей и классификации этих текстов по тональности. Разработанная система пригодна для классификации по тональности политематических текстов социальных сетей и не зависит от ярко-эмоциональных событий, актуальных и обсуждаемых в конкретный момент времени. Также система может быть использована для задачи репутационного маркетинга, т.е. классификации текстов по тональности относительно заранее заданного объекта.

Апробация результатов исследования

Основные результаты работы докладывались на следующих конференциях и научных семинарах:

1. Международная конференция «Knowledge Engineering and Semantic Web», Россия 2012;

2. Всероссийская научная конференция «Электронные библиотеки: Перспективные Методы и Технологии, Электронные коллекции - RCDL», Россия 2013;

3. XI Международная конференция «Перспективы развития фундаментальных наук», Россия, 2014;

4. Международная конференция «Knowledge Engineering and Semantic Web», Россия, 2014;

5. Конференции по искусственному интеллекту «КИИ-2014», Россия, 2014г;

6. Международная конференция «Диалог», Россия, 2015;

7. Международная конференция Text Speech Dialog, Чехия, 2015;

8. XVII Международная конференция DAMDID/RCDL'2015, Россия, 2015;

9. Международная конференция «Диалог», Россия, 2016;

10. Международные конференции KESW-2017, Польша, 2017.

В 2014 году получен дипломом I степени на конференции: XI Международной конференции студентов, аспирантов и молодых ученых «Перспективы развития фундаментальных наук» за доклад: «Методы автоматического извлечения терминов в динамически обновляемых коллекциях для построения словаря эмоциональной лексики на основе микроблоговой платформы Twitter».

В 2014 году. доклад «Automatic Term Extraction for Sentiment Classification of Dynamically Updated Text Collections into Three Classes» занял III место на международной конференции Knowledge Engineering and the Semantic Web 5th International Conference, KESW 2014 (приложение В).

В 2015 году получено благодарственное письмо от Администрации Советского района города Новосибирска за активное участие в научно-исследовательской работе, предложения по внедрению инновационных проектов на предприятиях и в организациях города Новосибирска (приложение В).

В 2017 году получена награда Best paper award for research design на конференции KESW 2017 за доклад «Reducing the Degradation of Sentiment Analysis for Text Collections Spread over a Period of Time» (приложение В).

Кроме того, результаты исследования обсуждались на регулярном объединенном семинаре ИСИ СО РАН и кафедры программирования НГУ «Интеллектуальные системы» и на семинаре «Системное программирование».

Внедрение результатов исследования

Теоретические и практические результаты научных исследований, представленных в диссертации, были использованы информационно-аналитическим управлением Администрации Губернатора и Правительства Новосибирской области в 2014 году при разработке информационной системы мониторинга и анализа сообщений, полученных из социальных сетей. Использование результатов позволило существенно ускорить обработку значительного объема данных и уменьшить трудоемкость работы с ними (см. акт о внедрении в приложении Б).

Результаты научных исследований, представленные в диссертации, были поддержаны грантом мэрии города Новосибирска в 2015 году, договор № 74 от 29.07.2015. Они частично использовались в рамках грантов РФФИ № 14-07-00682 и № 15-07-09306 под руководством Лукашевич Н.В., а также в проекте № 15/10 «Математические и методологические аспекты интеллектуальных информационных систем», выполняемом в рамках Программы фундаментальных исследований Президиума РАН № 15 «Информационные, управляющие и интеллектуальные технологии и системы». номер гос. регистрации: 01201376188» (0317-2014-0006).

Личный вклад соискателя

Личный вклад автора заключается в выполнении основного объема теоретических и экспериментальных исследований, изложенных в диссертационной работе, включая исследование предметной области, разработку теоретических моделей, методов и программных систем для проведения экспериментальных исследований, проведение экспериментов, анализ и оформление результатов в виде публикаций и научных докладов. Все выносимые на защиту результаты получены автором лично.

Публикации

Основные результаты диссертации изложены в 16 печатных работах, в том числе 3 статьи опубликованы в журналах из списка ВАК РФ [21, 22, 23],

7 статей опубликованы в журналах, входящих в реферативную базу данных SCOPUS [17, 18, 19, 20, 24, 25, 26] и 6 статей в других изданиях [27, 28, 29, 30, 31, 32].

В работах выполненных в соавторстве доля вклада соискателя составляет не менее 50% и заключается в постановке задачи и исследовании и разработке алгоритмов [27]; исследовании данных, разработке и тестировании алгоритмов [17, 18, 19, 20].

Объем и структура диссертационной работы

Диссертация состоит из введения, 4 глав, заключения и 3 приложений. Полный объем диссертации составляет 141 страницу с 12 рисунками и 20 таблицами. Список литературы содержит 137 наименований.

ГЛАВА 1. Автоматический анализ тональности текстов. Обзор задач и подходов к их решению

Целью данной главы является анализ достоинств и недостатков существующих подходов к классификации текстов по тональности. Данная глава содержит описание основных задач, связанных с обработкой сообщений пользователей в социальных сетях и специализированных сайтов с отзывами. Основное внимание уделяется одной из наиболее востребованных задач обработки текстов на естественном языке - классификации текстов в общем и классификации текстов по тональности в частности. В данной главе приводится обзор наиболее эффективных методов классификации текстов по тональности на базе методов машинного обучения и инженерии знаний с использованием правил и словарей оценочной лексики. Дается формальное описание задачи классификации текстов, описываются методы и меры оценки качества классификаторов.

1.1 Виды классификации текстов

В связи с постоянно растущим объемом пользовательской информации и пользовательского контента на онлайн ресурсах, растет и потребность обрабатывать эту информацию для того, чтобы иметь возможность эффективно ее использовать как в социальных сферах деятельности, так и в коммерческих. Поэтому в настоящее время большое внимание уделяется задачам обработки текстов на естественном языке в целом и подзадаче классификации текстов в частности. Методы классификации текстов используются для решения разнообразных практических задач, например, таких как:

• фильтрация спама [33],

• подбор и показ контекстной рекламы [34],

• автоматическое реферирование (составление аннотаций) [35],

• снятие неоднозначности при автоматическом переводе текстов,

• ограничение области поиска в поисковых системах,

• персонификация новостей и поисковой выдачи,

• определение кодировки и языка текста,

• определение эмоционально окраски (тональности) текста.

Данная диссертационная работа сфокусирована на одной из подзадач классификации текстов - классификации текстов по тональности. В работе [6] авторы проводят сравнение задач тематической классификации текстов и классификации текстов по тональности и делают упор на том, что в случае классификации текстов по тональности сложнее подготовить набор терминов, которые позволяют прогнозировать и получать высокое качество классификации. Автоматическая классификация текстов по тональности осложняется наличием в текстах иронии и сарказма. Происходит это потому, что некоторые термины являются оценочными в одной предметной области и остаются нейтральными в других, а некоторые термины приобретают эмоциональный окрас только при наличии отрицаний. Все это способствовало выделению задачи классификации текстов по тональности в отдельную область исследований.

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Список литературы диссертационного исследования кандидат наук Рубцова Юлия Владимировна, 2020 год

СПИСОК ЛИТЕРАТУРЫ

1. Бюллетень «Интернет в России. Зима 2015 - 2016 гг.» [Электронный ресурс]. - Режим доступа: http://fom.ru/SMI-i-internet/12610 (Дата обращения: 10.05.2019).

2. ВЦИОМ [Электронный ресурс]. - Режим доступа: http://wciom.ru/index.php?id=236&uid=115657 (Дата обращения: 10.05.2019).

3. ФОМ [Электронный ресурс]. - Режим доступа: http://fom.ru/SMI-i-internet/10623 (Дата обращения: 10.05.2019).

4. ВЦИОМ [Электронный ресурс]. - Режим доступа: http://wciom.ru/index.php?id=236&uid=112964 (Дата обращения: 15.06.2016).

5. Feldman R. Techniques and applications for sentiment analysis // Communications of the ACM. - 2013. - Т. 56. - №. 4. - С. 82-89.

6. Pang B., Lee L., Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques // Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. - Association for Computational Linguistics, 2002. - С. 79-86.

7. Pang B., Lee L. Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales // Proceedings of the 43rd annual meeting on association for computational linguistics. - Association for Computational Linguistics, 2005. - С. 115-124.

8. Chetviorkin I., Braslavskiy P., Loukachevitch N. Sentiment Analysis Track at ROMIP 2011 // Computational Linguistics and Intellectual Technologies: Annual International Conf. «Dialogue», CoLing&InTel, №. 11 (18). 2012. С. - 739-746.

9. Amigó E. et al. Overview of RepLab 2012: Evaluating Online Reputation Management Systems // CLEF (Online Working Notes/Labs/Workshop). - 2012.

10. Amigó E. et al. Overview of replab 2013: Evaluating online reputation monitoring systems // International Conference of the Cross-Language Evaluation Forum for European Languages. - Springer Berlin Heidelberg, 2013. - С. 333-352.

11. Nakov, P., Kozareva, Z., Ritter, A., Rosenthal, S., Stoyanov, V., Wilson, T.: Semeval-2013 task 2: Sentiment analysis in Twitter // In Proceedings of the 7th International Workshop on Semantic Evaluation. Association for Computation Linguistics, - 2013.

12. Rosenthal S., Ritter A., Nakov P., Stoyanov V. (2014), SemEval-2014 Task 9: Sentiment Analysis in Twitter // Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014), Dublin, 2014. С. 73-80.

13. Rosenthal S., Nakov P., Kiritchenko S., Mohammad S. M., Ritter A., & Stoyanov V. Semeval-2015 task 10: Sentiment analysis in twitter // Proceedings of SemEval-

2015. Denver, Colorado, June 4-5, 2015. Association for Computational Linguistics. С.451-463.

14. Nakov P. et al. Developing a successful SemEval task in sentiment analysis of Twitter and other social media texts // Language Resources and Evaluation. -

2016. - Т. 50. - №. 1. - С. 35-65.

15. Rosenthal S., Farra N., Nakov P. SemEval-2017 task 4: Sentiment analysis in Twitter // Proceedings of the 11th international workshop on semantic evaluation (SemEval-2017). - 2017. - С. 502-518.

16. Chetviorkin I., Loukachevich N. 2013. Sentiment analysis track at romip 2012 // In Proceedings of International Conference Dialog, volume 2. 2012. С. - 40-50.

17. Loukachevitch N. et al. SentiRuEval: testing object-oriented sentiment analysis systems in Russian // Proceedings of International Conference Dialog. - 2015. - С. 3-9.

18. Loukachevitch N., Rubtsova Y. Entity-Oriented Sentiment Analysis of Tweets: Results and Problems //Text, Speech, and Dialogue. - Springer International Publishing, 2015. - С. 551-559.

19. Лукашевич Н., Рубцова Ю. Объектно-ориентированный анализ твитов по тональности: результаты и проблемы // Труды Международной конференции DAMDID/RCDL-2015. — Обнинск, 2015. — С. 499-507.

20. Loukachevitch, N., Rubtsova, Y. SentiRuEval-2016: Overcoming Time Gap and Data Sparsity in Tweet Sentiment Analysis // In Proceedings of International Con-

ference on Computational Linguistics and Intellectual Technologies Dialog-2016.

- 2016. - С. 375-384.

21. Рубцова Ю. В. Разработка и исследование предметно независимого классификатора текстов по тональности // Труды СПИИРАН. - 2014. - Т. 5. - №. 36.

- С. 59-77.

22. Рубцова Ю.В. Методы автоматического извлечения терминов в динамически обновляемых коллекциях для построения словаря эмоциональной лексики на основе микроблоговой платформы Twitter // Доклады Томского государственного университета систем управления и радиоэлектроники. 2014, № 3 (33). -С.140-144.

23. Рубцова Ю. В. Построение корпуса текстов для настройки тонового классификатора // Программные продукты и системы, 2015, №1(109), -С.72-78.

24. Rubtsova Y. Automatic Term Extraction for Sentiment Classification of Dynamically Updated Text Collections into Three Classes // International Conference on Knowledge Engineering and the Semantic Web. - Springer International Publishing, 2014. - С. 140-149.

25. Rubtsova Y. Reducing the Degradation of Sentiment Analysis for Text Collections Spread over a Period of Time // International Conference on Knowledge Engineering and the Semantic Web. - Springer, Cham, 2017. - С. 3-13.

26. Rubtsova Y. Reducing the Deterioration of Sentiment Analysis Results Due to the Time Impact // Information. - 2018. - Т. 9. - №. 8. - С. 184. Режим доступа: https://www.mdpi.com/2078-2489/9/8/184

27. Rubtsova Y. V., Zagorulko Y. A. An approach to construction and analysis of a corpus of short Russian texts intended to train a sentiment classifier // BULLETIN OF THE NOVOSIBIRSK COMPUTING CENTER. SERIES: COMPUTER SCIENCE. - 2014. - №. 37. - С. 107-116.

28. Рубцова Ю. Автоматическое построение и анализ корпуса коротких текстов (постов микроблогов) для задачи разработки и тренировки тонового классификатора // Сборник трудов конференции «Инженерия знаний и технологии семантического веба - 2012». - СПб.: НИУ ИТМО, 2012. - С. 109-115.

29. Рубцова Ю.В. Метод построения и анализа корпуса коротких текстов для задачи классификации отзывов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XV Всероссийской научной конференции RCDL'2013, Ярославль, Россия, 14-17 октября 2013 г. -Ярославль: ЯрГУ, 2013. - С. 269-275.

30. Рубцова Ю.В. Автоматическое извлечение терминов для задачи тоновой классификации в постоянно обновляющихся текстовых коллекциях // Труды 14-й национальной конференции по искусственному интеллекту с международным участием КИИ-2014. -Казань: РИЦ «Школа», 2014. -Т.1. -С.144-152.

31. Рубцова Ю.В. Преодоление деградации результатов классификации текстов по тональности в коллекциях, разнесенных во времени // Системная информатика. — 2016. — № 7. — С. 45-68.

32. Рубцова Ю. В. Модель нейронной сети для преодоления деградации результатов классификации текстов по тональности // Проблемы информатики, 2018, № 2(39). С.4-14.

33. Androutsopoulos I. et al. An experimental comparison of naive Bayesian and keyword-based anti-spam filtering with personal e-mail messages // Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval. - ACM, 2000. - С. 160-167.

34. Fan T. K., Chang C. H. Sentiment-oriented contextual advertising //Knowledge and Information Systems. - 2010. - Т. 23. - №. 3. - С. 321-344.

35. Воронков Н.В., Совпель И.В. Автоматическое топик-ориентированное реферирование // Сборник трудов «Обработка текстов и когнитивные технологии» - Казань. - 2002. - № 7. - С. 94-102.

36. Turney P. D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews // Proceedings of the 40th annual meeting on association for computational linguistics. - Association for Computational Linguistics, 2002. - С. 417-424.

37. Wilson T., Wiebe J., Hoffmann P. Recognizing contextual polarity in phrase-level sentiment analysis // Proceedings of the conference on human language technology

and empirical methods in natural language processing. - Association for Computational Linguistics, 2005. - С. 347-354.

38. Agarwal A., Xie B., Vovsha I., Rambow O., Passonneau, R. Sentiment analysis of twitter data //Proceedings of the Workshop on Languages in Social Media. - Association for Computational Linguistics, 2011. - С. 30-38.

39. Kouloumpis E., Wilson T., Moore J. Twitter sentiment analysis: The good the bad and the omg! //ICWSM. - 2011. - Т. 11. - С. 538-541.

40. Pak A., Paroubek P. Twitter as a Corpus for Sentiment Analysis and Opinion Mining // LREC. - 2010. - Т. 10. - С. 1320-1326.

41. Клековкина М. В., Котельников Е. В. Метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики //Труды конференции RCDL. - 2012. - С. 118-123.

42. Jiang L. et al. Target-dependent twitter sentiment classification //Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. - Association for Computational Linguistics, 2011. - С. 151-160.

43. Lek H. H., Poo D. C. C. Aspect-based Twitter sentiment classification //2013 IEEE 25th International Conference on Tools with Artificial Intelligence. - IEEE, 2013. - С. 366-373.

44. Васильев В. Г., Худякова М. В., Давыдов С. Классификация отзывов пользователей с использованием фрагментных правил //РОМИП - 2011. - С. 66-76.

45. Mullen T., Collier N. Sentiment Analysis using Support Vector Machines with Diverse Information Sources //EMNLP. - 2004. - Т. 4. - С. 412-418.

46. Xia R., Zong C. Exploring the use of word relation features for sentiment classification //Proceedings of the 23rd International Conference on Computational Linguistics: Posters. - Association for Computational Linguistics, 2010. - С. 13361344.

47. Blinov P., Klekovkina M., Kotelnikov E., Pestov O. Research of lexical approach and machine learning methods for sentiment analysis // Computational Linguistics and Intellectual Technologies, 2(12). 2013. - С. 48-58.

48. Blitzer J. et al. Biographies, bollywood, boom-boxes and blenders: Domain adaptation for sentiment classification //ACL. - 2007. - Т. 7. - С. 440-447.

49. Pang B., Lee L. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts // Proceedings of the 42nd annual meeting on Association for Computational Linguistics. - Association for Computational Linguistics, 2004. - С. 271.

50. Kiritchenko S., Zhu X., Mohammad S. M. Sentiment analysis of short informal texts //Journal of Artificial Intelligence Research. - 2014. - С. 723-762.

51. Kennedy A., Inkpen D. Sentiment classification of movie reviews using contextual valence shifters //Computational intelligence. - 2006. - Т. 22. - №. 2. - С. 110125.

52. Фролов А., Поляков П.Ю., Плешко В. Использование семантических категорий в задаче классификации отзывов о книгах // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции "Диалог". — 2013. — Т. 12, № 19.

53. Goldberg A. B., Zhu X. Seeing stars when there aren't many stars: graph-based semi-supervised learning for sentiment categorization //Proceedings of the First Workshop on Graph Based Methods for Natural Language Processing. - Association for Computational Linguistics, 2006. - С. 45-52.

54. Socher R. et al. Recursive deep models for semantic compositionality over a sentiment treebank //Proceedings of the conference on empirical methods in natural language processing (EMNLP). - 2013. - Т. 1631. - С. 1642.

55. Manning D., Raghavan P., Schutze H. Introduction to information retrieval. -Cambridge : Cambridge university press, 2008. - Т. 1. - №. 1. - С. 496.

56. Iqbal F. et al. A Hybrid Framework for Sentiment Analysis Using Genetic Algorithm Based Feature Reduction //IEEE Access. - 2019. - Т. 7. - С. 14637-14652.

57. Manning C. D. et al. Introduction to information retrieval // Cambridge : Cambridge university press, 2008. - Т. 1. - №. 1. - С. 496.

58. Paltoglou G., Thelwall M. A study of information retrieval weighting schemes for sentiment analysis //Proceedings of the 48th Annual Meeting of the Association for

Computational Linguistics. - Association for Computational Linguistics, 2010. -G 1386-1395.

59. Bespalov D., Bai B., Qi Y., Shokoufandeh A. Sentiment classification based on supervised latent n-gram analysis //Proceedings of the 20th ACM international conference on Information and knowledge management. - ACM, 2011. - G 375382.

60. Nguyen D.Q., Nguyen D.Q., Vu T., Pham S.B. Sentiment classification on polarity reviews: an empirical study using rating-based features // In: 5th Workshop on Computational Approaches to Subjectivity, Sentiment & Social Media Analysis. Baltimore, Md. 2014. G - 128-135.

61. Cui H., Mittal V., Datar M. Comparative experiments on sentiment classification for online product reviews //AAAI. - 2006. - ^ 6. - G 1265-1270.

62. Wallach H. M. Topic modeling: beyond bag-of-words //Proceedings of the 23rd international conference on Machine learning. - ACM, 2006. - G 977-984.

63. Dave K., Lawrence S., Pennock D. M. Mining the peanut gallery: Opinion extraction and semantic classification of product reviews //Proceedings of the 12th international conference on World Wide Web. - ACM, 2003. - G 519-528.

64. Go A., Bhayani R., Huang L. Twitter sentiment classification using distant supervision //CS224N Project Report, Stanford. - 2009. - ^ 1. - G 12.

65. Gamon M. Sentiment classification on customer feedback data: noisy data, large feature vectors, and the role of linguistic analysis //Proceedings of the 20th international conference on Computational Linguistics. - Association for Computational Linguistics, 2004. - G 841.

66. Adaskina Yu. V., Panicheva P. V., Popov A. M. Syntax-based Sentiment Analysis of Tweets in Russian. // In Proceedings of International Conference Dialog. -2015. - ^ 2. - G 25-35.

67. Tutubalina E. V., Zagulova M. A., Ivanov V. V., Malykh V. A., A Supervised Approach for SentiRuEval Task on Sentiment Analysis of Tweets about Telecom and Financial Companies. // In Proceedings of International Conference Dialog. -2015. - ^ 2. - G 89-99.

68. Nasukawa T., Yi J. Sentiment analysis: Capturing favorability using natural language processing //Proceedings of the 2nd international conference on Knowledge capture. - ACM, 2003. - С. 70-77.

69. Yi J., Nasukawa T., Niblack W., Bunescu R. Sentiment analyzer: Extracting sentiments about a given topic using natural language processing techniques //Data Mining, 2003. ICDM 2003. Third IEEE International Conference on. - IEEE, 2003. - С. 427-434.

70. König A. C., Brill E. Reducing the human overhead in text categorization //Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining. - ACM, 2006. - С. 598-603.

71. Prabowo R., Thelwall M. Sentiment analysis: A combined approach //Journal of Informetrics. - 2009. - Т. 3. - №. 2. - С. 143-157.

72. Котельников Е. В., Комбинированный метод автоматического определения тональности текста// программные продукты и системы № 3, 2012. - С. 189195.

73. Cristianini N., Shawe-Taylor J. An introduction to support vector machines and other kernel-based learning methods // Cambridge university press, 2000.

74. Joachims T. Text categorization with support vector machines: Learning with many relevant features //European conference on machine learning. - Springer Berlin Heidelberg, 1998. - С. 137-142.

75. Kohavi R. et al. A study of cross-validation and bootstrap for accuracy estimation and model selection //Ijcai. - 1995. - Т. 14. - №. 2. - С. 1137-1145.

76. Рассел С., Норвиг П. Искусственный интеллект: современный подход. - 2-е изд. Пер. с англ. - М.: Издательский дом "Вильям^', 2006. - 1408с.

77. Sebastiani F. Machine learning in automated text categorization //ACM computing surveys (CSUR). - 2002. - Т. 34. - №. 1. - С. 1-47.

78. Martineau J., Finin T. Delta TFIDF: An Improved Feature Space for Sentiment Analysis //ICWSM. - 2009. - Т. 9. - С. 106.

79. Wang D., Zhang H. Inverse-category frequency based supervised term weighting schemes for text categorization // Journal of Information Science and Engineering.

- 2013. - 29(2). - С. 209-225.

80. Lan M. et al. Supervised and traditional term weighting methods for automatic text categorization //IEEE transactions on pattern analysis and machine intelligence. -2009. - Т. 31. - №. 4. - С. 721-735.

81. Liu Y., Loh H. T., Sun A. Imbalanced text classification: A term weighting approach //Expert systems with Applications. - 2009. - Т. 36. - №. 1. - С. 690-701.

82. Zhu J. et al. Multi-aspect opinion polling from textual reviews //Proceedings of the 18th ACM conference on Information and knowledge management. - ACM, 2009.

- С. 1799-1802.

83. Mohammad S. M., Kiritchenko S., Zhu X. NRC-Canada: Building the state-of-the-art in sentiment analysis of tweets // In Proceedings of the seventh international workshop on Semantic Evaluation Exercises (SemEval-2013). Atlanta, Georgia, USA. - 2013.

84. Choi Y., Cardie C. Adapting a polarity lexicon using integer linear programming for domain-specific sentiment classification //Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 2-Volume 2. -Association for Computational Linguistics, 2009. - С. 590-598.

85. Hangya V., Farkas R. Filtering and Polarity Detection for Reputation Management on Tweets //CLEF 2013, Conference and Labs of the Evaluation Forum. - 2013.

86. Liu H. MontyLingua: An end-to-end natural language processor with common sense. [Электронный ресурс]. - Режим доступа: http://alumni.media.mit.edu/~hugo/montylingua (Дата обращения: 10.05.2019).

87. Hu M., Liu B. Mining and summarizing customer reviews //Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. - ACM, 2004. - С. 168-177.

88. Taboada M. et al. Lexicon-based methods for sentiment analysis //Computational linguistics. - 2011. - Т. 37. - №. 2. - С. 267-307.

89. Kim S. M., Hovy E. Determining the sentiment of opinions //Proceedings of the 20th international conference on Computational Linguistics. - Association for Computational Linguistics, 2004. - С. 1367.

90. Ding X., Liu B., Yu P. S. A holistic lexicon-based approach to opinion mining //Proceedings of the 2008 international conference on web search and data mining.

- ACM, 2008. - С. 231-240.

91. Ермаков А. Е., Киселев С. Л. Лингвистическая модель для компьютерного анализа тональности публикаций СМИ //Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог. -2005. - С. 282-285.

92. Choi Y. et al. Identifying sources of opinions with conditional random fields and extraction patterns //Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. - Association for Computational Linguistics, 2005. - С. 355-362.

93. Lafferty J. et al. Conditional random fields: Probabilistic models for segmenting and labeling sequence data //Proceedings of the eighteenth international conference on machine learning, ICML. - 2001. - Т. 1. - С. 282-289.

94. Riloff E. An empirical study of automated dictionary construction for information extraction in three domains //Artificial intelligence. - 1996. - Т. 85. - №. 1. -С. 101-134.

95. Khan A. Z. H., Atique M., Thakare V. M. Combining lexicon-based and learning-based methods for Twitter sentiment analysis //International Journal of Electronics, Communication and Soft Computing Science & Engineering (IJECSCSE). - 2015.

- С. 89.

96. Lavelli A., Sebastiani F., Zanoli R. Distributional term representations: an experimental comparison //Proceedings of the thirteenth ACM international conference on Information and knowledge management. - ACM, 2004. - С. 615-624.

97. Villatoro-Tello, E., Rodríguez-Lucatero, C., Sánchez-Sánchez, C., & López-Monroy, A. P. UAMCLyR at RepLab 2013: Profiling Task // In CLEF (Working Notes) - 2013.

98. Tang D. et al. Learning Sentiment-Specific Word Embedding for Twitter Sentiment Classification //ACL (1). - 2014. - С. 1555-1565.

99. Manning C. D., Schutze H. Foundations of Statistical Natural Language Processing // The MIT Press, 1999.

100. Chawla N. V. Data mining for imbalanced datasets: An overview //Data mining and knowledge discovery handbook. - Springer US, 2005. - С. 853-867.

101. Gu Q. et al. Data mining on imbalanced data sets //Advanced Computer Theory and Engineering, 2008. ICACTE'08. International Conference on. - IEEE, 2008. -С. 1020-1024.

102. The Streaming APIs. [Электронный ресурс]. - Режим доступа: https://developer.twitter.com/en/docs (Дата обращения: 10.05.2019).

103. Mikolov, T., Chen, K., Corrado, G., Dean, J. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781. - 2013.

104. Purver M., Battersby S. Experimenting with distant supervision for emotion classification //Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics. - Association for Computational Linguistics, 2012. - С. 482-491.

105. Suttles J., Ide N. Distant supervision for emotion classification with discrete binary values //International Conference on Intelligent Text Processing and Computational Linguistics. - Springer Berlin Heidelberg, 2013. - С. 121-136.

106. Liu K. L., Li W. J., Guo M. Emoticon Smoothed Language Models for Twitter Sentiment Analysis //AAAI. - 2012.

107. Davidov D., Tsur O., Rappoport A. Enhanced sentiment learning using twitter hashtags and smileys //Proceedings of the 23rd international conference on computational linguistics: posters. - Association for Computational Linguistics, 2010. -С. 241-249.

108. Read J. Using emoticons to reduce dependency in machine learning techniques for sentiment classification //Proceedings of the ACL student research workshop. -Association for Computational Linguistics, 2005. - С. 43-48.

109. Русначенко Н. Л., NL R. Улучшение качества тональной классификации с использованием лексиконов. // Компьютерная лингвистика и интеллектуальные технологии: По материалам студенческой сессии ежегодной Международной конференции «Диалог». - 2016.

110. Alexander T. Using Polarity Classification Model to Assess Customer Attitudes: the Case of Russian E-Commerce Companies on Twitter. Магистерская диссертация, Санкт-Петербургский государственный университет. - 2018.

111. Настроение России online [Электронный ресурс]. - Режим доступа: http://twittermood-ru.appspot.com/ (Дата обращения: 05.08.2016).

112. Мониторинг тональности твитов о ВУЗ'ах в режиме реального времени [Электронный ресурс]. - Режим доступа: https://tweets-about-universities.herokuapp.com/ (Дата обращения: 05.08.2016).

113. Powers D. M. W. Applications and explanations of Zipfs law //Proceedings of the joint conferences on new methods in language processing and computational natural language learning. - Association for Computational Linguistics, 1998. - С. 151-160.

114. O'Keefe T., Koprinska I. Feature selection and weighting methods in sentiment analysis //Proceedings of the 14th Australasian document computing symposium, Sydney. - 2009. - С. 67-74.

115. Fan R. E. et al. LIBLINEAR: A library for large linear classification //Journal of machine learning research. - 2008. - Т. 9. - №. Aug. - С. 1871-1874.

116. Toh Z. DLIREC: Aspect Term Extraction and Term Polarity Classification System / Z. Toh, W. Wang // Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014). - 2014. - С. 235-240.

117. Miller G. A. WordNet: a lexical database for English //Communications of the ACM. - 1995. - Т. 38. - №. 11. - С. 39-41.

118. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval //Information processing & management. - 1988. - Т. 24. - №. 5. - С. 513-523.

119. Kullback S., Leibler R. A. On information and sufficiency //The annals of mathematical statistics. - 1951. - Т. 22. - №. 1. - С. 79-86.

120. Reed J. W. et al. TF-ICF: A new term weighting scheme for clustering dynamic data streams //Machine Learning and Applications, 2006. ICMLA'06. 5th International Conference on. - IEEE, 2006. - С. 258-263.

121. Domeniconi G. et al. A study on term weighting for text categorization: a novel supervised variant of TF. IDF //Proceedings of the 4th international conference on data management technologies and applications (DATA). Candidate to the best conference paper award. - 2015. - С. 26-37.

122. Лукашевич Н. В., Четвёркин И. И. Извлечение и использование оценочных слов в задаче классификации отзывов на три класса //Вычислительные методы и программирование. - 2011. - Т. 12. - №. 4. - С. 73-81.

123. Mansour R. et al. Revisiting The Old Kitchen Sink: Do We Need Sentiment Domain Adaptation? //RANLP. - 2013. - С. 420-427.

124. Лукашевич Н. В., Левчик А. В. Создание лексикона оценочных слов русского языка РуСентиЛекс //Открытые семантические технологии проектирования интеллектуальных систем. - 2016. - №. 6. - С. 377-382.

125. Alexeeva S., Koltsov S., Koltsova O. Linis-crowd. org: A lexical resource for Russian sentiment analysis of social media //Computational linguistics and computational ontology. - 2015. - С. 25-34.

126. Chetviorkin I., Loukachevitch N. V. Extraction of Russian Sentiment Lexicon for Product Meta-Domain //COLING. - 2012. - С. 593-610.

127. Объяснительный словарь русского языка: Структурные слова: предлоги, союз, частицы, междометия, вводные слова, местоимения, числительные, связанные слова // Государственный институт рус. яз. им. А. С. Пушкина; В. В. Морковкин, Н. М. Луцкая, Г. Ф. Богачёва и др.; Под ред. В. В. Морковкина. -2-е изд., испр. - М.: ООО «Издательство Астрель», 2003.

128. Павлова Ю.В. Выявление социально значимых тем в блогах (на примере Живого Журнала), Магистерская диссертация, Высшая Школа Экономики, Санкт-Петербург, 2012.

129. Titov I., McDonald R. Modeling online reviews with multi-grain topic models //Proceedings of the 17th international conference on World Wide Web. - ACM, 2008. - C 111-120.

130. Mikolov T. et al. Distributed representations of words and phrases and their com-positionality //Advances in neural information processing systems. - 2013. - C 3111-3119.

131. Levy O., Goldberg Y., Dagan I. Improving distributional similarity with lessons learned from word embeddings //Transactions of the Association for Computational Linguistics. - 2015. - ^ 3. - C 211-225.

132. Goldberg Y., Levy O. word2vec explained: Deriving mikolov et al.'s negative-sampling word-embedding method //arXiv preprint arXiv:1402.3722. - 2014.

133. Rong X. word2vec parameter learning explained //arXiv preprint arXiv:1411.2738. - 2014.

134. Kim Y. Convolutional neural networks for sentence classification // arXiv preprint arXiv:1408.5882. - 2014.

135. Sharoff, S., Nivre, J. The proper place of men and machines in language technology: Processing Russian without any linguistic knowledge //Proc. Dialogue 2011, Russian Conference on Computational Linguistics. - 2011.

136. Bocharov V. et al. Crowdsourcing morphological annotation //Computational Linguistics and Intellectual Technologies: papers from the Annual conference "Dialogue", RGGU. - 2013. - Q 109-124.

137. Braslavski P., Ustalov D., Mukhin M. A Spinning Wheel for YARN: User Interface for a Crowdsourced Thesaurus // Proceedings of the Demonstrations at the 14th Conference of the European Chapter of the Association for Computational Linguistics. — Gothenburg, Sweden : Association for Computational Linguistics, 2014. — C 101-104.

ПРИЛОЖЕНИЕ А. Словарь эмотиконов Отрицательные эмотиконы:

( - использовалось только в том случае, если в тексте не было закрывающей скобки. (( :( :(( :-(( :-( =( =(( %( %((( %(( ;(( ;-(( ;( ;-( :'(

Положительные эмотиконы:

) - использовалось только в том случае, если в тексте не было открывающей скобки. )) :) :ё :-ё ;) ;-) :-) =) :))

О)

:ББ))

;О) %)

%)) %-))

;)) ;-)) =)) :-)) хё хёё

ПРИЛОЖЕНИЕ Б. Акт о внедрении

администрация

губернатора новосибирской области

и правительства новосибирской области

ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЕ УПРАВЛЕНИЕ

Красный проспект, д. 18, г. Новосибирск, 630011 тел факс: (383) 227-00-65, e-mail: pr35@nso.ru

На № от____

АКТ

о внедрении результатов кандидатской диссертации Рубцовой Юлии Владимировны

Методика тоновой классификации сообщений онлайновых социальных сетей, представленная в диссертации Ю.В.Рубцовой, была использована информационно-аналитическим управлением Администрации Губернатора и Правительства Новосибирской области в 2014 году при разработке информационной системы мониторинга и анализа сообщений, полученных из социальных сетей.

Программная система в составе прочего программного обеспечения применяется как средство информационно-аналитического обеспечения процесса принятия управленческих решений и реализации государственной информационной политики на территории региона.

Предложенные Ю.В. Рубцовой методы автоматической тоновой классификации сообщений позволили реализовать алгоритмы, которые автоматически определяют тональность собранных в базе данных сообщений. А именно, позволили распределять сообщения по трем классам: негативные, нейтральные и позитивные. Возможно осуществлять настройку алгоритмов на предметную область, и таким образом проводить мониторинг по различным темам. Результаты автоматического анализа данных отображаются на экране монитора в соответствии с разработанным пользовательским интерфейсом, который естественен и удобен для работы.

Алгоритмы, предложенные Ю.В.Рубцовой, базируются на основе так называемых наивного байесовского классификатора и метода опорных векторов. Проведенное тестирование на реальных данных показало их высокую эффективность для целей автоматического тонового анализа сообщений из социальных сетей.

В целом, использование результатов диссертационного исследования Ю.В. Рубцовой позволило существенно ускорить обработку значительного

ПРИЛОЖЕНИЕ В. Грамоты

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.