Методы и алгоритмы аспектного анализа тональности на основе гибридной семантико-статистической модели естественного языка тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Корней Алена Олеговна

  • Корней Алена Олеговна
  • кандидат науккандидат наук
  • 2022, ФГБОУ ВО «Сибирский государственный университет телекоммуникаций и информатики»
  • Специальность ВАК РФ05.13.17
  • Количество страниц 134
Корней Алена Олеговна. Методы и алгоритмы аспектного анализа тональности на основе гибридной семантико-статистической модели естественного языка: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГБОУ ВО «Сибирский государственный университет телекоммуникаций и информатики». 2022. 134 с.

Оглавление диссертации кандидат наук Корней Алена Олеговна

ВВЕДЕНИЕ

ГЛАВА 1. АКТУАЛЬНЫЕ ПРОБЛЕМЫ ОБРАБОТКИ

ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ТЕКСТОВ

1.1 Природа сложности задач автоматической обработки текста

1.2 Задача категоризации текстов

1.3 Анализ тональности текстов

1.4 Модели и ресурсы, применяемые в задачах

автоматической обработки текста

1.4.1 Векторные модели и Word Embeddings

1.4.2 Тезаурусы и лексиконы

1.5 Выводы

ГЛАВА 2. МАТЕМАТИЧЕСКАЯ МОДЕЛЬ И АЛГОРИТМ ПОСТРОЕНИЯ МНОГОСЛОЙНОГО СЕМАНТИЧЕСКОГО ГРАФА

2.1 Общие требования к графовой семантической модели

2.2 Базовый семантический граф

2.2.1 Математическая модель семантического графа

2.2.2 Отношение синонимии

2.2.3 Отношение определения

2.2.4 Отношение ассоциации

2.2.5 Семантическая близость слов

2.3 Алгоритм извлечения данных из общелингвистических словарей

2.3.1 Словарь синонимов

2.3.2 Толковый словарь

2.3.3 Статистический анализ данных, извлеченных из словарей

2.4 Многослойный семантический граф на основе

структурированных текстов

2.4.1 Структура слоев

2.5 Многослойный семантический граф на основе

неструктурированных источников данных

2.6 Выводы

ГЛАВА 3. КАТЕГОРИЗАЦИЯ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ КОНДЕНСИРОВАННОГО СЕМАНТИЧЕСКОГО ГРАФА

3.1 Состав и структура обучающих данных

3.2 Алгоритм построения конденсированного семантического графа

на основе обучающей выборки

3.2.1 Фильтрация обучающих данных

3.2.2 Релаксация на базе домен-специфичного каркаса

3.2.3 Расчет центральностей и градиентов вершин

3.2.4 Выбор ключевых терминов домена

3.2.5 Оценка временной сложности построения

конденсированного графа

3.3 Метод категоризации текстов, основанный

на конденсированном графе

3.3.1 Построение семантических кластеров вокруг заданных терминов

3.3.2 Характеристическая функция принадлежности фразы кластеру

3.3.3 Алгоритм категоризации текстов

3.3.4 Результаты работы алгоритма категоризации

3.5 Выводы

ГЛАВА 4. ПРИМЕНЕНИЕ СЕМАНТИЧЕСКОГО ГРАФА В ЗАДАЧАХ АНАЛИЗА ТОНАЛЬНОСТИ ТЕКСТОВ

4.1 Задача аспектно ориентированного анализа тональности

4.2 Модель системы анализа тональности коротких текстов

4.2.1 Подход к классификации

4.2.2. Статистический анализ обучающей выборки

4.2.3 Уровень поверхностного семантического анализа

4.2.4 Вычисление тональности короткого текста

на основе статистических данных

4.2.5 Семантический граф как источник неявной информации

о тональности

4.3. Алгоритм вычисления тональности текста

4.3.1. Общий вид весовой функции

4.3.2. Параметры семантического графа и вычисление неявной оценки

4.3.3. Обработка отрицаний на семантическом уровне анализа

4.3.4 Схема работы алгоритма

4.4. Результаты экспериментов по определению тональности

4.4.1. Лексический уровень

4.4.2. Семантический уровень

4.5 Аспектно-ориентированный анализ тональности

с использованием семантического графа

4.6 Выводы

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

ПРИЛОЖЕНИЯ

Приложение А. Примеры работы алгоритмов

Приложение Б. Справка о внедрении

Приложение В. Свидетельства о государственной

регистрации программ для ЭВМ

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы и алгоритмы аспектного анализа тональности на основе гибридной семантико-статистической модели естественного языка»

ВВЕДЕНИЕ

Актуальность работы. Технологический рост, наблюдаемый в последние десятилетия, привел к существенным изменениям в повседневной человеческой жизни. Современные персональные устройства - смартфоны, планшеты, «умные» часы - обладают производительностью «суперкомпьютеров» тридцатилетней давности. Технологические компании не стоят на месте и вкладывают огромные средства в перспективные исследования, большая часть которых связана с автоматической обработкой естественного языка.

На сегодняшний день одним из популярных направлений в данной области является анализ тональности, основная цель которого состоит в извлечении субъективной информации из текстов, выражаемой в виде мнений, а также эмоциональных высказываний. Из всего перечня задач, связанных с извлечением мнений, выделяется аспектно-ориентированный анализ тональности (АОАТ), предполагающий работу с текстом на уровне отдельных аспектов/функций целевого объекта.

Работа существующих систем аспектно-ориентированного анализа тональности в основном опирается на методы обучения с учителем (supervised learning), которые требуют наличия большого количества предварительно размеченных данных. Разметка данных - длительный процесс, который предполагает ручной труд компетентного эксперта, а значит - существенные финансовые затраты. В современных условиях перечень областей, в которых могут быть востребованы алгоритма АОАТ, вообще говоря, не ограничен. При этом модель, построенная на основе некоторой специфической области, не может быть в неизменном виде перенесена на другую область, а значит построение модели для новой области требует нового массива размеченных данных. Поэтому важным вопросом в задачах АОАТ является возможность эффективной адаптации существующих моделей к новым предметным областям, либо снижение затрат на построение новых моделей «с нуля». Для этого необходимы эффективные

модели представления языка, позволяющие работать с контекстными зависимостями, при этом сохраняя гибкость и эффективность.

Степень проработанности темы исследования.

В автоматической обработке естественных языков большое распространение получили семантические тезаурусы, как специализированные, так и общего назначения. Существенное влияние на развитие семантических ресурсов оказал выпущенный в 1998 году Принстонским университетом тезаурус WordNet, который фактически стал промышленным стандартом в этой области.

Под влиянием роста доступной в сети Интернет информации активно развивались статистические подходы, что привело к появлению целой группы алгоритмов под общим названием Word Embeddings: word2vec [1], GloVe [2]. Технологический рост, в свою очередь, привел к расширению возможностей машинного обучения. Сверточные, рекуррентные нейросети, включая архитектуру LSTM [3] позволили совершить ряд существенных прорывов. По состоянию на 2016 год ведущие технологические компании определяли LSTM как технический стандарт будущих исследований.

Тем не менее, на сегодняшний день не существует единой модели, которая позволяла бы эффективно снимать проблемы контекстной зависимости и многозначности. Векторные представления, основанные на статистических данных, формируют непрерывные представления значений/смыслов отдельных понятий. Но для эффективной и корректной работы в условиях контекстной зависимости необходимо различать отдельные значения. Такую возможность предоставляют тезаурусы и семантические сети, которые зачастую используются совместно с векторными представлениями. Некоторые исследователи [4] говорят о необходимости встраивания обобщенных знаний в LSTM в таких сложных задачах, как аспектный анализ тональности. Таким образом, поиск наиболее эффективных и оптимальных семантических моделей ведется до сих пор. Статистическим моделям недостает знаний о семантике, а их адекватность существенно зависит от имеющихся текстов, на основе которых вычисляется

статистика. Семантические ресурсы, в свою очередь, не позволяют учесть все возможные предметные области и контексты употребления для отдельных слов.

В данной диссертационной работе предлагается гибридная модель представления языка, которая сочетает в себе концепции, лежащие в основе векторных представлений, со структурными особенностями семантических сетей и тезаурусов. Рассматриваются вопросы эффективной адаптации модели к новым предметным областям на основании статистических данных о совместном употреблении слов. Предлагается алгоритм тематической категоризации текстов на основании данной модели, обладающей невысокой вычислительной сложностью. Рассматриваются вопросы о построении единого семантического ядра для решения кроссдисциплинарных задач на примере аспектно-ориентированного анализа тональности.

Цель работы и задачи исследования. Настоящее диссертационное исследование посвящено разработке гибридной семантико-статистической модели представления языка в виде многослойного семантического графа, предназначенного для проектирования алгоритмов категоризации текстов и аспектного анализа тональности.

Для достижения поставленной цели в работе решаются следующие задачи:

1. Разработка общих требований, предъявляемых к модели, на основе подробного анализа предметной области.

2. Разработка математической модели многослойного семантического графа и алгоритмов его формирования на основе структурированных и неструктурированных текстовых данных.

3. Разработка алгоритма построения конденсированных графов для конкретных доменов на основе статистических данных.

4. Разработка алгоритма категоризации текстов на основе данных конденсированных графов, анализ корректности работы алгоритма.

5. Разработка гибридного алгоритма анализа тональности коротких домен-независимых текстов на основе статистических данных и семантического графа.

6. Исследование возможности применения комбинированного алгоритма для задач аспектного анализа тональности.

Соответствие диссертации паспорту специальности. Диссертация соответствует области исследований специальности 05.13.17 - Теоретические основы информатики по п. 5 «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений»; п. 6 «Разработка методов, языков и моделей человеко-машинного общения; разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения данных из текстов на естественном языке»; п. 12 «Разработка математических, логических, семиотических и лингвистических моделей и методов взаимодействия информационных процессов, в том числе на базе специализированных вычислительных систем».

Методы и методологии исследования. В данной работе при проведении исследований применялись методы автоматической обработки текстов (синтаксический и пресемантический анализ, токенизация, лемматизация), методы математической статистики и теории вероятности, методы теории графов.

Научная новизна работы. К основным результатам, полученным в диссертации, можно отнести следующие:

1. Предложена математическая модель многослойного семантического графа, позволяющая независимо хранить, накапливать и обрабатывать как обобщенные знания о мире, так и узкоспециализированную информацию из отдельных областей человеческих знаний.

2. Предложен алгоритм автоматического построения графа на основе структурированных текстовых данных, таких как общелингвистические словари и энциклопедии.

3. Предложен метод построения конденсированного семантического графа на основе неструктурированных текстов и алгоритм категоризации текстов, основанный на выделении семантических кластеров в пределах полученного графа.

4. Предложена математическая модель оценки тональности коротких текстов, основанная на статистических данных и алгоритм вычисления тональности на основе предложенной модели, включая расширение лексикона тонального словаря за счет многослойного семантического графа.

5. Предложен гибридный метод аспектно-ориентированного анализа тональности, основанный на сочетании алгоритмов категоризации и оценки тональности, приведены результаты работы алгоритма и обозначены перспективы дальнейшего развития системы.

Теоретическая значимость работы. В рамках диссертационного исследования разработаны: модель представления естественного языка в виде многослойного семантического графа, алгоритмы автоматического извлечения обобщенных и домен-специфических знаний из текстов различной структуры, метод автоматической адаптации графа к ранее неизвестным прикладным областям; модель и алгоритм оценки тональности короткого текста на основе статистических характеристик; гибридный алгоритм аспектно-ориентированного анализа тональности.

Практическая значимость работы. Полученные в диссертационной работе алгоритмы и модели предназначены для практического применения в программных комплексах анализа текстов, таких как системы аспектного анализа тональности, системы автоматической категоризации текстов.

Реализация и внедрение результатов работы

Результаты диссертационного исследования внедрены в работу ООО «Адаптивные технологии» и используются для категоризации запросов в группу технической поддержки.

Достоверность полученных результатов подтверждается проведенными экспериментами и моделированием, а также согласованностью с данными, имеющимися в отечественной зарубежной литературе.

Апробация работы. Материалы работы докладывались на следующих научных конференциях: XI Всероссийская научная конференции молодых ученых

"Наука. Технологии. Инновации" (г. Новосибирск, 2017), XIV Всероссийская научно -техническая конференция «Наука и молодежь - 2017» (г. Барнаул, 2017), XV Всероссийская научно - техническая конференция «Наука и молодежь - 2018» (г. Барнаул, 2018), X Всероссийская научно-техническая конференция с международным участием «Робототехника и искусственный интеллект» (г. Железногорск, 2018), IX Международной научно-практической конференции «Высокопроизводительные вычислительные системы и технологии в научных исследованиях, автоматизации управления и производства» (г. Барнаул, 2019), Всероссийская научно-техническая конференция с международным участием имени профессора О.Н. Пьявченко "Компьютерные и информационные технологии в науке, инженерии и управлении" «КомТех-2020» (г. Таганрог, 2020), Конкурс научно-исследовательских работ: технологические инновации и научные открытия (г. Уфа, 2020).

Публикации. По теме диссертационной работы опубликовано 14 печатных работ, включая 2 статьи в журналах из списка ВАК и 1 индексируемая Scopus, получено 3 свидетельства о регистрации программы для ЭВМ: №202066670, № 2021611508, № 2021611519.

Основные положения диссертации, выносимые на защиту.

1. Предложенные алгоритмы автоматического формирования многослойного семантического графа на основе структурированных и неструктурированных текстовых данных позволяют повысить мобильность, скорость и качество настройки специализированных систем автоматической обработки текстов (АОТ).

2. Представление модели домена в виде многослойного семантического графа и алгоритм построения конденсированного графа на основе статистических данных, извлеченных из текстов некоторого домена, позволяют с высокой скоростью выделить семантические кластеры вокруг ключевых терминов домена.

3. Предложенный алгоритм настройки АОТ разных доменов позволяет с эквивалентными статистическими характеристиками выполнить построение множества ключевых терминов доменов.

4. Предложенная модель оценки принадлежности текста некоторой семантической категории и алгоритм категоризации текстов на основе конденсированного семантического графа позволяет выполнить аспектный анализ тональности как отдельных отзывов потребителей, так и получить обобщенную оценку множества отзывов по наиболее обсуждаемым ими категориям.

Личный вклад автора в работах, выполненных в соавторстве, заключается в построении предлагаемых моделей, проведении соответствующих статистических экспериментов, проектировании и реализации предлагаемых алгоритмов, а также проведении необходимых численных экспериментов.

Структура и объем диссертации. Диссертационная работа состоит из введения, четырех разделов, заключения, списка литературы, содержащего 1 47 наименований, и 3 приложения. Общий объем работы составляет 134 страницы, в том числе 23 рисунка и 9 таблиц.

ГЛАВА 1. АКТУАЛЬНЫЕ ПРОБЛЕМЫ ОБРАБОТКИ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ТЕКСТОВ

1.1 Природа сложности задач автоматической обработки текста

В современном мире одним из ключевых каналов коммуникации является Интернет. Через электронные площадки осуществляется торговля, продвижение услуг. Социальные сети и мессенджеры становятся ключевым каналом общения и мощным инструментом воздействия на общественное мнение. Кроме того, выход в онлайн-пространство способствует процессу глобализации - общение с людьми с других концов земного шара давно не представляется чем-то необычным. В условиях постоянного роста объемов информации особенно остро стоит вопрос автоматизированной обработки данных. Весомую долю во всем публикуемом контенте занимают тексты, написанные на некотором естественном языке. Поэтому проблемы обработки и понимания естественных языков на сегодняшний день являются одними из ключевых.

При построении систем обработки естественных языков (ЕЯ) разработчики стремятся приблизиться к качеству анализа текстовой информации, сопоставимому с человеческим восприятием. Однако когнитивный процесс изучен лишь поверхностно и, кроме того, невероятно сложен. Воспроизвести его до малейших нюансов не представляется возможным, он может выступать лишь в качестве некоторого ориентира - системы обработки ЕЯ частично эмулируют процесс анализа текста человеческим мозгом, а для оценки качества их работы все равно требуется человек. Таким образом, природа сложности обработки ЕЯ напрямую связана со сложностью человеческого познания и мышления.

В силу неповторимости жизненного опыта, накопленного культурного багажа и особенностей восприятия, даже человек в ряде случаев может испытывать трудности в обработке текстовой информации, и неважно - устная это речь или письменный источник. Поэтому область обработки естественных языков является очень обширной, и несмотря на то, что на протяжении нескольких десятилетий

исследователи накапливают опыт в этой сфере, совершенствуя модели и алгоритмы, большинство проблем можно отнести к решенным лишь частично.

Среди наиболее известных задач, напрямую связанных с автоматической обработкой текстов (АОТ), можно выделить следующие:

• Автоматический перевод (Machine Translation, MT) [5-7] - старейшее направление математической лингвистики и обработки ЕЯ, с которого началось активное развитие данных сфер в 1950-е годы. Ранние системы использовали простейшую технологию пословного перевода. Потребность в более сложных лингвистических моделях и подходах к переводу назрела достаточно быстро. Сформировались подходы, основанные на статистике [8, 9], глубоком обучении и нейронных сетях [10, 11]. Одной из проблем автоматического перевода является необходимость учитывать контекст и тематику переводимых документов, адаптируя системы к различным предметным областям [12, 13].

• Информационный поиск (Information Retrieval, IR) [14] так же является одной из наиболее старых задач АОТ. Основная цель информационного поиска - в ответ на пользовательский запрос предоставить максимально релевантную информацию, как в виде полнотекстовых документов, так и в виде некоторых текстовых фрагментов. Классические методы информационного поиска базируются, например, на частотности отдельных термов [15, 16], либо на схожести отдельных фраз [17], либо на соответствии между лексиконом запроса и документа [18] и т.д. В последние годы наблюдается повышенный интерес к нейросетевым моделям [19].

• Реферирование (Summarization) и аннотирование (Annotation) [20, 21] - близкие по смыслу задачи. Цель реферирования - снижение объема текста, формирование краткого изложения. Аннотирование предназначено для выделения ключевых тем текста, составления аннотации. Обе задачи

на сегодняшний день достаточно успешно решаются с использованием статистических, лингвистических критериев и данных о структуре текста.

• Классификация/Категоризация (Classification/Categorization), кластеризация (Clustering) [22-24] - обширный класс задач, связанный с исследованием тематической принадлежности документов. Вариабельность методик и применяемых моделей так же обширна.

• Извлечение информации (Information Extraction, IE) [25, 26] позволяет извлекать структурированную информацию о событиях, сущностях, местах, отношениях из неструктурированных текстовых данных.

• Анализ тональности (Sentiment Analysis), в том числе и аспектно-ориентированный (Aspect based sentiment analysis) [27, 28] представляет собой активно развивающуюся ветвь контент-анализа в современной математической лингвистике. Основной целью анализа тональности является извлечение мнений (отношений) автора текста (субъекта), высказанных по поводу объекта (или множества объектов), явно или неявно упомянутых в тексте.

Любой ЕЯ - динамическая, постоянно меняющаяся многоуровневая система, и обучение пониманию ЕЯ всегда сопровождается накоплением некоторых сопутствующих знаний. У людей обучение в раннем детстве происходит постепенно, последовательно; дети взаимодействуют с некоторыми неструктурированными данными, воспринимают их, полностью или частично, опираясь на предыдущий опыт. И только затем наступает этап анализа, переработки новой информации и выстраивания причинно-следственных, ассоциативных и других связей и зависимостей. Со временем события, объекты, явления получают связь с понятиями ЕЯ.

Формирование и обучение АОТ-систем во многом повторяет процесс человеческого познания. Анализ наиболее крупных задач, представленный ранее, позволяет сделать следующий вывод: любой системе автоматической обработки текста требуются ряд компонентов:

• некоторые исходные данные, которые могут послужить источником информации;

• алгоритм обработки неструктурированных данных, позволяющий целевую информацию извлекать и структурировать;

• модель, позволяющая агрегировать, интерпретировать и хранить извлеченную информацию в виде, оптимальном для задачи;

• алгоритм, нацеленный на решение конечной частной задачи, стоящей перед системой.

Несмотря на обилие сложностей, имеющихся в сфере автоматической обработки текстов, в последние годы на первый план выступают комплексные, высокоуровневые задачи, такие как аспектно-ориентированный анализ тональности (АОАТ). АОАТ предполагает обработку текстов сразу по нескольким направлениям, среди которых и категоризация отдельных фрагментов (определение принадлежности слов или предложений к некоторому классу внутри заданной предметной области), и извлечение сущностей, и анализ мнений об отдельных сущностях или категориях целиком. Одним из важнейших компонентов любой системы обработки текстов является модель представления знаний системы о языке, о словах и их взаимосвязях (вместе с алгоритмом извлечения соответствующих данных). В задачах АОАТ особенно важно, чтобы модель достаточно хорошо подходила к каждой из подзадач, и при этом обладала бы целостностью, согласованностью и эффективностью. Рассмотрим модели и ресурсы, применяемые для каждой из подзадач отдельно, вне АОАТ систем.

1.2 Задача категоризации текстов

Задача категоризации или классификации текстов представляет собой процесс присвоения неструктурированным текстам некоторых классов или категорий из заранее определенного набора. К данной задаче уже длительное время приковано внимание исследователей [29-32]. Благодаря существенным прорывам в области автоматической обработки текста в последние годы наблюдается повышение интереса к данной проблеме [33-37]. Решение задачи категоризации,

как правило, разделяется на четыре ключевых этапа: предобработка и индексация документов, уменьшение размерности пространства признаков, построение и обучение классификатора, оценка качества классификации.

Этап предобработки и индексации документов критически важен с точки зрения качества и эффективности категоризации. На этом этапе происходит очистка неструктурированных входных данных, удаление шума, формирование структурированного представления информации.

Фаза предварительной обработки текста предполагает выполнение некоторых стандартных действий: токенизацию, удаление стоп-слов, приведение слов к единому регистру, устранение шума, лемматизацию или стемминг, иногда -обработку аббревиатур, сленга и коррекцию ошибок [38].

Процесс индексации представляет собой построение числовой модели документа. Любой входной документ изначально представляет собой неструктурированный набор данных, который должен быть преобразован к некоторому формальному виду, то есть описан в терминах выбранного пространства признаков. Для индексации, как правило, используют одну из известных методик, таких как TF, TF-IDF [39], GloVe [2], Word2Vec [1].

Вычислительная сложность алгоритмов классификации напрямую зависит от размерности пространства признаков. Поэтому разумной мерой повышения эффективности является взвешивание и уменьшение числа признаков. Для этого применяют, например, латентный семантический анализ (LSA) [40, 41], поточечную взаимную информацию (PMI) [42], линейный дискриминантный анализ (LDA)[43]. Кроме того, в [38] рассматриваются и другие методы: стохастическое вложение соседей с t-распределением (t-SNE), метод случайных проекций и т.д.

Наиболее важным шагом является непосредственно этап классификации. Подходы, применяемые для построения классификаторов, очень разнообразны. Наиболее известны такие решения, метод логистической регрессии [44], наивный байесовский классификатор (NBC)[45], классификатор на основе k-ближайших соседей (KNN)[46], также метод опорных векторов (SVM)[47] и методы,

основанные на деревьях решений и случайных лесах [48]. Более сложные современные решения связаны с методами машинного обучения, использованием нейросетей, LSTM[49, 50] и т.д.

Эффективность и качество работы систем классификации текстов зависят от методик, используемых на каждом этапе. Задача классификации, в том числе мультиклассовой, является одной из наиболее актуальных в условиях современного функционирования онлайн-пространства. На сегодняшний день наиболее часто анализу подвергаются неструктурированные, неформальные тексты, в частности, отзывы пользователей интернет-магазинов, рецензии на фильмы, обзоры устройств, приложений, отелей и т.д., где различные функции и аспекты могут быть описаны и оценены по-разному. Очевидно, что такие тексты существенно зависят от предметной области и понимание контекста играет особую роль при классификации. Необходимость учитывать контекст и особенности предметной области подчеркивается в работах [51, 52].

В областях искусственного интеллекта, отличных от обработки текстов, существуют интересные примеры комбинирования, заимствования методик и сочетания признаков. В качестве примера можно привести подход «Bag of features», используемый для классификации изображений. Базовые подходы, как и в области классификации текстов, традиционно используют

методы извлечения признаков в сочетании с хорошо известными классификаторами, такими как наивный байесовский метод, метод ближайшего соседа, SVM и т.д. Существуют эффективные подходы, базирующиеся на модели «Bag of words» [53] или Word Embeddings, заимствованных из обработки естественных языков [54, 55].

С точки зрения человеческого восприятия классификация текстов и изображений имеет много общего - в основе лежит поиск знакомых объектов, концептов, а также использование некоторых знаний об их взаимосвязи и принадлежности некоторому классу или категории. Успешная миграция методик в смежную область говорит о том, что задачу классификации текстов можно рассматривать как частный пример высокоуровневой задачи классификации

данных. Для успешного решения таких задач требуется некоторая семиотическая модель, в которой понятия, объекты и связанная с ними информация объединены в некоторую общую систему, отражающую актуальные представления о мире. Построение такой системы требует междисциплинарного взаимодействия, гибридизации подходов из различных областей знания. Примером задачи, в которой кроссдисциплинарные связи выражены особо ярко, является анализ тональности текстов.

1.3 Анализ тональности текстов

Человек, опираясь на собственные знания и представления о мире, способен воспринимать эмоциональную окраску текстов без особых усилий. На понимание эмоций влияет множество факторов, не связанных с навыком чтения. Среди них и словарный запас, и кругозор, и собственный опыт, и присущий читателю уровень эмпатии. С течением времени способы выражения эмоций через текст изменяются, однако человек находится внутри изменяющейся среды и потому сохраняет высокий уровень восприятия.

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Список литературы диссертационного исследования кандидат наук Корней Алена Олеговна, 2022 год

СПИСОК ЛИТЕРАТУРЫ

1. Mikolov, T. Distributed representations of words and phrases and their compositionality [Text]/ T. Mikolov, I. Sutskever, K. Chen [et.al]. // Advances in neural information processing systems. - 2013. -Vol. 26. - P. 3111-3119.

2. Pennington, J. Glove: Global vectors for word representation [Text]/ J. Penningron, R. Scoher, C.D. Maning // In Proceedings of the 2014 conference on empirical methods in natural language processing. - 2014. - P. 1532-1543.

3. Hochreiter, S. Long Short-Term Memory [Text] / S. Hochreiter, J. Schmidhuber // Neural computation. - 1997. - Vol. 9 no. 8. - P. 1735-1780.

4. Ma, Y. Targeted Aspect-Based Sentiment Analysis via Embedding Commonsense Knowledge into an Attentive LSTM [Text] / Y. Ma, H. Peng, E. Cambria // In Proceedings of the AAAI Conference on Artificial Intelligence. - 2018. - Vol. 32, no. 1. - P. 5876-5883.

5. Gaspari, F. A survey of machine translation competences: Insights for translation technology educators and practitioners [Text] / F. Gaspari, H. Almaghout, S. Doherty // Perspectives. - 2015. - Vol. 23 no. 3. - P. 333-358.

6. Moussallem, D. Machine translation using semantic web technologies: A survey [Text] / D. Moussallem, M. Wauer, A. C. N. Ngomo. // Journal of Web Semantics. - 2018. - Vol. 51. - P. 1-19.

7. Dabre, R. A survey of multilingual neural machine translation [Text] / R. Dabre, C. Chu, A. Kunchukuttan // ACM Computing Surveys (CSUR). - 2020. - Vol. 53, no. 5. - P. 1-38.

8. Koehn, P. Statistical machine translation [Text] / P. Koehn // Cambridge: Cambridge University Press. - 2010. - 433p.

9. Brown, P. F. The mathematics of statistical machine translation: Parameter estimation [Text] / P.F. Brown, S. A. Della Pietra, V. J. Della Pietra, R. L. Mercer // Computational linguistics. - 1993. - Vol. 19 no. 2. - P. 263-311.

10. Singh, S. P. Machine translation using deep learning: An overview [Text] / S. P. Singh, A. Kumar, H. Darbari, [et. Al] // In 2017 International Conference on Computer, Communications and Electronics (Comptelix). - 2017. - P. 162-167.

11. Johnson, M. Google's multilingual neural machine translation system: Enabling zero-shot translation [Text] / M. Johnson, M. Schuster, Q.V. Le, M. Krikun [et. al] // Transactions of the Association for Computational Linguistics. - 2017. - Vol. 5. - P. 339-351.

12. Chu, C. An empirical comparison of domain adaptation methods for neural machine translation [Text] / C. Chu, R. Dabre, S. Kurohashi// In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. - 2017. -Vol. 2. - P. 385-391.

13. Wang, R. Instance weighting for neural machine translation domain adaptation [Text] / R. Wang, M. Utiyama, L. Liu, K. Chen, E. Sumita // In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. - 2017. - P. 1482-1488.

14. Mitra, B. An introduction to neural information retrieval [Text] / B. Mitra, N. Craswell. // Foundations and Trends in Information Retrieval. - 2018. - Vol. 13: No. 1. - P. 1-126.

15. Robertson, S. The probabilistic relevance framework: BM25 and beyond [Text] / S. Robertson, H. Zaragoza. // Foundations and Trends in Information Retrieval. -2009. - Vol. 3, no. 4. - P. 333-389.

16. Ponte, J. M. A language modeling approach to information retrieval[Text] / J.M. Ponte, W.B. Croft // In Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. - 1998. - P. 275-281.

17. Gao, J. Dependence language model for information retrieval [Text] / J. Gao., J. Y. Nie, G. Wu, G. Cao// In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. - 2004. - P. 170-177.

18. Lavrenko, V. Relevance-based language models [Text] / V. Lavrenko, W.B. Croft // In ACM SIGIR Forum. New York, NY, USA: ACM. - 2017. - Vol. 51, no. 2.

- P. 260-267.

19. Onal, K. D. Neural information retrieval: At the end of the early years [Text] / K.D. Onal, Y. Zhang, I.S. Rahman [et. Al] // Information Retrieval Journal. - 2018. -Vol. 21, no. 2-3. - P. 111-182.

20. Nenkova, A. A survey of text summarization techniques [Text]/ A. Nenkova, K. McKeown // In Mining text data. Springer, Boston, MA. - 2012. - P. 43-76.

21. Gambhir, M. Recent automatic text summarization techniques: a survey [Text] / M. Gambhir, V. Gupta // Artificial Intelligence Review. - 2017. - Vol. 47, no. 1.

- P. 1-66.

22. Korde, V. Text classification and classifiers: A survey [Text] / V. Korde, C. N. Mahender //International Journal of Artificial Intelligence & Applications. - 2012.

- Vol. 3, no. 2. - P. 85.

23. Altinel, B. Semantic text classification: A survey of past and recent advances [Text] / B. Altinel, M. C. Ganiz // Information Processing & Management. - 2018. - Vol. 54, no. 6. - P. 1129-1153.

24. Patra, A. A survey report on text classification with different term weighing methods and comparison between classification algorithms [Text] /A. Patra, D. Singh // International Journal of Computer Applications. - 2013. - Vol. 75, no. 7.

- P. 14-18

25. Wimalasuriya, D. C. Ontology-based information extraction: An introduction and a survey of current approaches [Text] / D. C. Wimalasuriya, D. Dou // Journal of Information Science. - 2010. - Vol. 36 no. 3. - P. 306-323.

26. Sagayam, R. A survey of text mining: Retrieval, extraction and indexing techniques [Text] /R. Sagayam, S. Srinivasan, S. Roshni //International Journal of Computational Engineering Research. - 2012. - Vol. 2, no. 5. - P. 1443-1446.

27. Hemmatian, F. A survey on classification techniques for opinion mining and sentiment analysis [Text] / F. Hemmatian, M. K. Sohrabi // Artificial Intelligence Review. - 2019. - Vol. 52, no. 3. - P. 1495-1545.

28. Li, Z. A survey on sentiment analysis and opinion mining for social multimedia [Text] / Z. Li, Y. Fan, B. Jiang [et. al] // Multimedia Tools and Applications. -2019. - Vol. 78, no. 6. - P. 6939-6967.

29. Nigam, K. Using maximum entropy for text classification [Text]/ K. Nigam, J. Lafferty, A. McCallum // In IJCAI-99 workshop on machine learning for information filtering. - 1999. - Vol. 1, no. 1. - P. 61-67.

30. Joachims, T. Transductive inference for text classification using support vector machines [Text] // In Icml. - 1999. - Vol. 99. - P. 200-209.

31. Forman, G. An extensive empirical study of feature selection metrics for text classification [Text] // Journal of machine learning research. - 2003. - Vol. 3.

- P. 1289-1305.

32. Rousu, J. Learning hierarchical multi-category text classification models [Text] / J. Rousu, C. Saunders, S. Szedmak, J. Shawe-Taylor // In Proceedings of the 22nd international conference on Machine learning. - 2005. - P. 744-751.

33. Yao, L. Graph convolutional networks for text classification [Text] / L. Yao, C. Mao., Y. Luo // In Proceedings of the AAAI Conference on Artificial Intelligence.

- 2019. - Vol. 33. - P. 7370-7377.

34. Kowsari, K. Hdltex: Hierarchical deep learning for text classification [Text] / K. Kowsari, D. E. Brown, M. Heidarysafa [et. al] // In 2017 16th IEEE international conference on machine learning and applications (ICMLA). - 2017. - P. 364-371.

35. Liu, J. Deep learning for extreme multi-label text classification [Text] / J. Liu, W. C. Chang, Y. Wu, Y. Yang // In Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. - 2017.

- P. 115-124.

36. Liu, G. Bidirectional LSTM with attention mechanism and convolutional layer for text classification [Text] / G. Liu, J. Guo // Neurocomputing. - 2019. - Vol 337.

- P. 325-338.

37. Hartmann, J. Comparing automated text classification methods [Text] /J. Hartmann, J. Huppertz, C. Schamp, M. Heitmann // International Journal of Research in Marketing. - 2019. - Vol. 36, no .1. - P. 20-38.

38. Kowsari, K. Text classification algorithms: A survey [Text] / K. Kowsari, K. Jafari Meimandi, M. Heidarysafa, [et. al] // Information. - 2019. - Vol. 10, no. 4. -P. 150.

39. Salton, G. Term-weighting approaches in automatic text retrieval [Text] /G. Salton, C. Buckley // Information processing & management. - 1988. - Vol. 24, no. 5. - P. 513-523.

40. Ju, R. An efficient method for document categorization based on word2vec and latent semantic analysis [Text] / R. Ju, P. Zhou, C. H. Li, L. Liu //In 2015 IEEE International Conference on Computer and Information Technology; Ubiquitous Computing and Communications; Dependable, Autonomic and Secure Computing; Pervasive Intelligence and Computing. - 2015. - P. 2276-2283.

41. Medhat, W. Sentiment analysis algorithms and applications: A survey [Text] / W. Medhat, A. Hassan, H. Korashy //Ain Shams engineering journal, 2014. - Vol. 5, no. 4. - P. 1093-1113.

42. Xu, Y. A study on mutual information-based feature selection for text categorization [Text] / Y. Xu, G. J. Jones, J. Li, B. Wang, C. Sun // Journal of Computational Information Systems. - 2007. - Vol. 3, no. 3. - P. 1007-1012.

43. Sugiyama, M. Dimensionality reduction of multimodal labeled data by local fisher discriminant analysis [Text] // Journal of machine learning research. - 2007. - Vol. 8. - P. 1027-1061.

44. Hosmer Jr., Applied logistic regression [Text] / D. W. Hosmer Jr., S. Lemeshow, R. X. Sturdivant // John Wiley & Sons. - 2013. 902p.

45. Dai, W. Transferring naive bayes classifiers for text classification [Text] / W. Dai, G. R. Xue, Q. Yang, Y. Yu // In AAAI. - 2007. - Vol. 7. - P. 540-545.

46. Guo, G. Using kNN model for automatic text categorization [Text] / G. Guo, H. Wang, D. Bell, Y. Bi, K. Greer // Soft Computing. - 2006. - Vol. 10, no. 5. - P. 423-430.

47. Joachims T. Text categorization with Support Vector Machines: Learning with many relevant features. // In: Nédellec C., Rouveirol C. (eds) Machine Learning:

ECML-98. ECML 1998. Lecture Notes in Computer Science (Lecture Notes in Artificial Intelligence). Springer, Berlin, Heidelberg. - 1998. - Vol. 1398.

48. Salles, T. Improving random forests by neighborhood projection for effective text classification [Text] / T. Salles, M. Gonfalves, V. Rodrigues, L. Rocha // Information Systems. - 2018. - Vol. 77. - P. 1-21.

49. Luan, Y., & Lin, S. (2019, March). Research on Text Classification Based on CNN and LSTM [Text] / Y. Luan, S. Lin // In 2019 IEEE International Conference on Artificial Intelligence and Computer Applications (ICAICA) . - 2019. - P. 352355.

50. Peng, H. Large-scale hierarchical text classification with recursively regularized deep graph-cnn [Text] / H. Peng, J. Li, Y. He, Y. Liu, [et. al] // In Proceedings of the 2018 World Wide Web Conference. - 2018. - P. 1063-1072.

51. Lai, S. Recurrent convolutional neural networks for text classification [Text] / S. Lai, L. Xu, K. Liu, J. Zhao // In Proceedings of the AAAI Conference on Artificial Intelligence. - 2015. - Vol. 29, no. 1.

52. Peters, M. E. Deep contextualized word representations [Text] /M. Peters, M. Neumann, M. Iyyer, M. Gardner [et. al] //In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. - 2018. - Vol 1. - P.2227-2237.

53. Csurka, G. Visual categorization with bags of keypoints [Text] / G. Csurka, C. Dance, L. Fan, J. Willamowski, C. Bray // In Workshop on statistical learning in computer vision, ECCV. - 2004. - Vol. 1, no. 1-22. - P. 1-2).

54. Wang, J. Cnn-rnn: A unified framework for multi-label image classification [Text] / J. Wang, Y. Yang, J. Mao, Z. Huang, C. Huang, W. Xu // In Proceedings of the IEEE conference on computer vision and pattern recognition. - 2016. - P. 22852294.

55. Akata, Z. Label-embedding for image classification [Text] /Z. Akata, F. Perrononnin, Z. Harchaloui, C. Schmidt // IEEE transactions on pattern analysis and machine intelligence. - 2015. - Vol. 38, no. 7. - P. 1425-1438.

56. Snyder, B. Multiple aspect ranking using the good grief algorithm [Text] /B. Snyder, R. Barzilay // In Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Proceedings of the Main Conference. - 2007. - P. 300-307.

57. Baccianella, S. Sentiwordnet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining [Text] / S. Baccianella, A. Esuli, F. Sebastiani // In Lrec. - 2010. - Vol. 10, no. 2010. - P. 2200-2204.

58. Thelwall, M. Sentiment strength detection in short informal text [Text] / M. Thelwall K. Buckley, G. Paltoglou, D. Cai, A. Kappas // Journal of the American society for information science and technology. - 2010. - Vol. 61, no. 12. - P. 2544-2558.

59. Cambria, E. The hourglass of emotions [Text] / E. Cambria, A. Livingstone, A. Hussain // In Cognitive behavioural systems. Springer, Berlin, Heidelberg. - 2012.

- P. 144-157.

60. Plutchik, R. The nature of emotions: Human emotions have deep evolutionary roots, a fact that may explain their complexity and provide tools for clinical practice [Text] // American scientist. - 2001. - Vol. 89, no. 4. - P. 344-350.

61. Titov, I. A joint model of text and aspect ratings for sentiment summarization [Text] / I. Titov, R. Mc Donald // In proceedings of ACL-08. HLT. - 2008.

- P. 308-316.

62. Thet, T. T. Aspect-based sentiment analysis of movie reviews on discussion boards [Text] / T. T. Thet, J. C. Na, C. S. Khoo // Journal of information science. - 2010.

- Vol. 36, no. 6. - P. 823-848.

63. Mashkin D. Extracting Aspects, Category and Sentiment of Aspects in Russian User Reviews in Restaurants Domain [Text] // In Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2016", Moscow, 2016.

64. Xue, W., Li, T. Aspect Based Sentiment Analysis with Gated Convolutional Networks [Text] / W. Xue, T. Li // In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. - 2018. - Vol. 1. - P. 2514-2523.

65. Pan, S. J. Cross-domain sentiment classification via spectral feature alignment [Text] / S. J. Pan, X. Ni, J. Sun [et. al]// In Proceedings of the 19th international conference on World wide web. - 2010. - P. 751-760.

66. Bollegala, D. Using multiple sources to construct a sentiment sensitive thesaurus for cross-domain sentiment classification [Text] /D. Bolleaga, D. Weir, J. A. Carrol // In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. - 2011. - P. 132-141.

67. He, Y. Automatically extracting polarity-bearing topics for cross-domain sentiment classification [Text] / Y. He, C. Lin, H. Alani // In The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: Proceedings of the Conference. - 2011. - P. 123-131.

68. Franco-Salvador, M. Cross-domain polarity classification using a knowledge-enhanced meta-classifier [Text] / M. Franco-Salvador, F. L. Cruz, J.A. Troyano, P. Rosso // Knowledge-Based Systems. - 2015. - Vol. 86. - P. 46-56.

69. Labille K. Creating Domain-Specific Sentiment Lexicons via Text Mining [Text] / K. Labille, S. Gauch., S. Alfarhood // In Proceedings of WISDOM 2017: 6th KDD Workshop on Issues of Sentiment Discovery and Opinion Mining, At Halifax, Nova Scotia, Canada. - P. 1-8

70. Dubatovka A. Automatic Generation of the Domain-Specific Sentiment Russian Dictionaries [Text] / A. Dubatovka, Yu. Kurochkin, E. Mikhailova // Computational Linguistics and Intellectual Technologies: Proceedings of the Annual International Conference "Dialogue". - 2016, Issue 15. - P. 146-158

71. Wilson, T. Recognizing contextual polarity: An exploration of features for phraselevel sentiment analysis [Text] / T. Wilson, J. Wiebe, P. Hoffman // Computational Linguistics. - 2009. - Vol. 35, no. 3. - P. 399-433.

72. Arkhipenko K. Comparison of Neural Network Architectures for Sentiment Analysis of Russian Tweets [Text] / K. Arkhipenko, I. Kozlov, J. Trofimovich [et. al] // In Computational Linguistics and Intellectual Technologies: Proceedings of the Annual International Conference "Dialogue". - 2016. Issue 15. - P. 50-58

73. Tarasov D. S. Deep Recurrent Neural Networks for Multiple Language Aspect-based Sentiment Analysis of User Reviews [Text] // In Computational Linguistics and Intellectual Technologies Papers from the Annual International Conference "Dialogue". - 2015. - Issue 14, Vol. 2. - P. 53-64

74. Dos Santos, C. Deep convolutional neural networks for sentiment analysis of short texts [Text]/ C. Dos Santos, M. Gatti //In Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers. - 2014.

- P. 69-78.

75. Kim, Y. Convolutional Neural Networks for Sentence Classification [Text] // In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. - 2014. - P. 1746-1751.

76. AL-Sharuee, M. T. Sentiment analysis: an automatic contextual analysis and ensemble clustering approach and comparison [Text] / M. T. AL-Sharuee, F. Liu, M. Pratama // Data & Knowledge Engineering. - 2018. - Vol. 115. - P. 194-213.

77. Strapparava, C. Wordnet affect: an affective extension of wordnet [Text] / C. Strapparava. A. Valitutti // In Lrec. - 2004. - Vol. 4, no. 1083-1086. - P. 40.

78. Esuli, A. Sentiwordnet: A publicly available lexical resource for opinion mining [Text] / A. Esuli, F. Sebastiani //In LREC. - 2006. - Vol. 6. - P. 417-422.

79. Cambria, E. SenticNet 3: a common and common-sense knowledge base for cognition-driven sentiment analysis [Text] / E. Cambria, D. Olsher, D. Rajagopal // In Proceedings of the twenty-eighth AAAI conference on artificial intelligence.

- 2014. - P. 1515-1521.

80. Musto, C. A comparison of Lexicon-based approaches for Sentiment Analysis of microblog posts [Text] / C. Musto, G. Semeraro, M. Polignano // Information Filtering and Retrieval. - 2014. - P. 59 - 68.

81. Joos, M. Description of language design [Text]// The Journal of the Acoustical Society of America, 1950, - Vol. 22, no. 6. - P. 701-707.

82. Harris, Z. S. Distributional structure [Text] // Word. - 1954. - Vol. 10 no. 2-3. -P. 146-162.

83. Hill F. Simlex-999: Evaluating semantic models with (genuine) similarity estimation [Text] / F. Hill, R. Reichart, A. Korhonen // Computational Linguistics.

- 2015, - Vol. 41, no. 4. - P. 665-695.

84. Miller, G. A. Contextual correlates of semantic similarity [Text] / G. A. Miller, W.

G. Charles // Language and cognitive processes. - 1991. - Vol. 6, no. 1. - P. 1-28.

85. Finkelstein, L. Placing search in context: The concept revisited [Text] / L. Finkelstein, E. Gabrilovich, Y. Matias, [et. al] // In Proceedings of the 10th international conference on World Wide Web. - 2001. - P. 406-414.

86. Budanitsky, A. Evaluating wordnet-based measures of lexical semantic relatedness [Text] / A. Budanitsky, G. Hirst // Computational linguistics. - 2006. - Vol. 32, no. 1. - P. 13-47.

87. Schütze, H. A vector model for syntagmatic and paradigmatic relatedness [Text] /

H. Schütze, J. Pedestren // In Proceedings of the 9th Annual Conference of the UW Centre for the New OED and Text Research, 1993. - P. 104-113.

88. Turney, P. D. From frequency to meaning: Vector space models of semantics [Text] / P. D. Turney, P. Pantel // Journal of artificial intelligence research. - 2010.

- Vol. 37. - P. 141-188.

89. Salton, G. A vector space model for automatic indexing [Text] / G. Salton, A. Wong, C. S. Yang // Communications of the ACM. - 1975. - Vol. 18, no. 11. - P. 613-620.

90. Wallach, H. M. Topic modeling: beyond bag-of-words [Text] // In Proceedings of the 23rd international conference on Machine learning. - 2006. - P. 977-984.

91. Deerwester, S. Indexing by latent semantic analysis [Text] / S. C. Deerwester, S. T. Dumais, and T. K. Landauer// Journal of the American society for information science, 1990. - Vol. 41, no. 6. - P. 391-407.

92. Korenius, T. On principal component analysis, cosine and Euclidean measures in information retrieval [Text] / T. Korenius, J. Laurikkala, M. Juhola // Information Sciences. - 2007. - Vol .177, no. 22. - P. 4893-4905.

93. Li, B. Distance weighted cosine similarity measure for text classification [Text] / B. Li, L. Han // In International Conference on Intelligent Data Engineering and Automated Learning. Springer, Berlin, Heidelberg. - 2013. - P. 611-618.

94. Manning, C. D. Introduction to information retrieval [Text] / C. D. Manning, H. Schütze, P. Raghavan // Cambridge: Cambridge university press. - 2008. - 544p.

95. Hiemstra, D. A probabilistic justification for using tMdf term weighting in information retrieval [Text] // International Journal on Digital Libraries. - 2000. -Vol. 3, no. 2. - P. 131-139.

96. Soucy, P. Beyond TF-IDF weighting for text categorization in the vector space model [Text] / P. Soucy, G. W. Mineau // In IJCAI. - 2005. - Vol. 5. - P. 11301135.

97. Wu, H. C. Interpreting tf-idf term weights as making relevance decisions [Text] / H. C. Wu, R. W. P. Luk, K. F. Wong, K. L. Kwok // ACM Transactions on Information Systems (TOIS). - 2008. - Vol. 26, no. 3. - P. 1-37.

98. Jones, K. S. A statistical interpretation of term specificity and its application in retrieval [Text] // Journal of Documentation, 1972. - Vol. 28, no. 1. - P. 11-21.

99. Bafna, P. Document clustering: TF-IDF approach [Text] / P. Bafna, D. Pramond, A. Vaidya // In 2016 International Conference on Electrical, Electronics, and Optimization Techniques (ICEEOT). - 2016. - P. 61-66.

100. Zhang, W. A comparative study of TF*IDF, LSI and multi-words for text classification [Text] / W. Zhang, T. Yoshinda, X. Tang // Expert Systems with Applications. - 2011. - Vol. 38, no. 3. - P. 2758-2765.

101. Qaiser, S.Text mining: use of TF-IDF to examine the relevance of words to documents [Text] / S. Qaiser, R. Ali // International Journal of Computer Applications. - 2018. - Vol. 181, no .1. - P. 25-29.

102. Mikolov, T Efficient estimation of word representations in vector space [Text] / T. Mikolov, K. Chen, G. Corrado, J. Dean // - 2013. arXiv preprint arXiv:1301.3781.

103. Levy, O. Dependency-based word embeddings [Text]/ O. Levy, Y. Goldberg // In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. - 2014. - Vol.2. - P. 302-308.

104. Zhao, J. Gender Bias in Contextualized Word Embeddings [Text] / J. Zhao, T. Wang, M. Yatskar, [et. al] // In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. - 2019. - Vol. 1. - P. 629-634.

105. Manzini, T. Black is to Criminal as Caucasian is to Police: Detecting and Removing Multiclass Bias in Word Embeddings [Text] / T. Manzini, L.Y. Chong, A. W. Black, Y. Tsvetkov // In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. - 2019. - Vol. 1. - P. 615-621.

106. Gonen, H. Lipstick on a Pig: Debiasing Methods Cover up Systematic Gender Biases in Word Embeddings But do not Remove Them [Text] / H. Gonen, Y. Goldberg // In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.

- 2019. - Vol. 1. - P. 609-614.

107. Fellbaum, C. WordNet: An electronic lexical database [Text] // MIT press. - 1998.

- 423p.

108. Лукашевич Н.В. Тезаурусы в задачах информационного поиска [Текст] М.: Изд-во Московского университета. - 2011. - 512 с.

109. Loukachevitch, N. RuThes linguistic ontology vs. Russian wordnets [Text] / N. Loukachevitch, B. V. Dobrov // In Proceedings of the Seventh Global Wordnet Conference. - 2014. - P. 154-162.

110. Loukachevitch, N. V. Creating Russian wordnet by conversion [Text] / N. V. Loukachevitch, G. Lashevich, A. A. Gerasimova, V. V., Ivanov, B. V. Dobrov// In Computational Linguistics and Intellectual Technologies: papers from the Annual conference "Dialogue". - 2016. - P. 405-415.

111. Deng, L. Mpqa 3.0: An entity/event-level sentiment corpus [Text] / L. Deng, J. Wiebe // In Proceedings of the 2015 conference of the North American chapter of the association for computational linguistics: human language technologies. -2015. - P. 1323-1328.

112. Mohammad, S. Obtaining reliable human ratings of valence, arousal, and dominance for 20,000 english words [Text] // In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. - 2018. - Vol. 1. - P. 174-184.

113. Mohammad, S. M. Crowdsourcing a word-emotion association lexicon [Text] / S.M. Mohammad, P. D. Turney // Computational Intelligence. - 2013. - Vol. 29, no. 3. - P. 436-465.

114. Loukachevitch N., Levchik A. Creating a General Russian Sentiment Lexicon [Text] / N. Loukachevich, A. Levchik // In Proceedings of Language Resources and Evaluation Conference LREC-2016. - 2016. - P. 1171-1176.

115. Kureichik V.V., Bova V.V., Leshchanov D.V. (2017) Semantic search model for knowledge management systems based on genetic procedures [Text] / V. V. Kureichik, V.V. Bova, D.V., Leshchanov // In Information Technology. - 2017. -Vol. 12 no 23. - P. 876-883.

116. Zakharov, V.P., Corpus-based approach to thesaurus and ontology construction [Text] // Strukt. Prikl. Lingvist.. - 2015, no. 11. - P. 123-141.

117. Pisarev, I. A. Construction of thematic ontologies using the method of automated thesauri development [Text] / I. A. Pisarev, E. E. Kotova // In 2016 IEEE NW Russia Young Researchers in Electrical and Electronic Engineering Conference (EIConRusNW). - 2016 - P. 305-307.

118. Korney A., Information Retrieval Approach Using Semiotic Models Based on Multi-layered Semantic Graphs [Text] / A. Korney, E. Kryuchkova, V. Savchenko // In: Jordan V., Filimonov N., Tarasov I., Faerman V. (eds) High-Performance Computing Systems and Technologies in Scientific Research, Automation of Control and Production. HPCST 2020. Communications in Computer and Information Science. Springer, Cham. - 2020. - Vol. 1304. - P. 162-177.

119. Свид. 2021611519 Российская Федерация. Свидетельство о государственной регистрации программы для ЭВМ. Программное обеспечение для извлечения семантических связей из лингвистических словарей «ЛиС» / А. О. Корней; правообладатель «федеральное государственное бюджетное

образовательное учреждение высшего образования «Алтайский государственный технический университет им. И.И. Ползунова» (АлтГТУ), Заявл. 08.12.2020, опубл. 29.01.2021. [Электронный ресурс]. - [Б. м. : б. и.].

120. Krayvanova V. The mathematical model of the semantic analysis of phrases based on the trivial logic [Text] /V. Krayvanova, E. Kryuchkova // In Proceedings of "Speech and computer" SPECOM. - 2009. - P. 543-546.

121. Ожегов С.И. Толковый словарь русского языка / С. И. Ожегов, Н. Ю, Шведова // Издательство "Азъ", 1992 - [Электронный ресурс]. - URL: http://lib.ru/DIC/OZHEGOW/ (дата обращения: 09.11.2021)

122. Абрамов Н. Словарь русских синонимов и сходных по смыслу выражений // Издательство Русские словари. - 2007г. - [Электронный ресурс]. - URL: http://dict.buktopuha.net/data/abr 1 w.zip (дата обращения: 09.11.2021)

123. Сайт рабочей группы «Автоматическая обработка текста» [Электронный ресурс]. - URL: http://www.aot.ru/technology.html (дата обращения: 20.09.2021)

124. Kazakov, M. Classification of complex images based on semantic graph [Text] / M. Kazakov, E. Kryuchkovs // In Journal of Applied informatics. - 2014. Vol. 6 no. 54. - P. 79-89.

125. Savchenko, V. Semantic search algorithms in large text collections [Text] // In Supplementary proceedings of AIST. - 2014. - P. 161-166.

126. Виноградов И.М. (ред.) Математическая энциклопедия в 5 томах. [Текст] М.: Сов. энциклопедия, 1977.

127. Корней А.О. Категоризация русскоязычных текстов на основе несбалансированной обучающей выборки // Конкурс научно-исследовательских работ: Технологические инновации и научные открытия, Сборник статей по материалам Международного научно-исследовательского конкурса, г. Уфа. - 2020. С. 266-274.

128. Корней А.О. Категоризация текстовых данных на основе сконденсированных семантических графов /А.О. Корней, Е.Н. Крючкова // Компьютерные и информационные технологии в науке, инженерии и управлении «КомТех-

2020»: материалы Всероссийской научно-технической конференции с международным участием: в 2 т. Т.1 C. 453-458 / Южный федеральный университет. - Ростов-на-Дону; Таганрог: Издательство Южного федерального университета, 2020. [Электронный ресурс]. - URL: http://comtech.sfedu.ru/images/komtex2020/sbornik comtech 2020 all.zip (дата обращения 15.11.2021)

129. Корней А.О., Категоризация текстов на основе сконденсированного графа [Текст] /А. О. Корней, Е. Н. Крючкова // Информационные технологии. Изд-во "Новые технологии" г. Москва. - 2021. №3 (2021), стр. 138-146.

130. Корней А.О. Семантико-статистический алгоритм определения категорий аспектов в задачах сентимент-анализа [Текст] /А. О. Корней, Е. Н. Крючкова // Известия ЮФУ. Технические науки. - 2020. №7. С. 66-74.

131. Свид. 2020666670 Российская Федерация. Свидетельство о государственной регистрации программы для ЭВМ. «Программное обеспечение для построения конденсированных семантических графов «КиТ» / А. О. Корней; правообладатель «федеральное государственное бюджетное образовательное учреждение высшего образования «Алтайский государственный технический университет им. И.И. Ползунова» (АлтГТУ), Заявл. 01.12.2020, опубл. 04.12.2020. [Электронный ресурс]. - [Б. м. : б. и.].

132. КиноПоиск. Все фильмы планеты [Электронный ресурс]. - URL: https://www.kinopoisk.ru/ (дата обращения: 11.09.2021)

133. Pontiki, M. SemEval-2016 Task 5: Aspect Based Sentiment Analysis [Text] /M. Pontiki, D. Galanis, H. Papageorgiou [et. al]// In Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016). - 2016. - P. 19-30.

134. Heaps, H.S. Information Retrieval: Computational and Theoretical Aspects [Text] // Academic Press. - 1978. - 344p.

135. Zipf G.K. Human Behavior and the Principle of Least Effort [Text] //Addison-Wesley Press, 1949. — С. 484-490. — 573 p.

136. Li, W. Random texts exhibit Zipfs-law-like word frequency distribution [Text] //IEEE Transactions on information theory. - 1992. - Vol. 38, no. 6. - P. 18421845.

137. Корней А.О. Проблемы эффективной доменной адаптации систем аспектно -ориентированного аннотирования текстов отзывов потребителей /А.О. Корней, Е.Н. Крючкова // Высокопроизводительные вычислительные системы и технологии. №5(1). - 2021. - C.299-303, Изд-во "Алтайский государственный университет" (Барнаул).

138. Корней А.О. Автоматический анализ тональности лексикона на основе обучающей выборки [Текст] /А. О. Корней, Е. Н. Крючкова // НАУКА. ТЕХНОЛОГИИ. ИННОВАЦИИ сборник научных трудов: в 10 частях. Изд-во «Новосибирский государственный технический университет», г. Новосибирск. - 2017. - С. 26-29.

139. Корней А.О. Автоматический анализ эмоционального состояния автора в коротких текстах на естественном языке /А. О. Корней, Е. Н. Крючкова // XIV Всероссийская научно - техническая конференция «Наука и молодежь -2017». [Электронный ресурс]. - URL: http://edu.secna.ru/media7f/pi2017v3.pdf (дата обращения: 29.09.2021)

140. Корней А.О. Проблемы эффективности сентимент-анализа русскоязычных текстов в социальных сетях [Текст] /А. О. Корней, Е. Н. Крючкова // Высокопроизводительные вычислительные системы и технологии. Изд-во "Алтайский государственный университет" (Барнаул). №2(9). - 2018. - C.87-92.

141. Корней А.О. Анализ тональности коротких текстов на основе семантического графа /А. О. Корней, Е. Н. Крючкова // XIV Всероссийская научно - техническая конференция «Наука и молодежь - 2018». [Электронный ресурс]. - URL: http://edu.secna.ru/media/f/pi2018v1.pdf (дата обращения: 11.10.2021)

142. Корней А.О. Анализ тональности коротких текстов на основе семантического графа [Текст] /А. О. Корней, Е. Н. Крючкова //

Робототехника и искусственный интеллект материалы X Всероссийской научно-технической конференции с международным участием. Сибирский федеральный университет; Межинститутская базовая кафедра «Прикладная физика и космические технологии». 2018. С. 168-174, Изд-во «Литера-Принт) (г.Москва).

143. Корней А.О. Анализ тональности коротких текстов на основе семантического графа [Текст] /А. О. Корней, Е. Н. Крючкова // НАУКА. ТЕХНОЛОГИИ. ИННОВАЦИИ сборник научных трудов: в 10 частях. Изд-во «Новосибирский государственный технический университет», г. Новосибирск. - 2017. С. 29-32.

144. Корней А.О. Проблемы аспектного анализа в условиях несбалансированной обучающей выборки [Текст] /А. О. Корней, Е. Н. Крючкова // Высокопроизводительные вычислительные системы и технологии. Изд-во "Алтайский государственный университет" (Барнаул). №3(1). - 2019. -С.161-165.

145. Корней А.О. Применение адаптируемых обобщенных словарей в задачах аспектно-ориентированного анализа тональности [Текст] /А. О. Корней, Е. Н. Крючкова // Программная инженерия. Изд-во "Новые технологии", г. Москва. - 2019. №11-12, стр. 471-479.

146. Свид. 2021611508 Российская Федерация. Свидетельство о государственной регистрации программы для ЭВМ. Вычислитель эмоциональной окраски коротких текстов «ТриТон» / А. О. Корней; правообладатель «федеральное государственное бюджетное образовательное учреждение высшего образования «Алтайский государственный технический университет им. И.И. Ползунова» (АлтГТУ), Заявл. 16.12.2020, опубл. 29.01.2021. [Электронный ресурс]. - [Б. м. : б. и.].

147. Рубцова Ю.В. Построение корпуса текстов для настройки тонового классификатора [Текст] // Программные продукты и системы. - 2015, №1(109), - С.72-78.

ПРИЛОЖЕНИЯ

Приложение А. Примеры работы алгоритмов

А - 1. Фрагменты конденсированных графов

Рисунок А.1 - вариант подграфа вокруг понятия «вкусный» (Рестораны)

Рисунок А.2 - вариант подграфа вокруг понятия «ресторан» (Рестораны)

Рисунок А.3 - вариант подграфа вокруг слова «роль» (домен «Фильмы»)1 А - 2. Примеры кластеров

Таблица А.1 - Фрагмент кластера «Еда» для Я=2 (Домен «Рестораны»)

Центр Я=1 Я=2

Еда вкусный, большой, ждать, понравиться, приносить, качество, обслуживание, ресторан, трапеза, снедь, яство, перемена, дача, вкушение, отведыванье, съедение, пища, доза, прием, порцион, рацион, кушанье, блюдо, подача, порция десерт, кухня, необычный, общий, пиво, шашлык, довольно, место, выражать, аппетит, удовольствие, ощущение, приятный, аппетитный, лакомый, смачный, сочный, сладкий, выбор, количество, компания, пойти, стол, туда, гость, достаточно, меню, мочь, сказать, появляться, производить, подрасти, младенческий, возраст, большущий, великий, внушительный, гигантский, громадный, огромный, значительный, крупный, махина, исполинский, колоссальный, непомерный, объемистый, громоздкий, заметный, изрядный, порядочный, осязательный, ощутительный, чувствительный, обширный, безмерный, чрезмерный, бесчисленный, бесконечный, глубокий, долго, заказ, минута, официант, ....принести, состав, фирменный, тарелка, круглый, продолговатый, игра, вкусно, достойный, маленькая, размер, доля, определенный, едок, столовая (всего 172 понятия)

1 Графы, представленные в Приложении А, построены при помощи вгарКУ^ https://graphviz.org/

Таблица А.2 - Фрагмент кластера «Впечатление» для R=2 (Домен «Фильмы»)

Центр Я=1 Я=2

впечатление фильм, создаваться, влияние, воздействие, оставить, сознание, душа, пережить, сложиться, мнение, оценка, действие, чувство автор, атмосфера, взгляд, видеть, время, герой, главный, говорить, год, данный, дать, делать, ждать, знать, игра, идея, идти, итог, каждый, книга, конец, любимый, любить, минута, момент, музыка, название, назвать, начать, новое, новый, общий, ожидать, оригинальный, отзыв, отличный, первое, персонаж, плохой, подобный, половина, посмотреть, почему, просмотр, протяжение, режиссёр, рецензия, сказать, смотреть, смысл, снимать, снять, событие, создатель, съёмка, сюжет, увидеть, абсолютно, большой, вообще, выйти, действительно, должный, достаточно, жанр, зомби, играть, иметь, любовь, мочь, немного, нолан, показать, показывать, полный, получиться, понравиться, понять, последний, представлять, сделать, скорсезе, смотреться, смочь, снятой, совершенно, стать, стоить, считать, ужас, хороший, хотеть, хотеться, человек, шедевр, являться, час, часть, тонкий, вид, лента, светочувствительный, слой, употр, киносъемка, снимок, произведение, телеискусство, объединить, единый, задача, информация, предназначить, проекция, экран, показ, кино, телевидение, пленка, уйти, удалить, передать, пользование, положение, состояние, заставить, остаться, находиться, заниматься, способность, действительность, мышление, быть, деятельность, ум, память, поступок, сердце, дело, вполне, физический, отношение, заключение, суждение, выражать, вывод, представление, понятие, высокий, ценность, уровень, значение, критика, суд, проявление, драматический, математический, вычисление, энергия, подвиг, шаг, процесс, акт, изготовление, исполнение, осуществление, производство, результат, поведение, речь, основной, сила, юмор, способный, воспринимать, эмоция, испытывать, внешний, ощущение, вкус,

А - 3. Примеры анализа отзывов о ресторанах

Исходный текст отзыва (орфография и пунктуация сохранены):

«Отдыхали с друзями, гуляли, отмечали День рождение друга, решили зайти в ресторан Трес Амигос нас очень порадовала сразу обстановка и интерьер, очень уютно и веет домашней обстановкой! Так как мы все не курим, то нас проводили доброжелательные и улыбающиеся официанты в не курящий зал, зал оказался просторным и светлым, достаточно уютным! Хотелось бы отметить работу персонала: все очень доброжелательные и улыбающиеся ребята, Оля наш официант проводив нас за столик, сразу предложила нам напитки, предложила свою помощь с выбором блюд, все подробно рассказала, что нам и не пришлось долго мучаться читая меню! Напитки нам принесли сразу, еду долго ждать не пришлось, все было очень быстро и оперативно, хоть и гостей в ресторане на тот момент было не мало! Еда была очень вкусной, порции оказались большими!!!!! Весь вечер мы себя чувствовали как дома!!!! В этом ресторане понравилось все и зажигательные танцы(которые были вечером) и обслуживание, и еда, и очень вкусные коктели!! Так что мы открыли для себя новое заведение в которое будем теперь ходить постоянно, где все тебе улыбаются и где тебя рады видеть))))) Трес Амигос вы лучшие!!!! Так держать)))))))))))))))))))))»

Таблица А.3. Результат обработки отзыва

Категория Фрагмент Оценка тональности

Ресторан Отдыхали с друзями, гуляли, отмечали День рождение друга, решили зайти в ресторан Трес Амигос нас очень порадовала сразу обстановка и интерьер, очень уютно и веет домашней обстановкой! Хотелось бы отметить работу персонала: все очень доброжелательные и улыбающиеся ребята, Оля наш официант проводив нас за столик, сразу предложила нам напитки, предложила свою помощь с выбором блюд, все подробно рассказала, что нам и не пришлось долго мучаться читая меню! Напитки нам принесли сразу, еду долго ждать не пришлось, все было очень быстро и оперативно, хоть и гостей в ресторане на тот момент было не мало! [0.23-0.54]

Таблица А.3. Результат обработки отзыва (продолжение)

Интерьер Отдыхали с друзями, гуляли, отмечали День рождение друга, решили зайти в ресторан Трес Амигос нас очень порадовала сразу обстановка и интерьер, очень уютно и веет домашней обстановкой! Так как мы все не курим, то нас проводили доброжелательные и улыбающиеся официанты в не курящий зал, зал оказался просторным и светлым, достаточно уютным! Весь вечер мы себя чувствовали как дома!!!! Так что мы открыли для себя новое заведение в которое будем теперь ходить постоянно, где все тебе улыбаются и где тебя рады видеть))))) Трес Амигос вы лучшие!!!! [0.29-0.47]

Обслуживание Хотелось бы отметить работу персонала: все очень доброжелательные и улыбающиеся ребята, Оля наш официант проводив нас за столик, сразу предложила нам напитки, предложила свою помощь с выбором блюд, все подробно рассказала, что нам и не пришлось долго мучаться читая меню! В этом ресторане понравилось все и зажигательные танцы(которые были вечером) и обслуживание, и еда, и очень вкусные коктели!! Так что мы открыли для себя новое заведение в которое будем теперь ходить постоянно, где все тебе улыбаются и где тебя рады видеть))))) Трес Амигос вы лучшие!!!! [0.27-0.56]

Еда Напитки нам принесли сразу, еду долго ждать не пришлось, все было очень быстро и оперативно, хоть и гостей в ресторане на тот момент было не мало! Еда была очень вкусной, порции оказались большими!!!!! Весь вечер мы себя чувствовали как дома!!!! В этом ресторане понравилось все и зажигательные танцы(которые были вечером) и обслуживание, и еда, и очень вкусные коктели!! [0.15-0.26]

Исходный текст отзыва (орфография и пунктуация сохранены):

Долго размышляла, где отметить свой день рождения. Выбор остановился на ресторане "Эскалибур". И я не ошиблась. Заказала столик, обговорила все нюансы мероприятия. А 31 мая посетили с друзьями это замечательное место! Все были в восторге! Интерьер средневекового замка, обстановка, обслуживание превзошли все ожидания. Цены приемлемые, блюда оригинально,со вкусом оформлены, и, самое главное, всё очень вкусно, порции хорошие. Сразу было видно, что все продукты свежие! В каждом блюде замечаешь неравнодушное отношение его автора. Очень порадовал персонал: администраторы Елена, Марина, официант Николай. Хочу отметить доброжелательное, вежливое, внимательное и при этом ненавязчивое обслуживание! Все мои пожелания по поводу организации и проведения моего праздника были учтены, то есть не

пришлось бегать и напоминать. Ушли мы сытые и довольные с массой приятных впечатлений! Отмечу также как человек, увлекающийся фотографией,что фотографии на фоне этого замечательного средневекового интерьера получаются просто фантастические! Цвет, свет, оформление стен - всё очень сочетается. До сих пор остается чувство, что мы побывали в другом времени, в другом измерении. Всем советую.

Таблица А.4. Результат обработки отзыва

Категория Фрагмент Оценка тональности

Ресторан Долго размышляла, где отметить свой день рождения. Выбор остановился на ресторане "Эскалибур". А 31 мая посетили с друзьями это замечательное место! Сразу было видно, что все продукты свежие! Все мои пожелания по поводу организации и проведения моего праздника были учтены, то есть не пришлось бегать и напоминать. До сих пор остается чувство, что мы побывали в другом времени, в другом измерении. [0.19-0.62]

Интерьер А 31 мая посетили с друзьями это замечательное место! Все были в восторге! Интерьер средневекового замка, обстановка, обслуживание превзошли все ожидания. Цены приемлемые, блюда оригинально,со вкусом оформлены, и, самое главное, всё очень вкусно, порции хорошие. В каждом блюде замечаешь неравнодушное отношение его автора. Отмечу также как человек, увлекающийся фотографией,что фотографии на фоне этого замечательного средневекового интерьера получаются просто фантастические! Цвет, свет, оформление стен - всё очень сочетается. [0.34-0.6]

Обслуживание Долго размышляла, где отметить свой день рождения. Заказала столик, обговорила все нюансы мероприятия. Интерьер средневекового замка, обстановка, обслуживание превзошли все ожидания. Очень порадовал персонал: администраторы Елена, Марина, официант Николай. Хочу отметить доброжелательное, вежливое, внимательное и при этом ненавязчивое обслуживание! Все мои пожелания по поводу организации и проведения моего праздника были учтены, то есть не пришлось бегать и напоминать. Ушли мы сытые и довольные с массой приятных впечатлений! [0.33-0.49]

Еда Цены приемлемые, блюда оригинально,со вкусом оформлены, и, самое главное, всё очень вкусно, порции хорошие. В каждом блюде замечаешь неравнодушное отношение его автора. Ушли мы сытые и довольные с массой приятных впечатлений! [0.42-0.6]

Приложение Б. Справка о внедрении

Приложение В. Свидетельства о государственной регистрации программ для ЭВМ

пи С11 ПСКлЯ ФЕДЕr\m IЛ

RU 2021611519

"V

■jit.rL».r:v 1Ь.мл» f.lVXEA

|J О ■ IJ4 L L 1.1LCI VJL1Ы1МП l 1 >Ы L Н1.Л IIC К I Ll

(12) ГОСУДАРСТВЕННАЯ РЕГИСТРАЦИЯ ПРОГРАММЫ ДЛЯ IBM

Номер ре-пи грации (спдсшьстка):

Автор :

KupJiiH Л.КПл <>.IL I ihb11:L (Ш )

ШЩ1Щ

Дота регпетраиин: 2V.0 J. 1 QJI

Прэ в о о йл ад а те л к :

ф?Д(р J.I Ы1 rte innuptl BtJIUM GiaiïiniOÎ

1PUp!i SiIbS I L\J L11IPÎ ЦЧ])1-Ж.|[|1И[ ВЫСШЕГО Обр* MUtâHILiJ

«Ал гайсквй j о l1) ,i аре i jh-ii il irj и Tviuiïtul университет и m. ILII. [[о.иунлвач |АиГ ГУЦкН}

Номер н дата поступления эаяжкл:

2021)6Сф354 ВЯ.ШЯЗО

Дата публянцвв: 2ÎMIJ .202 L

Ко нтактн ые рекв i п и i li : нет

Названые программы длл ЭВМ:

llpoj ринвое H Р il -L- С JI -L"41Ч." 11 11 -L" ДЛИ И ÏJi.lt'U-Hllll ЦИЦТЩСП CbfltiD in ЛНШСПЧЦШ

c iOËiipiâ «ЛвС»

Семантические графы (cm) - один ни ендов лексических ресурсов, широко применяемы л: в та^ах обработки тжтое Программа псывсимст a автоматическом режиме построить граф лежежжя к сеышни русского ячыка на основе словарей. И качестве вершин графа выбираются ввилесЕНй ||эормы слое русского iJiiKO. а на осношаш анализа содержимого словарных l i агеи формируются семантические ОТНОШСНИИ между словами (дуги графа). Основной функиней программы вылетев разбор словарных статей, извлечение слов и отношении на данных, полученных от в нал li затора. Исходными данными двинете л строго форматированное представление повлеченной информации. Гнп ЭВМ: [ИМ PC - совмсет. ПК-ОС": Windows.

Я ilik программировав«:: С— Объем программы дли )ВМ: 16 КБ

Реферат

россвпс КАЛ фидкллцнн

ни

2021611508

«едшлыш с.1* яхл

Щ ВВТЕЛЛЕКТИиЫЮЙ СОВПВЕВВОСТН

(12) ГОСУДАРСТВЕННАЯ РЕГИСТРАЦИЯ ПРОГРАММЫ ДЛЯ

Ном^р регистрации (свцдпсльсгаа): Автор:

№1611508 Кирип] Ал*1 йлегощ (КМ

Дата рвитрщнн: 21МН.21)21 П ра во об л идпгль:

Номер и дата поступления чаявкн: федер алън ое гкулярСтцавМ Ищи; пЛря и:и5!м c-.ie.eioc- учреждение вьесизсго обрашщнн «АлТЯЙ^НЙ ГОГуДарСТВСЕЕНиЁЕ П'ХН ЕЕЧеС КНН

Л^пмыйи 1Й. и; г ко

Лата пубпмнаиии: 24.il 1.1(1.11 университет им. 11. [1. 11 олзун□ ва* (АлтГТУ) (КГ)

Кшиишые реквизиты:

нет

На :111не программы для ЭВЫ:

1-11.14 пс.чи ■ е.чъ 'ишнионзльнак мк-р^скн ко-роткиу текгив н<ТрнТ-он>> Реферат:

Программа :ц.1 я '^ЛМ позопп ЕЕОлизсвателю шшппнп [[ра^.Еса.тссисрО'Ва.гь нро-нч вольный княпвый фрагмент и вычислить его тональность | б терминал Егенрсрмвной шшыы [-1:1]. где- -I соответствует абсолютЕго негативному, а +1 абсолютно позитивному текстам}. Пользователю предлагаете« pciv.it гаг, основанЕЕЫЁг на Й нредопределеыкык формулах. Анинз тональности текстов - одно сп наисолее нерспсктннЕЕЫк ЕсаправленЕгн пштент-аналюя к обрабогке естественным языков. Основной нсль-ео жнжаегся тндече-кне данных, об эыоцновиьво£ окраске документа если его части. Тин ">НМ: 1ВМ Р(."- оовуесе НК ОС: ЧИоАжя.

Я иг|к п 111Н ра мм и р и ва. и н н: С# Объем ■рпгриыы для VI: 46 КБ

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.