Методы разноуровневого анализа текстов на естественном языке и их приложения в системах информационного поиска и психолингвистических исследованиях тема диссертации и автореферата по ВАК РФ 00.00.00, доктор наук Смирнов Иван Валентинович
- Специальность ВАК РФ00.00.00
- Количество страниц 335
Оглавление диссертации доктор наук Смирнов Иван Валентинович
ВВЕДЕНИЕ
ГЛАВА 1. АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
1.1 Методы разноуровневого анализа текстов на естественном языке
1.1.1 Предварительный анализ. Выделение границ слов и предложений
1.1.2 Морфологический анализ
1.1.3 Синтаксический анализ
1.1.4 Семантический анализ
1.1.5 Дискурсивный анализ
1.2 Показатели качества анализа текстов
1.3 Применение разноуровневых структур для интеллектуального анализа текстов
1.4 Выводы по главе
ГЛАВА 2. СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА РУССКОМ ЯЗЫКЕ
2.1 Реляционно-ситуационная модель текста
2.1.1 Графематическая модель
2.1.2 Морфологическая модель
2.1.3 Синтаксическая модель
2.1.4 Семантическая модель
2.2 Метод реляционно-ситуационного анализа текстов
2.2.1 Словарь предикатных слов
2.2.2 Определение категориально-семантического класса синтаксемы
2.2.3 Анализ клаузы, содержащей предикатное слово
2.2.4 Анализ клаузы, в которой отсутствует предикатное слово
2.2.5 Анализ сложных предложений
2.2.6 Общий алгоритм реляционно-ситуационного анализа текста
2.3 Семантико-синтаксический анализ текстов
2.3.1 Принципы семантико-синтаксического анализа текстов
2.3.2 Корпус с семантико-синтаксической разметкой
2.3.3 Синтаксический анализ
2.3.4 Семантический анализ
2.3.5 Совместный семантико-синтаксический анализ
2.4 Выводы по главе
ГЛАВА 3. ДИСКУРСИВНЫЙ АНАЛИЗ ТЕКСТОВ НА РУССКОМ ЯЗЫКЕ
3.1 Теория риторических структур
3.2 Моделирование дискурсивной структуры текста
3.3 Русскоязычный дискурсивный корпус Кл-КЗТгееЬапк
3.4 Этапы и базовые методы дискурсивного анализа
3.4.1 Выделение дискурсивных единиц
3.4.2 Построение неразмеченного дерева
3.4.3 Классификация отношений и определение ядерности
3.5 Метод полного дискурсивного анализа текстов на русском языке
3.5.1 Дискурсивная сегментация
3.5.2 Алгоритм построения дискурсивного дерева
3.5.3 Экспериментальные исследования метода
3.6 Выводы по главе
ГЛАВА 4. ИНФОРМАЦИОННЫЙ ПОИСК И ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ НА ОСНОВЕ РАЗНОУРОВНЕВЫХ СТРУКТУР
4.1 Семантический поиск на основе реляционно-ситуационной структуры текста
4.1.1 Принципы семантического поиска
4.1.2 Алгоритмы семантического поиска
4.1.3 Экспериментальные исследования
4.2 Вопросно-ответный поиск на основе семантических структур
4.2.1 Принципы вопросно-ответного поиска с учетом семантики
4.2.2 Алгоритмы вопросно-ответного поиска с учетом семантики
4.2.3 Экспериментальные исследования
4.2.4 Вопросно-ответный поиск на основе открытого извлечения информации из текстов
4.3 Извлечение информации из научных текстов на основе семантических структур
4.3.1 Выявление дефиниций на основе семантических структур
4.3.2 Решение проблемы трудоемкости разметки текстов
4.4 Выводы по главе
ГЛАВА 5. ПСИХОЛИНГВИСТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА ОСНОВЕ РАЗНОУРОВНЕВЫХ СТРУКТУР
5.1 Разноуровневые психолингвистические показатели
5.1.1 Морфо-стилистические показатели
5.1.2 Лексические показатели
5.1.3 Синтаксические показатели
5.1.4 Семантические показатели
5.1.5 Дискурсивные показатели
5.2 Определение психологического неблагополучия по текстам эссе
5.2.1 Схема исследования
5.2.2 Анализ текстов психически больных
5.2.3 Анализ текстов больных депрессией
5.2.4 Анализ текстов авторов с различным уровнем агрессивности
5.3 Определение личностных особенностей по текстам социальных сетей
5.3.1 Схема исследования и исходные данные
5.3.2 Выявление депрессивности
5.3.3 Выявление личностных черт
5.4 Выводы по главе
ГЛАВА 6. СИСТЕМЫ ТЕКСТОВОЙ АНАЛИТИКИ НА ОСНОВЕ МЕТОДОВ РАЗНОУРОВНЕВОГО АНАЛИЗА ТЕКСТОВ
6.1 TextAppliance - программно-аппаратный комплекс интеллектуального поиска и анализа больших массивов текстов
6.2 Машина РСА - инструмент лингво-статистических корпусных исследований
6.3 TITANIS - инструмент психоэмоционального анализа текстов социальных медиа
6.4 Выводы по главе
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЕ А. РЕЗУЛЬТАТЫ ИНТЕЛЛЕКТУАЛЬНОЙ ДЕЯТЕЛЬНОСТИ
ПРИЛОЖЕНИЕ Б. АКТЫ ОБ ИСПОЛЬЗОВАНИИ
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Исследование методов автоматического анализа текстов и разработка интегрированной системы семантико-синтаксического анализа2015 год, кандидат наук Шелманов, Артем Олегович
Лингвокультурологические основы функционирования номинаций вопроса и ответа в английском языке2016 год, кандидат наук Соколова Наталья Юрьевна
Метод формального описания содержания сложных естественно-языковых текстов и его применение к проектированию лингвистических процессоров2005 год, доктор технических наук Фомичев, Владимир Александрович
Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей2000 год, доктор технических наук Сулейманов, Джавдет Шевкетович
Категория интеррогативности в немецком и русском языках: Сопоставительный аспект2001 год, доктор филологических наук Щепкина, Ирина Георгиевна
Введение диссертации (часть автореферата) на тему «Методы разноуровневого анализа текстов на естественном языке и их приложения в системах информационного поиска и психолингвистических исследованиях»
ВВЕДЕНИЕ
Тексты на естественном языке остаются одним из основных способов хранения и передачи информации, при этом объёмы текстовых данных неуклонно растут, в том числе, в связи с развитием и широким распространением сети интернет и средств электронной коммуникации. Тексты содержат полезную информацию, необходимую для принятия решений в различных областях - науке, медицине, бизнесе, государственном управлении и т.д. Для получения из текстов нужной информации решаются задачи информационного поиска, классификации и кластеризации текстов, извлечения информации из текстов, резюмирования, и ряд других задач, которые в совокупности составляют направление научных исследований и разработок, известное как интеллектуальный анализ текстов. Для решения задач интеллектуального анализа текстов применяют подходы компьютерной лингвистики, искусственного интеллекта, информационного поиска, математической статистики. При этом важное значение имеют применяемые подходы к моделированию текста на естественном языке и способы представления текстовых признаков и характеристик, которые влияют на качество решения задач интеллектуального анализа текстов и интерпретируемость его результатов.
Наиболее часто при решении указанных задач текст представляется как множество слов («мешок слов») или последовательностей слов (^грамм) с весами, отражающими их значимость на фоне заданной коллекции текстов. Однако текст на естественном языке не является простой последовательностью слов, и такой упрощенный подход не позволяет моделировать более сложные компоненты текста, такие как словосочетания или осмысленные высказывания; он не учитывает семантику высказываний или связность текста, что не позволяет решать многие задачи интеллектуального анализа текстов с надлежащим качеством. Начиная с 2010-х годов, в области анализа текстов наблюдается тенденция превалирующего использования нейросетевых и генеративных подходов, так называемого глубокого
обучения, при которых текст моделируется в виде векторных представлений слов, вычисляемых на основе дистрибутивной семантики. К недостаткам таких подходов относятся необходимость наличия больших массивов данных для обучения, требовательность в вычислительным ресурсам, недетерминированность и неинтерпретируемость получаемых результатов, т.е. невозможность получения объяснения почему принято то или иное решение, отсутствие гарантии повторяемости результатов. Эти недостатки существенно снижают доверие к системам обработки текстов на основе нейросетевых подходов. Интеллектуальные системы на основе нейросетевых подходов не обладают прозрачностью и объяснимостью, что не позволяет относить их к системам доверенного искусственного интеллекта и применять в критически важных областях. Кроме этого, нейросетевые подходы и векторные представления слов так же, как и подходы «мешка слов», не позволяют рассматривать текст как связную последовательность осмысленных высказываний, что может снижать качество решения многих задач. В гуманитарных областях, например, в психолингвистических исследованиях, направленных на выявление взаимосвязи речи и психологических особенностей, применение нейросетевых и других подходов типа «черного ящика» зачастую неприемлемо, т.к. не позволяет получать явно интерпретируемые знания.
В отличие от нейросетевых, лингвистические подходы моделируют структуру текста на основе знаний о строении естественного языка. Лингвистические модели представляют текст в соответствии с уровнями языка в виде системы морфологических, синтаксических, семантических и дискурсивных структур, они теоретически обоснованы, интерпретируемы и, как показано во многих исследованиях, положительно влияют на качество решения задач интеллектуального анализа текстов. Такие модели отражают семантику и связность текста как лингвистического объекта, они обеспечивают большую прозрачность получаемых результатов по сравнению с нейросетевыми подходами, позволяют получать явные знания о взаимосвязи языка и исследуемых особенностей текстов.
Использование лингвистических подходов при решении задач интеллектуального анализа текстов позволяет явно описать и легко запрограммировать языковые закономерности без создания больших размеченных корпусов текстов. Всё вышесказанное делает применение лингвистических моделей и подходов для интеллектуального анализа текстов целесообразным и перспективным, особенно при создании систем доверенного искусственного интеллекта.
Для извлечения из текста лингвистических структур, отражающих различные уровни языка и композицию текста, применяются методы автоматического морфологического, синтаксического, семантического и дискурсивного анализа, которые можно объединить под названием методы разноуровневого анализа текстов. В развитие моделей и методов разноуровневого анализа естественного языка большой вклад внесли отечественные и зарубежные ученые, такие как G. Lakoff, R.Montague, R.Schank, N.Chomsky, C.Fillmore, R.Mooney, D.Jurafsky, M.Lapata, W.Mann, S.Thompson, D.Marcu, L.Polanyi, N.Asher, A.Lascarides, И.А. Мельчук, Ю.Д. Апресян, Кобозева И.М., Г.Г.Белоногов, И.П. Кузнецов, В.А. Тузов, Г.С.Осипов, О.Н. Ляшевская, А.А. Кибрик, С.Ю. Толдова и другие. Методы семантического и дискурсивного анализа достаточно хорошо проработаны и применяются в интеллектуальном анализе текстов для английского и некоторых других распространенных языков, однако с русским языком ситуация иная. Несмотря на то, что модели синтаксиса, семантики и дискурса универсальны для большинства языков, методы извлечения разноуровневых структур из текстов для разных языков отличаются. Русский язык имеет особенный грамматический строй (свободный порядок слов, флективность, синтетизм, наличие грамматического падежа), что делает необходимым применение специфичных методов и подходов к семантическому и дискурсивному анализу текстов на русском языке. Например, для установления значений слов в высказываниях на английском языке учитываются позиция слова относительно глагола и\или предлог. Для русского языка этой информации недостаточно, т.к. необходимо учитывать ещё грамматический падеж, который отстутсвует в английском, а также
обрабатывать безглагольные предложения. Эта и другие особенности не позволяют напрямую переносить методы семантического анализа текстов с английского языка на русский. Немногочисленные семантические анализаторы русского языка развиты слабо, главным образом из-за того, что применяемые в них подходы громоздки и труднореализуемы в компьютерных программах или ориентированы на решение одной узкой задачи, а анализаторы дискурса для русского языка вовсе отсутствуют. Всё это приводит к тому, что в интеллектуальном анализе текстов на русском языке разноуровневый анализ практически не применяется. Таким образом, разработка методов разноуровневой обработки текстов на русском языке и их применение для повышения качества интеллектуального анализа текстов являются актуальными и практически востребованными задачами, требующими для своего решения новых научных подходов.
Целью диссертационной работы является разработка методов разноуровневого анализа текстов на русском языке и их применение в задачах информационного поиска и психолингвистического анализа текстов для повышения качества и обеспечения интерпретируемости получаемых результатов.
Для реализации этой цели необходимо решить следующие задачи:
1. Разработать методы семантического анализа текстов на русском языке, извлекающих семантическую структуру текста на основе предикатно-аргументной модели семантики высказываний и исследовать взаимное влияние синтаксиса и семантики на качество семантического анализа.
2. Разработать методы дискурсивного анализа текстов на русском языке, извлекающие дискурсивную структуру текста на основе Теории риторических структур.
3. Предложить принципы и разработать алгоритмы семантического и вопросно-ответного поиска, учитывающие семантическую структуру текстов. Исследовать влияние разноуровневого анализа текстов на качество решения задач информационного и вопросно-ответного поиска.
4. Разработать методы извлечения информации из научных текстов на основе семантических структур и исследовать влияние разноуровневого анализа текстов на качество решения этой задачи.
5. Предложить разноуровневые психолингвистические текстовые показатели, вычисляемые на основе разноуровневых структур текста и отражающие психологические особенности авторов текстов.
6. Применить предложенные психолингвистические показатели для решения задач психолингвистического анализа текстов, в частности, автоматической классификации текстов авторов с разными психологическими особенностями.
7. На базе полученных методов разноуровневого анализа текстов и психолингвистических текстовых показателей разработать программные системы текстовой аналитики, включая: компоненты платформы поиска и анализа больших массивов текстов, инструменты лингво-статистического и психоэмоционального анализа текстов, отличающихся от аналогов учетом синтаксической, семантической и дискурсивной структуры текста.
Объектом исследования являются процесс получения новых знаний и неявной информации из текстов на естественном языке. Предметом исследования являются методы автоматического анализа текстов, извлекающие из текста разноуровневую структуру, и их применение для повышения качества и обеспечения интерпретируемости результатов информационного поиска и психолингвистического анализа текстов.
Методы исследования. Для решения поставленных задач в диссертации используются: методология системного анализа, методы компьютерной лингвистики, машинного обучения, информационного поиска, математической статистики, программной инженерии.
Научная новизна диссертационной работы заключается в следующем:
1. Разработаны новые методы семантического анализа текстов на русском языке. Разработанный метод реляционно-ситуационного анализа позволяет эффективно извлекать из текста предикатно-аргументные структуры,
устанавливать значения синтаксем и семантические отношения между ними. Для повышения эффективности установления семантических ролей в текстах на русском языке предложен оригинальный метод совместного семантико-синтаксического анализа.
2. Впервые разработаны методы дискурсивного анализа текстов на русском языке, направленные на извлечение из текста дискурсивной структуры в виде дерева риторического разбора. Такие методы расширяют возможности автоматической обработки текстов за счет учета связности текста на уровне предложений.
3. Разработаны принципы и алгоритмы информационного и вопросно-ответного поиска текстов, учитывающие семантическую структуру при сопоставлении текстов запроса и документов и обладающие за счет этого более высоким качеством по сравнению с подходами, не учитывающими семантику.
4. Предложены новые разноуровневые психолингвистические текстовые показатели, отражающие взаимосвязь письменной речи и психологических особенностей авторов на уровне синтаксиса, семантики и дискурса. Предложенные показатели интерпретируемы и обеспечивают более высокое качество автоматической классификации текстов, написанных людьми с различными психологическими особенностями, по сравнению с подходами, учитывающими только слова.
5. Разработаны новые программные средства лингво-статистического анализа больших массивов текстов, позволяющие учитывать разноуровневую структуру текста при корпусных исследованиях. Разработаны новые программные средства психоэмоционального анализа текстов, позволяющие на основе разноуровневых структур выявлять более широкий по сравнению с аналогами набор психоэмоциональных характеристик.
6. Предложенные в диссертации методы используются в компонентах семантического анализа и поиска текстов в составе программно-аппаратного комплекса интеллектуального поиска и анализа больших массивов текстов, на
основе которого создан ряд промышленных систем текстовой аналитики, внедренных в государственных организациях и коммерческих компаниях.
Теоретическая значимость результатов работы состоит в том, что предложены новые подходы к построению систем семантического и дискурсивного анализа текстов на русском языке, семантического и вопросно-ответного поиска текстов, предложены новые разноуровневые текстовые показатели, отражающие специфику письменной речи людей с различными психологическими состояниями.
Практическая значимость результатов диссертационной работы состоит в применимости предлагаемых в диссертации подходов и методов к построению продвинутых эффективных систем информационного поиска и анализа текстов. Она подтверждается внедрением результатов диссертационной работы в ряд прикладных промышленных систем текстовой аналитики, о чем имеются акты об использовании, а также применением полученных результатов при проведении научно-исследовательских работ в области психолингвистики.
Обоснованность и достоверность результатов, полученных в диссертационной работе, основана на использовании надежных и апробированных методов исследования, корректном применении математического аппарата и теории искусственного интеллекта, согласованности результатов проведенных экспериментальных исследований с известными теоретическими положениями в области анализа текстов. Результаты прошли апробацию на международных и российских конференциях, представлены многочисленными публикациями с высокой цитируемостью, а также внедрены в промышленные системы поиска и анализа текстов.
Основные положения, выносимые на защиту:
1. Методы семантического анализа текстов на русском языке, извлекающие из текста семантическую структуру в виде семантической сети связанных слов с их семантическими ролями.
2. Методы дискурсивного анализа текстов на русском языке, извлекающие из текста дискурсивную структуру в виде дерева риторического разбора, отражающую связность текста.
3. Методы информационного и вопросно-ответного поиска на основе разноуровневых структур, обладающие лучшим качеством по сравнению с аналогами, учитывающими только слова, и обеспечивающие интерпретируемость получаемых результатов.
4. Методы извлечения информации из текстов на основе разноуровневых структур, повышающие эффективность извлечения информации и вопросно-ответного поиска.
5. Разноуровневые психолингвистические показатели, позволяющие выявлять более глубокие взаимосвязи между психологическими особенностями и письменной речью и повышающие качество классификации текстов, написанных авторами с различными психологическими отклонениями и особенностями.
6. Архитектура программных систем лингво-статистического анализа больших массивов текстов и психоэмоционального анализа текстов, позволяющих учитывать разноуровневую структуру текста при корпусных исследованиях и выявлять более широкий по сравнению с аналогами набор психоэмоциональных характеристик.
Апробация работы. Основные положения и результаты, полученные в диссертационной работе, представлены и обсуждены на следующих научных мероприятиях: Joint conference on knowledge-based software engineering JCKBSE (2006), Workshop on conceptual Structures for Extracting Natural language Semantics SENSE (2009), European Intelligence and Security Informatics Conference EISIC (2011), IEEE 6th International Conference Intelligent Systems (2012), Integrating IR technologies for Professional Search Workshop IRPS (2013), Artificial Intelligence and Natural Language AINL (2017), International Conference on Pattern Recognition Applications and Methods ICPRAM (2018, 2020, 2022), International Conference DAMDID/RCDL (2018, 2019), International Conference on Recent Advances of Natural
Language Processing RANLP (2019), Discourse Relation Parsing and Treebanking DISRPT (2019), International Conference on Analysis of Images, Social Networks and Texts AIST (2020), Intelligent Systems and Applications IntelliSys (2021), Международная конференция по интеллектуальным технологиям и компьютерной лингвистике «Диалог» (2008, 2009, 2014, 2018, 2019, 2022), Национальная конференция по искусственному интеллекту КИИ (2012, 2019, 2020, 2021), Российский семинар по оценке методов информационного поиска РОМИП (20082010), Мультиконференция по проблемам управления МКПУ (2011, 2019), Международный форум MedSoft (2019), Международная научно-практическая конференция «Управление информационной безопасностью в современном обществе» (2019), Открытая конференция по искусственному интеллекту OpenTalks.AI (2020), Междисциплинарная научная конференция «Кузнецовские чтения» (2017, 2018), научные семинары ФИЦ ИУ РАН, МФТИ, НИУ ВШЭ, ИП РАН, ИПУ РАН, РУДН.
Грантовая поддержка. Научные исследования в рамках диссертационной работы поддержаны следующими грантами: РФФИ: 12-07-33068 мол_а_вед «Исследование и разработка новых методов автоматического семантико-синтаксического анализа текстов, основанных на коммуникативной грамматике, реляционно-ситуационной модели текста и теории неоднородных семантических сетей» (руководитель И.В. Смирнов), 17-29-07033 офи_м «Модели и методы дискурсивного и сюжетного анализа текстов для решения задач интеллектуальной обработки и понимания текстов, естественно-языковой коммуникации» (руководитель И.В. Смирнов), 18-00-00233 КОМФИ «Методы комплексного интеллектуального анализа информации различных типов для социо-гуманитарных исследований в социальных медиа» (руководитель И.В. Смирнов), 17-29-02305 офи_м «Разработка методов анализа текстов, порождаемых в ситуации психологического неблагополучия и психического нездоровья», 17-29-02225 офи_м «Методы выявления личностных предикторов эффективности профилактики депрессии на основе анализа больших массивов данных», 21-011-
31638 опн «Разработка методов интеллектуального анализа общественно-политического дискурса в социальных медиа (на примере анализа предикатных конструкций с семантикой эмоционального воздействия)»; МИНОБРНАУКИ: №02.435.11.1002 «Разработка программных средств смыслового поиска и анализа материалов научных исследований в области наук о жизни, опубликованных на естественных языках в научной печати и в Интернете», .№07.551.11.4003 «Создание программного комплекса информационно-аналитической поддержки научно-технической деятельности на основе вычислительного семантического поиска и анализа неструктурированной текстовой информации», №07.514.11.4134 «Исследование и разработка программного обеспечения понимания неструктурированной текстовой информации на русском и английском языках на базе создания методов компьютерного полного лингвистического анализа», №14.607.21.0123 «Разработка интернет-технологии для персонализированной поддержки здоровьесбережения», №14.604.21.0194 «Разработка технологии формирования персонализированного плана профилактических мероприятий с применением методов искусственного интеллекта и обработки больших массивов данных». Значительная часть результатов получена в рамках проекта №075-152020-799 «Методы построения и моделирования сложных систем на основе интеллектуальных и суперкомпьютерных технологий, направленные на преодоление больших вызовов».
Публикации. Основные результаты диссертации изложены в 51 научной публикации, из них 1 рецензируемая монография, 18 публикаций в рецензируемых научных изданиях, отнесенных к категориям К-1 или К-2 из Перечня ВАК, 21 публикация в изданиях, индексируемых в БД Scopus и Web of Science. В рамках работы по диссертации получены 1 патент на изобретение РФ, 1 патент на полезную модель и 8 свидетельств о регистрации программы для ЭВМ.
Личный вклад. Результаты диссертационной работы получены автором самостоятельно, методы и алгоритмы разработаны при его преобладающем участии или под его научным руководством. В большинстве совместных
публикаций по теме диссертации автору принадлежат постановки задач и принципиальный подход к их решению.
Соответствие специальности. Результаты диссертационного исследования соответствуют паспорту специальности 1.2.1 «Искусственный интеллект и машинное обучение», а именно пункту 4 «Разработка методов, алгоритмов и создание систем искусственного интеллекта и машинного обучения для обработки и анализа текстов на естественном языке, для изображений, речи, биомедицины и других специальных видов данных», пункту 5 в части «Методы и технологии поиска, приобретения и использования знаний и закономерностей, в том числе -эмпирических, в системах искусственного интеллекта», пункту 7 в части «Разработка специализированного математического, алгоритмического и программного обеспечения систем искусственного интеллекта и машинного обучения».
Структура и объем работы. Диссертация состоит из введения, шести глав основного текста, заключения. Объем диссертации составляет 335 страниц, включая 38 рисунков и 38 таблиц. Список литературы включает 350 наименований.
ГЛАВА 1. АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА
ЕСТЕСТВЕННОМ ЯЗЫКЕ
Тексты на естественном языке остаются сегодня одним из основных способов хранения и передачи информации. Объёмы текстовых данных неуклонно растут по причине цифровизации экономики и других областей деятельности, а также развития и широкого распространения сети интернет, социальных медиа и средств электронной коммуникации (мессенджеров). Тексты содержат полезную информацию и знания, необходимые для поддержки принятия решений в науке, медицине, бизнесе, финансах, государственном управлении и других важных сферах. Для получения из текстов этой полезной информации и знаний решаются задачи информационного поиска, классификации, атрибуции, кластеризации текстов, извлечения информации из текстов, резюмирования текстов, и другие задачи, которые, как правило, можно свести к перечисленным выше. Все эти задачи объединяются в направление исследований и разработок под названием интеллектуальный анализ текстов. Для интеллектуального анализа текстов применяются подходы информационного поиска, искусственного интеллекта, в частности, компьютерной лингвистики и машинного обучения. Особенно часто применяются методы и подходы из области обработки естественного языка, -направления исследований и разработок, занимающегося проблемами понимания естественного языка (устной и письменной речи) с помощью компьютера.
При интеллектуальном анализе текстов важное значение имеет подход к моделированию текста на естественном языке и связанный с ним способ представления текстовых признаков и характеристик. Наиболее часто текст представляется как множество слов («мешок слов») или последовательностей слов (^грамм) с весами, отражающими их значимость в тексте на фоне заданной коллекции текстов. Однако текст на естественном языке как лингвистический объект не является простой последовательностью слов, он состоит из ряда осмысленных высказываний, объединённых разными типами лексической,
грамматической и логической связи, имеет прагматическую установку и литературную обработку [1]. Упрощенный подход к представлению текстов в виде множества слов не позволяет моделировать такие элементы текста как словосочетания, осмысленные высказывания, он не учитывает семантику высказываний или связность текста, что не позволяет решать многие задачи интеллектуального анализа текстов с надлежащим качеством.
Для анализа текстов используются нейросетевые подходы и глубокое обучение, моделирующие текст в виде векторных представлений слов, вычисляемых на основе дистрибутивной семантики [2, 3]. Последние несколько лет активно стали использоваться статистические языковые модели, вычисляющие вероятность появления в тексте заданного слова или предложения. Языковая модель оценивает вероятность для заданного слова или последовательности слов следовать за другой последовательностью слов, т.е. способна предсказывать следующее слово в последовательности. Статистические языковые модели обучаются на огромном количестве текстов без привлечения человека или любых лингвистических знаний, а некоторые исследователи полагают, что такие подходы «способны самостоятельно обучаться» грамматике языка. К недостаткам нейросетевых подходов можно отнести необходимость наличия больших обучаемых выборок, требовательность к вычислительным ресурсам, недерминированность, неинтерпретируемость получаемых результатов, т.е. невозможность получения объяснения почему принято то или иное решение. Кроме этого, нейросетевые подходы и векторные представления слов так же, как и подходы типа «мешка слов», не позволяют рассматривать текст как связную последовательность осмысленных высказываний, что может снижать качество решения некоторых задач, например, резюмирования текстов или анализа аргументации. В гуманитарных областях, например в психолингвистических исследованиях, направленных на выявление взаимосвязи речи и психологических особенностей, применение нейросетевых и других подходов типа «черного ящика» неприемлемо, т.к. совершенно не позволяет получать интерпретируемые знания о
проявлениях психологических отклонений и особенностей в устной и письменной речи.
Еще одним подходом к представлению текста являются лингвистические модели, описывающие структуру текста на основе знаний о строении естественного языка. Такие модели описывают текст в соответствии с уровнями языка в виде системы морфологических, синтаксических, семантических и дискурсивных структур, они теоретически обоснованы, интерпретируемы и, как показано во многих исследованиях, положительно влияют на качество решения задач интеллектуального анализа текстов. Использование лингвистических подходов при решении задач интеллектуального анализа текстов позволяет явно описать и легко запрограммировать языковые закономерности без создания больших размеченных корпусов текстов. Всё вышесказанное делает применение лингвистических моделей и подходов для интеллектуального анализа текстов целесообразным и перспективным, особенно при создании систем доверенного искусственного интеллекта.
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Метод и алгоритмы интерпретации неполных высказываний пользователя для управления устройствами Интернета вещей на основе онтологического подхода2019 год, кандидат наук Шилин Иван Андреевич
Лингвистическая интерпретация и оценка векторных моделей слов русского языка2022 год, кандидат наук Шаврина Татьяна Олеговна
Образ-концепт "homo sapiens" в русской языковой картине мира как объект антропоцентристской семантики2006 год, доктор филологических наук Никитина, Лариса Борисовна
Вопросительность в диалоге: Специфика речевых реализаций; на материале английского, немецкого и русского языков2001 год, кандидат филологических наук Ремизова, Софья Александровна
Построение вопросно-ответной системы с использованием метода математической формализации естественных языков2001 год, кандидат физико-математических наук Корхов, Александр Вадимович
Список литературы диссертационного исследования доктор наук Смирнов Иван Валентинович, 2024 год
СПИСОК ЛИТЕРАТУРЫ
1. Гальперин И. Р. Текст как объект лингвистического исследования. — М.: Наука, 1981.
2. Kamath U., Liu J., Whitaker J. Deep learning for NLP and speech recognition. -Cham, Switzerland: Springer, 2019. - 621 p.
3. Goldberg Y. Neural network methods for natural language processing //Synthesis lectures on human language technologies. - 2017. - V. 10. - №1. - pp. 1-309.
4. Смирнов И.В. Интеллектуальный анализ текстов на основе методов разноуровневой обработки естественного языка. - М.: ФИЦ ИУ РАН, 2023. -356 с.
5. Indurkhya N., Damerau F. J. (ed.). Handbook of natural language processing. - CRC Press, 2010. - 704 p.
6. Daniel Jurafsky, James H. Martin. Speech and Language Processing. - Prentice Hall, 2009. - 988 p.
7. Wicks R., Post M. A unified approach to sentence segmentation of punctuated text in many languages // Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). - 2021. - pp. 3995-4007.
8. Tomanek K., Wermter J., Hahn U. Sentence and token splitting based on conditional random fields // Proceedings of the 10th Conference of the Pacific Association for Computational Linguistics. - 2007. - pp. 49-57.
9. Чеповский А. М. Информационные модели в задачах обработки текстов на естественных языках. - М.: Национальный Открытый Университет «Интуит», 2014. - 159 с.
10. Сокирко Алексей Викторович. Семантические словари в автоматической обработке текста: По материалам системы ДИАЛИНГ: диссертация ... кандидата технических наук: 05.13.17. - Москва, 2001. - 120 с.
11.Болховитянов А.В., Гусев А.В., Чеповский А.М. Морфологические модели компьютерной лингвистики: учеб. пособие - М.: МГУП, 2010 - 93 с.
12.Porter M. F. An algorithm for suffix stripping // Program. - 1980. - V. 14. - №3. -pp. 130-137.
13. Реализация алгоритма Портера для русского языка. Russian stemming algorithm // [Электронный ресурс] http: //snowball. tartarus. org/algorithms/russian/stemmer. html. Проверено 03.02.2023.
14.Зализняк А.А. Грамматический словарь русского языка. Словоизменение. Изд. 5-е, испр. — М.: Аст-пресс, 2008. - 794 с.
15. Сегалович И. Реализация словаря на основе разряженой хэш-таблицы // Труды Междунар. семинара «Диалог 95». - Таруса. - 1995.
16.Karlsson Fred. Constraint Grammar as a Framework for Parsing Unrestricted Text. H. Karlgren ed. // Proceedings of the 13th International Conference of Computational Linguistics - 1990. - V. 3. - pp. 168-173.
17.Brill E. Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging // Computational Linguistics. -1995. - V. 21. - pp. 543-565.
18.Зеленков Ю. Г., Сегалович И. В., Титов В. А. Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог. - 2005. - Т. 2005. - С. 188-197.
19.Сокирко А. В., Толдова С. Ю. Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка (скрытая модель Маркова и синтаксический анализатор именных групп) // Интернет-математика 2005: автоматическая обработка веб-данных. - М., 2005. - С. 80-94.
20.Brants T. TnT - a statistical part-of-speech tagger // arXiv preprint cs/0003055. -2000.
21.Schmid H. Probabilistic part-ofispeech tagging using decision trees // New methods in language processing. - 2013. - pp. 154-164.
22.Sharoff S., Kopotev M., Erjavec T., Feldman A., Divjak D.: Designing and evaluating a Russian tagset // Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC 2008). - Vol. 26. - pp. 279-285.
23.Muzychka S. A., Romanenko A. A., Piontkovskaja I. I. Conditional Random Field for morphological disambiguation in Russian // Компьютерная лингвистика и интеллектуальные технологии. - 2014. - С. 455-465.
24. Антонова А., Соловьев А. Использование метода условных случайных полей для обработки текстов на русском языке // Компьютерная лингвистика и интеллектуальные технологии. - 2013. - С. 27-44.
25.Chiche A., Yitagesu B. Part of speech tagging: a systematic review of deep learning and machine learning approaches // Journal of Big Data. - 2022. - V.9. - №1. - pp. 1-25.
26.Sorokin A., et al. MorphoRuEval-2017: an Evaluation Track for the Automatic Morphological Analysis Methods for Russian // Proceedings of the International Conference Dialogue 2017. - 2017. - V.1. - pp. 297-313.
27.Lyashevskaya O.N., et al. GRAMEVAL 2020 shared task: Russian full morphology and universal dependencies parsing // Proceedings of the International Conference Dialogue 2020. - 2020. - V.1. - pp. 553-569.
28.Devlin J., Chang M.-W., Lee K., Toutanova K. Bert: Pre-training of deep bidirectional transformers for language understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). - 2019. - pp. 41714186.
29.Тестелец Я.Г. Введение в общий синтаксис. - М.: РГГУ, 2001. — 798 с.
30.Гладкий А.В. Формальные грамматики и языки - М.: Наука, 1973 - 368с.
31.Смирнов И.В., Шелманов А.О. Семантико-синтаксический анализ естественных языков. Часть I. Обзор методов синтаксического и
семантического анализа текстов // Искусственный интеллект и принятие решений. - 2013. - №1. - С. 41-54.
32.Антонова А., Мисюрев А. Анализатор русского языка syntautom для соревнования синтаксических парсеров (Диалог-2012) // Компьютерная лингвистика и интеллектуальные технологии. - 2012.
33.Ножов И.М. Морфологическая и синтаксическая обработка текста (модели и программы) // Диссертация на соискание степени кандидата наук — 2003. [Электронный ресурс] http://aot.ru/docs/Nozhov/msot.pdf. Проверено 04.02.2023.
34.M. Mufioz, V. Punyakanok, D. Roth, D. Zimak. A learning approach to shallow parsing // arXiv preprint cs/0008022. - 2000.
35.Кобзарева Т. Принципы сегментационного анализа русского предложения. // Московский лингвистический журнал. - 2004. - Т. 8. - С. 31-80.
36.Kay M. Readings in natural language processing - San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1986. - pp. 35-70.
37.Earley J. An efficient context-free parsing algorithm // Commun. ACM. - 1970. -V.13. - №2. - pp. 94-102.
38.Marcus M. P., Marcinkiewicz M. A., Santorini B. Building a large annotated corpus of English: The Penn Treebank // Computational Linguistics - 1993. - Vol.19. - №2. - pp. 313-330.
39.Апресян Ю. Д. и др. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы // Национальный корпус русского языка. - 2003. - Т. 2005. - С. 193-214.
40.Collins M. Head-driven statistical models for natural language parsing // Computational Linguistics. - 2003. - Vol.29. - №4. - pp. 589-637.
41.Charniak E. A maximum-entropy-inspired parser // Proceedings of the 1st North American chapter of the Association for Computational Linguistics conference. -2000. - pp. 132-139.
42.Nivre J. An efficient algorithm for projective dependency parsing // Proceedings of the eighth international conference on parsing technologies. - 2003. - pp. 149-160.
43.Nivre J., Nilsson J. Memory-based dependency parsing // In Proceedings of CoNLL.
- 2004. - pp. 49-56.
44.Joakim Nivre, Johan Hall, Jens Nilsson et al. Maltparser: A language-independent system for data-driven dependency parsing // Natural Language Engineering. - 2007.
- Vol.13. - №2. - pp. 95-135.
45.Vapnik V. N. The nature of statistical learning theory. - New York, USA: SpringerVerlag New York, Inc., 1995. - 188 p.
46.Sharoff S., Nivre J. The proper place of men and machines in language technology: Processing Russian without any linguistic knowledge // Компьютерная лингвистика и интеллектуальные технологии. - 2011. - Т. 10. - №17. - С. 657670.
47. Казенников А. О. Сравнительный анализ статистических алгоритмов синтаксического анализа на основе деревьев зависимостей // Труды международной конференции «Диалог 2010». - 2010. - №. 9. - С. 16.
48.Nivre J., Boguslavsky I. M., Iomdin L. L. Parsing the SynTagRus treebank of russian // Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). - 2008. - pp. 641-648.
49.Chu Y.-J., Liu T.-H. On shortest arborescence of a directed graph // Scientia Sinica.
- 1965. - Vol. 14. - №10. — p. 1396.
50.Edmonds J. Optimum branchings // Journal of Research of the National Bureau of Standards, Section B: Mathematics and Mathematical Physics. - 1967. - Vol. 71B. -№4. — pp. 233-240.
51.Dozat T., Manning C. D. Deep biaffine attention for neural dependency parsing // arXiv preprint arXiv:1611.01734. - 2016.
52.De Marneffe M. C. et al. Universal dependencies // Computational linguistics. - 2021.
- V.47. - №2. - pp. 255-308.
53.Lyashevskaya O. N. et al. GRAMEVAL 2020 shared task: Russian full morphology and universal dependencies parsing // Proceedings of the International Conference Dialogue. - 2020. - V.2020. - pp. 553-569.
54.Navigli R. Word sense disambiguation: A survey // ACM computing surveys (CSUR). - 2009. - V. 41. - №2. - pp. 1-69.
55.Miller G. A. WordNet: a lexical database for English // Communications of the ACM. - 1995. - V.38. - №11. - pp. 39-41.
56. Лукашевич Н.В. Тезаурусы в задачах информационного поиска. - М.: Изд-во Московского университета, 2011. - 396 с.
57.Bevilacqua M., Navigli R. Breaking through the 80% glass ceiling: Raising the state of the art in word sense disambiguation by incorporating knowledge graph information // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. - 2020. - pp. 2854-2864.
58.Panchenko A., Lopukhina A., Ustalov D., Lopukhin K., Arefyev N., Leontyev A., Loukachevitch N. RUSSE'2018: A Shared Task on Word Sense Induction for the Russian Language // Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference "Dialogue". - 2018. - pp. 547-564.
59.Harris Zellig. Distributional structure // Word. - 1954. - Vol. 10. - №23. - pp. 146162.
60.Turney P. D., Pantel P. From frequency to meaning: Vector space models of semantics // Journal of artificial intelligence research. - 2010. - V. 37. - pp. 141-188.
61.Baroni M., Dinu G., Kruszewski G. Don't count, predict! a systematic comparison of context-counting vs. context-predicting semantic vectors // Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). - 2014. - pp. 238-247.
62.Mikolov T. et al. Efficient estimation of word representations in vector space // arXiv preprint arXiv:1301.3781. - 2013.
63.Lakoff G. Linguistics and natural logic // Synthese. - 1970. - V. 22. - №1-2. - pp. 151-271.
64.Montague, Richard. Formal Philosophy: Selected Papers of Richard Montague. Edited and with an introduction by Richmond Thomason. - New Haven: Yale Univ. Press., 1974. - 369 p.
65. Мельчук И. А. Опыт теории лингвистических моделей «Смысл ^ Текст». - М., 1974 - 316 c.
66. Апресян Ю. Д. Лексическая семантика. - М., 1974. - 366 c.
67.Белоногов Г.Г. Теоретические проблемы информатики. Т. 2. Семантические проблемы информатики / под общ. ред. К.И. Курбакова.- М.:РЭА им. Г.В. Плеханова, 2008. - 215 с.
68.Белоногов Г. Г., Гиляревский Р. С., Хорошилов А. А. Проблемы автоматической смысловой обработки текстовой информации // Научно-техническая информация. Серия 2: Информационные процессы и системы. -2012. - №. 11. - С. 31-38.
69.Кузнецов И.П. Механизмы обработки семантической информации. - М.: Наука, 1978. - 175 с.
70.Kuznetsov I. P., Kozerenko E. B. Linguistic Processor Semantix for Knowledge Extraction from Natural Texts in Russian and English // IC-AI. - 2008. - pp. 835841.
71. Тузов В. А. Компьютерная семантика русского языка. - СПб.: Изд-во С.-Петерб. ун-та, 2004. - 394 с.
72.Тузов В.А. Компьютерная семантика русского языка // Межд. семинар Диалог'2001 по компьютерной лингвистике и приложения, т. 2, Протвино 2001 [https://www.dialog-21.ru/digest/2001/articles/tuzov/].
73.Боярский К. К., Каневский Е. А. Семантико-синтаксический парсер SemSin // Научно-технический вестник информационных технологий, механики и оптики. - 2015. - Т. 15. - №. 5. - С. 869-876.
74.Филлмор Ч. Дело о падеже. // Новое в зарубежной лингвистике. - 1981. №X. -С. 400-444.
75.Gildea D., Jurafsky D. Automatic labeling of semantic roles // Computational Linguistics. - 2002. - Vol.28. - №3. - pp. 245-288.
76.Baker C. F., Fillmore C. J., Lowe J. B. The berkeley framenet project // The 17th International Conference on Computational Linguistics. - 1998. - pp. 86-90.
77.Vincent Claveau, Pascale Sébillot, Cécile Fabre, Pierrette Bouillon. Learning semantic lexicons from a part-of-speech and semantically tagged corpus using inductive logic programming // J. Mach. Learn. Res. - 2003. - Vol. 4. - pp. 493-525.
78.Mooney R. J. Learning for semantic parsing // Computational Linguistics and Intelligent Text Processing: Proceedings of the 8th International Conference (CICLing 2007) / Ed. by A. Gelbukh. - Mexico City, Mexico: Springer: Berlin, Germany, 2007. - pp. 311-324.
79.Kate R. J., Mooney R. J. Semi-supervised learning for semantic parsing using support vector machines // Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics, Short Papers (NAACL/HLT-2007). - 2007. - pp. 81-84.
80.Bharati A., Venkatapathy S., Reddy P. Inferring semantic roles using sub-categorization frames and maximum entropy model // Proceedings of the Ninth Conference on Computational Natural Language Learning. - 2005. - pp. 165-168.
81.Jiang Z. P., Ng H. T. Semantic role labeling of nombank: A maximum entropy approach // Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. - 2006. - pp. 138-145.
82.Toutanova K., Haghighi A., Manning C. Joint learning improves semantic role labeling // Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics - 2005. - pp. 589-596.
83.Pado S., Lapata M. Cross-lingual annotation projection for semantic roles // Journal of Artificial Intelligence Research. - 2009. - Vol. 36. - P. 307-340.
84.Johansson R., Nugues P. A framenet-based semantic role labeler for swedish // Proceedings of the COLING/ACL on Main conference poster sessions. — COLING-ACL '06. - 2006. - pp. 436-443.
85.Fung P., Chen B. Biframenet: bilingual frame semantics resource construction by cross-lingual induction // Proceedings of the 20th international conference on Computational Linguistics. - COLING '04. - 2004. - pp. 931-937.
86.Fürstenau H., Lapata M. Semi-supervised semantic role labeling via structural alignment // Computational Linguistics. - 2012. - Vol.38. - №1. - pp. 135-171.
87.Lang J., Lapata M. Unsupervised semantic role induction via split-merge clustering // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. - 2011. - pp. 1117-1126.
88.Titov I., Klementiev A. Crosslingual induction of semantic roles // Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. - 2012. - pp. 647-656.
89.He L. et al. Deep semantic role labeling: What works and what's next // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). - 2017. - pp. 473-483.
90.Ronan Collobert, Jason Weston, L'eon Bottou, Michael Karlen, Koray Kavukcuoglu, and Pavel Kuksa. Natural language processing (almost) from scratch // Journal of machine learning research. - 2011. - V.12. - pp. 2493-2537.
91.Shi P., Lin J. Simple bert models for relation extraction and semantic role labeling // arXiv preprint arXiv:1904.05255. - 2019.
92.Gozde Gul Sahin and Mark Steedman. Character-level models versus morphology in semantic role labeling // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. - 2018. - pp. 386-396.
93.Luheng He, Mike Lewis, and Luke Zettlemoyer. Question-answer driven semantic role labeling: Using natural language to annotate natural language. // Proceedings of the 2015 conference on empirical methods in natural language processing. - 2015. -pp. 643-653.
94.Diego Marcheggiani, Anton Frolov, and Ivan Titov. A simple and accurate syntax-agnostic neural model for dependency-based semantic role labeling. // Proceedings of the 21st Conference on Computational Natural Language Learning (CoNLL 2017). -2017. - pp. 411-420.
95.Anisimovich K. V., Druzhkin K. J., Minlos F. R., Petrova M. A., Selegey V. P. and Zuev K. A. Syntactic and semantic parser based on ABBYY Compreno linguistic
technologies // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialog 2012". -2012. - Vol.2. - pp. 91-103.
96.Ермаков А. Е., Плешко В. В. Семантическая интерпретация в системах компьютерного анализа текста // Информационные технологии. - 2009. - Т. 6. - С. 2-7.
97.Kuznetsov I. Semantic role labeling for Russian language based on Russian FrameBank // Analysis of Images, Social Networks and Texts: 4th International Conference, AIST 2015, Revised Selected Papers 4. - Springer International Publishing, 2015. - pp. 333-338.
98.Kazakov R., Lyashevskaya O. Adjunct role labeling for Russian // Komp'juternaja Lingvistika i Intellektual'nye Tehnologii. - 2021. - pp. 367-377.
99.Zheng X. et al. Semantic role labeling for russian language based on ensemble model // 2019 IEEE 8th Joint International Information Technology and Artificial Intelligence Conference (ITAIC). - IEEE, 2019. - pp. 1263-1268.
100. Shelmanov A.O. and Devyatkin D.A. Semantic role labeling with neural networks for texts in Russian // Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference "Dialogue". - 2017. - pp. 245-256.
101. Lyashevskaya O., Kashkin E. FrameBank: a database of Russian lexical constructions // Analysis of Images, Social Networks and Texts: 4th International Conference, AIST 2015, Revised Selected Papers. - Cham: Springer International Publishing, 2015. - pp. 350-360.
102. Polanyi L. The Linguistic Discourse Model: Towards a Formal Theory of Discourse Structure. - Cambridge, MA: BBN Laboratories, 1986.
103. Lascarides A., Asher N. Segmented discourse representation theory: Dynamic semantics with discourse structure // Computing meaning. - Springer Netherlands, 2008. - pp. 87-124.
104. Prasad R. et al. The Penn Discourse TreeBank 2.0 // LREC. - 2008. - pp. 29612968.
105. Mann W. C., Thompson S. A. Rhetorical structure theory: Toward a functional theory of text organization // Text-Interdisciplinary Journal for the Study of Discourse. - 1988. - V.8. - №3. - pp. 243-281.
106. Marcu D. The rhetorical parsing of natural language texts // Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics. - Association for Computational Linguistics, 1997. - pp. 96-103.
107. Corston-Oliver S. H., Corston-oliver S. H. Beyond string matching and cue phrases: Improving efficiency and coverage in discourse analysis // The AAAI Spring Symposium on Intelligent Text Summarization. - 1998. - pp. 9-15.
108. R. Soricut, D. Marcu. Sentence Level Discourse Parsing Using Syntactic and Lexical Information // Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology - 2003. - pp. 149-156.
109. Reitter D. Simple signals for complex rhetorics: On rhetorical analysis with rich-feature support vector models // LDV Forum. - 2003. - V.18. - №. 1/2. - pp. 38-52.
110. Hernault H, Prendinger H, DuVerle DA, Ishizuka M. HILDA: a discourse parser using support vector machine classification // Dialogue and Discourse - 2010. - V. 1. - №3. - pp. 1-33.
111. Feng, Vanessa Wei, and Graeme Hirst. Text-level discourse parsing with rich linguistic features // Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers. - 2012. - pp. 60-68.
112. Joty S., Carenini G., Ng R. T. Codra: A novel discriminative framework for rhetorical analysis //Computational Linguistics. - 2015. - V. 41. - №3. - pp. 385435.
113. Maziero E. G. et al. Semi-supervised never-ending learning in rhetorical relation identification // International Conference on Recent Advances in Natural Language Processing. - 2015. - pp. 436-442.
114. Fisher R., Simmons R. Spectral semi-supervised discourse relation classification // Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers). - 2015. - pp. 89-93.
115. Marcu D., Echihabi A. An unsupervised approach to recognizing discourse relations // Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. - 2002. - pp. 368-375.
116. Li J., Li R., Hovy E. H. Recursive Deep Models for Discourse Parsing // Proceedings of the EMNLP. - 2014. - pp. 2061-2069.
117. Rutherford A., Xue N. Robust non-explicit neural discourse parser in english and chinese // Proceedings of the CoNLL-16 shared task. - 2016. - pp. 55-59.
118. Yu N., Zhang M., Fu G. Transition-based Neural RST Parsing with Implicit Syntax Features // Proceedings of the 27th International Conference on Computational Linguistics. - 2018. - pp. 559-570.
119. Shi W., Demberg V. Next Sentence Prediction helps Implicit Discourse Relation Classification within and across Domains // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. - 2019. - pp. 5794-5800.
120. Badene S., Thompson K., Lorré J.-P., Asher N. Weak Supervision for Learning Discourse Structure // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. - 2019. - pp. 2296-2305.
121. Peters M., Neumann M., Iyyer M., Gardner M., Clark C., Lee K., Zettlemoyer L. Deep contextualized word representations // Proceedings of the 2018 Conference of the North American Chapter of the Associationfor Computational Linguistics: Human LanguageTechnologies, Volume 1 (Long Papers). - 2018. - pp. 2227-2237.
122. Chen M., Chu C., Gimpel K. Evaluation Benchmarks and Learning Criteria for Discourse-Aware Sentence Representations // Proceedings of the 2019 Conference on
Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. - 2019. - pp. 649-662.
123. Hung Shyh-Shiun, Huang Hen-Hsen, Chen Hsin-Hsi. A Complete Shift-Reduce Chinese Discourse Parser with Robust Dynamic Oracle // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. - 2020. - pp. 133138.
124. Guz Grigorii, Huber Patrick, Carenini Giuseppe. Unleashing the Power of Neural Discourse Parsers - A Context and Structure Aware Approach Using Large Scale Pretraining // Proceedings of the 28th International Conference on Computational Linguistics. - 2020. - pp. 3794-3805.
125. Nguyen Thanh-Tung et al. RST Parsing from Scratch // Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. - 2021. - pp. 1613-1625.
126. Li J. et al. A survey of discourse parsing // Frontiers of Computer Science. - 2022. - V. 16. - №5. - p. 165329.
127. Ohta T. et al. An intelligent search engine and GUI-based efficient MEDLINE search tool based on deep syntactic parsing // Proceedings of the COLING/ACL 2006 Interactive Presentation Sessions. - 2006. - pp. 17-20.
128. Shlain M. et al. Syntactic search by example // arXiv preprint arXiv:2006.03010. -2020.
129. Moreda P., Navarro B., Palomar M. Using semantic roles in information retrieval systems // Natural Language Processing and Information Systems: 10th International Conference on Applications of Natural Language to Information Systems. - 2005. -pp. 192-202.
130. Corcoglioniti F. et al. Knowledge extraction for information retrieval // The Semantic Web. Latest Advances and New Domains: 13 th International Conference, ESWC 2016, - 2016. - pp. 317-333.
131. Fan R. S. J. J. Y., Chua T. H. C. T. S., Kan M. Y. Using syntactic and semantic relation analysis in question answering // Proceedings of the 14th Text REtrieval Conference (TREC), Gaithersburg, MD, USA. - 2005. - pp. 15-18.
132. Shen D., Lapata M. Using semantic roles to improve question answering // Proceedings of the 2007 joint conference on empirical methods in natural language processing and computational natural language learning (EMNLP-CoNLL). - 2007. - pp. 12-21.
133. Moschitti A. et al. Exploiting syntactic and shallow semantic kernels for question/answer classification // Proceedings of the 45th annual meeting of the association of computational linguistics. - 2007. - pp. 776-783.
134. Kaisser M., Webber B. Question answering based on semantic roles //ACL 2007 Workshop on Deep Linguistic Processing. - 2007. - C. 41-48.
135. Tymoshenko K., Moschitti A. Assessing the impact of syntactic and semantic structures for answer passages reranking // Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. - 2015. -pp. 1451-1460.
136. Paloma Moreda, Hector Llorens, Estela Saquete, Manuel Palomar. Combining semantic information in question answering systems // Information Processing & Management. - 2011. - Vol. 47. - №6. - pp. 870-885.
137. Galitsky B. A., De La Rosa J. L., Dobrocsi G. Inferring the semantic properties of sentences by mining syntactic parse trees //Data & Knowledge Engineering. - 2012.
- T. 81. - C. 21-45.
138. Galitsky B. Machine learning of syntactic parse trees for search and classification of text //Engineering Applications of Artificial Intelligence. - 2013. - T. 26. - №. 3.
- C. 1072-1091.
139. Reddy S. et al. Universal semantic parsing // arXiv preprint arXiv:1702.03196. -2017.
140. Galitsky B., Ilvovsky D. Chatbot with a discourse structure-driven dialogue management // Proceedings of the Software Demonstrations of the 15th Conference
of the European Chapter of the Association for Computational Linguistics. - 2017. -pp. 87-90.
141. Yang J. et al. Measuring the short text similarity based on semantic and syntactic information // Future Generation Computer Systems. - 2021. - V. 114. - pp. 169-180.
142. Mohebbi M., Razavi S. N., Balafar M. A. Computing semantic similarity of texts based on deep graph learning with ability to use semantic role label information // Scientific reports. - 2022. - V.12. - №1. - pp. 1-11.
143. Nastase V., Shirabad J. S., Caropreso M. F. Using dependency relations for text classification // Proceedings of the 19th Canadian conference on artificial intelligence. - 2006. - pp. 12-25.
144. Bloehdorn S., Moschitti A. Combined syntactic and semantic kernels for text classification // Advances in Information Retrieval. - 2007. - pp. 307-318.
145. Sinoara R. A., Rossi R. G., Rezende S. O. Semantic role-based representations in text classification // 23rd International Conference on Pattern Recognition (ICPR). -IEEE, 2016. - C. 2313-2318.
146. Ji Y., Smith N. Neural discourse structure for text categorization // arXiv preprint arXiv:1702.01829. - 2017.
147. Foltynek T., Meuschke N., Gipp B. Academic plagiarism detection: a systematic literature review // ACM Computing Surveys (CSUR). - 2019. - V. 52. - №6. - pp. 1-42.
148. Paul M., Jamal S. An improved SRL based plagiarism detection technique using sentence ranking // Procedia Computer Science. - 2015. - V. 46. - pp. 223-230.
149. Osman A. H. et al. An improved plagiarism detection scheme based on semantic role labeling //Applied Soft Computing. - 2012. - T. 12. - №. 5. - C. 1493-1502.
150. Khan A., Salim N., Kumar Y. J. A framework for multi-document abstractive summarization based on semantic role labelling //Applied Soft Computing. - 2015. -T. 30. - C. 737-747.
151. Mohamed M., Oussalah M. SRL-ESA-TextSum: A text summarization approach based on semantic role labeling and explicit semantic analysis // Information Processing & Management. - 2019. - V. 56. - №4. - pp. 1356-1372.
152. Yoshida, Y., Suzuki, J., Hirao, T., & Nagata, M. Dependency-based Discourse Parser for Single-Document Summarization // Proccedings of the EMNLP. - 2014. -pp. 1834-1839.
153. Xu Jiacheng, Gan Zhe, Cheng Yu, Liu Jingjing. Discourse-Aware Neural Extractive Text Summarization // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. - 2020. - pp. 5021-5031.
154. Li Zhenwen, Wu Wenhao, Li Sujian. Composing Elementary Discourse Units in Abstractive Summarization // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. - 2020. - pp. 6191-6196.
155. Xiao Wen, Huber Patrick, Carenini Giuseppe. Do We Really Need That Many Parameters In Transformer For Extractive Summarization? Discourse Can Help! // Proceedings of the First Workshop on Computational Approaches to Discourse. -2020. - C. 124-134.
156. Adnan K., Akbar R. An analytical study of information extraction from unstructured and multidimensional big data // Journal of Big Data. - 2019. - V. 6. -№1. - pp. 1-38.
157. Zadgaonkar A. V., Agrawal A. J. An overview of information extraction techniques for legal document analysis and processing // International Journal of Electrical & Computer Engineering. - 2021. - V. 11. - №6. - pp. 5450-5457.
158. Wang Y. Semantic information extraction for software requirements using semantic role labeling // 2015 IEEE International Conference on Progress in Informatics and Computing (PIC). - IEEE, 2015. - pp. 332-337.
159. Ochoa J. L. et al. A semantic role labelling-based framework for learning ontologies from Spanish documents // Expert Systems with Applications. - 2013. -V. 40. - №6. - pp. 2058-2068.
160. Chinsha T. C., Joseph S. A syntactic approach for aspect based opinion mining // Proceedings of the 2015 IEEE 9th International Conference on Semantic Computing (IEEE ICSC 2015). - IEEE, 2015. - pp. 24-31.
161. Rahimi Z., Noferesti S., Shamsfard M. Applying data mining and machine learning techniques for sentiment shifter identification // Language Resources and Evaluation.
- 2019. - V. 53. - №2. - pp. 279-302.
162. Feldman D. G., Vorontsov K. V., Sadekova T. R. Combining facts, semantic roles and sentiment lexicon in a generative model for opinion mining //Computational Linguistics and Intellectual Technologies. - 2020. - pp. 283-298.
163. Heerschop, B., Goossen, F., Hogenboom, A., Frasincar, F., Kaymak, U., & de Jong, F. Polarity analysis of texts using discourse structure // Proceedings of the 20th ACM international conference on Information and knowledge management. - ACM, 2011.
- pp. 1061-1070.
164. Mohammad S., Zhu X., Martin J. Semantic role labeling of emotions in tweets // Proceedings of the 5th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis. - 2014. - pp. 32-41.
165. Campagnano C., Conia S., Navigli R. SRL4E - Semantic Role Labeling for Emotions: A Unified Evaluation Framework //Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1 : Long Papers).
- 2022. - pp. 4586-4601.
166. Hardmeier C. Discourse in statistical machine translation. - 2014.
167. Joty S. et al. DiscoTK: Using discourse structure for machine translation evaluation // arXiv preprint arXiv: 1911.12547. - 2019.
168. Feng, V. W., Lin, Z., Hirst, G., & Holdings, S. P. The Impact of Deep Hierarchical Discourse Structures in the Evaluation of Text Coherence // Proceedings of the COLING. - 2014. - pp. 940-949.
169. Green N. L. Representation of argumentation in text with rhetorical structure theory // Argumentation. - 2010. - V. 24. - №2. - pp. 181-196.
170. Pisarevskaya D. Deception Detection in News Reportsin the Russian Language: Lexics and Discourse // Proceedings of the 2017 EMNLP Workshop on Natural Language Processing meets Journalism. - 2017. - pp. 74-79.
171. Atanasova Pepa, Nakov Preslav, Marquez Lluis, Barron-Cedeno Alberto, Karadzhov Georgi, Mihaylova Tsvetomila, Mohtarami Mitra, Glass James. Automatic fact-checking using context and discourse information // ACM Journal of Data and Information Quality. - 2019. - V. 11. - №3. - pp. 1-27.
172. Hou S., Zhang S., Fei C. Rhetorical structure theory: A comprehensive review of theory, parsing methods and applications // Expert Systems with Applications. -2020. - V. 157. - P. 113421.
173. Кибрик А. А., Добров Г. Б., Залманов Д. А., Линник А. С., Лукашевич Н. В. Референциальный выбор как многофакторный вероятностный процесс // Материалы международной конференции «Диалог». - 2010. - С. 173-180.
174. Осипов Г.С., Смирнов И.В., Тихомиров И.А. Реляционно-ситуационный метод поиска и анализа текстов и его приложения // Искусственный интеллект и принятие решений. - 2008. - №2. - С. 3-10.
175. Осипов Г.С. Приобретение знаний интеллектуальными системами. - М.: Наука. Физматлит, 1997. - 109 с.
176. Ekaterina Manicheva, Maria Petrova, Elena Kozlova, Tatiana Popova. The compreno semantic model as an integral framework for a multilingual lexical database // 24th International Conference on Computational Linguistics. - 2012. - Pp. 215-229.
177. Золотова Г.А., Онипенко Н.К., Сидорова М.Ю. Коммуникативная грамматика русского языка. - М., 2004. - 544 с.
178. Золотова Г.А. Синтаксический словарь: Репертуар элементарных единиц русского синтаксиса. 3-е изд., стереотип. — М.: Едиториал УРСС, 2006. — 440 с.
179. Ivan Smirnov, Ilya Tikhomirov. Heterogeneous semantic networks for text representation in intelligent search engine EXACTUS // Proceedings of workshop
SENSE'09 - conceptual Structures for Extracting Natural language SEmantics, The 17th International Conference on Conceptual Structures (ICCS'09). - 2009. - pp. 19.
180. Финн В. К. Об определении эмпирических закономерностей посредством ДСМ-метода автоматического порождения гипотез // Искусственный интеллект и принятие решений. - 2010. - №4. - С. 41-48.
181. Финн В. К. Об особенностях ДСМ-метода как средства интеллектуального анализа данных // Научно-техническая информация. Серия 2. Информационные процессы и системы. - 2001. - Т. 2. - С. 1-4.
182. Смирнов И.В. Порождение правил установления значений минимальных семантико-синтаксических единиц текста. // Научно-техническая информация. Серия 2. Информационные процессы и системы. - 2007. - №6. - С. 1-6.
183. Смирнов И.В. Метод автоматического установления значений минимальных синтаксических единиц текста // Информационные технологии и вычислительные системы. - 2008. - №3. - С. 30-45.
184. Смирнов И. В. Исследование методов установления значений синтаксических единиц естественных языков на основе интеллектуального анализа данных: диссертация на соискание степени кандидата физико-математических наук - ИСА РАН, 05.13. 01. - М.: ИСА РАН, 2008.
185. Lluis X., Marquez L. A joint model for parsing syntactic and semantic dependencies // Proceedings of the Twelfth Conference on Computational Natural Language Learning / Association for Computational Linguistics. — 2008. — pp. 188-192.
186. Смирнов И.В., Шелманов А.О., Кузнецова Е.С., Храмоин И.В. Семантико-синтаксический анализ естественных языков. Часть II. Метод семантико-синтаксического анализа текстов // Искусственный интеллект и принятие решений. - 2014. - №1 - С. 11-24.
187. Choi J. D., Palmer M. Transition-based semantic role labeling using predicate argument clustering //Proceedings of the ACL 2011 Workshop on Relational Models of Semantics. - 2011. - С. 37-45.
188. Chang C.-C., Lin C.-J. LIBSVM: A library for support vector machines // ACM Transactions on Intelligent Systems and Technology. - 2011. - Vol. 2. - pp. 27:127:27.
189. LIBLINEAR: A library for large linear classification / Rong-En Fan, Kai-Wei Chang, Cho-Jui Hsieh et al. // The Journal of Machine Learning Research. -2008. - Vol. 9. - pp. 1871-1874.
190. Russian statistical taggers and parsers. [Электронный ресурс]. - URL: http: //corpus .leeds.ac. uk/mocky/ (дата обращения: 01.08.2023).
191. Shelmanov A. O., Smirnov I. V. Methods for semantic role labeling of Russian texts // Computational Linguistics and Intellectual Technologies. Proceedings of International Conference Dialog. - 2014. - V. 13. - №20. - pp. 607-620.
192. Punyakanok V., Roth D., Yih W.-t. The importance of syntactic parsing and inference in semantic role labeling // Computational Linguistics. - 2008. - Vol. 34. -№2. - pp. 257-287.
193. Шелманов Артем Олегович. Исследование методов автоматического анализа текстов и разработка интегрированной системы семантико-синтаксического анализа: ди^ертация на соикание степени кандидата технических наук: 05.13.17 / Шелманов Артем Олегович; Место защиты: Федер. исслед. центр Информатика и управление РАН. - Москва, 2015. - 210 с.
194. Shi H. et al. Semantic Role Labeling based on dependency Tree with multi-features //2009 International Joint Conference on Bioinformatics, Systems Biology and Intelligent Computing. - IEEE, 2009. - С. 584-587.
195. Larionov D., Shelmanov A., Chistova E., Smirnov I. Semantic role labeling with pretrained language models for known and unknown predicates // Proceedings of International Conference on Recent Advances of Natural Language Processing. -2019. - pp. 619-628.
196. Carlson L., Marcu D. Discourse tagging reference manual // ISI Technical Report ISI-TR-545. - 2001. - V. 54.
197. Литвиненко А. О. Описание структуры дискурса в рамках Теории Риторической Структуры: применение на русском материале // Труды Международного семинара Диалог. - 2001. - С. 159-168.
198. Кибрик А. А. Анализ дискурса в когнитивной перспективе // Дисс.... докт. филол. наук. - 2003.
199. Pisarevskaya D. et al. Towards building a discourse-annotated corpus of Russian // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2017". - 2017. - pp. 194-204.
200. Soricut R., Marcu D. Sentence level discourse parsing using syntactic and lexical information // Proceedings of the 2003 Conference of the North Amer-ican Chapter of the Association for Computational Linguistics on HumanLanguage Technology-Volume 1. - 2003. - P. 149-156.
201. Hernault H., Bollegala D., Ishizuka M. A sequential model for discourse segmentation // International Conference on Intelligent Text Processing andComputational Linguistics. - 2010. - pp. 315-326.
202. Elena Chistova, Maria Kobozeva, Dina Pisarevskaya, Artem Shelmanov, Ivan Smirnov, Svetlana Toldova. Towards the Data-driven System for Rhetorical Parsing of Russian Texts // Proceedings of Discourse Relation Parsing and Treebanking (DISRPT2019), Minneapolis, MN. - 2019. - pp. 82-87.
203. Chistova E. V., Shelmanov A. O., Kobozeva M. V., Pisarevskaya D. B., Smirnov I. V., Toldova S. Yu. Classification models for RST discourse parsing of texts in Russian // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2019". - 2019. - pp. 163-176.
204. Chawla N. V. et al. SMOTE: synthetic minority over-sampling technique //Journal of artificial intelligence research. - 2002. - V. 16. - pp. 321-357.
205. Duverle D. A., Prendinger H. A novel discourse parser based on support vector machine classification // Proceedings of the Joint Conference of the47th Annual
Meeting of the ACL and the 4th International Joint Conferenceon Natural Language Processing of the AFNLP. - 2009. - pp. 665-673.
206. Morey M., Muller P., Asher N. How much progress have we made on RST discourse parsing? A replication study of recent results on the RST-DT // Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. -2017. - pp. 1319-1324.
207. Ke G. et al. Lightgbm: A highly efficient gradient boosting decision tree // Proceedings of the Advances in Neural Information Processing Systems. - 2017. -pp. 3146-3154.
208. Dorogush A. V., Ershov V., Gulin A. CatBoost: gradient boosting with categorical features support // arXiv preprint arXiv:1810.11363. - 2018.
209. Breiman L. Classification and regression trees. - Routledge, 2017. - 368 p.
210. Toldova S. et al. Rhetorical relations markers in Russian RST Treebank // Proceedings of the 6th Workshop on Recent Advances in RST and Related Formalisms. - 2017. - pp. 29-33.
211. Chistova E., Shelmanov A., Pisarevskaya D., Kobozeva M., Isakov V., Panchenko A., Toldova S., Smirnov I. RST Discourse Parser for Russian: an Experimental Study of Deep Learning Models // International Conference on Analysis of Images, Social Networks and Texts. Lecture Notes in Computer Science. - 2021. - V. 12602. - pp. 105-119.
212. Straka M., Strakova J. Tokenizing, pos tagging, lemmatizing and parsing ud 2.0 with udpipe // Proceedings of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies. - 2017. - pp. 88-99.
213. Kibrik A. A. The problem of non-discreteness and spoken discourse structure // Компьютерная лингвистика и интеллектуальные технологии. Диалог-2015. -2015. - pp. 231-240.
214. Wang Z., Hamza W., Florian R. Bilateral multi-perspective matching for natural language sentences // Proceedings of the 26th International Joint Conference on Artificial Intelligence. - 2017. - pp. 4144-4150.
215. Liu X. Et al. On the Importance of Word and Sentence Representation Learning in Implicit Discourse Relation Classification // arXiv preprint arXiv:2004.12617. -2020.
216. Muller P., Braud C., Morey M. ToNy: Contextual embeddings for accurate multilingual discourse segmentation of full documents // Proceedings of the Workshop on Discourse Relation Parsing and Treebanking 2019. - 2019. - pp. 115124.
217. Смирнов И.В. Разноуровневая обработка естественного языка для интеллектуального поиска и анализа текстов // Искусственный интеллект и принятие решений. - 2023. - №1. - С. 90-99.
218. Baeza-Yates R. et al. Modern information retrieval. - New York : ACM press, 1999. - Т. 463. - №. 1999.
219. Маннинг К. Д., Рагхаван П., Шютце Х. Введение в информационный поиск. -М.: Вильямс, 2011. - 520 с.
220. Mangold C. A survey and classification of semantic search approaches // International Journal of Metadata, Semantics and Ontologies. - 2007. - V. 2. - №1.
- pp. 23-34.
221. Лукашевич Н. В. Тезаурусы в задачах информационного поиска - М. : Изд-во Московского ун-та, 2011. - 508 с.
222. Mironczuk M. M., Protasiewicz J. A recent overview of the state-of-the-art elements of text classification //Expert Systems with Applications. - 2018. - Т. 106.
- С. 36-54.
223. Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. New York, NY, USA: ACM, 1999. Pp. 50-57.
224. Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. - 2014. - Т. 455. - № 3. - с. 268-271.
225. Osipov G. S., Smirnov I.V., Tikhomirov I. A., Vybornova O.V, Zavjalova O. S. Linguistic Knowledge for Search Relevance Improvement // Proceedings of Joint
conference on knowledge-based software engineering JCKBSE'06. - 2006. - pp. 294302.
226. Gennady Osipov, Ivan Smirnov, Ilya Tikhomirov, Olga Zavjalova. Application of Linguistic Knowledge to Search Precision Improvement // Proceedings of 4th International IEEE conference on Intelligent Systems 2008. - 2008. - pp. 17-2 - 175.
227. Тихомиров И.А, Смирнов И.В. Интеграция лингвистических и статистических методов поиска в поисковой машине Exactus // Труды международной конференции Диалог-2008. - 2008. - С. 485-491.
228. Осипов Г.С., Тихомиров И.А., Смирнов И.В. Семантический поиск в сети Интернет средствами поисковой машины Exactus // Труды одиннадцатой национальной конференции по искусственному интеллекту с международным участием КИИ-2008. - 2008. Т. 3. - С. 323-328.
229. Robertson S. E. et al. Okapi at TREC-3 // Nist Special Publication Sp. - 1995. - V. 109. - pp. 109-126.
230. Соченков И. В. Реляционно-ситуационные структуры данных, методы и алгоритмы решения поисково-аналитических задач: диссертация на соискание степени кандидата физико-математических наук : 05.13.17 / Соченков Илья Владимирович; Место защиты: Вычисл. центр им. А.А. Дородницына РАН. -Москва, 2014. - 148с.
231. Смирнов И.В., Соченков И.В., Муравьев В.В., Тихомиров И. А. Результаты и перспективы поискового алгоритма Exactus // Труды российского семинара по оценке методов информационного поиска РОМИП'2007-2008. - 2008. - С. 6676.
232. Смирнов И.В., Соченков И.В., Тихомиров И. А. Система интеллектуального поиска и анализа информации Exactus на Ромип'2009 // Труды российского семинара по оценке методов информационного поиска РОМИП'2009. - 2009. -С. 41-52.
233. Киселев А.А., Смирнов И.В., Тихомиров И.А., Соченков И.В. Система интеллектуального поиска и анализа информации Exactus на Р0МИП-2010 // Труды российского семинара по оценке методов информационного поиска РОМИП'2010. - 2010. - С. 49-69.
234. Тихомиров И.А., Смирнов И.В. Применение методов лингвистической семантики и машинного обучения для повышения точности и полноты поиска в поисковой машине Exactus. // Труды международной конференции Диалог-2009. - 2009. - С. 483-487.
235. Агеев М., Кураленок И., Некрестьянов И. Официальные метрики РОМИП 2010 // Труды РОМИП. - 2010. - С. 172-187.
236. Igor Boguslavsky, Vyacheslav Dikonov, Leonid Iomdin et al. Semantic analysis and question answering: a system under development // Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference "Dialogue 2015". - 2015. - pp. 62-79.
237. Yao X., Van Durme B. Information extraction over structured data: Question answering with Freebase // Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. - 2014. - pp. 956-966.
238. Voorhees E. M. et al. The TREC-8 question answering track report // TREC. -1999. - Vol. 99. - pp. 77-82.
239. David Ferrucci, Eric Brown, Jennifer Chu-Carroll et al. Building Watson: An overview of the DeepQA project // AI magazine. - 2010. - Vol. 31. - №3. - pp. 5979.
240. Sharma Y., Gupta S. Deep learning approaches for question answering system // Procedia computer science. - 2018. - V. 132. - pp. 785-794.
241. Min Wu, Michelle Duan, Samira Shaikh et al. ILQUA-an IE-driven question answering system // TREC. - 2005.
242. Shen D., Klakow D. Exploring correlation of dependency relation paths for answer extraction // Proceedings of the 21st International Conference on Computational
Linguistics and the 44th annual meeting of the Association for Computational Linguistics / Association for Computational Linguistics. - 2006. - pp. 889-896.
243. Matching sets of parse trees for answering multi-sentence questions / Boris Galitsky, Dmitry Ilvovsky, Sergey Kuznetsov, Fedor Strok // Proceedings of Recent Advances in Natural Language Processing (RANLP 2013). - 2013. - pp. 285293.
244. Огарок А. Стокона на Р0МИП-2006 // Труды РОМИП'2006. - 2006. - С. 8691.
245. Некрестьянов И., Некрестьянова М. РОМИП'2006: отчет организаторов // Труды РОМИП'2006. - 2006. - С. 7-29.
246. Чистова Е. В., Ларионов Д. С., Шелманов А. О., Латыпова Е. А., Смирнов И. В. Открытое извлечение информации из текстов. Часть III. Система вопросно-ответного поиска // Искусственный интеллект и принятие решений. - 2021. -№4. - С. 35-49.
247. Шелманов А.О., Каменская М.А., Ананьева М.И., Смирнов И.В. Семантико-синтаксический анализ текстов в задачах вопросно-ответного поиска и извлечения определений // Искусственный интеллект и принятие решений. -2016. - №4. - C. 47-61.
248. Arvind Agarwal, Hema Raghavan, Karthik Subbian et al. Learning to rank for robust question answering // Proceedings of the 21st ACM international conference on Information and knowledge management. - 2012. - pp. 833-842.
249. Dang H. T., Kelly D., Lin J. J. Overview of the TREC 2007 question answering track // Proceedings of The Sixteenth Text REtrieval Conference, TREC 2007. -2007. - V. 7. - P. 63.
250. Voorhees E. M. et al. The TREC-8 question answering track report // TREC. -1999. - Vol. 99. - pp. 77-82.
251. Budzianowski P., Vulic I. Hello, it's GPT-2--how can I help you? towards the use of pretrained language models for task-oriented dialogue systems // arXiv preprint arXiv:1907.05774. - 2019.
252. Yi Tay, Anh Tuan Luu, Siu Cheung Hui, Jian Su. Densely connected attention propagation for reading comprehension // Advances in Neural Information Processing Systems. - 2018. - pp. 4906-4917.
253. Шелманов А.О., Исаков В.А., Станкевич М.А., Смирнов И.В. Открытое извлечение информации из текстов Часть I. Постановка задачи и обзор методов // Искусственный интеллект и принятие решений. - 2018. - №2. - С. 47-67.
254. Yan Xifeng, Yu Philip S, Han Jiawei. Graph indexing: a frequent structure-based approach // Proceedings of the 2004 ACM SIGMOD international conference on Management of data / ACM. - 2004. - pp. 335-346.
255. Erxleben F. et al. Introducing Wikidata to the linked data web // Proceedings of the International semantic web conference. - 2014. - pp. 50-65.
256. Alexander Yates, Michael Cafarella, Michele Banko et al. Textrunner: open information extraction on the web // Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations . - 2007. - pp. 25-26.
257. Wu F., Weld D. S. Open information extraction using wikipedia // Proceedings of the 48th annual meeting of the association for computational linguistics / Association for Computational Linguistics. - 2010. - pp. 118-127.
258. Fader A., Soderland S., Etzioni O. Identifying relations for open information extraction // Proceedings of the conference on empirical methods in natural language processing / Association for Computational Linguistics. - 2011. - pp. 1535-1545.
259. Oren Etzioni, Anthony Fader, Janara Christensen et al. Open information extraction: The second generation. // Proceedings of IJCAI. - Vol. 11. - 2011. -pp. 3-10.
260. Шелманов А.О., Девяткин Д.А., Исаков В.А., Смирнов И.В. Открытое извлечение информации из текстов. Часть II. Извлечение семантических отношений с помощью машинного обучения без учителя // Искусственный интеллект и принятие решений. - 2019. - №2. - С. 39-49.
261. Frantzi K., Ananiadou S., Mima H. Automatic recognition of multi-word terms:. the c-value/nc-value method // International journal on digital libraries. - 2000. -Vol. 3. - №2. - pp. 115-130.
262. Guo X. et al. Improved deep embedded clustering with local structure preservation // Proceedings of the 26th International Joint Conference on Artificial Intelligence. -2017. - pp. 1753-1759.
263. Xie Junyuan, Girshick Ross, Farhadi Ali. Unsupervised deep embedding for clustering analysis // International conference on machine learning. - 2016. - pp. 478487.
264. Kutuzov A., Kuzmenko E. Webvectors: a toolkit for building web interfaces for vector semantic models // International Conference on Analysis of Images, Social Networks and Texts - 2016. - pp. 155-161.
265. Titov I., Khoddam E. Unsupervised induction of semantic roles within a reconstruction-error minimization framework // Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. - 2015. - pp. 1-10.
266. Diefenbach D. et al. Question answering benchmarks for wikidata // ISWC 2017. - 2017.
267. Rosenberg Andrew, Hirschberg Julia. V-measure: A conditional entropy-based external cluster evaluation measure // Proceedings of the 2007 joint conference on empirical methods in natural language processing and computational natural language learning (EMNLP-CoNLL). - 2007. - pp. 410-420.
268. Vinh Nguyen Xuan, Epps Julien, Bailey James. Information theoretic measures for clusterings comparison: is a correction for chance necessary? // Proceedings of the 26th Annual International Conference on Machine Learning. ACM. - 2009. - pp. 1073-1080.
269. Joulin A. et al. Bag of Tricks for Efficient Text Classification // Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers. - 2017. - pp. 427-431.
270. Kemper Chris. Beginning Neo4J. - Berkely, CA, USA: Apress, 2015. - 153 p.
271. Gennady Osipov, Ivan Smirnov, Ilya Tikhomirov, Olga Vybornova. Technologies for Semantic Analysis of Scientific Publications // Proceedings of 2012 IEEE 6th International Conference Intelligent Systems. - 2012. - Vol. II. - pp. 58-62.
272. Gennady Osipov, Ivan Smirnov, Ilya Tikhomirov, Artem Shelmanov Relational-Situational Method for Intelligent Search and Analysis of Scientific Publications // Proceedings of the Integrating IR technologies for Professional Search Workshop. -2013. - pp. 57-64.
273. Osipov G., Smirnov I., Tikhomirov I., Sochenkov I., Shelmanov A., and Shvets A. Information Retrieval for R&D Support // Paltoglou, Georgios, Loizides, Fernando, Hansen, Preben (Eds.) Professional Search in the Modern World. - Lecture Notes in Computer Science (LNCS). - 2014. - Vol. 8830. - pp. 45-69.
274. Осипов Г.С., Смирнов И.В. Семантический анализ научных текстов и их больших массивов // Системы высокой доступности. - 2016. - №1. - С.41-44.
275. Кузнецова Ю.М., Осипов Г.С., Чудова Н.В., Швец А.В. Метод автоматического установления соответствия статей требованиям к научным публикациям // Решетневские чтения. - 2012. - Т. 2. - №. 16. - С. 489-490.
276. Day R. A. The Origins of the Scientific Paper: The IMRAD Format // American Medical Writers Association. - 1989. - Vol. 4. - № 2. - pp. 16-18.
277. Швец А.В. Взаимодействие информационных и лингвистических методов в задачах анализа качества научных текстов: диссертация на соискание степени кандидата технических наук: 05.13.17 - Москва, ИСА РАН, 2015. - 131 с.
278. Большакова Е. И., Носков А. А. Программные средства анализа текстов на основе лексико-синтаксических шаблонов языка LSPL // Программные системы и инструменты: Тематический сборник. - 2010. - № 11. - С. 61-73.
279. Ефремова Н.Э., Большакова Е.И., Носков А.А., В. Ю. Антонов. Терминологический анализ текста на основе лексико-синтаксических шаблонов // Труды международной конференции "Диалог 2010". - 2010. -Т. 9. - С. 124-129.
280. Большакова Е. И. Язык лексико-синтаксических шаблонов LSPL: опыт использования и пути развития // Программные системы и инструменты: Тематический сборник. - 2014. - №15. - С. 15-26.
281. Суворов Р.Е., Шелманов А.О., Каменская М.А., Смирнов И.В. Активное машинное обучение в задаче извлечения информации из научных текстов. // Искусственный интеллект и принятие решений. - 2017. - №4. - С. 40-52.
282. Suvorov R., Shelmanov A., Smirnov I. Active learning with adaptive density weighted sampling for information extraction from scientific papers //Artificial Intelligence and Natural Language: 6th Conference, AINL 2017, St. Petersburg, Russia, September 20-23, 2017, Revised Selected Papers 6. - Springer International Publishing, 2018. - pp. 77-90.
283. Белянин В.П. Психолингвистика. - М.: Флинта: Московский психолого-социальный институт, 2003. - 232 с.
284. Caplan J.E., Adams K., Boyd R.L. Personality and Language. // In B.J. Carducci, & C.S. Nave (eds.). The Wiley Encyclopedia of Personality and Individual Differences: Models and Theories. - 2020. - Vol. I. - pp. 311-316.
285. Ениколопов С.Н., Медведева Т.И., Воронцова О.Ю. Оценка текстов, написанных больными эндогенными психическими заболеваниями // Психиатрия. - 2019. - Т. 81 - № 1. - С. 56-64.
286. Микиртумов Б.Е., Завитаев П.Ю. Аутизм: история вопроса и современный взгляд. - Санкт-Петербург: Н-Л, 2012 - 143 с.
287. Карякина М.В., Сидорова М.Ю., Шмуклер А.Б. Нарушения речи у больных шизофренией // Социальная и клиническая психиатрия. - 2017. - Т.27. - №4. -С.93-100.
288. Moro A., Bambini V., Bosia M., Anselmetti S., Riccaboni R., Cappa S., Smeraldi E., Cavallaro R. Detecting syntactic and semantic anomalies in schizophrenia // Neuropsychologia. - 2015. - V. 79. - pp. 147-157.
289. Buck B., Penn D. L. Lexical characteristics of emotional narratives in schizophrenia: relationships with symptoms, functioning, and social cognition // The Journal of nervous and mental disease. - 2015. - V. 203. - №9. - P. 702.
290. Strous R. D. et al. Automated characterization and identification of schizophrenia in writing // The Journal of nervous and mental disease. - 2009. - V. 197. - №8. -pp. 585-588.
291. Al-Mosaiwi M., Johnstone T. In an absolute state: Elevated use of absolutist words is a marker specific to anxiety, depression, and suicidal ideation // Clinical Psychological Science. - 2018. - V. 6. - №4. - pp. 529-542.
292. Кибрик А.А. Рассказы о сновидениях: корпусное исследование устного русского дискурса. - Москва: Языки славянских культур, 2009. - 736 c.
293. Корабельникова Е., Вейн А., Голубев В., Крейнес М. Психолингвистическое исследование сновидений детей и подростков с невротическими расстройствами // Журнал неврологии и психиатрии. - 1999. - №1. - С. 18-21.
294. Rissola E. A., Losada D. E., Crestani F. A survey of computational methods for online mental state assessment on social media // ACM Transactions on Computing for Healthcare. - 2021. - V. 2. - №2. - pp. 1-31.
295. Zhang T. et al. Natural language processing applied to mental illness detection: a narrative review // NPJ digital medicine. - 2022. - V. 5. - №1. - P. 46.
296. Pennebaker J.W. Writing about emotional experiences as a therapeutic process // Psychological science. - 1997. - №8(3). - pp.162-166.
297. Pennebaker J.W., Boyd R.L., Jordan K., Blackburn K. The development and psychometric properties of LIWC2015. Austin, TX: University of Texas at Austin, 2015.
298. Пашковский В.Э., Пиотровская В.Р., Пиотровский Р.Г. Психиатрическая лингвистика. - Москва: URSS, 2009. - 168с.
299. Elvevag B., Fisher J., Gurd J., Goldberg T. Semantic clustering in verbal fluency: schizophrenic patients versus control participants // Psychological Medicine. - 2002. - №32(5). - pp.909-917.
300. Elvevag B., Foltz P.W., Weinberger D.R., Goldberg T.E. Quantifying incoherence in speech: an automated methodology and novel application to schizophrenia // Schizophrenia Research. - 2007. - №93(1-3). - pp. 304-16.
301. G. Bedi, F. Carrillo, G.A. Cecchi et al. Automated analysis of free speech predicts psychosis onset in high-risk youths // NPJ Schizophr. - 2015. - №1. - P. 15030.
302. Corcoran C. Novel approaches to psychosis risk: movement, stress modulation, reward and language // Schizophrenia Bulletin. - 2018. - №44. - Suppl 1. - P. S42-S42.
303. Bae Y.J., Shim M., Lee W.H. Schizophrenia Detection Using Machine Learning Approach from Social Media Content // Sensors. - 2021. - Vol. 21. - №17. - P. 5924.
304. Stajner S., Yenikent S. A survey of automatic personality detection from texts // Proceedings of the 28th International Conference on Computational Linguistics. -2020. - pp. 6284-6295.
305. Ahmad H., Asghar M. Z., Khan A. S., Habib A. A systematic literature review of personality trait classification from textual content // Open Computer Science. - 2020.
- V. 10. - №1. - pp. 175-193.
306. Ярушкина Н. Г., Мошкин В. С., Андреев И. А. Алгоритм психолингвистического анализа текстовых данных социальных сетей с применением модели «Большая пятёрка» // Онтология проектирования. - 2022.
- Т. 12. - №1(43). - С. 82-92.
307. Литвинова Т. А. Возможности компьютерной лингвистики в диагностировании личности по тексту // Вестник Воронежского государственного университета. Серия: Лингвистика и межкультурная коммуникация. - 2015. - № 3. - С. 37-41.
308. Calvo, R. A., Milne, D. N., Hussain, M. S., & Christensen, H. Natural language processing in mental health applications using non-clinical texts // Natural Language Engineering. - 2017. - V. 23. - №5. - pp. 649-685.
309. Pestian J.P., Matykiewicz P., Linn-Gust M., South B., Uzuner O., Wiebe J., Cohen K.B., Hurdle J., Brew C. Sentiment Analysis of Suicide Notes: A Shared Task // Biomedical informatics insights. - 2012. - V. 5. - P. BII. S9042.
310. Kayalvizhi S. et al. Findings of the Shared Task on Detecting Signs of Depression from Social Media // Proceedings of the Second Workshop on Language Technology for Equality, Diversity and Inclusion. - 2022. - pp. 331-338.
311. Coppersmith G., Dredze M., Harman C., Hollingshead K., Mitchell M. CLPsych 2015 shared task: Depression and PTSD on Twitter // Proceedings of the 2nd Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality. - 2015. - pp. 31-39.
312. Milne D.N., Pink G., Hachey B., Calvo R.A. Clpsych 2016 shared task: Triaging content in online peer-support forums // Proceedings of the Third Workshop on Computational Lingusitics and Clinical Psychology. - 2016. - pp. 118-127.
313. De Choudhury M. et al. Predicting depression via social media // ICWSM. - 2013. - V. 13. - pp. 1-10.
314. Zhang T. et al. Natural language processing applied to mental illness detection: a narrative review // NPJ digital medicine. - 2022. - V. 5. - №1. - pp. 46.
315. Ениколопов С. Н., Кузнецова Ю. М., Осипов Г. С., Смирнов И. В., Чудова Н. В. Метод реляционно-ситуационного анализа текста в психологических исследованиях // Психология. Журнал Высшей школы экономики. - 2021. - Т. 18. - №4. - С. 748-769.
316. Olga Vybornova, Ivan Smirnov, Ilya Sochenkov, Alexander Kiselyov, Ilya Tikhomirov, Natalya Chudova, Yulia Kuznetsova and Gennady Osipov. Social Tension Detection and Intention Recognition Using Natural Language Semantic Analysis (on the material of Russian-speaking social networks and web forums) // Proceedings of the European Intelligence and Security Informatics Conference (EISIC). - 2011. - pp. 277-281.
317. Григорьев О.Г., Кузнецова Ю.М., Никитина Е.Н., Станкевич М.А., Чудова Н.В. Каузативно-эмотивный анализ. Часть II. Исследование реакции зрителей
YouTube-каналов на пропаганду // Психологический журнал. - 2022. - Т. 43. -№ 4. - С. 90-98.
318. Ениколопов С.Н., Кузнецова Ю.М., Минин А.Н., Пенкина М.Ю., Смирнов И.В., Станкевич М.А., Чудова Н.В. Особенности текста и психологические особенности: опыт эмпирического компьютерного исследования // Труды ИСА РАН. - 2019. - Т. 69. - №3. - С. 91-99.
319. Воронцова О.Ю., Ениколопов С.Н., Кузнецова Ю.М., Любавская А.А., Медведева Т.И., Минин А.Н., Пенкина М.Ю., Станкевич М.А., Смирнов И.В., Чудова Н.В. Лингвистические характеристики текстов психически больных и здоровых людей // Психологические исследования. - 2018. - Т. 11. - № 61. -С.1.
320. Stankevich M., Smirnov I., Kuznetsova Y., Kiselnikova N., Enikolopov S. Predicting Depression from Essays in Russian // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2019". - 2019. - pp. 637-647.
321. Smirnov I.V., Ushakova A.V., Chudova N.V. Method for Detecting Text Markers of Depression and Depressiveness // In: Kuznetsov S.O., Panov A.I., Yakovlev K.S. (eds) Artificial Intelligence. RCAI 2020. Lecture Notes in Computer Science. - 2020. - V. 12412. - pp. 325-337.
322. Panov A.I. Extraction of cause-effect relationships from psychological test data using logical methods // Scientific and Technical Information Processing. - 2014. -V. 41. - №5. - pp. 275.
323. Ковалёв А.К., Кузнецова Ю.М., Минин А.Н., Пенкина М.Ю., Смирнов И.В., Станкевич М.А., Чудова Н.В. Методы выявления по тексту психологических характеристик автора (на примере агрессивности) // Вопросы кибербезопасности. - 2019. - №4. - С. 72-79.
324. Ениколопов С. Н., Ковалев А. К., Кузнецова Ю. М., Старостина Е. Н., Чудова Н. В. Признаки, характерные для письменных текстов, написанных в состоянии
фрустрации // Вестник Московского университета. Серия 14. Психология. -2019. - №3. - С.66-85.
325. Beck A.T., Steer R.A., Brown G. Beck depression inventory-II // Psychological assessment. - 1996.
326. Costa P. T., McCrae R. R. Normal personality assessment in clinical practice: The NEO Personality Inventory // Psychological assessment. - 1992. - V. 4. - №1. - pp. 5-13.
327. Stankevich M., Latyshev A., Kuminskaya E., Smirnov I., Grigoriev O. Depression Detection from Social Media Texts // Data Analytics and Management in Data Intensive Domains: XXI International Conference DAHDID/RCDL'2019: Conference Proceedings. - 2019. - pp. 352-362.
328. Stankevich M., Isakov V., Devyatkin D. and Smirnov I.). Feature Engineering for Depression Detection in Social Media // Proceedings of the 7th International Conference on Pattern Recognition Applications and Methods. - 2018. - pp. 426-431.
329. Stankevich M., Smirnov I., Kiselnikova N., & Ushakova A. Depression Detection from Social Media Profiles // Communications in Computer and Information Science. - 2020. - V. 1223. - pp. 181-194.
330. Ignatiev N., Smirnov I. and Stankevich M. Predicting Depression with Text, Image, and Profile Data from Social Media // Proceedings of the 11th International Conference on Pattern Recognition Applications and Methods (ICPRAM 2022). -2022. - pp. 753-760.
331. Станкевич М.А., Игнатьев Н.А., Смирнов И.В., Кисельникова Н.В. Выявление личностных черт у пользователей социальной сети Вконтакте // Вопросы кибербезопасности. - 2019. - №4. - С. 80-87.
332. Stankevich M., Latyshev A., Kiselnikova N., Smirnov I. Predicting Personality Traits from Social Network Profiles // Communications in Computer and Information Science. - 2019. - V. 1093. - рр. 177-188.
333. Kosinski M., Stillwell D., Graepel T. Private traits and attributes are predictable from digital records of human behavior // Proceedings of the National Academy of Sciences. - 2013. - V. 110. - №15. - pp. 5802-5805.
334. Ананьева М.И., Девяткин Д.А., Зубарев Д.В., Осипов Г.С., Смирнов И.В., Соченков И.В., Тихомиров И.А., Швец А.В., Шелманов А.О. TextAppliance: поиск и анализ больших массивов текстов // Труды 15й национальной конференции по искусственному интеллекту с международным участием КИИ2016. - 2016. - T.3 - C. 220-228.
335. Тихомиров И.А., Смирнов И.В., Соченков И.В., Девяткин Д.А., Шелманов А.О., Зубарев Д.В., Швец А.В., Лешкин А.В., Суворов Р.Е. Exactus Expert: Поисково-аналитическая система поддержки научно-технической деятельности // Труды тринадцатой национальной конференции по искусственному интеллекту с международным участием КИИ-2012. - 2012. - Т. 4. - С. 100-108.
336. Osipov, G., Smirnov, I., Tikhomirov, I., Sochenkov, I., & Shelmanov, A. Exactus Expert - Search and Analytical Engine for Research and Development Support. // Novel Applications of Intelligent Systems. - 2016. - pp. 269-285.
337. Sochenkov Ilya, Denis Zubarev, Ilya Tikhomirov, Ivan Smirnov, Artem Shelmanov, Roman Suvorov and Gennady Osipov. Exactus Like: Plagiarism Detection in Scientific Texts // Advances in Information Retrieval: 38th European Conference on IR Research, ECIR 2016. - Springer International Publishing, 2016. -pp. 837-840.
338. Девяткин Д.А., Смирнов И.В., Соченков И.В., Тихомиров И.А. Современные методы компьютерной лингвистики для патентного поиска и анализа информации // Интеллектуальная собственность. Промышленная собственность. Специальный выпуск. -2016 - С.71-77.
339. Ениколопов С.Н., Кузнецова Ю.М., Смирнов И.В., Станкевич М.А., Чудова Н.В. Создание инструмента автоматического анализа текста в интересах социо-гуманитарных исследований. Часть 1. Методические и методологические
аспекты // Искусственный интеллект и принятие решений. - 2019. - №2. - С. 28-38.
340. Heiden S. The TXM platform: Building open-source textual analysis software compatible with the TEI encoding scheme // Proceedings of 24th Pacific Asia conference on language, information and computation. - 2010. - С. 389-398.
341. Kilgarriff A. et al. The Sketch Engine: ten years on // Lexicography. - 2014. - V. 1. - №1. - pp. 7-36.
342. Evert S., Hardie A. Twenty-first century corpus workbench: Updating a query architecture for the new millennium. - 2011.
343. Кузнецова Ю.М., Смирнов И.В., Станкевич М.А., Чудова Н.В. Создание инструмента автоматического анализа текста в интересах социо-гуманитарных исследований. Часть 2. Машина РСА и опыт ее использования // Искусственный интеллект и принятие решений. - 2019. - №3. - С. 40-51.
344. Воронин, А. Н., Кубрак, Т. А., Смирнов, И. В., & Станкевич, М. А. Оценка субъектности сетевого сообщества по показателям автоматического реляционно-ситуационного анализа его контента //Вестник Московского государственного областного университета. - 2020. - №. 3. - С.134-153.
345. Воронин А. Н., Чвилева О. В., Смирнов И. В., Станкевич М. А.. Модификация психотерапевтического дискурса в условиях онлайн консультирования (на примере психодинамического подхода) // Психологический журнал. - 2022. -Т.43. - №6. - С. 51-65.
346. Смирнов И.В. Программные средства психоэмоционального анализа текстов // Информационные технологии и вычислительные системы. - 2023. - №1. -С.27-38.
347. Smirnov I., Stankevich M., Kuznetsova Y., Suvorova M., Larionov D., Nikitina E., Savelov M., Grigoriev O. TITANIS: A Tool for Intelligent Text Analysis in Social Media // In: Kovalev S.M., Kuznetsov S.O., Panov A.I. (eds) Artificial Intelligence. RCAI 2021. Lecture Notes in Computer Science. - 2021. - V. 12948. - pp 232-247.
348. Devyatkin Dmitry A., Natalia V. Chudova, Anfisa A. Chuganskaya and Daria Sharypina. Methods for Recognition of Frustration-Derived Reactions on Social Media // In: Kovalev S.M., Kuznetsov S.O., Panov A.I. (eds) Artificial Intelligence. RCAI 2021. Lecture Notes in Computer Science. - 2021. - V. 12948. - pp. 17-30.
349. V. N. Krufko, A. M. Bolshakov, V. I. Dontsov, O.A. Mamikonova, A. M. Markova, A. I. Molodchenkov, N.S. Potemkina, I.V. Smirnov. (2018) Intelligent Internet Technology for Personalized Health-Saving Support. In: Hu Z., Petoukhov S., He M. (eds) Advances in Artificial Systems for Medicine and Education. AIMEE 2017. Advances in Intelligent Systems and Computing, vol 658. Springer, Cham, pp 157-165
350. Kobrinskii B.A., Grigoriev O.G., Molodchenkov A.I., Smirnov I.V., Blagosklonov N.A. Artificial Intelligence Technologies Application for Personal Health Management // TECIS 2019: 19th IFAC Conference on Technology, Culture and International Stability. IFAC-PapersOnLine. 2019. Vol. 52. No. 25. P. 70-74.
ПРИЛОЖЕНИЕ А. РЕЗУЛЬТАТЫ ИНТЕЛЛЕКТУАЛЬНОМ
ДЕЯТЕЛЬНОСТИ
СВИДЕТЕЛЬСТВО
о государственной регистрации программы для ЭВМ
№ 2017662422
Программа для выявления депрессии у пользователей социальных сетей на основе лингвистического анализа их текстовых сообщений
Правообладатель: Федеральное государственное учреждение «Федеральный исследовательский центр "Информатика и управление" Российской академии наук» (RU)
Авторы: Станкевич Максим Алексеевич (КС), Исаков Вади.п Алексеевич (RIJ), Девяткин Дмитрии Алексеевич (RLJ), Смирнов Иван В(иентинович (RV)
Заявка № 2017619282
Дата поступления 15 ССН ГЯбри 2017 Г.
Дата государе тенной per ис грации в Реестре программ для ЭВМ 07 ноября 2017 г.
Руководитель Федеральной службы по интеллектуальной собственности
_ ГП Иалиев
ПРИЛОЖЕНИЕ Б. АКТЫ ОБ ИСПОЛЬЗОВАНИИ
об использовании результатов диссертационной работы Смирнова Ивана Валентиновича «Методы разноуровневого анализа
текстов на естественном языке и их приложения в системах информационного поиска и психолингвистических исследованиях», представленной на соискание ученой степени доктора технических наук
Настоящим актом подтверждаем, что результаты, полученные Смирновым Иваном Валентиновичем в диссертационной работе на тему «Методы разноуровневого анализа текстов на естественном языке и их приложения в системах информационного поиска и психолингвистических исследованиях», были использованы Обществом с ограниченной ответственностью «Технологии системного анализа» (ООО «ТСА») при разработке программы для ЭВМ «Интеллектуальный поиск и анализ больших массивов текстов» на основе которой в ООО «ТСА» создан программно-аппаратный комплекс (далее-ПАК) под товарным знаком Тех1АррНапсе.
Разработанные в диссертации методы семантического анализа текстов на русском языке, а именно методы реляционно-ситуационного и семантико-семантического анализа, применяются для извлечения из текстов семантической структуры, используемой для семантической индексации текстов. Разработанные в диссертации методы семантического и вопросно-ответного поиска позволяют выполнять ранжирование результатов поиска с учетом семантики текстов запроса и документов. Использование указанных методов повышает качество информационного поиска и анализа текстовой информации. Разработанные в диссертации методы семантического анализа текстов применяются также для выполнения эксплоративного поиска и поиска заимствований.
Программа интеллектуального поиска и анализа больших массивов текстов и ПАК Тех1АррПапсе, разработанные на основе результатов диссертационного исследования И.В. Смирнова, использованы при создании нескольких поисково-аналитических систем по заказу коммерческих и отраслевых организаций, включая ФГБУ «Национальный исследовательский центр Институт имени Н.Е. Жуковского», ФГБУ «Научно-технический институт межотраслевой информации», ФГБУ «Дирекция научно-технических программ», ФГБУ «Российский центр научной информации» (бывший РФФИ), ООО "Научно-издательский Центр ИНФА-М", ООО «ЗНАНИУМ».
ОБЩЕСТВО С ОГРАНИЧЕННОМ ОТВЕТСТВЕННОСТЬЮ
ТЕХНОЛОГИИ СИСТЕМНОГО АНАЛИЗА
117312, Москва, проспект 60-летия Октября, дом 9 Телефон/Факс: (499)135-43-34/(499)135-04-63 www.tesyan.ru
на №
от
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.