Метод классификации коротких текстов для решения задач управления в организационных системах тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Груздева Анастасия Сергеевна

  • Груздева Анастасия Сергеевна
  • кандидат науккандидат наук
  • 2024, ФГАОУ ВО «Национальный исследовательский университет ИТМО»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 199
Груздева Анастасия Сергеевна. Метод классификации коротких текстов для решения задач управления в организационных системах: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Национальный исследовательский университет ИТМО». 2024. 199 с.

Оглавление диссертации кандидат наук Груздева Анастасия Сергеевна

Реферат

Synopsis

Введение

Глава 1 Анализ текстовых данных в управлении организационными системами в цифровую эпоху

1.1 Особенности управления организационными системами в цифровую эпоху

1.2 Источники текстовых данных для принятия управленческих решений

1.3 Управленческие задачи, для которых актуален анализ текстовых данных

1.4 Направления анализа текста

1.5 Методы классификации текстовых данных

1.6 Программные инструменты для анализа текстовых данных

1.7 Выводы и постановка задачи диссертационного исследования

Глава 2 Эвристическая модель представления текстов

2.1 Представление текста в виде ансамбля элементарных частиц

2.2 Взаимосвязь эвристической модели с векторными языковыми моделями. Интерпретация параметров модели

2.3 Расчет вероятности принадлежности текста классу

2.4 Взаимодействие семантики слов в эвристической модели и решение проблемы антонимов

2.5 Выводы по главе

Глава 3 Алгоритм классификации текстов на базе волновой интерпретации

3.1 Общее описание алгоритма классификации текстов

3.2 Описание отдельных функций алгоритма

3.2.1 Алгоритм лемматизации текста

3.2.2 Алгоритм свертки массива слов с расчетом количества вхождений

3.2.3 Алгоритм расчета волновых чисел

3.2.4 Алгоритм расчета расстояний от слов текста до термина, определяющего класс

3.2.5 Алгоритм расчета амплитуды вероятности принадлежности текста классу

3.2.6 Алгоритм ранжирования классов

3.3 Экспериментальное исследование алгоритма классификации текстов

3.3.1 Классификация текстов по тематикам

3.3.2 Классификация терминов по наборам ассоциаций

3.3.3 Сентимент анализ

3.3.4 Определение настроения текста

3.3.5 Сводные данные о результатах экспериментов

3.4 Результаты внедрения разработанного метода

3.4.1 Описание результатов внедрения

3.4.2 Обоснование тиражируемости разработанного алгоритма

3.5 Выводы по главе

Глава 4 Снижение временных затрат в алгоритмах на базе волновой интерпретации текста

4.1 Элементы алгоритма, подлежащие оптимизации

4.2 Применение параллельных вычислений

4.3 Оптимизация вычисления косинуса

4.4 Снижение сложности алгоритма в результате оптимизации

4.5 Выводы по главе

Заключение

Список литературы

Приложения

Приложение 1 Набор экспериментальных данных для классификации текстов по

тематикам

Приложение 2 Набор экспериментальных данных для классификации терминов по

наборам ассоциаций

Приложение 3 Набор экспериментальных данных для сентимент анализа

Приложение 4 Набор экспериментальных данных для определения настроения

Приложение 5 Акт о внедрении результатов исследования

Приложение 6 Публикации автора по теме диссертации

Реферат

Актуальность темы диссертации. Задача автоматического анализа и классификации текстовой информации принадлежит разделу «Технологии обработки естественного языка», включенному в «Перечень приоритетных технологий» и указанному в «Дорожной карте развития «сквозной» цифровой технологии «Нейротехнолонии и искусственный интеллект» Национальной программы «Цифровая экономика Российской Федерации». Также рассматриваемая задача соотносится с п. 25 «Технологии искусственного интеллекта в отраслях экономики, социальной сферы (включая сферу общественной безопасности), а также в органах публичной власти» обновленного «Перечня важнейших наукоемких технологий» (Указ Президента РФ № 529 от 18.06.2024). Тематика классификации текстов развивается на протяжении многих лет и располагает обширным инструментарием. Методы, основанные на правилах и семантических тезаурусах (М.В. Клековкина, Е.В. Котельников, А.Г. Пазельская, С. Аман) не получили широкого распространения, т. к. они требуют скрупулезного труда экспертов и практически не поддаются масштабированию. Латентный семантический анализ, базирующийся на отображении слов и документов в семантическое пространство (Т. Ландауэр, П. Фольц, С. Дюмей, Д.В. Бондарчук, Т. Хоффман и другие) эффективен для сравнения терминов и документов и обнаружения возможных зависимостей, однако для классификации он требует тематического обучения, что затрудняет его свободное применение и масштабирование. Активно используются дистрибутивно-семантические модели, базирующиеся на векторном представлении слов (Т. Миколов, А. Б. Кутузов, М. Барони, И. Бенджио, Л. Lenci...). Для анализа текстов в таких моделях используется понятие семантической близости (косинусное расстояние между векторами), что делает их достаточно удобными для использования в универсальных алгоритмах классификации. Теоретико-графовые методы (Ю.А. Целых, Н.И.

Москин, И.Л. Меньшиков...) применяются для определения тематики текстов, реферирования, информационного поиска, сентимент анализа. Широко распространено применение методов машинного обучения (И. Бенджио, Б. Панг, Т.В. Батура...). В последние десятилетия большое внимание уделяется квантово-подобным (эвристическим) алгоритмам (А.Ю. Хренников, М. Мелуччи, З. Тоффано, И.А. Бессмертный, А.П. Алоджанц, А.В. Платонов, W. Blacoe, G. Zuccon), которые позволяют снизить размерность данных или повысить точность расчетов. В конце второго десятилетия XXI века стали развиваться большие языковые модели, обученные на огромных выборках неразмеченных текстов и предназначенные для решения широкого спектра задач (J. Devlin, E Kasneci, J Hoffmann, M Chen, J. Wei).

Несмотря на успехи, достигнутые в данной области, большинство методов классификации текстов обладает рядом ограничений. Они, как правило, не универсальны, нуждаются в обучении вычислительных моделей для решения конкретных задач, требуют высокой квалификации команды разработчиков, обработки огромных массивов данных и, следовательно, значительных вычислительных ресурсов. Перечисленные ограничения затрудняют их широкое применение во многих организационных системах, таких, как, например, организации малого и среднего бизнеса и местные органы государственного управления. Таким образом, разработка новых методов и алгоритмов — простых в реализации, универсальных, не-ресурсоемких, не требующих специального обучения модели, не требующих в разработке и использовании больших затрат времени и материальных ресурсов — является актуальной практической задачей и может значительно расширить возможности применения анализа текстов и сделать его доступным для широкого круга организационных систем. Отсутствие серийных (тиражируемых) программных продуктов в данной области существенно ограничивает возможности использования технологий обработки естественного языка в принятии управленческих решений. Разработанное в рамках диссертационного

исследования программное решение будет тиражируемым, т. е. распространяемым на другие предметные области без существенной переработки.

Целью работы является обеспечение тиражируемости алгоритмов для поддержки принятия решений в организационных системах на основе анализа коротких текстов. Для достижения цели были поставлены следующие задачи:

- исследование существующих методов анализа текстовой информации;

- формирование перечня требований к разрабатываемому методу классификации текста;

- разработка математической модели представления текста, позволяющей реализовать классификацию текстов по прямым и косвенным признакам с учетом сформулированных требований;

- разработка алгоритма классификации текстов, реализующего данную математическую модель;

- проведение экспериментального исследования разработанного метода и оценка его эффективности для решения различных задач анализа текстовой информации;

- разработка и внедрение программного обеспечения на базе предложенного метода.

Теоретическая значимость состоит в разработке эвристической волновой модели представления текстовой информации, учитывающей вклад интерференции семантик отдельных слов в общий смысл текста и позволяющей выполнять его классификацию по прямым и косвенным признакам.

Практическая значимость состоит в разработке вычислительных алгоритмов, которые могут использоваться для анализа коротких текстов в целях поддержки принятия решений в задачах управления персоналом, контроля качества продукции, управления маркетинговыми мероприятиями и продажами, управлении взаимоотношениями с конкурентами и партнерами; а также в разработке тиражируемого прототипа программного комплекса на базе

платформы «1С Предприятие 8», обеспечивающего классификацию текстов для поддержки принятия управленческих решений. Программный прототип был внедрен в ООО «Термопрофи». Использование разработанной программы позволило получить структурированный анализ оценки товаров покупателями, скорректировать ассортимент, а также сделать описание товара на интернет-площадках более понятными и прозрачными для покупателей, что должно снизить количество возвратов, отказов и негативных реакций клиентов.

Личный вклад соискателя. Эвристическая волновая модель представления текста, алгоритм классификации текстов на базе волновой модели, а также значительная часть экспериментального исследования (классификации текстов по тематикам, определение настроения текста, классификация терминов по наборам ассоциаций) выполнены соискателем самостоятельно. Постановка задач и поиск применений алгоритма для проблем поддержки принятия решений в организационных системах выполнены совместно с научным руководителем, Бессмертным И.А. Исследование особенностей современного управления, метрик качества текстов, экспериментальное исследование волновой модели в сентимент анализе и разработка методов снижения временных затрат предложенного алгоритма выполнены в соавторстве с Юрьевым Р.Н., который занимался разработкой части алгоритма, касающейся параллельных вычислений, принимал участие в сборе и подготовке набора данных для сентимент анализа и выполнил значительную часть исследования современного управления и метрик текстов.

Методология и методы исследования. В работе использованы методы квантовой теории вероятностей и колмогоровской теории вероятностей, математический аппарат квантовой механики, векторное представление слов, методы снижения временных затрат алгоритмов, в том числе параллельные вычисления. Экспериментальное исследование проводилось частично на языке Python с использованием библиотеки rulemma, частично в среде 1С Предприятие.

Положения, выносимые на защиту, обладающие научной новизной:

1. Эвристическая волновая модель представления коротких текстов,

отличающаяся использованием квантового формализма теории вероятностей, и обеспечивающая учет взаимного влияния семантики терминов как интерференции их квантовоподобных состояний (волновых функций).

2. Многофункциональный алгоритм классификации коротких текстов,

отличающийся использованием волновой интерпретации текста, обеспечивающий классификацию текстов с использованием предобученной универсальной языковой модели без необходимости дополнительного обучения для решения конкретных задач классификации.

3. Тиражируемый прототип программного комплекса на базе платформы «1С Предприятие 8», обеспечивающий классификацию текстов для поддержки принятия управленческих решений в соответствии с заданными требованиями.

Внедрение результатов работы.

Результаты исследований использованы при проведении НИР «Метакогнитивные технологии системного искусственного интеллекта» в рамках гос.задания № 2019-1339 Министерства науки и высшего образования РФ.

Разработанный программный комплекс был внедрен в ООО «Термопрофи», где он используется в целях поддержки принятия управленческих решений в области контроля качества товаров, планирования продаж и маркетинговых мероприятий.

Апробация работы. Основные результаты исследования были представлены на следующих российских и международных конференциях:

• Пятидесятая научная и учебно-методическая конференция Университета ИТМО (Санкт-Петербург, 1-4 февраля 2021 г.)

• X Конгресс молодых ученых (Санкт-Петербург, 14-17 апреля 2021 г.)

• The XIII Majorov International Conference on Software Engineering and Computer Systems (Санкт-Петербург, 2-3 декабря 2021 г.)

• Пятьдесят первая научная и учебно-методическая конференция Университета ИТМО (Санкт-Петербург, 2-5 февраля 2022 г.)

• XI Конгресс молодых ученых (Санкт-Петербург, 4-8 апреля 2022 г.)

• Пятьдесят вторая научная и учебно-методическая конференция Университета ИТМО (Санкт-Петербург, 31 января-3 февраля 2023 г.)

• XII Конгресс молодых ученых (Санкт-Петербург, 3-5 апреля 2023 г.)

• XXVIII Байкальская Всероссийская конференция с международным участием "Информационные и математические технологии в науке и управлении" (Байкал, 29 июня-08 июля 2023 г.).

• Пятьдесят третья научная и учебно-методическая конференция Университета ИТМО (Санкт-Петербург, 29 января-2 февраля 2024 г.)

• XIII Конгресс молодых ученых (Санкт-Петербург, 8-11 апреля 2024 г.)

• 17-я Международная конференция «Управление развитием крупномасштабных систем» (Москва, 24-26 сентября 2024 г.)

Достоверность научных достижений. Степень достоверности научных достижений подтверждается корректным использованием методов, обоснованием постановки задач, экспериментальными исследованиями на реальных массивах данных, покрывающими разработанные методы и алгоритмы.

Список публикаций по теме диссертации:

Научные издания, входящие в международные реферативные базы данных и системы цитирования:

1. Груздева А.С., Бессмертный И.А. «Классификация коротких текстов с использованием волновой модели». Научно-технический вестник информационных технологий, механики и оптики. 2022. Т. 22, № 2 С. 287-293. doi: 10.17586/2226-1494-2022-22-2-287-293

2. Груздева А.С., Юрьев Р.Н, Бессмертный И.А. «Применение волновой модели текста к задаче сентимент-анализа». Научно-технический вестник

информационных технологий, механики и оптики - 2022. - Т. 22. - № 6(142). - С. 1159-1165 Научные издания, входящие в перечень российских рецензируемых журналов:

1. Юрьев Р.Н., Бессмертный И.А., Груздева А.С. «Информационные и правовые аспекты управления бизнес-процессами в цифровой экономике» // Экономика. Право. Инновации - 2023. - № 1. - С

2. Юрьев Р. Н., Бессмертный И. А., Груздева А. С. Метрики качества юридических текстов // Экономика. Право. Инновации. 2024. № 2. С. 8193. http://dx.doi.org/10.17586/2713-1874-2024-2-81-93.

3. Груздева А.С., «Использование уравнений волновой механики для классификации в психологии личности», Сборник трудов Конгресса молодых ученых (2021), т.1, с

4. Груздева А.С. «Перспективы использования волновой модели представления текста для моделирования характеристик личности автора » // Альманах трудов молодых ученых Университета ИТМО - 2022. Т. 3, ч.1, С

Структура и объем диссертации. Диссертационная работа состоит из введения, четырех глав, заключения и списка литературы, включающего 65 наименований. Работа изложена на 140 страницах машинописного текста, содержит 14 рисунков и 9 таблиц.

Соответствие паспорту специальности 2.3.4 (в порядке степени соответствия)

5. Разработка методов получения данных и идентификации моделей, прогнозирования и управления организационными системами на основе ретроспективной, текущей и экспертной информации.

9. Разработка методов и алгоритмов интеллектуальной поддержки принятия управленческих решений в организационных системах.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ Первая глава посвящена описанию особенностей организационного управления в цифровую эпоху, современных методов классификации текстов, а также определению цели и постановке задач исследования.

Управление организационными системами в современном мире значительно отличается от менеджмента до-цифровой эпохи. Практически неограниченная территория охвата, преобладание цифровых коммуникаций, удаленный стиль работы, доступность и быстрое распространение информации, и, как следствие, очень высокий уровень конкуренции диктуют новые правила в правовой и экономической сферах, в маркетинге и управлении. В наше время эффективная организационная система обязана максимально оперативно реагировать на изменения в окружающей среде и внутри нее самой. А значит, любой организации требуется качественный и оперативный анализ всей доступной информации.

Все организационные системы, такие как коммерческие и некоммерческие организации, банки, органы государственного управления, образовательные учреждения и прочие, окружены огромным количеством текстовой информации. Источниками такой информации являются корпоративные чаты, официальная переписка, страницы сотрудников, партнеров и конкурентов в социальных сетях, резюме претендентов на вакансии, записи собеседований, записи переговоров, отзывы о продукции, услугах и событиях и многое другое. Многоуровневый анализ данной информации поможет лучше ориентироваться в обстановке во внутренней и внешней среде организационной системы и позволит принимать более эффективные управленческие решения. Тем не менее практическое применение анализа текстовой информации развито очень слабо и его использует крайне малое количество организаций. Более-менее широкого распространения в данной области достигает только анализ отзывов покупателей о товарах. В таблице 1 представлены примеры управленческих задач, в решении которых

анализ текстовых данных может оказать существенную поддержку. В реальности спектр таких задач гораздо шире, а набор конкретных направлений анализа варьируется в зависимости от сложности и сферы интересов организационной системы.

Таблица 1. Примеры задач управления, в которых может использоваться анализ

текстовых данных.

Источник данных Подразделение Задача

Отзывы покупателей о Управление запасами Оптимизация ассортимента

товарах организации Управление продажами Контроль качества Повышение конкурентоспособности продукции

Отзывы покупателей о Управление продажами Оптимизация маркетинговых

товарах и услугах Маркетинг мероприятий

конкурентов Новые направления продаж

Отзывы об услугах Управление персоналом Планирование обучения

организации сотрудников Оптимизация расчета вознаграждения

Корпоративный чат Управление персоналом Контроль эмоционального фона и психологического климата в организации

Записи переговоров Руководство организации Анализ отношения участников к предмету переговоров Планирование дальнейшего хода переговоров

Анализ текста может вестись по двум направлениям: оценка его качества (орфография, грамматика, связность и т. д.) и оценка содержимого (тематика, эмоциональная тональность, настроение, ряд ассоциаций и прочее). В обоих случаях это трудная задача потому, что для текстов нет того богатого математического аппарата, который используется для анализа численных данных, не определены операции сравнения, нет строгих критериев, по которым могла бы производиться классификация. Ситуация осложняется необходимостью использования специализированных словарей, а также отдельных критериев и метрик в различных профессиональных областях.

Например, словосочетание «дипломатический иммунитет» бессмысленно в медицине, но значимо с точки зрения юриспруденции.

Методы анализа текстов достаточно хорошо развиты. Они включают такие направления, как правила и семантические тезаурусы, теоретико-графовые модели, латентный семантический анализ, векторные модели, машинное обучение и методы квантовой теории вероятностей. В последнее время наиболее активно развиваются последние два направления из перечисленных.

Несмотря на успехи, достигнутые в области анализа текстов, большинство методов классификации текстов обладает рядом ограничений. Они, как правило, не универсальны, нуждаются в обучении вычислительных моделей для решения конкретных задач, требуют высокой квалификации команды разработчиков, обработки огромных массивов данных и, следовательно, значительных вычислительных ресурсов. Перечисленные ограничения затрудняют их широкое применение во многих организационных системах, таких, как, например, организации малого и среднего бизнеса и местные органы государственного управления.

Рассмотрим примеры программных инструментов, которые могут быть использованы для анализа текстов. Их можно разделить на две группы.

Первую составляют многофункциональные платные облачные сервисы, такие, как Google cloud NLP, Amazon Comprehend, MonkeyLearn. Это действительно сильные сервисы, обладающие богатым функционалом и позволяющие решать широкий спектр задач в области обработки естественного языка. Несмотря на многочисленные достоинства, они обладают и рядом существенных недостатков. Ценообразование в таких сервисах основано, как правило, на стоимости обработки единицы информации, что затрудняет планирование затрат на их использование. Многие руководители предприятий не доверяют облачным решениям, опасаясь как искажения, так и утечки

информации. А для многих государственных структур действует запрет на пользование облачными сервисами, особенно иностранными.

Более того, современный бизнес проявляет растущий интерес к разработке собственных программных решений (своими силами или на заказ), а не к использованию стандартных. В современных условиях конкуренции и информационной доступности успеха добиваются в первую очередь те компании, которые обладают уникальными особенностями, маленькими ноу-хау, которые необходимо принимать во внимание при разработке учетных и аналитических программных систем.

Вторая группа — языковые модели и библиотеки, которые можно использовать для разработки собственного программного обеспечения. Это такие решения, как Dostoevsky, BERT, NLTK, Natasha и другие. Они не всегда универсальны, часто требуют специального обучения модели и не просты в использовании. Чтобы эффективно использовать такие решения требуется высокая квалификация команды разработчиков и обработка больших массивов данных для обучения, что приводит к высоким финансовым затратам на разработку собственных программ.

Таким образом, можно сформулировать одну из проблем современного организационного управления. С одной стороны, качественный и оперативный анализ доступных данных, в том числе текстовых, необходим для эффективного функционирования организации, с другой стороны, не все организации могут позволить себе инструменты для анализа текста. Следовательно, разработка новых методов и алгоритмов — простых в реализации, универсальных, не требующих значительных вычислительных ресурсов, не требующих специального обучения модели, не требующих в разработке больших затрат времени и материальных ресурсов — является актуальной задачей и может значительно расширить возможности применения анализа текстов и сделать его доступным для широкого круга организационных систем. Отсутствие серийных (тиражируемых) программных продуктов в данной области существенно

ограничивает возможности использования технологий обработки естественного языка в принятии управленческих решений. Разработанное в рамках диссертационного исследования программное решение будет тиражируемым, т. е. распространяемым на другие предметные области без существенной переработки.

Целью данной работы является обеспечение тиражируемости алгоритмов для поддержки принятия решений в организационных системах на основе анализа коротких текстов. Для достижения цели были поставлены следующие задачи:

- исследование существующих методов анализа текстовой информации;

- формирование перечня требований к разрабатываемому методу классификации текста;

- разработка математической модели представления текста, позволяющей реализовать классификацию текстов по прямым и косвенным признакам с учетом сформулированных требований;

- разработка алгоритма классификации текстов, реализующего данную математическую модель;

- проведение экспериментального исследования разработанного метода и оценка его эффективности для решения различных задач анализа текстовой информации.

Были сформулированы следующие требования к разрабатываемому методу:

Введение диссертации (часть автореферата) на тему «Метод классификации коротких текстов для решения задач управления в организационных системах»

- Универсальность;

- Простота в реализации;

- Отсутствие необходимости в обучении модели для решения конкретных задач;

- Невысокие требования к вычислительным ресурсам.

Также была определена точность, которую должен обеспечивать разрабатываемый метод: 90% для классификации текстов по тематикам, 75% для сентимент анализа и 65% для определения настроения текста.

Требования сформулированы с учетом актуальных потребностей организационных систем. Универсальность и отсутствие необходимости в обучении модели для решения конкретных задач обусловлены динамичностью появления новых задач и постоянно расширяющимся спектром необходимых разрезов классификации. Простота в реализации, невысокие требования к вычислительным ресурсам и заявленные параметры точности связаны с предпочтительностью спиральной модели жизненного цикла информационных систем в современных организациях и потребностью в вычислительных моделях, пригодных для разработки первых прототипов программ.

По результатам анализа современных методов классификации текстов было решено остановиться на использовании дистрибутивно-семантической модели в качестве базиса, так как она достаточно функциональна и проста в обработке, позволяя оперировать словами при помощи математического аппарата векторной алгебры. Была сформулирована гипотеза, что моделирование на базе векторной модели явления, эквивалентного интерференции волн позволит учитывать не только семантику отдельных слов, но и их взаимодействие, что может повысить точность классификации. Рассмотрение волновых явлений и волновых функций, аналогичных физике, и являющихся квантовоподобными состояниями в описании семантических единиц, естественным образом приводит к математическому аппарату квантовой механики.

Таким образом, была разработана волновая интерпретация текста, сочетающая простоту векторной модели и достоинства квантового формализма в теории вероятностей.

Во второй главе описана разработанная эвристическая волновая модель представления текстов. Текст интерпретируется, как ансамбль элементарных

частиц, в котором каждое слово, относящееся к самостоятельным частям речи рассматривается как отдельная частица. Служебные слова и знаки препинания исключаются из рассмотрения. В соответствии с принципом корпускулярно-волнового дуализма, поведение элементарной частицы описывается волновой функцией, основной смысл которой состоит в том, что интенсивность волны в некоторой точке пространства соответствует амплитуде вероятности обнаружения частицы в данной точке. Традиционно для математического представления волн используется одно из двух приближений: плоская волна, описываемая уравнением (1) либо сферическая волна — уравнение (2).

гр= А е-М1'Фо) (1)

гр= А Фо) (2)

г

где А — амплитуда волны, г — расстояние от источника, ф — фаза волны, определяющаяся волновым числом, скоростью движения волны, расстоянием и временем (;), а также начальной фазой (фо). Фаза плоской и сферической волны описывается уравнением (3).

Ф= кг + аХ +ф0 (3)

к4 (4)

где « — частота волны, к — волновое число, отражающее количество длин волн, приходящихся на единицу длины, что отражено в уравнении (4), где Л — длина волны. На рисунке 1 показано двумерное представление плоской и сферической волн.

Сферическая волна Плоская волна

Рис.1 Плоская и сферическая волна. Здесь г — расстояние от источника, Л — длина волны, величина, обратно пропорциональная волновому числу (к)

Часто при описании волновых процессов в физике используется приближение плоской волны, так как во многих случаях оно позволяет решать поставленные задачи аналитически. Но в данном случае было выбрано приближение сферической волны, так как в ее описании учитывается расстояние от источника — важный параметр представленной модели. Текст, таким образом, как ансамбль элементарных частиц, описывается набором сферических волн. Источники волн располагаются в точках, ассоциированных со словами текста. Суммарная интенсивность набора волн в различных точках пространства является амплитудой вероятности обнаружения ансамбля частиц в данных точках, что соответствует смысловой близости текста терминам, ассоциированным с указанными точками.

Суммарная интенсивность набора волн в точке I рассчитывается по формуле (5):

м А 2 м А А

I=1(А) + 2 I I ()есв(к^-Кгп + ф]0-фп0) (5)

]=1 Г] ]=1 п = ] + 1 Г] Г 1п

где М — количество слов в тексте. Пренебрегая начальными фазами, получаем следующую формулу, которая далее будет использоваться для классификации текстов:

М А 2 М-1 М А А 11=1( А) + 2 I I ()есв(к]г]]-кпг1п) (6)

]=1 Г!] ]=1 П=] + 1 '!]■ Г 1п

Представленная аппроксимация работает в пространстве, описываемом дистрибутивно-семантической языковой моделью, где расстояние г между точками, ассоциированными со словами, определяется как величина, обратно пропорциональная косинусной близости между векторами данных слов. Амплитуда (А) рассматривается, как количество, в котором слово употребляется в тексте. Волновые числа (к) вычисляются из соображений, что существуют некоторые точки, в которых суммарная амплитуда (I) максимальна. Одной из таких точек, очевидно, будет центроид ансамбля частиц. Также очевидно, что для достижения максимума интенсивности в формуле (6) аргументы косинуса должны принимать нулевые значения. Данное условие будет выполняться, если для каждой волны на пути от источника до центроида будет укладываться целое число длин волн. Так как сферические волны быстро затухают, примем, что от источника до центроида должна лежать одна длина волны. Тогда волновые числа можно рассчитать, используя формулу (7):

к=Г~ (7)

01

где Гс — расстояние до центроида текста. Иллюстрация расчета приведена на рисунке 2.

Рис. 2. Определение волновых чисел, где , WN — слова текста, С — положение центроида, Л1, Лм — длины волн, моделирующих слова текста.

Такие соображения позволяют найти волновые числа для каждой волны, определив положение центроида текста. Могут существовать и другие точки, где суммарная интенсивность (I) должна быть максимальной. Одной из таких точек может быть общая тематика текста, если она заранее известна, как это часто бывает в задачах сентимент анализа.

Формула (7) в диссертации является основой для классификации текстов, когда интенсивность (I) рассчитывается в точках пространства, соответствующих терминам, идентифицирующим рассматриваемые классы.

Вероятность принадлежности текста к классу I при этом можно получить, используя формулу (8)

(8)

11,

i=1

где Р1 — вероятность принадлежности текста к классу I; I — амплитуда вероятности принадлежности текста к классу; С — количество классов.

Можно заметить, что в уравнении (7) первое слагаемое соответствует евклидовой мере смысловой близости. Второе слагаемое обеспечивает взаимное усиление либо ослабление вклада отдельных слов в общий смысл текста, создавая эффект, известный в волновой оптике и приводящий к явлению интерференции. Также второе слагаемое уравнения позволяет частично решить

характерную для дистрибутивно-семантических моделей проблему антонимов. Известно, что в дистрибутивно-семантических моделях антонимы имеют близкие векторы, потому что, как правило, встречаются в одинаковом окружении. Например, «весь день была хорошая погода» и «весь день была плохая погода», «у моего друга очень умная собака» и «у моего друга очень глупая собака» и так далее. В результате антонимы распознаются векторной моделью, как синонимы, что затрудняет выявление смысла и тональности текста. Предлагаемая модель позволяет нивелировать проблему антонимов, если в дополнение к базисной дистрибутивно-семантической модели использовать словарь антонимов и изменять значение семантической близости слов на равное по модулю отрицательное значение, если слова определяются как антонимы. Выводы:

1 Разработана эвристическая волновая модель представления текста, которая в качестве базиса может использовать любую актуальную на практике дистрибутивно-семантическую языковую модель, позволяющую вычислять семантические расстояния между словами.

2 Разработанная эвристическая модель позволяет выполнять классификацию текста для любого набора классов, который может быть представлен в виде массива слов. При этом количество классов формально не ограничено.

3 Волновая интерпретация текста может повышать точность классификации по сравнению с базисной дистрибутивно-семантической моделью за счет учета не только вклада отдельных слов в общий смысл текста, но также и за счет рассмотрения взаимодействий слов, т.е. эффектов их «интерференции».

4 Волновая интерпретация позволяет частично решить характерную для дистрибутивно-семантических моделей проблему семантической близости антонимов.

Третья глава посвящена описанию алгоритма классификации текстов на базе волновой интерпретации текста, его экспериментальному исследованию а также результатам практического внедрения разработанного метода и обоснованию тиражируемости предложенного алгоритма.

Алгоритм классификации работает со следующими исходными данными: классифицируемый текст, массив классов, дистрибутивно-семантическая языковая модель, словарь антонимов. Для классификации текста с использованием волновой модели нужно выполнить следующие шаги:

1 Загрузка исходных данных: текст для классификации, массив классов, дистрибутивно-семантическая языковая модели в виде массива структур вида («слово», «вектор») и словарь антонимов в виде массива структур вида («слово», «список антонимов»)

2 Токенизация, лемматизация текста. На этом шаге текст преобразовывается в массив слов, размеченных по частям речи. Служебные слова и знаки препинания исключаются из массива.

3 Свертка массива слов с вычислением вхождений каждого из них.

4 Фиксация точки максимума амплитуды вероятности (центроид текста, тематика текста либо другая определенная точка). Вычисление расстояний от каждого слова до точки максимума, расчет волновых чисел, как величин, обратно пропорциональных полученным расстояниям. После выполнения этого шага текст будет представлен массивом структур вида («слово», «количество в тексте», «волновое число»).

5 Расчет амплитуды вероятности (I) по формуле (6) в точках, соответствующих каждому из рассматриваемых классов:

5.1 Для каждого элемента массива слов вычисляется расстояние от слова до рассматриваемого класса, как величина, обратно пропорциональная косинусной близости между вектором слова и

вектором класса. При этом выполняется проверка по словарю антонимов. Если текущее слово и класс определяются, как антонимы, устанавливается отрицательная величина близости.

5.2 В цикле по всем элементам массива слов вычисляется сумма значений:

2

/ количество_)

расстояние до класса

5.3 С использованием вложенных циклов, внешний по j от 1 до М — 1 (где М — длина массива слов), внутренний по и от текущего значения j до М, вычисляется удвоенная сумма попарных произведений значений элементов массива слов:

количество (j) количество (и) с05( ^)

расстояние(j )до класса расстояние(и) до класса

где X рассчитывается как разность произведений волновых чисел и

расстояний до класса элементов j и п массива слов

5.4 Сумма величин, полученных в пунктах 5.1 и 5.2 дает амплитуду вероятности принадлежности текста к данному классу

Пункты 5.1 — 5.4 выполняются для каждого класса из массива классов.

6 Ранжирование классов по убыванию амплитуды вероятности, рассчитанной на шаге 5. В результате наиболее вероятные для данного текста классы займут первые позиции в массиве классов.

Укрупненная блок-схема описанного алгоритма приведена на рисунке 3.

Рис. 3 Блок-схема алгоритма классификации текстов

Для описанного алгоритма был проведен ряд экспериментов:

- Классификация текстов по тематикам;

- Классификация терминов по наборам ассоциаций;

- Сентимент-анализ;

- Определение настроения текста.

Для классификации текстов по тематикам были отобраны 100 описаний сообществ социальной сети «Вконтакте», принадлежащих таким темам, как «гуманитарная», «техническая», «спорт», «кулинария», «путешествия» и

выполнена их классификация в разрезе данных тематик. При этом отбирались только описания неформальных сообществ, в выборке отсутствовали рекламные страницы и группы, принадлежащие коммерческим организациям. Классификация выполнялась по описанному алгоритму. Для лемматизации использована библиотека «rulemma» (URL: https://github.com/Koziev/rulemma). В качестве базиса выбрана дистрибутивно-семантическая модель «Национальный корпус русского языка (НКРЯ) и русская Википедия 2021» проекта «Rusvectores» (URL: https://rusvectores.org/), содержащая около 250 тысяч векторов слов и обученная на выборке в 1,2 млрд. слов. В данном эксперименте была предпринята попытка задействовать в волновом представлении дополнительный параметр — начальную фазу, который при построении эвристической модели традиционно был исключен из рассмотрения. В данном случае рассматривался вариант кодирования признака отрицания в начальной фазе. Если перед словом находилась частица «не» или «ни», начальная фаза соответствующей ему волны устанавливалась равной п. Полученные в результате эксперимента результаты приведены в таблице 2.

Таблица 2. Точность классификации текстов по тематикам

Класс Точность классификации для вариантов начальной фазы, %

Без начальной фазы С учетом начальной фазы

Путешествия 95 95

Кулинария 95 95

Спорт 95 95

Гуманитарный 75 80

Технический 95 85

Все классы 91 90

Волновое представление текста показывает хорошую точность при классификации текстов по тематикам. Учет признака отрицания в начальных фазах волн в целом не оказывает существенного влияния на общую точность

классификации, но позволяет сгладить заметный провал в точности для отдельного класса, делая результаты классификации более стабильными.

Для классификации терминов по наборам ассоциаций были использованы данные, представленные на сайте https://sociation.org/. Были отобраны 100 произвольных терминов и по десять наиболее популярных ассоциаций к каждому из них. Задача состояла в выборе наиболее вероятного термина из данного списка по набору ассоциаций. В ходе эксперимента сравнивалась точность для волнового подхода с двумя классическими методами — вычислением центра лексического кластера и вычислением евклидовой меры семантической близости. При этом количество рассматриваемых ассоциаций последовательно уменьшалось до пяти, трех и двух. В качестве базиса, также, как и в первом эксперименте использована модель «НКРЯ + Википедия 2021». Центр лексического кластера определялся при помощи инструментария, представленного на сайте проекта «Rusvectores». Результаты исследования приведены в таблице 3.

Таблица 3. Точность определения терминов по наборам ассоциаций, %

Количество ассоциаций Волновое представление текста Евклидова мера близости Центр лексического кластера

10 89 88 66

5 88 87 46

3 74 68 30

2 65 59 32

Как видно из таблицы, в решении данной задачи волновой подход показывает более высокую точность, чем классические аналоги. При этом при уменьшении количества ассоциаций его точность падает медленнее, чем точность классических методов, что позволяет сделать вывод о том, что волновое представление текста лучше работает в условиях повышающейся неопределенности.

Для сентимент анализа были отобраны отзывы покупателей маркетплейса Wildbeггies, посвященные бюджетным моделям смартфонов. Классификация выполнялась для классов «позитивный», «негативный» и «нейтральный». Первоначальная разметка была выполнена в соответствии с количеством «звезд», поставленных покупателем товару. Отзывы, сопровождавшие отметку в четыре или пять звезд, считались позитивными, для одной или двух звезд отзыв расценивался как негативный. Три звезды соответствовали нейтральному отзыву. В процессе проверки распределение по классам пришлось скорректировать. Бывали случаи, когда определенно позитивный отзыв о товаре сопровождали две или три звезды из-за очереди в пункте выдачи или снижения цен на следующий день после покупки. Также оказалось, что практически нет нейтральных отзывов, это объяснимо, так как пользователи редко пишут отзывы не испытывая никаких эмоций. В результате в выборке было 102 позитивных комментария, 106 негативных и 8 нейтральных. В этом эксперименте обнаружились две важные особенности. Первая — волновое представление помогает решить проблему антонимов, когда антонимами являются слово в тексте и класс, но этот подход не работает, когда антонимами оказываются классы. Ситуация проиллюстрирована на рисунке 4.

С1

Гх/ /

//Га

Рис. 4 Проблема классов — антонимов

Если классы с1 и с2 близки, расстояния Г1 и Г2 от слова ш до соответствующих классов также оказываются близкими по значению. Так как

косинусная близость векторов приближенно оценивает смысловую близость между словами, суммарной погрешности этой оценки может быть достаточно для случайного перевеса амплитуды вероятности в области одного из классов, что безусловно снижает качество классификации. Для решения данной проблемы был использован следующий подход. Для каждого из классов был подобран набор синонимов при помощи словаря синонимов, например https://sinonim.org/. Путем перебора из наборов синонимов были отобраны термины для каждого класса таким образом, чтобы они оказались максимально удалены друг от друга.

Вторая проблема состоит в том, что один из классов, в данном случае позитивный, оказался для модели более предпочтительным. Исходя из того, что в экспериментальной выборке примерно равное количество отзывов принадлежало негативному и позитивному классу, ожидалось что в результате классификации к каждому из классов будет отнесено также примерно равное количество текстов. В результате предварительных расчетов оказалось, что к позитивному классу отнесено значительно больше отзывов, чем к негативному. Эту проблему было предложено решить при помощи понижающего коэффициента класса Di и уравнение (8) приобрело следующий вид:

(9)

£(1 - А)х I

1=1

Для негативного класса был установлен понижающий коэффициент 0, а для позитивного он варьировался в интервале от 0,4 до 0,6.

В данном эксперименте были исследованы три варианта применения волнового представления текста. В первом случае в качестве точки максимальной амплитуды вероятности для расчета волновых чисел использовался центроид (ВМ ЦМТ в таблице результатов), во втором случае — контекст, которому был присвоен термин «смартфон» (ВМ К в таблице). В

первом и во втором случае не применялся прием, устанавливающий отрицательные расстояния между антонимами. В третьем случае точкой максимальной амплитуды вероятности был контекст и в алгоритме учитывалась коррекция антонимов (ВМ КА в таблице). Также для сравнения приведен расчет с использованием евклидовой меры близости (ЕМ). В качестве базиса здесь также применялась модель «НКРЯ + Википедия 2021», лемматизация выполнена при помощи библиотеки «ги1етта». Полученная в результате эксперимента точность классификации приведена в таблице 4.

Таблица 4. Точность классификации отзывов покупателей для вариантов алгоритма

Класс Алгоритмы

Евклидова мера (ЕМ) Волновое представление (центроид) ВМ ЦМТ Dп = 0,6 Волновое представление (контекст) ВМ К Dп = 0,6 Волновое представление (контекст, коррекция антонимов) ВМ КА Dп = 0,6

Позитивный 78,4 77,5 68,6 70,6

Негативный 47,1 68,9 78,3 79,2

Нейтральный 25 12,5 0 0

Общий итог 61,1 70,8 70,8 72,2

Dп — выбранные значения понижающего коэффициента позитивного класса.

Далее в этой задаче было исследовано влияние базисной модели на точность классификации и была проверена гипотеза о возможности использования линейной комбинации моделей. Для сравнения были использованы другие модели проекта «Rusvectoгes»: «Новостной корпус» и корпус «Тайга», а также линейная комбинация моделей «НКРЯ + Википедия 2021» и «Тайга», в которой косинусная близость между векторами слов вычислялась для каждой из моделей, а затем в расчетах использовалось среднее значение. Здесь в качестве точки максимума амплитуды вероятности использован контекст и применена коррекция антонимов. Результаты приведены в таблице 5.

Таблица 5. Сравнение точности классификации для базисных моделей

Класс Базисные модели

НКРЯ + Википедия 2021 Dп = 0,6 Новостной корпус Dп = 0,45 Тайга Dп = 0,45 (НКРЯ + Википедия 2021) + Тайга Dп = 0,45

Позитивный 70,6 53,9 80,4 80,4

Негативный 79,2 87,8 68,9 78,3

Нейтральный 0 0 0 0

Общий итог 72,2 68,5 71,8 76,4

Dп — выбранные значения понижающего коэффициента позитивного класса.

В результате было установлено, что линейная комбинация двух базисных моделей повышает точность классификации по сравнению с использованием каждой из этих моделей по-отдельности.

Для сравнения точности классификации с результатами других исследований из финальных расчетов был исключен нейтральный класс. Традиционно сентимент анализ проводится для двух классов — негативный и позитивный. В данном исследовании нейтральный класс также оказался несостоятельным — малочисленным и малозначимым. Результаты сравнения приведены в таблице 6.

Таблица 6. Сравнение точности (%) волновой модели с другими методиками

Дерево решений Логистическая регрессия Многослойный персептрон Волновое представление текста

74,3 76,2 75,7 79,3

Полученные результаты показывают, что волновая интерпретация текста может успешно конкурировать с проверенными методиками сентимент анализа.

В следующем эксперименте была выполнена классификация текстов по настроению. В отличие от предыдущей задачи сентимент анализа, где требовалось выявить эмоциональную оценку предмета обсуждения, здесь

рассматривается общий эмоциональный фон автора текста или высказывания. Наибольшую трудность представлял собой поиск и разметка текстов по настроениям. Поэтому в качестве экспериментального набора данных были отобраны тематические цитаты, посвященные различным настроениям, размещенные на сайте https://citaty.info/. Всего было найдено четыре класса настроений: «грусть», «ирония», «сарказм», «мотивация». Для эксперимента было отобрано по 100 цитат в каждом классе. В качестве базиса здесь использована модель «НКРЯ + Википедия 2021», лемматизация выполнена при помощи библиотеки «ш1етта». Результаты эксперимента приведены в таблице 7.

Таблица 7. Точность классификации высказываний по настроениям, %

Класс Волновое представление Евклидова мера близости

Грусть 98 93

Ирония 78 66

Сарказм 66 52

Мотивация 28 29

Общий итог 67,5 60

Сводные данные о наилучшей точности классификации для проведенных экспериментальных исследований приведены в таблице 8.

Таблица 8. Сводные данные о точности классификации коротких текстов с использованием волновой интерпретации текста, %:

Метод

Волновая интерпретация Евклидова мера близости

Классификация Классификация Сентимент-текстов по терминов по анализ (3/2 тематикам наборам класса)

ассоциаций

(10/5/3/2 ассоциации) 89 / 88 / 74 / 65

91 90

88 /87 / 68 / 59

76,4/79,3 61,1/62,5

Определение настроения текста

67,5 60

Проведенные экспериментальные исследования подтверждают соответствие разработанной методики всем заявленным требованиям. Она универсальна — во всех задачах классификации по различным признакам использован единый алгоритм. Алгоритм прост в реализации — на разработку процедур классификации для экспериментальной программы ушло не более двенадцати часов работы одного разработчика. Для работы не требуются значительные вычислительные ресурсы — для расчетов использовался компьютер с процессором AMD Ryzen 9 5900x, 10 ГБ оперативной памяти, 500 ГБ SSD. Алгоритм не требует предварительного обучения для решения новых задач классификации. Точность классификации соответствует заявленным значениям.

На базе предложенного метода было разработано программное обеспечение, реализующее классификацию текстов для произвольно заданного набора разрезов аналитики. Программа работает в среде 1С Предприятие 8, модуль лемматизации разработан на языке Python с использованием библиотеки rulemma. Перед разработкой программы был проведен опрос среди руководителей различных торговых и производственных компаний и определены наиболее перспективные задачи классификации:

- многоуровневый сентимент анализ, где определяется не только эмоциональная тональность, но также выявляются наиболее важные для покупателя характеристики продукта и элементы сервиса;

- мониторинг эмоционального фона организации;

- оценка резюме претендентов на вакансии.

Внедрение многоуровневого сентимент анализа прошло успешно. Была отмечена достаточно высокая точность анализа и положительно влияние результатов на развитие сферы продаж и маркетинга организации. Включение в объекты анализа не только отзывов, но и вопросов покупателей позволило выявить недочеты в описании товаров и устранить их. Это позволило сделать

характеристики товара более понятными и прозрачными для покупателей, что должно снизить количество возвратов, отказов и негативных реакций клиентов.

Внедрение мониторинга эмоционального фона и оценки резюме претендентов на вакансии встретило две серьезные проблемы. Во-первых, были подняты вопросы о правомерности использования доступной информации для определения качеств личности и эмоционального фона; о том, как будет квалифицирован такой анализ, не будет ли он расцениваться, как психологическое, т. е. медицинское обследование, требующее отдельного согласия обследуемого. Во-вторых, была затронута проблема определения авторства текста, т. к. перед тем, как делать выводы о личности, исходя из текста, нужно установить, что исследуемая личность действительно является автором текста. Таким образом, внедрение разработанного метода в области эмоционального и личностного анализа было отложено до появления обоснованных ответов на поставленные вопросы.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Груздева Анастасия Сергеевна, 2024 год

Список источников

1. Slamoulis D.S. Management and Technical IT Priorities for Digital Organizations in 2022 !1 European Journal of Business and Management Research. 2022. T. 7. №. I. С L28-133, {In Eng.).

2, Журкина О,В, Электронные доказательства: понятие и признаки // Российская юстиция. 2020. № 9. С. 44-46.

References

1. Stamoiilis D.S. Management and Technical IT Priorities for Digital Organizations in 2022, European Journal of Business and Management Research. 2022. Vol. 7. No. 1. pp. 128-133.

2. Zhurkina O.V, Electronic Evidence: Concept and Features. Rossiyskaia yustirsiya. 2020. No, 9. pp. AA-A6. (In Rubs.}.

3. Определение Восьмого кассационного суда общей юрисдикции от 01.12.2020 № 8817349/2020 // СПС «Консультант Плюс» [Электронный ресурс]. - Режим доступа: http: //www. consul lant .ги/

4. Определение Пятого кассационного суда общей юрисдикции от 08.11.2021 № 888570/2021 1! СПС «Консультант Плюс» [Электронный ресурс]. - Режим доступа: http: //www. consul lant .ш/

5. Определение Четвертого кассационного суда общей юрисдикции от 31.05.2022 № 8819221/2022 // СПС «Консультант Плюс» [Электронный ресурс]. - Режим доступа: http: //www. consul lant .ги/

6. Постанов лени е Одиннадцатого арбитражного апелляционного суда от 20.01.2022 № 1IАП-1R924/2021 по делу N А55-17184/2021 U СПС «Консультант Плюс» [Электронный ресурс]. - Режим доступа: http: //www. consul lant .ги/

7. Определение Шестого кассационного суда общей юрисдикции от 18,10,2021 № 8821526/202 С 2-279/2021 И СПС «Консультант Плюс» [Элек1ронный ресурс]. — Режим доступа: hllp://ww w. cons li I lant. гп/

8. Wetherai I D,. Tanenbanm A.S., Feamster N, Computer Networks. Upper Saddle River, - NJ: Pearson Prentice Hall 20 П. - 962 c. (In Eng.).

9. Макконнеш! С. Совершенный код. Мастер-класс. Пер. с англ. — «Русская редакция», 2019.-896 с.

3. Decision of 8th Cassation Court 01,12,2020 No. 88-17349/2020. SPS «ConsuhantPhis». Available at: http://www.consLillant.ru/ (In Ruas.).

4. Decision of 51'1 Cassation Court 0S.11,2021 № 88-8570/2021. SPS «ConsuhantPlus». Available at: http://www.consLillant.ru/ (In Russ.).

5. Decision of 4lh Cassation Court 31,05,2022 № 88-19221/2022. SPS «ConsuhantPlus». Available at: http://www.consLillant.ru/ (In Russ.).

(>. Decision of 11 Cassation Court 20.01,2022 № 11 An-18924/2021. SPS «ConsuhantPlus». Available at: http://www.consLillant.ru/ (In Russ.),

7. Decision of 6 Cassation Court 18.10.2021 N'l 88-21526/2021, 2-279/2021. SPS «Consul-lantPlus». Available at: hltp://Www.consultant, ru/ (In Russ.).

8. Wetherall D.. Tanenbaura A.S., Feamsler N. Computer Networks. Upper Saddle River. NJ; Pearson Prentice Hall. 2011, 962 p.

9. McConnel S. Code Complete. Trans, from English. Russkaya redakciya. 2019. 896 p. (In Russ.).

('татъя поступила в редакцию fJ6.Û3.2Ù23; aiioopena гюс.le рецензирования 22.tt3.2023; принята х nyoiuxaifuit 24.tt3.20l3. The article was submitted itá.Ü3. 2Ü23; approved after rev rcuing 22.03.2023; accepted for publication 2-4. Û3.2023.

Экономика. Право. Инновашш 2024 № 2. С. Я1-93 Economics. Law. Innovation 2024. No. 2. P. SI 93

Управление в организационных системах _Management in organizational systems

Научная статья УДК 004.9

doi: 10.17586/2713-1874-2024-2-81 -93

МЕТРИКИ КАЧЕСТВА ЮРИДИЧЕСКИХ ТЕКСТОВ

Родион Николаевич Юрьев1 \ Игорь Александрович Бессмертный2, Анастасия Сергеевна Груздева1

'-^Университет ИТМО, Санкт-Петербург. Россия 'jur>ev7<S gmail.com' ■

;bessmertny @ itmo.ra, hltps:,7oieid. org/0000-ООО I-671 1-6399 'prog .anastasia (Э gmail. eo m Язык статьи - русский

Ли нога ни я: В статье рассматриваете!! возможность использования генеративных систем искусственного интеллекта для создания юридических текстов и поддержки юридической деятельности. Проведено экспериментальное исследование на основе систем ChatGPT 11 YandcxGPT Представлены новые метрики оценки качества сгенерированных юридических текстов, которые существенно отличаются от традиционных методов оценки текстов. Основеюс внимание уделяется содержательным аспектам юридических документов и нх пригодности для практического применения. Результаты исследования показывают, что современные ИИ-систем и способны го пернровать тексты, которые могут быть полезны в юридической практике, хотя н требуют доработки.

Kjно-]евые слова: генеративные системы, искусственный интеллект, обработка естественного языка, юридический текст. ChatGPT, YandcxGPT

Ссылка дли цитирования: Юрьев Р. Н,, Бессмертный И. А., Груздева Л. С. Метрики качества юридических текстов// Экономика. Право Инновации. 2024. № 2. С 81 -93 http://dx.doi org/10.17586/2713-1874-2024-2-81-93

QUALITY METRICS OF LEGAL TEXTS Radion N. Iurev' ; Igor A. Bessmertny2, Anastasia S. Gruzdcva3

': ITMO University, Saint Petersburg, Russia 'juryeW®1 gniail.com- -

:bessmertny (S1 itmo. ni, hltps:./oreid.or«,0000-00ril-fi711-6399 'prog .anastasia @gmai I com Article in Russian

Abstract: The article explores the potential of using generative artificial intelligence systems to create legal texts and support legal activities. An experimental study was conducted using ChatGPT and YandexGPT systems. New quality metrics for evaluating the generated legal texts are introduced, which significantly differ from traditional text assessment methods. The focus is on the substantive aspects of legal documents and (heir suitability for practical application. The research results indicate that current Al systems can generate texts that maybe useful in legal practice, though they require further refine ment.

Keywords: artificial intelligence. ChatGPT, generative systems, legal text, natural language processing, Yan-dexGPT

For citation: Iurev R. N.. Bessmertnv I. A., Gnizdeva A. S. Quality Metrics of Lesal Texts. Ekonomika. Pravo. hmovacii. 2024. No. 2. pp. 81-93. (In Russ.). http://dx.doi.org/10.1758fi/27l3-1874-2024-2-8l-93.

Введение. В работе [1] авторы излагали своё критическое мнение на возможность скорого создания системы искусственного интеллекта {далее — ИИ), позволяющего решать задачи, стоящие перед юристами, в автоматическом режиме. С учетом достигнутых результатов моделей трансформеров, ОРТ, из

которых наиболее известной стала модель иод коммерческим наименованием СЬа!ОРТ, разработанная командой ОрепАТ спустя четыре года после опубликования статьи подошло время проверить, может ли в текущих условиях искусственный интеллект заменить юриста в его повседневной работе.

Оценка качества работы генеративных систем в сфере NLP традиционно опирается на критерии, разработанные в прошлом для оценки качества выполнения т аких задач, как машинный перевод, генерация связного грамматически верного текста. Для оценки юридических текстов этого недостаточно, необходима оценка документа с точки зрения его содержания. Разработка таких метрик является необходимым шагом в создании автоматизированных информационных систем в юридической сфере деятельности, а в будущем и системы принятия решений на основе её.

Обзор литературы. Как показал обзор русскоязычной литературы, в настоящее время не представлены комплексные численные методики оценки качества юридических текстов. В основном, метрики разрабатывались для таких целей, как оценка компьютерного перевода [2, 3], извлечение утверждений из неформализованного текста на основе он-тологий и другие.

Цель и Задачи исследования. Целью работы стала оптимизация интеллектуальной поддержки юридической деятельности путем разработки новых мегрик оценки качества юридических текст ов, сгенерированных с использованием существующих систем генеративного искусственного интеллекта в сфере NLP.

Задачами исследования стало создание новых метрик оценки качества текста с точки зрения содержания, а также общая оценка качества созданных докумен тов и их пригодности для практического применения. Необходимость создания данных метрик обусловлена возрастающими потребностями рынка по созданию автоматизированных информационных систем в юридической сфере.

Методологии исследования. Для проведения эксперимента принято решение использовать веб-интерфейс ChatGPT По адресу: https://chat.open ai.com/ (недоступен для IP-адресов в России) и аналогичный сервис Яндекс (YandexGPT2, https://ya.ru/alisa_dava y_pridumaem).

Веб-интерфейс взаимодействия представляет собой текстовый запрос в поле ввода и текстовый ответ ираниченной длины {в бесплатной версии). На сайге ChatGPT доступен Application Programming Interface (API),

прикладной программный интерфейс, с помощью которого можно встраивать вопросы и ответы в любые программные решения, в том числе для правильного форматирования ответа (например, в формате правильного оформленного искового заявления), однако в рамках исследования он не использовался.

В связи с тем, что системы непрерывно развиваются, генерация документов производилась в максимально сжатые сроки во избежание возникновения зависимости от новых обновлений программ.

Материалы для исследования. В качестве материала для исследования взяты десять наиболее распространённых типов судебных дел согласно данным судебной стат истики, опубликованной на сайге Судебного департамента при Верховном Суде РФ за 2022 год. В качестве источника использовались Сводные статистические сведения о деятельности федеральных судов общей юрисдикции и мировых судей за 2022 год, отчёт но форме № 2 «Отчет о работе судов общей юрисдикции По рассмотрению 1ражданских, административных дел по первой инстанции за 12 месяцев 2022 года» [4],

В разделе 2 представлена информация о движении и результатах рассмотрения 1раж-данских дел. Ключевыми для анализа являются столбцы: «Категория дел» {[рафа А) и «Поступило дел в отчетном периоде» {[рафа 2). Дальнейший отбор проводился следующим образом: все дела бьгли отсортированы по количеству дел в |рафе 2; затем были исключены обобщающие показатели, такие как «Итого фажданских дел (сумма строк 212 и 230)» и тому подобные показатели, которые включают в себя слишком много категорий дел для Того, чтобы охватить их одним запросом. Исключением из этого являются иски о взыскании неосновательного обогащения, которые хотя представляют собой общее наименование множества разных требований, но интересны тем, что даже для профессиональных юристов не всегда очевидно понимание сути правоотношений, стоящих за такими исками.

В результате отбора данных, как показано в т аблице 1, было охвачено 89,46% всех типов рассматриваемых дел в судах России за 2022 год.

Таблица 1

Выборка дел и) судебной статистики in 2022 год

Номер категории Дел Количество дел Наименование категории дел Доля дел в общем количестве

205 1 1449944 Взыскание сумм по договору займа, Кредитному договору 44,00%

116 10429302 Взыскание платы за жилую шющадь и коммунальные платежи, тепло и электроэнергию 40,08%

2 449742 Расторжение брака супругов, имеющих детей 1,73%

10 296224 Взыскание алиментов на содержание несовершеннолетних детей 1,14%

171 220458 Защита прав потребителей из договоров в сфере торговли, услуг, выполнения работ 0,85%

152 118369 Возмещение ущерба от ДТП (кроме увечий и смерти кормильца) 0,45%

46 104301 Взыскание невыплаченной заработной платы, других выплат (и компенсации за задержку их выплаты) 0,40%

3 78406 Расторжение брака супругов, имеющих взрослых детей 0,30%

154 71067 Взыскание страхового возмещения по договору ОСАГО 0,27%

206 60701 Взыскание неосновательного обогащения 0,23%

Итого: 23278514 89,46%

Подготовка запросов к системе осуществлена исходя из юридического опыта, что также требует отдельного исследования в дальнейшем, поскольку очевидно, что запросы, сформулированные профессиональным юристом, серьёзным образом отличаются от запросов, сделанных неспециалистом, В будущих экспериментах можно воспользоваться инструментом httpsi/ZwordstaL yandex,пд/, который позволяет- подбирать не только отдельные слова, но и словосочетания, а кроме Того, предоставляет информацию о статистике гех или иных запросов. Вопрос о правильном понимании запросов и соотношении между запросом обычного пользователя и ответом информационной системы, rtpeieH-дующей на предоставление юридической информации, имеет исключительную важность, однако не входит в рамки настоящей работы. Список запросов представлен в таблице 2. Каждый из представленных запросов направлялся единожды в систему, после

чего результат" сохранялся в текстовом формате,

Экспертная оценка подготовленных процессуальных документов осуществлялась одним из авторов данной статьи Р. И. Юрьевым, юристом с 20-летним стажем судебной работы в сфере |ражданского права. Автор последовательно настаивает на минимизации избыточного юридического текста во всех его проявлениях, в то время как жизнь и практика показывают совершенно противоположную тенденцию к укрупнению юридических текстов, усложнению грамматических оборотов, воспроизведению содержания законодательства в текстах части о-правовых документов. У других экспертов могут быть иные мнения по данному вопросу, и ЭТО - неизбежное следствие субъективности автора, что представляет собой некоторое противоречие с задачей создания численных метрик как объективного средства измерения качества текста. Однако авторы исходят из того, чт о вноследсг-

нии эти оценки можно будет скоррекгиро- оказываются и-образными. Но на этом этане ВЯТЬ, как эта часто бывает в науке. Например, нам нужно установить эги параметры, де-многие биологические корреляции, казав- тализировать их значение можно будет шиеся на первый взгляд линейными, позже.

Таблица 2

Занрисы к системе

Источник: состарено aemoptLuu

№ Наименование кате! ори и дел Запрос

1. Взыскание сумм по договору займа, кредитному договору Составь исковое заявление о взыскании займа в размере 15000 рублей, переданного но расписке от 1 января 2022 года. Срок возврата займа был установлен до 1 января 2023, заём беспроцентный, никакие суммы не возвращались

2. Взыскание платы за жилую площадь и коммунальные илатежи, Тепло И электроэнергию Составь исковое заявление о взыскании задолженности за коммунальные платежи в размере 15000 рублей в месяц за период с 1 января 2022 года по 1 января 2023 года с учётом не ней. Никакие платежи не производились

3. Расторжение брака супругов, имеющих детей Составь исковое заявление о расторжении брака между супругами, имеющими одного несовершеннолетнего ребёнка

4. Взыскание алиментов на содержание несовершеннолетних детей Составь исковое заявление о взыскании алиментов на содержание одного несовершеннолетнего ребёнка, родившегося 1 января 2022 года

5. Защита нрав потребителей из договоров в сфере торговли, услуг, выполнения работ Составь исковое заявление о взыскании материального и морального ущерба, в связи с неисполнением обязательств по ремонту автомобиля, причём ремонт автомобиля составлял 20000 рублей, и от вета на претензию от 1 января 2023 года не последовало

6. Возмещение ущерба от ДТП (кроме увечий и смерти кормильца) Составь исковое заявление о взыскании морального ущерба от ДТП в размере 100000 рублей

7. Взыскание невыплаченной заработной платы, других вышит (и компенсации за задержку их выплаты) Составь исковое заявление о взыскании невыплаченной заработной платы в размере 10000 рублей в месяц за 4 месяца

8. Расторжение брака супругов, имеющих взрослых детей Составь исковое заявление о расторжении брака между супругами, имеющими взрослых детей

9. Взыскание страхового возмещения но договору ОСАГО Составь исковое заявление о взыскании страхового возмещения в размере 120000 рублей по договору ОСАГО

10. Взыскание неосновательного обогащения Составь исковое заявление о взыскании случайно перечисленной суммы в размере 10000 рублей на расчётный счёт отвегчика

Ещё один момент, Требующий упоминания: авторы Сознательно 01раничивают виды процессуальных документов только исковыми заявлениями, несмотря на то, что с точки зрения процессуального законодательства это не единственная форма защиты имущественных прав. Например, взыскание коммунальных платежей производится в порядке выдачи судебного приказа (ст. 122 ГПК РФ), Однако в любом случае и такой спор может быть в конечном счёте разрешён в обще исковом порядке (например, после отмены судебного приказа по заявлению должника, ст. 129 ГПК РФ), Таким образом, исковое производство является более универсальной формой защиты, чем приказное.

По итогам оценки для каждого текста составляется таблица с отражением численных результатов для каждой мегрики.

Подготовка материалов для исследования. Прежде всего необходимо определиться с исследуемыми единицами текста. Под текстом в целом мы будем понимать всю выдачу системы в ответ на наш запрос, что бы она ни включала в себя, В частности, на один из запросов о генерации искового заявления система СИагСРТ выдала документ с заголовком «ИНФОРМАЦИОННОЕ ПИСЬМО», хот я дальнейший т екст представлял собой исковое заявление. Чтобы не прощать подобное поведение, заголовок следует считать за отдельное предложение,

Разного рода заголовки, например, обращения в «шапке» заявления грамматически не должны считат ься предложениями, однако мы считаем их таковыми, так как сложно продемонстрировать информационную избыточность подобных текстов:

«Уважаемый/Уважаемая [Имя ответчика],

ИСКОВОЕ ЗАЯВЛЕНИЕ» Метрики. Существует несколько метрик качества текста, которые мо[ут оценивать различные аспекты, такие как структура, лексика, семантика, интонация.

Современные системы искусственного интеллекта в сфере генерации текста обучались с учётом этих метрик. Некоторые метрики, используемые для оценки текстов, в данном исследовании не имеют смысла, хотя сами по себе полезны. Например, сенгименг-анализ Позволяет выявить интонацию текста,

но нам не Встречалось ни разу в примерах ни а|рессии, ни какого-то отклонения ОТ официального стиля, разве чт о едва уловимой, скорее характерной для англоязычных правовых документов, интимизации обращений (подобно употреблению слов «уважаемый» по отношению к ответчику, что, очевидно, совершенно не принято в русскоязычной документации).

Общепризнанная структура иска представляет собой сочетание двух необходимых И Достаточных элементов: основание и предмет иска. Формулировка основания и предмета иска составляет ключевой элемент идентификации требования, поэтому не допускается одновременное изменение и основания, и предмета иска. В более строгих правопоряд-ках после предъявления иска невозможно изменить ни то, ни другое.

Предмет иска Находится в непосредственной связи с его основанием. Если основание иска не может повлечь за собой удовлетворение требований в том виде, в каком они сформулированы, в иске должно быть отказано.

Например, следует считать ошибочным предъявление иска об истребовании квартиры со ссылкой на то, что между сторонами заключён договор займа. Поскольку сами по себе правоотношения займа не влекут возникновение права собственности на имущество должника, в удовлетворении такого иска должно быть отказано. Существуют и более Тонкие правовые ситуации, когда даже профессионалы затрудняются определить, насколько предмет иска связан с его основаниями, например, это длительное время касалось вопроса о защите добросовестного приобретателя в рамках ст. 302 Гражданского кодекса РФ.

Конечно, в настоящее время российское процессуальное законодательство ушло далеко от строгого формализма ранней эпохи римского права, однако об этом этапе развития правовой мысли стоит помнить, в особенности в связи с дальнейшей цпфровизацией всех судебных процедур. В Древнем Риме периода XII Таблиц неправильное употребление хотя бы одного слова в формуле иска влекло автоматический нрошрыш дела (последствия такого проигрыша в то время могли выходить далеко за пределы простого

возмещения судебных расходов И могли влечь за собой даже продажу в рабство прожравшей стороны). По мере внедрения форм для заполнения на судебных сай гах наше процессуальное законодательство может вер

нуться к этой исходной и, казалось бы, давно забытой эпохе развития судебного процесса. В качестве примера приведем предупреждение, которое выдаётся в системе К АД Арбитр при выборе типа заявления (Рисунок I).

Внимание!

Вы выбрали вид обращение «Заявление о выдаче судебного приказа (статья 229 3. АПК РФ)».

После данной операции вы не сможете поменять m vi обращения. Продолжить?

Да

Рисунок 1 Предупреждение системы «Мой арбитр» при подаче заявления

Источник: 1и(ря://ту.агЫ1г. ги

Таким образом, Правильная и точная формулировка основания и предмета иска является ключевым элементом в построении метрики оценки качества работы юридической 1Ч1-Р-системы.

Критерии оценки качества правильно выявленных юридически значимых онтологии при генерации юридического текста могут быть определены следующим образом: в основание каждого иска должны быть положены те юридические факты, с которыми закон связывает' удовлетворение требований. Например, по иску о взыскании долга по долговой расписке истец должен указать, что он заключил договор займа и передал Деньги (последнее является ключевым по российскому законодательству, так как договор займа между физическими лицами является реальным договором и без передачи денег не будет считаться заключенным, П. 1 ст. 807 Гражданского кодекса РФ). Важно упомянуть и о том, что долг не был возвращён либо был возвращён не полностью,

Таким образом, для оценки правильности изложения основания иска по договору займа между физическими лицами необходима ссылка на три юридических факта. Если все три упомянуты в подготовленном документе, даже если помимо них упомянуты и другие, юридически незначимые обстоятельства (чем часто I решат непрофессиональные истцы), исковое заявление может быть удовлетворено.

Метрика правильности изложения основания иска может быть сформулирована как отношение количества правильно упомянутых и значимых юридических фактов к количеству юридических фактов, необходимых для удовлетворения исковых требований согласно предмету иска,

Метрика прав ил ьи осты формулировки предмета иска отражает отношение между количеством предложенных пунктов исковых требований и количеством необходимых пунктов исковых требований.

Такая оценка исключает необходимость метрики правильности связи между основанием и предметом иска, которую эксперт давал бы относительно того, являются ли юридические факты, изложенные в основании иска, основанием для его удовлетворения, Если изложенных фактов недостаточно, и метрика оценки качества формулировки основания иска оказывается менее 1, то иск сформулирован неверно.

Применительно к данной метрике необходимо сделать одну оговорку. Следует различать процессуальные требования и собственно предмет иска. С точки зрения «пользователя» между ними нет разницы, поскольку и те и другие часто включаются в т.н. «Просительную часть» искового заявления, иными словами, идут после слов «прошу» или «просим». К предмету иска относятся те материально-правовые требования, на которых настраивает истец. Онн могут быть только

Трех видов; о взыскании, о признании и оо изменении [5, С. 540], Однако этим требованиям часто сопутствуют требования процессуального характера, например, о взыскании судебных расходов, об истребовании доказательств, принятии обеспечительных мер. Необходимости включать их в состав просительной части иска нет, более топ), их можно заявлять в процессе и даже после его окончания, но и включение ошибкой не будет. Если бы предмет иска не носил ключевой характер в идентификации искового заявления, можно было бы подсчитывать все требования, но нам важно вычленить те моменты, которые Moiyr препятствовать дальнейшему рассмотрению дела, поэтому несмотря на то, что в целом ходатайство о взыскании судебных расходов не совсем бесполезное требование в 1ражданском процессе, для целей данной метрики мы будем игнорировать ею при анализе текста.

Возможна ещё одна ситуация, При которой исковые требования и основания иска сформулированы Правильно, но при ЭТОМ не соотносятся с запросом Пользователя. В рамках настоящего исследования подобные ситуации не разбирались, так как они предполагают более сложные исковые требования чем те, которые взяты в качестве примеров в данном случае, однако в будущих исследованиях целесообразно будет вводить метрику правильности определения предмета и основания иска на основании запроса пользователя

Юридические тексты отличаются использованием особых побуждающих выражений, которые должны упрощать понимание заявления для читателя и преследуют цель убеждения в необходимости совершения требуемых действий. Поэтому помимо собственно юридического содержания проекта документа необходимо оценивать качество текста с точки зрения Правильности его построения, его убедительности хотя бы с позиции формальных характеристик.

Полнота необходимых реквизитов исковою заявления. Процессуальным законодательством установлены обязательные требования к исковому заявлению. Для |раждан-ского процесса они приведены в п. 2 ст. 131 ГПК РФ, а для арбитражного — вн. 2 ст. 125 АПК РФ. В нашей работе сущностные

требования оцениваются отдельными метриками (например, ссылки на законодательство), однако мы выделим в отдельные категории формальные требования для всех документов,

1) Обязательные, влекущие за собой отказ в принятии искового заявления при их отсутствии (метрика полноты строго ойяш-т ельн ых рекеиш шов):

а) Наименование суда, в который подаётся заявление:

«Суд первой инстанции обоснованно отказал истцу в принятии искового заявления, поскольку истцом *** Ю,В, не соблюдены требования П. 1 Ч. 2 СТ. 131 ГПК РФ, ошибочно указан судебный участок № 101 района Замоскворечье Г. Москвы. Истцу следовало указать в исковом заявлении Замоскворецкий районный суд г. Москвы» [6];

б) наименование или фамилия, имя, отчество (при наличии) истца;

в) наименование или фамилия, имя, отчество (при наличии) ответчика (напрямую в судебной практике такие дела почти не встречаются, тем не менее, в отсутствие таких данных либо при установлении факта ликвидации юридического лица к моменту подачи иска невозможно идентифицировать стороны процесса [7]);

г) подпись истца (п/п 4 п. 1 ст. 135 ГПК РФ, п/п 6 п. 1 ст. 129 АПК РФ).

2) Важные, влекущие за собой оставление без движения искового заявления при их отсутствии (метрики полноты ООяЗитель-н ЫХ реквти тов):

а) сведения об истце: физическое лицо (дата и место рождения, место жительства, место работы, идентификатор (например, ИНН), номер телефона и адрес электронной почты); юридическое лицо (адрес, ИНН, номер телефона, адрес электронной почты [8]);

б) сведения об ответчике: физическое лицо (дата и место рождения, место жительства, место работы, идентификатор (например, ИНН), номер телефона и адрес электронной почты); юридическое лицо (адрес, ИНН. номер телефона, адрес электронной почты);

в) цена иска;

г) перечень прилагаемых документов, включающий квитанции об отправке копии заявления ответчику заказным письмом с уведомлением о вручении.

Подводя итог данной характеристике, сформулируем метрику полноты строго обязательных реквизит ов искового заявления как отношение количества имеющихся строго обязательных реквизитов к количеству строго обязательных реквизитов и метрику полноты обязательных реквизитов искового заявления как отношение количества имеющихся обязательных реквизитов к количеству обязательных реквизитов. В данном случае и строго обязательных, и обязательных реквизитов всегда будет четыре.

Первым критерием должна быть метрики правильности предложений, которая будет вычисляться как отношение количества неправильно построенных фраз к общему количеству предложений в Тексте. Под правильностью здесь будет пониматься не грамматическая правильность предложения, которая в настоящее время Практически не вызывает нарекании, а правильность с точки зрения содержания. Например, фраза «Истец является займодавцем по договору купли-продажи» является ¡рамматически правильной, но неверной но существу.

Отдельно следует ввести метрику правильности использования терминов в виде отношения количества неправильно использованных терминов к общему количеству использованных терминов в тексте {включая в понятие «термин» как отдельные слова, так и устойчивые словосочетания). Данный показатель необходим, поскольку правильность предложения не всегда означает, что термин в предложении использован верно, так как неверно использованное слово или словосочетание может быть правильно понятным в контексте всего предложения, однако сама по еебе проблема неточности его употребления от зггого не снимается. Например, предложение «Займодавец перечислил наличными сумму займа Заёмщику» будет правильным по своей сути, однако более правильной в данном контексте будет фраза «Займодавец передал наличными сумму займа Заёмщику».

Важным элементом любого юридического документа является ссылка На нормативные акты. Сама по себе ссылка на законодательство не всегда является обязательной: например, ст. 131 Гражданского процессуального кодекса РФ не предусматривает в числе

обязательных реквизитов искового заявления ссылку на закон, в отличие от аналогичной статьи Арбитражного процессуального кодекса РФ (см. подпункт4 п. 2 ст. 125 АПК РФ: «требования истца к ответчику со ссылкой на законы и иные нормативные правовые акты...»). Тем не менее, ясно, что исковое заявление без ссылок на законодательство будет выглядеть как минимум непрофессионально.

Метрика правильности ссылки на законодательство будет рассчитыватъся как отношение количества правильно приведённых ссылок к количеству ссылок, которые эксперт считает необходимым для данных требований. Здесь необходимо отметить, что общепринятой, Но неправильной Практикой является чрезмерное цитирование нормативных актов, которое варьируется от простой избыточной отсылки к нормативному акту до полной цитаты из закона. Например, при подаче искового заявления многие юристы любят вставлять ссылку на ту же статью 125 АПК РФ, что на самом деле не несёт никакой смысловой нагрузки.

Метрика избыточности юридического текста представляет собой большую дискуссионную проблему, находящуюся на стыке правовой ПОЛИТИКИ, экономики и юриспруденции и смежной как с задачей обеспечения понятности нормативного акта, т ак и с задачей регулирования общественных отношений. Безусловно, механистическое применение метрики информационной избыточности как части информационного сообщения, не выполняющего функциональной на1~рузки и которая может быть опущена без потери смысла [9], допустимо далеко не во всех случаях, на что справедливо обращают внимание многие исследователи [ 10]. Тем не менее, поскольку мы имеем дело с процессуальными документами, а не с нормативным актами, и нуждаемся в объективной численной характеристике текс та, без этой метрики не обойт ись. Возможно также определение избыточности юридического текста через понятие «оптимальной избыточности», когорая включает в себя наличие в тексте такого количества информации, которое необходимо и дос таточно для принятия верного решения [11]. Мы будем рассматривать в качестве такой метрики соотношение количества предложений, не

несущих, смысловой нагрузки, с общим количеством Предложений в тексте.

Особой метрикой является общая мет-рикп близости готового документа к качественному исковому заявлены». Она представляет собой шкалу качественной оценки Документа экспертом с предложением выбрать категориальные ответы из набора: «идеально соответствует», «неидеален, но может быть использован», «исковое заявление будет оставлено без движения», «документ будет возвращён заявителю». Эта метрика необходима, гак как несмотря на все перечисленные метрики, ошибки в документе могут быть настолько существенными, что он в целом не годится д;ш подачи в суд, и конечное слово в данном случае должно быть за экспертом. Некоторые документы, представленные нейронными сетями, являются откровенно смешными с юридической точки зрения, формализовать эту характеристику на этом этапе крайне сложно, Поэтому Придётся

оставить место волюнтаризму эксперта. Метрика даёт информацию о расстоянии между предложенным документом и идеальным исковым заявлением, поэтому за 0 в ней принимается полное совпадение с идеалом, а за I -полное несовпадение.

Подобное категориальное делен не не позволяет' в полной мере отразить правильное восприятие экспертом соотношения между терминами, поэтому оно обязат ельно должно сопровождаться вычислениями порядкового соотношения между понятиями. Не входя в подробности этой методики, отметим, что нами использована система визуального вычисления порядкового отношения между терминами [12]. Поскольку в данном случае выборка состояла из одного эксперта, это вычисление можно было провести один раз, но, безусловно, дальнейшая работа будет предполагать большую выборку экспертов. Предлагаемые метрики приведены в таблице 3.

Таблица 3

Метрики качества Юридических текстов

Наименование метрики Формула Диапазон значений Описание

Правильность изложения основания иска Fi/F (0,1] Р! - количество правильных и значимых юридических фактов Р - количество юридических фактов, которые должны быть приведены по данному типу искового заявления

Правильность формулировки предмета иска Dl/D (0,1] 0] - количество правильных и значимых требований 0 - количество требований, которые должны быть включены в исковое заявление

Полнота строго обязательных реквизитов заявления RO, / RO (0,1] RO| — количест во строго обязательных реквизитов в заявлении RO - количество строго обязательных реквизитов заявления

Полнота обязательных реквизитов заявления Ri/R (0,1] 1^1 - количество обязательных реквизитов в заявлении R - количество обязательных реквизитов заявления

Правильность предложений Si/S (0,1] 51 - количество неправильно изложенных предложений 5 - общее количество предложений

Правильность использования терминов Ti/Т (0,1] Т] - количество неправильно использованных терминов Т - общее количество терминов

Продолжение таблицы 3

Наименование метрики Формула Диапазон значений Описание

Правильность ссылки на законодательство Ul L (0,1] L, - количество правильно использованных ссылок на законодательство L - общее количество необходимых ссылок на законодательство

Избыточность юридического текста G,/G (0,1] Gj - количество бессмысленных предложений G - общее количество предложений

Близость Готового документа к качественному исковому заявлению С Е (0Д| (0,1] 0 - совладение с идеальным заявлением 1 - полное несовпадение с идеальным заявлением

Bee результаты ответов сохранены в текстовом формате. Поскольку результаты, предоставляемые YandexGPT 2, разбиваются на части, в текстовых форматах они объединены с исключением технических сообщении системы (таких как «продолжить генерацию»), а также пустых строк. Для удобства подсчёта каждое предложение начинается с новой строки. В тех случаях, когда Части предложения выделены в отдельные абзацы,

такое разделение текста сохранено. Например, слова «Требования Истца:» не составляют предложение с грамматической точки зрения, однако в данном случае выделены в отдельный абзац, поэтому счи таются за предложение.

Результаты исследовании. В ходе исследования были проведены расчёты но каждой категории дел. Результаты представлены в таблице 4.

Таблица 4

Результаты инснки качества сгенерированных текстов

Номер кат егории дел / метрика 1 2 3 4 5 6 7 8 9 10

Правильность изложения основания иска Fi 4 1 3 1 2 2 0 2 1 3

F 4 3 3 2 3 3 2 2 4 3

Результат 1,00 0,33 1.00 0,50 0,67 0,67 0,00 1,00 0.25 1.00

Правильность формулировки предмета иска Dj 1 2 1 0 2 1 0 1 1 1

D 1 2 1 1 2 1 2 1 1 1

Результат 1 1 1 0 1 1 0 1 1 1

Полнота строго обязательных реквизитов ROi 3 4 1 2 2,00 1 1 1 1 1

RO 4 4 4 4 4 4 4 4 4 4

Результат 0,75 1.00 0.25 0,50 0,50 0,25 0,25 0,25 0.25 0.25

Полнота обязательных реквизитов Щ 0 0 0 0 0 0 0 0 0 0

R 4 4 3 4 4 4 4 3 4 4

Результат 0 0 0 0 0 0 0 0 0 0

Правильность предложений Si 5 8 а 10 11 6 10 5 6 10

S 31 25 25 25 28 22 24 22 25 24

Результат 0,16 0,32 0,32 0,40 0,39 0,27 0,42 0,23 0,24 0,42

Продолжение таблицы 4

Номер категории дел / метрика 1 2 3 4 5 б 7 8 9 10

Правильность использования терминов Ti 8 25 10 9 12 11 15 12 10 16

Т 84 108 79 72 85 84 88 66 78 101

Результат 0,10 0,23 0,13 0,13 0,14 0,13 0,17 0J8 0,13 0,16

Правильность ссылки на законодательство Li 0 0 0 0 0 0 0 0 0 0

L 1 1 1 1 3 2 1 1 ] 1

Результат 0 0 0 0 0 0 0 0 0 0

Избыточность юридического текста Gl 12 9 12 И И 8 9 8 9 8

G 31 25 25 25 28 22 24 22 25 24

Результат 0,39 0,36 0,48 0,44 0,39 0,36 0,38 0,36 0,36 0,33

Близость готового

документа к качественному 1 1 1 1 1 1 1 1 1 1

исковому заявлению

Итог: пригодность к использованию нет нет нег нег нет' нет' нет нет нет нет

Хотя грамотность русского языка не оценивалась, можно отметить, чт о незаметное употребление некоторых слов в околоюридических текстах Проникло и в генерируемые тексты. Так, ChatGPT не знает русского слова «заём», используя вместо него отсутствующее в русском литературном языке слово «займ» [13]. Конечно, такая орфографическая ошибка никак не влияет на качество документа, лишь снижая общее эстетическое восприятие текста. Иногда система выдаёт достаточно странные ошибки, например; «они более не могут продолжать совместнуюжиЗнр> или пу гает род: «Постоянное и неисправимое разлад». Такие ошибки могут быть допущены и человеком, и в судах на них особого внимания не обращают, если только речь не идёт о существенных ошибках в Просительной части.

Подготовленные документы каждый раз сильно от личаются друг о г друга. Хотя в российском законодательстве и даже судебной Практике нет установленных шаблонов исковых заявлений, существует общепринятая форма лих документов, упрощающая их обработку. В целом все системы следую т общепринятой последовательности изложения текста заявления (сперва указываются стороны, цена иска, обстоятельства дела, просите.] ьная часть, подпись, приложения).

Достаточно интересным оказалось то, что ни в одном из заявлений не возникло т.н. «галлюцинаций», когда в тексте появлялись бы совершенно неотносящиеся к делу предложения. Эта проблема часто встречается в задачах генерации изображений [ 14].

Уапс1ехСРТ 2 нес первого раза выдаёт исковое заявление. Не известно, от чего зависит такое поведение, но прежде чем получить отвез в виде заявления, приходится несколько раз повторять запрос. В большинстве случаев система выдаёт отвес «Простите, но я не могу составить для вас исковое заявление но этому запросу. Я не обладаю Достаточными знаниями и опытом в области юриспруденции, поэтому могу допустить ошибки или неточности в документе. Рекомендую вам обратиться к юристу для получения квалифицированной помощи в этом Вопросе».

После успешного ответа на первый запрос {о взыскании долга по заёмной расписке) Уагк1ехСРТ 2 перестала выдавать ответы, поэтому исследование в эт ой части пришлось Прекратить. Это тем более вызывает сожаление, поскольку именно документ, подготовленный с помощью этой системы, оказался наиболее близким к желаемому результату по сравнению с документами, выданными СЬа1СРТ.

В случае решения вопроса об автоматизации создания документов необходимо учитывать эту особенность поведения системы, так как получение ответа на запрос не гарантировано.

Также значительная часть документов, выдаваемых СЬа10РТ, быта снабжена предложением обратиться к юристу или адвокату за консультацией.

Обсуждение, Несмотря на То, что целью работы является введение численных характеристик качества юридических документов, проведённое исследование не лишено волюнтаризма эксперта. Для его исключения следовало бы увеличить количество экспертов, получив от них письменные пояснения по каждому выставленному баллу в отношении документации.

В работе сознательно не обсуждается вопрос о тонкой подстройке запросов к системам искусственного интеллекта. Действительно, запрос к системе можно улучшать до бесконечности, но тогда возникает вопрос, что вместо специалиста-юриста пользователю потребуется специалист по запросам к

ChatGPT, То есть никакой замены человека нет искусственный интеллект не произойдёт.

Использование платной версии ChaiGPT в рамках данной работы не предусматривалось в связи с отсутствием финансирования, а на запрос о Предоставлении академической лицензии для доступа к коммерческой версии компания OpenAl не ответила. Судя по имеющимся публикациям в прессе, отличия в плане качества документов между платной и бесплатной версией не являются существенными.

Заключение. Ни один из подготовленных документов не быт бы принят судом к производству, все они содержали неустранимые в рамках подготовки к судебному заседанию недостатки и подлежали возврату. Тем не менее, предлагаемые метрики позволяют ввести традацию документов и определить наиболее близкие к идеальному исковому заявлению варианты. В дальнейшем метрики Moiyr быть использованы в разработке автоматизированных систем интеллектуальной поддержки юридической деятельности .

Список ист очи и ко в

1. Юрьев Р, О применении искусственного интеллекта при обработке юридических текстов и принятии решении на основе компьютерных систем Н Хозяйство и право. 2019, № 1 (504), С, 116-128.

2. Переходько И, В., Мячнн Д. А. Оценка качества компьютерного перевода // Вестник Оренбургского государственного университета. 2017. № 2 (202). С. 92-9(5

3. Мптреннна О. В., Мухамбегкалиева А. Г, Как и какой перевод (не) оценивают компьютеры // Journal of Applied Linguistics and Lexicography. 2021. T. 3. № 2, C, 77-S4.

DOI 10.33910/2 687-0215-2021 -3-2-77 - 84.

4. Данные судебной статистики H Судебный департамент при Верховном Суде РФ, Официальный вебсайт [Электронный ресурс]. - Режим доступа: hdp://www .cdep.ru/i ndex. ph p?id=79&item= 7645

5. Васьковский E. В, Курс гражданского процесса: Субъекты и объекты процесса, процессуальные отношения н действия. - М.: Статут, 2016,

- 624 с.

6. Апелляционное определение Московского городского суда от 04.07,2014 по делу N 33-26903 Н СПС «КонсультантПлюс» [Электронный ресурс]

- Режим доступа: https://www.coiisultant.ru/

References

1. Yuriev R. On the Use of Artificial Intelligence in Processing Legal Texts and Making Decisions Based on Computer Systems Hozvajstvo i pmvo 2019. No. 1 (504). pp. 116-128. (In Russ.).

2. Perekhodko I V, Myachin D. A. Assessing the Quality of Computer Translation. Vestnik Oren-burgskttgo gosudarstvennogo universiieta. 2017. No. 2 (202). pp. 92-96. (In Russ.).

3. Mitrenina O. V., Mukhambetkalieva A. G. How and What Translation is [not) Evaluated by Computers. Journal of Applied Linguistics and Lexicography^ 2021 Vol. 3 No. 2. C 77-84. (In Russ.)

DO! 10.33910/2687-0215-2021-3-2-77-84.

4. Judicial Statistics Data. Judicial Department of the Sup re trie Conn of the Russian Federation. Official website. Available at: httpv'/www.cdep.ru/i index. php1id=79&item=7645 (In Russ.).

5. Vaskovsky E.V. Course of Civil Procedure: Subjects and Objects of the Process, Procedural Relations and Actions. Moscow. Statute. 2016. 624 p, (In Russ.),

6. Appeal Ruling of the Moscow City Court dated July 4, 2014 ill Case No. 33-26903. SPS «Consult-antPlus». Available at: https://www.consultant.ni/ (In Russ ).

7. Апелляционное определение Московского городского суда от 20.08.2019 па делу N 3335670/2019 // СПС «КонсультангПлюс>> [Электронный pecypcj - Режим доступа: https://www.oonsiihant.ru/

8. Апелляционное определение Верховного суда Республики Мордовия от 22.06.2023 N 331059/2023 И СПС «Консул ьтантПлюс» [Электронный ресурс] - Режим доступа: https://www. consultant.ni/

9. Кудрявцев Ю. В. Нормы права как социальная информация- Мл Юридическая литература. 1981 - 144 с.

10.Белоусов С. А. Дисбаланс российского законодательства и информационная избыточность нормативно-правового текста: соотношение и взаимосвязь Н Правовая культура. 2015. № 4 {23). С,48-57

11.Лупандина О, А, Оптимальная информационная избыточность в текстах нормативно-правовых актов // Известия ЮФУ. Технические науки. 2009. №3(92). С. 155-160

12. García-Lapresta J.L., González del Pozo R., Pérez-Román □ . Metrizable Ordinal Proximity Measures and Their Aggregation // Information Sciences. 2018 T. 448-Í49. C. 149-163. <In Eng.). DOl: I0.1016/j.iiis.2018,03.034. (З.Грамота.ру [Электронный ресурс] - Режим доступа: http://gramota.jru/slovari/dic/?lop=x&bt5= х &zar=x&ag=x& ab=x& si n=x ftfv=x&az=x&pe=x & word=iaeM

14. Zhang Y., Tsang I. W., Lno Y., llu Lu X., Yu X. Recursive Copy and Paste GAN: Face Hallucination From Shaded Thumbnails II IEEE Transactions on Pattern Analysis and Machine Intelligence. T. 44. №8. C. 4321^338. (In Eng.). DOI: 10. J109 TP AM 1.2021.30Й1312.

7. Appeal Ruling of the Moscow City Court dated August 20,2019 in Case Mo. 33 -35670/2019. SPS «Con-suhantPíta». Available at: httpsj/Vwww.consult-aiit.ru/ (In Russ.).

8. Appeal Ruling of the Supreme Court of the Republic of Mordovia dated June 22.2023 N 33-1059/2023. SPS «ConsuItantPlus». Available at: https://www. consultaiH.ru/ (In Russ ).

9. Kudryavtsev Yu. V. Rules of Law as Social Information. Moscow. YUridicheskaya Hi eral um. 1981. 144 p. (In Russ.)

10. Belousov S, A. Imbalance of Russian Legislation and Information Redundancy of the Regulatory Text: Correlation and Interrelation. Prui-ovaya kul'tura. 2015. No. 4 (23) pp 48-57. (In Russ.).

11. Lo pandilla O. A. Optimal Information Redundancy in the Texts of Regulatoiy Legal Acts. Izvestiya YUFU Teklmicheskie nouki. 2009. No. 3 (92). pp. 155-160. (In Russ ).

12. García-La presta J.L., González del Pozo R., Pérez-Román □. Metrizable Ordinal Proximity Measures and Their Aggregation Information Sciences. 2018 Vol. 448-449 pp. 149-163.

DOI : 10.1016/j ins 2018.03 034.

13. Gramota.ru. Available at: http://graniota.iiV slovari/dic/?lop=x&bts=x&zar=x&ag=x&ab=x& sin=x&.lv=x&az=x&pe=x&word=iaëM (In Russ.).

14. Zhang Y. Tsang I. W., Luo Y., llu C., Lu X., Yu X Recursive Copy and Paste GAN: Face Hallucination From Shaded Thumbnails. IEEE Transactions on Pattern Analysis um! Machine Intelligence. Vol. 44. No. 8. pp. 4321^4338.

DOI: 10 1109/TPAM1.2021.3061312.

Í татья наступила врейащию 27.05.2024; oöoöpena ttoc.ie рецензирования 2i.06.2024: примята к публикации 26.06.202-1. The article was submitted 27.05.2024: approved after reviewing 2!..06.2024; accepted for publication 26.06.2024.

университет итмо

НАУЧНО ДВйИНеОйНЙ В МЕ*АнИКИ НОППШ1

■шфт-йлрь*. 2022 Т£м 22 № 2 hap //fib- Jma.ли/

5CENT1FIC МЧС TECHNICAL JOuflhAL OF TECHNÖjOGJES MECHANIC'S AND OPTICS

MAfCh-AfV a £022 VOL 22 2 hop .> /ffi*/ши.|ц<ш1,

ISSN 2226- 1J&4|piilO ISSN 2500-0373 iiiflifS-1

МММГШМНИ MI'I

diu. 10.17 Sti 6.2226-1494-2022-22-2-2Х7-2ЧЗ

удк оод.з

Классификация коротких текстов с нсшмьшванием волновой модели

АнКтШ! Сфшваа Гругдева1—, Игорь. Александрович Бессмер [ нии'

Университет ИТМО, Санет-Петербург, 137101, Рйсслйская Федерация

1 prog.anastasia@ gmailcomf ^, https:,7oicidor^t)000-000j4%j-0823

2 bessiiieitny(iJiüiio.ni, https://orcH.oig.'0000-0001-6711-63ЧЧ

Ливотщп

11|№дмет нсследриння. Ал го ритмы квантовых вычисления активно рншпангга и применяются а области обработки u>iu.i4nnw flu ля 13 работе предложен новый квантовсмюдобныП метод классификации коротких текстов. Меты. Основу метода составляет представление текста в виде ансамбля элементарных частиц. 13 качестве критерия классификации выбрано щщне амллнтуди вероятности обнаружения данного ансамбли в вибранных точках векторного пространства, описываемого при ломощи дистрибутивно-семантической модели я шла. Предложен один ил лот мешеных способов интерн реи дни параметров вод новой функции описания доведения плементардоП частицы. а также алгоритм расчета амплдтуды вероятдостн с учетом :>tliv параметров, (кштнис ретулыати. Выполнена nirп"ряпттпгтг Щ1 л проверка описанного метода с применением классификации ннтерлет-сообществ по тематикам Для расчетов иеппльзовады над мел овал ия д сведения рапделов «информация» до 11X1 груш мм еоциальлоП сети «ВКолтактеи по пятд различным темам Предложенная модель показала достаточно высокую точность класснфикацдн, которая составила 01 "-и в целом на даборе данных йот 75 % до 35% в лределахотдельлых классов. Практическая ¡начнчисчь, Представленная модель может быть дспотыовада для классификации опывов лольтователей о товарах, услугах и событиях, а также прн определении декоторык свойств пслхологнчесхлх портретов пользователей интернет-сообществ. К.1Н1ченые слова

классификации, обработка естественного языка, волдовая модель, ннтерфередцдя, квантово-лодобдая модель,

определение тематики теиста

Благодарности

Работа выполнена в рамках магнстерснз-аепдрантекоП НИР№ 62(1164 «Методы искусственного л нтеллекта для кдБерфтнческдх систем».

Ссылка XIн цитирования: Груздева A.C., Бессмертный H.A. Классификация коротких текстов с использованием волновой модели// Научно-технический вестник информационных технологий, механики ноптдкд. 2022. Т.22, J6 2.C 287-231 doi: ¡0.175Е6Ш26-1434-2022-22-2-2К7-293

Classification of short texts usitlg a wave model An astasia S. Gmzdem'^, IfjorA. Bessmertny-

ITfvtO Univereity, Saint Petersburg, 137101, Russian Federation

1 prog.aiiaslasia^ginail.com^, htips:,7oicid.org.,'0000-0003^t<i63-0G23

2 tiessiiieiTiiy@Luiio.ni, littps://ordd.oig.'0000-000l-67l 1-6399

Abstract

Quantum compiling algornhms are actively developed and applied in the field of natural language processing The anchors of the paper proposed a new quaiitnm-like method tor classifying slioiT texts. Tlie basis of die method is the representation of the text as an ensemble of elementary particles The value of the detection probability amplitude of a given ensemble at die selected points in space is chosen as a classification criterion. In iliis case, llie space Is understood as a veclor space described using the distributive-semantic model of the language. The a utliors suggested one of the possible ways otTmeipretmg the paiameieis of die wave function dial describes the behavior of an elementary particle, as

J pyeicsa A_C . Ьессместный ИЛ, 2Ü22

well as an algorithm for calf ulaling die probabil Lty ampUtude taking mlo account these parameters. For [ho experimental research of llie described method, authors performed the classification, of Internet communities by topics, for the analysis, the names and tlie "information" section ofcanutiunilies were used. In total, 100 groups of the social network "VKontakle" belonging to five various topic; »ere taken The proposed model showed rather high classification accuracy (91 % in general on the Jala set and from 75 % la 95 % within individual classes). The proposed model is supposed la be used (o classify user comments about goods, serv ices and events, as well a* to determine some properties of the psychological portraits of users of online communities Kei wards

classification, natural Language processing, wave model, interference, i|uan[um-like model, definition of the lext subject AknuM led£eiiients

Hie work was earned out withm the framework of Uie projeel No 620164 (artificial intelligence methods tbrcyber-physlcal systems).

rnr rltirtfi CiniTdeva A S , Hessmenuy I A Classification ofslion lexu using a wawe model. Scientific and Technical Journal of Information Technologies. Mechanics and Optica, 2022, vol. 22, no. 2, pp. 2X7-293 (in Russian), doi: 10.175KS/2226-14M-2022-22-2-2K7-291

Введение

Квантово-подобные вычислительные методы [1] и последние десятилетия активно развиваются и достигают значительных успехов, особенно в области поиска и анализа текстовой информации [2]. При иш кваитово-мсхаиичсский подход не только применяется самостоятельно, но и позволяет получить хорошие результаты во взаимодействии е классическими методами [3. 4] Однако далеко не все возможности, предоставляемые математическим аппаратом квантовой механики, активно применяются в настоящее время в сфере обработки естественного я:!ыка что оставляет широкие возможности для разработки новых моделей и совершенствования существующих. В данной работе предложена новая квантово-подобная модель, предназначенная для обработки и анализа текстовой информации. Модель является дополнением к ед&сск-чсской дистрибутивно-семантической языковой модели. Предложенный подход базируется на представлении текста в виде волнового пакета. Мрп этом на расчет важной волновой характеристики каждого :илемснта, а именно волнового числа, оказывактт нлияние все слова текста. Таким образом, волновая модель может рассматриваться как один из вариантов описания взаимосвязи слов в тексте. Кроме того, волновой подход предоставляет принципиальную возможность наблюдать такое явление как интерференция

Разрабатываемую модель предполагается использовать в первую очередь для классификации коротки* текстов. В настоящее время такие задачи являются весьма востребованными. Во-первых, данным алгоритм может применяться для структуризации и многоуровневой классификации отзывов пользователей о товарах, услугах, явлениях и событиях, что может служить расширением возможностей известных методов ссн-тимент-анализа [б-й]. Другое потенциальное применение — определение тематик интернет-сообществ, что даст возможность заочного выявления сферы интересов пользователей и может быть интересно специалистам в сфере управления кадрами, а также сотрудникам психологических служб школ и других учебных заведений Разрабатываемая модель станет дополнением к другим работам в области методик построения психологического портрета автора на базе анализа текста [9, I О].

Волновая мидель представлении тенета

Для анализа текстовой информации рассмотрим волновую модель, в рамках которой текст представляется в виде ансамбля ллс мент арных частиц. В таком ансамбле каждое слово текста, относящееся к самостоятельным частям речи, представлено как отдельная частица В соответствии с основами квантовой механики 111J, а именно с принципом корпуекулярно-волнового дуализма, поведение такой частицы может быть описано при помощи волновой функции:

у, = + V,

rij

(1)

где А. — амплитуда; г» — расстояние; к, — волновое число, — скорость распространения волны: ф^ — начальная фаза

Волновая функция представляет собой сферическую волну, интенсивность которой отражает вероятность обнаружения частицы в различных точках пространства в различные моменты времени.

Текст, рассматриваемый как ансамбль тлементарных частиц, в то же время может быть представлен как волновой пакет, состоящий из конечного числа сферических волн, причем суммарная интенсивность такого пакета в точке пространства / отражает амплитуду вероятности обнаружения ансамбля частиц в данной точке. Для расчета интенсивности пакета исполняется уравнение, известное из курса волновой механики [11] Ы А. ',= !(-? + ¿=1 т

£ А, А*

- 2 1 2, -- к„г,п + фу, - фЖ|),

J=^ Гр и,,

где М — количество воли в пакете, что соответствует числу слов, относящихся к самостоятельным частям речи в исходном тексте.

При атом второе слагаемое уравнения, представляющее собой удвоенную сумму п опарных произведений злементов, отвечает за интерференцию, которая может наблюдаться при определенных комбинациях волновых чисел, начальных фаз и расстояний от источника до точки наблюдения различных волн, представляющих отдельные слова текста. Учет интерференционного

А.С. Груздева. И.А. Бессмертным

члена даст возможность, одним Сдавим, усиливать или ослаблять влияние других слов на расист вероятности близости текста к выбранному классу.

Б качестве базиса для работы волновой модели используется предобученпая дистрибутивно-семантическая модель [12] в которой слова представляют собой векторы в пространстве контекстов, а расстояния между ними отражают семантическую близость между понятиями. Таким Обр&ЭОн, высокая амплитуда вероятности обнаружения ансамбля чаетпц, представляющего текст, и некоторой точке такого пространства, может говорить о высокой смысловой близости данного текста к понятию, занимающему тгу точку пространства. Если есть несколько точек пространства, для которых может быть вычислена соответствующая амплитуда вероятности (2), то можно предположить, что исходный текст будет ближе всего по смыслу к тому понятию, в области которого амплитуда вероятности выше. Именно такой принцип лежит в основе классификации текстов с использованием волновой модели.

Рассмотрим интерпретацию параметров волновой функции для случая представления текстовой информации Расстояния Гц игь в уравнениях (I) и (2) отражают семантическую близость между понятиями — являются величинами, обратно пропорциональными близости. Для расчета волновых чисел к,, кн используются следующие соображения. У -ансамбля частиц, представдмющего текст, может быть найден центроид, который можно рассматривать как точку, в которой вероятность обнаружения ансамбля в целом максимальна. Следовательно, в указанной точке амплитуда вероятности, рассчитанная при помощи уравнения (2), должна быть максимальной, что может быть достигнуто, если на пути от каждого элемента ансамбля до центроида будет находиться целое количество дли и волн (в простейшем случае — одна длина волны). Такие предположения дают возможность рассчитать волновое чиело, которое представляет собой количество длин волн в единице длины. Таким образом, для вычисления волновых чисел используется уравнение

1

^--■

Гс1

нис начальной фа лл на л. Если между частицей «не» и исследуемым термином присутствует другое слово, как, например «хлеб не очень свежий», то частица «не» тоже меняет значение исходного слова, но уже не на противоположное, а на некоторое среднее, что может соответствовать изменению начальной фазы, допустим на ж/2. Такие рассуждения не дают возможности вывести достаточно точный алгоритм расчета начальной (|»азы. Если для частиц, обозначающих отрицание, возможно применение хотя бы интуитивного алгоритма, то методика учета влияния на начальную фазу прочих служебных частей речи, таких как предлоги и союзы, а также знаков препинания и форм слов в тексте, подло жит дальнейшему изучению. В данный момент расчет начальной фазы реализован только для частиц «не» н «ни» в соответствии с изложенными выше правилами Для всех остальных слов начальная фаза считается равной нулю Возможность использования исходной формы слова в тексте, а также других служебных слов для уточнения начальной фазы в настоящей работе рассматривается и изучается. Однако начальная фаза не определяет полностью фазу волны, а является одной из ее составляющих наряду с волновым числом и расстоянием от источника до точки наблюдения, как тто видно из уравнения {I). Потому отсутствие сведений о начальной фазе оставляет, тем не мен се, возможность использования волновых уравнений с учетом того, что информация о волне будет неполной.

Амплитуды АрЛя в данной модели не представляют трудностей при интерпретации и рассматриваются как количество вхождений данного термина в исходный текст При ¡том учитывается, что одни и тс же слова с разными начальными фат мл являются разными ват нами и нх амплитуды не складываются.

Таким образом, в рамках описан ной модели тскет пред ставлен как волновой пакет, в котором каждое слово, относящееся к самостоятельным частям речи, формирует сферическую волну. Амплитуда волны зависит от количества вхождений данного слова п текст Значение слова в контексте повествования отражает волновое число, а начальная фаза определяется окружением слова.

где — расстояние от термина / до центроида ансамбля.

Вычисление начальных фаз ф р, ф„ц представляет собой большую сложность. Возможны разные подходы к расчету данной величины. С одной стороны, в фазе соответствующей волны может быть учтена форма слова в тексте При построении математической волновой модели значащие слова текста прообразу кттея к начальной форме, при этом теряется исходная форма слова. Возможно, данная информация могла бы найти отражение в фазе волны. С другой стороны, на начальную фазу волны может влиять ближайшее окружение слова, а именно служебные части речи и знаки препинания. Проще вссга понять угу идею на примере частицы «не». Например, сравнив выражения «хлеб свежий» и «хлеб не свежий», видим, что частица «не», стоящая перед еловом «свежий», меняет значен не слова на противоположное, что можно рассматривать, как нзмснс-

)ьспер именI а_ шнос исследование вил новой модели

Выполним жеперимеитальнос исследование применения волновой модели с целью классификации коротких текстов. Выберем анализ тематики открытых сообществ в социальной сети «ВКонтактс»1. Отберем 100 групп, принадлежащих следующим тематикам: путешествия, спорт, кулинария, гуманитарная, техническая, по которым проведена классификация текстов 11рн отборе отдано предпочтение «сообществам но интересам», а не группам, принадлежащим коммерческим организациям. Такое условие объясняется предположением. что информация, содержащаяся в коммерческих группах, может быть переполнена ключевыми словами.

1 Социальная сеть «Вколтакте» | Электронный ресурс|. URL: hnps://vk com (дата обращения: 15.0] .2022).

относящимися к длннон тематике для улучшения условий индексации и поиска. Следовательно, классификация mix групп может дать завышенные показатели точности расчетов.

Для анализа использованы все слова, принадлежащие самостоятельным частям речи из разделов «наименование» и чинформация» сообщества. Длинные тексты были обрезаны до 1500 символов, что позволило сократить время вычислении без потерн точности. Использование только начальной части более длинных текстов принято допустимым, так как в описании сообществ полезная информация, относящаяся к тематике, обычно располагается в начале. Концовки текстов, как правило, посвящены регламенту поведения в фупле, размещению рекламы и т. п. Преобразование исходного текста в массив слов с определением частей речи выполнено с использованием внешней библиотеки «nilcmma»'. Расчет семантических расстояний выполнен с использованием модели «Национальный корпус русского языка (НКРЯ) и Викннедня» при помощи API-методов (Application Programming Inlet tace — программный интерфейс приложения), предоставленных интернет-ресурсом «mwcctores»2 Выбор данной модели [ 12J обусловлен главным образом тем, что она находится в открытом доступе, предоставляет словарь большого объема (249 333 слова в версии за ноябрь 2021 года), а также снабжена удобными API-методами, которые позволяют работать с моделью, не разворачивая сс полную локальную копию.

Полученные значения близости сохранены в локальной базе данных для сокращения времени расчетов. Основная часть расчетов с использованием волновой модели, а также хранение 'экспериментальных данных осуществлено на платформе и 1С Предприятие S» Для проведения исследований использован ноутбук Toshiba Satellite Pro 650 1R-G (модель 2010 года) с процессором Pentium Dual-Core Т4500 (2,3 GHz) и объемом оперативной памяти 3 Г Б. Для определения влияния предложенной методики расчета начальной фазы на точность классификации вычисления выполнены для вариантов с учетом (Jtl)n без учета (№ 2) начальной фазы. Полученные результаты приведены в табл. 1.

Распределение текстов по группам, полученное в результате классификации для вариантов начальной фазы № I и № 2 показано в табл. 2.

Суммарная длительность классификации, включая ¡талы лемматизации, расчетов волновых чисел, начальных фаз и амплитуды вероятно Ста составила от 20 до 4422 с на один объект, в зависимости от длины классифицируемо™ текста (рисунок) На графике видно, что наиболее нагруженная часть алгоритма — расчет амплитуды вероятности в соответствии с уравнением (2). Основную часть нагрузки обеспечивает расчет суммы попарных произведений, организованный как вложен-

ные циклы. При этом внешний цикл выполняется п — I раз, где п не превышает количество значащих слов в тексте, а внутренний — проходит от значения счетчика внешнего цикла, увеличенного на 1 до я. Таким образом, трудоемкость алгоритма составляет 0(н2)

На основании полученных результатов сделаем следующие выводы.

В целом волновая модель обладает высокой точностью классификации коротких текстов по тематикам. Отметим класс «гуманитарный», точность классификации для которого оказалась значительно ниже, чем для остальных классов. Этот факт говорит не столько о погрешности самой волновой модели, сколько о возможной недостаточной точности определения позиции вектора, соответствующего понятию «гуманитарный» в базисной дистрибутивно-семантической модели. Данный результат возможен, так как существуют примеры пар слов, противоположных по значению сточки зрения человеческой логики, которые определяются моделью «НКРЯ и Википсдия» почти как синонимы. Это, например, пара ч черный—белый», для которой семантическая близость равна 0,732 или «много—мало» с семантической близостью 0,80Я Оба значения близки к единице, что соответствует словам, близким по значению. Следовательно, вычисление расстояний в исходной дистрибутивно-семантической модели может быть недостаточно точным, что оказывает негативное влияние на точность работы волновой модели. Для повышения точности расчетов целесообразно проводить предварительную Оценку качества представления терминов, обозначающих классы в днетрнбутивно-семантической модели и, возможно, замену исходных терминов синонимами с более точным представлением Также необходимо провести аналогичные расчеты с использованием других языковых корпусов для выбора оптимальной базисной модели, таких как, например, RDT [13] и DISCO 114, 1SJ.

Полученные результаты не дают возможность сделать вывод о влиянии предложенного алгоритма определения начальной фазы. При данном подходе учет начальной фазы не вызвал значительного изменения точности классификации в целом, немного ухудшив результатдля класса «гуманитарный» и улучшив — для класса ((технический» Очевидно, этот вопрос требует дальнейшей разработки и исследования.

Ta&iица I. Точность классификация с использованием

волновой модели. % Table I. Accuracy of classification using the wave model, %

1 Лемматнтор ди дттлшши техетов ("Электронный ресурс]. URL: littps://gnñab.com/Koziev/mlemma Iлага обращения: 05.СИ .2022).

J RusVectórís: семантические модели для русского Я1ыка [ИлектролныЛ ресурс]. URL: https.''/msvstores.org/' (дат»обращение 05.01.2022)

KjGlCC ТШЕПК'ГЬ классификации для вариантов начальной фазы

№ 1 №2

Путешествия 95 95

Кул ннарпя 95 95

Спорт 95 95

ГуыатгтарныЯ 75 КО

Технический 95 К5

Uce классы 91 •И)

Возможно использование не единичных понятий, представляющих классы, а группы синонимов, а также уточнение алгоритмов определения волновых чисел и начальных фаз волнового пакета. Еще одно важное направление работы — оптимизация алгоритмов и сокращение временных затрат при работе описанной модели.

В дальнейшем планируется уделить внимание исследованию возможностей повышения точности и

производительности предложенной модели. Предполагается изучить перспективы ее применения для решения других задач, связанных с классификацией коротких текстов, например, определение эмоциональной окраски сообщений, а также структуризация и обобщение отзывов и комментариев пользователей о товарах, услугах и событиях.

Литература

Nielsen MA, Chuang I.L. Quantum Computation and Quantum Information Cambridge University Press, 20] Ü. 704 p. httpso'/do] arg 10.1Ü17/CBÜ978Ö511976667

Melucci M. introduction to Information Retrieval and Quantum Mechanics, öerilin, Heidelberg: Springer-Verlag, 2.Ü15.247 p. htlps:// doi.org/10.1007/978-3-662-48313-S

В Lac oc W., Kashefi E., Lapata M. A Quantum-theoretic approach to distributional semantics Ü Proc, of the 201 3 Conference of ihe North American Chapter of the Association foo- Computational Linguistics: Human Language Technologies (NAA.CL HLT'). 2013_ P. Ä47-S57. Jaiswal A.K., Holdack G., Frommholz I., Liu H. Quantum-like Generalization of complex word embedding: a lightweight approach for textual classification ff CEUR Workshop Proceedings. 2018-V.2I91. P. 159-1ÄÄ.

Surov I.A., Semenenko H-, Platonov A.V., Bessmertny I.A., Galofaro F., ToEIano Z., Khrennikov A. Y., Alod|ants A.P. Quantum semantics of text perception // Scientific Reports. 202]. V. II. N I. P.4]<>3. https:-doi.org'10.I03S/&4159154)2]-K3490-9 Pang В., Lee L. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts // Proc. of the 4j>nd Annual Meeting Association for Computational Linguistics (ACL>.2004, P. 271-278. blips:/,'doi.org'10.3115/1218955.1218990 Клековкина M.B., Котельников LB. Метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики :'/ Электронные бнБлиотекн: перспективные методы и технологии, электронные коллекции: Материалы XIV Всероссийской научной конференции (RCDL-2U12). 2012. С. 118-123.

Меньшиков ИЛ. Анализ тональности текста, на русском яныке при помощи графовых моделей ;'/ Доклады всероссийской научной конференции АИСТ'2013 «Анализ Изображений,Сетей и Текстов». Екатеринбург, 2013. С. 151 -155.

I атарникова Т.М., Богданов О. JO. t loc троен не пен хшогичесиого портрета человека с прнмененнем технологий обработки естественного ятыка У/ Научно-технический веста не информационных технологий., механики и оптики 2021. Т. 21. № I. С. 85-91. blips:/,'doi.org/ 10 17586-2226- 1494-2021-21-1-85-91 Литвинова ГА.. Тагоров екая О.В., Середин I LB., J 1ангкшэва H.H., Шевченко И.С. Профилирование автора письменного текста: подходы, методы н их оптимизация /■' Филология, нскусствове-дениеи культурология: актуальные вопросы и тенденции развития: материалы международной. научно-практической конференции (13 мая 2013 г.). Новосибирск: СнбАК, 2013. С. 69-79. Френкель Я.И. Волновая механика. 4.1. Элементарная теория. Квантовая фишка. М.: UKSS, 2019.392 с. kutuzov A.. Kuzmenko fc. WcbVeclors: A toolkit for building web interlaces for vector semantic models V/Communications in Computer and Information Science. 2017. V. 661. P. 155-161 https://doi org" 10.1Ö07,'978-3-319-52920-2_l 5

Panchenfco A., Ustalcv D„ Arefyev N,, Papemo D., konstantinova N., Loukachevitch N.. Biemann C. Human and machine judgements about mssian semantic relaledness it Communications in Computer and Information Science, 2017. V. 661. P. 221-235, httpsjVdoi. org* 10.1007,'978-3-319-52У20-2_21

kolb P. Experiments on the difference between semantic similarity and relatedness if Proc. of the Nordic Conference of Computational L inguistics (NODALIDA G9>. 2Ü09. P. 81-SB. kolb P. DISCO: A multilingual database of distributional!у similar words It Proc. of the KONVENS-2ÜÜ8. Berlin. 200«. P. 6-12.

Referencti

3.

4.

5.

8.

Nielsen ML A., Chuang I.L. Quantum Computation and Quantum Information. Cam bridge University Press, 2010, 704 p. hllps:/'doi. org/10. 1017XÜB097S0511976667

Melucci M, Introduction to information Retrieval and Quantum Mechanics. Berlin, Heidelberg, Springer-Verlag, 2015,247 p. https:-djoi.org/10.1 (Ä7,'978-3.-662-48313-8

Blacoe W., kashefi E., Lapata M. A Quantum-theoretic approach to distributional semantics. Proc. of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Hu/nan Language Technologies (NAACL HLT), 2013, pp. «47-857. Jaiswal A.k., Holdack G-, I- ro mm holz I. Liu H. Quantum-like Generalization of complex word embedding: a lightweight approach for textual Classification. CEUR Workshop Proceedings.. 2018, vol 2191, pp. 159-168.

Surov I.A., Semenenko E., Platonov A.V., Bessmertny I.A., Galofaro F., TotYano Z., Khrennikov A.Y., Alodjants A.P. Quantum semantics of text perception. Scientific Reports, 2Ö21, vol. 11, no. I, pp. 4193 https://doi.org' 10. I Ü3S/&4159S-021-Ä3490-9 Pang B., Lee L. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum culs. Proc. of the 42^ Annual Meeu/tR Association for Computational Linguistics ,(ACL), 2.004, pp, 27I-27S. https^'/doi.org' lÜ.3115/1.218955.1218990 Kotelmkov E., KLekovkina M. Ihe automatic sentiment text classification method based on emotional vocabulary. Digital Libraries: Advanced Methods and Technologies. Pmc. of the RCDL-21)12,2012, pp. 118-123. (in Russian)

Mensbikov I.L. Sentiment analysis of a text in russian using graph models. Proc. of the Conference .4IST '2013 "Analysis of Images, Social Networks, and Texts ". Ekaterinburg, 2013, pp. 151-155. (in Russian)

Tatarnikova T.M., Bogdanov P.Yu. Human psyche creation by application of natural language processing technologies. Scientific and Technical Journal of Information Technologies. Mechanics and Optics, 2021, vol. 21, no. 1, pp. 85-91. (in Russian). bltpsoVdoi. org'110.17586,-2226-1494-2021-21-1 -85-91 Lrtvinova T.A., Zagorovskaia O.V., Seredm P.V., Lantiukhova N.N., Shevchenko IX". Author profiling of a written text: approaches, methods, and their optimization. Philology, Art Criticism, and Cultural Studies: Topical Issues and Development Trends. Proceedings of the International R esea rch-to -Practice Conference. May, 13. 20J3 Novosibirsk, SibAk, 2013, pp. 69-79. (in Russian) Frenke! J. Wave Mechanics: Elementary Theory. The Quantum Physics. Moscow, URSS, 2019, 392 p. (in Russian) Kutuzov A., Kuzmenko t. Web Vectors: A toolkit for building web interfaces ibr vector semantic models. Communications in Computer and Information Science, 2017, vol. 661, pp. 155-161. https:/,'doi. org" 10. l007.'L978-3-319-52920-2_ II5

13. Panchenko A., Uslalov D., Arefyev N1., Papemo D., Konstant!nova N.. Loukachevitch N., Biemann C. Human and machine [udgements about russian semantic rcLaledness. Commumcatiofts in f omputer and Information Science, 2017, vol. 661, pp. 22 L-235, https://doi. org/10. l007il978-3-319-52920-2_21

14. Kolb P. Experiments on the difference between semantic similarity and relatedness. Prx. of the 1Nordic Conference of Computational Linguistics (NODALIDA Wf, 20(19, pp. 81-88.

15. Kolb P. DISCO: A multilingual database of distributional!y similar words. Proc. of the K0NV£NS-2<№, Berlin, 2008, pp. 6-12.

10.

11

12.

l/ITMO

HA¥4HO-IE*Hl1tCWlPl ВЕСТИ*! ИНФСН'МДЩИОННЫХ ТЕХНОЛОГИЙ МЕХАНИКИ 14ОПТИКИ н М&ьнаш&ь 2М 2 ТС« 22 № 6 hop ■ '.■«Ьг. ЛШй.ЛЦf

5CENT1FIC AND TECHNICAL JOLHNAL Of StfOfiMAITON ГеСНМСМ-OQES MECHANIC'S AND OPTICS ММЛФйГ-ОййИЗЁйГ 3022 VOL 22 No 6 nopiffIfeJhlit.ilh ш l.'

ISSN 2226-14S*ip«lt} ISSN 25000373 iWhW-j

IIIIW(IDIhQ ИНГИ МШННН IП1Ш

Hloi: 10.175ti6.''2226-1494-2022-22-6-1159-1165 УДК U04.9

Примененнс им.мкшин модели текста к задаче ссмтнмсы-аиалнэа Л наст пеня Сергеевна I руiitisn1 . Ршгпш Николаевич Юрьев2, 111 epip Александрович Бессмертны iH

12'3 Университет ИТМО, (.'ашст-Петербург, 197Ш1. Российская Федерация

1 prog.anastasia/ggmailmmf ^, https:,7oicidor^txn0-00024%j-0823

2 tL>diori@juiyev.nj, l)ttps:A''oreid.org™oU-U«J3-1146-2SI7

1 bessmeitrtyiijLlirio.rii, https://orcui.o№'0000-000l-67l 1-63ЧЧ

Лиши ¿mi н

Предмет нсслелрьанни Исследовала волновая модель л ре дставлел ня коротких текстов на русском яшке. Модель является од но К из реализаций дистрибутивной семантики 13 модели учтены не только частоты встречаемости слов в тексте, но и их взаимное влияние. Итогом реализации модели служит повышение точности анализа тональности коротких текстов Метод. Основу определения взаимосвязей между текстом н термином состав.:яет расчет амллнтуды вероятности близости текста к термину е использованием волновой модели. Термин, обладающий наибольшей амплитудой вероятности, считается наиболее точно соответствующим смыслу текста. Волновая модель позволяет учесть тот факт, что известные методы определяют антонимы как семантически близкие лексические единицы. (к мнимы с результаты. Для экспериментального исследования предложенного метода выбрано решение задачи сентнмент-аналнза, то есть нахождения соответствия отзывов пользователей о покупках на маркетллейсе классам «позитивный» л «негативный». Б результате эксперимента получена точность оценки тональности текста до 76,4 что превышает точность классического лодхода, а так^е известных методик сентимент-аналнза дтя русского яшка. Выявлено значительное влияние таких параметров модели, как выбор базисной дистрибутивно-семантической модели, выбор контрольной точки для расчета волновых чисел, учет влияния антонимов на дниость классификации. Представленная модель показала высокую точность в выявлении взаимосвязей текста с не присутствующими в нем явно понятием;!. Ираьгичесьиа шачнмниь. Предложенный метод может успешно применяться как математическая основа решения -задач сентнмент-аналнза. Полученные результаты показали потенциальные возможности использования волновой модели в областях, требующих классификации текстов по косвенным признакам, например, для определения цементов психологического портрета автора. Клмченые слова

сентнмент-аналлз, классификация, обработка естественного языка, волновая модель, квантово-гтодобная модель Ьлагатарностн

Работа выполнена в рамках магистерски-аспирантской НИР_№ 62(1164 «Методы искусственного интеллекта для кнберфнанческих систем».

Ссылка дза иишрипшии: ГруздеваiC-, Юрьев РН, Бессмертный Н А. Применение волновой модели текста к задаче сентлменг-аналлза И Научно-технический вестинк информационных технологий, механики л игилкп. 2022. Т. 22,№ 6. L". 1159-1165. doi: 10.17586*2226-1494-2122-22-6-] 159-1165

Applieatioii of the text wave mode J to the sentiment analysis problem An astasia 5. Gruzdeva1 Rod кит N. lures'2, Igor A. Btssmertny' I 2'3 IT\1Q University, Saim Petersburg, 197101 Russian Federation

1 prog.anaslasLalggiriai] com- ;,https:.7oicid.org.,'0000-0003^l963-0S23

2 todion@juryev.nj, I)ttps:;.'orcid .org™j(j-U«j3-I146-2SI7

1 bessraeitftyijLUrio.m, https://orcui.oi^.'0000-000l-67l 1-6399

Ahtnfl

Authors researched die wave model of lext representation wlrich ts one of the implemeiilatjons of distributive semantics. This model takes into account nol only the frequency of words occurrence in the lext, liut also their mulual location

C|]]iiru»aA.i'. Юрьев PH., bL'L^EL'piHLiii И A

The purpose of the study: to increase the accuracy of Hie analysis of the tonality of short texts based on the wave model The method of determining the relationship between the lext and the term is based on the calculation of the probability amplitude of the text and term proximity using a wave model. The term with the highest probability amplitude is considered la correspond most closely to tlie meaning of the lexl. The wave model allowed taking tnio account the fact thai well-known methods define antonyms as semantically close lexical units. For the experimental study of diis technique, a solution to the problem of sentiment analysis was chosen, exactly, finding the correspondence of user reviews aboul die product to the classes "positive" and "negative". As a result, the accuracy of the text tonality defining was obtained up la 76 4 %, which exceeds the accuracy of the classical approach as well as the well-known methods of sentiment analysis for the Russian language. In addition, authors delected significant influence on classification accuracy of such model parameters as the choice of a basic distributive semantic model, the choice of a control point for calculating wave numbers, taking into account the influence of antonym s. The presented model has shown high accuracy ill identifying the relationships of the text with concepts that are not explicitly presenl in it and can be successfully used as a mathematical basis tor solving problems of sentiment analysis. In addition, ttie results obtained indicate the potential use of the wave model in other areas that require the classification of texts by indirect signs, for example, to determine die elements of author psychological portrait. Kei words

sentiment analysis, classification, natural language processing, wave model, quantum-like model A know ledge merits

The work was earned oul within the framework of the project no. 620164 (Artificial Intelligence methods for cyberphysical systems).

For cita Linn: Gntzdeva A.S., [ltrev R.N., Bessmeitny I .A. Application of Uietexl wave model la the sentiment analysis problem. Scientific and Technical Journal of Information Technologies. Mechanics and Optics, 2022, vol. 22, no 6, pp. 1159-1165 (in RussianJ.doi: 10.175BS/2226-1494-2022-22-S-1159-11S5

Введение

Проблемы современных подходов к еентимент-анализу связаны с высокой размерностью данных и неизбежно возникающей неоднозначностью в текстах Результативность техник сентимскт-аналнза ограничена в настоящее время для английского языка точностью около 70-SÜ % в зависимости от применяемого инструментария [1J. Для русского языка точность распознавания продемонстрирована в отдельных исследованиях от 60 до 73 % [2J. В то же время востребованность еенти-мент-анализа в мировом и российском сегментах расист с каждым годом, что покалывает статистика запросов на популярном ресурсе Google Trends1. График роста числа запросов за последние годы показан на рисунке.

Цель работы — совершенствован и с методов ссн-тимент-анализа для выявления злементов онтологии в поведении пользователей

Состоишь проблемы и постановка задачи

Сснтимент-анапиз — одна из популярных задач компьютерной лингвистики. Первые методы сснти-мент-анализа базировались на размеченных словарях оценочных слов [3, 4J. Применение словарей позволяет не только упростить оценку тональности текста, но и скорректировать его при необходимости [5]. Ограничением является словарь, составление которого требует времени, а одни и тс же слова в разных контекстах могут иметь разную эмоциональную окраску Альтернатива словарному подходу — корпусная лингвистика, и. в частности, дистрибутивная гипотеза Харриса [6], согласно которой слова, часто встречающиеся в похожем контексте, имеют схожий смысл. В данном случае слова и тексты представлены векторами

1 Google Trends [Электройный ресурс]. URL: hups://

I lends goog le.es. tren ds ■ explore'!date=all&q =senti ment%2 0 analysis (дата обращении: 14.04.2022).

в гильоертовом пространстве, а или юеть слов и текстов определены евклидовой мерой или косинусным расстоянием. Последние исследования в области сснтимснт-а-налнза описаны в работал 17-10], где общей проблемой является семантическая неразличимость антонимов

Около 30 лет назад к анализу текстов стали применять квантовую теорию вероятностей |]]—16|. Основное отличие квантовой теории от колмогоров-ской — наличие дополнительно™ параметра — фазы, за счет которой происходит интерференция амплитуд вероятностей В связи с зтнм предложено использовать аппарат квантовой теории для классификации текстов, чтобы в отличие от известных методов, базирующихся на «мешке слов», учитывать взаимное расположение слов в тексте. В работе [17] разработана волновая модель, которая позволила учесть интерференцию при анализе текстов. Задачи еентимент-анализа часто связаны с необходимостью выявлении неявных взанмосвязей и классификации текстов по косвенным признавай. В тексте могут отсутствовать явные указания на то, к какому змоционалыюму полюсу — позитивному или негативному — он ближе. Тем не менее, набор используемых слов, строение предложений позволяют человеку понять общую змоцнональную тональность текста Задача настоящей работы — проверить, может ли введение дополнительного параметра — фазы — оказать положительное влияние на точность классификации текстов по косвенным признакам.

Краткое описание волновом модели

Рассмотрим возможность применения квантово-по-добной волновой модели представления текстовой информации для выявления тональности текста. Отмстим основные моменты волновой модели, подробное описание которой приведено в работе [17].

В рамках волновой модели текст представлен в виде ансамбля элементарных частиц, где каждое спо-

А С. Груздева. PH. Юрьев. И.А. Бессмертным

100

SO

60

40

20

0 ■ р га

9 9

■d- -а-§§

Ijlil.i 1.1

l.lllllilllllll

I Jill lili

SO (." Q ..1 ..' Q (_'. T~ «- r- r- .. r- Г" »■ r~ 1— - Г" »" T- T" (\J '\J l\ Л-J Г-J

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.