Автоматический анализ ритмических характеристик текстов на естественном языке тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Лагутина Ксения Владимировна

  • Лагутина Ксения Владимировна
  • кандидат науккандидат наук
  • 2022, ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики»
  • Специальность ВАК РФ05.13.17
  • Количество страниц 126
Лагутина Ксения Владимировна. Автоматический анализ ритмических характеристик текстов на естественном языке: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики». 2022. 126 с.

Оглавление диссертации кандидат наук Лагутина Ксения Владимировна

1.1 Введение

1.2 Лингвистические средства

1.3 Стилистический анализ атрибуции авторства

1.3.1 Атрибуция авторов литературных текстов

1.3.2 Атрибуция авторства статей

1.3.3 Атрибуция авторов коротких текстов и электронных писем

1.4 Анализ стиля для проверки авторства

1.5 Анализ стиля для определения его изменения

1.6 Анализ стиля для составления профиля автора

1.7 Анализ стиля для классификации по жанру или тональности

1.8 Обсуждение результатов

2 Автоматический поиск ритмических средств с помощью инструмента ProseRhythmDetector

2.1 Ритмические средства

2.2 Аналогичные инструменты

2.3 Алгоритмы поиска средств

2.3.1 Алгоритмы поиска анафоры, эпифоры и симплоки

2.3.2 Алгоритм поиска анадиплозиса

2.3.3 Алгоритм поиска эпаналепсиса

2.3.4 Алгоритм поиска диакопы

2.3.5 Алгоритм поиска эпизевксиса

2.3.6 Алгоритм поиска многосоюзия

2.3.7 Алгоритм поиска хиазма

2.3.8 Алгоритмы поиска апозиопезы, повторяющихся восклицатель-

ных и вопросительных предложений

2.4 Интерфейс ProseRhythmDetector

2.5 Качество работы инструмента

3 Автоматический поиск ритмических средств и анализ их динамики

в прозе 19—21 веков

3.1 Введение

3.2 Стилометрические характеристики

3.3 Постановка экспериментов

3.3.1 Основные этапы экспериментов

3.3.2 Визуализация стилометрических характеристик

3.4 Эксперименты

3.4.1 Корпуса и инструменты реализации

3.4.2 Тепловые карты

3.4.3 Графики

3.4.4 Тепловые карты диапазонов

3.4.5 Сравнение тепловых карт и графиков

3.4.6 Дендрограммы

3.5 Анализ результатов

4 Влияние ритмических характеристик на классификацию прозы по векам

4.1 Введение

4.2 Аналогичные работы

4.3 Стилометрические характеристики

4.4 Постановка экспериментов с классификацией по векам

4.4.1 Структура экспериментов

4.4.2 Классификация и оценка результатов

4.5 Эксперименты

4.6 Обсуждение результатов

5 Влияние ритмических характеристик на верификацию авторов

5.1 Введение

5.2 Аналогичные работы

5.3 Стилистические характеристики

5.4 Верификация авторства

5.5 Эксперименты

5.6 Заключение

Заключение

Литература

Введение

Актуальность темы. Стилометрия — это раздел компьютерной лингвистики, который изучает количественную оценку языковых особенностей в текстах на естественном языке. Стилометрия тесно связана с определением индивидуального стиля и идиолекта автора, которые представляют собой систему языковых особенностей, используемых автором [1]. Отличительные черты стиля, в котором написан текст, можно формализовать, разработать алгоритмы их автоматического определения и использовать для задач верификации авторства, классификации текстов на естественном языке по времени публикации или жанру, а также для статистического анализа характеристик текстов. Поиск стилометрических характеристик текстов достаточно трудоёмок и требует значительного количества времени при обработке вручную, поэтому его требуется автоматизировать.

Выбор стилометрических характеристик текста является наиболее важным этапом исследования. Исследователи выделяют около тысячи средств на разных уровнях анализа: лексический (включая уровни символов и слов), синтаксический, семантический, структурный и предметно-ориентированный [2; 3]. Это свидетельствует о сложности и многогранности текста, поэтому необходимо оценивать текстовые единицы, отобранные для количественного анализа, и их способность выражать оригинальность авторского стиля.

Сегодня нет единого мнения о том, как подобрать оптимальные стилометри-ческие характеристики для решения любой из задач классификации или анализа текстов. Большинство современных исследователей применяет практически один и тот же набор стандартных характеристик, моделирующих текст на уровне слов и символов, а для повышения качества решения задачи обращают внимание на методы уменьшения размерности характеристических векторов и подбор классификаторов и их параметров. Напротив, в классической лингвистике ученые при анализе стиля текста концентрируются на сложных лингвистических параметрах. Поэтому поиск и анализ новых средств стиля является актуальной задачей компьютерной лингвистики.

Одним из важных аспектов специфики стиля текста является ритм. Ритм — это регулярное повторение схожих и соизмеримых единиц речи, которое выполняет структурирующие, текстообразующие и выразительные функции [4]. В классической лингвистике основная цель анализа ритма — глубокое проникновение в творческий метод автора, в его замысел, оригинальность индивидуального творчества и мастерства, поэтому выявление специфики ритма писательских произведений позволит более успешно решить проблему определения индивидуального авторского стиля. Этот метод используется в анализе поэтических текстов, в то время как его применение для прозаической художественной литературы почти не исследовано [5]. В частности, алгоритмы поиска ритмических характеристик трудно формализуются, а доступные программные средства для их явного определения отсутствуют. Поэтому разработка автоматизированных инструментов для анализа ритма в прозаическом тексте и их апробация в классификации и анализе текстов является одной из важных задач обработки естественного языка.

Целью диссертационной работы является разработка и исследование комплекса ритмических характеристик текста и их сравнение со стандартными стило-метрическими характеристиками в решении задач классификации текстов по авторам и периодам публикации.

Для достижения поставленной цели необходимо решить следующие задачи.

1. Разработка алгоритмов и программного инструмента для автоматического поиска ритмических средств в прозаических текстах.

2. Статистический анализ динамики изменения ритмических средств в прозаических текстах Х1Х-ХХ1 веков.

3. Классификация художественной литературы Х1Х-ХХ1 веков по векам и полувекам их публикации на основе ритмических и стандартных стилометрических характеристик.

4. Верификация авторов художественной литературы Х1Х-ХХ1 веков на основе ритмических и стандартных стилометрических характеристик.

Объектом исследования являются прозаические тексты на естественном

языке.

Предметом исследования является комплекс ритмических характеристик

текста.

Методология и методы исследования. Методология диссертационного исследования основана на постановке и формализации целей и задач, разработке моделей текстов, методов и алгоритмов анализа текстов, экспериментальной оценке при помощи статистических экспериментов, апробации и анализе результатов. Для решения поставленных задач были использованы методы автоматической предобработки текстов, поиска статистических и лексико-грамматических характеристик текста. Анализ динамики ритма текстов проводился с помощью статистических метрик и методов их визуализации. Классификация текстов осуществлялась на основе методов машинного обучения и нейросетей.

На защиту выносятся следующие положения, обладающие научной новизной.

1. Разработаны алгоритмы для автоматического поиска и визуализации лексико-грамматических ритмических средств в прозаических текстах для русского, английского, французского и испанского языков.

2. Разработан комплекс числовых ритмических характеристик для прозаического текста. Продемонстрирована его пригодность для проведения объемных экспериментов на примере статистического анализа динамики изменения ритмических средств в прозаических текстах Х1Х-ХХ1 веков.

3. Показана эффективность применения ритмических характеристик для классификации художественной литературы Х1Х-ХХ1 веков по векам и полувекам их публикации. Проведено сравнение ритмических и стандартных стилометриче-ских характеристик для решения данной задачи.

4. Показано, что ритмические характеристики по качеству определения автора соответствуют стандартным характеристикам, а в комбинации с ними повышают эффективность верификации авторов художественной литературы Х1Х-ХХ1 веков.

Практическая значимость. Результаты исследований по верификации авторов и классификации текстов по векам публикации показывают, что модель текста

на основе ритмических характеристик может быть успешно использована для решения задач классификации художественных текстов. Программный инструмент на основе предложенных алгоритмов для поиска и визуализации ритмических характеристик, разработанный под руководством диссертанта, полезен экспертам-лингвистам для автоматизации их работы и сокращения времени на объемную рутинную работу при исследованиях.

Апробация работы. Основные результаты работы докладывались на международных научных конференциях:

1. «AIST 2019 — The 8th International Conference on Analysis of Images, Social Networks and Texts» (Казань, Россия, 2019);

2. «The 25th Conference of Open Innovations Association FRUCT» (Хельсинки, Финляндия, 2019);

3. «The 26th Conference of Open Innovations Association FRUCT» (Ярославль, Россия, 2020);

4. «The 27th Conference of Open Innovations Association FRUCT» (Тренто, Италия, 2020);

5. «The 28th Conference of Open Innovations Association FRUCT» (Москва, Россия, 2021);

6. «The 29th Conference of Open Innovations Association FRUCT» (Тампере, Финляндия, 2021).

Личный вклад. Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы. Из работ, выполненных в соавторстве, в диссертацию включены результаты, которые соответствуют личному участию автора.

Публикации. Основные результаты по теме диссертации изложены в следующих печатных изданиях.

Публикации стандартного уровня:

1. Лагутина Н. С. Автоматизированный поиск средств ритмизации художественного текста для сравнительного анализа оригинала и перевода на материале

английского и русского языков / Лагутина Н.С., Лагутина К.В., Бойчук Е.И., Воронцова И.А., Парамонов И.В. //Моделирование и анализ информационных систем. - 2019. - Т. 26. - №. 3. - С. 420-440. (MathSciNet, ВАК, список журналов, рекомендованных ВШЭ)

2. Лагутина К. В. Автоматизированный поиск и анализ стилометрических характеристик, описывающих стиль прозы 19-21 веков / Лагутина К. В., Манахова А. М. //Моделирование и анализ информационных систем. - 2020. - Т. 27. - №. 3. - С. 330-343. (MathSciNet, ВАК, список журналов, рекомендованных ВШЭ)

— главный соавтор.

3. Lagutina N. S. Automated Rhythmic Device Search in Literary Texts Applied to Comparing Original and Translated Texts as Exemplified by English to Russian Translations / Lagutina, N. S., Lagutina, K. V., Boychuk, E. I., Vorontsova, I. A., Paramonov, I. V. //Automatic Control and Computer Sciences. - Springer, 2020. -Vol. 54. - №. 7. - pp. 697-711. (Scopus, Q3)

4. Lagutina K. V. Comparison of Style Features for the Authorship Verification of Literary Texts / Lagutina K. V. //Modeling and Analysis of Information Systems.

- 2021. - Vol. 28. - №. 3. - pp. 250-259. (MathSciNet, ВАК, список журналов, рекомендованных ВШЭ)

5. Лагутина К. В. Классификация текстов по жанрам на основе ритмических характеристик / Лагутина К.В., Лагутина Н.С., Бойчук Е.И. //Моделирование и анализ информационных систем. - 2021. - Т. 28. - №. 3. - С. 280-291. (MathSciNet, ВАК, список журналов, рекомендованных ВШЭ) — главный соавтор.

Прочие публикации

6. Lagutina K. A Survey on Stylometric Text Features / Lagutina K., Lagutina N., Boychuk E., Vorontsova I., Shliakhtina E., Belyaeva O., Paramonov I. // Proceedings of the 25th Conference of Open Innovations Association FRUCT, IEEE, 2019 - Vol. 25. - № 1. - pp. 214-219. (Web of Science, Scopus) — главный соавтор.

7. Boychuk E. Automated Approach to Rhythm Figures Search in English Text. /Boychuk E., Vorontsova I., Shliakhtina E., Lagutina K., Belyaeva O. // International Conference

on Analysis of Images, Social Networks and Texts. CEUR Workshop Proceedings. Springer, Cham CCIS, Vol. 1086, 2020. pp. 107-119. (Web of Science, Scopus)

8. Lagutina K. Automatic Extraction of Rhythm Figures and Analysis of Their Dynamics in Prose of 19th-21st Centuries / Lagutina K., Poletaev A., Lagutina N., Boychuk E., Paramonov I. // Proceedings of the 26th Conference of Open Innovations Association FRUCT. IEEE, 2020. - Vol. 26. - № 1. - pp. 247-255. (Web of Science, Scopus) — главный соавтор.

9. Lagutina K. The In?uence of Different Stylometric Features on the Classifi-cation of Prose by Centuries / Lagutina K., Lagutina N., Boychuk E., Paramonov I. //Proceedings of the 27th Conference of Open Innovations Association FRUCT.

- IEEE, 2020. - Vol. 27. - № 1. - С. 108-115. (Web of Science, Scopus) — главный соавтор.

10. Boychuk E. Evaluating the Performance of a New Text Rhythm Analysis Tool / Boychuk E., Lagutina K., Vorontsova I., Mishenkina E., Belyayeva O. // English Studies at NBU. - New Bulgarian University, 2020. - Vol. 6. - №. 2. - pp. 217-232. (Web of Science)

11. Lagutina K. Authorship verification of literary texts with rhythm features. / Lagutina K., Lagutina N., Boychuk E., Larionov V., Paramonov I. // Proceedings of the 28th Conference of Open Innovations Association FRUCT, IEEE, 2021 - Vol. 28. - №

- pp 240-251. (Web of Science, Scopus) — главный соавтор.

12. Lagutina K. A Survey of Models for Constructing Text Features to Classify Texts in Natural Language. / K. Lagutina, N. Lagutina. // Proceedings of the 29th Conference of Open Innovations Association FRUCT. - IEEE, 2021 - Vol. 29. -№ 1. - pp. 222-233. (Web of Science, Scopus) — главный соавтор.

Свидетельства о регистрации программ ЭВМ:

1. Программа, реализующая автоматизированный алгоритм анализа ритма текста на основе фонетических, лексико-грамматических и структурно-композиционных параметров ритма для текстов на русском, английском и французском языках / Ратников Е.С., Туманова А. Д., Бойчук Е. И., Лагутина Н. С., Лагутина К.

В. // Свидетельство о государственной регистрации программы для ЭВМ № 2019619380 от 16 июля

2. Программа для статистического анализа стилометрических и ритмических характеристик текстов на русском, английском, французском и испанском языках / Манахова А. М., Лагутина К. В., Лагутина Н. С. // Свидетельство о государственной регистрации программы для ЭВМ № 2020618648 от 30 июля

3. Программа для автоматического выделения из текстов стилометрических характеристик различных уровней и классификации текстов по авторам / Лагутина К. В. // Свидетельство о государственной регистрации программы для ЭВМ № 2021616718 от 26 апреля

4. Программный прототип для автоматического выявления качественных параметров стиля текстов / Лагутина К. В. // Свидетельство о государственной регистрации программы для ЭВМ № 2021664205 от 1 сентября

5. Программный прототип для обработки ритма текстов, сравнительно-сопоставительного анализа ритмики в их переводе и авторизации текстов / Лагутина К. В., Лагутина Н. С., Бойчук Е. И. // Свидетельство о государственной регистрации программы для ЭВМ № 2021664248 от 2 сентября

Диссертационная работа была выполнена при поддержке гранта РФФИ №2037-90045.

Структура и объем диссертации. Диссертация состоит из введения, 5 глав, заключения, списка литературы из 93 наименований, 15 рисунков и таблиц. Общий объем диссертации составляет 126 страниц.

1 Применение стилометрических

средств для решения задач

компьютерной лингвистики:

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Автоматический анализ ритмических характеристик текстов на естественном языке»

работ

1.1 Введение

Методы стилометрии применяются для решения многих задач обработки естественного языка, включая атрибуцию авторства, верификацию автора, составление профиля автора, обнаружение изменения стиля и классификацию текстов. Методы основаны на предположении, что можно выявить особенности текста, которые подтверждают авторство [6].

Характеристики текста, описывающие его стиль, можно классифицировать на низкоуровневые и высокоуровневые. Низкоуровневые характеристики основаны на простой статистике для слов или символов или представляют текст в форме эм-беддингов слов или символов. Высокоуровневые характеристики строятся на основе лингвистической информации о тексте: синтаксисе, семантике, грамматике и т. п.

Статьи, посвященные корреляции типов характеристик, довольно редки. Тем не менее, они установили связь между синтаксическими особенностями текста и его длиной, между семантическими особенностями, субъектом и авторством [7]. До настоящего времени исследования были сосредоточены на количественных показателях оценки качества, в то время как результаты использования методов компьютерной стилометрии интерпретировались мало. Если бы можно было объяснить решение классификатора, которое помогло бы понять, почему текст принадлежит определённому автору и относится к определённому жанру или предмету, это могло бы повысить эффективность решения поставленных задач [8].

Возможной причиной вышеуказанных проблем является отсутствие целостности стилометрических методов и подходов, которые используются экспертами в различных областях исследований. Компьютерные эксперты редко принимают во внимание находки в теории языковой личности, лингвистике текста, стилистике. Со своей стороны, эксперты-лингвисты не в полной мере используют потенциал количественных методов, которые применяются в современных компьютерных науках. Они используют только простые вычисления при работе с фактами, касающимися относительного преобладания того или иного средства в тексте. По этой причине автор поставила задачу систематизировать информацию о стилометрических средствах в тексте, используемых для атрибуции авторства, проверки авторства, составления профиля автора, обнаружения изменения стиля и классификации текстов по жанру и тональности, а также проанализировать результаты их реализации с лингвистической точки зрения.

1.2 Лингвистические средства

Данный раздел посвящён основным стилометрическим характеристики текста, рассматриваемым при решении лингвистических и филологических задач. Наиболее тщательно в литературе изучены средства, относящиеся к уровню символов и слов в тексте, часто называемые лексическими особенностями текста.

На уровне символов текст представляется в виде последовательности символов, тогда как сами средства образуют простейшую структуру текста. Обычно в качестве средства берется п-грамма, определённая как непрерывная последовательность из п элементов из данного фрагмента текста. Значение п практически всегда является переменным параметром алгоритма при выполнении задачи. Различные значения п включены в общий набор. Оптимальное значение п иногда выбирается с учётом особенностей конкретного языка. Символьные п-граммы легко извлекаются. Однако количество различных п-грамм в тексте может быть очень большим, что влияет на размерность представления текста для компьютерной обработки и увеличивает сложность алгоритма. По этой причине требуется дальнейшая оптимизация таких средств. Это средство нередко используется совместно с другими, основанными на измерении частоты символов, строчных и прописных букв, цифр и пробелов.

На уровне слов текст часто рассматривается как мешок слов, независимо от порядка слов, грамматики или контекста. В этом случае измеряются частота появления слова, длина и средняя длина слова, п-граммы слова и богатство словарного запаса. Этот подход также требует обнаружения границ слов и их сравнения. Для эффективного обнаружения стилометрических средств может быть необходима значительная предварительная обработка, которая обеспечивает нормализацию текста и устранение шумов (например, орфографических ошибок).

Синтаксические средства основаны на структуре предложения. Одни из самых простых и распространенных — частота появления знаков препинания, длина и средняя длина предложения и частота появления служебных слов. Более сложные характеристики включают в себя особенности синтаксического дерева предложения.

Исследования в этой области выявили и несколько других языковых средств, но таковых оказалось мало. Скорее всего, это объясняется сложностью измерения таких средств, а также спецификой сферы исследования. Проблему можно проиллюстрировать на примере семантическиех средств, отражающих значение слова, фразы или предложения. Их трудно формализовать и, как следствие, обнаружить. С другой стороны, структурные особенности документа, которые легко обнаружить, демонстрируют их сильную зависимость от специфики задачи. Это наглядно подтверждается тем, что они используются для изучения текстов разных жанров: исследовательской работы, электронного письма или блога, структура которых принципиально отличается.

Важно отметить, что средства, рассматриваемые в стилометрии, не совсем совпадают с теми, которые применяются литературоведами и лингвистами для исследования индивидуального стиля автора.

С точки зрения филологии, индивидуальный (письменный) стиль - это сложное понятие, отражающее социально-историческую природу, этнические, психологические, моральные и этические особенности. Многие исследователи предлагают двухэтапный анализ индивидуального стиля, который подразумевает изучение лингвистических и литературных (герменевтических) аспектов текста, заявляя, что это правильный синтетический подход, которого придерживается современная наука.

Первый шаг включает изучение авторского идиолекта, то есть распределения в тексте различных языковых единиц. Второй шаг связан с индивидуальным стилем

письма автора, который рассматривается как набор специфических выразительных средств или идиолектических особенностей. Лингвистический анализ текста является начальным этапом его филологического анализа. Таким образом, с точки зрения лингвистики основные идиолектические особенности заключаются в следующем:

— на фонетическом уровне — различимость интонации и мелодики, определённое количество слогов, гласных и согласных, повторяемых для усиления силы выражения, эфонии, использования фраз, обеспечивающих ритм и гармонию;

— на лексическом уровне — фразы и выражения, типичные повторяющиеся части предложения (шаблоны дискурса), предпочтительные термины, высказывания и цитаты, заимствование, диалектические и отраслевые слова, синонимы, антонимы, паронимы, неологизмы, слова, обозначающие конкретные понятия;

— на уровне синтаксиса — доминирующие типы предложений (изъявительные, вопросительные, восклицательные), простые, составные, полные и эллиптические предложения, типы синтаксической сплоченности, синтаксический параллелизм, хиазм, длина предложения.

Идиолектические выразительные средства состоят из тропов и стилистических фигур, характерных для данного автора.

Исследования продвигаются изучением индивидуального стиля письма автора и углубляются в изучение окружающей среды и знаний автора, идей и концепций, развитых в тексте, жанровых особенностей, текстовой композиции, структуры изображения, интертекстуальности и т. д. Эту стадию анализа текста трудно автоматизировать, поэтому она обычно выходит за рамки стилометрических исследований.

По-видимому, измерения только частоты появления слов и длины предложения недостаточно для составления полноценной модели индивидуального стиля автора. Чтобы сделать её завершённой, необходимо применить комплексный подход, который помог бы эффективно объединить параметры анализа текста, используемые филологией и компьютерной лингвистикой.

1.3 Стилистический анализ атрибуции авторства

Атрибуция авторства — это определение автора данного текста. Эту задачу можно разделить на две подзадачи: атрибуция с закрытым набором авторов, если автор обязательно является одним из данного набора, и атрибуция с открытым набором, при условии, что набор авторов не ограничен. В любом случае, основой для решения задачи является совокупность текстов, авторство которых известно до классификации [6]. В случае, если исследователь располагает набором текстов для каждого рассматриваемого автора, он может определить особенности индивидуального стиля и классифицировать тексты, авторство которых неизвестно. Проблема атрибуции сложна во многих предметных областях и часто решается для литературных текстов, журналистских статей и Интернет-текстов.

1.3.1 Атрибуция авторов литературных текстов

Первые попытки использовать количественные характеристики для определения стиля авторов художественного текста были предприняты еще в конце XIX века. В настоящее время большое количество исследований посвящено автоматическому определению авторства прозаических и поэтических произведений.

Одним из наиболее успешных подходов является применение сетей смежности, что позволяет добиться довольно высоких результатов. Аманцио [9] использовал графовые характеристики сети в качестве стилометрических средств: степени вершин, лёгкость обхода, коэффициенты кластеризации, средняя длина кратчайшего пути и т.п. Кроме того, автор предварительно обработал тексты, удалив стоп-слова, но учёл их, посчитав их частоту и промежутки между ними. Эти средства, а также частоты биграмм символов составили общий вектор стилометрических средств. Эксперименты показали, что предлагаемый метод превзошёл методы, основанные на более простых характеристиках сетей, на 30-40 %. К сожалению, автор не предоставил абсолютные значения точности, поэтому сложно сравнить эффективность его алгоритма с другими подходами.

Авторы работы [10] также использовали сети смежности, но со словами, часто встречающимися в текстах, и их совместными появлениями в качестве вершин и весов рёбер. Кроме того, исследователи вычислили различные характеристики гра-

фа: коэффициенты кластеризации вершин, среднюю длину кратчайшего пути, коэффициент ассортативности и модульность. Классификация текстов с использованием всех описанных признаков обеспечила точность 85-90 % для книг на английском и польском языках.

Сегарра и др. [11] построили сети смежности для служебных слов в текстах. Авторы смоделировали текст в виде графа со служебными словами в качестве вершин и значениями мер близости, основанных на взаимном расположении слов, в качестве весов рёбер. Похожие графы считались текстами одного автора. Эксперименты показали точность, превышающую 90 %, для корпусов с небольшим числом авторов, двух-трёх, и/или довольно большой длины текста: 25 000 слов. Чем меньше слов и чем больше авторов на входе алгоритма, тем ниже его точность: 35 % для 10 авторов с 1 000 слов. Следовательно, алгоритм нельзя считать стабильным.

Использование служебных частей речи и других категорий слов является популярным подходом для определения авторства. Например, в работе [12] анализировалась эффективность использования правил для последовательностей служебных слов в качестве маркеров стиля. Тексты из классической французской литературы (40 романов) были сегментированы на набор предложений, а затем из них были выделены последовательности служебных слов. Таким образом, каждый текст был представлен как вектор нормализованных частот появления служебных слов. Затем авторы использовали метод опорных векторов для классификации. Он достиг очень высоких показателей атрибуции: лучшее значение Е-меры составляло около 95%.

Ферракане и др. [13] представили новый метод для встраивания дискурсивных средств в текстовый классификатор на основе нейросети. Для проведения исследования они решили использовать модель сетки сущностей, так как она охватывает цепочки ключевых элементов, которые имеют решающее значение для повышения эффективности при выполнении этой задачи. Для представления ключевых сущностей были выбраны два подхода: дискурсивные отношения ИЙТ (теория риторической структуры) и грамматические отношения (СИ,). Эмбеддинги на основе дискурса оказались лучшим стилометрическим средством, поскольку они значительно увеличили значение метрики И до 99 % для 50 авторов и 250 произведений.

Другими языковыми средствами, которые также характеризуют стиль автора, являются особенности ритма. В статье [14] исследовался ритм писателя как возмож-

ный маркер стиля с использованием наивного байесовского классификатора и коллекции из 587 текстов 51 автора из корпуса Си1епЬе^634. Каждый входной текст был представлен в виде последовательности ударений и пауз. Для выявления лексических ударений слов в текстах был использован словарь произношений СМи. Классификация продемонстрировала точность примерно 50 % для большинства авторов и около 90 % для Шекспира.

Авторы работы [15] использовали особенности ритма для определения авторства поэтических текстов. Эти особенности включали частоты ударных слогов в определенных метрических положениях и частоты отдельных звуков. Авторы провели эксперименты с четырьмя корпусами поэтических текстов: чешским, немецким, испанским и английским. Они использовали функции ритмического стихотворения с различными классификаторами: дельта Берроуза, квадратичная дельта Аргамона, косинусная дельта Смита-Олдриджа и алгоритм опорных векторов. Метод обеспечил наилучшую точность 84-99 %, когда предложенные характеристики стихотворения были объединены с частотой отдельных слов и триграмм. Авторы указали причины, по которым анализ ритма полезен при определении стиля автора. Эффективное применение популярных стилометрических характеристик: слов и п-грамм требует больших объемов данных, которые можно найти на практике слишком редко, в то время как особенности ритма можно оценить в небольших корпусах. Самый эффективный стилометрический анализ — это комбинированный анализ лексики и стихосложения. В своих высказываниях об измерении ритма и определении авторства авторы опирались на мнения экспертов-лингвистов.

Несколько авторов исследовали стили произведений на основе только статистических особенностей. Зенков [16] предложил метод статистического анализа текстов с применением частотного распределения первых значащих цифр в русских текстах. Было установлено, что закон Бенфорда приблизительно соответствует этим частотам с заметным преобладанием цифры 1. Отклонения от закона Бенфорда были статистически значимыми особенностями автора, которые позволяют при определенных условиях (наиболее важным из которых является достаточная длина) различать тексты с разными авторами. Фактическая частота появления была выше, чем вероятность согласно закону Бенфорда для значащих цифр 1, 2, 3; для последующих цифр ситуация была обратной.

В исследовании [17] данные, собранные путем подсчёта слов и символов примерно в тысяче абзацев каждой книги (всего 6 книг на боснийском языке), подверглись анализу основных компонентов, выполненному с использованием нейронных сетей. Достигнутые результаты показали, что каждый автор оставляет уникальную подпись в письменном тексте, которая может быть обнаружена путем анализа количества коротких слов в абзаце. В своей статье авторы продемонстрировали, что на основе анализа количества коротких слов в каждом абзаце авторство может быть определено.

В обеих работах авторы провели статистические эксперименты, чтобы показать, что их методы могли различать разные авторские стили. Но они не провели классификационные эксперименты, которые могли бы позволить сравнить эффективность их методов с другими.

Сравнительное исследование различных методов атрибуции было организовано во время конкурса РАК-2018 [18]. РАК-2018 был научным событием из серии, посвященной различным стилометрическим задачам. Для этого конкурса авторы взяли тексты из фанатской литературы, написанные непрофессиональными авторами на пяти языках: английском, французском, итальянском, польском и испанском. Кестемонт и соавторы поставили задачу межпредметной атрибуции авторства, когда тексты известных и неизвестных авторов принадлежат разным предметным областям. Большинство участников использовали п-граммы символов и слов. Другими типами применяемых средств были меры сложности, длины слов и предложений и характеристики лексического разнообразия. В качестве классификатора они использовали метод опорных векторов, нейронные сети и ансамбли различных алгоритмов. В результате простые подходы, основанные на п-граммах символов/слов, были намного более эффективными, чем более сложные методы, основанные на углублённом изучении и лингвистическом анализе текстов. В среднем, самые высокие результаты были получены для английского и испанского языков, в то время как польские тексты оказались наиболее сложными для анализа. Кроме того, эксперименты показали, что число авторов-кандидатов было обратно пропорционально точности атрибуции, особенно когда в набор данных было включено более 10 авторов, а увеличение количества текстов в обучающем наборе улучшило точность распознавания. Такие особенности алгоритмов можно наблюдать в большинстве работ в этой области.

В 2019 году в исследовании РАК-2019 [19] результаты повторились: лучшие результаты снова показали методы, основанные на простых характеристиках: п-граммах и т. п.

Для РАК-2018 и РАК-2019 атрибуция авторства позиционировалась как межпредметная. Тем не менее, набор данных состоял из текстов определённого жанра, написанных непрофессиональными авторами. Возможно, именно поэтому лучшие результаты показали относительно простые методы.

Ллоренс и Делани [20] также решали задачу межъязыковой атрибуции авторства. Они выполнили классификацию с использованием метода случайного леса. В качестве вектора признаков для текста авторы предложили набор не зависящих от языка средств, которые описывали словарь фрагментов одинаковой длины из случайно выбранных текстов. Средства для случайного отбора были выбраны экспериментально. Лучшие результаты экспериментов достигли около 80-90 % точности. Хотя статистические признаки оказались эффективными в классификации, авторы не сочли их абсолютно достаточными для успешной идентификации автора и предложили объединить их с другими, например, синтаксическими.

В целом, в области литературных текстов методы атрибуции авторства достигли самых высоких результатов на корпусах текстов, которые либо относительно малы, либо принадлежат к определённому жанру. Тем не менее, можно указать на различные стилометрические средства, которые демонстрируют большую эффективность: не только лексические, синтаксические и ритмические, но и простые средства, основанные на п-граммах.

1.3.2 Атрибуция авторства статей

Определение авторов публицистических текстов является задачей, очень близкой к атрибуции авторов литературных текстов. Она используется в журналистике и криминалистике для определения плагиата или авторства анонимных текстов. Эти тексты относятся к публицистическому жанру, поэтому по стилю они значительно отличаются от литературы.

В большинстве работ применяются стилометрические средства, основанные на п-граммах. Стюарт и др. [21] сфокусировались на идентификации или подтверждения авторства текста на основе известного набора данных. Они изучили 100 слу-

чайно выбранных авторских текстов формального стиля письма (эссе, статьи) на английском языке. В качестве стилометрических средств они выбирали триграммы, биграммы, слова, служебные слова, части речи, их биграммы и триграммы и т. д. Авторы указали лучшими пять средств: биграммы и триграммы букв, служебные слова, биграммы и триграммы частей речи, поскольку они позволили достичь около 95 % точности.

Сари и др. [22] используют непрерывные представления для определения авторства. Модель нейронной сети, представленная в статье, обучилась созданию непрерывных представлений для n-грамм. Эксперименты показали, что она классифицировала статьи на уровне лучших работ последних лет с точностью 70-75%. По мнению авторов, модели на основе символов превосходят модели на основе слов. В частности, они обнаружили, что модели, использующие n-граммы символов, кажутся более подходящими для наборов текстов с большим числом авторов, в то время как модели со стилометрическими средствами уровня слов показывали снижение качества работы, когда количество авторов увеличивалось. Стилометрические средства уровня символов также добились лучшего результата на более длинных текстах, которые имели меньшее число авторов. Комбинация n-грамм слов и символов дала очень маленькое улучшение качества классификации. Результаты эксперимента доказали, что непрерывные представления подходят для стилистической (в отличие от тематической) задачи классификации текста, такой как атрибуция авторства.

Символьные n-граммы были выбраны как наиболее успешное средство для атрибуции авторства как в конкретных предметных областях, так и для межпредметной атрибуции, но причины их умения классифицировать не были полностью объяснены. Сапкота и др. [23] идентифицировали подгруппы символьных n-грамм, которые соответствовали лингвистическим аспектам: морфосинтаксис, тематическое содержание и стиль, и оценили эффективность каждой из этих подгрупп в междоменной атрибуции. Авторы утверждают, что n-граммы символов представляют собой информацию о аффиксах и пунктуации, т.е. содержат лингвистическую информацию и поэтому позволяют хорошо классифицировать тексты по авторам. Алгоритмы с этими средствами достигли 78 % точности для статей из корпуса CCAT 10, но только 57% для статей Guardian. Авторы пришли к выводу, что применение n-грамм в соответствии с их лингвистическим аспектом также может быть полезным

для других задач классификации, например, идентификации родного языка авторов, детекции сходства документов и обнаружения плагиата.

В других работах анализируются лексические средства. В исследовании [24] классифицировался корпус новостных статей С10. Авторы создали интегрированные синтаксические графы для текстов и извлекли из них стилометрические средства: количество слов, части речи, теги зависимостей, комбинации и перестановки гласных, суффиксы и синонимы. Затем они применили метод классификации без учителя, который заключался в вычислении меры близости для текстов, представленных как векторы признаков синтаксического графа. Наилучшая точность 68 % была достигнута при комбинации всех этих средств. Это довольно низкий уровень качества по сравнению с другими работами.

Стамататос [25] представил новый метод, который повысил эффективность атрибуции путем введения шага искажения текста перед извлечением стилометриче-ских показателей. Предложенный метод пытался замаскировать тематическую информацию, которая не была связана с личным стилем авторов. Автор продемонстрировал экспериментально, что предлагаемый подход может улучшить существующие методы, особенно при межпредметной классификации. Разработанные алгоритмы преобразовали тексты в форму, в которой тематическая информация была сжата, а текстовая структура, связанная с личным стилем, была сохранена. Эти алгоритмы не зависели от языка, не требовали сложных ресурсов и могли легко сочетаться с существующими методами авторства. Но они выявили значительное ограничение при тестировании на межпредметных и межжанровых корпусах текстов. Алгоритмы с символьными п-граммами показали довольно хорошую точность около 80 % для межпредметных текстов, но только 50-60 % для межжанровых.

В статье [26] было проведено обширное исследование роли синтаксических и лексических средств в представлении стиля. Модель с чисто синтаксическими средствами использовалась для изучения значимости структур предложений в межпредметной и межжанровой атрибуции текстов. Помимо синтаксических моделей, исследователи изучили роль выбора слова. Чтобы сделать это, они выполнили атрибуцию, маскируя все слова или конкретные тематические слова, соответствующие существительным, глаголам, прилагательным и наречиям. Синтаксическая модель была получена путем построения вероятностной контекстно-свободной грамматики

для каждого автора с использованием деревьев анализа предложений. Эксперименты со статьями Guardian показали, что метод достиг F-меры и точности 67-70% или менее. Авторы отмечают, что подходы к авторской атрибуции в литературе сосредоточены в основном на атрибуции текстов из одной области, где содержание и стиль сильно взаимосвязаны. Исследование показывает, что синтаксис может быть полезен при межжанровой атрибуции, в то время как межпредметная атрибуция и атрибуция текстов из одной предметной области могут выиграть как с помощью синтаксических, так и лексических средств.

Исследование атрибуции журналистских статей показывает схожие результаты с атрибуцией литературных текстов: самые высокие оценки получены для небольших корпусов текстов, и наблюдается снижение качества для корпусов с большим количеством текстов и авторов, а также с разными предметными областями или жанрами.

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Список литературы диссертационного исследования кандидат наук Лагутина Ксения Владимировна, 2022 год

Ensure: Список эпифор E

Require: Список анафор А и эпифор Е, найденных в тексте. Для каждой анафоры и эпифоры дан контекст и номера повторяющихся слов. 5 := 0;

for i = 1,..., len(A) do for j = 1,..., len(E) do

if A[i].context П E[j].context then

if A[i].indices[len(A[i].indices)] > E[j].indices[1] then

append symploce(context = A[i].context U E[j\.context) to S end if end if end for end for Ensure: Список симплок S

т. е. предложения, начинающиеся с набора слов W, но не состоящие из него полностью. Как только не удается найти подходящее Wj, цикл заканчивается, a,i = {W, S), где W — список повторяющихся слов, а S = S' после работы алгоритма.

Поиск эпифоры организуется аналогично, отличие заключается только в том, что формирование W ведется не с начала предложения, а с конца.

Список симплок Asym, составляется из списков анафоры и эпифоры: Aanph и Aeph соответственно. Между собой сравниваются все пары аспектов {Ь, с) таких, что b Е Aanph, с Е Aeph. Если b = с, это значит, что в одном и том же контексте предложения имеют одинаковые начала и одинаковые окончания, значит, найдена симплока. Тогда b удаляется из Aanph, с — из Aeph, b добавляется в Asym.

Алгоритм заканчивает работу, как только перебраны все пары (Ь,с). Псеводкод приведён в листингах 1 и 2. Алгоритм поиска анафоры аналогичен поиску эпифоры.

2.3.2 Алгоритм поиска анадиплозиса

Представим текст как набор слов w и знаков препинанияр: Т = {w\,p\,w2 ...,pq), обозначающих конец предложения. Знаки препинания внутри предложения игнори-

Require: Список предложений как списков слов С, список стоп-слов W А := 0

for г = 1,...,1еп(С) — 2 do first := С [г]; second := С [г + 1];

for size = min(len(first), len(second)) — 1,..., 1 do if first[len(first) — size :] == second[: size] and first[len(first) — size :] П W = 0 then

anadyplosis := anadyplosis(context = first, second); append anadyplosis to A; end if end for end for

Ensure: Список анадиплозисов A

руются. Алгоритм ищет анадиплозис циклически, на каждом шаге выявляя аспекты с большим \W |.

На первом шаге алгоритм поиска анадиплозиса перебирает текст и ищет в нем списки вида: I = (w,p,w), то есть два одинаковых слова, разделенных одним знаком препинания. Из I составляется аспект а = (W, S), где W = (w), а S = (s) и I Е s или S = (si,s2), Si = (wn,... ,w), s2 = (w,w2\,... ,w2m), если p обозначает конец предложения.

Следующий шаг практически полностью аналогичен предыдущему, за исключением того, что I = (w1,w2,p,w1,w2), то есть ищутся уже пары одинаковых слов, разделенных одним знаком препинания. И тогда W = (w1,w2). В общем случае на г-м шаге алгоритм ищет список вида:

I = (w1,w2,... ,wi,p,w1,w2,... ,Wi), а W = (w1,w2,..., Wi). Работа алгоритма прекращается после шага с номером imax =

Псеводкод приведён в листинге 3.

max I s I.

s£T

2.3.3 Алгоритм поиска эпаналепсиса

Algorithm 4 Алгоритм поиска эпаналепсиса

Require: Предложение как список слов S, список стоп-слов W

repeat_length := 0

for length := 1,..., [len(S)/2j do

if S[1 : length] = S[len(S) - length : len(S)} and S[1 : length] П W = 0] then

repeat _length = length

end if

end for

if repeat_length > 0 then return

epanalepsisiwords = S[1 : repeat_length] U S[len(S) — repeat_length : len(S)]) end if

Ensure: Эпаналепсис в предложении S

В алгоритме поиска эпаналепсиса перебираются все слова w Е Т. Ищутся все наборы последовательных слов W = {w1,... , Wk), к > 0, которые формируют список I = {w\,..., Wk,... ,W\,..., Wk), l Е T, то есть W встречается в T несколько раз, при этом W не может полностью состоять из предлогов или союзов.

Если найден список вида I = {w\,..., Wk, w,... ,W\,... , Wk), то есть между повторяющимися W имеется хотя бы одно слово w, и при этом W Е s или W Е Si, W Е Sj+i, г =1.. .п — 1, и также для любого а' Е A-anph, Aeph, Asym, A-andp, ^^ Е & , то обнаружен эпаналепсис. Тогда формируется аспект а = {W,S), где S = {s) или S = {si, Sj+1), и а помещается в Aepni.

Псеводкод приведён в листинге 4.

2.3.4 Алгоритм поиска диакопы

Алгоритм поиска диакопы просматривает каждое слово w Е s, где s Е Т — предложение в тексте. Если s имеет вид:

S = {W1,W2, . . . ,Wi,W,Wi+1, . . . ,Wj ,W,Wj+2,... ,wm),

Require: Предложение как список слов S, список стоп-слов (которые не могут входить в диакопу) Е D := 0

Su := unique(S) — Е {уникальные слова в S, которые могут быть частью диакопы} for word in Su do word ^positions := [] for г := 1,... , len(S) do

if S[г] = word and г — 1 not in word_positions then

append г to word_positions end if end for

if leniword_positions) >= 2 then

append diacope(words = war depositions) to D end if end for

{слияние соседних слов в диакопу} i := 1

while i < len(D) do power := 0

for positiona in D[i].words do for positionb in D[i + 1].words do if positiona = positionb then

poiver := poiver + 1 end if end for end for

if power >= 2 and power = len(D[i + 1].words) then extend D[i].words with D[i + 1].words delete D[i + 1] else

i := i + 1 end if

50

end while

Ensure: Список диакоп в предложении D

где г может быть равным 0, т.е., s может начинаться с w. wm также может быть w, т. е., s может заканчиваться w. Wj = w, т. е., w не может повторяться подряд. Таким образом находится диакопа формируется аспект а = {W,S), где W = w, S = {s), и а помещается в Adiac. После этого алгоритм перебирает найденные диакопы а Е Adiac и объединяет те из них, которые есть в соседних словах. То есть для пары a>i = {Wi, Si), a,j = {Wj, Sj), a,i Е Adiac, aj Е Adiac выполняются условия Si = Sj = {s) и

S = {Wi,W2, ... ,wk, Wi, Wj ,wk+i,... ,wn, Wi, Wj ,wn+2,... ,wm),

Тогда a,i и aj исключаются из Adiac, а вместо них туда добавляется аспект а = {W, S), где W = {Wi, Wj) и S = {s). Это позволяет находить диакопы с многократным повторением слов.

Псеводкод приведён в листинге 5.

2.3.5 Алгоритм поиска эпизевксиса

Эпизевксис ищется при помощи двух различных алгоритмов. Первый алгоритм ищет его в соседних предложениях, например: «Weak! Weak! Weak!». Он перебирает все предложения s Е Т. Если Si = s^ = ... = Si+m,m > 1, то найден эпизевксис а = {W, S), где W = Si и S = {si, Si+1,..., Si+m). а помещается в Aepz.

Второй алгоритм ищет эпизевксис внутри предложения. Например: «Pretty, pretty good!». Алгоритм перебирает все предложения s Е Т. Если предожение имеет вид:

S = {w, . . . , W1,W2, . . . , Wi, W1,W2, . . . , Wi, ..., wm), то найден эпизевксис внутри предложения. Это эпизевксис а = {W, S), где

W = {w1,w2,..., Wi) и S = s. а помещается в А

epz•

Псеводкод приведён в листингах 6 и 7.

2.3.6 Алгоритм поиска многосоюзия

Для поиска многосоюзия алгоритму необходимы списки союзов: список обыкновенных союзов С1 = {but, till, as, if, after, until, because, and, or, nor, so, before, since, that, till, until, unless, whether, while, where, when, why, what, how, whenever, although,

Algorithm 6 Алгоритм поиска эпизевксиса в соседних предожениях Require: Список предложений С, список стоп-слов W

current_epizeuxis := None

Е := 0

for i = 1,..., len(C) — 1 do

if С [г] = С [г + 1] and С [г + 1] П W = 0 then if current_epizeuxis then

expand current_epizeuxis context into С[i + 1] else

current _epizeuxis := epizeuxis(context = С [г], С [г + 1]) end if

else if last_epizeuxis then append last_epizeuxis to E last_epizeuxis := None; end if end for

if last_epizeuxis then

append last_epizeuxis to E end if

Ensure: Список эпизевксисов E

Algorithm 7 Алгоритм поиска эпизевксиса внутри предожения Require: Предложение как список слов S, список стоп-слов W

Е := 0

i := 1

while г < len(S) do repeat_length := 0 n_repeats := 0

for length =1,..., [len(S)/2j do

if S[i : г + length] = S[i + length : г + length • 2] and S[i : г + length] П W = 0 then

repeat _length = length n_repeats = 2 break end if end for

if repeat_length = 0 then

for repeats = 3,..., [len(S[i + repeat_length • 2}/repeat_length)J do if S[i : г + repeat_length] = 5[г + repeat_length • (repeats — 1) : г + repeat_length • repeats] then

break end if

n_repeats := n_repeats + 1 end for

append epizeuxis(context = S, words = г : г + repeat_length • n_repeats) to E i := г + repeat_length • n_repeats else

i := i + 1 end if end while

Ensure: Список эпизевксисов в предложении Е

Algorithm 8 Алгоритм поиска многосоюзия для парных союзов. Require: Предложение как список слов S, парные союзы С = С1,С2

positions := 0

first_word_position := —1

for г = 1,..., len(S) do

if 5[г] = C1 then

first_word_position := г

else if S[г] = C2 and first_word_position = —1 then

append (first _w or deposition, i) to positions

first_word_position := —1

end if

end for

if len(P) >= 2 then

return polysyndetoniwords = Positions) end if Ensure: Многосоюзие S

though, once, than, whereas, thus) и список парных союзов С2 = {{both, and), {either, or), {not only, but), {not only, but also), {rather, or), {just as, so), {neither, nor), {whether, or), {if, then)), а также список союзных наречий С3 = {after all, as a result, for example, in addition, in fact, in other words, on the other hand). Аналогичные списки имеются для русского, французского и испанского языков.

Каждый из списков Ci, i = 1, 2, 3 обрабатывается следующим образом. Для каждого союза или союзного наречия с Е Ci и каждого предложения s Е Т проверяется условие I Е s, где I имеет один из видов:

I = {W1, ...,с,...,с,... ,wm), I = {с,..., с,.. .,wm), I = {w1,... ,с,... ,с), I = {c,...,c),

то есть с появляется в s более одного раза, возможно, в начале или в конце предложения. Если условие выполняется, в список аспектов Apoiy добавляется аспект а = {W,S), где W = {с), S = {s).

Псеводкод приведён в листинге 8. Для обыкновенных союзов и союзных наречий алгоритмы аналогичны.

2.3.7 Алгоритм поиска хиазма

Algorithm 9 Алгоритм поиска хиазма Require: Список предложений S

С := 0

word_count := 0 for i := 1,... , len(S) — 1 do sentence := sentences[i] next_sentence := sentences[i + 1]

if sentence.first_word = next_sentence.last_word and sentence.last_word = next_sentence.first_word then append chiasmusfconiexi = [ senience.firsi_word, nexi_senience.lasi_word

words = [

senience.firsi_word, senience.?asi_word, nexi_senience.firsi_word; nexi_senience.lasi_word ]) to С end if

word_count := word_count + len(sentence) end for Ensure: Список хиазмов С

Представим текст как набор предложений s: Т = (si, s2 ..., sg), а каждое предложение — как набор слов w: s = (w1, w2 ... , wp). Алгоритм перебирает пары соседних предложений (si, si+i), где Si = (wn,wi2 ... ,wip),Sj = (wji,wj2 ... ,wjt).

Если Wi1 = Wjt и WiP = Wj]_, то найден хиазм а = {W,S), где W = {wi1, WiP,Wj1, Wjt), S = {si,Si+1). Алгоритм проверяет повторение и следующих слов: соблюдается ли равенство Wi2 = Wjt-1 и/или WiP-1 = Wj2. Если оно соблюдается, то Wi2,Wjt-1 и/или WiP-1,Wj2 добавляются в W — список слов для аспекта. Далее пары слов проверяются аналогично до тех пор, пока равенство нарушится или будет достигнута середина хотя бы одного из предложений {si, si+1). В конце аспект я добавляется в список Achz.

Псеводкод приведён в листинге 9.

2.3.8 Алгоритмы поиска апозиопезы, повторяющихся восклицательных и вопросительных предложений

Представим текст как набор предложений s: Т = {s1, s2 ... , sq). Каждое предложение Si заканчивается знаком препинания pi.

Алгоритм последовательно перебирает предложения. Если у соседних предложений {si, Si+1,... ,St) знаки препинания pi = ...;pi+1 = ...;...;pt = ..., то найдена

апозиопеза а = {W, S), где W = 0, S = {si, si+1,... , st). Аспект а добавляется в список л

apz

Списки повторяющихся восклицательных Aexci и вопросительных Aintr предложений формируются аналогично. Только вместо проверки pi = ... проверяется принадлежность знака препинания множеству: р Е {!, ?!,!...,!!,!!!} для а Е Aexci и р Е {?, ?!, ?..., ??, ???} для а Е Amtr.

Псеводкод приведён в листингах 10, 11 и 12.

2.4 Интерфейс ProseRhythmDetector

Приложение ProseRhythmDetector обладает достаточно простым и понятным интерфейсом. Его главная страница отображена на рис. 1. Через меню «Текст» можно загрузить текст из txt-файла в формате UTF-8. После загрузки приложение раз-объёт текст по главам и предложит указать язык текста: русский, английский, французский или испанский. Затем оно найдёт в тексте ритмические средства, используя алгоритмы из предыдущего раздела и визуализирует их.

Визуализация заключается в следующем. В левой части экрана приложения выводится текст, в котором цветом размечены аспекты ритмических средств. Список

Algorithm 10 Алгоритм поиска апозиопезы Require: Список предложений S

А := 0

word_count := 0 feature_start := None in_repetition := false for sentence in S do

if sentence.ending_punct = "..." then if feature_start = None then

feature_start := word_count else

in_repetition := true end if else

if in_repetition then

append aposiopesisfcontext = /feaiure_siari; word_couni - 1]) to A feature_start := None in_repetition := false end if end if

word_count := word_count + len(sentence) end for

if in_repetition then

append aposiopesisfcontext = /feaiure_siari; word_count - 1]) to A feature_start := Жопе in_repetition := false end if

Ensure: Список апозиопез A

Algorithm 11 Алгоритм поиска повторяющихся восклицательных предложений Require: Список преддожений S

Е := 0

word_count := 0

punctjist := {"!"?!"!..."!!"!!!"}

feature_start := None

in_repetition := false

for sentence in S do

if sentence.ending_punct in punct_list then if feature_start = None then

feature_start := word_count else

in_repetition := true end if else

if in_repetition then

append exc?amaiory_seniences(coniea;i = /feaiure_siari; word_count - 1]) to E feature_start := None in_repetition := false end if end if

word_count := word_count + len(sentence) end for

if in_repetition then

append exc?amaiory_seniences(coniexi = /feaiure_siari; word_count - 1]) to E feature_start := Жопе in_repetition := false end if

Ensure: Список повторяющихся восклицательных предложений Е

Algorithm 12 Алгоритм поиска повторяющихся вопросительных предложений Require: Список предложений S

I := 0

word_count := 0

punctjist := {"?"?!"?... "??"???"} feature_start := None in_repetition := false for sentence in S do

if sentence.ending_punct in punct_list then if feature_start = None then

feature_start := word_count else

in_repetition := true end if else

if in_repetition then

append interrogatiue_sentences(context = /feature_start; word_count - 1]) to I feature_start := None in_repetition := false end if end if

word_count := word_count + len(sentence) end for

if in_repetition then

append interrogatiue_sentences(context = /feature_start; word_count - 1]) to I feature_start := Жопе in_repetition := false end if

Ensure: Список повторяющихся вопросительных предложений I

ргозе-гИуШггм^есЮг (1835_Гоголь_Вий.М)

Файл Текст

Документ Аспекты

побоится божьего слова. Пусть лежит! Да и что я за козак, когда бы устрашился? Ну, выпил лишнее - оттого и показывается страшно. А понюхать табаку: эх, добрый табак! Славный табак! Хороший табак Однако же, перелистывая каждую страницу, он посматривал искоса на гроб, и невольное чувство, казалось, шептало ему: "Вот, вот встанет! вот поднимется, вот выглянет из гроба Но тишина была мертвая. Гроб стоял неподвижно. Свечи лили целый потоп света. Страшна освещенная церковь ночью, с мертвым телом и без души людей Возвыся голос, он начал петь на разные голоса, желая заглушить остатки боязни. Но через каждую минуту обращал глаза свои на гроб, как будто бы задавая невольный вопрос: "Что, если подымется, если встанет она Но гроб не шелохнулся. Хоть бы какой-нибудь звук, какое-нибудь живое существо, даже сверчок отозвался в углу! Чуть только слышался легкий треск какой-нибудь отдаленной свечки или слабый, слегка хлопнувший звук восковой капли, падавшей на пол Ну, если подымется Она поиподняла гoлoвv

^парИог^Л)

исМасоре (64)

®ерапа1ерз15 (3)

Список слов исключённых из аспектов

Аспекты в документе

Но Но Но через каждую минуту обращал глаза свои на гроб, как будто бы задавая невольный вопрос: "Что, если подымется, если встанет она Но гроб не шелохнулся.

Она Она Она встала... идет по церкви с закрытыми глазами, беспрестанно расправляя руки, как бы желая поймать кого-нибудь Она идет прямо к нему. Она Она Она была страшна. Она ударила зубами в зубы и открыла мертвые глаза свои. Она Она Она недаром призвала тебя. Она заботилась, голубонька моя, о душе своей и хотела молитвами изгнать всякое дурное помышление Все было Все было

Статистика

Рис. 1 — Главная страница Рго8еКЬу1ЬшВе1ее1ог

найденных средств и соответствующие им цвета указаны сверху справа в чекбоксах. Включение и выключение чекбоксов позволить фильтровать вывод средств: маркируются и выводятся только выбранные средства.

Под текстом выводится список конкретных аспектов и контекстов, в которых аспекты появляются. Если нажать на элемент списка, то текст вверху прокрутится до этого аспекта.

Также приложение может сохранить найденные аспекты и их контексты в файле со специальным форматом .ргё. Эта функция доступна из меню «Файл/Сохранить документ». Ргё-файл содержит ]яоп-объект, в котором хранится текст, разделённый на главы и абзацы, а также список аспектов. Для каждого аспекта указывается ритмическое средство, номера повторяющихся слов и контекст как диапазон слов по их номерам. Слова нумеруются от начала текста.

Такой ргё-файл позволяет сохранять найденные ритмические средства и впоследствии обрабатывать их автоматически для решения других задач анализа тектов на естественном языке, например, для статистического анализа ритма текста.

Приложение ProseRhythmDetector реализовано на языке программирования Python с помощью библиотеки Stanza для обработки текста. Оно доступно по ссылке https://github.com/text-processing/prose-rhythm-detector.

2.5 Качество работы инструмента

Качество алгоритмов поиска средств оценили эксперты-лингвисты. Четыре исследователя обработали в общей сложности 24 текста разных авторов, случайно выбранных из корпуса. Каждый эксперт работал 16 часов. Они вручную оценили точность поиска всех ритмических средств. Исключением является диакопа, поскольку для неё Рго8еИЬу1ЬшВе1ес1ог обнаружил несколько тысяч ритмических средств, поэтому эксперты проверяли из них только случайные 10 %. Эксперты заключили, что точность поиска средств достигает 80-95 % для всех ритмических средств.

Эксперты-лингвисты сделали следующие основные выводы относительно использования инструмента:

— Инструмент РИС обеспечивает достаточно высокий уровень точности определения ритмических фигур — в среднем 83,94 % (для текстов на английском языке) и 81,41 % (для текстов на русском языке).

— Уровень точности можно повышать, расширяя списки стоп-слов индивидуально для каждого ритмического средства.

— Точное определение фигур речи, которые ищутся инструментом, значительно ускоряет работу эксперта с ритмом текста, который является одним из критериев авторского идиолекта и специфического языка автора.

— Углублённый анализ художественных текстов, написанных в разные эпохи (XIX-XXI век) на двух неродственных языках (английском и русском), показывает большой потенциал инструмента как средства выявления фактора ритма для корпуса произведений данной эпохи и его сравнения с точки зрения динамики ритмических показателей. Это поможет проследить эволюцию ритма в разных языках и эпохах.

Таким образом, данный инструмент позволяет быстро, достаточно точно и полностью автоматически выявить ритмические средства даже для текстов боль-

шого объёма. Это существенно ускоряет работу эксперта-лингвиста по сравнению авторского стиля текстов и позволяет ставить крупные эксперименты по анализу ритма крупных корпусов текстов.

3 Автоматический поиск ритмических средств и анализ их динамики в прозе 19-21 веков

3.1 Введение

Определение количественных и качественных характеристик текста и его структуры позволяет идентифицировать индивидуальный авторский стиль и использовать его для определения авторства, верификации автора, классификации текстов, составления профиля автора и других задач обработки естественного языка (ЫЬР) [2]. Автор в главе 1 проанализировала использование различных стилометрических характеристик при решении таких задач и пришла к выводу, что семантические и лингвистические характеристики редко используются в исследованиях в областях КЬР и компьютерных наук, в отличие от классической лингвистики, несмотря на то, что они могут улучшить качество решения задачи. Одна из причин заключается в том, что такие характеристики трудно определить автоматически.

Характеристики ритма текста являются примерами сложных лингвистических характеристик. Значимость ритмических средств для определения стиля выявлена в исследованиях текстов, относящихся к разным периодам времени. Изменение стиля с течением времени характеризует как отдельных авторов [64] так и язык в целом [65]. В последней работе Кумар и другие ищут слова и фразы, которые явно указывают на конкретный период времени. Они достигают средней ошибки около 30 лет для классификации текста по датам.

Организаторы конкурса Бешеуа1 2015 [66] также отметили, что язык меняется со временем, даже за относительно короткие периоды. Они предложили участникам решить проблему автоматического определения периода написания статей из газет, опубликованных между 1700 и 2010 годами. Интересно, что из семи команд только четыре смогли найти решение. Наилучшие результаты (правильность от 60.5%

до 86.8 % для системы, основанной на лингвистических и мета-особенностях) были получены с использованием широкого спектра различных текстовых характеристик: мета-свойства документа, стилистические, грамматические, лексические средства и даже поиск прямого упоминания о дате документа [67]. Результаты конкурса показывают, что проблема изменения стилистических особенностей текстов с течением времени очень мало изучена в компьютерной лингвистике.

В последних работах, посвященных автоматическому определению времени создания текста, обычно строится текстовая модель, основанная на очень простых средствах, в основном на п-граммах слов, длинах предложений, количественных характеристиках частей речи [68]. Однако авторы данной работы предлагают добавить в модель для улучшения результатов более сложные стилометрические характеристики. В частности, Гопиди [69] подчеркивает, что особенности ритма и грамматики позволяют оценить сходство и различие произведений разных периодов времени.

Стилометрические характеристики отличаются не только для разных эпох, но и для разных языков. Авторы работы [70] кластеризовали тексты при помощи алгоритма к-средних, основываясь на встречаемости слов и символов. Е-мера для такого алгоритма классификации получилась не выше 53 %. С применением нейро-сетей классификация текстов по языкам на основе характеристик уровня символов и слов может достигать более высоких значений Е-меры 70-80% [71]. Но такие исследования затрагивают только низкоуровневые характеристики, оставляя открытым вопрос значимости лингвистических характеристик для моделирования и анализа стиля.

Таким образом, выявление групп сложных ритмических средств в произведениях разных веков и их количественный анализ позволят внести существенный вклад в изучение влияния ритма на авторский стиль текстов. Цель автора данной диссертации — исследовать, как комплекс ритмических средств может использоваться для автоматизированных экспериментов с анализом стиля автора в прозе. Исследователь осуществляет автоматический поиск этих средств в художественной литературе и статистический анализ их появления в корпусах текстов XIX-XXI веках. Ритмические характеристики сравниваются со стандартными характеристиками уровней слов и символов. Эксперименты проводятся с алгоритмами поиска средств, реализованными в инструменте Рго8еИЬу1ЬшВе1ес1ог.

3.2 Стилометрические характеристики

Стилометрический анализ текста включает в себя поиск и подсчёт различных стилометрических характеристик. Среди таких характеристик можно выделить несколько категорий:

1. уровень символов;

2. уровень слов;

3. уровень ритма.

Ритмические средства подробно описаны в предыдущей главе. Для них были выбраны следующие числовые стилометрические характеристики:

1. количество появлений в тексте конкретного средства, делённое на количество предложений;

2. количество появлений в тексте всех средств, делённое на количество предложений;

3. доля уникальных слов среди всех, составляющих средства, в данном случае тех, которые повторяются только один раз;

4. доли существительных, прилагательных, глаголов и наречий среди слов, составляющих средства.

Выбор данных средств для анализа ритма, а именно для их автоматизированного поиска и количественной обработки обусловлен тем, что это наиболее частотные ритмические средства, употребляемые в прозаических текстах. Именно они выделяются в качестве ритмических средств на лексико-грамматическом уровне большинством лингвистов, проводящих исследования в области ритмизации текста [72].

В качестве стилометрических характеристик на уровне символов и слов были выбраны нижеперечисленные характеристики.

На уровне символов:

1. количество букв, как отдельных, так и их общее количество;

2. количество символов, как отдельных, так и их общее количество;

3. средняя длина предложения в символах.

На уровне слов:

— средняя длина предложений по количеству слов;

— средняя длина слова;

— частоты топ-40 п-граммов для п = 1, 2, 3. Для каждой униграммы, биграммы или триграммы вычисляется количество вхождений в корпус текстов, а затем выбирается 40 наиболее часто встречающихся униграмм, биграмм и триграмм. Для каждого текста также вычисляется их количество появлений и делится на общее количество вхождений данных 120 п-грамм в текст.

Выбор данных стилометрических средств на уровне символов и слов был обусловлен тем, что они являются наиболее являются показательными при определении авторского стиля во время исследования произведения [73].

3.3 Постановка экспериментов 3.3.1 Основные этапы экспериментов

Стилометрические характеристики трёх разных уровней вычисляются и визуализируются автоматически. Эксперименты с этими характеристиками были поставлены следующим образом:

— Сначала в текстах были выявлены ритмические средства. Алгоритмы поиска ритмических средств описаны в предыдущей главе.

— Для выявленных ритмических средств были подсчитаны стилометрические характеристики.

— Параллельно с подсчётом характеристик ритма для текстов были вычислены стилометрические характеристики уровня слов и символов.

— Стилометрические характеристики текстов были агрегированы по десятилетиям, десятилетия сравнивались между собой.

— На последнем этапе результаты сравения были визуализированы с помощью тепловых карт и графиков.

Алгоритмы обеспечивают точность поиска 80-95 % для большинства ритмических средств. Таким образом, на первом этапе мы получаем качественную модель ритма текста.

Ритмические и простые стилометрические характеристики вычисляются на основе текста и модели его ритма по точным правилам, описанным в предыдущем разделе. В результате каждый текст представляется как вектор числовых характеристик. Вектора сравниваются при помощи мер близости, на основе которых организована визуализация результатов.

3.3.2 Визуализация стилометрических характеристик

После того, как вычислены стилометрические характеристики для текстов, считаются стилометрические характеристики для десятилетий. Для каждого десятилетия берутся средние значения характеристик текстов, опубликованных в этот период. Таким образом получаются вектора характеристик десятилетий такого же типа, как и вектора для отдельных текстов.

Стилометрические характеристики десятилетий и их сравнение визуализируются четырьмя способами:

— В виде тепловых карт, которые описывают близость десятилетий по стилю. Это квадратные тепловые карты, на осях которых расположены десятилетия, а оттенок в ячейке обозначает степень близости пары десятилетий: чем темнее оттенок, тем ближе объекты друг к другу. В качестве меры близости использовались четыре популярные метрики: расстояние Чебышёва, коэффициент корреляции, расстояние Евклида и манхэттенское расстояние.

— В виде графиков, описывающих динамику изменения плотности ритмических средств с течением времени. По горизонтали указаны года, по вертикали — количество ритмических средств на 100 предложений.

— В виде тепловых карт, которые описывают диапазоны значений стилометриче-ских характеристик. На горизонтальной оси располагаются названия конкретных характеристик, на вертикальной — десятилетия. Ячейки карты содержат

значение характеристики, а также имеют цвет, оттенок которого обозначает величину значения относительно других. Самые большие значения обозначаются светлыми оттенками, самые маленькие — тёмными. Справа на карте отображается столбик с диапазоном значений и оттенками для разных значений.

— В виде дендрограмм, полученных в результате кластеризации. Листья денд-рограммы — это десятилетия, они размещены по горизонтали. По вертикали отмечаются расстояния между кластерами в виде горизонтальных отрезков на определённом уровне. Дендрограмма строится с помощью агломеративно-го подхода, от листьев к стволу. Метрики близости используются те же, что и для тепловых карт. В качестве функций расстояния между кластерами применяются три метода: одиночной, средней и полной связи.

Для сравнения десятилетий стилометрические характеристики предварительно нормализуются: из конкретного значения вычитается среднее значение данной характеристики по всему корпусу текстов, разность делится на среднеквадратиче-ское отклонение данной характеристики.

Все четыре способа визуализации достаточно наглядны и позволяют проанализировать как динамику изменения стилометрических характеристик на протяжении десятилетий, так и близость десятилетий друг к другу с точки зрения стиля.

Оба способа визуализации позволяют анализировать изменения ритмических средств в течение десятилетий и столетий и выявлять периоды времени, которые похожи или различаются по ритму текста. Результаты визуализации представлены в следующем разделе.

3.4 Эксперименты 3.4.1 Корпуса и инструменты реализации

Были проведены эксперименты с четырьмя корпусами текстов на английском, русском, французском и испанском языках. Корпуса насчитывают по 240 прозаических текстов около 90 известных авторов. Автор взяла от 1 до 5 текстов каждого автора. Все тексты отмечены датой публикации с 1815 по 2019 год. Каждый текст

содержит в себе до 425 000 слов. В корпусе для испанского яззыка представлены тексты XIX и XX веков.

Алгоритмы обработки текста и скрипты для визуализации объединены в инструмент ProseRhythmDetector. Он реализован на языке программирования Python и использует библиотеки для обработки текстов StanfordNLP 0.2.0 и TextBlob 0.15.2, которые предоставляют модели английского и русского языков и API для обработки текста. Инструмент доступен по ссылке https://github.com/text-processing/ prose-rhythm-detector.

3.4.2 Тепловые карты

На основе получившихся векторов характеристик по корпусу текстов были построены четыре набора тепловых карт по метрикам близости Чебышёва, Евклида, корреляции и манхэттенского расстояния. Метрики Евклида и манхэттенское расстояние показали практически идентичные результаты на всех рассматриваемых уровнях. Относительно заметные различия наблюдаются только при объединении всех уровней.

Метрика корреляции не сильно помогла в анализе литературы за указанный период, однако она продемонстрировала близость 00-х и 10-х годов XXI-го века во всех корпусах (см. рис. 2, 4, 6, 8). Кроме того, на тепловой карте, построенной на основе корпуса русских текстов, можно отметить особую близость 1830-х и 1840-х годов. Также по карте видно, что XXI век более далёк от XIX-го века, чем от XX-го, а ещё можно увидеть, что 1960-е и 1920-е года близки к началу XIX-го столетия. Наконец, по карте можно сделать вывод, что литература конца XIX-го века была весьма похожа на литературу начала XIX-го века, в то время как произведения середины XIX-го столетия сильно отличаются от них.

По тепловой карте, построенной на основе корпуса английских текстов с расчётом по метрике корреляции можно понять, что произведения большей части XIX-го века близки между собой. Но, как и в случае с русской литературой, английская литература середины 19-го века выделяется на фоне всего остального столетия, пусть и не так сильно.

Испанские и французские тексты также оказались очень близки между собой по метрике корреляции. Отличается от остальных только середина XIX-го века.

141 1810 1820 1830 1840 1850 1860 1870 1880 18901900 1910 1920 1930 1940 1950 1960 1970 1980 1990 2000 2010 м 1810 1820 1830 1840 1850 1860 1870 1880 18901900 1910 1920 1930 1940 1950 1960 1970 1980 1990 2000 2010

е) а)

Рис. 2 — а) Уровень символов, Ь) уровень слов, е) уровень ритма, а) все уровни вместе, метрика корреляции, английский язык

Наиболее показательными оказались результаты, полученные при расчёте по метрике Чебышёва. На картах, построенных по корпусу русского языка, отчётливо видно, как выделяются 1950-е года (см. рис. 5. Они отличаются от остальных периодов в литературе на всех уровнях, но особый вклад в это различие вносит уровень символов — все произведения рассматриваемой эпохи имеют сходство на уровне символов, в то время как 1950-е года разительно отличаются от литературы всех периодов. На уровне слов можно выделить отличие текстов ХХ1-го века от Х1Х-го, а

с)

Рис. 3 — а) Уровень символов, Ь) уровень слов, с) уровень ритма, ^ все уровни вместе, метрика Чебышёва, английский язык

также стоит отметить различие 1950-х от второй половины XIX-го века. Кроме того, на всех уровнях можно выделить схожесть 30-х и 40-х годов XIX века. 1870-е года выделяются на фоне всей литературы XIX-го века на всех уровнях, а уровень ритма придаёт им отличие от всей литературы за рассматриваемый период. В заключение, на уровнях символов и слов можно выделить близость второй половины XX-го века с началом 21-го века, однако уровень ритма слегка нивелирует это сходство.

1830 1840 1850 1860 1870 1880 1890 1900 1910 1920 1930 1940 1950 1960 1970 1980 1990 2000 2010 1830 1840 1850 1860 1870 1880 1890 1900 1910 1920 1930 1940 1950 1960 1970 1980 1990 2000 2010

с) а)

Рис. 4 — а) Уровень символов, Ь) уровень слов, с) уровень ритма, а) все уровни вместе, метрика корреляции, русский язык

Эксперименты на корпусе английских текстов показали следующие результаты. На уровне символов (см. рис. 3 можно выделить близость 1890-х и 1900-х годов, а также 2000-х и 2010-х. Также на этом уровне особенно отличаются 1950-е года по сравнению со всеми другими десятилетиями. На уровне слов уже более ярко выделяется период с 1890-х по 1920-е годы, а также XXI-й век. Уровень ритма способствует выделению периода с 1990-х по 2010-е года, а также периода с 1850-х по 1970-е года и с 1890-х по 1900-е года. Таким образом, на карте, отражающей все характеристики

1830 1840 1850 1860 1870 1880 1890 1900 1910 1920 1930 1940 1950 1960 1970 1980 1990 2000 2010 1830 1840 1850 1860 1870 1880 1890 1900 1910 1920 1930 1940 1950 1960 1970 1980 1990 2000 2010

е) а)

Рис. 5 — а) Уровень символов, Ь) уровень слов, е) уровень ритма, а) все уровни вместе, метрика Чебышёва, русский язык

сразу, четко можно выделить интервал с 1870-х по 1920-е года, а также ХХ1-й век и 1990-е года.

Для британских текстов алгоритмы выделяют три группы литературных периодов, близких по ритму: 1830-1860 (середина 19-го века), 1870-1930 и 1940-2020. Для русских текстов они обнаруживают кластер 19-го века (1830-1900), два небольших кластера в 20-м веке: десятилетия 1910-1920 и десятилетия 1940-1950. Десятиле-

а)

с)

Ъ)

а)

Рис. 6 — а) Уровень символов, Ь) уровень слов, с) уровень ритма, а) все уровни вместе, метрика корреляции, французский язык

тия с 1960 по 2010 год также объединены в один кластер. Для обоих языков расстояние Чебышёва выделяет десятилетие 30-х годов, сильно отличающееся от других.

Для французских текстов (рис. 7) можно выделить два больших кластера: до 1930-х включительно и с 1940-х до 2010-х. Оба кластера внутри неоднородны: первый кластер на уровнях ритма и слов можно разделить на периоды первой половины XIX века и второй половины XIX—начала XX века, второй кластер — на XX и XXI века. Уровень символов показывает гораздо большее разнообразие кластеров.

а)

И

е)

оооооооооооооооооооо

СМСО'^ЮСОГ--СОа>От-С\|СО'^ЮСОГ-~СОСТ)От-00000000000000000)0)0)0)0)0)0)0)0)0)00

Ь)

а)

Рис. 7 — а) Уровень символов, Ь) уровень слов, е) уровень ритма, а) все уровни вместе, метрика Чебышёва, французский язык

Испанские тексты также можно разделить на несколько кластеров (рис. 9). Ритмические средства позволяют выделить три: 1850-1870 гг., 1880-1900 гг., 19201930 гг. 1910-е года отличаются по ритму от всех. При объединении всех характеристик 1870-1920 гг. сливаются в один большой кластер, а 1930-е, наоборот, отделяются от остальных.

Таким образом, тепловые карты показывают большие кластеры десятилетий с похожим ритмом для текстов 19-го века и конца 20-го — начала 21-го века. Кроме

с) а)

Рис. 8 — а) Уровень символов, Ь) уровень слов, с) уровень ритма, а) все уровни вместе, метрика корреляции, испанский язык

того, можно увидеть маленькие кластеры с 2-3 десятилетиями с близкими ритмическими характеристиками. Используя отдельные уровни характеристик текстов или комбинируя их, можно кластеризовать десятилетия различными способами и таким образом определять параметры, по которым десятилетия близки друг другу.

с)

а)

Рис. 9 — а) Уровень символов, Ь) уровень слов, с) уровень ритма, а) все уровни вместе, метрика Чебышёва, испанский язык

3.4.3 Графики

Графики показывают изменения в использовании отдельных средств за десятилетия. На рис. 10а для британской литературы можно видеть, сколько раз в среднем в 100 предложениях появляются все средства, диакопы, многосоюзия, а также каков процент уникальных слов в ритмических средствах. Аналогичная статистика

а)

Рис. 10 — Ритмические средства по десятилетиям: все, диакопа, многосоюзие на а) английском языке, Ь) русском языке, е) французском языке, а) испанском языке

для русской литературы представлена на рис. 10Ь, для французской — на рис. 10е, для испанской — на рис. 10а.

На графике для британских текстов количество средств значительно уменьшилось с 19 века: со 120 до чуть более 40 на 100 предложений. Наиболее частые средства — это диакопа и многосоюзие, а их количество показывает одинаковую тенденцию к уменьшению.

Рис. 11 — Ритмические средства в британских текстах по десятилетиям: анафора, эпифора, анадиплозис

Еще одна тенденция имеется для средств в русских текстах: общее количество ритмических средств увеличивалось до 1900 г., но в 20-м веке оно сократилось, и в современной литературе эти статистические особенности ритма стабильны.

Для французских текстов уменьшение количества ритмических средств в течение десятилетий также происходит, но в меньшей степени. Следует отметить, что среднее количество ритмических средств на количество предложений в XIX веке во французских текстах в 2-3 раза меньше, чем в английских и русских.

Тенденции для испанских текстов в целом совпадают с тенденциями для английских текстов: постоянное уменьшение количества средств.

Другие ритмические средства появляются слишком редко: менее 10 раз на 100 предложений. Среди них можно выделить три наиболее часто встречающиеся, у которых можно обнаружить слабые тенденции использования: анафора, эпифора и анадиплозис.

В британских текстах (рис. 11) анафора появляется 5-8 раз на 100 предложений и имеет пик в 1920-х годах. Скорее всего, этот пик является особенностью стиля романов конкретного автора, потому что изменение очень мало: всего 3 средства на 100 предложений. Эпифора и анадиплозис редки и стабильны. Таким образом, появление редких средств изменяется в течение десятилетий незначительно.

3.4.4 Тепловые карты диапазонов

a) b)

Рис. 12 — Тепловая карта для а) английских, b) русских текстов с нормализованными значениями характеристик

Второй тип тепловых карт (рис. 12) отображает нормализованные значения характеристик (разность между реальным и средним значением по всему корпусу, делённую на среднеквадратическое отклонение) для обоих языков.

Первые 14 столбцов обозначают ритмические характеристики: 9 конкретных средств, общее количество появлений средств, доля слов, повторяющихся только один раз (unique word), доли частей речи. Остальные 7 — это несколько характеристик низкого уровня: количества букв, всех символов, слов и предложений, а также средние длины предложений в символах (avg by ch) и словах (avg by word) и средние длины слов (avg by word).

Описанные тепловые карты были построены в дополнение к предыдущим экспериментам для русского и английского языков.

Для ритмических средств обоих языков повторяется тенденция, выявленная в предыдущем исследовании на меньших корпусах текстов: на протяжении веков общее число ритмических характеристик снижается. Это видно по оттенкам цветов на карте: для диакопы и многосоюзия (polysyndeton), как наиболее частых средств, и суммарного числа средств в 19 веке оттенки более светлые, а в конце 20-го — начале

21-го — более тёмные. Это значит, что в 19 веке эти характеристики имеют значения выше среднего, а ближе к нашему времени — ниже среднего.

В британских текстах эта тенденция коррелирует с употреблением прилагательных: доля их появлений в ритмических средствах также снижается к 21 веку. Доли остальных частей речи колеблются не так значительно. Для русских текстов закономерность другая: доли существительных и прилагательных в 20-21 веках возрастают.

Что касается простых стилометрических характеристик, то для британских текстов они показывают, как изменяется средний размер художественных произведений: постепенно уменьшается к середине 21 века, затем снова возрастает. Для русских текстов тенденция обратная. Эти закономерности можно скорее отнести к особенностям формирования корпуса: были выбраны известные художественные произведения популярных авторов. При увеличении корпуса и добавлении более разнообразных произведений тенденции могут измениться.

Средние длины предложений и слов представляют собой характеристики, лучше отражающие стиль текстов, чем абсолютные количества элементов текста. Для британских текстов все они уменьшаются в течение практически всех десятилетий. Средняя длина предложений в русских текстах увеличивается к концу 19 века — началу 20 века, немного уменьшается в первой половине 20 века, увеличивается к 1950 годам, затем снова уменьшается. Средняя длина слова увеличивается на протяжении всех десятилетий.

Как и по тепловым картам близости, по картам диапазонов можно видеть десятилетия, выделяющиеся на фоне остальных. Причём на картах диапазонов дополнительно можно обнаружить, по каким стилометрическим характеристикам десятилетия отличаются. Для британских текстов это 1930 и 1980 года. Для русских — 1870 и 1940-1950.

Таким образом, тепловые карты диапазонов позволяют как выявлять общие тенденции в изменении стиля произведений для языка в целом, так и обнаруживать отдельные десятилетия, выделяющиеся среди остальных.

3.4.5 Сравнение тепловых карт и графиков

Если сравнивать графики и тепловые карты за десятилетия, мы можем сделать вывод, что расстояние Чебышёва работает хорошо и позволяет выделять кластеры, только когда количество средств достаточно велико. Для ХХ1-го века, когда средства становятся более редкими, эта метрика бесполезна. Наоборот, коэффициент корреляции позволяет различать периоды независимо от величины характеристик, но только для русских текстов.

Тепловые карты диапазонов и графики демонстрируют одни и те же тенденции, карты — в относительных числах, графики — в абсолютных.

Таким образом, тепловые карты и графики показывают тенденции использования средств на протяжении десятилетий и веков, поэтому ритмические средства могут быть полезными индикаторами изменения стиля.

3.4.6 Дендрограммы

а) Ь)

Рис. 13 — Дендрограмма для а) английских, Ь) русских текстов на основе ритмических средств, расстояния Евклида и метода полной связи

Дендрограммы строились для дополнительной иллюстрации близости десятилетий в русских и английских текстах. Для каждого языка тексты кластеризовались иерархически как на основе отдельных типов стилометрических характеристик, так и на основе всех типов характеристик, чтобы сравнить разделение текстов только по ритму с разделением по всем стилометрическим характеристикам.

а) Ь)

Рис. 14 — Дендрограмма для а) английских, Ь) русских текстов на основе всех средств, расстояния Чебышёва и метода полной связи

Среди функций расстояния между кластерами самые наглядные результаты показал метод полной связи, метод средней связи показал близкие к нему результаты. Метод одиночной связи выявил меньше кластеров, чем остальные.

Что касается метрик близости между элементами, то манхэттенское расстояние и расстояние Евклида показали близкие результаты, как и в случае с тепловыми картами. Коэффициент корреляции показал более хаотичное разбиение на кластеры, чем другие методы.

Для ритмических средств наиболее полезной оказалась метрика Евклида (см. рис. 13).

Для британских текстов по ритму явно выделяются несколько небольших кластеров, содержащих соседние десятилетия: 1990-2010 гг., 1940-1950 гг., 1890-1920 гг., 1850-1870гг. 1830 и 1980 десятилетия оказались самыми далёкими по ритму от остальных. 21 век наиболее похож на середину 20 века: 1940-1950 и 1970.

Для русских текстов дендрограмма показывает меньшие расстояния по ритму между десятилетиями, чем для британских текстов. По ней видны два больших кластера, первый содержит большую часть десятилетий 20-21 веков, второй - 19 век и начало 20-го: 1900-1910 гг. 21 век не так явно выделяется по ритму, как в британских текстах. Самыми далёкими от остальных оказываются 1870 и 1940 десятилетия.

Для всех стилометрических средств наиболее наглядные результаты показала метрика Чебышёва (см. рис. 14).

Для британских текстов по стилю некоторые пары соседних десятилетий снова оказываются близки друг к другу: 1890 и 1900, 1880 и 1870, 1910 и 1920 и т.д. В

целом расстояния между десятилетиями оказываются меньше, в кластере 19 века оказываются начало и середина этого столетия. 21 век снова близок по стилю к середине 20 века.

Для русских текстов по стилю 21 век выделяется в отдельный кластер, но в этот кластер также попадают 1970 года. 19 век оказывается разбит на 2 более мелких кластера и более похож на 20 век. 1940 и 1870 снова оказываются самыми далёкими от остальных, и к ним присоединяются 1950 гг.

Таким образом, дендрограммы показывают, что по ритмическим характеристикам века отличаются сильнее, чем по совокупности стилометрических характеристик. 19 век и 1990-2010 года могут выделяться в отдельные кластеры, 20 век оказывается куда менее однородным как по ритму, так и по более простым стило-метрическим характеристикам.

3.5 Анализ результатов

Количественный анализ позволяет разделить набор ритмических средств на две группы по частоте встречаемости: частые (диакопа, многосоюзие) и редкие (анафора, эпифора, анадиплозис). Выявленное уменьшение общего количества средств наблюдается только в первой группе. Количества редких средств этой тенденции не соответствуют. Поэтому можно сделать вывод, что наиболее распространенные ритмические средства являются наиболее полезными для определения времени написания текста. Вероятно, редкие средства можно использовать при определении авторского стиля текста в задачах авторизации и верификации. Чтобы подтвердить это предположение, необходимо исследовать дополнитело большое количество работ разных авторов. Программный инструмент Рго8еИ,Ьу1ЬшВе1ее1ог позволяет проводить такие масштабные эксперименты.

Следует отметить, что результаты экспериментов, которые выявляют сложные стилометрические характеристики, полезны не только для классических задач компьютерной лингвистики, но и для других областей лингвистики в целом. Автоматизация поиска ритмических средств и статистическая обработка результатов позволяют изменить масштаб работы лингвиста и сделать интересные выводы с точки зрения истории литературы.

Автоматическое определение комплекса низкоуровневых и высокоуровневых стилометрических характеристик даёт возможность быстро проанализировать большое количество объёмных произведений и сделать качественные выводы об изменении стиля с течением времени. Этот подход позволяет эксперту за короткое время получить детализированную модель стиля художественного текста.

Эксперименты показали, что, хотя десятилетия можно успешно кластеризовать по близости друг к другу, каждое из них является уникальным по совокупности ритмических и простых стилометрических характеристик. Это значит, что на основе модели, построенной на данных характеристиках, тексты потенциально можно успешно классифицировать векам и десятилетиям создания/публикации.

Если сравнить между собой значимость стилометрических характеристик разных уровней, то можно сделать вывод, что и низкоуровневые, и ритмические достаточно полезны и могут обнаруживать одни и те же крупные кластеры десятилетий. Однако ритмические характеристики более разнородны, поэтому являются лучшими индикаторами уникальности стиля.

Таким образом, автоматизированное моделирование текстов при помощи сти-лометрических характеристик различных уровней позволяет анализировать и успешно сравнивать между собой литературы разных языков и эпохи их развития. Следующий этап анализа применимости ритмических характеристик — классификация текстов с их помощью.

4 Влияние ритмических характеристик на классификацию

прозы по векам

4.1 Введение

Определение периода времени, к которому относится документ, важно как для исторических документов и публицистических текстов, так и для художественной литературы. Лингвисты рассматривают разделение литературы по периодам как аспект изучения социокультурных ситуаций, исторических процессов и стиля автора [74]. Четкое определение периода, когда текст был создан или опубликован, часто невозможно, поскольку многие тексты не имеют метаданных или прямых ссылок на дату публикации. В этом случае следует использовать другую информацию, например, особенности языка, на котором написан текст, то есть его стиль [75].

Изменения в стиле литературного текста с течением времени характеризуют как стиль отдельного автора [64], так и язык в целом [76]. Математическая модель для автоматического определения того, принадлежит ли текст определенному периоду времени, обычно основана на очень простых характеристиках: п-граммах слов [68; 77], длинах предложений, количественных характеристиках частей речи [78]. В то же время исследователи указывают на необходимость добавления в модель более сложных стилометрических характеристик, таких как ритмические и грамматические [69].

Современные программные библиотеки и фреймворки для обработки текста позволяют легко рассчитывать стилометрические характеристики на основе символов и слов. Напротив, извлечение признаков, основанных на структуре фраз и предложений, требует значительных усилий и дополнительных исследований.

Кроме того, сложные стилометрические характеристики используются гораздо реже, причем не только из-за сложностей при их расчете. Причина в том, что

небольшое количество работ систематизирует влияние различных типов характеристик на качество классификации текстов [75].

Таким образом, автор ставит две задачи для этого исследования: (1) автоматическая классификация художественной литературы Х1Х-ХХ1 веков по периодам их публикации с использованием ритмических характеристик и (2) сравнение качества классификации трех типов стилометрических характеристик: уровня символов, слов и ритма. Такая классификация может дать объяснение изменению и развитию стиля письменных текстов.

4.2 Аналогичные работы

Большинство исследователей, которые решают проблему классификации текста по времени, используют характеристики уровня слов.

Например, Чжао и др. [78] отметили, что определение времени документа является важным этапом поиска информации и необходимо для решения различных задач, включая кластеризацию документов, создание временной шкалы, адаптацию поисковой системы для временных запросов. Они предлагают методы для разметки по времени отдельных частей веб-документов. Для каждой части документа определены 44 характеристики: статистика для терминов, длина предложения, значения и количество дат, количество глаголов в разных формах. Части документа делятся на 5 категорий по времени написания: не позднее 30 дней, от месяца до года, от года до трёх лет, от трех до шести лет и более шести лет. Е-мера варьируется от 44 % до 72 % для разных документов. Авторы подчеркивают, что качество корпуса текстов является одним из важных факторов качества классификации.

Авторы работы [68] предложили программную систему датировки текстов. Они оценивают время создания документа посредством ассоциации пары слово-время. Слова извлекались из других статей, связанных с заданным периодом времени. Если исследуемый документ содержит много слов, связанных с определенным периодом времени ¿, то считается, что этот документ имеет сильную связь с ¿. Характеристики текста основывались на вычислении частот п-грамм (п = 1, 2, 3, 4, 5). Помимо оценки года создания документа, система также визуализирует распределение частот п-грамм. К сожалению численная оценка качества в статье не приведена. Авторы

позиционируют свою систему как интерактивный онлайн-инструмент для облегчения процесса определения возраста документа, а также для поддержки понимания исторических документов. Они планируют проводить исследования с участием специалистов и рассматривать различные жанры документов.

Хан и др. [79; 80] ищут новости, относящиеся к некоторому произошедшему событию. Поиск был основан на выделении слов и фраз, выражающих время описываемых событий. Каждому подобному временному выражению присваивался определённый вес. В ходе экспериментов выполнялся поиск по запросу выбранных событий и собирались документы, соответствующие каждому событию. Корпус текстов был составлен из 3500 новостных документов по 35 запросам. Метод определения подходящих документов основан на ранжировании документов по степени соответствия времени запрашиваемого события и делении их на три группы. Результат работы достиг точности 35% для первой группы и 77% для первых двух групп вместе. Эта работа в значительной степени основана на извлечении временных выражений, анализе лексики разного времени и утверждении, что чем больше контента документа относится к одному периоду времени, тем более вероятно, что к этому времени относится и сам документ.

Таким образом, в рассмотренных работах основой датирования документов является использование лексикона, характерного для определенного времени. Множество работ посвящено непосредственно выявлению слов, соответствующих заданным периодам времени.

Авторы статьи [81] моделируют соответствие временных интервалов и терминов с помощью взвешенного двудольного графа, который строится в том числе с использованием структуры предложений. Лин и др. [82] выявляют смысловую эволюцию слов во времени, строят для текстов вектора с частотами слов и применяют их для классификации документов по временным интервалам. Точность классификации оказалась от 39 % для 6-летних интервалов до 49 % для 20-летних. Авторы исследования [83] предлагают похожий метод выбора характеристик для классификации документов. Они выделяют два класса слов: независимые от времени термины и зависимые от времени термины. Частота этих терминов стала вектором характеристик каждого текста. В экспериментах авторы использовали японский газетный корпус МатюЫ (время публикации статей: 1991-2012). Корпус состоит из 2 883 623 доку-

ментов, разделенных на 16 категорий. F-мера достигла 68,8 %. Это одна из немногих работ, посвященных национальному языку.

Характеристики текстов, рассчитываемые на основе частоты встречаемости отдельных слов, иногда словосочетаний очень популярны, хотя задача определения соответствия времени и термина является сложной и неоднозначной. Однако, искусствоведы при выделении литературных периодов чаще обращают внимание на более сложные элементы языка: структуру предложений, контекст и порядок употребления слов, синтаксические и риторические фигуры речи [74; 84].

Одним из исследований автоматической классификации текстов по времени, в котором использовалось большое количество разнообразных характеристик текста, было соревнование Semeval 2015 [66]. Организаторы отметили, что язык меняется с течением времени, даже за относительно небольшие периоды и предложили участникам решить задачу автоматического определения принадлежности к периодам времени для подборки новостей из газет, опубликованных между 1700 и 2010 годами. Из 7 команд только 4 сумели получить решение предложенной задачи. Лучшие результаты (точность от 16,7% до 86,8% при разных параметрах исходных данных) были получены с использованием большого набора параметров текста: мета-свойства длины документа, стилистические, грамматические, лексические функции и даже поиск непосредственного упоминания даты документа [67]. Однако какой-либо анализ влияния различных типов характеристик на качество классификации проведён не был.

Авторы работы [85] классифицировали португальские исторические тексты по разным векам на основе изменения стиля письма. Для классификации использовались четыре признака классификации: средняя длина предложения (ASL), средняя длина слова (AWL), лексическая плотность (LD) и лексическая насыщенность (LR). Изменение значений этих функций выделяет время создания исторического текста. Анализ диахронических изменений в этих четырех признаках показал, что тексты, написанные в XVII-м и XVIII-м веках, имеют схожие AWL, LD и LR, которые значительно отличаются от текстов, написанных в XIX-м и XX-м веках. F-мера для классификации на четыре века оказалась равна 52 %, при классификации на два класса XVII, XVIII и XIX, XX равна 92 %. Корпус состоит из 87 текстов.

Интересное исследование на стыке классической и компьютерной лингвистики представлено в статье [69]. Авторы рассматривали стилистические различия между

английской поэзией и прозой двух периодов 1870-1920 и 1970-2019 гг. В качестве характеристик текста использовались особенности грамматической структуры предложений, метр, как расстановка ударных и безударных слогов, ритмические схемы при сравнении поэзии. В результате проведенных экспериментов было доказано, что поэзия 1970-2019 годов более схожа с прозой своего периода, чем поэзия 1870-1920 годов с прозой того же периода. Изменения в прозе двух периодов относительно стилистических особенностей минимальны, но в поэзии значительны.

Можно сделать вывод, что сложные стилометрические характеристики мало используются для автоматического датирования документов, хотя обладают значительным потенциалом повышения качества классификации текстов. Грамматические, ритмические параметры могут дать не только высокое качество решения задач обработки текстов, но и дополнительный материал для интерпретации результатов экспертами-лингвистами. Ещё одно важное замечание состоит в том, что подавляющее большинство экспериментов производится с корпусами текстов на английском языке. Использование методов датировки документов на других языках исследовано недостаточно.

4.3 Стилометрические характеристики

Стилометрические характеристики можно классифицировать на два типа: низкоуровневые характеристики, такие, как количества слов, символов, п-грамм и т. д., и высокоуровневые или лингвистические характеристики. Первые подразделяются на характеристики уровня симовлов и слов в зависимости от языковой единицы, которую они описывают. Для этого исследования автор выбрала следующие низкоуровневые характеристики, популярные в современных исследованиях [73]:

— Уровень символов:

— Средняя длина предложения в символах, включая и буквы, и знаки препинания.

— Частоты букв. Для каждой буквы подсчитывается количество вхождений и делится на количество всех букв. Текст предварительно приведён к нижнему регистру.

— Частоты знаков препинания:.!?: и т.д. Для каждого символа подсчитыва-ется количество появлений и делится на количество всех символов.

— Уровень слов:

— Средняя длина предложения в словах.

— Средняя длина слова в символах.

— Частоты топ-40 п-грамм для п = 1, 2, 3. Для каждой униграммы, биграм-мы или триграммы рассчитывается количество появлений в корпусе текстов, затем выбираются наиболее часто встречающиеся 40 униграмм, би-грамм и триграмм. Для каждого текста также вычисляются количества их появлений и делятся на общее количество появлений в тексте этих 120 п-грамм.

Эти характеристики сравниваются с определенным типом лингвистических характеристик: ритмическими. Их определения и алгоритмы поиска даны в главе 2. Эти средства часто появляются в текстах и различаются для каждого столетия и языка, как показано в главе 3.

Автор рассчитала характеристики ритма, которые описывают ритмические средства как независимые единицы и как структуры, состоящие из разных частей речи.

— Уровень ритма (характеристики те же, что и в главе 3):

— Количество появлений каждого ритмического средства, делённое на количество предложений.

— Доля уникальных слов — слов, которые повторяются только один раз среди всех слов, которые появляются в ритмических средствах.

— Доля слов определенной части речи: существительное, глагол, наречие и прилагательное — среди всех слов, которые появляются в ритмических средствах.

Таким образом, имеется три типа характеристик, которые по-разному описывают стиль текста. Ни одна из характеристик не является абсолютным значениием, поэтому все характеристики не зависят от размера текста и могут использоваться для сравнения прозаических текстов различной длины.

4.4 Постановка экспериментов с классификацией

по векам

4.4.1 Структура экспериментов

Стилометрические характеристики образуют модель стиля текста, которую можно использовать для классификации текстов. Тексты классифицируются по трём классам по дате их публикации: XIX, XX и ХХ1-й века. Тексты, опубликованные в Х1Х-м веке, имеют похожий стиль, это также верно для XXI-го века, а XX-й век более разнороден, но отличается от других, как было показано в главе 3.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.