Методы конвертации морфологических стандартов и их применение в задаче автоматической морфологической разметки тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Мовсесян Андрей Арсенович
- Специальность ВАК РФ00.00.00
- Количество страниц 133
Оглавление диссертации кандидат наук Мовсесян Андрей Арсенович
Введение
Глава 1. Морфологическая разметка и морфологические стандарты
1.1 Морфологический анализ и морфологическая разметка
1.1.1 Морфологический анализ
1.1.2 Автоматическая морфологическая разметка
1.2 Морфологические стандарты на материале русского языка
1.2.1 Морфологический стандарт Грамматического словаря русского языка А. А. Зализняка
1.2.2 Морфологический стандарт Национального корпуса русского языка
1.2.3 Морфологический стандарт глубоко аннотированного корпуса СинТагРус
1.2.4 Морфологический стандарт проекта «Открытый корпус»
1.2.5 Морфологический стандарт соревнования RU-EVAL
1.2.6 Морфологический стандарт Генерального интернет-корпуса русского языка
1.2.7 Морфологический стандарт проекта Универсальных зависимостей
1.2.8 Морфологический стандарт соревнования MorphoRuEval-2017
Глава 2. Конвертация лингвистических данных
2.1 Конвертация морфологических стандартов с помощью правил
2.2 Методы неявной конвертации морфологических стандартов
2.2.1 Неявная конвертация с помощью метода переноса знаний
2.2.2 Неявная конвертация с использованием «многозначных» тегов
2.2.3 Неявная конвертация с помощью многозадачного обучения
2.3 Методы явной конвертации лингвистических данных
Глава 3. Предлагаемые методы конвертации морфологических
стандартов
Стр.
3.1 Модель автоматической морфологической разметки
3.1.1 Векторное представление слов
3.1.2 Кодер
3.1.3 Выходной слой
3.2 Методы неявной конвертации
3.2.1 Модели на основе многозадачного обучения
3.2.2 Модель на основе слоя векторного представления граммем
3.3 Метод явной конвертации
Глава 4. Исследование эффективности предложенных методов
конвертации морфологических стандартов
4.1 Используемые наборы данных
4.2 Гиперпараметры моделей конвертеров
4.3 Эксперименты с неявными моделями конвертеров
4.3.1 Первая серия экспериментов
4.3.2 Вторая серия экспериментов
4.3.3 Визуализация
4.4 Эксперименты с явной моделью конвертера
Заключение
Список сокращений и условных обозначений
Список литературы
Список рисунков
Список таблиц
Приложение А. Акты о внедрении результатов диссертации
Приложение Б. Численные значения точности на уровне слов всех
версий моделей неявных конвертеров
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Математические модели, методы и алгоритмы построения размеченных корпусов текстов2013 год, кандидат наук Седов, Алексей Владимирович
Метод многофакторной идентификации морфологических признаков русского слова: на материале имени существительного по корпусу текстов2012 год, кандидат наук Гашков, Александр Владимирович
Методы и средства морфологической сегментации для систем автоматической обработки текстов2022 год, кандидат наук Сапин Александр Сергеевич
Методы и средства морфологической сегментации для систем автоматической обработки текстов2023 год, кандидат наук Сапин Александр Сергеевич
Методы разрешения лексической неоднозначности на основе автоматически размеченных семантических корпусов2022 год, кандидат наук Большина Ангелина Сергеевна
Введение диссертации (часть автореферата) на тему «Методы конвертации морфологических стандартов и их применение в задаче автоматической морфологической разметки»
Введение
Лингвист, изучающий явления естественного языка, нуждается в обширном языковом материале для поиска примеров, проверки гипотез, статистического анализа результатов исследования и т. п. Обычно источником такого языкового материала служит лингвистический корпус — достаточно представительная для целей исследования коллекция текстов на одном или нескольких естественных языках. Целенаправленная работа по созданию таких корпусов началась во второй половине XX века и активно продолжается сегодня.
Представительность — не единственное требование к лингвистическому корпусу. Прежде всего, корпус должен быть аннотированным. Причём разные задачи требуют наличия разных типов аннотации. Если лингвист исследует отдельные предложения, значит, каждое предложение корпуса должно быть промаркировано. То же самое касается более мелких (слово, морфема и пр.) и крупных (абзац, документ и пр.) единиц языка.
Если исследуются отдельные подмножества языка, например, конкретные жанры или периоды времени, значит, корпус должен быть снабжён метаразмет-кой: для каждого текста должен быть указан его жанр, дата создания и другая экстралингвистическая информация.
Наконец, в зависимости от того, в разрезе какого раздела языкознания лингвист исследует материал, требуется соответствующая собственно лингвистическая разметка. Если язык исследуется на уровне грамматики, то корпус должен иметь морфологическую разметку, когда для каждого слова указываются его часть речи и значения морфологических категорий, и синтаксическую разметку, когда с использованием того или иного формализма описываются связи между словами предложения. Если язык исследуется на уровне семантики, то в узком смысле словам корпуса должно быть дано толкование (что, вообще говоря, подразумевает и лемматизацию слов корпуса), а в широком смысле предложениям корпуса должна быть сопоставлена семантическая структура, объясняющая смысл этих предложений. Помимо перечисленных, существует множество других типов разметки, а их наличие в конкретном корпусе определяется целями, которые ставят перед собой его создатели.
Кроме аннотации, для лингвистического корпуса необходимо наличие средств, позволяющих осуществлять информационный поиск по текстам кор-
пуса и по всем типам разметки, которыми он снабжён. Такая необходимость объясняется не только удобством для исследователя, но и объёмом лингвистических корпусов. Даже 50 лет назад стандартом для представительного корпуса считался объём в миллион слов, а сейчас некоторые корпусы имеют объём на несколько порядков больше. При снабжении такого корпуса сложными лингвистическими типами аннотации поиск вручную становится ещё более трудоёмким.
Одним из наиболее известных лингвистических корпусов в России является Национальный корпус русского языка (НКРЯ) [1]. По состоянию на 2023 год корпус содержит коллекцию текстов на русском языке, насчитывающую более двух миллиардов слов. В НКРЯ можно вести поиск по тексту, а также по различным типам лингвистической и экстралингвистической разметки, таким как метатекстовая, морфологическая, синтаксическая, семантическая и пр.
В действительности Национальный корпус состоит из целого ряда отдельных корпусов, которые пополняются и развиваются независимо друг от друга. За разными корпусами не только стоят разные научные группы, но и могут существенно различаться принципы пополнения корпусов, типы доступной разметки, объёмы текстов и т. д.
Кроме того, один и тот же тип разметки может существенно различаться между корпусами. Можно выделить три класса таких различий:
1. Разные стандарты разметки. Например, в синтаксической разметке корпуса СинТагРус [2] используется около 70 различных синтаксических отношений, тогда как в основном корпусе НКРЯ — около 40.
2. Разные соглашения между аннотаторами. Это значит, что даже если стандарт разметки в двух корпусах одинаковый, некоторые специальные или пограничные случаи, допускающие двойную трактовку, могут быть по-разному интерпретированы в разных корпусах. Например, ме-татекстовая разметка в СинТагРусе и в основном корпусе имеет почти одинаковый стандарт, однако место описываемых событий произведения «Мастер и Маргарита» в основном корпусе включает, среди прочих, период античности, тогда как в СинТагРусе этого не указано.
3. Разные подходы к разметке. Например, лемматизация в большей части НКРЯ сделана автоматически, тогда как в СинТагРусе леммы, как и другие типы разметки, проходят обязательную ручную проверку экспертами-лингвистами, что снижает число ошибок в разметке.
Эти различия в полной мере применимы и к основному предмету настоящего исследования — морфологической разметке. Под морфологической разметкой мы далее будем понимать указание для каждого слова в тексте его морфологических характеристик: части речи, падежа, рода, вида, наклонения и т. д. Пример (1) иллюстрирует морфологическую разметку предложения Где выход? в морфологическом стандарте СинТагРуса (сверху) и основного корпуса НКРЯ (снизу), где под морфологическим стандартом (в узком смысле) понимается набор уникальных морфологических характеристик, использующихся при разметке корпуса (далее это определение будет нами уточнено).
(1) Где выход?
ADV S ед муж им неод ADVPRO S m inan sg nom
На этом примере сразу видны некоторые различия между морфологическими стандартами. Во-первых, различие проявляется хотя бы в том, что некоторые одинаковые морфологические характеристики обозначаются по-разному. Например, единственное число в СинТагРусе обозначается как ед, а в основном корпусе —как sg.
Во-вторых, у первого слова не совпадают части речи. В основном корпусе словоформе Где приписана часть речи ADVPRO (местоименное наречие), а в СинТагРусе — ADV (наречие). Различие обусловлено тем, что в СинТагРусе местоимение не выделяется как отдельная часть речи: в зависимости от своих морфологических и синтаксических свойств, местоимения считаются существительными, прилагательными или наречиями.
На этом различия не заканчиваются. У этих двух корпусов не только
V-/ V_/ V-/ V-/ 1
разный набор частей речи, но и разный набор значений некоторых морфологических категорий. Например, категория рода в основном корпусе имеет дополнительное значение m-f (общий род). Кроме того, даже одни и те же морфологические признаки могут использоваться по-разному. В частности, т. н. «смягчённая» сравнительная степень (побольше, повеселее и т. д.) есть в обоих корпусах, но в СинТагРусе она является дополнительной, то есть приписывается наряду с признаком сравнительной степени, а в основном корпусе — заменяет признак сравнительной степени. Есть и более сложные различия, которые зависят от контекста и трудно поддаются формальному описанию.
Даже если два корпуса имеют один и тот же набор морфологических признаков, их разметка может существенно различаться, если разметку
осуществляли разные научные группы. Например, в проекте Универсальных зависимостей [3] морфологические и синтаксические признаки в значительной степени стандартизированы для всех корпусов проекта (вне зависимости от языка), однако исследование [4] показало целый ряд различий в морфологической и синтаксической аннотации корпусов русского языка в составе проекта. Ещё более тонкие различия могут проявляться в разметке аннотаторов одного и того же корпуса, что, впрочем, выходит за пределы настоящей диссертации.
Морфологическая разметка, с одной стороны, является ценным материалом для лингвистических исследований. С другой стороны, корпусы текстов с морфологической разметкой используются для создания систем автоматической морфологической разметки, в том числе на основе машинного обучения, которые используются в различных прикладных задачах. Однако различия в морфологических стандартах замедляют как лингвистические исследования, так и развитие соответствующих методов машинного обучения.
С точки зрения лингвистики, невозможность совместного использования нескольких корпусов из-за различий в разметке ограничивает лингвиста в материале для исследования, что, вообще говоря, ухудшает качество исследования, так как представительность корпуса естественным образом на него влияет. Альтернативой использования одного корпуса является поиск необходимого языкового материала во всех доступных корпусах, но это неизбежно приводит к тому, что один и тот же эксперимент приходится ставить несколько раз, каждый раз разбираясь с особенностями разметки в очередном корпусе. В контексте морфологии проблема стоит особенно остро, так как насчитывается как минимум десяток корпусов русского языка с морфологической разметкой и морфологических словарей, в каждом из которых свой морфологический стандарт.
С точки зрения разработки систем автоматической морфологической разметки, на сегодняшний день наилучшее качество морфологической разметки дают модели на основе нейронных сетей. Причём в подавляющем числе случаев используется так называемый метод обучения с учителем. Это означает, что для обучения такой модели нужны размеченные данные, то есть корпус текстов с морфологической разметкой. Эффективность таких моделей зачастую зависит от объёма корпуса, поэтому невозможность объединения нескольких корпусов с разными морфологическими стандартами в один более представительный естественным образом сказывается на качестве автоматической морфологической разметки.
Решением описанных выше проблем является конвертация. На сегодняшний день существует несколько подходов к конвертации морфологических стандартов. Во-первых, это конвертация в полуавтоматическом режиме с помощью правил. Например, морфологический стандарт СинТагРуса был сконвертирован в формат Универсальных зависимостей [5] с помощью простых правил соответствия. Однако исчерпывающий список таких правил очень сложно составить из-за тонких различий между морфологическими стандартами. Это привело к тому, что на первом этапе работы авторы вынуждены были часть предложений корпуса исключить из рассмотрения. Ещё одна часть предложений содержала ряд ошибок конвертации, которые постепенно исправляются вручную и полуавтоматически.
Во-вторых, это конвертация в полностью ручном режиме. Очевидным недостатком такого подхода является трудоёмкость, особенно в связи с тем, что для полной ручной конвертации необходимо привлекать к работе экспертов-лингвистов. По этой причине таких сконвертированных корпусов существует довольно мало, а те, которые есть, имеют сравнительно малый объём.
Наконец, в-третьих, это конвертация в полностью автоматическом режиме с использованием методов машинного обучения. Такие подходы можно разделить на две группы. В первую группу входят методы неявной конвертации. Фактически в этом случае решается задача автоматической морфологической разметки, однако модель реализуют таким образом, что возникает возможность осуществлять разметку одновременно для нескольких морфологических стандартов, либо использовать результаты разметки в одном из стандартов для разметки в другом стандарте. В качестве примеров можно привести работы для английского [6], китайского [7] и русского языков [8].
Во вторую группу входят методы явной конвертации. Отличие от первой группы состоит в том, что на вход модель получает не только сам текст на естественном языке, но и морфологическую разметку этого текста в одном из морфологических стандартов, а на выходе предсказывает разметку в другом морфологическом стандарте. Эта группа подходов фактически не представлена в литературе и плохо разработана, хотя есть работы в этом направлении для других типов разметки, в частности, для синтаксической разметки [9].
Большинство методов неявной конвертации (включая упомянутую работу для русского языка) имеют один существенный недостаток: слабая масштабируемость. Некоторые из упомянутых подходов работают только с одной парой
морфологических стандартов, а иногда даже только в одну сторону, и плохо масштабируются на большее число морфологических стандартов. Для русского языка эта проблема особенно актуальна из-за большого числа различных морфологических стандартов.
Кроме того, разные исследовательские группы используют разные морфологические стандарты и иногда бывают не знакомы с другими стандартами. Это накладывает на конвертер требование осуществлять конвертацию в произвольном направлении для заданного набора морфологических стандартов.
Что касается методов явной конвертации, то необходимость их развития очевидна. Действительно, возвращаясь к примеру (1), можно заметить, что хотя морфологические стандарты не совпадают полностью, между ними есть много общего. В частности, все морфологические признаки для второго слова фактически совпадают (различается только написание), что для задачи конвертации принципиально, так как это существенно упрощает задачу, иногда сводя её к простым правилам соответствия. Использование неявных методов приводит к потере этой информации, что неизбежно влечёт за собой ухудшение качества конвертации.
Всё это приводит нас к настоящему исследованию.
Целью данной работы является разработка эффективных и масштабируемых методов полностью автоматической конвертации морфологических стандартов корпусов и их применение в задаче автоматической морфологической разметки.
Для достижения поставленной цели необходимо было решить следующие задачи:
1. Предложить методы конвертации морфологических стандартов.
2. Реализовать предложенные методы конвертации морфологических стандартов.
3. Применить реализованные модели конвертеров к аннотированным корпусам на материале русского языка.
4. Применить реализованные модели конвертеров в задаче автоматической морфологической разметки на материале русского языка.
5. Качественно и численно исследовать эффективность предложенных моделей.
Научная новизна:
1. Впервые предложен метод явной конвертации морфологических стандартов, в явном виде использующий исходную морфологическую разметку текста в процессе конвертации.
2. Впервые предложен масштабируемый метод неявной конвертации морфологических стандартов, решающий проблему неравномерности распределения наборов морфологических характеристик.
3. Впервые масштабируемая модель неявного конвертера морфологических стандартов рассмотрена на материале русского языка.
4. Было выполнено оригинальное исследование эффективности полуавтоматического приведения нескольких корпусов русского языка к одному морфологическому стандарту для задачи автоматической морфологической разметки.
Теоретическая и практическая значимость обеспечивается разработанным программным комплексом, позволяющим осуществлять конвертацию морфологических стандартов произвольного набора корпусов на материале русского языка как в явном, так и в неявном виде. Программный комплекс может быть использован, например, в Национальном корпусе русского языка. В частности, он позволяет привести синтаксический подкорпус Национального корпуса (СинТагРус) и часть основного корпуса со снятой вручную омонимией к виду, в котором возможен лингвистический поиск по совместной коллекции текстов этих корпусов. Кроме того, программный комплекс может быть адаптирован и к другим естественным языкам, если для этих языков есть соответствующие аннотированные корпусы.
В основе программного комплекса лежат предложенные автором математические модели конвертеров, которые позволяют осуществлять не только конвертацию морфологических стандартов, но и собственно автоматическую морфологическую разметку. Проведённое исследование позволяет лучше понять проблемы, возникающие при полуавтоматической конвертации корпусов с морфологической разметкой, а также лучше понять различия и сходства между морфологическими стандартами.
Результаты работы внедрены и используются на практике, что подтверждается соответствующими актами (см. приложение А). В частности, разработанные модели и методы используются для организации учебного процесса на Кафедре проблем передачи информации и анализа данных МФТИ в
ИППИ РАН, а также используются в НИР, выполняемых ИППИ РАН по проектам:
1. Грант Министерства науки и высшего образования № 075-15-2020-793 «Компьютерно-лингвистическая платформа нового поколения для цифровой документации русского языка: инфраструктура, ресурсы, научные исследования».
2. Проект «Референциальные аспекты компьютерной семантики» (соглашение № 16-18-10422) Российского научного фонда.
Методология и методы исследования. В настоящем исследовании при построении архитектуры конвертеров использовались методы математического моделирования и методы машинного обучения, в частности, методы обучения нейронных сетей и методы обработки естественного языка. При реализации этих архитектур в виде программного комплекса использовались методы программирования. При проведении экспериментов использовались численные методы, а также методы компьютерной и корпусной лингвистики.
Основные положения, выносимые на защиту:
1. Предложенные модели автоматической морфологической разметки позволяют как улучшить качество автоматической морфологической разметки, так и осуществлять неявную конвертацию морфологических стандартов.
2. Предложенные модели конвертеров морфологических стандартов позволяют эффективно осуществлять конвертацию для произвольного набора корпусов, в том числе и в случае малоресурсных корпусов.
3. При обучение модели автоматической морфологической разметки на материале нескольких корпусов русского языка, размеченных в разных морфологических стандартах, использование конвертера улучшает качество морфологической разметки по сравнению с подходом, подразумевающим полуавтоматическое слияние корпусов с разными морфологическими стандартами.
Достоверность полученных результатов обеспечивается целым рядом проведённых численных экспериментов на обширном языковом материале. Исходный код основных предложенных моделей открыт1.
Апробация работы. Основные результаты работы докладывались на следующих конференциях:
1Ь^рз://д1'ЬЬиЬ.сот/0ег1зе^адзе-Ь-со^егз1оп
- 42-я междисциплинарная школа-конференция ИППИ РАН «Информационные технологии и системы 2018» (ИТиС 2018), Казань, 25-30 сентября 2018 года
- 25-я международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог», Москва, 29 мая —1 июня 2019 года
- 28-я международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог», Москва, 15-18 июня 2022 года
Публикации. Основные результаты по теме диссертации изложены в трёх печатных изданиях, два из которых изданы в полнотекстовых материалах докладов на конференциях, индексируемых Scopus.
Объём и структура работы. Диссертация состоит из введения, 4 глав, заключения и 2 приложений. Полный объём диссертации составляет 133 страницы, включая 16 рисунков и 19 таблиц. Список литературы содержит 58 наименований.
Глава 1. Морфологическая разметка и морфологические стандарты
Морфологические стандарты есть не только у корпусов. Они есть у морфологических словарей, морфологических анализаторов и других систем. Несмотря на то, что настоящая диссертация посвящена прежде всего корпусам, в основе многих аннотированных корпусов лежат морфологические словари и анализаторы. Кроме того, в основе предложенного нами метода конвертации морфологических стандартов лежит система автоматической морфологической разметки. В связи с этим, необходимо дать некоторые базовые сведения о морфологических словарях и анализаторах, а также дать формальную постановку задачи автоматической морфологической разметки. Этому посвящён раздел 1.1.
Во введении упоминалось, что конвертер морфологических стандартов должен быть масштабируемым. Чтобы наглядно продемонстрировать эту необходимость для русского языка, в разделе 1.2 перечисляются некоторые из морфологических стандартов и описываются различия между ними. Кроме того, уточняется само понятие «морфологический стандарт».
1.1 Морфологический анализ и морфологическая разметка
Чтобы осуществить морфологическую разметку корпуса, следует прежде всего определиться с собственно морфологической информацией, которой этот корпус будет снабжён. Обычно это список частей речи, список морфологических категорий и список значений, которые может принимать каждая из категорий. Далее мы будем объединять части речи и значения морфологических категорий и называть их морфологическими признаками, или граммемами.
Иногда к морфологическим признакам добавляют дополнительные признаки, не являющиеся частями речи и не относящиеся ни к одной морфоло-
V-* ТЛ V-/
гической категории. В этом смысле эти признаки не являются в полной мере морфологическими, однако могут прямо или косвенно описывать словоизменение. Дополнительные признаки сильно различаются от корпуса к корпусу и не стандартизированы.
Допустим, набор морфологических признаков задан. Как снабдить корпус текстов морфологической разметкой? Есть как минимум три способа это сделать. Во-первых, это можно сделать вручную. Для этого группа экспертов-лингвистов просматривает тексты корпуса и каждому слову в тексте ставит в соответствие некоторый присущий ему набор признаков. В сложных и неоднозначных случаях аннотаторы проводят обсуждения, в процессе которых формируются некоторые руководящие принципы, в соответствии с которыми продолжается процесс разметки.
Такой способ фактически не используют. Проблема не только в его трудоёмкости, но и в быстром росте числа руководящих принципов, которые трудно запомнить. Это может привести к существенным расхождениям в разметке между разными аннотаторами. В итоге либо разные части корпуса будут не согласованы друг с другом, либо потребуется многократная перепроверка уже размеченных частей, что ещё сильнее замедлит процесс разметки.
Два других способа —это использование морфологического анализатора и системы автоматической морфологической разметки. Мы их опишем в подразделах ниже.
1.1.1 Морфологический анализ
В компьютерной лингвистике под (глубинным) морфологическим анализом часто подразумевают получение морфологической структуры предложения: списка наборов возможных пар {лемма, морфологические признаки} для каждого слова в предложении. Вернёмся к предложению (1):
(1) Где выход?
ADV S ед муж им неод
Возьмём в качестве примера морфологический анализатор лингвистического процессора ЭТАП [10] (подробнее об используемых в нём морфологических признаках см. подраздел 1.2.3). Для предложения выше, опуская некоторые подробности, будет построена такая морфологическая структура:
1.1 ГДЕ ADV
2.1 ВЫХОД1 S ед муж им неод
2.2 ВЫХОД1 S ед муж вин неод
2.3 ВЫХОД2 S ед муж им неод
2.4 ВЫХОД2 S ед муж вин неод
Здесь в каждой строчке первое число показывает линейную позицию слова в предложении, а второе —номер омонима. Пунктуационные символы не учитываются. Фактически вместо леммы приводится имя лексемы, получающееся добавлением к лемме числа, чтобы отличать разные значения слов с общей леммой: ВЫХОД1 имеет значение «покидание чего-либо или место, где осуществляется такое действие», а ВЫХОД2 — «результат труда».
В морфологической структуре каждое слово рассматривается отдельно, то есть контекст не учитывается. Поэтому формы винительного падежа не были отброшены. Некоторые морфологические анализаторы имеют функцию снятия неоднозначности, что уменьшает число омонимов в структуре, но не исключает их полностью. Тем не менее, если применить морфологический анализатор к текстам некоторого корпуса, то считается, что получившийся корпус имеет морфологическую разметку. При этом делается уточнение, что омонимия в корпусе не снята.
Для задачи конвертации морфологических стандартов корпусы с неснятой омонимией представляют меньший интерес, поэтому мы их рассматривать не будем. Но такой корпус можно передать экспертам-лингвистам для ручной проверки. Процесс снятия омонимии гораздо проще разметки корпуса вручную с нуля, поэтому такой комбинированный подход является стандартным при создании морфологически аннотированных корпусов со снятой омонимией.
Ещё одно преимущество этого подхода связано с тем, как устроено подавляющее большинство морфологических анализаторов. В их основе лежит морфологический словарь, который представляет собой список парадигм, где под парадигмой понимается список словоформ и соответствующих им морфологических признаков, принадлежащих данной лексеме. В морфологическом словаре лингвистического процессора ЭТАП парадигму лексемы ВЫХОД1 можно в сокращённом виде представить так:
ВЫХОД1
выход S ед сред им неод
выхода S ед сред род неод
выходу S ед сред дат неод
выход S ед сред вин неод
выходом S ед сред твор неод
выходе S ед сред пр неод
выходы S ед сред им неод
выходов S ед сред род неод
выходам S ед сред дат неод
выходы S ед сред вин неод
выходами S ед сред твор неод
выходах S ед сред пр неод
выходо S сред неод сл
Можно сказать, что в простейшем случае морфологический анализатор — это программный комплекс, который строит морфологическую структуру предложения при помощи морфологического словаря, осуществляя в нём поиск нужных словоформ.
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Метод и алгоритмы интерпретации неполных высказываний пользователя для управления устройствами Интернета вещей на основе онтологического подхода2019 год, кандидат наук Шилин Иван Андреевич
Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе2004 год, кандидат филологических наук Чардин, Иван Сергеевич
Разработка моделей и алгоритмов для комплекса автоматической обработки и анализа потоков новостных сообщений на основе методов компьютерной лингвистики2014 год, кандидат наук Казенников, Антон Олегович
Математическое обеспечение методов распознавания образов при обработке текстов на вьетнамском языке2011 год, кандидат физико-математических наук Ле Чунг Хьеу
Список литературы диссертационного исследования кандидат наук Мовсесян Андрей Арсенович, 2023 год
Список литературы
1. Плунгян, В. А. Национальный корпус русского языка: общая характеристика [Текст] / В. А. Плунгян, Т. И. Резникова, Д. В. Сичинава // Научно-техническая информация. Серия 2: Информационные процессы и системы. — 2005.-№3.-С. 9—13.
2. СинТагРус сегодня [Текст] / Е. С. Иншакова [и др.] // Труды Института русского языка им. В. В. Виноградова. — 2019. — Т. 21. — С. 14—41.
3. Universal dependencies [Текст] / M.-C. De Marneffe [et al.] // Computational linguistics. - 2021. - Vol. 47, no. 2. - P. 255-308.
4. Droganova, K. Data conversion and consistency of monolingual corpora: Russian UD treebanks [Текст] / K. Droganova, O. Lyashevskaya, D. Zeman // Proceedings of the 17th international workshop on treebanks and linguistic theories (tlt 2018). — Linkoping University Electronic Press Linkoping, Sweden. 2018. — С. 53—66.
5. Droganova, K. Conversion of SynTagRus (the Russian dependency treebank) to Universal Dependencies [Текст] : tech. rep. / K. Droganova, D. Zeman. — Praha, Czechia, 2016.
6. Mishra, S. Multi-dataset-multi-task neural sequence tagging for information extraction from tweets [Текст] / S. Mishra // Proceedings of the 30th ACM Conference on Hypertext and Social Media. - 2019. - P. 283-284.
7. Coupled sequence labeling on heterogeneous annotations: POS tagging as a case study [Текст] / Z. Li [et al.] // Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). -2015. - P. 1783-1792.
8. Andrianov, I. Transfer learning for morphological tagging in Russian [Текст] / I. Andrianov, V. Mayorov //2017 Ivannikov ISP RAS Open Conference (ISP RAS). - IEEE. 2017. - P. 58-63.
9. Supervised Treebank Conversion: Data and Approaches [Текст] / X. Jiang [et al.] // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — Melbourne, Australia : Association for Computational Linguistics, 07/2018. — P. 2706—2716. — URL: https://aclanthology.org/P18-1252.
10. Лингвистический процессор для сложных информационных систем [Текст] / Ю. Д. Апресян [и др.] ; под ред. Л. П. Крысина. — Москва : Академический научно-издательский, производственно-полиграфический и книгораспространительский центр РАН «Издательство „Наука"», 1992. — 256 с.
11. Petrov, S. A Universal Part-of-Speech Tagset [Текст] / S. Petrov, D. Das, R. McDonald // Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12). — Istanbul, Turkey : European Language Resources Association (ELRA), 05.2012. — С. 2089—2096. — URL: http://www. lrec-conf.org/proceedings/lrec2012/pdf/274_Paper.pdf.
12. Ляшевская, О. Н. Корпусные инструменты в грамматических исследованиях русского языка [Текст] / О. Н. Ляшевская. — М. : Издательский Дом ЯСК: Рукописные памятники Древней Руси, 2016. — 520 с.
13. Зализняк, А. А. Грамматический словарь русского языка (словоизменение). Изд. пятое, исправленное [Текст] / А. А. Зализняк. — Москва : Аст-Пресс, 2008. — 795 с.
14. Сокирко, А. В. Морфологические модули на сайте www.aot.ru [Текст] / А. В. Сокирко // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог». — 2004.
15. Hana, J. A Positional Tagset for Russian [Текст] / J. Hana, A. Feldman // Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10). — Valletta, Malta : European Language Resources Association (ELRA), 05.2010. — URL: http://www.lrec-conf.org/proceedings/ lrec2010/pdf/807_Paper.pdf.
16. Словарь «Мультитран» [Электронный ресурс]. — URL: https : / / www. multitran.com/ (дата обр. 23.06.2023).
17. Syntactic and semantic parser based on ABBYY Compreno linguistic technologies [Текст] / K. V. Anisimovich [et al.] // Computational Linguistics and
Intellectual Technologies. Papers from the Annual International Conference «Dialogue». - 2012. - P. 91-103.
18. Erjavec, T. MULTEXT-East: morphosyntactic resources for Central and Eastern European languages [Текст] / T. Erjavec // Language Resources and Evaluation. — Dordrecht, 2012. — Т. 46, № 1. — С. 131—142. — URL: https://doi.org/10.1007/s10579-011-9174-8.
19. UniMorph 3.0: Universal Morphology [Текст] / A. D. McCarthy [et al.] // Proceedings of The 12th language resources and evaluation conference. -European Language Resources Association. 2020. - P. 3922-3931.
20. Ляшевская, О. Н. О морфологическом стандарте Национального корпуса русского языка [Текст] / О. Н. Ляшевская, В. А. Плунгян, Д. В. Сичинава // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. — 2003. — С. 111—135.
21. Грановский, Д. В. Открытый корпус: принципы работы и перспективы [Текст] / Д. В. Грановский, В. В. Бочаров, С. В. Бичинева // Компьютерная лингвистика и развитие семантического поиска в Интернете: Труды научного семинара XIII Всероссийской объединённой конференции «Интернет и современное общество» / под ред. В. Ш. Рубашкина. — СПб, 2010. — С. 94.
22. Оценка методов автоматического анализа текста: морфологические пар-серы русского языка [Текст] / О. Н. Ляшевская [и др.] // Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной Международной конференции «Диалог». — 2010. — С. 318—326.
23. Корпус как язык: от масштабируемости к дифференциальной полноте [Текст] / В. И. Беликов [и др.] // Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной Международной конференции «Диалог». Т. 1. — 2013. — С. 83—95.
24. Shavrina, T. O. To the methodology of corpus construction for machine learning: "Taiga" syntax tree corpus and parser [Текст] / T. O. Shavrina, O. Shapovalova // Proceedings of the international conference «C0RP0RA-2017». — St. Petersburg, 2017. — С. 78—84.
25. MorphoRuEval-2017: an evaluation track for the automatic morphological analysis methods for Russian [Текст] / A. Sorokin [et al.] // Computational
Linguistics and Intellectual Technologies. Papers from the Annual International Conference «Dialogue». Vol. 1. — 2017. — P. 297—313.
26. GramEval 2020 Shared Task: Russian Full Morphology and Dependency Parsing [Текст] / O. N. Lyashevskaya [и др.] // Computational Linguistics and Intellectual Technologies: Papers from the Annual Conference "Dialogue". — 2020. — С. 553—569.
27. CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies [Текст] / D. Zeman [и др.] // Conference on Computational Natural Language Learning. — Vancouver, Canada, 2017. — С. 1—19. — URL: https://api.semanticscholar.org/CorpusID:9278872.
28. Text collections for evaluation of Russian morphological taggers [Текст] / O. Lyashevskaya [и др.] // Journal of Linguistics/Jazykovedny casopis. — 2017. — Т. 68, № 2. — С. 258—267.
29. Zeman, D. Reusable Tagset Conversion Using Tagset Drivers [Текст] / D. Zeman // Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08). — Marrakech, Morocco : European Language Resources Association (ELRA), 05.2008. — URL: http://www.lrec-conf.org/proceedings/lrec2008/pdf/66_paper.pdf.
30. Летучий, А. Б. Предикативы в системе русских признаковых слов — наречий и прилагательных [Текст] / А. Б. Летучий // Вестник Томского государственного университета. Филология. — 2022. — Т. 76. — С. 105—147.
31. Chen, H. Neural Network for Heterogeneous Annotations [Текст] / H. Chen, Y. Zhang, Q. Liu // Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. — Austin, Texas : Association for Computational Linguistics, 11.2016. — С. 731—741. — URL: https://aclanthology.org/D16-1070.
32. Mishra, S. Information extraction from digital social trace data with applications to social media and scholarly communication data [Текст] : PhD thesis / Mishra Shubhanshu. — Urbana, Illinois : University of Illinois Urbana-Champaign, 2020.
33. Dual Learning for Machine Translation [Текст] / D. He [и др.] // Proceedings of the 30th International Conference on Neural Information Processing Systems. — Barcelona, Spain : Curran Associates Inc., 2016. — С. 820—828. — (NIPS'16).
34. Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks [Текст] / J.-Y. Zhu [и др.] // 2017 IEEE International Conference on Computer Vision (ICCV). — 2017. — С. 2242—2251.
35. Sennrich, R. Improving Neural Machine Translation Models with Monolingual Data [Текст] / R. Sennrich, B. Haddow, A. Birch // Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — Berlin, Germany : Association for Computational Linguistics, 08.2016. — С. 86—96. — URL: https://aclanthology.org/P16-1009.
36. Unsupervised neural machine translation [Текст] / M. Artetxe [et al.] // International Conference on Learning Representations. - 2018.
37. Unsupervised Machine Translation Using Monolingual Corpora Only [Текст] / G. Lample [и др.] // International Conference on Learning Representations. — 2018.
38. Efficient Estimation of Word Representations in Vector Space [Текст] / T. Mikolov [и др.] // International Conference on Learning Representations. — 2013. — URL: https://api.semanticscholar.org/CorpusID:5959482.
39. Enriching word vectors with subword information [Текст] / P. Bojanowski [et al.] // Transactions of the association for computational linguistics. -2017. - Vol. 5. - P. 135-146.
40. Heigold, G. An Extensive Empirical Evaluation of Character-Based Morphological Tagging for 14 Languages [Текст] / G. Heigold, G. Neumann, J. van Genabith // Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers. -Valencia, Spain : Association for Computational Linguistics, 04/2017. -P. 505-513. - URL: https://aclanthology.org/E17-1048.
41. Bengio, Y. Learning long-term dependencies with gradient descent is difficult [Текст] / Y. Bengio, P. Simard, P. Frasconi // IEEE Transactions on Neural Networks. - 1994. - Vol. 5, no. 2. - P. 157-166.
42. Hochreiter, S. Long Short-Term Memory [Текст] / S. Hochreiter, J. Schmidhu-ber//Neural Computation. - 1997. - Nov. - Vol. 9, no. 8. - P. 1735-1780. -eprint: https://direct.mit. edu/neco/article-pdf/9/8/ 1735/813796/neco.1997. 9.8. 1735.pdf. - URL: https://doi.org/10.1162/neco.1997.9.8.1735.
43. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation [Текст] / K. Cho [et al.] // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). — Doha, Qatar : Association for Computational Linguistics, 10/2014. — P. 1724—1734. — URL: https://aclanthology.org/D14-1179.
44. Мовсесян, А. А. Использование синтаксических признаков при построении морфологического теггера на основе GRU [Текст] / А. А. Мовсесян // ИТиС 2018: Сборник трудов 42-й междисциплинарной школы-конференции ИП-ПИ РАН «Информационные технологии и системы». — 2018. — С. 1—9.
45. Jozefowicz, R. An Empirical Exploration of Recurrent Network Architectures [Текст] / R. Jozefowicz, W. Zaremba, I. Sutskever // Proceedings of the 32nd International Conference on International Conference on Machine Learning -Volume 37. — Lille, France : JMLR.org, 2015. — С. 2342—2350. — (ICML'15).
46. Attention is All you Need [Текст] / A. Vaswani [et al.] // Advances in Neural Information Processing Systems. Vol. 30 / ed. by I. Guyon [et al.]. — Curran Associates, Inc., 2017. — URL: https://proceedings.neurips.cc/paper_files/ paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf.
47. Movsesyan, A. A. An attention-based approach to automatic gapping resolution for Russian [Текст] / A. A. Movsesyan // Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference «Dialogue». — 2019. — P. 472—483.
48. Kendall, A. Multi-task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics [Текст] / A. Kendall, Y. Gal, R. Cipolla // 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2017. — С. 7482—7491. — URL: https://api.semanticscholar.org/CorpusID:4800342.
49. Tkachenko, A. Modeling Composite Labels for Neural Morphological Tagging [Текст] / A. Tkachenko, K. Sirts // Proceedings of the 22nd Conference on Computational Natural Language Learning. — Brussels, Belgium : Association for Computational Linguistics, 10/2018. — P. 368—379. — URL: https:// aclanthology.org/K18-1036.
50. Augenstein, I. Multi-Task Learning of Pairwise Sequence Classification Tasks over Disparate Label Spaces [Текст] / I. Augenstein, S. Ruder, A. S0gaard // Proceedings of the 2018 Conference of the North American Chapter of the
Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). — New Orleans, Louisiana : Association for Computational Linguistics, 06/2018. — P. 1896—1906. — URL: https://aclanthology. org/N18-1172.
51. Bahdanau, D. Neural Machine Translation by Jointly Learning to Align and Translate [Текст] / D. Bahdanau, K. Cho, Y. Bengio // 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings / под ред. Y. Bengio, Y. LeCun. - 2015. - URL: http://arxiv.org/abs/1409.0473.
52. Ba, J. L. Layer Normalization [Текст] / J. L. Ba, J. R. Kiros, G. E. Hinton. — 2016.-arXiv: 1607.06450 [stat.ML].
53. PyTorch: An Imperative Style, High-Performance Deep Learning Library [Текст] / A. Paszke [et al.] // Advances in Neural Information Processing Systems. Vol. 32 / ed. by H. Wallach [et al.]. — Curran Associates, Inc., 2019. — URL: https://proceedings.neurips.cc/paper_files/paper/2019/file/ bdbca288fee7f92f2bfa9f7012727740-Paper.pdf.
54. Loshchilov, I. SGDR: Stochastic Gradient Descent with Warm Restarts [Текст] / I. Loshchilov, F. Hutter // International Conference on Learning Representations. — 2017.
55. Dropout: A Simple Way to Prevent Neural Networks from Overfitting [Текст] / N. Srivastava [и др.] // Journal of Machine Learning Research. — 2014. — Т. 15, № 56. — С. 1929—1958. — URL: http://jmlr.org/papers/v15/srivastava14a.html.
56. Movsesyan, A. A. Russian neural morphological tagging: do not merge tagsets [Текст] / A. A. Movsesyan // Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference «Dialogue». — 2022. — P. 402—411.
57. Maaten, L. van der. Visualizing Data using t-SNE [Текст] / L. van der Maaten, G. Hinton // Journal of Machine Learning Research. — 2008. — Т. 9, № 86. — С. 2579—2605. — URL: http://jmlr.org/papers/v9/vandermaaten08a.html.
58. Viterbi, A. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm [Текст] / A. Viterbi // IEEE Transactions on Information Theory. — 1967. — Vol. 13, no. 2. — P. 260—269.
Список рисунков
2.1 Архитектура модели неявного конвертера на основе метода
переноса знаний...............................42
2.2 Альтернативная архитектура модели неявного конвертера на основе метода переноса знаний...........................43
2.3 Архитектура модели неявного конвертера, использующая «многозначные» теги............................45
2.4 Архитектура модели неявного конвертера на основе многозадачного обучения...................................46
3.1 Архитектура блока векторного представления слов...........57
3.2 Архитектура кодера.............................58
3.3 Архитектура модели автоматической морфологической разметки ... 60
3.4 Архитектура модели конвертера, использующей многозадачное обучение ......................................................................61
3.5 Архитектура модели конвертера, использующей многозадачное обучение и осуществляющая предсказания на уровне граммем . . . . 64
3.6 Архитектура модели конвертера, использующей слой векторного представления граммем ......................................................67
3.7 Архитектура блока механизма внимания в модели явного конвертера . 71
4.1 Точность на тестовых выборках для моделей неявных конвертеров в первой серии экспериментов........................83
4.2 Точность на тестовых выборках для каждой версии основной
модели во второй серии экспериментов .................. 88
4.3 Визуализация векторных представлений граммем на примере частей речи для основной модели, обученной на четырёх корпусах из
первой серии экспериментов........................92
4.4 Визуализация векторных представлений граммем на примере частей речи для основной модели, обученной на четырёх корпусах из
второй серии экспериментов ........................ 93
4.5 Тепловая карта блока механизма внимания при предсказании значения категории лица словоформы Защитит в предложении Защитит его бог!..............................98
Список таблиц
1.1 Морфологический стандарт Грамматического словаря русского
языка А. А. Зализняка............................21
1.2 Морфологический стандарт Национального корпуса русского языка . 23
1.3 Морфологический стандарт СинТагРуса.................24
1.4 Морфологический стандарт ОреиСогрога.................26
1.5 Морфологический стандарт соревнования ЯИ-БУЛЬ 2010.......27
1.6 Морфологический стандарт Генерального интернет-корпуса
русского языка................................29
1.7 Морфологический стандарт проекта Универсальных зависимостей
для русского языка .............................. 31
1.8 Различия в использовании морфологических признаков русскоязычных корпусов проекта Универсальных зависимостей . . . . 32
1.9 Морфологический стандарт соревнования МогрЬоЯиБуа1-2017.....33
4.1 Статистика по использованным корпусам ..................................77
4.2 Распределение количества предложений и слов использованных корпусов по выборкам............................78
4.3 Значения гиперпараметров в предложенных моделях конвертеров . . . 81
4.4 Сравнение основной модели с аналогичной моделью из работы [49] . 87
4.5 Сравнение основной модели с моделями других авторов на
закрытой дорожке соревнования МогрЬоЯиБуа1-2017..........90
4.6 Сравнение качества конвертации основной модели и модели явного конвертера на паре корпусов СинТагРус и НКРЯ ............94
4.7 Наиболее частые ошибки неявного конвертера при конвертации в направлении НКРЯ ^ СинТагРус.....................96
4.8 Наиболее частые ошибки явного конвертера при конвертации в направлении НКРЯ ^ СинТагРус.....................96
4.9 Сравнение качества автоматической морфологической разметки основной модели при обучении на объединённом корпусе, полученном при конвертации корпусов соревнования МогрЬоЯиБуа1-2017 разными способами.................99
Б.1 Численные значения точности на уровне слов всех версий моделей
неявных конвертеров ............................ 129
Приложение А
Акты о внедрении результатов диссертации
/]/\АЛлЩ,
Федеральное государственное бюджетное учреждение науки Институт проблем передачи информации им. Л. А. Харкевича Российской академни наук ИППИРАН
Большой Каретный пер., д. 19, стр. 1, Москва, 127051 ОКПО: 026999464 ОГРН: 1037700064940 ИНН/КПП: 7707020131/770701001
тел:. (495) 650-42-25 | факс: (495) 650-05-79 | director@iitp.ru
16.Ю.2023 , 3(9к
На №
от
АКТ
о внедрении теоретических и практических результатов диссертационной работы Мовсесяна А. А. «Методы конвертации морфологических стандартов и их применение в задаче автоматической морфологической разметки», представленной на соискание ученой степени кандидата технических наук, при разработке НИР, проводимых ИППИ РАН
Теоретические и практические результаты диссертационной работы Мовсесяна А. А. «Методы конвертации морфологических стандартов и их применение в задаче автоматической морфологической разметки», а именно: 1) модель автоматической морфологической разметки; 2) модель неявной конвертации морфологических стандартов; 3) подход к явной конвертации лингвистических данных, использующий метод обучения без учителя и не требующий наличия параллельных данных — были использованы в рамках выполнения НИР по следующим проектам:
грант Министерства науки и высшего образования № 075-15-2020-793 «Компьютерно-лингвистическая платформа нового поколения для цифровой документации русского языка: инфраструктура, ресурсы, научные исследования»;
проект «Референциальные аспекты компьютерной семантики» (соглашение № 16-18-10422) Российского научного фонда.
И. о. директора ИППИ РАН
УТВЕРЖДАЮ
Баган Виталий Анатольевич
те, к.ф.-м.н.
2023 г.
АКТ
об использовании теоретических и практических результатов диссертационной работы Мовсесяна А. А. «Методы конвертации морфологических стандартов и их применение в задаче автоматической морфологической разметки», представленной на соискание ученой степени кандидата технических наук, в учебном процессе на базовой кафедре проблем передачи информации и анализа
При разработке программы дисциплины «Глубокое обучение в прикладных задачах компьютерной лингвистики», которая читается студентам магистратуры МФТИ на базовой кафедре проблем передачи информации и анализа данных, использованы теоретические и практические результаты диссертационной работы Мовсесяна А. А. «Методы конвертации морфологических стандартов и их применение в задаче автоматической морфологической разметки». Среди них: модель автоматической морфологической разметки; модель неявной конвертации морфологических стандартов; подход к явной конвертации лингвистических данных, использующий метод обучения без учителя и не требующий наличия параллельных данных.
данных
Соболевский Андрей Николаевич, д-р физ.-мат, наук, профессор РАН, заведующий кафедрой проблем передачи информации и анализа данных МФТИ
Приложение Б
Численные значения точности на уровне слов всех версий моделей неявных
конвертеров
В разделе 4.3 часть результатов представлена в виде графиков. В таблице Б.1 в явном виде даны значения точности на уровне слов для версий моделей, представленных на графиках. Значение точности для каждой версии модели является средним арифметическим значений с указанием среднеквадратического отклонения, полученных для пяти разных запусков эксперимента с разными случайно инициализированными начальными значениями параметров модели.
Таблица Б.1 — Численные значения точности на уровне слов всех версий моделей неявных конвертеров
Набор корпусов, на которых обучалась Морфологический Точность на модель стандарт на выходе уровне слов, %
Базовая модель
в8Б GSD 88.34 ± 0.69
Taiga Taiga 87.04 ± 2.40
СинТагРус СинТагРус 96.23 ± 0.19
НКРЯ НКРЯ 94.56 ± 0.22
GSD+Taiga GSD 88.18 ± 2.35
GSD+Taiga Taiga 87.89 ± 1.89
GSD+СинТагРус GSD 91.84 ± 0.31
GSD+СинТагРус СинТагРус 96.15 ± 0.35
GSD+НКРЯ GSD 90.22 ± 1.20
GSD+НКРЯ НКРЯ 94.15 ± 0.57
Taiga+СинТагРус Taiga 90.78 ± 0.61
Taiga+СинТагРус СинТагРус 95.89 ± 0.44
Taiga+НКРЯ Taiga 89.32 ± 0.94
Taiga+НКРЯ НКРЯ 93.92 ± 0.38
СинТагРус+НКРЯ СинТагРус 95.92 ± 0.79
СинТагРус+НКРЯ НКРЯ 93.93 ± 0.73
Набор корпусов, на которых обучалась Морфологический Точность на
модель стандарт на выходе уровне слов, %
GSD+Taiga+СинГагРус GSD 91.79 ± 0.33
GSD+Taiga+СинГагРус Taiga 91.27 ± 0.22
GSD+Taiga+СинТагРус СинТагРус 96.17 ± 0.26
GSD+Taiga+НКРЯ GSD 91.39 ± 0.59
GSD+Taiga+НКРЯ Taiga 90.75 ± 0.98
GSD+Taiga+НКРЯ НКРЯ 94.57 ± 0.43
GSD+СинТагРус+НКРЯ GSD 91.27 ± 0.76
GSD+СинТагРус+НКРЯ СинТагРус 96.51 ± 0.40
GSD+СинТагРус+НКРЯ НКРЯ 94.48 ± 0.37
Taiga+СинТагРус+НКРЯ Taiga 90.18 ± 0.56
Taiga+СинТагРус+НКРЯ СинТагРус 96.17 ± 0.33
Taiga+СинТагРус+НКРЯ НКРЯ 94.15 ± 0.26
GSD+Taiga+СинТагРус+НКРЯ GSD 90.10 ± 1.32
GSD+Taiga+СинТагРус+НКРЯ Taiga 89.14 ± 1.66
GSD+Taiga+СинТагРус+НКРЯ СинТагРус 95.69 ± 0.72
GSD+Taiga+СинТагРус+НКРЯ НКРЯ 93.68 ± 0.56
Модель «Базовая + граммемы»
GSD GSD 82.43 ± 6.17
Taiga Taiga 82.88 ± 5.73
СинТагРус СинТагРус 93.14 ± 0.84
НКРЯ НКРЯ 89.92 ± 0.87
GSD+Taiga GSD 84.24 ± 6.12
GSD+Taiga Taiga 84.18 ± 5.37
GSD+СинТагРус GSD 87.98 ± 2.58
GSD+СинТагРус СинТагРус 93.62 ± 1.01
GSD+НКРЯ GSD 83.74 ± 1.98
GSD+НКРЯ НКРЯ 90.48 ± 0.35
Taiga+СинТагРус Taiga 86.45 ± 2.94
Taiga+СинТагРус СинТагРус 93.80 ± 1.51
Taiga+НКРЯ Taiga 81.34 ± 3.50
Набор корпусов, на которых обучалась модель Морфологический стандарт на выходе Точность на уровне слов, %
Taiga+НКРЯ НКРЯ 90.19 ± 1.73
СинТагРус+НКРЯ СинТагРус 92.68 ± 0.97
СинТагРус+НКРЯ НКРЯ 90.41 ± 0.90
GSD+Taiga+СинТагРус GSD 85.85 ± 1.75
GSD+Taiga+СинТагРус Taiga 84.29 ± 0.76
GSD+Taiga+СинТагРус СинТагРус 92.76 ± 0.97
GSD+Taiga+НКРЯ GSD 84.09 ± 0.69
GSD+Taiga+НКРЯ Taiga 83.27 ± 1.57
GSD+Taiga+НКРЯ НКРЯ 92.01 ± 0.15
GSD+СинТагРус+НКРЯ GSD 83.99 ± 1.55
GSD+СинТагРус+НКРЯ СинТагРус 92.28 ± 1.06
GSD+СинТагРус+НКРЯ НКРЯ 90.96 ± 0.83
Taiga+СинТагРус+НКРЯ Taiga 82.88 ± 2.86
Taiga+СинТагРус+НКРЯ СинТагРус 92.06 ± 1.32
Taiga+СинТагРус+НКРЯ НКРЯ 90.54 ± 1.14
GSD+Taiga+СинТагРус+НКРЯ GSD 85.80 ± 2.39
GSD+Taiga+СинТагРус+НКРЯ Taiga 84.94 ± 2.53
GSD+Taiga+СинТагРус+НКРЯ СинТагРус 93.18 ± 0.96
GSD+Taiga+СинТагРус+НКРЯ НКРЯ 91.82 ± 1.08
Основная модель (первая серия экспериментов)
GSD GSD 90.11 ± 0.16
Taiga Taiga 90.80 ± 0.13
СинТагРус СинТагРус 96.97 ± 0.08
НКРЯ НКРЯ 95.34 ± 0.15
GSD+Taiga GSD 91.94 ± 0.08
GSD+Taiga Taiga 91.33 ± 0.13
GSD+СинТагРус GSD 93.28 ± 0.10
GSD+СинТагРус СинТагРус 97.09 ± 0.04
GSD+НКРЯ GSD 93.46 ± 0.26
GSD+НКРЯ НКРЯ 95.35 0.21
Набор корпусов, на которых обучалась модель Морфологический стандарт на выходе Точность на уровне слов, %
Taiga+СинТагРус Taiga 92.72 ± 0.08
Taiga+СинТагРус СинТагРус 97.10 ± 0.06
Taiga+Н^Я Taiga 92.92 ± 0.17
Taiga+Н^Я НКРЯ 95.27 ± 0.24
СинТагРyс+HKРЯ СинТагРус 97.67 ± 0.12
СинТагРyс+HKРЯ НКРЯ 95.49 ± 0.13
GSD+Taiga+СинТагРус GSD 93.48 ± 0.17
GSD+Taiga+СинТагРус Taiga 92.78 ± 0.12
GSD+Taiga+СинТагРус СинТагРус 97.12 ± 0.05
GSD+Taiga+Н^Я GSD 93.52 ± 0.47
GSD+Taiga+HKРЯ Taiga 92.94 ± 0.33
GSD+Taiga+Н^Я НКРЯ 95.33 ± 0.15
GSD+СинТагРyс+HKРЯ GSD 93.83 ± 0.16
GSD+СинТагРyс+HKРЯ СинТагРус 97.57 ± 0.07
GSD+СинТагРyс+HKРЯ НКРЯ 95.38 ± 0.10
Taiga+СинТагРyс+HKРЯ Taiga 93.52 ± 0.19
Taiga+СинТагРус+Н^Я СинТагРус 97.68 ± 0.15
Taiga+СинТагРyс+HKРЯ НКРЯ 95.50 ± 0.13
GSD+Taiga+СинТагРyс+HKРЯ GSD 93.94 ± 0.41
GSD+Taiga+СинТагРyс+HKРЯ Taiga 93.39 ± 0.45
GSD+Taiga+СинТагРyс+HKРЯ СинТагРус 97.60 ± 0.24
GSD+Taiga+СинТагРyс+HKРЯ НКРЯ 95.42 ± 0.18
Основная модель (вторая серия экспериментов)
SynTagRus RNC GICR
OpenCorpora SynTagRus+RNC SynTagRus+RNC SynTagRus+GICR
SynTagRus
RNC
GICR
OpenCorpora
SynTagRus
RNC
SynTagRus
91.88 i 0.13 79.41 i 0.02 95.25 i 0.07 69.70 i 0.11 92.81 i 0.06 79.96 i 0.06 92.94 0.10
Набор корпусов, на которых обучалась Морфологический Точность на
модель стандарт на выходе уровне слов, %
SynTagRus+GICR GICR 95.83 ± 0.12
SynTagRus+OpenCorpora SynTagRus 92.36 ± 0.09
SynTagRus+OpenCorpora OpenCorpora 71.45 ± 0.10
RNC+GICR RNC 80.20 ± 0.16
RNC+GICR GICR 95.95 ± 0.15
RNC+OpenCorpora RNC 79.72 ± 0.10
RNC+OpenCorpora OpenCorpora 71.71 ± 0.05
GICR+OpenCorpora GICR 95.63 ± 0.13
GICR+OpenCorpora OpenCorpora 71.67 ± 0.07
SynTagRus+RNC+GICR SynTagRus 93.23 ± 0.08
SynTagRus+RNC+GICR RNC 80.29 ± 0.11
SynTagRus+RNC+GICR GICR 96.21 ± 0.12
SynTagRus+RNC+OpenCorpora SynTagRus 92.90 ± 0.07
SynTagRus+RNC+OpenCorpora RNC 80.05 ± 0.12
SynTagRus+RNC+OpenCorpora OpenCorpora 72.03 ± 0.23
SynTagRus+GICR+OpenCorpora SynTagRus 92.99 ± 0.12
SynTagRus+GICR+OpenCorpora GICR 95.95 ± 0.11
SynTagRus+GICR+OpenCorpora OpenCorpora 72.04 ± 0.10
RNC+GICR+OpenCorpora RNC 80.21 ± 0.03
RNC+GICR+OpenCorpora GICR 96.03 ± 0.14
RNC+GICR+OpenCorpora OpenCorpora 72.28 ± 0.11
SynTagRus+RNC+GICR+OpenCorpora SynTagRus 93.27 ± 0.08
SynTagRus+RNC+GICR+OpenCorpora RNC 80.34 ± 0.05
SynTagRus+RNC+GICR+OpenCorpora GICR 96.23 ± 0.07
SynTagRus+RNC+GICR+OpenCorpora OpenCorpora 72.43 ± 0.06
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.