Разработка нейросетевых моделей и методов для низкоресурсного машинного перевода тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Хусаинова Альбина Маратовна
- Специальность ВАК РФ00.00.00
- Количество страниц 139
Оглавление диссертации кандидат наук Хусаинова Альбина Маратовна
Введение
Глава 1. Современные подходы к низкоресурсному
нейросетевому машинному переводу
1.1 Методы, использующие моноязычные данные
1.1.1 Организация методов
1.1.2 Архитектурно-независимые методы
1.1.3 Архитектурно-зависимые методы
1.1.4 Обучение без учителя
1.1.5 Сравнение методов
1.1.6 Заключение
1.2 Методы, использующие параллельные данные
1.2.1 Трансферное обучение
1.2.2 Перевод с помощью промежуточного языка
1.2.3 Многоязычные модели
1.3 Выводы о современных подходах к низкоресурсному машинному переводу
Глава 2. Апробация выбранных методов, использующих
моноязычные данные для низкоресурсного машинного
перевода
2.1 Введение
2.2 Описание экспериментов
2.2.1 Языки
2.2.2 Данные
2.2.3 Технические детали
2.2.4 Методы
2.3 Результаты и анализ
2.4 Выводы
Глава 3. Иерархическая модель машинного перевода
3.1 Введение
3.2 Подход
3.3 Описание модели
3.4 Описание экспериментов
3.4.1 Данные
3.4.2 Обучение модели
3.5 Результаты и анализ
3.5.1 Оценка иерархической модели
3.5.2 Улучшение иерархической модели
3.6 Выводы
Глава 4. Сэмплирование диспропорциональных данных для
многоязычного нейросетевого машинного перевода
4.1 Введение
4.1.1 Организация обзора
4.2 Статические методы
4.2.1 Пропорциональное сэмплирование
4.2.2 Равномерное сэмплирование
4.2.3 Сэмплирование по температуре
4.2.4 Избыточное сэмплирование с понижением весов
4.3 Динамические методы
4.3.1 MultiDDS. Многоязычный дифференцируемый выбор данных
4.3.2 MultiUAT. Обучение с учетом неопределенности
4.3.3 Адаптивное планирование для многозадачного обучения
4.3.4 CCL-M. Обучение на основе компетенций
4.3.5 IBR. Итеративная оптимальная стратегия
4.3.6 CATS. Масштабирование с учетом кривизны
4.3.7 Многорукие бандиты
4.3.8 LSSD. Само-дистилляция по языковым парам
4.4 Выводы
Глава 5. Перевод фраз в рамках задачи составления
двуязычного словаря фраз
5.1 Введение
5.2 Перевод фраз как отдельная задача машинного перевода
5.3 Описание метода
5.3.1 Выбор вариантов перевода
5.3.2 Постобработка
5.4 Данные
5.5 Результаты и анализ
5.6 Выводы
Заключение
Список сокращений и условных обозначений
Словарь терминов
Список литературы
Список рисунков
Список таблиц
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Многозадачный перенос знаний для диалоговых задач2023 год, кандидат наук Карпов Дмитрий Александрович
Специализация языковых моделей для применения к задачам обработки естественного языка2020 год, кандидат наук Куратов Юрий Михайлович
Нейросетевые модели на основе механизма внимания с памятью для решения задач обработки естественного языка2024 год, кандидат наук Сагирова Алсу Рафаэлевна
Метод обнаружения межъязыковых заимствований в текстах2023 год, кандидат наук Аветисян Карен Ишханович
Методы переноса знаний для нейросетевых моделей обработки естественного языка2022 год, кандидат наук Коновалов Василий Павлович
Введение диссертации (часть автореферата) на тему «Разработка нейросетевых моделей и методов для низкоресурсного машинного перевода»
Введение
На фоне процессов глобализации современного мира все большее значение обретает машинный перевод, возможности которого позволяют преодолевать языковые барьеры в межличностной коммуникации, в образовании, в бизнесе и т. д. Машинный перевод является неотъемлемой частью многих программных продуктов и сервисов, таких как поисковые системы, социальные сети, маркетплейсы, мессенджеры. С помощью систем машинного перевода пользователи могут получать более релевантные и разнообразные результаты поиска, просматривать иностранные интернет-ресурсы на своем языке, общаться, принимать решения, планировать путешествия, делать покупки, ориентируясь на отзывы и рекомендации людей со всего мира. Автоматический перевод делает возможным обмен информацией между людьми, не имеющими общего языка общения.
История развития машинного перевода насчитывает почти 70 лет. Знаменитый Джорджтаунский эксперимент 1954 года впервые продемонстрировал возможности машинного перевода, основанного на системе правил. Такие системы состояли из словарей и наборов лингвистических правил, требовали масштабных трудозатрат лингвистов для разработки, и были крайне сложны ввиду взаимодействия правил. Далее следовала эра машинного перевода на примерах, где была впервые реализована идея переиспользования уже имеющихся переводов фраз и предложений.
Однако действительный прорыв в машинном переводе произошел в 1990-х годах с появлением статистического машинного перевода. Построение систем статистического машинного перевода не требовало каких-либо лингвистических знаний — словарей или правил. Статистическая модель перевода формируется на основе анализа большого количества параллельных текстов (одинаковых текстов на двух языках) и выдает наиболее вероятный вариант перевода исходя из собранной статистики. Данный подход подразумевает наличие масштабных параллельных данных, но дает большой прирост в точности перевода по сравнению с предыдущими методами. Статистический машинный перевод сначала на основе слов, затем на основе фраз и синтаксических
конструкций развивался и был передовым подходом машинного обучения вплоть до переломного момента в середине 2010-х, когда появились глубокие нейронные сети, установившие новые рекорды в разных сферах, включая машинный перевод.
В отличие от статистических моделей перевода, состоящих их нескольких отдельно разработанных компонент — модели перевода, языковой модели и модели перестановок, нейросетевая модель представляет собой единую систему, в которой слова (токены) и все внутренние состояния кодируются векторными представлениями. Использование векторов позволяет перейти к непрерывным представлениям, которые позволяют получить более точные и естественно звучащие переводы. Нейросетевая модель состоит из энкодера, который кодирует входную последовательность в некоторое промежуточное представление, и декодера, который декодирует это представление и на выходе выдает последовательность на целевом языке. В каждый момент времени модель предсказывает один токен на основе входной последовательности и уже сгенерированной выходной последовательности. Для обучения нейросетевой модели также требуются большие объемы параллельных текстов.
Изначально системы нейросетевого машинного перевода (НМП) разрабатывались на базе рекуррентных нейронных сетей [1], которые плохо справлялись с длинными последовательностями и вычисления для которых было сложно распараллеливать. Затем последовали эксперименты со сверточными нейронными сетями [2], которые легко распараллеливаются, однако, опять же, больше подходят для коротких последовательностей. В последние годы преобладающей моделью стала модель Трансформер [3], с простой архитектурой без рекуррентности, легко распараллеливаемая и с механизмом внимания, благодаря которому была решена проблема длинных последовательностей. При наличии масштабных параллельных данных (порядка десятков миллионов предложений) современные модели нейросетевого машинного перевода на базе архитектуры Трансформер достигают очень высоких результатов, когда машинный перевод практически неотличим от человеческого. Такие языковые пары, для которых существуют большие корпусы параллельных предложений, называются высокоресурсными
языковыми парами. И наоборот, если параллельных данных мало, то пара называется низкоресурсной.
Со снижением объема тренировочных данных качество перевода стремительно падает. Данная проблема активно исследуется научным сообществом и называется проблемой низкоресурного машинного перевода. Какого-либо метода, способного полностью решить эту проблему, не существует. Однако, существует множество подходов к ее решению, которые можно условно разделить по типу дополнительно используемых данных:
— Одни методы используют моноязычные корпусы на исходном или целевом языке. Например, метод обратного перевода или метод интеграции языковой модели в модель перевода.
— Другие методы используют связанные с данной языковой парой параллельные корпусы. Это может быть большой параллельный корпус, где один из языков является исходным или целевым. На таком корпусе можно предобучить модель перевода, а затем доучить ее на нужной языковой паре. Также в качестве дополнительных данных могут выступать параллельные корпусы для родственных языков, например, русско-английский корпус для низкоресурсной белорусско-немецкой пары. Такие корпусы можно использовать для обучения многоязычной модели, в которой улучшение качества перевода достигается за счет обмена знаниями между различными (в особенности родственными) языками.
Несмотря на то, что проблеме низкоресурсного машинного перевода посвящено множество трудов, они зачастую не систематизированы, что затрудняет обзор литературы как для представителей научного сообщества, так и для специалистов-практиков. Например, есть широкий обзор низкоресурсного машинного перевода [4], который лишь перечисляет методы использования моноязычных данных без подробного описания и сравнения. Также имеется обзор использования моноязычных данных в нейросетевом машинном переводе [5], но он сфокусирован вокруг метода обратного перевода. Отдельного же обзора методов использования моноязычных данных для низкоресурсного нейросетевого машинного перевода в литературе не было представлено.
Если же говорить о конкретных методах решения проблемы низкоресурсного машинного перевода, одним из них является объединение низкоресурсных и высокоресурсных направлений в многоязычных моделях машинного перевода. Для таких моделей предложены различные архитектуры, например, полное совместное использование параметров [6] или совместное использование кодирующей стороны и специфичные для каждого целевого языка декодеры [7]. Однако, эти и другие архитектуры не учитывают систематически степень родства между языками, участвующими в модели. Таким образом, не используется информация, которая может существенно улучшить качество перевода.
Помимо разработки самой архитектуры многоязычной системы нейросетевого машинного перевода, большое значение имеет способ ее обучения, а именно вопрос сэмплирования диспропорциональных тренировочных данных. Как правило, тренировочные данные распределены неравномерно — для одних пар языков данных может быть на порядки меньше, чем для других. Это ведет к сложностям обучения модели, так как скорость схождения модели для каждой пары языков будет разной, и, как следствие, она может переобучиться на одних парах и недообучиться на других. Таким образом, разработка методов оптимального сэмплирования таких данных — это одна их важных и активно исследуемых тем в нейросетевом машинном переводе.
Что касается более прикладной проблемы перевода фраз, она как таковая не освещена в научной литературе, однако есть работы по переводу коллокаций: например, в одной из работ [8] переводят коллокации сопоставляя векторные представления слов для ключевых и зависимых слов. В рамках данной диссертации проблема перевода фраз поднимается и исследуется как отдельная задача. В результате данной работы был автоматически составлен русско-английский словарь фраз, опираясь на другие работы [9—11], которые описывают опыт использования таблиц фраз для автоматического составления или дополнения двуязычных словарей.
Представленная диссертационная работа призвана внести вклад в решение проблемы низкоресурсного машинного перевода: в ней систематизированы и апробированы методы использования моноязычного корпуса для улучшения качества низкоресурсного перевода; предложена и
протестирована новая иерархическая нейросетевая модель для многоязычного машинного перевода, учитывающая степень родства между языками; выполнена систематизация и классификация методов сэмплирования диспропорциональных данных для обучения многоязычных моделей перевода; предложен новый метод обучения многоязычной нейросетевой модели перевода, который решает проблему переобучения на низкоресурсных парах; а также исследована проблема перевода фраз — выполнено сравнение статистического и нейросетевого подхода к переводу фраз и представлен автоматически созданный лингвистический ресурс, двуязычный словарь фраз, вместе с описанием алгоритма его построения.
Цель исследования. Целью настоящей диссертации является исследование и разработка нейросетевых моделей и методов для улучшения качества низкоресурсного машинного перевода.
Задачи исследования. Для достижения цели исследования были выполнены следующие задачи:
1. Систематизировать литературу по использованию моноязычного корпуса в низкоресурсном нейросетевом машинном переводе и разработать таксономию соответствующих методов;
2. Апробировать методы использования моноязычного корпуса в низкоресурсном нейросетевом машинном переводе для русско-татарской языковой пары;
3. Предложить и разработать иерархическую нейросетевую модель на основе лингвистических деревьев для многоязычного машинного перевода;
4. Оценить эффективность предложенной иерархической модели для высокоресурсных и низкоресурсных пар языков, сравненить с базовыми моделями;
5. Систематизировать методы сэмплирования диспропорциональных данных для обучения многоязычных нейросетевых моделей машинного перевода и предложить их классификацию;
6. Разработать новый метод решения проблемы переобучения многоязычных нейросетевых моделей машинного перевода;
7. Сравнить статистический и нейросетевой подход для перевода фраз;
8. Предложить алгоритм составления словаря фраз и опубликовать созданный на его основе лингвистический ресурс, русско-английский словарь фраз.
Научная новизна.
1. Впервые произведена систематизация публикаций о методах использования моноязычного корпуса для улучшения качества низкоресурсного нейросетевого перевода в виде обзора с подробным описанием и сравнением.
2. Предложена таксономия таких методов и произведена апробация некоторых из них для низкоресурсной русско-татарской языковой пары;
3. Предложена и разработана оригинальная иерархическая модель для многоязычного нейросетевого машинного перевода на основе лингвистических деревьев. Данная модель, в отличие от существующих, систематически учитывает степень языкового родства при организации параметров модели для того, чтобы стимулировать обмен знаний между языками в модели перевода;
4. Впервые произведена систематизация и предложена классификация методов сэмплирования диспропорциональных данных для обучения многоязычных нейросетевых моделей машинного перевода;
5. Предложен и разработан новый эффективный метод обучения многоязычных нейросетевых моделей машинного перевода, решающий проблему переобучения на низкоресурсных данных;
6. В дополнение к стандартной постановке задачи машинного перевода, где единицей перевода считается цельное предложение, поставлен вопрос перевода фраз. Произведено сравнение статистического и нейросетевого подхода к переводу фраз, продемонстрированы существенные проблемы нейросетевого перевода.
7. Предложен алгоритм автоматического составления двуязычного словаря фраз на основе артефактов статистического машинного перевода.
Практическая значимость работы заключается в следующем:
- Произведенный обзор и предложенная таксономия методов использования моноязычного корпуса для низкоресурсного машинного перевода упрощают поиск и выбор конкретного метода в зависимости от целей и ресурсов;
- Результаты апробации таких методов были использованы при разработке качественной общедоступной онлайн-системы русско-татарского нейросетевого машинного перевода1, что подтверждено Справкой о внедрении;
- Разработанная иерархическая нейросетевая модель многоязычного машинного перевода улучшает качество перевода низкоресурсных направлений;
- Произведенный обзор и классификация методов сэмплирования диспропорциональных данных для обучения многоязычных нейросетевых моделей машинного перевода облегчают погружение в область и разработку новых таких методов;
- Предоженный метод обучения многоязычных нейросетевых моделей машинного перевода решает проблему переобучения на низкоресурсных данных;
- Составленный двуязычный словарь фраз может быть полезен как изучающим или использующим английский язык в качестве иностранного, так и тем, кто работает над созданием инструментов для изучения языка и помощников в написании текстов на английском языке.
Методология и методы исследования. При решении поставленных задач использовались следующие методы:
- Основы теории вероятностей;
- Методы компьютерной лингвистики;
- Методы машинного обучения и теории глубокого обучения;
- Метод численного эксперимента;
- Методы разработки на языке Python.
Основные положения, выносимые на защиту:
хиКЬ: https://translate.tatar/
1. Разработана таксономия методов использования моноязычного корпуса для улучшения качества низкоресурсного машинного перевода;
2. Разработана оригинальная нейросетевая модель для многоязычного машинного перевода с иерархической архитектурой на основе лингвистических деревьев. Данная модель учитывает степень языкового родства и позволяет улучшить качество перевода на низкоресурсных направлениях;
3. Разработана классификация методов сэмплирования диспропорциональных данных для обучения многоязычных нейросетевых моделей машинного перевода;
4. Предложен новый способ обучения многоязычных нейросетевых моделей машинного перевода, предупреждающий проблему переобучения в низкоресурсных направлениях;
5. Проведены численные эксперименты с целью сравнения статистического и нейросетевого подходов к переводу фраз, выявившие существенные проблемы нейросетевого подхода;
6. Предложен алгоритм автоматического составления двуязычного словаря фраз на базе вывода инструментов статистического машинного перевода.
Степень достоверности и апробация результатов. Достоверность полученных результатов обеспечивается экспериментами на данных из корпусов параллельных предложений. Основные результаты диссертационного исследования были представлены автором на следующих научных конференциях и семинарах:
- Научно-практическая конференция «The International Conference on Advanced Technologies and Humanitarian Sciences (ICATHS)», г. Рабат, Марокко, 2019 г.;
- VII семинар «Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial)» в рамках XVI международной конференции «European Chapter of the Association for Computational Linguistics (EACL)», онлайн, 2021 г.;
- Научно-практический семинар компании Huawei, онлайн, 2021 г.;
- Международная конференция «Диалог 2022», онлайн, 2022 г.;
- 22-ая научно-практической конференции «International Conference on Intelligent Systems Design and Applications (ISDA 2022)», онлайн, 2022 г.
Также результаты работы были использованы при разработке онлайн-системы русско-татарского машинного перевода, расположенной по адресу URL: https://translate.tatar/, что подтверждено Справкой о внедрении.
Личный вклад. Результаты, представленные в работе [12] (индексируется Scopus), получены автором самостоятельно. Работа над публикациями [13] (индексируется RSCI), [14], [15] (индексируется RSCI), [16] (индексируется РИНЦ) проводилась совместно с соавторами, причём вклад автора является определяющим: все эксперименты проведены автором лично и результаты получены автором самостоятельно. В работах [17] и [18] вклад автора состоит в выборе методологии исследования, подготовке данных для экспериментов, подготовке результатов к публикациям и общем научном руководстве работой.
Публикации. Основные результаты по теме диссертации изложены в 7 печатных изданиях, 2 из которых издано в журналах, индексируемых RSCI, 1 — в материалах конференции, индексируемых Scopus, 1 — в материалах конференции, индексируемых РИНЦ.
Объем и структура работы. Диссертация состоит из
введения, 5 глав и заключения. Полный объём диссертации составляет 139 страниц, включая 14 рисунков и 8 таблиц. Список литературы содержит 126 наименований.
Глава 1. Современные подходы к низкоресурсному нейросетевому
машинному переводу
В условиях малого количества параллельных данных для обучения моделей машинного перевода встает вопрос о вспомогательных техниках, способных улучшить качество перевода. Таких техник существует множество, и возможна их различная категоризация. В данной работе, следуя общепринятой практике [19], эти техники условно разделяются по типу используемых дополнительных данных: это могут быть моноязычные тексты на исходном/целевом языке, и параллельные тексты на связанных/родственных языках. В разделе 1.1 разбирается первая группа методов, использующих моноязычные данные для улучшения качества перевода нейросетевых моделей машинного перевода. Далее в разделе 1.2 описывается вторая группа методов, использующих параллельные данные.
1.1 Методы, использующие моноязычные данные
В целях обобщения и систематизации информации о методах данной группы автором совместно с соавторами была проделана работа по составлению обзора таких техник [20]. Данный обзор является практико-ориентированным, и основная его цель — ускорить погружение читателя в область для дальнейших исследований либо для выбора конкретного метода (методов) в зависимости от ситуации: объем доступных данных, временные ресурсы, технические ограничения. В данном разделе приводятся рассмотренные методы, их категоризация и сравнение, отражая содержание обзора.
В обзоре рассматривались методы для нейросетевых моделей машинного перевода, предложенные в период с 2014 по 2019 год. В частности, они применялись к модели на основе рекуррентных нейронных сетей (РНС) [1] и к модели Трансформер [3]. Обе модели состоят из энкодера и декодера. Энкодер кодирует входную последовательность в векторное представление, а
декодер принимает на вход это представление и генерирует последовательность на целевом языке. Энкодер и декодер РНС состоят из рекуррентных слоев и объединены слоем внимания. В Трансформере вводится новая техника, называемая многоголовым вниманием, и кодирующая-декодирующая части модели основаны на стеках многоголового внимания (multi-head attention) и слоев с прямой связью (feed-forward). Такая архитектура позволяет избавиться от рекуррентных слоев, поэтому обучение становится значительно быстрее.
1.1.1 Организация методов
В целях систематизации знаний было решено разделить все методы на две категории: Архитектурно-независимые и Архитектурно-зависимые
методы. Такое разделение сделано с практической точки зрения: в настоящее время существуют разнообразные модели НМП, продолжается разработка новых моделей и модификация имеющихся. Архитектурно-независимые методы использования моноязычных данных можно применять к любой модели для повышения качества перевода, т. к. модель рассматривается как "черный ящик". Напротив, архитектурно-зависимые методы требуют специфических изменений в архитектуре и могут быть или не быть адаптируемы к различным моделям НМП.
К Архитектурно-независимым методам можно отнести все подходы, идея которых состоит в генерации псевдопараллельного корпуса на базе моноязычного текста, последующем смешении псевдопараллельного корпуса с истинно параллельным корпусом и дальнейшего обучения модели на полученном смешанном корпусе. Также к этой категории можно отнести те методы, которые объединяют отдельную предобученную языковую модель с предобученной моделью перевода во время вывода.
Архитектурно-зависимые методы фокусируются на специфических архитектурных особенностях моделей НМП и могут требовать дополнительных изменений в архитектуре. Один тип методов характеризуется заморозкой некоторых параметров модели НМП во время обучения на псевдопараллельном
корпусе. Другие методы применяют предварительное обучение без учителя на моноязычном корпусе для инициализации некоторых параметров модели перевода, а в дальнейшем обучают ее на параллельном корпусе. Более сложные методы интегрируют идею языкового моделирования или многозадачного обучения в модель НМП.
В последнее время наблюдается тенденция к использованию моноязычных данных в режиме обучения без учителя, без каких-либо размеченных данных (параллельных текстов). Поскольку этот подход принципиально отличается от других описанных методов (которые используют моноязычные данные только в дополнение к параллельным), он не включается в таксономию и описывается отдельно.
Разработанная таксономия методов представлена на Рисунке 1.1. Ниже приводится дальнейшая категоризация с примерами и обзором результатов для каждого метода.
Рисунок 1.1 — Таксономия методов, использующих моноязычные данные для НМП. Затененные области выделяют категории, имеющие одну и ту же основную идею. Адаптировано из [20].
1.1.2 Архитектурно-независимые методы
В качестве основы для архитектурно-независимых методов может быть использована любая существующая модель перевода. Ниже будут рассмотрены методы из этой категории, разделенные на две подкатегории в зависимости от способа использования моноязычных данных:
1. Методы, использующие дополнительный псевдопараллельный корпус;
2. Методы, объединяющие модель НМП с отдельной языковой моделью.
Методы, использующие дополнительный псевдопараллельный корпус Основная идея методов из данной подкатегории заключается в создании псевдопараллельного (или синтетического) корпуса на основе моноязычных данных с целью увеличения объема обучающих данных для модели перевода. Псевдопараллельный и истинный параллельный корпус затем смешиваются и далее во время обучения модели между ними не делается никаких различий. Генерация псевдопараллельного корпуса возможна на основе моноязычных текстов как на исходном, так и на целовом языке некоторой языковой пары. Преимущество использования псевдопараллельного корпуса состоит в том, что при помощи него система НМП сможет лучше моделировать структуру целевого или исходного языка, в зависимости от языка моноязычных данных. Недостатком является то, что низкое качество сгенерированных предложений или несоответствие домена (области) может привести к деградации уже изученной структуры соответствующей стороны, поэтому в некоторых случаях приходится ограничивать размер псевдопараллельного корпуса. Далее будут рассмотрены методы генерации псевдопараллельного корпуса.
Обратный перевод (Back translation). Идея создания синтетического параллельного корпуса методом обратного перевода была предложена в работе [21] и заключается в следующем: на имеющемся параллельном корпусе обучается дополнительная модель машинного перевода (МП) в обратном направлении — с целевого языка на исходный. Затем с помощью этой предварительно обученной модели моноязычные тексты на целевом языке
переводятся на исходный язык, образуя новый псевдопараллельный корпус. Обратное направление перевода важно, поскольку таким образом сохраняется целостность (натуральность) целевых предложений. Затем истинный и синтетический параллельные корпусы смешиваются, и основная модель обучается на этой комбинации. Метод обратного перевода является одним из самых популярных методов, так как он обеспечивает существенное улучшение качества перевода. Эксперименты, проведенные в работе [22], показали, что производительность обратного перевода не снижается до тех пор, пока соотношение синтетического и реального параллельного корпуса не превышает 8:1.
Обучение "туда и обратно" (Round trip training). В этом методе псевдопараллельный корпус не генерируется явно, как предыдущем методе. Вместо этого используется идея автокодирования (auto-encoders) для создания псевдопараллельного предложения и его немедленного восстановления. Основная цель автокодировщиков в глубоком обучении — выявление определяющих признаков входных данных. Автокодировщик состоит из двух частей, называемых энкодером и декодером. Роль энкодера заключается в сжатии входных данных, а роль декодера — в их восстановлении из представления на выходе энкодера. Идея метода, предложенного [23], заключается в следующем. Существуют две модели НМП, первая из которых предназначена для перевода с исходного языка на целевой, а вторая — для обратного перевода. Модель "источник-цель" можно рассматривать как кодирующую часть, а модель "цель-источник" как декодирующую часть автокодировщика, целью которого является восстановление исходных предложений. Аналогичный автокодировщик может быть построен в обратном направлении, где модель "цель-источник" рассматривается как кодирующая часть, а модель "источник-цель" как декодирующая часть автокодировщика. Данная система обучается путем максимизации функции правдоподобия моделей "источник-цель" и "цель-источник" на параллельных корпусах, а также функции правдоподобия автокодировщиков при восстановлении данных из моноязычных корпусов. Общая целевая функция выглядит следующим образом:
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Разработка алгоритмов оценивания характеристик диалоговой системы на основе применения нечеткого вывода с нейросетевой настройкой2023 год, кандидат наук Игитян Елена Владимировна
Методы автоматического выделения тезаурусных отношений на основе словарных толкований2018 год, кандидат наук Алексеевский, Даниил Андреевич
Генерация мимики и жестов по речи2022 год, кандидат наук Корзун Владислав Андреевич
Математическая модель, алгоритмы и программный комплекс для повышения качества машинного перевода узкоспециальных технических текстов на английский язык2024 год, кандидат наук Животова Алена Анатольевна
Концепция формирования многоязычной компетенции студентов неязыковых специальностей2009 год, доктор педагогических наук Евдокимова, Надежда Вениаминовна
Список литературы диссертационного исследования кандидат наук Хусаинова Альбина Маратовна, 2024 год
Список литературы
1. Bahdanau D., Cho K., Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate // Proceedings of the International Conference on Learning Representations (ICLR). — 2015. — URL: http: //arxiv.org/abs/1409.0473.
2. A Convolutional Encoder Model for Neural Machine Translation / J. Gehring [и др.] // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — Vancouver, Canada : Association for Computational Linguistics, 07.2017. — с. 123—135. — DOI: 10.18653/v1/P17-1012. — URL: https://aclanthology.org/P17-1012.
3. Attention is all you need / A. Vaswani [и др.] // Computing Research Repository, abs/1706.03762. — 2017. — URL: http://papers.nips.cc/paper/ 7181-attention-is-all-you-need.
4. A Survey on Low-Resource Neural Machine Translation / R. Wang [и др.] // Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence, IJCAI-21 / под ред. Z.-H. Zhou. — International Joint Conferences on Artificial Intelligence Organization, 08.2021. — с. 4636—4643. — DOI: 10.24963/ijcai.2021/629. — URL: https://doi.org/10. 24963/ijcai.2021/629 ; Survey Track.
5. Burlot F., Yvon F. Using Monolingual Data in Neural Machine Translation: a Systematic Study // Proceedings of the Third Conference on Machine Translation: Research Papers. — Brussels, Belgium : Association for Computational Linguistics, 10.2018. — с. 144—155. — DOI: 10.18653/v1/ W18-6315. — URL: https://aclanthology.org/W18-6315.
6. Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation / M. Johnson [и др.] // Transactions of the Association for Computational Linguistics. — 2017. — т. 5. — с. 339—351. — DOI: 10.1162/ tacl_a_00065. — URL: https://www.aclweb.org/anthology/Q17-1024.
7. Multi-Task Learning for Multiple Language Translation / D. Dong [и др.] // Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). — Beijing, China : Association for Computational Linguistics, 07.2015. — с. 1723—1732. — DOI: 10.3115/v1/ P15-1166. — URL: https://www.aclweb.org/anthology/P15-1166.
8. Garcia M., García-Salido M., Alonso-Ramos M. Towards the Automatic Construction of a Multilingual Dictionary of Collocations using Distributional Semantics // Electronic lexicography in the 21st century (eLex 2019). — 2019.
9. Richardson J., Nakazawa T., Kurohashi S. Bilingual Dictionary Construction with Transliteration Filtering // Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14). — Reykjavik, Iceland : European Language Resources Association (ELRA), 05.2014. — с. 1013—1017. — URL: http://www.lrec-conf.org/proceedings/lrec2014/ pdf/102_Paper.pdf.
10. Daiga Deksne A. V. A Workflow for Supplementing a Latvian-English Dictionary with Data from Parallel Corpora and a Reversed English-Latvian Dictionary // Proceedings of the XVIII EURALEX International Congress: Lexicography in Global Contexts. — Ljubljana, Slovenia : Ljubljana University Press, Faculty of Arts, 07.2018. — с. 127—135. — ISBN 978-961-06-0097-8.
11. Chen Y.-J, Yang C.-Y. H., Chang J. S. Improving Phrase Translation Based on Sentence Alignment of Chinese-English Parallel Corpus // Proceedings of the 32nd Conference on Computational Linguistics and Speech Processing (ROCLING 2020). — Taipei, Taiwan : The Association for Computational Linguistics, Chinese Language Processing (ACLCLP), 09.2020. — с. 6—7. — URL: https://aclanthology.org/2020.rocling-1.3.
12. Khusainova A. Sampling Imbalanced Data for Multilingual Machine Translation: An Overview of Techniques // Intelligent Systems Design and Applications / под ред. A. Abraham [и др.]. — Cham : Springer Nature Switzerland, 2023. — с. 418—427. — ISBN 978-3-031-35510-3. — URL: https: //doi.org/10.1007/978-3-031-35510-3_40.
13. Хусаинова А. М., Романов В. А., Хан А. М. Многоязычный машинный перевод с помощью иерархического трансформера // Вестник ВГУ. Серия: Системный анализ и информационные технологии. — 2022. — апр. — т. 1. — с. 125—138. — DOI: 10. 17308/sait. 2022. 1/9207. — URL: https://doi.org/10.17308/sait.2022.V9207.
14. Hierarchical Transformer for Multilingual Machine Translation / A. Khusainova [и др.] // Proceedings of the Eighth Workshop on NLP for Similar Languages, Varieties and Dialects. — Kiyv, Ukraine : Association for Computational Linguistics, 04.2021. — с. 12—20. — URL: https : / / aclanthology.org/2021.vardial-1.2.
15. Хусаинова А. М., Романов В. А., Хан А. М. Автоматическое построение двуязычного словаря на основе вывода GIZA++ // Вестник ВГУ. Серия: Системный анализ и информационные технологии. — 2022. — дек. — т. 4. — с. 189—201. — DOI: 10.17308/sait/1995-5499/2022/4/189-201. — URL: https://doi.org/10.17308/sait/1995-5499/2022/4/189-201.
16. Khusainova A., Romanov V., Khan A. Automatic Bilingual Phrase Dictionary Construction from GIZA++ Output // Proceedings of the International Conference «Dialogue 2022». — Moscow, Russia : Computational Linguistics, Intellectual Technologies, 2022. — с. 1068—1077. — DOI: 10.28995/2075-7182-2022-21-1068-1077.
17. A survey of methods to leverage monolingual data in low-resource neural machine translation / I. Gibadullin [и др.] // arXiv preprint arXiv:1910.00373. — 2019.
18. Application of Low-resource Machine Translation Techniques to Russian-Tatar Language Pair / A. Valeev [и др.] // Proceedings of the International Conference on Advanced Technologies and Humanitarian Sciences (ICATHS). — Rabat, Morocco, 2019.
19. Survey of Low-Resource Machine Translation / B. Haddow [и др.] // arXiv preprint arXiv:2109.00486. — 2021.
20. A Survey of Methods to Leverage Monolingual Data in Low-resource Neural Machine Translation / I. Gibadullin [и др.] // Proceedings of
the International Conference on Advanced Technologies and Humanitarian Sciences (ICATHS). — Rabat, Morocco, 2019.
21. Sennrich R., Haddow B., Birch A. Improving Neural Machine Translation Models with Monolingual Data // Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — Berlin, Germany : Association for Computational Linguistics, 08.2016. — c. 86—96. — DOI: 10.18653/v1/P16-1009. — URL: https://aclanthology. org/P16-1009.
22. Stahlberg F., Cross J., Stoyanov V. Simple Fusion: Return of the Language Model // arXiv:1809.00125v2. — 2019. — URL: https://arxiv.org/abs/1809. 00125.
23. Semi-Supervised Learning for Neural Machine Translation / Y. Cheng [h gp.] // Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. — 2016. — c. 1965—1974. — URL: https://www. aclweb.org/anthology/P16-1185.
24. Currey A., Barone A. V.M., Heafield K. Copied Monolingual Data Improves Low-Resource Neural Machine Translation // Proceedings of the Conference on Machine Translation (WMT), Volume 1. — 2017. — c. 148—156. — URL: https://www.aclweb.org/anthology/W17-4715.
25. Sennrich R., Haddow B., Birch A. Neural machine translation of rare words with subword units // Proceedings of the 54th Annual Meeting of the ACL. — 2016. — c. 1715—1725. — URL: https://www.aclweb.org/anthology/P16-1162.
26. Multi-task sequence to sequence learning / M.-T. Luong [h gp.] // 4th International Conference on Learning Representations. — 2016. — URL: https: //arxiv.org/abs/1511.06114.
27. On Using Monolingual Corpora in Neural Machine Translation / C. Gülcehre [h gp.] // CoRR. — 2015. — t. abs/1503.03535. — arXiv: 1503.03535. — URL: http://arxiv.org/abs/1503.03535.
28. Training seq2seq models together with language models / A. Sriram [h gp.] // arXiv:1708.06426. — 2017. — URL: https://arxiv.org/abs/1708.06426.
29. Zhang J., Zong C. Exploiting Source-side Monolingual Data in Neural Machine Translation // Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. — 2016. — c. 1535—1545. — URL: https://www.aclweb.org/anthology/D16-1160.
30. Domhan T, Hieber F. Using Target-side Monolingual Data for Neural Machine Translation through Multi-task Learning // Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. — 2017. — c. 1500—1505. — URL: https://www.aclweb.org/anthology/D17-1158.
31. Ramachandran P., Liu P. J., Le Q. V. Unsupervised Pretraining for Sequence to Sequence Learning // arXiv:1611.02683v2. — 2018. — URL: https://arxiv. org/abs/1611.02683.
32. Semi-Supervised Neural Machine Translation with Language Models / I. Skorokhodov [h gp.] // Proceedings of AMTA 2018 Workshop: LoResMT 2018. — 2018. — c. 37—44. — URL: http://sereja.me/f/loresmt.pdf.
33. Wang C, Collins M, Koehn P. Chinese syntactic reordering for statistical machine translation // Proceedings of EMNLP. — 2007. — URL: https:// www.aclweb.org/anthology/D07-1077.
34. Mikolov T, Le Q. V., Sutskever I. Exploiting Similarities among Languages for Machine Translation // arXiv:1309.4168v1. — 2013. — URL: https:// arxiv.org/abs/1309.4168.
35. Artetxe M., Labaka G., Agirre E. A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — Melbourne, Australia : Association for Computational Linguistics, 07.2018. — c. 789—798. — URL: http://aclweb. org/anthology/P18-1073.
36. Unsupervised Neural Machine Translation / M. Artetxe [h gp.] // arXiv:1710.11041v2. — 2018. — URL: https://arxiv.org/abs/1710.11041.
37. Phrase-Based and Neural Unsupervised Machine Translation / G. Lample [h gp.] // arXiv:1804.07755v2. — 2018. — URL: https://arxiv.org/abs/1804. 07755.
38. BLEU: A Method for Automatic Evaluation of Machine Translation / K. Papineni [h gp.] // Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. — Philadelphia, Pennsylvania : Association for Computational Linguistics, 2002. — c. 311—318. — (ACL '02). — DOI: 10. 3115/1073083.1073135. — URL: https://doi.org/10.3115/1073083.1073135.
39. Transfer Learning for Low-Resource Neural Machine Translation / B. Zoph [h gp.] // Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. — Austin, Texas : Association for Computational Linguistics, 11.2016. — c. 1568—1575. — URL: https://aclweb. org/anthology/D16-1163.
40. Nguyen T. Q., Chiang D. Transfer Learning across Low-Resource, Related Languages for Neural Machine Translation // Proceedings of the Eighth International Joint Conference on Natural Language Processing (Volume 2: Short Papers). — Taipei, Taiwan : Asian Federation of Natural Language Processing, 11.2017. — c. 296—301. — URL: https://aclanthology.org/I17-2050.
41. Dabre R., Nakagawa T, Kazawa H. An Empirical Study of Language Relatedness for Transfer Learning in Neural Machine Translation // Proceedings of the 31st Pacific Asia Conference on Language, Information and Computation. — The National University (Phillippines), 11.2017. — c. 282—286. — URL: https://aclanthology.org/Y17-1038.
42. Choosing Transfer Languages for Cross-Lingual Learning / Y.-H. Lin [h gp.] // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. — Florence, Italy : Association for Computational Linguistics, 07.2019. — c. 3125—3135. — DOI: 10.18653/v1/P19-1301. — URL: https://aclanthology.org/P19-1301.
43. Kocmi T., Bojar O. Trivial Transfer Learning for Low-Resource Neural Machine Translation // Proceedings of the Third Conference on Machine Translation: Research Papers. — Brussels, Belgium : Association for Computational Linguistics, 10.2018. — c. 244—252. — DOI: 10.18653/v1 / W18-6325. — URL: https://aclanthology.org/W18-6325.
44. In Neural Machine Translation, What Does Transfer Learning Transfer? / A. F. Aji [h gp.] // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. — Online : Association for Computational Linguistics, 07.2020. — c. 7701—7710. — DOI: 10.18653/v1/2020.acl-main. 688. — URL: https://aclanthology.org/2020.acl-main.688.
45. Gheini M., May J. A Universal Parent Model for Low-Resource Neural Machine Translation Transfer. — 2019. — arXiv: 1909.06516 [cs.CL].
46. Kudo T, Richardson J. SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. — Brussels, Belgium : Association for Computational Linguistics, 11.2018. — c. 66—71. — DOI: 10.18653/v1/D18-2012. — URL: https://aclanthology.org/D18-2012.
47. NICT's Participation in WAT 2018: Approaches Using Multilingualism and Recurrently Stacked Layers / R. Dabre [h gp.] // Proceedings of the 32nd Pacific Asia Conference on Language, Information and Computation: 5th Workshop on Asian Translation: 5th Workshop on Asian Translation. — Hong Kong : Association for Computational Linguistics, 1-3 12.2018. — URL: https: //aclanthology.org/Y18-3003.
48. Goyal V., Kumar S., Sharma D. M. Efficient Neural Machine Translation for Low-Resource Languages via Exploiting Related Languages // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop. — Online : Association for Computational Linguistics, 07.2020. — c. 162—168. — DOI: 10.18653/v1/2020.acl-srw.22. — URL: https://aclanthology.org/2020.acl-srw.22.
49. Kim Y., Gao Y., Ney H. Effective Cross-lingual Transfer of Neural Machine Translation Models without Shared Vocabularies // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. — Florence, Italy : Association for Computational Linguistics, 07.2019. — c. 1246—1257. — DOI: 10.18653/v1/P19-1120. — URL: https://aclanthology.org/P19-1120.
50. Dabre R., Fujita A., Chu C. Exploiting Multilingualism through Multistage Fine-Tuning for Low-Resource Neural Machine Translation // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). — Hong Kong, China : Association for Computational Linguistics, 11.2019. — c. 1410—1416. — DOI: 10.18653/v1/D19-1146. — URL: https://aclanthology.org/D19-1146.
51. Bapna A., Firat O. Simple, Scalable Adaptation for Neural Machine Translation // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). — Hong Kong, China : Association for Computational Linguistics, 11.2019. — c. 1538—1548. — DOI: 10.18653/v1/D19-1165. — URL: https://aclanthology.org/D19-1165.
52. Neubig G., Hu J. Rapid Adaptation of Neural Machine Translation to New Languages // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. — Brussels, Belgium : Association for Computational Linguistics, 10-11.2018. — c. 875—880. — DOI: 10.18653/ v1/D18-1103. — URL: https://aclanthology.org/D18-1103.
53. Unsupervised Pivot Translation for Distant Languages / Y. Leng [h gp.] // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. — Florence, Italy : Association for Computational Linguistics, 07.2019. — c. 175—183. — DOI: 10. 18653/v1 /P19-1017. — URL: https: //aclanthology.org/P19-1017.
54. A Teacher-Student Framework for Zero-Resource Neural Machine Translation / Y. Chen [h gp.] // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — Vancouver, Canada : Association for Computational Linguistics, 07.2017. — c. 1925—1935. — DOI: 10.18653/v1/P17-1176. — URL: https://aclanthology.org/P17-1176.
55. Zheng H., Cheng Y., Liu Y. Maximum Expected Likelihood Estimation for Zero-resource Neural Machine Translation // Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, IJCAI-17. — 2017. —
c. 4251—4257. — DOI: 10.24963/ijcai.2017/594. — URL: https://doi.org/10. 24963/ijcai.2017/594.
56. Currey A., Heafield K. Zero-Resource Neural Machine Translation with Monolingual Pivot Data // Proceedings of the 3rd Workshop on Neural Generation and Translation. — Hong Kong : Association for Computational Linguistics, 11.2019. — c. 99—107. — DOI: 10.18653/v1/D19-5610. — URL: https://aclanthology.org/D19-5610.
57. Karakanta A., Dehdari J., Genabith J. Neural machine translation for low-resource languages without parallel corpora // Machine Translation. — 2018. — HroHb. — t. 32. — DOI: 10.1007/s10590-017-9203-5.
58. Language Graph Distillation for Low-Resource Machine Translation / T. He [h gp.] // ArXiv. — 2019. — t. abs/1908.06258.
59. Joint Training for Pivot-based Neural Machine Translation / Y. Cheng [h gp.] // Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, IJCAI-17. — 2017. — c. 3974—3980. — DOI: 10. 24963/ijcai.2017/555. — URL: https://doi.org/10.24963/ijcai.2017/555.
60. Triangular Architecture for Rare Language Translation / S. Ren [h gp.] // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — Melbourne, Australia : Association for Computational Linguistics, 07.2018. — c. 56—65. — DOI: 10.18653/v1/P18-1006. — URL: https://aclanthology.org/P18-1006.
61. Pivot-based Transfer Learning for Neural Machine Translation between Non-English Languages / Y. Kim [h gp.] // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). — Hong Kong, China : Association for Computational Linguistics, 11.2019. — c. 866—876. — DOI: 10.18653/v1/D19-1080. — URL: https://aclanthology.org/D19-1080.
62. Cross-Lingual Pre-Training Based Transfer for Zero-Shot Neural Machine Translation / B. Ji [h gp.] // Proceedings of the AAAI Conference on Artificial Intelligence. — 2020. — anp. — t. 34, № 01. — c. 115—122. — DOI: 10.1609/
aaai.v34i01.5341. — URL: https://ojs.aaai.org/index.php/AAAI/article/ view/5341.
63. Universal Neural Machine Translation for Extremely Low Resource Languages / J. Gu [h gp.] // Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). — New Orleans, Louisiana : Association for Computational Linguistics, 06.2018. — c. 344—354. — DOI: 10.18653/v1/N18-1032. — URL: https://aclanthology.org/N18-1032.
64. The FLORES Evaluation Datasets for Low-Resource Machine Translation: Nepali-English and Sinhala-English / F. Guzman [h gp.] // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). — Hong Kong, China : Association for Computational Linguistics, 11.2019. — c. 6098—6111. — DOI: 10.18653/v1/D19-1632. — URL: https://aclanthology.org/D19-1632.
65. Wang X., Neubig G. Target Conditioned Sampling: Optimizing Data Selection for Multilingual Neural Machine Translation // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. — Florence, Italy : Association for Computational Linguistics, 07.2019. — c. 5823—5828. — DOI: 10.18653/v1/P19-1583. — URL: https://aclanthology.org/P19-1583.
66. Multilingual Neural Machine Translation with Language Clustering / X. Tan [h gp.] // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). — Hong Kong, China : Association for Computational Linguistics, 11.2019. — c. 963—973. — DOI: 10.18653/v1/D19-1089. — URL: https://aclanthology.org/D19-1089.
67. Firat O, Cho K., Bengio Y. Multi-Way, Multilingual Neural Machine Translation with a Shared Attention Mechanism // Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. — San Diego, California : Association for Computational Linguistics, 06.2016. —
c. 866—875. — DOI: 10.18653/v1/N16-1101. — URL: https://aclanthology. org/N16-1101.
68. Lakew S. M., Erofeeva A., Federico M. Neural Machine Translation into Language Varieties // Proceedings of the Third Conference on Machine Translation: Research Papers. — Brussels, Belgium : Association for Computational Linguistics, 10.2018. — c. 156—164. — DOI: 10.18653/v1 / W18-6316. — URL: https://aclanthology.org/W18-6316.
69. Ha T.-L, Niehues J., Waibel A. Toward Multilingual Neural Machine Translation with Universal Encoder and Decoder // Proceedings of the 13th International Conference on Spoken Language Translation. — Seattle, Washington D.C : International Workshop on Spoken Language Translation, 12 8-9.2016. — URL: https://aclanthology.org/2016.iwslt-L6.
70. Sachan D., Neubig G. Parameter Sharing Methods for Multilingual Self-Attentional Translation Models // Proceedings of the Third Conference on Machine Translation: Research Papers. — Brussels, Belgium : Association for Computational Linguistics, 10.2018. — c. 261—271. — DOI: 10.18653/v1/ W18-6327. — URL: https://www.aclweb.org/anthology/W18-6327.
71. Beyond English-Centric Multilingual Machine Translation / A. Fan [h gp.] // J. Mach. Learn. Res. — 2021. — t. 22. — 107:1—107:48.
72. Blackwood G., Ballesteros M, Ward T. Multilingual Neural Machine Translation with Task-Specific Attention // Proceedings of the 27th International Conference on Computational Linguistics. — Santa Fe, New Mexico, USA : Association for Computational Linguistics, 08.2018. — c. 3112—3122. — URL: https://aclanthology.org/C18-1263.
73. Three Strategies to Improve One-to-Many Multilingual Translation / Y. Wang [h gp.] // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. — Brussels, Belgium : Association for Computational Linguistics, 10-11.2018. — c. 2955—2960. — DOI: 10.18653/ v1/D18-1326. — URL: https://aclanthology.org/D18-1326.
74. Contextual Parameter Generation for Universal Neural Machine Translation / E. A. Platanios [h gp.] // Proceedings of the 2018 Conference on Empirical
Methods in Natural Language Processing. — Brussels, Belgium : Association for Computational Linguistics, 10-11.2018. — c. 425—435. — DOI: 10.18653/ v1/D18-1039. — URL: https://aclanthology.org/D18-1039.
75. A Compact and Language-Sensitive Multilingual Translation Method / Y. Wang [h gp.] // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. — Florence, Italy : Association for Computational Linguistics, 07.2019. — c. 1213—1223. — DOI: 10.18653/v1/P19-1117. — URL: https://www.aclweb.org/anthology/P19-1117.
76. Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges / N. Arivazhagan [h gp.] // CoRR. — 2019. — t. abs/1907.05019. — arXiv: 1907.05019. — URL: http://arxiv.org/abs/1907.05019.
77. Aharoni R., Johnson M, Firat O. Massively Multilingual Neural Machine Translation // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). — Minneapolis, Minnesota : Association for Computational Linguistics, 06.2019. — c. 3874—3884. — DOI: 10.18653/v1/N19-1388. — URL: https://aclanthology.org/N19-1388.
78. An Analysis of Massively Multilingual Neural Machine Translation for Low-Resource Languages / A. Mueller [h gp.] // Proceedings of the 12th Language Resources and Evaluation Conference. — Marseille, France : European Language Resources Association, 05.2020. — c. 3710—3718. — ISBN 979-10-95546-34-4. — URL: https://aclanthology.org/2020.lrec-1.458.
79. A neural interlingua for multilingual machine translation / Y. Lu [h gp.] // Proceedings of the Third Conference on Machine Translation: Research Papers. — Brussels, Belgium : Association for Computational Linguistics, 10.2018. — c. 84—92. — DOI: 10 . 18653/v1/W18-6309. — URL: https: //aclanthology.org/W18-6309.
80. The Missing Ingredient in Zero-Shot Neural Machine Translation / N. Arivazhagan [h gp.] // ArXiv. — 2019. — t. abs/1903.07091.
81. Al-Shedivat M, Parikh A. Consistency by Agreement in Zero-Shot Neural Machine Translation // Proceedings of the 2019 Conference of the
North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). — Minneapolis, Minnesota : Association for Computational Linguistics, 06.2019. — c. 1184—1197. — DOI: 10.18653/v1/N19-1121. — URL: https: //aclanthology.org/N19-1121.
82. Improving Massively Multilingual Neural Machine Translation and Zero-Shot Translation / B. Zhang [h gp.] // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. — Online : Association for Computational Linguistics, 07.2020. — c. 1628—1639. — DOI: 10.18653/v1/ 2020.acl-main.148. — URL: https://aclanthology.org/2020.acl-main.148.
83. Rios A., Müller M, Sennrich R. Subword Segmentation and a Single Bridge Language Affect Zero-Shot Neural Machine Translation // Proceedings of the Fifth Conference on Machine Translation. — Online : Association for Computational Linguistics, 11.2020. — c. 528—537. — URL: https:// aclanthology.org/2020.wmt-1.64.
84. Phillips A., Davis M. Tags for Identifying Languages. — 09.2009. — DOI: 10. 17487/RFC5646. — URL: https://rfc-editor.org/rfc/rfc5646.txt. RFC 5646.
85. Azpiazu I. M., Pera M. S. A Framework for Hierarchical Multilingual Machine Translation. — 2020. — arXiv: 2005.05507 [cs.CL].
86. Schleicher A., Schleicher S. Die ersten Spaltungen des indogermanischen Urvolkes [The first splits of the Proto-Indo-European people]. — 1853.
87. Evaluating Layers of Representation in Neural Machine Translation on Part-of-Speech and Semantic Tagging Tasks / Y. Belinkov [h gp.] // Proceedings of the Eighth International Joint Conference on Natural Language Processing (Volume 1: Long Papers). — Taipei, Taiwan : Asian Federation of Natural Language Processing, 11.2017. — c. 1—10. — URL: https://www.aclweb.org/anthology/I17-1001.
88. Investigating Multilingual NMT Representations at Scale / S. Kudugunta [h gp.] // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference
on Natural Language Processing (EMNLP-IJCNLP). — Hong Kong, China : Association for Computational Linguistics, 11.2019. — c. 1565—1575. — DOI: 10.18653/v1/D19-1167. — URL: https://www.aclweb.org/anthology/D19-1167.
89. Savelyev A., Robbeets M. Bayesian phylolinguistics infers the internal structure and the time-depth of the Turkic language family // Journal of Language Evolution. — 2020. — ^eBp. — DOI: 10.1093/jole/lzz010. — eprint: https: / / academic. oup .com / jole / advance- article-pdf / doi /10. 1093 / jole / lzz010/32471613/lzz010.pdf. — URL: https://doi.org/10.1093/jole/lzz010 ; lzz010.
90. Ba J. L., Kiros J. R., Hinton G. E. Layer Normalization. — 2016. — arXiv: 1607.06450 [stat.ML].
91. Agic Z., Vulic I. JW300: A Wide-Coverage Parallel Corpus for Low-Resource Languages // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. — Florence, Italy : Association for Computational Linguistics, 07.2019. — c. 3204—3210. — DOI: 10.18653/v1/P19-1310. — URL: https://www.aclweb.org/anthology/P19-1310.
92. Kingma D. P., Ba J. Adam: A Method for Stochastic Optimization // CoRR. — 2014. — t. abs/1412.6980. — URL: https://api.semanticscholar. org/CorpusID:6628106.
93. Tiedemann J. Parallel Data, Tools and Interfaces in OPUS // Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12). — Istanbul, Turkey : European Language Resources Association (ELRA), 05.2012. — c. 2214—2218. — URL: http://www.lrec-conf.org/ proceedings/lrec2012/pdf/463_Paper.pdf.
94. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer / C. Raffel [h gp.] // Journal of Machine Learning Research. — 2020. — t. 21, № 140. — c. 1—67. — URL: http://jmlr.org/papers/v21/20-074.html.
95. Building Machine Translation Systems for the Next Thousand Languages : Tex. oth. / A. Bapna [h gp.] ; Google Research. — 2022.
96. Facebook AI's WMT21 News Translation Task Submission / C. Tran [h gp.] // Proceedings of the Sixth Conference on Machine Translation. — Online : Association for Computational Linguistics, 11.2021. — c. 205—215. — URL: https://aclanthology.org/2021.wmt-1.19.
97. mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer / L. Xue [h gp.] // Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. — Online : Association for Computational Linguistics, 06.2021. — c. 483—498. — DOI: 10.18653/v1/2021.naacl-main.41. — URL: https://aclanthology.org/2021.naacl-main.41.
98. Wang X., Tsvetkov Y., Neubig G. Balancing Training for Multilingual Neural Machine Translation // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. — Online : Association for Computational Linguistics, 07.2020. — c. 8526—8537. — DOI: 10.18653/v1/ 2020.acl-main.754. — URL: https://aclanthology.org/2020.acl-main.754.
99. Uncertainty-Aware Balancing for Multilingual and Multi-Domain Neural Machine Translation Training / M. Wu [h gp.] // Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. — Online, Punta Cana, Dominican Republic : Association for Computational Linguistics, 11.2021. — c. 7291—7305. — DOI: 10.18653/v1/2021 .emnlp-main.580. — URL: https://aclanthology.org/2021.emnlp-main.580.
100. Competence-based Curriculum Learning for Multilingual Machine Translation / M. Zhang [h gp.] // Findings of the Association for Computational Linguistics: EMNLP 2021. — Punta Cana, Dominican Republic : Association for Computational Linguistics, 11.2021. — c. 2481—2493. — DOI: 10 . 18653 / v1 / 2021 . findings - emnlp . 212. — URL: https://aclanthology.org/2021.findings-emnlp.212.
101. OmniKnight: Multilingual Neural Machine Translation with Language-Specific Self-Distillation / Y. Huang [h gp.] // arXiv preprint arXiv:2205.01620. — 2022.
102. Li X., Gong H. Robust Optimization for Multilingual Translation with Imbalanced Data // NeurIPS. — 2021.
103. Conneau A., Lample G. Cross-lingual Language Model Pretraining // Advances in Neural Information Processing Systems. t. 32 / nog peg. H. Wallach [h gp.]. — Curran Associates, Inc., 2019. — URL: https: / / proceedings. neurips.cc / paper / 2019/file / c04c19c2c2474dbf5f7ac4372c5b9af1-Paper.pdf.
104. Tricks for Training Sparse Translation Models / D. Dua [h gp.] // Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. — Seattle, United States : Association for Computational Linguistics, 07.2022. — c. 3340—3345. — DOI: 10.18653/v1 /2022.naacl-main.244. — URL: https: //aclanthology.org/2022.naacl-main.244.
105. Optimizing data usage via differentiable rewards / X. Wang [h gp.] // International Conference on Machine Learning. — PMLR. 2020. — c. 9983—9995.
106. Jean S., Firat O, Johnson M. Adaptive scheduling for multi-task learning // arXiv preprint arXiv:1909.06434. — 2019.
107. Distributionally Robust Multilingual Machine Translation / C. Zhou [h gp.] // Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. — Online, Punta Cana, Dominican Republic : Association for Computational Linguistics, 11.2021. — c. 5664—5674. — DOI: 10.18653/v1/2021.emnlp-main.458. — URL: https://aclanthology.org/2021. emnlp-main.458.
108. Gradnorm: Gradient normalization for adaptive loss balancing in deep multitask networks / Z. Chen [h gp.] // International conference on machine learning. — PMLR. 2018. — c. 794—803.
109. Kreutzer J., Vilar D., Sokolov A. Bandits Don't Follow Rules: Balancing Multi-Facet Machine Translation with Multi-Armed Bandits // Findings of the Association for Computational Linguistics: EMNLP 2021. — Punta Cana, Dominican Republic : Association for Computational Linguistics, 11.2021. — c. 3190—3204. — DOI: 10.18653/v1/ 2021 .findings- emnlp . 274. — URL: https://aclanthology.org/2021.findings-emnlp.274.
110. Kumar G., Koehn P., Khudanpur S. Learning policies for multilingual training of neural machine translation systems // arXiv preprint arXiv:2103.06964. — 2021.
111. Jun Z. A comprehensive review of studies on second language writing // HKBU Papers in Applied Language Studies. — 2008. — т. 12, № 2.
112. Vasiljevic Z. Teaching collocations in a second language: Why, what and how // Elta Journal. — 2014. — т. 2, № 2. — с. 48—73.
113. The Mathematics of Statistical Machine Translation: Parameter Estimation / P. F. Brown [и др.] // Comput. Linguist. — Cambridge, MA, USA, 1993. — июнь. — т. 19, № 2. — с. 263—311.
114. Och F. J, Ney H. A Systematic Comparison of Various Statistical Alignment Models // Computational Linguistics. — 2003. — март. — т. 29, № 1. — с. 19—51. — DOI: 10.1162/089120103321337421. — eprint: https://direct. mit. edu / coli / article- pdf / 29 /1 / 19 /1797914 / 089120103321337421. pdf. — URL: https://doi.org/10.1162/089120103321337421.
115. Smadja F., McKeown K., Hatzivassiloglou V. Translating Collocations for Bilingual Lexicons: A Statistical Approach // Comput. Linguistics. — 1996. — т. 22. — с. 1—38.
116. Kupiec J. An Algorithm for Finding Noun Phrase Correspondences in Bilingual Corpora // 31st Annual Meeting of the Association for Computational Linguistics. — Columbus, Ohio, USA : Association for Computational Linguistics, 06.1993. — с. 17—22. — DOI: 10.3115/981574. 981577. — URL: https://aclanthology.org/P93-1003.
117. Rivera O. M., Mitkov R., Corpas Pastor G. A flexible framework for collocation retrieval and translation from parallel and comparable corpora // Proceedings of the Workshop on Multi-word Units in Machine Translation and Translation Technologies. — Nice, France, 9 3.2013. — URL: https:// aclanthology.org/2013.mtsummit-wmwumttt.4.
118. Seretan V., Wehrli É. Collocation translation based on sentence alignment and parsing // Actes de la 14eme conference sur le Traitement Automatique des Langues Naturelles. Articles longs. — Toulouse, France : ATALA,
06.2007. — c. 375—384. — URL: https://aclanthology.org/2007.jeptalnrecital-long.37.
119. Zenkel T., Wuebker J, DeNero J. End-to-End Neural Word Alignment Outperforms GIZA++ // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. — Online : Association for Computational Linguistics, 07.2020. — c. 1605—1617. — DOI: 10.18653/v1/ 2020.acl-main.146. — URL: https://aclanthology.org/2020.acl-main.146.
120. Accurate Word Alignment Induction from Neural Machine Translation / Y. Chen [h gp.] // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). — Online : Association for Computational Linguistics, 11.2020. — c. 566—576. — DOI: 10.18653/v1/ 2020.emnlp-main.42. — URL: https://aclanthology.org/2020.emnlp-main.42.
121. Edinburgh system description for the 2005 IWSLT speech translation evaluation / P. Koehn [h gp.] // International Workshop on Spoken Language Translation. — 2005. — hhb.
122. CCMatrix: Mining Billions of High-Quality Parallel Sentences on the Web / H. Schwenk [h gp.] // Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). — Online : Association for Computational Linguistics, 08.2021. — c. 6490—6500. — DOI: 10.18653/v1/2021 .acl-long. 507. — URL: https: //aclanthology.org/2021.acl-long.507.
123. Moses: Open Source Toolkit for Statistical Machine Translation / P. Koehn [h gp.] // Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions. — Prague, Czech Republic : Association for Computational Linguistics, 06.2007. — c. 177—180. — URL: https://aclanthology.org/P07-2045.
124. Tiedemann J., Thottingal S. OPUS-MT - Building open translation services for the World // Proceedings of the 22nd Annual Conference of the European Association for Machine Translation. — Lisboa, Portugal : European
Association for Machine Translation, 11.2020. — c. 479—480. — URL: https: //aclanthology.org/2020.eamt-1.61.
125. Pecina P. An Extensive Empirical Study of Collocation Extraction Methods // Proceedings of the ACL Student Research Workshop. — Ann Arbor, Michigan : Association for Computational Linguistics, 06.2005. — c. 13—18. — URL: https://aclanthology.org/P05-2003.
126. Bhalla V., Klimcikova K. Evaluation of automatic collocation extraction methods for language learning // Proceedings of the Fourteenth Workshop on Innovative Use of NLP for Building Educational Applications. — Florence, Italy : Association for Computational Linguistics, 08.2019. — c. 264—274. — DOI: 10.18653/v1/W19-4428. — URL: https://aclanthology.org/W19-4428.
Список рисунков
1.1 Таксономия методов, использующих моноязычные данные для НМП. Затененные области выделяют категории, имеющие одну
и ту же основную идею. Адаптировано из [20]............ 16
2.1 Схема метода трансферного обучения................. 46
2.2 Схема метода обратного перевода................... 47
2.3 Схема метода неглубокого слияния.................. 47
3.1 Высокоуровневый вид многоязычной иерархической модели (пример). Горизонтальные линии обозначают блоки энкодера/декодера, вертикальные линии и стрелки показывают точки слияния/разделения, а подстрочные индексы указывают на то, какие именно языки совместно используют конкретный блок энкодера/декодера. Здесь и ниже приведены коды языков
ВСР-47 [84]. Приведено из [13]..................... 53
3.2 Фрагмент лингвистического дерева для тюркских языков [89]. Приведено из [13]............................ 55
3.3 Декодер иерархической модели на базе Трансформер........ 58
3.4 Энкодер иерархической модели на базе Трансформер........ 59
3.5 Пример простой иерархической модели с двумя исходными и одним целевым языком. Закругленные прямоугольники обозначают блоки энкодера/декодера. Приведено из [13]...... 64
3.6 Пример общей иерархической модели с несколькими исходными
и целевыми языками. Приведено из [13]................ 64
3.7 Разница в баллах BLEU между многоязычными и двуязычными моделями. Нулевой уровень представляет собой средний балл двуязычных моделей. Положительные значения означают улучшение по сравнению с базовыми двуязычными моделями, отрицательные значения, соответственно, означают ухудшение. Full обозначает модели с общим пространством параметров, Hie обозначает обычные иерархические модели, Hie+Downweight обозначает иерархические модели, обученные путем понижения веса низкоресурсных обучающих данных, и Hie+Regularize обозначает иерархические модели с регуляризацией с помощью высокоресурсных данных. Приведено из [13]............. 70
3.8 Пример переобучения в иерархических моделях. Значения функции потерь на обучающей (слева) и валидационной (справа) выборках для низкоресурсной пары pl-de при обучении иерархической модели pl^en-de. Приведено из [13]......... 72
5.1 Пример объединения выравниваний. Черные клетки обозначают пары слов, которые есть в пересечении двух выравниваний, серым обозначены пары, которые есть хотя бы в одном выравнивании. Адаптировано из [121].................100
5.2 Фрагмент таблицы фраз, полученной на основе русско-английского подкорпуса набора данных CCMatrix. Приведено из [16]............................101
Список таблиц
1 Прирост BLEU6b результате применения рассмотренных методов, сгруппированных по размеру использованного параллельного корпуса. Адаптировано из [20]............ 29
2 Результаты (BLEU) для моделей, обученных с применением трансферного обучения (ТО) и обратного перевода (ОП). Цифры в названии обозначают длительность обучения родительской модели (в эпохах). Адаптировано из [18]....... 50
3 Средние значения BLEU для различных статических методов для моделей "один-ко-многим" (O2M) и "многие-к-одному" (M2O). Результаты приведены для языков, сгруппированных по размеру набора данных — высокоресурсные (high), средне-(medium) и низкоресурсные (low). Адаптировано из [76]......83
4 Значения BLEU для различных динамических методов для двух наборов данных с различными (diverse) и родственными (related) языками и двух моделей: "один-ко-многим" (O2M) и "многие-к-одному" (M2O). Адаптировано из [101].......... 92
5 Точность перевода фраз, измеренная на основе эталонного словаря. Наш — метод, основанный на таблице фраз, НМП — базовый метод, где переводы получены с помощью модели MarianMT. Адаптировано из [16]....................106
6 Примеры перевода фраз тестового словаря. Варианты перевода являются правильными, даже если они не всегда соответствуют эталонному переводу. Адаптировано из [16]..............107
7 Примеры перевода фраз тестового словаря. Варианты перевода частично верны либо ошибочны. Адаптировано из [16].......108
8 Точность перевода фраз, измеренная на основе эталонного словаря в зависимости от показателя встречаемости исходных
фраз, count(f). Адаптировано из [16].................109
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.