Методы машинного обучения для сквозных систем автоматического распознавания речи тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Лаптев Александр Алексеевич

  • Лаптев Александр Алексеевич
  • кандидат науккандидат наук
  • 2023, ФГАОУ ВО «Национальный исследовательский университет ИТМО»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 333
Лаптев Александр Алексеевич. Методы машинного обучения для сквозных систем автоматического распознавания речи: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Национальный исследовательский университет ИТМО». 2023. 333 с.

Оглавление диссертации кандидат наук Лаптев Александр Алексеевич

Реферат

Synopsis

Introduction

Chapter 1. Automatic speech recognition

1.1 ASR architecture

1.1.1 Hybrid vs. End-to-End ASR

1.1.2 Neural networks for ASR

1.2 Stages of ASR development

1.2.1 Data preparation for ASR

1.2.2 ASR model training methods

1.2.3 ASR decoding methods

1.2.4 ASR quality control methods

1.3 Promising research areas in ASR

Chapter 2. ASR data augmentation methods

2.1 Acoustic training data augmentation by the TTS-synthesized

artificial utterances

2.1.1 Existing TTS augmentation methods for ASR

2.1.2 Proposed TTS augmentation method

2.1.3 Experimental evaluation

2.2 Target text augmentation method based on the BPE-Dropout non-deterministic word segmentation

2.2.1 Existing usage of non-deterministic word segmentation algorithms

2.2.2 Proposed target text augmentation method

2.2.3 Experimental evaluation

2.3 Conclusions and future investigations

Page

Chapter 3. New loss functions developed with differentiable WFSTs

3.1 Differentiable WFSTs in the ASR task

3.1.1 Introduction to the differentiable WFSTs

3.1.2 Addressing ASR tasks with differentiable WFSTs

3.1.3 Frameworks for differentiable WFSTs

3.2 Case study: CTC loss function variations

3.2.1 Existing CTC variants

3.2.2 Proposed CTC loss functions

3.2.3 Experimental evaluation

3.3 Case study: RNN-T loss function and its variants

3.3.1 Existing RNN-T loss functions

3.3.2 Proposed RNN-T loss calculation methods

3.3.3 Proposed loss function for weakly-supervised RNN-T training

3.3.4 Experimental evaluation

3.4 Conclusions and future investigations

Chapter 4. Entropy-based ASR confidence estimation methods

4.1 ASR confidence estimation

4.1.1 Existing ASR confidence estimation methods

4.1.2 Proposed confidence entropy-based estimation methods

4.1.3 Experimental evaluation

4.2 Case study: confidence-based runtime ASR ensemble control

4.2.1 Existing confidence-based runtime ASR ensemble control methods

4.2.2 Proposed entropy-confidence-based runtime ASR ensemble control method

4.2.3 Experimental evaluation

4.3 Conclusions and future investigations

Conclusion

Acronyms

References

Page

Figure list

Table list

Appendix A. Proof of Theorem

A.1 Case a e [0.5,1]

A.2 Case a ^

A.3 Case 1 < a <

A.3.1 Extrema of Hg(a)(p) at interior points P

A.3.2 Hessian at extrema points Hg(a)(p)

A.4 Case a <

Appendix B. Proof of Theorem

Appendix C. Proof of Theorem

Copies of Author's Publications

Введение диссертации (часть автореферата) на тему «Методы машинного обучения для сквозных систем автоматического распознавания речи»

Реферат Актуальность темы

Автоматическое распознавание речи (Automatic Speech Recognition, ASR) — это ключевая технология человеко-машинного взаимодействия, имеющая множество применений в различных отраслях, таких как здравоохранение, образование и обслуживание клиентов. Однако современные (state-of-the-art, SOTA) системы ASR имеют ограничения с точки зрения точности, эффективности и масштабируемости. Конвейер разработки для сквозных систем ASR обычно состоит из четырех этапов: 1) подготовка аудио и текста, 2) обучение модели ASR, 3) декодирование тестовых данных и 4) контроль качества.

На каждом этапе конвейера разработки системы ASR существуют возможности для их улучшения. На этапе подготовки один из подходов заключается в аугментации (дополнении, расширении) входных (аудио) и целевых (текстовых) данных для увеличения размера и разнообразия обучающих данных. Это может помочь повысить устойчивость модели ASR к вариациям речевых паттернов и акустической среды.

На этапе обучения можно разработать новые функции потерь и методы обучения, чтобы повысить точность распознавания моделей ASR. Например, модели последовательностей с механизмами внимания показали многообещающие результаты в повышении точности систем ASR. Кроме того, можно изучить новые методы машинного обучения, такие как самостоятельное обучение и обучение с частичным привлечением учителя (self-supervised и semi-supervised обучения), чтобы использовать неразмеченные данные и уменьшить потребность в размеченных данных при обучении.

На этапе декодирования могут быть разработаны и исследованы новые методы декодирования, и оптимизация существующих методов. Например, сквозные (end-to-end) модели, которые напрямую отображают входной речевой сигнал в текстовый, продемонстрировали потенциал для повышения точности систем ASR.

Наконец, на этапе контроля качества можно изучить более точные методы оценки качества. Сюда входят как формальные, так и специфичные для

приложения методы оценки качества, которые могут помочь выявить и диагностировать ошибки в выходных данных ASR.

В целом есть необходимость разрабатывать новые методы для повышения производительности систем ASR на каждом этапе конвейера разработки. Эта диссертационная работа направлена на то, чтобы внести свой вклад в область ASR, разрабатывая и исследуя новые методы машинного обучения и сравнивая их с существующими.

Степень разработанности темы

Первый этап конвейера разработки сквозных систем ASR в основном представлен акустическими аугментациями, такими как искажение скорости (speed perturbation) и спектральной аугментацией (SpecAugment). Для задачи ASR дальнего микрофона производится зашумление чистых данных при обучении и/или удаление шума/улучшение данных распознавания при выводе. Существуют также работы по дополнению акустических данных с помощью синтезированной речи, произведённой системой синтеза речи (Text-To-Speech, TTS), опубликованные примерно в то же время, что и работа, представленная в этой диссертации. Аугментация целевых данных пока не привлекала заметного внимания. Также нет значимых работ по решению проблемы зашумленных целевых текстов ASR.

На этапе обучения модели ASR, такие как Conformer, обучаются с помощью следующих функции потерь: коннекционистская временная классификация (Connectionist Temporal Classification, CTC), рекуррентный нейросетевой преобразователь (Recurrent Neural Network Transducer, RNN-T) и метод "после-довательность-в-последовательность" (Sequence-to-Sequence, также называется Attention-based Encoder-Decoder, AED). На данный момент нет явного победителя между подходами RNN-T и Sequence-to-Sequence. Эффективные подходы к обучению с частичным привлечением учителя в основном основаны на обучении студента с шумом (Noisy Student Training). Известными представителями самостоятельного обучения являются контрастивное прогнозирующее кодирование (Contrastive Predictive Coding) и data2vec.

Третий этап (декодирование тестовых данных) в основном выполняется тремя методами: жадным (argmax) декодированием, поиском с лучом (beam search) и декодированием взвешенных преобразователей с конечным числом состояний (Weighted Finite-State Transducers, WFST). Первый из них является самым быстрым и при этом может обеспечивать конкурентоспособную точность при условии, что модель ASR достаточно велика и обучалась достаточно долго. Поиск с лучом может выполняться с внешней N-граммной языковой моделью или нейросетевой языковой моделью (language model, LM) или без нее, причем последняя обеспечивает больший прирост точности. Декодирование с WFST можно считать более быстрой альтернативой поиску с лучом с конкурентоспособной точностью по сравнению с N-граммным поиском с лучом. Кроме того, перевзвешивание (re-scoring) нейросетевой LM иногда используется для дальнейшего повышения точности, но эти LM могут быть чрезвычайно большими, что значительно замедляет декодирование.

На этапе контроля качества не было проведено много исследований. Помимо пословной ошибки распознавания (Word Error Rate, WER) и её производных, для оценки предсказаний ASR обычно учитывается только оценка достоверности. Оценка достоверности для современных систем ASR выполняется либо путем ее расчета на основе необработанных выходных вероятностей, либо с использованием внешних нейросетевых методов оценок достоверности.

Цель

Разработка методов машинного обучения и исследование их эффективности применительно к сквозным системам автоматического распознавания речи. Для достижения данной цели определены следующие задачи:

Задачи

Задача 1: Обзор существующих методов машинного обучения для разработки ЛБИ, систем.

Задача 2: Разработка методов расширения/аугментации аудио и текстовых данных для обучения ЛБИ, моделей.

Задача 3: Разработка новых функций потерь, позволяющих сделать сквозное обучение модели ЛБИ, применимым к слабо размеченным данным.

Задача 4: Разработка новых методов оценки точности распознавания без использования целевой транскрипции.

Задача 5: Проведение экспериментальных исследований для подтверждения эффективности разработанных методов.

Методы исследования

В диссертации используются методы машинного обучения, глубокого обучения, теории информации, теории автоматов, математического анализа, объектно-ориентированного программирования, а также методы проведения и анализа вычислительных экспериментов.

Основные положения, выносимые на защиту

Положение 1: Методы аугментации аудио и текстовых данных для обучения ЛБИ, систем, отличающиеся использованием расширения акустических ЛБИ, данных с помощью синтезированной речи и повышение разнообразия

целевых текстовых данных методом недетерминированной сегментации слов BPE-Dгopout.

Положение 2: Новые функции потерь для обучения ЛБИ систем, отличающиеся использованием дифференцируемых взвешенных преобразователей с конечным числом состояний.

Положение 3: Методы предсказания точности ЛБИ систем, отличающиеся использованием энтропий Цаллиса и Реньи в качестве мер достоверности.

Научная новизна

Научная новизна 1: Выводы по аугментации аудиотекстовых данных. Расширение данных ЛБИ с помощью синтетических данных ТТБ выполнялось с помощью нейронного вокодера для преобразования спектрограммы в форму сигнала, и было показано, что системы ЛБИ с ТТБ-аугментацией получают больший прирост точности от декодирования с внешней нейросетевой ЬМ, чем не-аугментированные системы ЛБИ. Показано, что алгоритмы недетерминированной сегментации слов, такие как ВРЕ^гороШ;, работают как увеличение целевых данных для низкоресурсных задач ЛБИ.

Научная новизна 2: Практические следствия из применения дифференцируемых WFST в Л8И. Предложены новые функции потерь СТС и ИКК-Т: Сошрас^СТС и М1шша1-СТС для снижения потребления памяти при обучении и декодировании, а также "^Тгапэ^сег для обучения ИКК-Т на слабо размеченных данных.

Научная новизна 3: Методы оценки достоверности на основе энтропии. Параметрические энтропии Цаллиса и Реньи адаптированы для оценки достоверности ЛБИ. Предложены стратегии агрегирования мер достоверности (кадры в языковые единицы и языковые единицы в слова). Показано, что достоверность на основе энтропии позволяет точно оценивать точность

предсказаний ЛБЯ, поскольку было обнаружено, что системы управления ансамблями ЛБЯ-систем лучше всего работают с достоверностью на основе энтропии в качестве входных данных.

Объект исследования

Сквозные системы ЛБЯ.

Предмет исследования

Методы машинного обучения для улучшения одного или нескольких этапов разработки сквозных систем ЛБЯ.

Соответствие паспорту специальности

Данная диссертация соответствует §4 "Разработка методов, алгоритмов и создание систем искусственного интеллекта и машинного обучения для обработки и анализа текстов на естественном языке, для изображений, речи, биомедицины и других специальных видов данных" специальности 1.2.1 в части объекта исследования. Положение 1 также соответствует §14 "Методы и средства формирования массивов условно-реальных данных и прецедентов, необходимых для решения задач искусственного интеллекта и машинного обучения" и Положение 3 также соответствует §2 "Исследования в области оценки качества и эффективности алгоритмических и программных решений для систем искусственного интеллекта и машинного обучения. Методики сравнения и выбора алгоритмических и программных решений при многих критериях".

Теоретическая значимость

— Те же данные, которые используются для обучения моделей ЛБЯ, можно использовать для обучения систем ТТБ, а затем синтезировать речь в предметной области для расширения самих обучающих данных ЛБЯ.

— Алгоритмы недетерминированной сегментации слов могут работать как аугментация целевых данных для низкоресурсных задач ЛБЯ.

— Применение дифференцируемых WFST может радикально изменить разработку функций потерь ASR и правил ASR-декодирования.

— Недорасшифрованные данные можно использовать для обучения моделей ASR с точностью, сравнимой с моделями, обученными на корректно расшифрованных данных.

— Энтропия для каждого ASR-кадра является эффективной мерой достоверности предсказания ASR.

— Оценку достоверности на основе энтропии также можно использовать для выбора наиболее точной системы ASR из ансамбля ASR во время декодирования.

Практическая значимость

— Системы ASR, аугментированные сгенерированными системой TTS данными, работают более точно, если синтезированные данные были трансформированы в волну с помощью нейронного вокодера вместо алгоритма Гриффина-Лима, и лучше всего работают при использовании с внешним нейросетевыми ЬМ.

— Аугментация целевого текста с мопощью БРЕ^гороШ; улучшает распознавание слов несловарных слов (0Ш;-0£-УосаЬи1агу, ООУ).

— Изменение правил СТС при декодировании с WFST позволяет уменьшить размер графа декодирования до 2 раз без существенной потери точности.

— Функции потерь ИКК-Т на основе WFST могут быть рассчитаны быстрее, чем их аналоги на основе CUDA, при этом для их реализации требуется на два порядка меньше строк кода.

— Модели ИКК-Т, обученные на недорасшифрованных данных, могут обеспечить точность, конкурентоспособную моделям, обученным на корректно расшифрованных данных.

— Методы оценки достоверности, основанные на энтропиях Цаллиса и Ре-ньи, могут справиться с чрезмерной увренностью предсказаний модели ЛБИ и работают так же быстро, как и взятие максимума вероятности, а их показатели точности близки к показателям нейросетевых оценок достоверности.

— Системы управления ансамблем моделей ЛБИ, основанные на энтропийной достоверности, помогают выбирать оптимальную модель почти со 100% точностью без значительного замедления по сравнению с одной моделью.

Достоверность

Достоверность научных положений, выводов и доказательств, полученных в диссертации, основана на известных, поддающихся проверке данных и фактах, согласуется с опубликованными экспериментальными данными по теме диссертации или в смежных областях и формально доказана там, где это применимо.

Внедрение результатов работы

Результаты, полученные в ходе выполнения диссертационной работы, были использованы в следующих прикладных научных исследованиях:

1. НИР 718574 "Методы, модели и технологии искусственного интеллекта в биоинформатике, социальных медиа, киберфизических, биометрических и речевых системах" (участник).

2. НИР 620173 "Исследование интегральных методов обучения для систем автоматического распознавания речи" (участник).

3. НИР 321320 "Выполнение опережающих исследований и разработок в области алгоритмов сильного искусственного интеллекта" (участник).

Результаты исследований, в соответствии с положениями, представленными для защиты, также реализованы и находятся в открытом доступе в наборе инструментов NVIDIA NeMo для диалогового искусственного интеллекта.

Апробация результатов работы

Ключевые результаты исследований были представлены и обсуждались на следующих конференциях:

1. International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI) (17-19 Oct. 2020, China, online);

2. 23rd INTERSPEECH Conference (18-22 Sep. 2022, Incheon, Korea);

3. The 2022 IEEE Spoken Language Technology Workshop (SLT) (09-12 Jan. 2023, Doha, Qatar);

4. The 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (04-10 Jun. 2023, Rhodes, Greece);

5. 24th INTERSPEECH Conference (20-24 Aug. 2023, Dublin, Ireland);

Личный вклад автора

Общая концепция диссертации, ее структура, степень понимания рассматриваемых проблем, формулировка основных результатов и выводов работы, выносимые на защиту положения отражают конкретный творческий вклад автора диссертации и исключительно его точку зрения на рассматриваемые вопросы. Публикации по теме диссертации осуществлялись совместно с соавторами, вклад каждого из которых представлен ниже:

- «You Do Not Need More Data: Improving End-To-End Speech Recognition by Text-To-Speech Data Augmentation»: Лаптев А. - подготовка обучающих данных, разработка сквозных методов распознавания речи, проведение экспериментальных исследований, написания текста статьи. Коростик Р. - разработка алгоритмов синтеза речи. Свищев А. - разработка методов восстановления речи. Андрусенко А. - разработка сквозных методов распознавания речи. Меденников И., Рыбин С. -постановка задачи, техническое консультирование.

- «Exploration of End-to-End ASR for OpenSTT - Russian Open Speech-to-Text Dataset»: Андрусенко А. - проведение экспериментальных исследований по применению классических и сквозных подходов для задачи распознавания русской языка, написание текста статьи. Лаптев А. -сбор обучающих и тестовых данных базы OpenSTT, техническое консультирование, написание текста статьи. Меденников И. - техническое консультирование, рецензирование текста статьи.

- «Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner Party Transcription»: Андрусенко А. - проведение экспериментальных исследований по применению сквозных подходов (RNN-T) для устойчивого распознавания, реализация оптимизированного метода декодирования, написание теста статьи. Лаптев А. - проведение дополнительных экспериментов со сквозными подходами (CTC, AED), анализ полученных результатов, написание текста статьи. Меденников И. - формализация задачи устойчивого распознавания, очистка обучающих и тестовых данных, техническое консультирование.

- «Target-Speaker Voice Activity Detection: A Novel Approach for MultiSpeaker Diarization in a Dinner Party Scenario»: Меденников И. - разработка метода детектирования дикторов, проведение экспериментальных исследований, техническое руководство проектом. Кореневский М., Присяч Т., Хохлов Ю., Кореневская М., Сорокин И. - разработка метода очистки шумных данных, проведение экспериментальных исследований. Тимофеева Т., Митрофанов А. - реализация метода переоценки гипотез декодирования, проведение экспериментальных исследований. Андрусенко А. - реализация модели на основе нескольких потоков с разными параметрами механизма внимания для задачи устойчивого распознавания, проведение экспериментальных исследований.

Подлужный И., Лаптев А., Романенко А. - проведение дополнительных исследований, анализ результатов, техническое консультирование.

— «Dynamic Acoustic Unit Augmentation with BPE-Dropout for Low-Resource End-to-End Speech Recognition»: Лаптев А. - формализация задачи аугментации токенизации в процессе обучения ASR системы, техническое консультирование, написание текста статьи. Андрусенко А. - внедрение метода аугментации токенизатора, проведение экспериментальных исследований, написание текста статьи. Подлужный И. -построение графиков, написание текста статьи. Митрофанов А., Меден-ников И., Матвеев Ю. - техническое консультирование, редакция текста статьи.

— «LT-LM: A Novel Non-Autoregressive Language Model for Single-Shot Lattice Rescoring»: Митрофанов А. - формализация задачи переоценки гипотез решётки с помощью нейросети Transformer, реализация метода переоценки гипотез, проведение экспериментальных исследований, анализ результатов, написание текста статьи. Кореневская М. - разработка метода генерации искусственных решёток из текстовых данных, проведение экспериментальных исследований, анализ результатов, написание текста статьи. Подлужный И. - подготовка обучающих данных, проведение экспериментальных исследований. Хохлов Ю. - реализация метода переоценки гипотез, техническое консультирование. Лаптев А.

- реализация оптимальной по потреблению памяти процедуры обучения модели, техническое консультирование. Андрусенко А., Ильин А.

- проведение дополнительных исследований, техническое консультирование. Кореневский М., Меденников И., Романенко А. - техническое консультирование, редакция текста статьи.

- «CTC Variations Through New WFST Topologies»: Лаптев А. - формализация задачи варьирования правил функции потерь CTC, разработка новых топологий, проведение экспериментальных исследований, анализ результатов, написание текста статьи. Маджумдар С. - разработка ней-росетевых моделей распознавания речи, техническое консультирование. Гинсбург Б. - техническое консультирование, редакция текста статьи.

- «Fast Entropy-Based Methods of Word-Level Confidence Estimation for End-To-End Automatic Speech Recognition»: Лаптев А. - формализация задачи оценки достоверности ASR на основе энтропии, вывод

формул мер достоверности, проведение экспериментальных исследований, анализ результатов, написание текста статьи. Гинсбург Б. -техническое консультирование, редакция текста статьи.

— «Powerful and Extensible WFST Framework for RNN-Transducer Losses»: Лаптев А. - формализация задачи вычисления функции потерь RNN-T с помощью WFST, вывод формул и прототипирование вариантов функции потерь RNN-T, написание текста статьи. Батаев В. -эффективная реализация вариантов функции потерь RNN-T, проведение экспериментальных исследований, анализ результатов. Гитман И., Гинсбург Б. - техническое консультирование, редакция текста статьи.

- «Confidence-based Ensembles of End-to-End Speech Recognition Models»: Гитман И. - формализация задачи управления ансамблем систем ASR на основе достоверности, реализация метода управления ансамблем систем ASR, проведение экспериментальных исследований, анализ результатов, написание текста статьи. Лаврухин В. - техническое консультирование, анализ результатов, редакция текста статьи. Лаптев А. - консультирование по энтропийным методам оценки достоверности, анализ результатов, редакция текста статьи. Гинсбург Б. - техническое консультирование, редакция текста статьи.

Структура и объем диссертации

Диссертация состоит из введения, 4 глав, заключения и 3 приложения. Полный объем диссертации составляет 140 страниц с 27 рисунками и 25 таблицами. Список литературы содержит 162 объекта.

Публикации

По материалам диссертационной работы опубликовано 10 статей, в том числе 8 статей в журналах и материалах конференций, включенных в международные базы данных Scopus и Web of Science, а также 2 публикации в иных

изданиях.

Публикации в международных изданиях, индексируемых в базе данных Scopus и/или Web of Science:

1. A. Laptev, R. Korostik, A. Svischev, A. Andrusenko, I. Medennikov, S. Rybin. You Do Not Need More Data: Improving End-To-End Speech Recognition by Text-To-Speech Data Augmentation // 2020 13th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI). IEEE. 2020. P. 439-444.

2. A. Andrusenko, A. Laptev, I. Medennikov. Exploration of End-to-End ASR for OpenSTT - Russian Open Speech-to-Text Dataset // SPECOM 2020 Conference. Springer International Publishing. 2020. P. 35-44.

3. A. Andrusenko, A. Laptev, I. Medennikov. Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner Party Transcription // 21st INTERSPEECH Conference. ISCA Speech. 2020. P. 319-323.

4. I. Medennikov, M. Korenevsky, T. Prisyach, Y. Khokhlov, M. Korenevskaya, I. Sorokin, T. Timofeeva, A. Mitrofanov, A. Andrusenko, I. Podluzhny, A. Laptev, A. Romanenko. Target-Speaker Voice Activity Detection: A Novel Approach for Multi-Speaker Diarization in a Dinner Party Scenario // 21st INTERSPEECH Conference. ISCA Speech. 2020. P. 274-278.

5. A. Laptev, A. Andrusenko, I. Podluzhny, A. Mitrofanov, I. Medennikov, Y. Matveev. Dynamic Acoustic Unit Augmentation with BPE-Dropout for Low-Resource End-to-End Speech Recognition // Sensors 21(9). MDPI AG. 2021. P. 1-20.

6. A. Mitrofanov, M. Korenevskaya, I. Podluzhny, Y. Khokhlov, A. Laptev, A. Andrusenko, A. Illin, M. Korenevsky, I. Medennikov, A. Romanenko. LT-LM: A Novel Non-Autoregressive Language Model for Single-Shot Lattice Rescoring // 22nd INTERSPEECH Conference. ISCA Speech.

2021. P. 4039-4043.

7. A. Laptev, S. Majumdar, B. Ginsburg. CTC Variations Through New WFST Topologies // 23rd INTERSPEECH Conference. ISCA Speech.

2022. P. 1041-1045.

8. A. Laptev, B. Ginsburg. Fast Entropy-Based Methods of Word-Level Confidence Estimation for End-To-End Automatic Speech Recognition //

The 2022 IEEE Spoken Language Technology Workshop (SLT). IEEE. 2023. P. 152-159.

В иных изданиях:

1. A. Laptev, V. Bataev, I. Gitman, B. Ginsburg. Powerful and Extensible WFST Framework for RNN-Transducer Losses // The 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. 2023. P. 1-5.

2. I. Gitman, V. Lavrukhin, A. Laptev, B. Ginsburg. Confidence-based Ensembles of End-to-End Speech Recognition Models // 24th INTERSPEECH Conference. ISCA Speech. 2023. P. 1-5.

Содержание работы

Введение содержит актуальность проведенного исследования, краткий обзор предметной области, формулировку цели и задач исследования, а также научную новизну, теоретическую и практическую значимость работы.

Глава 1 представляет собой аналитический обзор предметной области. В этой главе представлены важные определения, описания рассмотренных методов и модельных задач. Раздел 1.1 является вводным и содержит пояснения по гибридному и сквозному ASR и нейронным сетям, обычно используемым в ASR. Раздел 1.2 описывает этапы разработки ASR и их особенности. Наконец, Раздел 1.3 предлагает наиболее перспективные направления для исследования и улучшения развития системы ASR.

Раздел 1.1.1 описывает гибридное и сквозное ASR.

Гибридные (или классические) системы ASR состоят из четырех основных компонентов: извлечение акустических признаков из речевых аудиосигналов, акустическое моделирование, языковое моделирование и поиск на основе правила Байеса принятия решений. Гибридное акустическое моделирование основано на скрытых марковских моделях (Pidden Markov Models, HMM) для учета вариации темпа речи. В рамках гибридного подхода было внедрено глубокое обучение для акустического и языкового моделирования. В акустическом моделировании глубокое обучение заменило смеси гауссовых

распределений (DNN-HMM) или дополнило набор акустических признаков (нелинейный дискриминантный/тандемный подход). В языковом моделировании глубокое обучение заменило подходы, основанные на подсчете. Однако, при внедрении глубокого обучения сама гибридная архитектура ASR еще не затрагивалась. Классические SOTA системы ASR состоят из множества отдельных компонентов и источников знаний, в частности, предварительная обработка речевого сигнала, методы устойчивости к условиям записи, наборы фонем и фонетические лексиконы, фонетическая кластеризация, обработка слов, не входящих в словарь, различные методы адаптации/нормализации, сложные графики обучения с различными целями, включая последовательность дискри-минативного обучения и т. д.

Потенциал глубокого обучения, с другой стороны, стал причиной появления успешных подходов к интеграции ранее отдельных этапов моделирования, например, интеграции предварительной обработки речевого сигнала и извлечения признаков в акустическое моделирование. Внедрение глубокого обучения в ASR также спровоцировало исследования по замене классических архитектур ASR на основе HMM более интегрированными моделями совместных нейронных сетей. Для этих полностью нейросетевых подходов недавно был установлен термин "сквозные" (End-to-End, E2E). В целом, E2E ASR можно определить как интегрированную модель ASR, которая позволяет совместное обучение и распознавание с минимизацией ожидаемой ошибки на уровне слова, избегая отдельно полученных источников знаний. Основной целью при разработке систем ASR является минимизация ожидаемой ошибки на уровне слова. Однако, второстепенными целями являются снижение количества вычислений и объёма памяти, затрачиваемых на декодирование, а также, при ограниченном бюджете на разработку, гибкость и удобство моделирования.

Раздел 1.1.2 Описывет популярные нейронные сети, используемые в качестве основы для сквозных моделей ASR. Автор диссертации рассматривает часто используемые нейронные модули и архитектуры ASR, включающие эти модули.

Нейросетевые модули для ASR:

— Рекуррентные ячейки (одно- или дву-направленные), включая долгую краткосрочную память (Long Short-Term Memory, LSTM).

— Свёрточные нейросети (Convolutional networks, CNN) и их варианты, включая контекстные модули сжатия и возбуждения (Squeeze-and-Excitation, SE).

— Модули внутреннего внимания (self-attention).

Популярные ASR-нейросети:

— BLSTM с CNN-сжатием (sub-sampling) сигнала из набора инструментов ESPnet1.

— Citrinet, состоящий из одномерных CNN с разделением по временному каналу и SE-модулей между ними из набора инструментов NeMo2.

— Transformer: self-attention с CNN-сжатием из набора инструментов ESPnet.

— Conformer: Transformer с точечными и одномерными CNN в глубину из набора инструментов NeMo.

Раздел 1.2.1 обозревает ASR в контексте данных. Этот раздел охватывает несколько аспектов, связанных с использованием данных в ASR. Они следующие:

1. Размер набора данных: сколько часов аудиоданных доступно?

2. Условия записи: как и где производилась запись аудио?

3. Разметка данных: насколько полны и точны транскрипции аудио?

4. Нормализация текста: необходимо ли привести транскрипции к единому каноническому виду?

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Лаптев Александр Алексеевич, 2023 год

о.юо -

*-Т--

A no dropout

—•— dropout 1

0 1000 2000 3000 4000 5000

Vocabulary size

Рисунок 3 — Системы ASR с моделями сегментации слов BPE с отбрасыванием (dropout) и без него, обученные с использованием словаря разного размера. Температура отбрасывания а = 0,1. Метрики: F-мера и WER. Модель ASR: гибридный CTC-Attention Transformer. Набор данных: Турецкий.

0.05 -

0 500 1000 1500 2000

Vocabulary size

Рисунок 4 — Системы ASR с моделями сегментации слов BPE с отбрасыванием (dropout) и без него, обученные с использованием словаря разного размера. Температура отбрасывания а = 0,1. Метрики: F-мера и WER. Модель ASR: гибридный CTC-Attention Transformer. Набор данных: Грузинский.

По аудио аугментации данных с помощью синтезированных произнесений представлены следующие выводы:

— Аугментация обучающих данных ASR с использованием данных, созданных с помощью системы TTS, является эффективным способом повышения точности модели ASR. Такой метод может превзойти сравнимую конфигурацию с частичным привлечением учителя, при этом он более прост в применении (целевые тексты более доступны, чем аудио данные).

— TTS-аугментация смещает модель в сторону имеющихся данных, что может снизить способность модели к обобщению. Этот побочный эффект может быть смягчен с помощью использования внешней языковой модели при декодировании.

— Выбор TTS-системы имеет значение, особенно часть, отвечающая за вокодер.

По аугментации целевого текста представлены следующие выводы:

— TTS c текстовыми смещающими подсказками (Text-Prompted TTS) для аугментации ASR систем.

— Совместное обучение (например, в формате Text-to-Text) систем ASR и TTS.

— Обратимые (invertible) модели ASR/TTS.

Автор диссертации предлагает следующие направления для будущих исследований по акустической аугментации данных:

— TTS c текстовыми смещающими подсказками (Text-Prompted TTS) для аугментации ASR систем.

— Совместное обучение (например, в формате Text-to-Text) систем ASR и TTS.

— Обратимые (invertible) модели ASR/TTS.

Глава 3 представляет новые функции потерь, разработанные с помощью дифференцируемых WFST. Раздел 3.1 демонстрирует дифференцируемые WFST в задаче ASR; Разделы 3.2 и 3.3 представляют тематические исследования дифференцируемых WFST в задаче ASR: вариации функций потерь CTC и варианты RNN-T; а Раздел 3.4 содержит выводы и обсуждение будущих исследований.

Раздел 3.1.1 осуществляет введение в дифференцируемые WFST. Автор подразумевает под дифференцируемыми WFST подмножество всех WFST,

для которых применим вариант алгоритма Баума-Велша (также известен как forward-backward) для WFST, а также факторы этих графов. На практике это означает, что градиенты весов WFST могут распространяться через большинство операций WFST, включая пересечение и композицию.

Мотивация изучения дифференцируемых WFST заключается в том, что это является новым способом разработки методов машинного обучения. Вместо написания сложных CUDA-ядер можно переформулировать метод с использованием WFST-примитивов и использовать CUDA-ускоренные фреймворки, что значительно сокращает время прототипирования.

Раздел 3.1.2 объясняет, какие задачи ASR можно решать с помощью дифференцируемых WFST. Основное применение дифференцируемых WFST в ASR - это разработка функций потерь, хотя существуют и другие возможные применения. Автор диссертации утверждает, что для разработки функции потерь ASR необходимо (дифференцируемым образом) построить решетку для этой функции потерь и либо 1.) выполнить forward-backward проходы по этой решетке, чтобы получить значение функции потерь и градиенты, либо 2.) выполнить другие манипуляции, которые могут привести к получению значения функции потерь (например, взятие разницы между дугами обучающей и целевой решетками).

Автор диссертации предлагает две численно эквивалентные формулы для вычисления функций потерь и их градиентов. Обе они охватывают большинство функций потерь ASR из семейства функций потерь последовательности наибольшего правдоподобия (Maximum Likelihood, ML).

Первая из них рассматривает генерацию решетки как явное сокращение набора логарифмических вероятностей:

Lossml(X,Y) = -Fwd(8ml(X) o {Tmi o У(Y})), (1)

где Emi(X) обозначает граф Эмиссий, специфичный для функции потерь, скомпилированный из тензора логарифмических вероятностей X, Tmi - это топология функции потерь, также специфичная для функции потерь, и У(Y) обозначает линейный граф, представляющий целевую последовательность позиций языковых единиц (также известную как граф единиц). Другие полезные обозначения: граф выравнивания А и обучающая решетка С, скомпонованные как А = Toy и С = So А.

Вычисление С как S o А на практике сводится к исключению ненужных дуг из S. Кроме того, структура решетки, в некотором приближении

предстающая четырёхугольником, может быть переопределена как декартово произведение двух низкоразмерных WFST. Эта идея формализуется следующим уравнением:

Lossmi(X,Y) = -Fwd(Populate(Stime(X) о (Тт1 о Sumt(Y)) , (2)

где Sunit(Y) обозначает cхему для последовательности языковых единиц (или, в общем случае, для У(Y)), а Stime(X) обозначает временную Схему, которая обобщает Е. Различие между графами схем и обычными WFST заключается в добавленных метках в схемах. Sunit содержит индексы языковых единиц, в то время как Stime включает индексы временных кадров. Когда две схемы компонуются в соответствии с 2, их метки отображаются в полученную решетку, называемую Шаблонной решеткой С = Stime о Sunit, что упрощает внедрение соответствующих логарифмических вероятностей из X в дуги Сг.

Эти две формулы сравниваются между собой для функции потерь RNN-T в Разделе 3.3.

Раздел 3.1.3 даёт ссылки на фреймворки для ускоренных операций WFST и их дифференцирования. На данный момент существует три CUDA-ускоренных фреймворка, имеющихся в открытом доступе:

1. k27, который является самым зрелым и имеет наибольшее количество функций.

2. GTN (Graph Transformer Networks)8, который демонстрирует интересные применения дифференцируемых WFST, но на данный момент его поддержка прекращена.

3. LAST (LAttice-based Speech Transducer)9, который является самым новым и многообещающим, поскольку он полностью написан на Python (а значит, его можно легко расширять).

Автор диссертации выбрал фреймворк k2 для своих исследований дифференцируемых WFST.

7D. Povey, P. Zelasko, S. Khudanpur. Speech recognition with next-generation Kaldi (k2, Lhotse, Icefall) // 22nd INTERSPEECH Conference: tutorials. ISCA Speech. 2021. P. 1-1. Available: https: //github.com/k2-fsa/k2

8A. Hannun, V. Pratap, J. Kahn, W.-N. Hsu. Differentiable Weighted Finite-State Transducers // arXiv:2010.01003. Cornell University. 2020. P. 1-13. Available: https://github.com/gtn-org/gtn

9K. Wu, E. Variani, T. Bagby, M. Riley. LAST: Scalable Lattice-Based Speech Modelling in Jax // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. 2023. P. 1-5. Available: https://github.com/google-research/last

Раздел 3.2.1 перечисляет существующие варианты CTC. В литературе существует множество вариантов CTC, и автор диссертации сосредоточился на тех из них, которые могут быть представлены с использованием аппарата WFST, и в частности, формулы 1. Для обычного CTC £ и У являются тривиальными, в то время как Т - нет. В предыдущих работах были предложены две топологии CTC. "Корректная" топология CTC, введённая Сян и др.10 (названная Correct-CTC или T.fst на рис. 5), посностью соответствует оригинальному CTC. Вторая топология была предложена Мяо и др.11 (названная Eesen-CTC или Teesen.fst на рис. 5). Сян и др. изучили эту топологию и обнаружили несоответствие между данной топологией и фактическими правилами обучения и декодирования CTC. На практике это несоответствие приводит к небольшому увеличению WER при декодировании по сравнению с Correct-CTC.

А:(е)

¡Л А:(е)

a) T.fst b) Teesen.fst с) Tcompact.fst d) Tminimal.fst

Рисунок 5 — Примеры топологий CTC для словаря из трёх элементов: (Blank), А и В. Подрисунки представляют варианты CTC следующим образом: а) для Correct-CTC, b) для Eesen-CTC, c) для Compact-CTC и d) для Minimal-CTC. (b) означает (blank). Пунктирные стрелки указывают на петли из языковых

единиц кроме (blank) в (е).

Раздел 3.2.2 описывает предложенные функции потерь CTC. Существует два самостоятельных варианта и одна вариация нескольких вариантов CTC. Все они получены путём варьирования корректной CTC топологии. Предложено следующее:

1. Вариант "Compact-CTC" (Tcompact .fst на рис. 5) имеет только одно состояние, принадлежащее (blank)-токену, которое является конечным

10H. Xiang, Z. Ou. CRF-based single-stage acoustic modeling with CTC topology // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. 2019. P. 5676-5680.

11 Y. Miao, M. Gowayyed, F. Metze. EESEN: End-to-end speech recognition using deep rnn models and wfst-based decoding // IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE. 2015. P. 167-174.

для (е)-переходов из каждого языкового юнита. У него O(N) дуг (в отличие от 0(N2) у Correct-CTC), и он численно эквивалентен Correct-CTC. Графы декодирования с этой топологией будут давать идентичные результаты Eesen-CTC.

2. Вариант "Minimal-CTC" (Tmjnjmai.fst на рис. 5) имеет только одно (общее) состояние и выполняет только одно нетривиальное преобразование от (blank) к (е), что позволяем получить N дуг для N языковых единиц (по одной на единицу). Этот вариант не позволяет повторение единицы как указание на то, что единица длится несколько временных кадров. Он также не обеспечивает разделения одинаковых последовательных единиц эмиссией (blank)-токена.

3. Вариация "Selfless-CTC" для Correct-CTC, Eesen-CTC и Compact-CTC. Варианты этой вариации могут быть получены из рис. 5, удалив пунктирные дуги. Как и Minimal-CTC, эта вариация не позволяет повторение единицы для указания продолжительности, но одинаковые последовательные единицы должны быть разделены эмиссией (blank)-токена. Графы декодирования с топологией Compact-Selfless будут давать идентичные результаты Minimal-CTC, и модели, обученные с помощью варианта Correct-Selfless, будут совместимы с графами, основанными на Minimal-CTC, при декодировании.

Раздел 3.2.3 представляет экспериментальную оценку предложенных вариантов.

Система ASR имеет следующую конфигурацию:

— Citrinet-384 и Citrinet-1024 с контекстом из 11 кадров, обученные с использованием функций потерь CTC или MMI с CTC-топологией.

— Трехуровневое искажение скорости (0.9, 1.0 и 1.1) перед обучением и применение SpecAugment во время обучения.

— Жадное декодирование или WFST-декодирование с 4-граммной языковой моделью на уровне слов.

Экспериментальная установка выглядит следующим образом:

— Полный корпус LibriSpeech для обучения модели ASR.

— Корпус текстов LibriSpeech для обучения LM.

Основные представленные результаты:

— Размеры графов декодирования (рис. 6):

256 512 1024

Размер словаря [количество частей слов] Рисунок 6 — Сравнение размеров графа декодирования в зависимости от используемой топологии. ТЬО^ построен с корректной топологией, ТеедепЬО^ - с топологией Ееяеп, ТСОШра^ЬО^ - с компактной топологией и

T

minima

1 LG.fst

- с минимальной топологией.

Топология Eesen Teesen .fst порождает графы декодирования большего размера (Teesen LG.fst), чем корректная топология T.fst (TLG.fst), а использование компактной топологии Tcompact.fst приводит к уменьшению размеров графов на 25% (Tcompact LG.fst).

Так как композиция с минимальной топологией Tmjnjmai.fst помещает только (Blank)-петли на состояния графа LG.fst, размеры графов T scaieb0xi.2minimaiLG.fst на 50% меньше размеров аналогичных графов LG.fst. С графами T scaiebox1.2minimaiLG.fst декодирование также ускоряется в 2 раза (без учёта работы ней-росети).

Размеры графов вариации Selfless-CTC (не показаны на рисунке) практически такие же, как и у их базовых вариантов с константным снижением размеров из-за меньшего количества петель на состояниях.

— Производительность предложенных вариантов в обучении и декодировании (таблицы 3 и 4):

— Декодирование с использованием TcompactLG.fst не увеличивает WER по сравнению с TLG.fst.

— Модели Compact-CTC и Correct-Selfless-CTC показывают производительность, близкую к Correct-CTC.

— Увеличение WER из-за несоответствия топологии при использовании TmjnjmaiLG.fst с моделью, обученной на Correct-Selfless-CTC, не превышает 0.2%.

— Влияние размера контекста и словаря (модель Citrinet-384):

— Вариант Correct-Selfless-CTC получает больший прирост точности от увеличения контекста (с 11 кадров до 44) и показывает на 0.2% меньший WER по сравнению с вариантом Correct-CTC.

— Наиболее эффективной с точки зрения использования памяти при MMI-обучении является топология Tminjmaj.fst, которая позволяет увеличить начальный размер пакета в четыре раза, а Tcompact.fst обеспечивает стабильное снижение расхода памяти (до двух раз) по сравнению с T.fst.

Таблица 3 — Функции потерь против методов декодирования. Варианты с петлями на состояниях. Citrinet-1024. WER [%].

Функция потерь Метод декодирования Test clean Test other Dev clean Dev other

CTC (ML) жадный TcompactLG.fst 2.57 2.39 5.87 5.13 2.38 2.12 6.00 4.83

TLG.fst 2.40 5.12 2.12 4.83

жадный 2.36 5.35 2.16 5.55

MMI TcompactLG.fst 2.39 4.89 2.14 4.78

TLG.fst 2.40 4.89 2.14 4.78

MMI compact жадный 2.31 5.32 2.27 5.34

TcompactLG.fst 2.41 4.93 2.22 4.50

TLG.fst 2.43 4.93 2.23 4.55

Таблица 4 — Функции потерь против методов декодирования. Варианты без петель на состояниях (Selfless-CTC). Citrinet-1024. WER [%].

Функция потерь Метод декодирования Test clean Test other Dev clean Dev other

жадный 2.43 5.32 2.22 5.42

MMI TminimalLG.fst 2.53 5.07 2.23 4.76

TLG.fst 2.43 4.91 2.11 4.64

MMI compact жадный TminimalLG.fst 2.64 2.56 6.13 5.33 2.39 2.22 6.22 5.16

MMI minimal жадный TminimalLG.fst 2.71 2.64 6.25 5.36 2.41 2.27 6.53 5.11

Раздел 3.3.1 перечисляет существующие функции потерь RNN-T и их реализации. Как и в случае с CTC, существует множество вариантов RNN-T, направленных на улучшение различных его характеристик или специализирующих его для частных случаев использования. Большинство вариантов RNN-T, а также его исходная версия, реализуются тысячами строк CUDA-или Numba-кода12. Список часто используемых реализаций базовой функции потерь RNN-T и некоторых ее вариантов можно найти в Репозиторий "Transducer Loss Benchmarking"13 содержит популярные реализации базовой функции потерь RNN-T и некоторых ее вариантов. На момент написания работы не существовало реализаций оригинальной функции потерь RNN-T с помощью дифференцируемых WFST (однако, существовали несколько вариантов, ограниченных по выравниванию), не говоря уже о исследовании их производительности.

Раздел 3.3.2 описывает три предложенных метода вычисления RNN-T с использованием WFST-аппарата. Концепция "Epsilon-Transducer" включает в себя эмуляцию функции потерь RNN-T в конвейере формулы 1 посредством интеграции (е)-дуг в £. "Compose-Transducer" реализует RNN-T в соответствии с формулой 2, определяя текстовые Sunn(Y) и временные Sume(Y) WFST-схемы.

12 S. K. Lam, A. Pitrou, S. Seibert Numba: A llvm-based python jit compiler // The Second Workshop on the LLVM Compiler Infrastructure in HPC. Association for Computing Machinery. 2015. P. 1-6.

13https://github.com/csukuangfj/transducer-loss-benchmarking

Наконец, "Grid-Transducer" позволяет обойти стадию построения схем, создавая Шаблонную решетку £} напрямую.

<Ь)/0

Рисунок 7 — Пример £-адаптера (^(е)) представляющей произнесение с двумя языковыми единицами и словаря с четырьмя единицами: (Ь), А, В, and С. (Ь)

означает (blank).

Классическая функция потерь RNN-T требует определения графов Топологии Т и Эмиссий £, которые должна быть сформулированы в соответствии с уравнением 1. Tmjnjma].fst идеально подходит для RNN-T, но, в отличие от CTC, £rnnt не будет тривиальным. Чтобы создать реализацию, независимую от фреймворка, названную "Epsilon-Transducer", £ не должен меняться, поэтому предлагается переформулировать граф выравнивания А следующим образом:

(У) = ®(£)(У) о (Trnnt о у(Y)), (3)

где Т>(^(У) это предложенный (е)-адаптер графа эмиссий RNN-T (см. рис. 7). Этот граф моделирует временные свойства (Ыапк)-меток RNN-T при вычислении функции потерь, не влияя на веса обучающей решетки, значение функции потерь и градиенты. Таким образом, Epsilon-Transducer достигает численной эквивалентности с классическим RNN-T для обучения модели ASR, а также для других задач, таких как принудительное выравнивание. Преимуществом Epsilon-Transducer является простота модификации и расширения. Однако его вычислительная эффективность недостаточна из-за квадратичного роста размера А^е) по отношению к длине U. Этот факт делает вычисление Crnnt как £rnnt о A^nt чрезвычайно вычислительно затратным.

Вариант реализации RNN-T, воплощающий уравнение 2, назван "Compose-Transducer" (см. примеры схем RNN-T на рис. 8). Этот вариант реализации функции потерь RNN-T почти так же гибок и легко модифицируется, как и адаптерный Epsilon-Transducer. Однако он требует на порядок меньше вычислительных ресурсов.

Рисунок 8 — Примеры схем построения решётки для произнесения "A C" длиной 4 кадра и словаря с четырьмя единицами: (Ь), А, В, and С.

a) изображает схему единиц Sunn с индексами языковых единиц согласно пред-

сказаниям модуля Predictor,

b) изображает временную схему Snme с индексами кадров согласно предсказа-

ниям модуля Encoder. Метки на дугах идут в следующем порядке: входная_метка : выходная_метка

/ временной_индекс : языковой_индекс / вес. "-" указывает, что данная метка для этого графа пропущена. (Ь) означает

(blank).

0 <Ь)/-°-24>0 <ЬУ-О-86,0 <Ь)/-0.07^Т^

(Ь>/-0.35

С/-3.35 (Ь>/-0.35

С/-1.86 (Ь>/-0.86

С/-5.13 <Ь}/-0.13

W( 12

С/-4.7

0 (b)/-o.35t0 (bV-O^Q (b)/-o.i3>0

А/-2.17

А/-1.55 <b)/-0.55

А/-3.05 <b>/-0.05

A/-1.33

0 <b)/-°17>0 <b)/-°-55>0 (b)/-°-Q5.0

Рисунок 9 — Пример решётки RNN-T (С) представляющей тензор логарифмических вероятностей для произнесения "A C" длиной 4 кадра и словаря с четырьмя единицами: (Ь), А, В, and С. (Ь) означает (blank).

В свою очередь, реализация "Grid-Transducer" использует факт, что решётка RNN-T имеет прямоугольную структуру (см. рис. 9), для компиляции £} с индексами из обычного тензора, что еще более вычислительно эффективно, чем Compose-Transducer, но прототипирование с Grid-Transducer является значительно более сложным.

Раздел 3.3.3 описывает предложенный вариант функции потерь RNN-T для обучения на слабо размеченных данных под названием "W-Transducer".

Рисунок 10 — Пример обучающей решётки W-Transducer (£) с временными и языковыми индексами для обучающей решётки RNN-T с рис. 9. Соединения с подстановочными токенами представляются в аппарате WFST как переходы (дуги) пропуска кадра (выделены жирным). (Ь) означает (blank).

Обучение ASR-моделей на слабо размеченных данных требует преобразования аудио-последовательности в подпоследовательность целевой последовательности единиц. Функция потерь W-CTC (коннекционистская временная классификация с подстановочными токенами) способна обучать модель на данных с недотранскрибированными началом и концом речи. W-CTC вводит токены-джокеры (подстановочные токены, wild cards): виртуальные символы, которые позволяют пропускать кадры при вычислении функции потерь в нача-

ле и конце аудио, не покрываемые подпоследовательностью целевых языковых единиц.

Функция потерь W-Transducer является предлагаемым расширением концепции W-CTC, применяемой к RNN-T с помощью аппарата WFST. В этой адаптации подстановочные токены рассматриваются как специальные переходы пропуска кадров без соответствующей им транскрипции, представленные дугами (е). Эти дуги не имеют априорного веса, устанавливая связи из начального состояния в любое состояние, предшествующее не-(blank) эмиссиям. Аналогичным образом формируются связи с подстановочными знаками от состояний, следующих за не-(Ыапк) эмиссиями, до предпоследнего состояния (см. рис. 10).

Рисунок 11 — Пример схем построения решётки W-Transducer с временными и языковыми индексами для обучающей решётки RNN-T с рис. 8. Соединения с подстановочными токенами представляются в аппарате WFST как переходы (дуги) пропуска кадра (выделены жирным). (Ь) означает (blank).

W-Transducer был прототипирован на базе Compose-Transducer, а затем был реализован с использованием Grid-Transducer. Для W-Compose-Transducer требуются отдельные подстановочные токены, чтобы различать начало и ко-

нец доступной транскрибированной речи (входные метки (£5) и (ее) на рис. 11, соответственно).

Раздел 3.3.4 представляет экспериментальную оценку предложенных вариантов реализации RNN-T и функцию потерь W-Transducer.

Система ASR для оценки W-Transducer имеет следующие характеристики:

— Conformer-Large (NeMo) с функциями потерь RNN-T или W-Transducer.

— Трехуровневое искажение скорости (0.9, 1.0 и 1.1) перед обучением и применение метода аугментации SpecAugment во время обучения.

— Жадное декодирование.

Экспериментальная установка для экспериментов с W-Transducer выглядит следующим образом:

— Корпус LibriSpeech для обучения моделей ASR.

— Корпус LibriSpeech, в котором из транскрипций случайным образом удаляются слова в начале и конце.

— Тестовый стенд из Transducer Loss Benchmarking и графический процессор NVIDIA V100 для тестирования реализаций WFST-основанного RNN-T.

Основные представленные результаты:

— Предложенные реализации функции потерь RNN-T в сравнении с предыдущими реализациями, не использующими WFST (таблицы 6 и 5):

— Как Compose-Transducer, так и Grid-Transducer потребляют столько же памяти, сколько и предыдущие реализации при одинарной машинной точности (32 бита).

— Использование половинной точности (16-бит) для предложенных реализаций приводит к увеличению скорости вычислений от 40% до 80%. Это усовершенствование делает Compose-Transducer вычислительно конкурентоспособным по отношению к предыдущим реализациям, а Grid-Transducer работает на 30% быстрее, чем Warp-Transducer, реализованный с помощью чистой CUDA.

— Производительность функции потерь W-Transducer (таблица 7):

— Для моделей, обученных с помощью обычной функции потерь RNN-T, точная реконструкция истинной последовательности

Таблица 5 — Сравнение предлагаемых реализаций функции потерь ИКК-Т с внешними реализациями, не основанными на WFST. Экспериментальная установка: несортированная партия.

* служит пометкой о том, что для размещения ЕрзИоп-Тгапэ^сег в памяти графического процессора функция потерь должна рассчитываться итеративно, по одному пакетному элементу за раз. Признанный неэффективным, ЕрэПоп-Тгапэ^сег был исключен из дальнейшего рассмотрения.

Реализация

Машинная точность

Память, Гб Время, мс

Epsilon-Transducer*

Grid-Transducer

полная половинная

Warp-RNNT-Numba (внеш.) полная половинная

Warp-Transducer (внеш.) полная

половинная

Compose-Transducer полная половинная

полная половинная

27.8 83366

не поддерживается

18.6 308

недоступно

18.6 286 недоступно

18.6 514

17.1 350

18.6 17.1

390 231

целевых единиц может быть недостижимой. Рост WER таких моделей связан один к одному с процентом удаленных слов.

— Моделям, обученным с W-Transducer удается сохранить большую часть своей точности даже в случае, когда половина слов отсутствует в целевой текстовке, принося относительное улучшение WER до 83%.

— Тем не менее, производительность моделей W-Transducer немного ухудшается, когда целевая текстовка точна (не пропущено ни одного слова). Они также имеют тенденцию к быстрому переобучению.

Раздел 3.4 представляет выводы по тематическим исследования дифференцируемых WFST в задаче ASR: вариации функций потерь CTC для ускорения обучения и декодирования, реализациях функции потерь RNN-T с

Таблица 6 — Сравнение предлагаемых реализаций функции потерь RNN-T Compose-Transducer и Grid-Transducer с внешними реализациями, не основанными на WFST. Экспериментальная установка: сортированная партия.

Реализация

Машинная точность

Память, Гб Время, мс

Warp-RNNT-Numba (внеш.) полная половинная 12.8 240 недоступно

Warp-Transducer (внеш.) полная половинная 12.8 228 недоступно

Compose-Transducer полная половинная 12.8 474 11.8 345

Grid-Transducer полная половинная 12.8 300 11.8 167

Таблица 7 — Сравнение оригинального RNN-T с W-Transducer в смоделированных условиях слабо размеченных данных. Первая колонка показывает, какой процент слов был удален из транскрипций каждого высказывания базы данных LibriSpeech-960 суммарно с начала и конца (соотношение начало-конец случайно). Валидационные множества не подвергались удалению слов. WER [%].

% слов удалено Функция потерь Test clean Test other Dev clean Dev other

0% RNN-T W-Transducer 2.9 6.6 2.7 6.6 3.2 7.4 3.0 7.1

20% RNN-T W-Transducer 25.3 28.2 25.0 27.9 4.1 9.0 3.8 8.8

50% RNN-T W-Transducer 55.0 56.9 54.6 56.5 4.1 9.4 4.0 9.0

помощью дифференцируемых WFST и вариант RNN-T для обучения на слабо-размеченных данных; а также обсуждение возможных будущих исследований в этом направлении.

По новым вариациям CTC для ускорения обучения и декодирования в ASR представлены следующие выводы:

— Топологию варианта Compact-CTC следует использовать для WFST-декодирования вместо корректного T.fst.

— Для наиболее вычислительно эффективного декодирования с помощью WFST следует строить графы декодирования с использованием Tminimal.fst и обучать модели ASR с помощью Correct-Selfless-CTC.

— Для моделей ASR с длинными контекстами следует использовать обучение с помощью Correct-Selfless-CTC для достижения лучшего значения WER.

В целом, изменение правил функции потерь может быть полезным во многих аспектах, и использование WFST может помочь делать это просто и эффективно.

По новым реализациям функции потерь RNN-T с помощью дифференцируемых WFST и варианте W-Transducer представлены следующие выводы:

— WFST-представление на основе схем для разработки функций потерь семейства максимального правдоподобия в ASR может быть лучше, чем приведённое в формуле 1, поскольку оно является таким же универсальным но более вычислительно эффективным.

— Функция потерь W-Transducer, хотя и эффективна в определенных случаях, недостаточна для обучения на слабо-размеченных данных в общем случае, поскольку она не может обрабатывать отсутствующие языковые единицы в середине речи и не является устойчивой к переобучению.

Автор диссертации считает, что дифференцируемые WFST для ASR и других речевых задач являются перспективной областью исследования. Вот несколько примеров перспективных исследований:

— Функция потерь MMI (с топологией CTC):

— Разработать неавторегрессионный (параллельный во времени) алгоритм для жадного декодирования (что, как ожидается, позволит моделям MMI иметь почти такую же скорость жадного декодирования, как у моделей CTC).

— Функция потерь RNN-T:

— RNN-T для общего случая слабо-размеченных данных (например, адаптация Star Temporal Classification).

— Вспомогательные функции потерь для RNN-T: MWER и uMBR для жадного декодирования.

— RNN-T для обучения на вариативных транскрипциях (например, несколько вариантов для сложных для ручной транскрипции слов).

— Задачи TN-ITN:

— Дифференцируемый магазинный автомат (Push-Down Transducer, PDT) и и метод структурного обучения WFST и PDT (например, с помощью обучения на основе популяци-онных алгоритмов). Это позволит строить (обучать) графы TN-ITN не имея параллельных данных.

— Общее машинное обучение:

— Дифференцируемые WFST можно использовать для формализации и обобщения автоматического машинного обучения (Automated machine learning, AutoML), поскольку конечный автомат может (теоретически) охватить каждую существующую архитектуру нейронных сетей на некотором высоком уровне.

— Исследование взаимозаменяемости WFST с графовыми нейронными сетями (Graph Neural Networks, GNN) для нешения задач обработки речи.

Глава 4 представляет методы оценки достоверности ASR на основе энтропии. Раздел 4.1 объясняет оценку достоверности в задаче ASR и демонстрирует методы на основе энтропии; Раздел 4.2 представляет тематическое исследование по контролю ансамбля ASR систем при декодировании на основе оценки достоверности; а Раздел 4.3 содержит выводы и обсуждение будущих исследований.

Раздел 4.1.1 описывает существующие методы оценки достоверности ASR. Базовым методом для оценки достоверности в современном E2E ASR является использование вероятности наиболее вероятного предсказания в каче-

стве меры достоверности. Онеата и др.14 предложили варьировать температуру лог-вероятностей, отсев (dropout) и ансамбли моделей для улучшения метрик качества оценки достоверности. Авторы также попытались использовать энтропию в качестве меры достоверности, но безуспешно. Другая ветвь развития методов оценки достоверности использует отдельные обучаемые модули достоверности, например, на основе нейронных сетей, которые обеспечивают более надежную оценку достоверности, но вносят значительные вычислительные накладные расходы.

Раздел 4.1.2 описывает предложенные методы оценки достоверности. Разработка методов велась в соответствии со строгими требованиями к производительности за время O(N) и применимости к любой сквозной модели ASR. В соответствии с этим, работоспособность предложенных методов доказана только для жадного декодирования. Автор диссертации определяет оценку достоверности для распознанной единицы и как отображение F : р(.) ^ [0,1]. Таким образом, каждый метод оценки должен быть нормализован (отображен) на сегмент [0,1]. Применяя это требование к вероятности наиболее вероятного предсказания, можно получить меру достоверности "максимальной вероятности" (названную Fmax(p)):

maxpv — min maxp* maxpv — 1/V

F (0) - v€V_p* veV_- ^_ (4)

1 max(F) * • * 11/лг , V /

max max р* — min max p* 1 — 1/V

p* veV p* veV

где pv - это вероятность токена v из словаря V размером V. Аналогично, энтропия Гиббса может быть линейно нормализована следующим образом (названа мерой достоверности Гиббса Fg(р)):

Fg(р) - 1 — Hg{^( ) -1 + ^ЕPv \n(pv) (5)

maxHg(p) In V —'

Идея масштабирования температуры (как средства снижения чрезмерной уверенности) может быть применена к мерам достоверности на основе энтропии, но более удобным способом (после применения лог-софтмакса). Автор диссертации вводит параметр а в гиббсову энтропию следующим образом:

нд(а){р) = р°а мк) = р°а ЫРу ) (б)

14D. Oneafa, A. Caranica, A. Stan, and H. Cucu. An evaluation of word-level confidence estimation for end-to-end automatic speech recognition // The 2021 IEEE Spoken Language Technology Workshop (SLT). IEEE. 2021. P. 258-265.

Можно заметить, что Нд(а)(р) перестает быть энтропией при определенных значениях а (максимум энтропии может не находиться в точке, где все вероятности равны). Автор диссертации формулирует и доказывает следующую теорему:

Теорема 1. Функционал Нд(а)(р) = — Е log(p%) = — а Е р%1og(pv) на множестве р,ь ^ 0, Е = 1, и п > 2, достигает максимального значения р,ь = -«еУ П

для значений а в следующем промежутке:

1п п + 2 — у7 (1п п)2 + 4 1 + 1п(п — 1)

21п п ^ 1п(п — 1)

Следовательно, параметрическая энтропия Нд(а)(р) не является хорошим кандидатом для оценки достоверности и поэтому не подвергалась экспериментальной оценке. К счастью, существуют энтропии, которые естественным образом включают а, а именно, энтропия Цаллиса15 и энтропия Реньи16. Соответствующие линейно нормализованные меры достоверности выглядят следующим образом:

V1—а — Е К

Ъ <а)(Р) = у! — а^ , (7)

и

logy ^ pVV)

= . (8) Cv 1

Приведенная выше нормализация верна, поскольку max Ht s (р) и max Hr (р) известны Va. Автор диссертации формулирует и доказывает следующие две теоремы:

1-Е К

Теорема 2. The function Hts(a)(p) = ^ on the set pi ^ 0, E Pv = 1 and

vev

n> 2, Va reaches the maximum value at pi = -.

iog2(£ к)

Теорема 3. The function Hr(a)(p) =-^- on the set pi ^ 0, E PV = 1 and

vev

n > 2, for a > 0 reaches the maximum value at pi = -.

15 C. Tsallis. Possible generalization of Boltzmann-Gibbs statistics // Journal of statistical physics 52. Springer. 1988. P. 479-487.

16A. Renyi. On measures of entropy and information // The fourth Berkeley symposium on mathematical statistics and probability. University of California Press. 1961. P. 547-561.

Для дальнейшего снижения чрезмерной уверенности предлагается другая формула нормализации, названная экспоненциальной нормализацией:

е-Н(p) _ е-max Я(р)

Fе (р) =-——, (9)

УЛ ' 1 _ е-max Я(р) ' v '

а соответствующие меры достоверности Реньи, Цаллиса и Гиббса выглядят следующим образом:

! ( Е vi)

1

log2 I E Pv ) ,ra\ a-1

veV

2—1-a— - 2-^ ПЕР!)-1 -1 f;» ——i-^nos,—— "V -! , (1°)

1 v

1 pv -I „ 1 <-\r1 — a v^ „a\

veV 1-y1-a 1-a(V - £ Pv) .

g a-1 — g a-1 g veV — 1

Fts(tx)(P) — 1-V 1-a — (V1-«- 1) 1 ' (11)

1 - e —e 1-a(V 1) - 1

J2 Pv ln(Pv) wm (Z Pv ln(Pv))

PveV _ p-ln(V) V • P veV _ 1

FW = 1 _6-,n(v) =-v-1-' (12)

a E Pva ,n(Pv ) aV 1-a ,nV a £ Pva ,n(Pv) aV 1-a ß veV _ e- 6 veV _ V-

Fg(tx)(P) — e-aV1-aInV — 1 _ V-aV1-a ' (13)

Пусть g(u) будет агрегатором достоверности для языковой единицы и, а g(w) - агрегатором достоверности на словном уровне. q(u) агрегирует меры достоверности на временных интервалах, относящихся к одной и той же единице и. Аналогично,

q(w) — agg q(ui) (14)

Ui &V

Автор диссертации рассматривает три функции для агрегирования прогнозов: произведение ("prod"), минимум ("min") и арифметическое среднее ("mean"). Было решено удалить из агрегаций (Вlanк), так как они несут скрытую информацию о языковых единицах, существующих в целевом высказывании, но не распознаваемых. Модели RNN-T не требуют агрегирования кадров в языковую единицу, поэтому q(u) — F(ри). В случае моделей CTC одну и ту же функцию агрегирования можно применять как к ( и), так и к ( w), чтобы упростить экспериментальную установку.

Мера достоверности на каждом кадре, в сочетании с агрегатором, формирует метод оценки достоверности (например, Ц Fmax(р), mean F^s^1/2)(p)).

Раздел 4.1.3 представляет экспериментальную оценку предложенных методов оценки достоверности.

Система ASR имеет следующую конфигурацию:

— Предварительно обученные модели Conformer-Large (NeMo) с функциями потерь CTC и RNN-T (Conformer-CTC и Conformer-Transducer соответственно).

Экспериментальная настройка выглядит следующим образом:

— Наборы тестовых данных LibriSpeech dev и test.

— Набор шумовых данных, созданный на основе базы данных Freesound17 и корпуса MUSAN18.

Рисунок 12 — Гистограммы суммарного количества неправильно (нижние столбцы) и правильно (верхние столбцы) распознанных слов в зависимости от их словной оценки достоверности. Логарифмическая шкала, слолбцы расположены друг на друге. Мера достоверности: максимальная вероятность (Fmax(р)). Функции агрегирования: product (произведение), minimum (минимум), и mean (среднее). Модели: CTC и RNN-T. Тестовый набор: LibriSpeech test-other.

Метрики оценки достоверности выглядят следующим образом: — Стандартные:

17F. Font, G. Roma, X. Serra. Freesound technical demo // The 21st ACM international conference on Multimedia. Association for Computing Machinery. 2013. P. 411-412.

18D. Snyder, G. Chen, D. Povey. Musan: A music, speech, and noise corpus // arXiv:1510.08484. Cornell University. 2015. P. 1-4.

— (основные) AUCroc, AUCpr и AUCNT.

— (дополнительные) NCE и ECE.

— Предложенные:

— Метрика снижения галлюцинаций TNR.05, измеренная как TNR(y,x) : FNR(X,x) « 0.05, где X и Y - непересекающиеся наборы данных.

— Метрики на основе кривой Юдена19 (или J-статистика Юдена) для оценки настраиваемости (отзывчивости) метода оценки достоверности: STATyc = STAT(TNR(t) - FNR(t)), где YC -

TG [0,1]

кривая Юдена, TNR(t) и FNR(t) - доли истинных отрицательных и ложных отрицательных результатов при заданном пороге T, а STAT - одна из следующих статистик:

* (дополнительная) Стандартное отклонение: STDyc G [0,1/2] с лучшим значением 1/4. Оно являет собой разницу между темпами роста TNR и FNR по отношению к т. Эта статистика также показывает неполный охват спектра достоверности, если выполняется следующее неравенство: AUCyc < STDYC.

* (дополнительная) Максимум: MAXyc G [0,1] с лучшим значением 1. Он представляет собой оптимальное соотношение между TNR и FNR и может использоваться в качестве критерия для выбора оптимального порога т.

* (основная) Площадь под кривой: AUCyc G [0,1] с лучшим значением 1/2. Она показывает настраиваемость метода доверительной оценки. Эта метрика принимается основной для YC.

Было обнаружено, что установка а =1/3 является хорошим компромиссом для всех метрик.

Основные представленные результаты:

— Распределения оценок достоверности (рисунки 12 и 13):

— Использование меры достоверности максимальной вероятности как для прогнозов моделей CTC, так и RNN-T, приводит к

19 W. J. Youden. Index for rating diagnostic tests // Cancer 1. American Cancer Society. 1950. P. 32-35.

Рисунок 13 — Гистограммы суммарного количества неправильно (нижние столбцы) и правильно (верхние столбцы) распознанных слов в зависимости от их словной оценки достоверности. Логарифмическая шкала, слолбцы расположены друг на друге. Меры достоверности: Энтропия Гиббса с экспоненциальной нормализацией (Fg (р)) и Энтропия Тсаллиса с а = 0.33 и экспоненциальной нормализацией (р)). Функции агрегирования: product (произведение),

minimum (минимум), и mean (среднее). Модели: CTC и RNN-T. Тестовый набор: LibriSpeech test-other.

неполному охвату спектра достоверности. Этот подход не позволяет эффективно разделять распределения правильных и неправильных прогнозов.

— а-энтропии в качестве меры достоверности увеличивают разде-ляемость прогнозов, сдвигая распределение неправильных слов от правильных и одновременно снижая влияние чрезмерной уверенности.

— Экспоненциальная нормализация позволяет полностью охватить спектр достоверности для функций агрегирования среднее и минимум.

— Метрики достоверности (таблицы 8 и 9):

— Предложенные методы позволяют моделям RNN-T отфильтровывать до 40% генерируемых моделью галлюцинаций в шумовых данных, ошибочно отбрасывая не более 5% правильных слов в нормальных акустических условиях. Это ставит модели RNN-T в один ряд с моделями CTC с точки зрения качества получаемых оценок достоверности.

— Метод, основанный на энтропии Тсаллиса min F^/^p), явно превосходит метод, основанный на энтропии Гиббса Ц Fjj(p) с точки зрения пригодности для классификации предсказаний (AUCroc)). В частности, метод, основанный на энтропии Тсаллиса, в 1.5-2 раза более чувствителен (AUCYC) и в 1.5-4 раза лучше определяет неправильно распознанные слова (AUCnt).

— Другие наблюдения:

— Качество достоверности не зависит от типа модели ASR, а зависит от оценщика и WER на тестовом наборе данных.

— Меры достоверности на основе энтропии работают лучше с экспоненциальной нормализацией, чем с линейной.

— Энтропия Реньи дает немного более слабое разделение, чем энтропия Цаллиса.

— Об оптимальном значении а:

* а =1/2: вероятности слабо сглажены. Может быть недостаточно для достижения эффективных возможностей классификации и точного разделения правильных и неправильных распределений. Рекомендуется к использованию, если показатели достоверности используются для демонстрации конечному пользователю.

* а =1/4: вероятности чрезмерно сглажены. Рекомендуется к использованию, если показатели достоверности используются для классификации.

* а =1/3: Компромисс между вышеперечисленным.

Раздел 4.2.1 описывает существующие методы управления ансамблем

систем ASR на основе достоверности при декодировании.

На данный момент существуют примеры использования оценок достоверности для управления ансамблем ASR. Исследования начались с простого выбора модели на основе достоверности для ASR систем на основе DNN-HMM.

Таблица 8 — Оценка предлагаемых методов оценки достоверности по формальным метрикам. Показатели качества достоверности (в %): AUCnt, AUCyc, AUCroc, AUCpr и TNR.05. Методы оценки достоверности: П F®(p), П Fmax(р), min F^/^p) и meanFtes(1/3)(p). Модель: CTC. Тестовые наборы данных: LibriSpeech test-other, test-clean и набор данных noise.

Тест. набор LibriSpeech test-other LibriSpeech test-clean шум

Метод NT YC ROC PR NT YC ROC PR TNR.05

Y\Feg(p) ГТ Fmax(P) minFtes(1/3)(P) meanFtes(1/3)(P) 37.46 34.60 85.44 98.85 32.41 23.01 84.66 98.79 47.01 45.86 88.04 99.04 45.18 37.36 90.34 99.21 18.95 28.97 82.70 99.37 14.60 19.18 82.15 99.36 30.82 38.11 84.63 99.43 36.50 25.94 88.56 99.55 40.49 36.79 37.72 33.39

Таблица 9 — Оценка предлагаемых методов оценки достоверности по формальным метрикам. Показатели качества достоверности (в %): AUCnt, AUCyc, AUCroc, AUCpr и TNR.05. Методы оценки достоверности: П Fgj(p),H Fmax(р), minF^s^1/3)(p) и meanFtes(1/3)(p). Модель: RNN-T. Тестовые наборы данных: LibriSpeech test-other, test-clean и набор данных noise.

Тест. набор LibriSpeech test-other LibriSpeech test-clean шум

Метод NT YC ROC PR NT YC ROC PR TNR.05

Y\Feg(p) ГТ Fmax(P) minFtes(1/3)(P) meanFtes(1/3)(P) 27.70 26.80 78.16 98.37 21.28 19.60 75.48 98.21 47.17 30.71 85.85 98.90 32.61 23.55 79.52 98.47 13.07 23.04 74.85 99.12 08.70 15.80 72.00 99.04 37.49 25.13 81.67 99.34 19.86 16.27 72.50 99.07 20.99 17.82 38.58 32.44

Ванг и др.20 использовали достоверность наряду с акустическими и языковыми оценками и использовали обучаемую нейронную сеть для управления выбором конечной модели. Однако до сих пор не было научных исследований, демонстрирующих использование достоверности для управления выводом нескольких Е2Е А8Я моделей.

Раздел 4.2.2 представляет предложенный метод управления ансамблем А8Я на основе энтропийной достоверности при декодировании.

Рисунок 14 — Схематическое изображение ансамбля А8Я систем на основе оценки достоверности. Все модели обрабатывают одни и те же входные аудиоданные, работая параллельно, и генерируют как результирующий текст, так и соответствующие оценки достоверности. Для определения оптимальной модели для рассматриваемых входных данных в систему вводится блок выбора модели. Этот компонент использует логистическую регрессию, отображая показатели достоверности в индекс модели с наиболее достоверным предсказанием.

Общая структура предлагаемого метода управления ансамблем на основе достоверности представлена на рис. 14. Блок "выбор модели" может работать с любыми формами представления значений достоверности: одиночное значение, значения на каждом кадре (требуется, чтобы все модели порождали одинаковое количество финальных временных кадров) и т. д. Было решено агрегировать достоверность на уровне высказывания (одиночное значение) и использовать

20S. Wang, L. Wan, Y. Yu, I. L. Moreno. Signal combination for language identification // arXiv:1510.08484. Cornell University. 2019. P. 1-5.

логистическую регрессию (LR) для предсказания соответствующего индекса модели, обучив его на нескольких (< 100) аудиозаписях.

Раздел 4.2.3 демонстрирует экспериментальную оценку предложенного метода.

Система ASR имеет следующую структуру:

— Предварительно обученные модели Conformer-Large (NeMo) с функциями потерь CTC и RNN-T (Conformer-CTC и Conformer-Transducer соответственно).

— Количество моделей в ансамбле: равно количеству языков (диалектов) в наборе данных.

Экспериментальная установка выглядит следующим образом:

— Наборы данных для обучения:

- Mozilla Common Voice (MCV)21,

- Multilingual LibriSpeech (MLS)22,

- VoxPopuli23.

— Тестовые наборы данных:

- CORAAL (корпус регионального афроамериканского языка)24,

- SLR83 (многоязычный корпус английских акцентов на Британских островах)25.

Общие показатели производительности системы следующие:

— WER.

— Точность идентификации языка (Language Identification, LID).

21R. Ardila, M. Branson, K. Davis, M. Kohler, J. Meyer, M. Henretty, R. Morais, L. Saunders, F. Tyers, G. Weber. Common voice: A massively-multilingual speech corpus // The 12th Language Resources and Evaluation Conference (LREC). European Language Resources Association. 2020. P. 4218-4222.

22 V. Pratap, Q. Xu, A. Sriram, G. Synnaeve, R. Collobert. MLS: A large-scale multilingual dataset for speech research // 21st INTERSPEECH Conference. ISCA Speech. 2020. P. 2757-2761.

23C. Wang, M. Riviere, A. Lee, A. Wu, C. Talnikar, D. Haziza, M. Williamson, J. Pino, and E. Dupoux. Voxpopuli: A large-scale multilingual speech corpus for representation learning, semi-supervised learning and interpretation // Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Association for Computational Linguistics. 2021. P. 993-1003.

24 T. Kendall, C. Farrington. The Corpus of Regional African American Language // The Online Resources for African American Language Project. Online. 2021. P. 1-1.

251. Demirsahin, O. Kjartansson, A. Gutkin, C. Rivera. Open-source multi-speaker corpora of the English accents in the British Isles // The 12th Language Resources and Evaluation Conference (LREC). European Language Resources Association. 2020. P. 6532-6541.

— Усреднённая точность LID (Amean). Преимущество Amean в том, что такая метрика нечувствительна к дисбалансу меток языка.

Таблица 10 — Оценка предлагаемых методов оценки достоверности для задачи управления ансамблем моделей ASR. Рассматриваемые методы оценки достоверности: " верхняя граница" - это то качество, которое может быть достигнуто для каждого набора данных (отдельно), если все параметры метода достоверности подобраны для максимальной точности на этом наборе данных. " энтропия" обозначает параметры энтропийной достоверности, подобранные для наилучшего общего качества: энтропия Реньи с а = 0.25 и линейной нормализацией, (blank)-кадры исключаются, а агрегирование это mean. "макс-вер" обозначает параметры метода максимума вероятности, подобранные для наилучшего общего качества: (blank)-кадры используются и агрегирование это product. Тестовые наборы данных: CORAAL, SLR83 и "5 языков" (объединяют тестовые наборы данных VoxPopuli, MCV и MLS). Для последних двух наборов данных указаны

среднее и стандартное отклонение для всех наборов данных. Метрика: Aavg в %.

Модель Метод CORAAL SLR83 5 языков

верхняя граница 95.31 93.60 / 1.88 99.39 / 0.32

RNN-T энтропия 94.13 81.85 / 4.73 99.13 / 0.44

макс-вер 88.00 75.32 / 4.35 98.18 / 0.77

верхняя граница 93.31 90.37 / 4.35 99.48 / 0.37

CTC энтропия 91.39 77.08 / 5.23 99.37 / 0.39

макс-вер 84.89 57.84 / 4.53 98.76 / 0.82

Основные представленные результаты: — Общая производительность (Таблица 10):

— Предложенные методы достоверности на основе энтропии показали более высокую точность, чем метод максимальной вероятности на каждом наборе тестовых данных.

26A. Babu, C. Wang, A. Tjandra, K. Lakhotia, Q. Xu, N. Goyal, K. Singh, P. von Platen, Y. Saraf, J. Pino, A. Baevski, A. Conneau, M. Auli. XLS-R: self-supervised cross-lingual speech representation learning at scale // 23rd INTERSPEECH Conference. ISCA Speech. 2022. P. 2278-2282.

27B. Desplanques, J. Thienpondt, K. Demuynck. ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification // 21st INTERSPEECH Conference. ISCA Speech. 2020. P. 3830-3834.

Таблица 11 — Сравнение предлагаемого метода оценки достоверности (entropy как в таблице 10) с методами, не использующими оценку достоверности. Метрики: WER и точность LID. Модель: RNN-T. Тестовые наборы данных: VoxPopuli, MCV и MLS (усреднённые результаты для всех языков).

Метрика Модель LID VoxPopuli MCV MLS

WER оракул 9.44 6.05 5.89

энтропия XLS-R26 ECAPA-TDNN-CE27 9.57 10.53 11.26 6.24 7.23 9.44 6.04 6.78 6.90

энтропия 98.76 98.82 99.69

Точность LID ECAPA-TDNN-CE 96.29 94.42 98.41

XLS-R 97.63 97.47 98.69

— Предложенные методы не требуют настройки гиперпараметров достоверности для конкретного набора данных, поскольку существуют параметры, с которыми методы показывают производительность близкую к верхней границе для каждого набора данных.

— Сравнение с другими системами (Таблица 11): Методы управления ансамблем на основе энтропийной достоверности могут давать более точные предсказания идентификатора языка, чем подходы на основе нейронных сетей.

— Другие результаты:

— В задаче адаптации к целевой предметной области предложенный метод обеспечивает значительно более низкий WER, чем подход дообучения и метод ограниченной адаптации как на целевых областях, так и на исходном области.

Раздел 4.4 представляет выводы по предложенным методам оценки достоверности ASR на основе энтропии и методе управления ансамблем моделей ASR на основе энтропийной достоверности при декодировании; а также обсуждение возможных будущих исследований в этом направлении.

По предложенным методам оценки достоверности ASR на основе энтропии представлены следующие выводы:

— Предложенные методы оценки достоверности на основе энтропии демонстрируют лучшие результаты (по формальным метрикам), чем методы максимальной вероятности, при той же вычислительном сложности.

— Тем не менее, их оценки достоверности хуже, чем у обучаемых оценщиков. Поэтому методы на основе энтропии рекомендуются для приложений, критичных к скорости вычисления.

— Предложенные методы также рекомендуются для снижения галлюцинаций иситемы ЛБИ, на зашумленном входе.

По предложенному методу управления ансамблем моделей ЛБИ, на основе энтропийной достоверности представлены следующие выводы:

— Метод управления ансамблем моделей Е2Е ЛБИ, на основе энтропийной достоверности может обеспечить БОТЛ-результаты для задач идентификации языка и распознавания речи, которые значительно превосходят результаты конкурирующих решений.

— Основным ограничением предложенного метода является его высокая задержка выдачи результата (^ 5).

— Применимость предложенного метода на основе энтропийной достоверности потенциально выходит за рамки задач, связанных с речью, поскольку он позволяет комбинировать модели-экспертов совершенно разной природы, лишь требуя, чтобы выходные данные соответствовали одному и тому же формату. Другими словами, в одном ансамбле могут быть модели, обученные на совершенно разных типах данных и построенные не только на нейронных сетях, но и на WFST, решающих деревьях и т. д.

Автор диссертации предлагает несколько возможных будущих исследований в области оценки достоверности ЛБЯ:

— Оценка достоверности для удалений: извлечение оценки достоверности непредсказанных языковых единиц из ( Ь 1апк)-кадров.

— Адаптация метода оценки достоверности на основе энтропии к декодированию с использованием поиска с лучом (например, с использованием условной энтропии).

— Применение других функционалов (помимо энтропии) и продвинутых функций агрегирования для оценки достоверности.

Заключение подчеркивает основные результаты диссертационной работы, которые заключаются в следующем:

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.