Робастное распознавание речи для низко-ресурсных языков тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Романенко Алексей Николаевич

  • Романенко Алексей Николаевич
  • кандидат науккандидат наук
  • 2020, ФГАОУ ВО «Национальный исследовательский университет ИТМО»
  • Специальность ВАК РФ05.13.11
  • Количество страниц 314
Романенко Алексей Николаевич. Робастное распознавание речи для низко-ресурсных языков: дис. кандидат наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. ФГАОУ ВО «Национальный исследовательский университет ИТМО». 2020. 314 с.

Оглавление диссертации кандидат наук Романенко Алексей Николаевич

Contents

Реферат

Synopsis

1 Introduction

1.1 Current State of Speech Recognition

1.2 Speech Recognition for Low-Resource Languages

1.3 Thesis contribution

1.4 Outline

2 Background

2.1 Structure of modern ASR system

2.2 Signal processing and feature extraction

2.3 Acoustic Modelling

2.3.1 Acoustic Model Based on GMM-HMM Structure

2.3.2 Acoustic Model Based on Artificial Neural Networks

2.2.3 DNN-HMM Acoustic Model

2.3.4 Sequence-Discriminative Training of DNN-HMM Acoustic Model

2.3.5 Recurrent Neural Network for Acoustic Modelling

2.3.6 Error Backpropagation Through Time

2.3.7 Deep Recurrent Networks

2.3.8 Bidirectional Recurrent Networks

2.3.9 Acoustic models based on RNN

2.4 Language Modelling

2.5 Decoding

2.6 Summary

3 Related works

3.1 Feature Engineering

3.2 Acoustic Models

3.3 Language models

3.4 Auxiliary Techniques

3.5 Summary

4 Novel Approaches and Universal Methodology

4.1 Selection of Basic Acoustic Features

4.2 Acoustic Modelling

4.2.1 Initial GMM-HMM Models Training Pipeline

4.2.2 Multi-Language Speaker-Dependent Bottleneck Extractors Training

4.2.3 Final GMM-HMM Models Training

4.2.4 DNN-HMM Acoustic Models

4.2.5 Acoustic features combination

4.2.6 Audio augmentation techniques

4.2.7 Combination for acoustic modelling

4.3 Language Modelling

4.3.1 N-gram Based Language Model Training

4.3.2 Addition of web-text data

4.3.3 Generating new text data

4.3.4 Neural Network Based Language Model Training

4.4 Summary

5 Data and tools

5.1 Rationale for the choice of language sets

5.2 Closed dataset

5.3 Open datasets

5.4 Third-Party Tools

5.4.1 The Kaldi Speech Recognition Toolkit

5.4.3 The char-rnn tool

5.4.4 The SRI Language Modeling Toolkit

5.4.5 The RNNLM Toolkit

5.5 Summary

6 Evaluation

6.1 Acoustic Modeling

6.1.1 Initial GMM-HMM Acoustic Models Training

6.1.2 Features Selection for GMM-HMM Acoustic Models

6.1.3 Multilingual Bottleneck Features

6.1.4 Features Combination for NN Acoustic Models

6.1.5 Audio Data Augmentation

6.1.6 Sequence Training of NN Acoustic Models

6.2 Language modelling

6.3 Composition of the Final ASR System

6.4 Combination of Models and Comparison with State-of-the-Art Results

6.5 Summary

7 Conclusion and Future Directions

7.1 Summary

7.2 Thesis Contributions

7.2.1 Theoretical

7.2.2 Practical

7.2.3 Experimental

7.3 Future Directions

References

Appendix

A - Acoustic Modelling

B - Language Modelling

C - Final Models

D - Combination of Models and Comparison with State-of-the-Art Results

List of Figures

List of Tables

List of Own Publications

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Робастное распознавание речи для низко-ресурсных языков»

Реферат

Общая характеристика работы

Актуальность темы исследования. В современном мире процесс взаимодействия человека и машины является неотъемлемой частью жизни. Различные интерфейсы такого взаимодействия имеют своей целью облегчение этого процесса и обеспечение большего комфорта для пользователей. Именно по этим причинам длинный путь эволюции таких интерфейсов привёл к тому, что сегодня человек способен управлять машиной не только при помощи механических переключателей и манипуляторов, но и при помощи жестов, речи и даже мозговых импульсов. Речевой человеко-машинный интерфейс является наиболее универсальным, так как может быть использован в огромном количестве систем, будь то оснащение умного дома, система оценки удовлетворенности в центре обслуживания клиентов, система языкового обучения и многие другие. Кроме того, речевой человеко-машинный интерфейс совершенно естественен, так как речь является основным способом взаимодействия между людьми. На сегодняшний день речевые человеко-машинные интерфейсы могут включать в себя множество сложных компонентов, реализующих ту или иную логику при взаимодействии с пользователем. Однако ключевым элементом таких интерфейсов является система автоматического распознавания речи.

Современный уровень развития технологий автоматического распознавания речи позволяет достигать высоких показателей точности, сравнимых с человеческими возможностями, а для некоторых случаев и превосходящих их. Но для ряда применений, даже современные технологии не позволяют обеспечить высокую точность распознавания. Примером этому может служить распознавание разговорной спонтанной речи. Характерными особенностями такого типа речи являются:

• значительное колебание темпа речи в процессе общения;

• возможная вариативность эмоционального окраса;

• неограниченность тематик разговора, что оказывает прямое влияние на количество используемых слов и словоформ;

• хезитации: паузы, нелексические вставные звуки, замены слов, повторы, заикания, незавершенные слова и предложения, слова-паразиты;

• акцентная речь.

Все эти особенности обуславливают тот факт, что задачи, связанные с разговорной спонтанной речью, являются наиболее сложными в области автоматического распознавания. В то же время такой тип речи является естественным для человека.

Широкое применение системы автоматического распознавания разговорной спонтанной речи получили в контакт-центрах. Там такие системы используются для контроля качества работы операторов и определения удовлетворенности клиентов. Однако специфика телефонного канала значительно усложняет задачу распознавания, так как в звуковом потоке появляются аддитивные шумы и различные искажения, связанные с качеством соединения. Кроме того, речевой сигнал искажается в процессе кодирования и ограничения полосы пропускания диапазоном частот от 0 до 3800-4000 Гц.

Необходимым условием достижения высоких показателей точности работы для системы автоматического распознавания речи является наличие значительного объема речевых обучающих данных - аудиозаписей, сопровожденных текстовыми расшифровками. Сбор и обработка таких данных являются сложной и затратной задачей, особенно если речь идет об аудиозаписях телефонных переговоров. При наличии значительных объемов таких данных задача автоматического распознавания разговорной спонтанной речи в телефонном канале может решаться весьма успешно. Однако такие объемы доступны, в основном, для высокоресурсных языков, таких как английский, испанский, немецкий, китайский и французский. Однако огромное количество языков, число носителей которых исчисляется десятками и даже сотнями миллионов, относится к низкоресурсным, так как для них не существует обучающих данных необходимых объемов. Следовательно, отсутствуют и системы автоматического распознавания речи, способные обеспечить высокий уровень точности. Таким образом, автоматическое

распознавание разговорной спонтанной речи в телефонном канале для низкоресурсных языков является крайне актуальной задачей.

Кроме того, значительное число докладов, ежегодно представляемых на международных конференциях, таких как ASRU, SPECOM, Interspeech и ICASSP, посвящены тематике распознавания речи для низкоресурсных языков. Данный факт служит дополнительным подтверждением актуальности темы исследования.

Степень разработанности темы исследования. Огромное количество разговорных языков по всему миру вкупе с повсеместным распространением технологий дало значительный импульс исследованиям, посвященным автоматическому распознаванию разговорной спонтанной речи в низкоресурсных условиях. В первую очередь к таким условиям можно отнести работу с различными низкоресурсными языками. Наиболее значимые работы в этой области принадлежат ученым из Университета Карнеги Меллон (Florian Metze, Alexander Waibel, Alan Black и др.), технологического института Карлсруэ (Sebastian Stüker, Markus Müller и др.), Рейнско-Вестфальского технического университета г. Ахена (Herman Ney, Ralf Schlüter, Pavel Golik), Бременского университета (Tanja Schultz и др.), Брненского технического университета (Martin Karafiat, Karel Vesely, Jan Cernocky, Frantisek Grézl и др.), университета Аалто (Mikko Kurimo и др.), Таллиннского Технологического Университета (Tanel Alumäe и др.), Кембриджского университета (Mark Gales, Kate Knill, Anton Ragni, и др.), Университета Джонса Хопкинса (Hynek Hermansky, Daniel Povey и др.), IBM (Zoltán Tüske, Raul Fernandez, Bhuvana Ramabhadran, George Saon, Hagen Soltau, Tara N. Sainath, Brian Kingsbury и др.), Google (Georg Heigold, Andrew Senior, Patrick Nguyen, Jeffrey Dean и др.), Microsoft (Li Deng, Dong Yu и др.).

В России наиболее значимые работы, посвященные низкоресурсному распознаванию, выполнены на базе Санкт-Петербургского института информатики и автоматизации Российской академии наук (Алексей Карпов, Ирина Кипяткова, Андрей Ронжин, и др.), Университета ИТМО и компании ООО «ЦРТ» (Иван Меденников, Юрий Хохлов, Максим Кореневский, Валентин Менделев, Александр Затворницкий и др.).

Со стороны всемирного научного сообщества предпринимаются попытки ускорить развитие технологий автоматического распознавания речи для низкоресурсных языков. Примером тому могут служить международные конкурсы и проекты, в рамках которых

участникам предлагается разработать системы автоматического распознавания речи и сопутствующие им технологии в условиях нехватки обучающих данных. К таким конкурсам и проектам можно отнести Open Keyword Search Evaluation, организованный национальным институтом стандартов и технологий США, The Babel Program, спонсируемый агентством передовых исследований в сфере разведки США, Low Resource Speech Recognition Challenge for Indian Languages, организованный Microsoft.

Несмотря на большое число работ, конкурсов и проектов, на сегодняшний день задача разработки систем автоматического распознавания разговорной речи для низкоресурсных языков требует развития. Основным препятствием при работе с любым низкоресурсным языком является отсутствие общей методики, которая бы позволяла исследователю построить систему, демонстрирующую качество распознавания, сравнимое с наилучшими опубликованными работами. Такой барьер заставляет ученых аккумулировать наработки сообщества и проводить множество экспериментальных исследований, чтобы подтвердить применимость методов к каждому конкретному случаю. Кроме того, системы для низкоресурсных языков значительно уступают в качестве распознавания системам, разработанным в высокоресурсных условиях.

Опираясь на все сказанное выше, можно сделать вывод, что существует потребность в разработке методов и алгоритмов, обеспечивающих повышение точности распознавания речи для низкоресурсных языков, и объединении этих методов и алгоритмов в единую методику, которая бы позволила ученым ускорить исследования для конкретных низкоресурсных языков.

Целью данной работы является разработка методов и алгоритмов, а также универсальной методики построения робастных систем автоматического распознавания спонтанной речи телефонных переговоров, обеспечивающей высокую точность распознавания для низкоресурсных языков.

Для достижения поставленной цели были сформулированы и решены следующие задачи:

1. Анализ современных подходов к автоматическому распознаванию разговорной спонтанной речи.

2. Разработка методов и алгоритмов, позволяющих повысить точность распознавания в системах, работающих с низкоресурсными языками.

3. Разработка универсальной методики построения систем автоматического распознавания речи для низкоресурсных языков.

4. Определение репрезентативного, как с точки зрения акустических особенностей, так и с точки зрения грамматики набора низкоресурсных языков для экспериментального исследования универсальной методики.

5. Разработка программных средств построения систем автоматического распознавания речи.

6. Экспериментальные исследования предложенных методов, алгоритмов и методики, и сравнение полученных результатов с наилучшими опубликованными.

Объектом исследования данной работы являются системы автоматического распознавания спонтанной речи телефонных переговоров для низкоресурсных языков.

Предмет исследования. Методы и алгоритмы построения робастных систем автоматического распознавания речи для низоресурсных языков.

Методология и методы исследования. В рамках работы над диссертацией была использована методология, включающая постановку целей и задач исследования, анализ источников по тематике исследования, разработку методов и алгоритмов, и экспериментальную оценку их эффективности. Экспериментальные исследования были проведены с использованием общедоступных речевых баз данных с применением стандартных разбиений этих наборов данных на обучающие и тестовые множества. Методы, использованные при решении задач диссертационного исследования, включают в себя методы цифровой обработки сигналов, теории вероятностей и математической статистики, психоакустики, машинного обучения, прикладной лингвистики, а также инженерии программного обеспечения. Научная новизна.

1. Предложен метод построения мультиязычных акустических признаков, извлекаемых из глубокой нейронной сети с maxout-активациями и узким горлом, которые позволяют значительно повышать точность распознавания в системах для низкоресурсных языков.

2. Предложен метод формирования отдельных входных информационных потоков для объединения различных акустических признаков при обучении нейросетевых акустических моделей. Данный метод позволяет эффективно использовать

различные акустические признаки в одной акустической модели и повышает точность распознавания при работе с низкоресурсными языками.

3. Предложен метод обогащения языковых моделей при помощи генерации и последующей фильтрации искусственных текстовых данных, который позволяет снизить число несловарных слов и повысить точность распознавания.

4. Предложена универсальная методика построения робастных систем автоматического распознавания разговорной спонтанной речи, учитывающая особенности языкового и акустического моделирования в условиях низкоресурсных языков и обеспечивающая высокий уровень точности распознавания.

Теоретическая и практическая значимость работы. Теоретическая значимость работы заключается в разработке новых и совершенствовании существующих методов и алгоритмов языкового и акустического моделирования, а также в формировании универсальной методики построения систем автоматического распознавания речи для низкоресурсных языков. Практическая значимость работы заключается в применении разработанной универсальной методики для построения систем автоматического распознавания спонтанной речи для восьми низкоресурсных языков и сравнении точности этих систем с наилучшими опубликоваными результатами.

Основные положения, выносимые на защиту:

1. Метод построения мультиязычных акустических признаков, извлекаемых из глубокой нейронной сети с узким горлом, отличающийся использованием шахои1-активаций и адаптацией к диктору, которые позволяют разнообразить процесс комбинирования акустических признаков и значительно повысить точность распознавания речи при работе с низкоресурсными языками.

2. Метод объединения акустических признаков для моделей на основе глубоких нейронных сетей, отличающийся формированием отдельных информационных потоков для каждого вида признаков, позволяющих более эффективно извлекать скрытые паттерны из акустических признаков и производить их объединение на верхних скрытых слоях нейронной сети, способствуя повышению точности распознавания в системах для низкоресурсных языков.

3. Метод обогащения языковых моделей новыми данными, отличающийся генерацией и отбором искусственных текстов, которые позволяют значительно снизить число несловарных слов и повысить точность распознавания речи для низкоресурсных языков.

4. Универсальная методика построения робастных систем автоматического распознавания разговорной спонтанной речи, отличающаяся ориентированностью на работу с низкоресурсными языками, позволяющая получать системы с высоким уровнем точности распознавания для широкого спектра низкоресурсных языков. Апробация результатов исследования. Основные результаты исследований

докладывались и обсуждались на внутривузовских и всероссийских конференциях: XLV, XLVI научная и учебно-методическая конференция Университета ИТМО (Россия, 2016, 2017) и VI, V Всероссийский конгресс молодых ученых (Россия, 2016, 2017), а также на международных профильных конференциях: 18th International Conference on Speech and Computer (Венгрия, 2016), The 18th Annual Conference of the International Speech Communication Association INTERSPEECH (Швеция, 2017), The 19th Annual Conference of the International Speech Communication Association INTERSPEECH (Индия, 2018), The 5th "CHiME" Workshop (Индия, 2018), The 20th Annual Conference of the International Speech Communication Association INTERSPEECH (Австрия, 2019).

Публикации. Наиболее значимые результаты исследований данной диссертационной работы представлены в виде одиннадцати статей: три статьи опубликованы в журналах из перечня ВАК, восемь работ представлены в изданиях, индексируемых в международных реферативных базах Scopus или Web Of Science. В данных публикациях представлены методы, разработанные автором в ходе работы над диссертационной работой. Для ряда методов описаны результаты экспериментальных исследований применительно к решению задачи построения систем автоматического распознавания речи для низкоресурсных языков.

Личный вклад автора в работах, выполненных в соавторстве, заключается в: - [3]: Романенко А.Н. - реализация метода переноса знаний в задаче акустического моделирования, проведение экспериментальных исследований (80%). Матвеев Ю.Н., Минкер В. - формализация задачи переноса знаний применительно к системам автоматического распознавания речи (20%).

- [4]: Романенко А.Н. - разработка системы автоматического распознавания спонтанной речи на египетском диалекте арабского языка, применение акустических признаков, извлекаемых из глубокой нейронной сети с узким горлом, проведение экспериментальных исследований (70%). Менделев В.С. - формализация задачи разработки системы автоматического распознавания речи (30%).

- [5]: Романенко А.Н. - анализ моделей искажений речевого сигнала, реализация алгоритма компенсации искажений, проведение экспериментальных исследований (30%). Кореневский М.Л. - разработка алгоритма преобразования акустических признаков на основе модели искажений чувствительной к фазе (70%).

- [6]: Романенко А.Н. - разработка метода построения мультиязычных акустических признаков, адаптированных к диктору и извлекаемых из глубокой нейронной сети с узким горлом, проведение экспериментальных исследований (20%). Меденников И.П. - разработка метода построения мультиязычных акустических признаков, адаптированных к диктору и извлекаемых из глубокой нейронной сети с узким горлом, подготовка акустических моделей на основе мультиязычных акустических признаков (40%). Прудников А.А., Менделев В.С., Хохлов Ю.Ю., Кореневский М.Л., Томашенко Н.А. - реализация акустических моделей, проведение экспериментальных исследований (30%). Затворницкий А.П. - формализация задачи извлечения высокоуровневых акустических признаков при помощи глубоких нейронных сетей (10%).

- [7]: Романенко А.Н. - разработка метода построения мультиязычных акустических признаков, разработка метода обогащения языковых моделей при помощи искусственных текстовых данных, экспериментальные исследования методов повышения качества поиска ключевых слов (15%). Меденников И.П. - разработка акустических моделей, разработка метода построения мультиязычных акустических признаков, проведение экспериментальных исследований (20%). Хохлов Ю.Ю., Томашенко Н.А - разработка и тестирование метода поиска ключевых слов, не представленных в словаре распознавания системы (30%). Кореневский М.Л., Менделев В.С., Прудников А.А. - разработка метода обогащения языковых моделей при помощи текстовых данных, находящихся в открытом доступе, проведение

экспериментальных исследований (30%). Затворницкий А.П. - формализация задачи поиска ключевых слов (5%).

- [8]: Романенко А.Н. - разработка метода построения мультиязычных акустических признаков, проведение экспериментальных исследований (20%). Меденников И.П. -разработка акустических моделей, проведение экспериментальных исследований (20%). Хохлов Ю.Ю., Томашенко Н.А. - разработка и тестирование метода поиска ключевых слов, не представленных в словаре распознавания системы (60%).

- [9]: Романенко А.Н. - проведение экспериментальных исследований метода генерации искусственных обучающих примеров для кросс-энтропийных акустических моделей (15%). Меденников И.П., Хохлов Ю.Ю., Томашенко Н.А. -разработка метода генерации искусственных обучающих примеров для задачи акустического моделирования (50%); Попов Д.В., Сорокин И.В., Затворницкий А.П. - проведение экспериментальных исследований применительно к интегральным акустическим моделям (35%).

- [10]: Романенко А.Н. - разработка методов адаптации к целевому диктору, в задаче многоканального распознавания, проведение экспериментальных исследований (10%). Меденников И.П. - разработка акустических моделей, проведение экспериментальных исследований (25%). Попов Д.В., Хохлов Ю.Ю., Присяч Т.Н. -экспериментальные исследования построения систем автоматического распознавания речи в условиях удаленного микрофона (15%). Сорокин И.В. -разработка подходов к объединению многоканальных речевых данных в задаче обучения акустических моделей (20%). Мальковский Н.В., Батаев В.А., Астапов С.С. Кореневский М.Л. - исследование методов синхронизации речевого сигнала в многоканальной записи, разработка интегральных акустических моделей (30%). Затворницкий А.П. - формализация задачи автоматического распознавания речи в условиях удаленного микрофона и наложения речи нескольких дикторов (5%).

- [11]: Романенко А.Н. - разработка интегральных акустических моделей, проведение экспериментальных исследований (15%). Меденников И.П., Хохлов Ю.Ю. -разработка методов адаптации к окружающей акустической обстановке, проведение экспериментальных исследований (30%). Сорокин И.В., Митрофанов А.А., Батаев В.А. - разработка интегральных акустических моделей и языковых моделей на

основе глубоких нейронных сетей (25%). Андрусенко А.Ю., Присяч Т.Н., Кореневская М.М. - разработка языковых моделей, основанных на рекуррентных нейронных сетях, проведение экспериментальных исследований (20%). Петров О.Е. - экспериментальные исследования кросс-энтропийных акустических моделей (5%). Затворницкий А.П. - формализация задачи автоматического распознавания речи для удаленного микрофона (5%).

Внедрение результатов работы. Результаты диссертационной работы использованы в учебном процессе по магистерской образовательной программе "Речевые информационные системы" в дисциплине «Распознавание речи».

Кроме того, полученные результаты использовались при проведении прикладных научных исследований:

1. НИР «Создание гибридной системы диалогового взаимодействия на естественном языке, способной к самообучению, самостоятельному принятию решений и прогнозированию, на основе обработки больших данных, глубоких нейронных сетей и искусственного интеллекта», Заказчик Министерство науки и высшего образования РФ, Соглашение № 14.575.21.0178 от 26.11.2018.

2. НИР «Методы, модели и технологии искусственного интеллекта в биоинформатике, социальных медиа, киберфизических, биометрических и речевых системах», Заказчик Минобрнауки России, грант 08-08, 2018-2020.

3. НИР «Проведение теоретических и патентных исследований существующих нейросетевых методов с использованием различных архитектур нейронных сетей для решения задачи выделения и записи речи заданного источника в шумовом окружении с использованием массива удаленных микрофонов», Заказчик ООО "Центр речевых технологий", договор № 217743, 2017.

4. НИР Министерства науки и высшего образования Российской Федерации «Распознавание речи для низкоресурсных языков», задание № 8.9971.2017/ДААД от 25.07.2017.

5. НИР «Разработка технологии автоматической кластеризации голосов дикторов в массивах неразмеченных данных для решения задач голосовой биометрии», Заказчик Минобрнауки России, соглашение № 14.578.21.0126 от 27.10.2015.

6. НИР «Исследование и разработка методов повышения робастности алгоритмов автоматического распознавания русской слитной речи в условиях сложной акустической обстановки в режиме реального времени», Заказчик Минобрнауки России, Соглашение № 14.575.21.0033 от 27.06.2014.

7. НИР «Исследование методов и алгоритмов многомодальных биометрических и речевых систем», Заказчик Минобрнауки России, грант 074-И01, 2013-2017. Личный вклад автора. Автором были выполнены исследования и анализ

существующих методов и алгоритмов построения систем автоматического распознавания речи. Проведенный анализ позволил автору разработать методы и сформировать универсальную методику построения систем автоматического распознавания речи для низкоресурсных языков. Кроме того, соискателем лично получены результаты экспериментальной оценки эффективности разработанных методов по отдельности и в составе универсальной методики. Автором лично решены задачи диссертации. Подготовка основных публикаций по теме диссертации проводилась с соавторами, при этом вклад автора был основным.

Объем и структура работы. Текст диссертационной работы состоит из семи глав, включающих введение и заключение, приложений и списка использованной литературы (содержит 214 источников). Диссертационная работа изложена на 170 страницах текста и включает 35 рисунков и 29 таблиц.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Романенко Алексей Николаевич

Заключение

В работе была продемонстрирована возможность разработки системы автоматического распознавания речи для языка с ограниченными ресурсами. Разработанная система обладает показателями качества, сравнимыми с ранее опубликованными. Использование bottleneck-признаков в совокупности с DNN акустическими моделями позволило получить современные результаты распознавания. Система, обученная на русских bottleneck-признаках продемонстрировала наилучший результат, который на абсолютных 6,16% превосходит результаты опубликованные в [5]. Стоит отметить, что в наборе инструментов Kaldi присутствуют результаты для рецепта CALLHOME Egyptian, ще также был использован набор данных CALLHOME Egyptian. В данном рецепте акустическая модель, основанная на Time Delayed Neural Network и i-vector показывает результаты, уступающие продемонстрированному, абсолютных 2,26%.

Было проведено сравнение использования транскрипций Egyptian Colloquial Arabic Lexicon с транскрипциями, полученными 02Р-моделью, обученной на малом объеме данных MSA. Полученное ухудшение качества в 4,5% является значительным, однако позволяет обводиться без специализированного египетского лексикона, и работать с более доступными данными MSA.

Из проведенных экспериментов следует; что арабские bottleneck показывают такое же качество, как и английские, в то время, как русские превосходят их на абсолютных 2%.

Показатели качества поиска ключевых слов, представленные в табл. 2, демонстрируют возможность использования полученной системы в реальных условиях.

В качестве дальнейших работ планируется исследовать использование long-shorttermmemoryu двунаправленные (bidirectional) нейронные сети в качестве акустических моделей и нейросетевые языковые модели с целью повышения качества распознавания речи. Также использование дополнительных объемов данных позволило бы провести более детальные исследования и значительно снизить WER.

Список литературы диссертационного исследования кандидат наук Романенко Алексей Николаевич, 2020 год

Литература

1. Kirchhoff К., Bilmes J., Das S., Duta N., Egan M., Ji G., He F., Henderson J., Liu D., Noamany M., Schone P., Schwartz R., Veigyri D. Novel approaches to Arabic speech recognition: report from the 2002 JohnsHopkins Summer Workshop // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP). Hong Kong, 2003. V. 1. P. 344-347.

2. Human Development Report 2006. Beyond Scarcity: Power, Poverty and Global Water Crisis. Palgrave Macmillan, UK, 2006. P. 297-300.

3. Habash N., Eskander R., Hawwari A. A morphological analyzer for egyptian arabic // NAACL-HLT 2012 Workshop on Computational Morphology and Phonology (SIGMOR-PHON2012). 2012. P. 1-9.

4. Elmahdy M., Hasegawa-Johnson M., Mustafawi E., Duwairi R., Minker W. Challenges and techniques for dialectal arabic speech recognition and machine translation // Proc. Qatar Foundation Annual Research Forum. Doha, 2011.

5. Elmahdy M., Hasegawa-Johnson M., Mustafawi E. Hybrid phonemic and graphemic modeling for arabic speech recognition // International Journal of Computational Linguistics. 2012. V. 3. N 1. P. 88-96.

6. Ali A., Mubarak H., Vogel S. Advances in dialectal arabic speech recognition: a study using twitter to improve Egyptian ASR // Proc. Int. Workshop on Spoken Language Translation (IWSLT 2014). South Lake Tahoe, USA, 2014. P. 156-162.

7. El-Desoky Mousa A., Kuo H.-K.J., Mangu L., Soltau H. Morpheme-based feature-rich language models using Deep Neural Networks for LVCSR of Egyptian Arabic // Proc. 38lh IEEE Int. Conf. on Acoustics Speech and Signal Processing (ICASSP). Vancouver, Canada, 2013. P. 8435-8439. doi: 10.1109/ICASSP .2013.6639311

8. Ali A., Zhang Y., Cardinal P., Dahak N., Vogel S., Glass J. A complete KALDI recipe for building Arabic speech recognition systems // Proc. IEEE Workshop on Spoken Language Technology. South Lake Tahoe, USA, 2014. P. 525-529. doi: 10.1109/SLT.2014.7078629

9. Thomas S.W., Saon G., Kuo H.-K., Mangu L. The IBM BOLT speech transcription system // Proc. б"' Annual Conference of the International Speech Communication Association. Dresden, Germany, 2015. P. 3150-3153.

10.Trmal J., Chen G., Povey D., Khudanpur S. et. al. A keyword search system using open source software // Proc. IEEE Workshop on Spoken Language Technology. South Lake Tahoe, USA, 2014. P. 530-535.

11.Povey D., Ghoshal A. et al. The Kaldi speech recognition toolkit // Proc. IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). Waikoloa, Hawaii, USA, 2011.

12.Liu F., Stern R., Huang X., Acero A. Efficient cepstral normalization for robust speech recognition // Proc. ARPA Workshop on Human Language Technology. Princeton, 1993. P. 69-74. doi: 10.3115/1075671.1075688

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.