Автоматическое распознавание аудиовизуальной русской речи тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Иванько Денис

  • Иванько Денис
  • кандидат науккандидат наук
  • 2020, ФГАОУ ВО «Национальный исследовательский университет ИТМО»
  • Специальность ВАК РФ05.13.11
  • Количество страниц 399
Иванько Денис. Автоматическое распознавание аудиовизуальной русской речи: дис. кандидат наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. ФГАОУ ВО «Национальный исследовательский университет ИТМО». 2020. 399 с.

Оглавление диссертации кандидат наук Иванько Денис

СОДЕРЖАНИЕ

Сокращения

Реферат

1. Introduction

1.1 Automatic speech recognition

1.2 Motivation

1.3 Thesis contribution

1.4 Outline

2. Backgrounds and related research

2.1 Automatic acoustic speech recognition

2.1.1 Acoustic features extraction

2.1.2 Acoustic modeling

2.1.3 Language modeling

2.2 Automatic visual speech recognition

2.2.1 Region-of-interest detection

2.2.2 Visual features extraction

2.2.3 Visual speech recognition

2.3 Multimodal speech recognition

2.3.1 Audio-visual features extraction

2.3.2 Audio-visual fusion approaches

2.3.3 Audio-visual fusion techniques

2.4 Proposed approach to practical lip-reading system implementation

2.5 Summary

3. General methodology and contribution to the state-of-the-art

3.1 Acoustic speech processing

3.2 Visual speech processing

3.2.1 Haar classifiers-based method for region-of-interest detection

3.2.2 Proposed modification of a method for lip region detection

3.2.3 active appearance model-based method for region of interest detection116

3.2.4 Pixel-based visual features extraction

3.2.5 Proposed geometry-based vsual features extraction method

3.3 Modalities fusion and modeling

6

3.3.1 Hidden Markov models and Gaussian mixtures models

3.3.2 Coupled hidden Markov models

3.3.3 Hybrid approach to speech recognition

3.3.4 End-to-end approach

3.4 Decoding and evaluation

3.4.1 Decoding

3.4.2 Evaluation metrics

3.5 Summary

4. Data collection and tools analysis

4.1 Data

4.1.1 Audio-visual and visual-only speech datasets

4.1.2 Distinctive features of the Russian audio-visual speech

4.1.3 Software-hardware complex for database recording

4.1.4 HAVRUS corpus description

4.1.5 GRID dataset

4.2 Tools

4.2.1 Toolkits

4.2.2 Deep learning frameworks

4.2.3 Computer vision libraries

4.3 Summary

5. Experimental setups and evaluations

5.1 Experimental setup

5.1.1 Building traditional audio-visual speech recognition system

5.1.2 Building hybrid audio-visual speech recogniton system

5.1.3 Building End-to-end visual speech recognition system

5.2 Evaluation experiments

5.2.1 Experiments with the frame rate

5.2.2 Experiments in acoustically noisy environments

5.2.3 Experiments with viseme classes

5.2.4 Experiments with visual features

5.2.5 Experiments with different architectures of speech recognition systems186

5.3 Summary

6. Conclusion and future directions

6.1 Overall summary

7

6.2 Thesis contributions

6.2.1 Theoretical

6.2.2 Practical

6.2.3 Experimental

6.3 Future directions

Appendix

References

Приложение А. Тексты публикаций

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Автоматическое распознавание аудиовизуальной русской речи»

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования. Активное развитие области автоматического

распознавания речи вывело человеко-машинные интерфейсы на новый уровень.

Использование естественного для человека способа коммуникации значительно облегчает

поиск информации, набор текста, позволяет обходиться без тактильного контакта с

устройствами и дает возможность решать огромное количество различных задач: от

бытовых (умный дом, набор телефона, отправка сообщения) до задач бизнеса и

промышленности (автоматическая обработка звонков в колл-центрах, МФЦ,

информационные киоски в аэропортах, вестибюлях ж/д вокзалов и т.д.). На сегодняшний

день в тихих офисных условиях точность автоматического распознавания речи может

приближаться к ста процентам для различных ограниченных задач. Подобная точность

зачастую достигается при условии ограниченного словаря и заранее известной грамматики

высказываний. Тем не менее, одной из самых сложных задач в области автоматического

распознавания речи является распознавание спонтанной речи. Стоит отметить, что

существующие системы и модели автоматического распознавания слитной речи по-

прежнему существенно уступают речевым способностям человека, особенно в реальных

условиях применения. Главная сложность данной проблемы заключается в большой

вариативности основных параметров речи, которые подвержены влиянию различных

факторов. Прежде всего, это случайная составляющая процесса формирования речи. Пол,

возраст, акцент, эмоциональное и физическое состояние диктора оказывают существенное

влияние и значительно усложняют задачу эффективного распознавания речи для

автоматических систем. Кроме того, большое влияние на точность распознавания речи

оказывает акустический канал – тип микрофона, его характеристики, расположение

относительно рта диктора, окружающая акустическая среда (наличие внешнего шума,

реверберации и т.п.). Даже при использовании различных методов шумоподавления и

фильтрации существующие системы автоматического распознавания не могут обеспечить

требуемое качество работы во многих условиях эксплуатации.

10

В то же время нельзя забывать о способе, к которому прибегают люди в сложных

акустических условиях или одновременном разговоре нескольких людей для лучшего

понимания высказываний собеседника. Ведь устная речь передается как по акустическому

каналу (через звук), так и по визуальному (движения губ). Естественная речь формируется

многомодально и передается одновременно по нескольким каналам в форме аудио- и

видеоинформации, которая дублирует и дополняет друг друга, помогая правильно

воспринимать речь во многих сложных ситуациях. Подобный феномен в 1976 г. был назван

эффектом МакГурка – МакДональда и положил начало развитию новой области –

автоматического чтения речи по губам диктора. С начала 90-х готов предпринимаются

отдельные попытки использовать визуальную информацию о речи для повышения

точности и надежности работы автоматических систем распознавания. В ряде исследований

разработанные системы аудиовизуального распознавания речи продемонстрировали

лучшие результаты распознавания, чем одномодальные системы. Тем не менее, по

сравнению с активным развитием области акустического распознавания речи, на

сегодняшний день существует не так много исследований по распознаванию

аудиовизуальной речи. Несмотря на большой потенциал, который несет в себе

использование визуальной информации о речи, эта область по-прежнему имеет множество

не решенных задач.

На сегодняшний день не существует общепринятого подхода к разработке

аудиовизуальных систем распознавания речи. Отсутствуют репрезентативные базы данных

с открытым доступом для обучения моделей, которые бы обладали всеми необходимыми

параметрами, такими как достаточное количество дикторов, фонемно-виземная временная

разметка, адекватный задаче размер словаря и т.д. (практически нет общедоступных баз

данных для языков, кроме английского). Отсутствуют исследования влияния скорости

записи видеоданных на точность распознавания речи. Существует мало исследований о

влиянии акустически шумных условий на производительность аудиовизуальных систем

распознавания речи и мало работ посвящены анализу флективных языков (таких как

русский). Тем не менее, существует огромная разница между распознаванием

аналитических языков (например, английского) и флективных языков, из-за присутствия в

последних гораздо большего числа словоформ, грамматических правил и исключений из

них.

Опираясь на вышеизложенное, можно с уверенностью констатировать существенный

пробел в научных исследованиях в отношении автоматического распознавания

аудиовизуальной русской речи. Разработка и исследование подобной системы в конечном

11

итоге позволит приблизить эффективность распознавания автоматических систем к уровню

восприятия речи людьми, что является крайне актуальной задачей.

Актуальность темы также подтверждается большим количеством ежегодных докладов

на тематических международных конференциях (таких как INTERSPEECH, ICASSP,

SPECOM, LREC, AVSP и др.), и статей в ведущих мировых научных журналах по

проблемам обработки речи и машинного зрения (“Pattern Recognition”, “ IEEE/ACM

Transactions on Audio Speech and Language Processing”, “ Computer Vision and Image

Understanding”, “Computer Speech and Language” и др.).

Степень разработанности темы исследования. Рассматриваемая область

исследования включает широкий спектр задач и находится на пересечении таких

фундаментальных областей знаний как автоматическое распознавание речи, компьютерное

зрение, цифровая обработка сигналов, машинное обучение. В каждом из этих направлений

научным сообществом уже накоплен большой багаж знаний и многочисленные

исследовательские группы занимаются разработкой более эффективных методов, моделей

и алгоритмов. Тем не менее, эффективной технологии, комплексирующей знания из этих

областей для задачи автоматического распознавания речи по аудио- и видеоданным на

сегодняшний день не существует. В последние годы наблюдается активный интерес

научного сообщества к решению данной задачи, выражающийся в появлении большого

количества тематических конференций и публикаций в ведущих научных изданиях.

Первые научные исследования по разработке систем аудиовизуального распознавания

речи датируются концом 1990-х годов и началом 2000-х. Однако в виду продолжающегося

технологического прогресса наиболее активная фаза исследований приходится на

последнее десятилетие. Наиболее значимые работы в этой области принадлежат ученым из

Университетов Джона Хопкинса (Jie Zhou, Chalapathy Neti), Оксфорда (Triantafyllos

Afouras, Joon Son Chung, Robert Kaucic и др.), Карнеги Меллон (Iain Matthews),

Университета Гренобля (Frederic Berthommier, Herve Glotin и др.), Университета Белфаста

(Darryl Stewart, Ji Ming и др.), Университета Шеффилда (Jon Barker, Xu Shao и др.),

Тринити-колледжа Дублина (Eoin Gillen, Naomi Harte и др.), компаний Google (Andrew

Zisserman, Oriol Vinyals, Andrew Senior и др.), IBM (Gerasimos Potamianos, Etienne

Marcheret, Vaibhava Goel и др.), Bosch (Juergen Luettin), Intel (Ara V. Nefian, Kevin Murphy,

Crusoe Mao и др.).

В России вопросами автоматического распознавания аудиовизуальной речи активно

занимаются только в Санкт-Петербургском институте информатики и автоматизации

Российской академии наук СПИИРАН (А.А. Карпов, И.С. Кипяткова и др.). С точки зрения

12

распознавания русской речи по аудиоинформации, наиболее значимые работы

принадлежат ученым из Университета ИТМО и компании ООО ЦРТ (Кореневский М.Л.,

В.С. Менделев, А.П. Затворницкий, И.П. Меденников и др), Университета ТУСУР (Е.Ю.

Костюченко), Нижегородского Государственного Лингвистического Университета (В.В.

Савченко), ИПУ РАН (Р.В. Мещеряков).

Несмотря на все большое число научных работ, на сегодняшний день задача

автоматического распознавания русской речи по аудио- и видеоинформации требует

развития. Это становится заметно при переходе от английского к другим языкам (например,

русскому), исследований по которым практически не проводилось. Основным

препятствием является отсутствие репрезентативных аудиовизуальных речевых баз данных

для обучения моделей. Большинство исследовательских групп работают с данными,

которые удалось собрать самостоятельно, что значительно усложняет процесс однозначной

оценки работы тех или иных алгоритмов. Такой барьер заставляет ученых проводить

множество экспериментальных исследований, чтобы подтвердить применимость методов к

каждому конкретному случаю. Наряду с этим отсутствуют общепризнанные методы

извлечения информативных признаков из визуальной речи и способы обучения моделей,

как для распознавания речи по аудиоинформации.

Комплекс вышеперечисленных факторов позволяет сделать вывод, что существует

потребность в разработке универсальной методики создания речевых аудиовизуальных

данных, а также методов и алгоритмов, обеспечивающих повышение точности

распознавания речи по аудио и видеоинформации.

Целью диссертационной работы является разработка методов, алгоритмов и

программных средств, позволяющих повысить точность аудиовизуального распознавания

русской речи и речевых команд. Исследование соответствует паспорту специальности

05.13.11, в частности, пунктам 7, 8. Для достижения поставленной цели были

сформулированы и решены следующие задачи:

1. Проведение аналитического обзора современной научно-технической литературы по

теме аудиовизуального распознавания речи, а также анализ существующих

аудиовизуальных речевых баз данных и корпусов.

2. Разработка универсальной методики и программного обеспечения для создания

аудиовизуальных корпусов речи.

3. Сбор, обработка и сегментация многодикторного аудиовизуального речевого корпуса

на базе микрофона и высокоскоростной видеокамеры.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Иванько Денис

В заключении подробно описаны основные результаты данной диссертационной

работы:

1. Разработана методика создания аудиовизуальных речевых корпусов с

высокоскоростными видеозаписями для обучения и оценивания моделей

автоматического распознавания речи, позволяющая получить синхронизированные

по времени речевые аудио- и видеоданные с фонемно-виземной разметкой для

различных задач распознавания речи.

2. Разработан метод параметрического представления визуальной речи диктора на

высокоскоростных видеозаписях, отличающийся вычислением оригинального

набора геометрических признаков извлекаемых из изображений губ диктора в

процессе речеобразования.

3. Разработан не имеющий аналогов программно-аппаратный комплекс для

аудиовизуального распознавания русской речи на базе микрофона и

высокоскоростной видеокамеры, позволяющий распознавать русскую речь с малым

и средним словарем, отличающийся возможностью учитывать естественную

асинхронность речи в аудио- и видеосигналах и уровень акустического шума.

В ходе диссертационного исследования также был получен ряд практических

результатов:

1. Разработан программно-аппаратный комплекс, реализующий 3-й шаг

предложенной методологии создания аудиовизуальных речевых корпусов с

высокоскоростными видеозаписями. ПАК предназначен для синхронной записи

аудио- и видеоданных, принимаемых с цифрового микрофона и высокоскоростной

видеокамеры.

2. С использованием разработанного ПАК записан аудиовизуальный речевой корпус

с высокоскоростными видеозаписями HAVRUS. Он состоит из видеофайлов без

сжатия (оптическое разрешение 640 × 480 пикселей при 200 кадрах в секунду) и

аудиофайлов без сжатия (файлы WAV с частотой дискретизации 44,1 кГц); также

включены текстовые файлы временной аннотации на фразы, слова, фонемы и

виземы. В записях участвовало 20 носителей русского языка (10 мужчин и 10

42

женщин) без проблем с языком или слухом. Свидетельство о государственной

регистрации базы данных RU № 2017621219.

3. Для разработанного программно-аппаратного комплекса по распознаванию

аудиовизуальной русской речи реализованы модели аудиовизуального

распознавания речи трех различных архитектур: GMM-CHMM, DNN-HMM и End-

to-end. Описание методологии, инструментов, процесса обучения и всех

необходимых параметров подробно раскрыто в представленном исследовании.

Наряду с этим также получен ряд экспериментальных результатов:

1. С использованием разработанного ПАК AVSpeechRecognition была впервые

произведена оценка влияния высокоскоростных видеоданных (до 200 кадров в

секунду) на точность распознавания аудиовизуальной речи. По сравнению с

обычными 25 кадрами в секунду (скорость записи, используемая на большинстве

устройств) использование высокоскоростной видеокамеры со скоростью записи в

200 к/с привело к увеличению WRR аудиовизуальной речи в среднем на 1,48% на

всех дикторах. Эксперименты с распознаванием только-визуальной речи

показывают увеличение WRR в среднем на 3,10%. На отдельных дикторах это

значение достигает даже 7,28%. Исследований с настолько большой скоростью

записи ранее не проводилось ни для русского, ни для других языков.

2. С использованием разработанного ПАК AVSpeechRecognition была произведена

экспериментальная оценка различных типов информативных признаков,

извлекаемых из визуальной модальности, включая как широко известные признаки

на основе цветности изображения, так и собственные модификации геометрических

признаков. Использование предложенных геометрических признаков показало

значительное улучшение (до 9%) точности распознавания.

3. С использованием разработанного ПАК AVSpeechRecognition был проведен

экспериментальный поиск оптимального количества распознаваемых классов визем

русской речи. Было исследовано деление от 2 (разделение на гласные и согласные)

до 48 классов визем (по количеству фонем), с шагом 2. Проведенные исследования

показали, что использование высокоскоростных видеоданных (200 кадров в

секунду) позволяет расширить количество визуально различимых классов визем

русской речи до 20. Эксперименты, проведенные с данным набором виземных

классов, привели к повышению средней точности распознавания примерно на 0,53%

43

на всех дикторах по сравнению с ранее используемыми 10 классами визем для

обычных видеоданных со скоростью 25 кадров в секунду.

4. Разработанный ПАК AVSpeechRecognition был протестирован в различных

акустически шумных условиях. Два типа акустических шумов («шум толпы» и

«белый шум») с разными отношениями сигнал / шум (ОСШ от 0 до 40 дБ) были

искусственно добавлены к тестовым аудиоданным и исследованы. Было

обнаружено, что в диапазоне ОСШ от 0 до 15-20 дБ (при котором значительно

снижается точность распознавания речи на основе аудио) использование

видеоинформации дает наибольший прирост к результирующей точности

распознавания. Таким образом, важность видеомодальности для задачи

автоматического распознавания речи была доказана экспериментально.

На основании сформулированных задач и полученных по ним результатов, цель

данного исследования можно считать достигнутой.

Перспективы дальнейшей работы.

Представленная диссертационная работа является пионерской в области

автоматического распознавания русской речи по высокоскоростным видеоданным. Более

того, для других языков, в том числе и английского, подобных исследований практически

не проводилась. Данная работа закладывает определенный фундамент и очерчивает

границы области исследований. В то же время, остается большое количество вопросов

относительно аудиовизуального распознавания речи, на которые необходимо ответить.

Далее приводятся несколько перспективных направлений для дальнейшей работы:

- В настоящем исследовании подробно рассматривалось влияние акустического шума

на точность автоматического распознавания аудиовизуальной речи, однако влияние

визуального шума (например изменение освещенности, блики и т.п.) осталась за рамками

данной диссертационной работы. Тем не менее, это представляет большой практический

интерес, поскольку, в отличие от тихих офисных условий, в реальных приложениях

изменчивость освещения играет ключевую роль в задаче автоматического чтения речи по

губам диктора.

- В ходе исследования удалось установить определенную зависимость между темпом

(скоростью) речи говорящего, оптимальным количеством FPS и точностью распознавания

визуальной речи. Тем не менее, это вопрос заслуживает отдельного исследования и на него

невозможно однозначно ответить в рамках текущей работы.

- Расширение существующих и запись новых аудиовизуальных баз данных русской

речи также представляет большой практический интерес. В настоящей работе из-за

44

нехватки данных автор столкнулся с трудностью адекватного обучения моделей на основе

глубоких нейронных сетей. Ввиду этого многие эксперименты были ограничены

традиционными GMM-HMM моделями. Подобную проблему возможно решить, увеличив

объем данных, доступных для обучения.

- Широкое использование подходов глубокого обучения наряду со сбором

дополнительных данных может еще больше повысить производительность представленных

в настоящей работе моделей аудиовизуального распознавания.

Список литературы диссертационного исследования кандидат наук Иванько Денис, 2020 год

Список публикаций

В изданиях, входящих в международные базы цитирования Scopus / Web of Science

1. Ivanko, D., Ryumin, D., Karpov, A. (2020). An Experimental Analysis of Different

Approaches to Audio-Visual Speech Recognition and Lip-Reading. In: 15th International

Conference on Electromechanics and Robotics “Zavalishin’s Readings”, ERZR 2020.

Proc. of Smart Innovation, Systems and Technologies book series of Springer, pp. 1-13.

2. Ryumin, D., Ivanko, D., Kagirov, I., Axyonov, A., Karpov, A. (2020). Vision-Based

Assistive Systems for Deaf and Hearing-Impaired People. In: Computer Vision in

Advanced Control Systems, Intelligent Systems Reference Library, vol 175, Springer,

Cham, pp. 197-223.

3. Kagirov, I., Ivanko, D., Ryumn, D., Axyonov, A., Karpov, A. (2020). TheRuSLan:

Database of Russian Sign Language. In: Proceedings of the 12th Language Resources and

Evaluation Conference (LREC-2020), pp. 6079-6085.

4. Ivanko, D., Ryumin, D., Karpov, A. (2019). Automatic lip-reading of hearing impaired

people. In: International Workshop on “Photogrammetric and Computer Vision

Techniques for Video Surveillance, Biometrics and Biomedicine”, Vol. XLII-2/W12, pp.

97-101.

5. Ryumin, D., Kagirov, I., Ivanko, D., Axyonov, A., Karpov, A. (2019). Automatic

detection and recognition of 3D manual gestures for human-machine interaction. In:

International Workshop on “Photogrammetric and Computer Vision Techniques for Video

Surveillance, Biometrics and Biomedicine”, Vol. XLII-2/W12, pp. 179-183.

6. Ivanko, D., Ryumin, D., Kipyatkova, I., Axyonov, A., Karpov, A. (2019). Lip-reading

using pixel-based and geometry-based features for multimodal human-robot interfaces.

In: 14th International Conference on Electromechanics and Robotics “Zavalishin’s

45

Readings”, ERZR 2019. Proc. of Smart Innovation, Systems and Technologies book series

of Springer, pp. 1-10.

7. Ivanko, D., Ryumin, D., Karpov, A., Zelezny, M. (2019). Measuring the effect of high-

speed video data on the audio-visual speech recognition accuracy. Journal of Information

and Control Systems, 2, pp. 26-34.

8. Ryumin, D., Ivanko, D., Axyonov, A., Kagirov. I., Karpov. A., Zelezny, M. (2019).

Human-robot interaction with smart shopping trolley using sign language: data collection.

In: PerDial 2019 International Workshop on Pervasive Computing and Spoken Dialogue

Systems Technology, Kyoto, 11-15 march, pp. 949-954.

9. Ivanko, D., Karpov, A., Fedotov, D., Kipyatkova, I., Ryumin, D., Ivanko, Dm., Minker,

W., Zelezny, M. (2018). Multimodal speech recognition: increasing accuracy using high-

speed video data. Journal of Multimodal User Interfaces, 12(4), pp. 319-328.

10. Ivanko, D., Ryumin, D., Axyonov, A., Zelezny, M. (2018). Designing advanced

geometric features for automatic Russian visual speech recognition. In: Proceedings of

20th International Conference on Speech and Computer, SPECOM 2018, Leipzig,

Germany, September 18-22, LNAI 11096, pp. 245-255.

11. Kryuchkov, B., Usov, V., Ivanko, D., Kagirov, I. (2018). Cognitive components of human

activity in the process of monitoring a heterogeneous group of autonomous mobile robots

on the lunar surface. In: 3rd International Conference on Interactive Collaborative

Robotics, ICR 2018, LNAI 11097, pp. 148-158.

12. Fedotov, D., Ivanko, D., Sidorov, M, Minker, W. (2018). Contextual dependencies in

time-continuous multidimensional affect recognition. In: International Conference on

Language Resources and Evaluation (LREC-2018), pp. 1220-1224.

13. Ivanko, D., Karpov, A., Ryumin, D., Kipyatkova, I., Saveliev, A., Budkov, V., Zelezny,

M. (2017). Using a high-speed video camera for robust audio-visual speech recognition in

acoustically noisy conditions. In: Proceedings of 19th International Conference on Speech

and Computer, SPECOM 2017, Hatfield, UK, September 12-16, LNAI 10458, pp. 756-

766.

14. Kryuchkov, B., Usov, V., Ivanko, D., Ivanko, Dm. Using augmentative and alternative

communication for human-robot interaction during maintaining habitability of a lunar

base. (2017). In: 2nd International Conference on Interactive Collaborative Robotics, ICR

2017, LNAI 10459, pp. 95-105.

46

15. Ivanko, D., Karpov, A. (2016). An analysis of perspectives for using high-speed cameras

in processing dynamic video information. In: Journal of SPIIRAS proceedings, 44(1), pp.

98-113.

16. Verkhodanova, V., Ronzhin, A., Kipyatkova, I., Ivanko, D., Karpov, A., Zelezny, M.

(2016). HAVRUS corpus: high-speed recordings of audio-visual Russian speech. In:

Proceedings of 18th International Conference on Speech and Computer, SPECOM 2016,

August 23-27, Budapest, Hungary, LNAI 9811, pp. 338-345.

В изданиях из списка ВАК РФ

1. Иванько Д.В., Кипяткова И.С., Ронжин А.Л., Карпов А.А. Анализ методов

многомодального объединения информации для аудиовизуального распознавания

речи // Научно-технический вестник информационных технологий, механики и

оптики. 2016. Т. 16. № 3. С. 387–401. doi: 10.17586/2226-1494-2016-16-3-387-401.

2. Иванько Д.В., Федотов Д.В., Карпов А.А. Повышение точности автоматического

распознавания визуальной русской речи: оптимизация виземных классов // Научно-

технический вестник информационных технологий, механики и оптики. 2018. Т. 18.

№ 2. С. 346–349. doi: 10.17586/2226-1494-2018-18-2-346-349.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.