Математическое обеспечение визуального распознавания русской речи в ассистивных транспортных системах тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Аксёнов Александр
- Специальность ВАК РФ00.00.00
- Количество страниц 313
Оглавление диссертации кандидат наук Аксёнов Александр
SYNOPSIS
ВВЕДЕНИЕ
ГЛАВА 1 АНАЛИТИЧЕСКИЙ ОБЗОР СОВРЕМЕННОГО СОСТОЯНИЯ ИССЛЕДОВАНИЙ В ПРЕДМЕТНОЙ ОБЛАСТИ
1.1 Определение рамок обзора
1.2 Современные подходы к распознаванию речи
1.3 Подходы к параметрическому представлению видеосигналов для распознавания речи
1.4 Анализ аудио- и видеоинформации в ассистивных транспортных системах
1.5 Выводы по главе
ГЛАВА 2 МЕТОДИКА СОЗДАНИЯ РАЗНОРАКУРСНЫХ АУДИОВИЗУАЛЬНЫХ РЕЧЕВЫХ КОРПУСОВ
2.1 Анализ существующих аудиовизуальных речевых корпусов
2.2 Описание методики создания разноракурсных аудиовизуальных речевых корпусов
2.3 Программная система для записи многомодального речевого корпуса
2.4 Созданный разноракурсный аудиовизуальный речевой корпус
2.5 Метод определения границ речи в аудиовизуальном сигнале
2.6 Выводы по главе
ГЛАВА 3 НЕЙРОСЕТЕВОЙ МЕТОД АУДИОВИЗУАЛЬНОГО РАСПОЗНАВАНИЯ ГОЛОСОВЫХ КОМАНД ВОДИТЕЛЯ
3.1 Визуальное распознавание голосовых команд водителя
3.2 Акустическое распознавание голосовых команд водителя
3.3 Аудиовизуальное объединение на уровне признаков с использованием кросс-модального механизма внимания
3.4 Выводы по главе
ГЛАВА 4 ПРОГРАММНАЯ СИСТЕМА АУДИОВИЗУАЛЬНОГО РАСПОЗНАВАНИЯ РУССКОЙ РЕЧИ
4.1 Архитектура программной системы
4.2 Функциональное назначение программной системы
4.3 Экспериментальные исследования программной системы аудиовизуального распознавания русской речи
4.4 Выводы по главе
ЗАКЛЮЧЕНИЕ
СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ
СПИСОК ЛИТЕРАТУРЫ
СПИСОК РИСУНКОВ
СПИСОК ТАБЛИЦ
Приложение А
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях2013 год, доктор технических наук Карпов, Алексей Анатольевич
Методы и алгоритмы аудиовизуального распознавания эмоционального состояния типично и атипично развивающихся детей2023 год, кандидат наук Матвеев Антон Юрьевич
Модели и методы автоматического распознавания элементов русского жестового языка для человеко-машинного взаимодействия2020 год, кандидат наук Рюмин Дмитрий
Методы и программные средства аудиовизуальной обработки сигналов при сопровождении распределенных совещаний2013 год, кандидат технических наук Будков, Виктор Юрьевич
Методы создания и использования речевых баз данных и инструментальных средств анализа и исследования речи для развития речевых технологий2013 год, кандидат наук Богданов, Дмитрий Степанович
Введение диссертации (часть автореферата) на тему «Математическое обеспечение визуального распознавания русской речи в ассистивных транспортных системах»
РЕФЕРАТ Общая характеристика работы
Актуальность темы исследования. В последние годы направление автоматизации и интеллектуализации транспортных средств становится все более популярным. Основным фактором, определяющим интерес исследователей и инженеров, является высокий уровень аварийности на дорогах общего пользования, как в России, так и за рубежом. Автономные транспортные средства, хоть и являются инновационной тематикой исследований, но по прогнозам экспертов, по многим причинам не будут массово использоваться на дорогах общего пользования в ближайшее десятилетие. Водитель транспортного средства привносит в управление человеческий фактор, который является причиной более половины дорожных происшествий.
Современные ассистивные мобильные системы (в частности, транспортные ассистивные системы, предназначенные для помощи водителям различных транспортных средств) уже используются в ряде реальных решений (например, в автомобилях премиум-класса, автоматически следящих за дорожной обстановкой, дорожными знаками и климатом, а также в мобильных навигаторах). С широким развитием мобильных технологий: повсеместным распространением смартфонов, автомобильной навигации и транспортных интерактивных систем, решение проблемы отвлечения внимания водителя от непосредственно управления транспортным средством во время дорожного движения выходит на первый план. На сегодня это является одной из важнейших проблем, влияющих на безопасность дорожного движения, и ежегодно приводит к большому количеству транспортных происшествий, зачастую, с человеческими жертвами. Эффективная контекстно-ориентированная поддержка и надежное автоматическое распознавание речи водителя при управлении транспортным средством на дорогах общего пользования позволит как предотвратить или снизить последствия дорожно-транспортных происшествий, так и повысить комфорт водителя при управлении транспортным средством. Наряду с
этим, надежная система бесконтактного голосового управления на основе аудиовизуального распознавания речи может быть хорошей альтернативой контактному ручному управлению многими не критически важными функциями транспортного средства посредством мобильного устройства (смартфона).
Некоторые современные зарубежные решения предполагают использование бесконтактного голосового интерфейса для взаимодействия с ассистивными системами транспортных средств, что значительно снижает фактор отвлечения визуального внимания и рук водителя от непосредственно управления. Стоит отметить, что на сегодня большинство существующих систем ориентированы на работу в составе программно-аппаратных комплексов, интегрируемых в бортовые компьютеры транспортных средств на автозаводах-изготовителях и доступны только в премиум сегментах легковых автомобилей.
Подобные ассистивные системы предполагают интеллектуальный анализ речи водителя и аудиосигналов, которые сильно подвержены влиянию различных акустических шумов, возникающих при дорожном (а также и авиационном) движении. Транспортные средства по своей природе создают акустически неблагоприятную среду, изменяющуюся в зависимости от целого ряда факторов: скорость движения, подняты или опущены стекла и люк, разговаривают ли пассажиры в кабине, включено ли радио/музыка, качество шумоизоляции, дорожного покрытия, общая окружающая обстановка и т.д. Все это в совокупности приводит к низкому качеству работы ассистивных мобильных систем, основанных только на анализе аудиоинформации/речи, и существенно ограничивает их применение в транспортных средствах. В то же время, поскольку видеомодальность невосприимчива к данным факторам, то потенциальный метод повышения робастности (устойчивости к шумам) подобных систем заключается в использовании и совместном анализе видеоинформации о речи в сочетании с аудиоинформацией.
Актуальные междисциплинарные исследования показывают, что визуальные сигналы очень важны для лучшего восприятия и понимания произносимой речи, например, глядя в лицо собеседнику, нам легче понимать его речь. Сигналы от
визуальных и акустических каналов (модальностей) дублируют и дополняют друг друга, что помогает правильно воспринимать речь во многих сложных ситуациях.
Научных исследований в области аудиовизуального распознавания русской речи применительно к ассистивным транспортным мобильным системам с применением интегрального интеллектуального анализа разноракурсной видеоинформации ранее не проводилось ни в России, ни за рубежом, что определяет актуальность и значимость данных исследований. Разработка и исследование системы аудиовизуального распознавания русской речи, основанной на совместной обработке раз-норакурсной видеоинформации, интегрирующей современные методы машинного зрения для автоматического «чтения речи по губам диктора», применительно к ас-систивным транспортным мобильным системам, позволит повысить качество автоматического распознавания и анализа речи (точность и робастность к шумам). Все это отражает актуальность, научно-техническую значимость и междисциплинар-ность диссертационного исследования.
Целью диссертационной работы является разработка моделей, методов, алгоритмов и программных средств, позволяющих повысить качество автоматического аудиовизуального распознавания русской речи в ассистивных транспортных системах. Для достижения цели в ходе исследования поставлены следующие задачи:
- Анализ современных систем распознавания речи, а также методов и подходов параметрического представления видеосигналов для распознавания речи.
- Исследование методов и подходов, которые применяются для анализа аудио и видеоинформации в транспортных системах.
- Разработка методики, алгоритмов и программных средств для создания разноракурсных аудиовизуальных речевых корпусов.
- Сбор и аннотирование разноракурсного аудиовизуального речевого корпуса, записанного в кабине автомобиля, состоящего из голосовых команд водителя.
- Разработка и усовершенствование математических средств (моделей, методов и алгоритмов) для эффективного аудиовизуального анализа и распознавания слитной русской речи в кабине транспортного средства.
- Разработка программной системы и количественное оценивание качества автоматического аудиовизуального распознавания русской речи в ассистив-ной транспортной системе.
- Разработка архитектуры программной системы аудиовизуального распознавания речи и выполнение экспериментальных исследований ней.
Объектом исследования являются аудио- и видеомодальности речи, произносимой в кабине транспортного средства, а предметом исследования являются модели, методы, способы и системы для автоматического аудиовизуального распознавания русской речи.
Методология и методы исследования. Диссертационная работа включает в себя подходы и методы цифровой обработки сигналов, распознавания образов, машинного обучения, вероятностного моделирования, системного и лингвистического анализа, корпусных исследований, объектно-ориентированного проектирования и программирования.
Научная новизна диссертационной работы состоит в следующем:
1) Предложена методика создания аудиовизуальных речевых корпусов, отличающаяся использованием разноракурсных видеоданных, синхронизированных с аудиоданными, с использованием которой был выполнен сбор и аннотирование многодикторного аудиовизуального речевого корпуса с разноракурсными видеоданными и микрофонными аудиоданными.
2) Предложен нейросетевой метод аудиовизуального распознавания голосовых команд водителя, отличающийся использованием кросс-модального механизма внимания, методов аугментации аудио- и видеоданных и способом извлечения пространственно-временных визуальных признаков на основе трехмерной свертки.
3) Разработана архитектура программной системы для автоматического аудиовизуального распознавания русской речи на базе смартфона, отличающаяся
мобильностью программной реализации и возможностью применения в ассистив-ных транспортных системах.
Теоретическая значимость диссертационной работы заключается в исследовании и разработке новых и усовершенствовании существующих моделей и методов автоматического аудиовизуального распознавания русской речи, а также в разработке методики создания аудиовизуальных речевых корпусов с разноракурс-ными аудиовизуальными данными.
Практическая значимость диссертационной работы определяется возможностью интеграции разработанных моделей, методов и программных решений в системе аудиовизуального распознавания речи для применения их в ассистивных транспортных системах.
Основные положения, выносимые на защиту:
1) Методика создания разноракурсных аудиовизуальных речевых корпусов.
2) Нейросетевой метод аудиовизуального распознавания голосовых команд водителя.
3) Архитектура программной системы для автоматического аудиовизуального распознавания русской речи на базе смартфона.
Достоверность и обоснованность научных достижений, полученных в рамках диссертационной работы, обусловлена наличием результатов экспериментальных исследований и успешным представлением основных положений, выносимых на защиту, на ведущих международных и всероссийских конференциях в виде докладов.
Апробация результатов работы. Основные результаты диссертационного исследования представлялись и обсуждались в докладах на следующих конференциях и конгрессах, в частности: Международной конференции «Photogrammetric and computer vision techniques for video surveillance, biometrics and biomedicine (PSBB)» (Москва, РФ, 2021, 2023); L научно и учебно-методической конференции университета ИТМО (Санкт-Петербург, Российская Федерация (РФ), 2021); IX, Всероссийском конгрессе молодых ученых (Санкт-Петербург, Россия, 2020); 24-й
Международной конференции по многомодальному взаимодействию ICMI-2022 «ACM International Conference on Multimodal Interaction» (Бангалор, Индия, 2022); 30-й Международной конференции EUSIPCO 2022 «European Signal Processing Conference» (Белград, Сербия, 2022); 23-й Международной конференции INTERSPEECH 2022 «Annual Conference of the International Speech Communication Association» (Сеул, Южная Корея, 2022); 13-й Международной конференции LREC 2022 « International Conference on Language Resources and Evaluation» (Марсель, Франция, 2022); SPECOM-2021 «International Conference on Speech and Computer» (Санкт-Петербург, Россия, 2021).
Личный вклад автора. Автором диссертационной работы лично проведен анализ современных методов и подходов к визуальному и аудиовизуальному распознаванию речи. Также автором собран и лично аннотирован разноракурсный аудиовизуальный речевой корпус RUSAVIC. Для проведения исследований активно использовался собранный корпус, по результатам которых автором совместно с коллегами (Рюминым Д.А., Иванько Д.В., Кашевником А.М.) написан ряд публикаций по теме диссертационного исследования. Кроме того, автором лично разработан нейросетевой метод аудиовизуального распознавания голосовых команд водителя с использованием механизма внимания, а также разработана программная система аудиовизуального распознавания речи.
Соответствие паспорту специальности. Полученные результаты соответствуют пункту 4 «Разработка методов и технологий цифровой обработки аудиовизуальной информации с целью обнаружения закономерностей в данных, включая обработку текстовых и иных изображений, видео контента. Разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения требуемой информации из текстов», пункту 7 «Разработка методов обработки, группировки и аннотирования информации, в том числе, извлеченной из сети интернет, для систем поддержки принятия решений, интеллектуального поиска, анализа», пункту 9 «Разработка архитектур программно-аппаратных комплексов поддержки цифровых технологий сбора, хранения и передачи информации в инфоком-муникационных системах, в том числе, с использованием «облачных» интернет-
технологий и оценка их эффективности», пункту 13 «Разработка и применение методов распознавания образов, кластерного анализа, нейро-сетевых и нечетких технологий, решающих правил, мягких вычислений при анализе разнородной информации в базах данных» паспорта специальности 2.3.8 - «Информатика и информационные процессы».
Внедрение результатов работы. Результаты диссертационной работы использовались при проведении фундаментальных и прикладных научных исследований:
- НИР, выполняемая в рамках Университета ИТМО на тему «Методы, модели и технологии искусственного интеллекта в биоинформатике, социальных медиа, киберфизических, биометрических и речевых системах» (проект 5-100) № 718574.
- Проект «Математическое, программное и информационное обеспечение интеллектуального анализа видео- и аудиоинформации в ассистивных транспортных мобильных системах», проект фонда РФФИ № 19-29-09081-мк в 20192023 гг.
- Грант Президента РФ для государственной поддержки ведущих научных школ РФ № НШ-17.2022.1.6 «Математическое и программное обеспечение многомодального анализа поведения участников виртуальной коммуникации», в 2022-2023 гг.
Публикации. По материалам диссертационного исследования опубликовано 14 работ, включая 10 публикаций в международных рецензируемых изданиях, индексируемых в базах данных Web of Science и Scopus, 1 публикация в ведущем научном журнале из перечня ВАК Минобрнауки России, также получено 4 свидетельств о государственной регистрации программ для ЭВМ и баз данных в Роспатенте.
Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы. Полный объем диссертации составляет 114 машинописных страниц, включая 27 рисунков и 8 таблиц. Список литературы содержит 127 наименований.
Содержание работы
Во введении приводится обоснование важности и актуальности темы диссертации, формулируется основная цель работы и перечисляются задачи, которые необходимо решить для ее достижения, характеризуется научная новизна и указывается теоретическая и практическая ценность результатов исследования. Кратко излагаются основные результаты с разделением на теоретические, практические и экспериментальные. Приводится общая структура работы с описанием содержания всех глав.
В первой главе анализируются существующие на текущий момент ассистив-ные транспортные мобильные системы, использующие математическое, программным и информационным обеспечением интеллектуального анализа видео- и аудиоинформации. Под ассистивными системами понимаются такие системы, с помощью которых возможно улучшить способности решения людей повседневных задач. В данном обзоре рассматриваются подходы и решения, которые позволяют взаимодействовать водителю с транспортным средством посредством бесконтактного интерфейса. В роли такого средства могут выступать как легковые и грузовые автомобили, так и мотоциклы, скутеры, велосипеды, а также возможно летательные транспортные средства малой авиации. Вместе с этим, особый интерес представляют мобильные системы с интеллектуальной обработкой речевого сигнала, как по видео, так и по аудиоинформации.
Во втором разделе главы выполняется подробный анализ современных методов и подходов к распознаванию речи, который позволил выявить, что использование классических подходов в распознавании визуальной речи постепенно заменяются новыми интегральными подходами (E2E - End-to-End), т.е. каскадом нейронных сетей. В первом приближении E2E подход близок к традиционным методам: последовательность изображений рта подается в сверточную нейросеть для извлечения признаков, которые затем передаются во внутреннюю модель (ЯХЫ, LSTM, GRU или др.) для учета временной зависимости и классификации. Проанализированные исследования демонстрируют, что извлеченные таким образом признаки
больше подходят для автоматического чтения речи по губам, чем рассчитываемые традиционными методами.
Основным преимуществом современного подхода является то, что вся система состоит из единой нейросети. Таким образом, извлеченные признаки лучше связаны с данными, на которых обучается сеть. Современные исследователи предлагают использовать CNN (Convolutional Neural Network) для замены блока извлечения признаков, а также использовать LSTM (Long Short-Term Memory) для задачи моделирования и классификации динамической информации.
Проанализированные методы демонстрируют потенциал систем визуального, а также аудиовизуального распознавания речи, которые могут найти применение в автомобильной сфере.
Кроме того, в процессе анализа подходов параметрического представления видеосигналов для распознавания речи определено, что предобработка входных данных и их правильное параметрическое представление, т.е. извлечение наиболее информативных признаков о произнесенной речи из аудиовизуальных сигналов, являются ключевыми этапами построения надежной системы автоматического распознавания речи. В то же время, являясь первыми шагами обработки, они закладывают фундамент, на котором строится дальнейшая работа и оказывают существенное влияние на качество (точность и надежность) работы системы распознавания в целом. В случае, если применяемые на этом шаге методы являются неадекватными поставленной задаче, то, зачастую, это просто приведет к бессмысленности дальнейших шагов.
С точки зрения детектирования области интереса (области рта/губ) на изображении были исследованы несколько принципиально различных методов, часто встречающихся в научной литературе, посвященной обработке изображений. Обнаружение и локализацию области интереса можно осуществить с использованием двух подходов: 1) традиционных детерминированных методов обработки изображений и 2) современных методов на основе глубоких нейронных сетей.
1) Традиционные методы обработки изображений, в отличие от глубоких нейронных сетей, не требуют большого объема обучающих данных и работают в
неконтролируемом режиме. Один из популярных инструментов для таких задач -OpenCV. Они имеют преимущества, например, необходимость в меньшем количестве ручной разметки изображений. Однако, они имеют и ограничения в сложных сценариях (например, с неоднородным фоном), при наличии перекрытия, изменении освещения, наличии теней и т.д.
2) Методы, основанные на глубоких нейронных сетях, сильно зависят от этапа обучения и ограничены вычислительными возможностями графических процессоров. Они обладают преимуществами, например, как более надежное обнаружение объектов в сложных сценах, с перекрытием и при сложном освещении. Однако для их надежной работы требуется большой объем обучающих данных, и процесс аннотации изображений является трудоемким и дорогостоящим. Некоторые открытые наборы данных (например, MS COCO, Caltech, KITTI, PASCAL VOC, V5) предоставляют размеченные данные для задач обнаружения лиц.
В последнем разделе главы выполняется исследование существующих методов анализа аудио- и видеоинформации в ассистивных транспортных системах. По итогам проведенного анализа можно констатировать, что задача интеллектуального анализа видео- и аудиоинформации в ассистивных транспортных мобильных системах на данный момент в общем виде не решена, а разработка математического, программного и информационного обеспечения для ее решения является актуальной задачей, требующей разработки соответствующих моделей и методов, а также их апробации на реальных данных. Кроме того, рассмотренные ассистивные системы предполагают интеллектуальный анализ речи водителя и аудиосигналов, которые сильно подвержены влиянию различных акустических шумов, возникающих при дорожном движении. Транспортные средства по своей природе создают акустически неблагоприятную среду, изменяющуюся в зависимости от целого ряда факторов: скорость движения, открытие стекол и люков, разговоры в кабине, использование радио/музыки, качество шумоизоляции автомобиля и дорожного покрытия, общей обстановки и т.д. Все это в совокупности приводит к низкому качеству работы ассистивных мобильных систем, основанных только на анализе аудиоинформации/речи, и существенно ограничивает их применение в транспортных
средствах. В то же время, поскольку видеомодальность невосприимчива к данным факторам, то потенциальный метод повышения робастности (устойчивости к шумам) подобных систем заключается в использовании и совместном анализе видеоинформации о речи в сочетании с аудиоинформацией.
Предобработка аудио- и видеосигналов и их правильное параметрическое представление, заключающееся в извлечении наиболее информативных признаков о произнесенной речи из аудиовизуальных сигналов, являются ключевыми этапами построения надежной системы автоматического распознавания речи.
Вторая глава посвящена описанию методики создания разноракурсных аудиовизуальных речевых корпусов. Также выполняется обзор существующих аудиовизуальных корпусов по данной тематике, на основании которого можно сделать вывод, что количество и объем доступных на данный момент баз данных, подходящих для обучения моделей распознавания речи в автомобильных условиях недостаточно. Даже наиболее репрезентативная из имеющихся в настоящее время баз данных AVICAR имеет ряд недостатков, в том числе ограниченный словарь, низкое качество видеоданных, а баз данных для русского языка чрезвычайно мало. Кроме того, немногочисленные доступные корпусы с различными углами записи также не подходят для этой цели, поскольку они, в основном, записываются в контролируемой офисной среде с искусственным освещением. Для создания аудиовизуальной системы распознавания русской речи в ассистивных транспортных системах необходимо собрать собственную базу данных, соответствующую натурным условиям использования системы распознавания на основе разработанной методики.
Во второй главе предложена методика, с помощью которой можно выполнить сбор базы данных, а именно многомодального корпуса для аудиовизуального распознавания речи. Методика определяет основные этапы и требования к проектированию многомодального корпуса, а также метапараметры, которым должен соответствовать корпус. Методика включает в себя 6 шагов. В общем случае предлагаемая методика включает последовательное выполнение подготовительных и практических шагов. Методика создания аудиовизуальных речевых корпусов представлена на рисунке 1.
Рисунок 1 - Методика создания разноракурсных аудиовизуальных
речевых корпусов
1) На первом шаге определяются спецификации основных требований к корпусу из поставленной задачи, которым необходимо удовлетворить, так как они оказывают огромное влияние на вариативность и размер корпуса. Например, задачи распознавания непрерывной речи, распознавания ключевых слов или распознавания отдельных букв / цифр требуют принципиально разных подходов к формированию словаря распознавания и сбору данных. Кроме того, существенное влияние оказывает и сам язык речевых данных. Даже для одной и той же задачи
распознавания объем данных, необходимых для аналитического английского языка и синтетического флективного русского языка, может значительно различаться из-за лингвистических и фонетических особенностей языков. В зависимости от решаемой задачи необходимо выбрать тип системы распознавания:
- Дикторозависимая - предназначена для использования одним пользователем, т.е. вся база данных будет включать в себя аудиовизуальные записи одного целевого пользователя, в различных условиях применения. Подобная система будет обладать повышенной точностью распознавания в сравнении с дикторонеза-висимыми системами распознавания. Примерами применения подобной системы может быть распознавание речи в кабине транспортного средства, т.к. зачастую водителем является один человек.
- Дикторонезависимая - предназначена для работы с любым диктором, т.е. база данных будет включать себя аудиозаписи нескольких пользователей. Точность распознавания системы, обученной на подобной базе данных, будет тем выше, чем более близкими окажутся аудиовизуальные записи пользователей к реальным условиям применения. Примером подобной системы распознавания может быть распознавание речи в информационном киоске, установленном в вестибюле торгового центра/вокзала, где большое количество разных людей зачастую задают типовые вопросы.
2) На данном шаге параллельно выполняются два действия: выбор оборудования для записи и определение структурных параметров. Все вместе это относится к метапараметрам речевого корпуса. Метапараметры (свойства) речевого корпуса разделяются на две основные группы: 1) параметры входных данных, то есть частота дискретизации звука, разрешение видео, частота кадров видеоданных и т.д., которые должны быть заранее определены на основе сценария распознавания цели и условий эксплуатации, и 2) параметры структуры корпуса, главными из которых являются размер словаря, необходимого для распознавания, количество дикторов и количество требуемых повторений на фразу. Они задаются на основе выбранного сценария распознавания, типа системы распознавания
(дикторозависимая или дикторонезависимая) и выбранного метода моделирования аудиовизуальных сигналов.
Корпус должен удовлетворять следующим метапараметрам, необходимым для точного и надежного распознавания речи в салоне автомобиля:
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии2006 год, кандидат технических наук Левин, Кирилл Евгеньевич
Разработка моделей и алгоритмов распределенной системы предупреждения аварийных ситуаций на основе мониторинга водителя2018 год, кандидат наук Лашков Игорь Борисович
Автоматическое распознавание аудиовизуальной русской речи2020 год, кандидат наук Иванько Денис
Разработка алгоритмов для распознавания команд речевого интерфейса кабины пилота2020 год, кандидат наук Полиев Александр Владимирович
Модели и программная реализация распознавания русской речи на основе морфемного анализа2007 год, кандидат технических наук Карпов, Алексей Анатольевич
Список литературы диссертационного исследования кандидат наук Аксёнов Александр, 2023 год
Литература
1. Lin S.C., Hsu C.H., Talamonti W., Zhang Y., Oney S., Mars J., Tang L. Adasa: A conversational in-vehicle digital assistant for advanced driver assistance features // Proc. of the 31st Annual ACM Symposium on User Interface Software and Technology. 2018. P. 531-542. https://doi.org/10.1145/3242587.3242593
2. Lee B., Hasegawa-Johnson M., Goudeseune C., Kamdar S., Borys S., Liu M., Huang T. AVICAR: Audio-visual speech corpus in a car environment // Proc. of the 8th International Conference on Spoken Language Processing. 2004. P. 2489-2492. https://doi.org/10.21437/ Interspeech.2004-424
3. Ivanko D., Ryumin D., Kashevnik A., Axyonov A., Karpov A. Visual speech recognition in a driver assistance system // Proc. of the 30th European Signal Processing Conference (EUSIPCO). 2022. P. 11311135. https://doi.org/10.23919/EUSIPC055093.2022.9909819
4. Xu B., Wang J., Lu C., Guo Y. Watch to listen clearly: Visual speech enhancement driven multi-modality speech recognition // Proc. of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). 2020. P. 1637-1646. https://doi.org/10.1109/ wacv45572.2020.9093314
5. Afouras T., Chung, J.S., Senior A., Vinyals O., Zisserman A. Deep audio-visual speech recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2022. V. 44. N 12. P. 8717-8727. https://doi.org/10.1109/TPAMI.2018.2889052
6. Кухарев Г. А., Матвеев Ю.Н., Олейник А.Л. Алгоритмы взаимной трансформации изображений для систем обработки и поиска визуальной информации // Научно-технический вестник информационных технологий, механики и оптики. 2017. Т. 17. № 1. С. 62-74. https://doi.org/10.17586/2226-1494-2017-17-1-62-74
7. Shi B., Hsu W.N., Mohamed A. Robust self-supervised audio-visual speech recognition // Proc. of the International Conference INTERSPEECH. 2022. P. 2118-2122. https://doi.org/10.21437/ interspeech.2022-99
8. Chand H.V., Karthikeyan J. CNN based driver drowsiness detection system using emotion analysis // Intelligent Automation & Soft Computing. 2022. V. 31. N 2. P. 717-728. https://doi.org/10.32604/ iasc.2022.020008
9. Ivanko D., Kashevnik A., Ryumin D., Kitenko A., Axyonov A., Lashkov I., Karpov A. MIDriveSafely: Multimodal interaction for drive safely // Proc. of the 2022 International Conference on Multimodal Interaction (ICMI). 2022. P. 733-735. https://doi. org/10.1145/3536221.3557037
10. Biswas A., Sahu P.K., Chandra M. Multiple cameras audio visual speech recognition using active appearance model visual features in car environment // International Journal of Speech Technology. 2016. V. 19. N 1. P. 159-171. https://doi.org/10.1007/s10772-016-9332-x
11. Nambi A.U., Bannur S., Mehta I., Kalra H., Virmani A., Padmanabhan V.N., Bhandari R., Raman B. HAMS: Driver and driving monitoring using a smartphone // Proc. of the 24th Annual International Conference on Mobile Computing and Networking. 2018. P. 840-842. https://doi.org/10.1145/3241539.3267723
12. Kashevnik A., Lashkov I., Gurtov A. Methodology and mobile application for driver behavior analysis and accident prevention // IEEE Transactions on Intelligent Transportation Systems. 2020. V. 21. N 6. P. 2427-2436. https://doi.org/10.1109/TITS.2019.2918328
13. Jang S.W., Ahn B. Implementation of detection system for drowsy driving prevention using image recognition and IoT // Sustainability. 2020. V. 12. N 7. P. 3037. https://doi.org/10.3390/su12073037
14. Mishra R.K., Urolagin S., Jothi J.A.A., Gaur P. Deep hybrid learning for facial expression binary classifications and predictions // Image and Vision Computing. 2022. V. 128. P. 104573. https://doi. org/10.1016/j.imavis.2022.104573
15. Sunitha G., Geetha K., Neelakandan S., Pundir A.K.S., Hemalatha S., Kumar V. Intelligent deep learning based ethnicity recognition and classification using facial images // Image and Vision Computing. 2022. V. 121. P. 104404. https://doi.org/10.1016/j.imavis.2022.104404
16. Yuan Y., Tian C., Lu X. Auxiliary loss multimodal GRU model in audio-visual speech recognition // IEEE Access. 2018. V. 6. P. 55735583. https://doi.org/10.1109/ACCESS.2018.2796118
что может значительно повысить точность и устойчивость к шумам существующих систем распознавания речи.
References
1. Lin S.C., Hsu C.H., Talamonti W., Zhang Y., Oney S., Mars J., Tang L. Adasa: A conversational in-vehicle digital assistant for advanced driver assistance features. Proc. of the 31st Annual ACM Symposium on User Interface Software and Technology, 2018, pp. 531-542. https://doi.org/10.1145/3242587.3242593
2. Lee B., Hasegawa-Johnson M., Goudeseune C., Kamdar S., Borys S., Liu M., Huang T. AVICAR: Audio-visual speech corpus in a car environment. Proc. of the 8th International Conference on Spoken Language Processing, 2004, pp. 2489-2492. https://doi.org/10.21437/ Interspeech.2004-424
3. Ivanko D., Ryumin D., Kashevnik A., Axyonov A., Karpov A. Visual speech recognition in a driver assistance system. Proc. of the 30th European Signal Processing Conference (EUSIPCO), 2022, pp. 1131-1135. https://doi.org/10.2 3 9 19/ EUSIPC055093.2022.9909819
4. Xu B., Wang J., Lu C., Guo Y. Watch to listen clearly: Visual speech enhancement driven multi-modality speech recognition. Proc. of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2020, pp. 1637-1646. https://doi.org/10.1109/ wacv45572.2020.9093314
5. Afouras T., Chung, J.S., Senior A., Vinyals O., Zisserman A. Deep audio-visual speech recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, vol. 44, no. 12, pp. 87178727. https://doi.org/10.1109/TPAMI.2018.2889052
6. Kukharev G.A., Matveev Yu.N., Oleinik A.L. Mutual image transformation algorithms for visual information processing and retrieval. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2017, vol. 17, no. 1, pp. 62-74. (in Russian). https://doi.org/10.17586/2226-1494-2017-17-1-62-74
7. Shi B., Hsu W.N., Mohamed A. Robust self-supervised audio-visual speech recognition. Proc. of the International Conference INTERSPEECH, 2022, pp. 2118-2122. https://doi.org/10.21437/ interspeech.2022-99
8. Chand H.V., Karthikeyan J. CNN based driver drowsiness detection system using emotion analysis. Intelligent Automation & Soft Computing, 2022, vol. 31, no. 2, pp. 717-728. https://doi. org/10.32604/iasc.2022.020008
9. Ivanko D., Kashevnik A., Ryumin D., Kitenko A., Axyonov A., Lashkov I., Karpov A. MIDriveSafely: Multimodal interaction for drive safely. Proc. of the 2022 International Conference on Multimodal Interaction (ICMI), 2022, pp. 733-735. https://doi. org/10.1145/3536221.3557037
10. Biswas A., Sahu P.K., Chandra M. Multiple cameras audio visual speech recognition using active appearance model visual features in car environment. International Journal of Speech Technology, 2016, vol. 19, no. 1, pp. 159-171. https://doi.org/10.1007/s10772-016-9332-x
11. Nambi A.U., Bannur S., Mehta I., Kalra H., Virmani A., Padmanabhan V.N., Bhandari R., Raman B. HAMS: Driver and driving monitoring using a smartphone. Proc. of the 24th Annual International Conference on Mobile Computing and Networking, 2018, pp. 840-842. https://doi.org/10.1145/3241539.3267723
12. Kashevnik A., Lashkov I., Gurtov A. Methodology and mobile application for driver behavior analysis and accident prevention. IEEE Transactions on Intelligent Transportation Systems, 2020, vol. 21, no. 6, pp. 2427-2436. https://doi.org/10.1109/TITS.2019.2918328
13. Jang S.W., Ahn B. Implementation of detection system for drowsy driving prevention using image recognition and IoT. Sustainability, 2020, vol. 12, no. 7, pp. 3037. https://doi.org/10.3390/su12073037
14. Mishra R.K., Urolagin S., Jothi J.A.A., Gaur P. Deep hybrid learning for facial expression binary classifications and predictions. Image and Vision Computing, 2022, vol. 128, pp. 104573. https://doi. org/10.1016/j.imavis.2022.104573
15. Sunitha G., Geetha K., Neelakandan S., Pundir A.K.S., Hemalatha S., Kumar V. Intelligent deep learning based ethnicity recognition and classification using facial images. Image and Vision Computing, 2022, vol. 121, pp. 104404. https://doi.org/10.1016/j. imavis.2022.104404
17. Hou J.C., Wang S.S., Lai Y.H., Tsao Y., Chang H.W., Wang H.M. Audio-visual speech enhancement using multimodal deep convolutional neural networks // IEEE Transactions on Emerging Topics in Computational Intelligence. 2018. V. 2. N 2. P. 117-128. https://doi.org/10.1109/TETCI.2017.2784878
18. Chan Z.M., Lau C.Y., Thang K.F. Visual speech recognition of lips images using convolutional neural network in VGG-M model // Journal of Information Hiding and Multimedia Signal Processing. 2020. V. 11. N 3. P. 116-125.
19. Zhu X., Cheng D., Zhang Z., Lin S., Dai J. An empirical study of spatial attention mechanisms in deep networks // Proc. of the IEEE/ CVF International Conference on Computer Vision. 2019. P. 66886697. https://doi.org/10.1109/iccv.2019.00679
20. Bhaskar S., Thasleema T.M. LSTM model for visual speech recognition through facial expressions // Multimedia Tools and Applications. 2023. V. 82. N 4. P. 5455-5472. https://doi.org/10.1007/ s11042-022-12796-1
21. Hori T., Cho J., Watanabe S. End-to-end Speech recognition with word-based RNN language models // Proc. of the 2018 IEEE Spoken Language Technology Workshop (SLT). 2018. P. 389-396. https:// doi.org/10.1109/SLT.2018.8639693
22. Serdyuk D.D., Braga O.P.F., Siohan O. Transformer-based video front-ends for audio-visual speech recognition for single and multiperson video // Proc. of the INTERSPEECH. 2022. P. 2833-2837. https://doi.org/10.21437/interspeech.2022-10920
23. Chen C.F.R., Fan Q., Panda R. CrossViT: Cross-attention multi-scale vision transformer for image classification // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2021. P. 347356. https://doi.org/10.1109/iccv48922.2021.00041
24. Pan S.J., Yang Q. A survey on transfer learning // IEEE Transactions on Knowledge and Data Engineering. 2010. V. 22. N 10. P. 13451359. https://doi.org/10.1109/tkde.2009.191
25. Романенко А.Н., Матвеев Ю.Н., Минкер В. Перенос знаний в задаче автоматического распознавания русской речи в телефонных переговорах // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 2. С. 236-242. https://doi.org/10.17586/2226-1494-2018-18-2-236-242
26. Sui C., Bennamoun M., Togneri R. Listening with your eyes: towards a practical visual speech recognition system using deep boltzmann machines // Proc. of the IEEE International Conference on Computer Vision (ICCV). 2015. P. 154-162. https://doi.org/10.1109/ iccv.2015.26
27. Ahmed N., Natarajan T., Rao K.R. Discrete cosine transform // IEEE Transactions on Computers. 1974. V. C-23. N 1. P. 90-93. https://doi. org/10.1109/T-C.1974.223784
28. Xanthopoulos P., Pardalos P.M., Trafalis T.B. Linear discriminant analysis // Robust Data Mining. Springer New York, 2013. P. 27-33. https://doi.org/10.1007/978-1-4419-9878-1_4
29. Томашенко Н.А., Хохлов Ю.Ю., Ларшер Э., Эстев Я., Матвеев Ю.Н. Использование в системах автоматического распознавания речи GMM-моделей для адаптации акустических моделей, построенных на основе искусственных нейронных сетей // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 6. С. 1063-1072. https://doi. org/10.17586/2226-1494-2016-16-6-1063-1072
30. Ma P., Petridis S., Pantic M. End-to-end audio-visual speech recognition with conformers // Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 202 1. P. 76 13-76 17. https://doi.org/10.1109/ ICASSP39728.2021.9414567
31. Ryumin D., Ivanko D., Ryumina E. Audio-visual speech and gesture recognition by sensors of mobile devices // Sensors. 2023. V. 23. N 4. P. 2284. https://doi.org/10.3390/s23042284
32. Huang J., Kingsbury B. Audio-visual deep learning for noise robust speech recognition // Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing. 2013. P. 7596-7599. https:// doi.org/10.1109/ICASSP.2013.6639140
33. Ivanko D., Ryumin D., Kashevnik A., Axyonov A., Kitenko A., Lashkov I., Karpov A. DAVIS: Driver's audio-visual speech recognition // Proc. of the International Conference INTERSPEECH. 2022. P. 1141-1142.
34. Zhou P., Yang W., Chen W., Wang Y., Jia J. Modality attention for end-to-end audio-visual speech recognition // Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2019. P. 6565-6569. https://doi.org/10.1109/ ICASSP.2019.8683733
16. Yuan Y., Tian C., Lu X. Auxiliary loss multimodal GRU model in audio-visual speech recognition. IEEE Access, 2018, vol. 6, pp. 55735583. https://doi.org/10.1109/ACCESS.2018.2796118
17. Hou J.C., Wang S.S., Lai Y.H., Tsao Y., Chang H.W., Wang H.M. Audio-visual speech enhancement using multimodal deep convolutional neural networks. IEEE Transactions on Emerging Topics in Computational Intelligence, 2018, vol. 2, no. 2, pp. 117128. https://doi.org/10.1109/TETCI.2017.2784878
18. Chan Z.M., Lau C.Y., Thang K.F. Visual speech recognition of lips images using convolutional neural network in VGG-M model. Journal of Information Hiding and Multimedia Signal Processing, 2020, vol. 11, no. 3, pp. 116-125.
19. Zhu X., Cheng D., Zhang Z., Lin S., Dai J. An empirical study of spatial attention mechanisms in deep networks. Proc. of the IEEE/ CVFInternational Conference on Computer Vision, 2019, pp. 66886697. https://doi.org/10.1109/iccv. 2019.00679
20. Bhaskar S., Thasleema T.M. LSTM model for visual speech recognition through facial expressions. Multimedia Tools and Applications, 2023, vol. 82, no. 4, pp. 5455-5472. https://doi. org/10.1007/s11042-022-12796-1
21. Hori T., Cho J., Watanabe S. End-to-end Speech recognition with word-based RNN language models. Proc. of the 2018 IEEE Spoken Language Technology Workshop (SLT), 2018, pp. 389-396. https:// doi.org/10.1109/SLT.2018.8639693
22. Serdyuk D.D., Braga O.P.F., Siohan O. Transformer-based video front-ends for audio-visual speech recognition for single and multiperson video. Proc. of the INTERSPEECH, 2022, pp. 2833-2837. https://doi.org/10.21437/interspeech.2022-10920
23. Chen C.F.R., Fan Q., Panda R. CrossViT: Cross-attention multi-scale vision transformer for image classification. Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021, pp. 347356. https://doi.org/10.1109/iccv48922.2021.00041
24. Pan S.J., Yang Q. A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 2010, vol. 22, no. 10, pp. 13451359. https://doi.org/10.1109/tkde.2009.191
25. Romanenko A.N., Matveev Yu.N., Minker W. Knowledge transfer for Russian conversational telephone automatic speech recognition. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2018, vol. 18, no. 2, pp. 236-242 (in Russian). https://doi.org/10.17586/2226-1494-2018-18-2-236-242
26. Sui C., Bennamoun M., Togneri R. Listening with your eyes: towards a practical visual speech recognition system using deep boltzmann machines. Proc. of the IEEE International Conference on Computer Vision (ICCV), 2015, pp. 154-162. https://doi.org/10.1109/ iccv.2015.26
27. Ahmed N., Natarajan T., Rao K.R. Discrete cosine transform. IEEE Transactions on Computers, 1974, vol. C-23, no. 1, pp. 90-93. https:// doi.org/10.1109/T-C.1974.223784
28. Xanthopoulos P., Pardalos P.M., Trafalis T.B. Linear discriminant analysis. Robust Data Mining, Springer New York, 2013, pp. 27-33. https://doi.org/10.1007/978-1-4419-9878-1_4
29. Tomashenko N.A., Khokhlov Yu.Yu., Larcher A., Estève Ya., Matveev Yu.N. Gaussian mixture models for adaptation of deep neural network acoustic models in automatic speech recognition systems. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2016, vol. 16, no. 6, pp. 1063-1072. (in Russian). https://doi. org/10.17586/2226-1494-2016-16-6-1063-1072
30. Ma P., Petridis S., Pantic M. End-to-end audio-visual speech recognition with conformers. Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 202 1, pp. 76 13-76 17. https://doi.org/10.1109/ ICASSP39728.2021.9414567
31. Ryumin D., Ivanko D., Ryumina E. Audio-visual speech and gesture recognition by sensors of mobile devices. Sensors, 2023, vol. 23, no. 4, pp. 2284. https://doi.org/10.3390/s23042284
32. Huang J., Kingsbury B. Audio-visual deep learning for noise robust speech recognition. Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2013, pp. 7596-7599. https://doi.org/10.1109/ICASSP.2013.6639140
33. Ivanko D., Ryumin D., Kashevnik A., Axyonov A., Kitenko A., Lashkov I., Karpov A. DAVIS: Driver's audio-visual speech recognition. Proc. of the International Conference INTERSPEECH, 2022, pp. 1141-1142.
34. Zhou P., Yang W., Chen W., Wang Y., Jia J. Modality attention for end-to-end audio-visual speech recognition. Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing
35. Ivanko D., Axyonov A., Ryumin D., Kashevnik A., Karpov A. RUSAVIC Corpus: Russian audio-visual speech in cars // Proc. of the 13th Language Resources and Evaluation Conference (LREC). 2022. P. 1555-1559.
36. Kashevnik A., Lashkov I., Axyonov A., Ivanko D., Ryumin D., Kolchin A., Karpov A. Multimodal corpus design for audio-visual speech recognition in vehicle cabin // IEEE Access. 2021. V. 9. P. 34986-35003. https://doi.org/10.1109/ACCESS.2021.3062752
37. Lugaresi C., Tang J., Nash H., McClanahan C., Uboweja E., Hays M., Zhang F., Chang C.-L., Yong M., Lee J., Chang W.-T., Hua W., Georg M., Grundmann M. MediaPipe: A framework for perceiving and processing reality // Proc. of the 3rd Workshop on Computer Vision for AR/VR at IEEE Computer Vision and Pattern Recognition (CVPR). 2019. V. 2019. P. 1-4.
38. Zhang H., Cisse M., Dauphin Y.N., Lopez-Paz D. MixUp: Beyond empirical risk minimization // Proc. of the ICLR Conference. 2018. P. 1-13.
39. Feng D., Yang S., Shan S. An efficient software for building LIP reading models without pains // Proc. of the IEEE International Conference on Multimedia & Expo Workshops (ICMEW). 2021. P. 1-2. https://doi.org/10.1109/ICMEW53276.2021.9456014
40. Kim M., Hong J., Park S.J., Ro Y.M. Multi-modality associative bridging through memory: speech sound recollected from face video // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2021. P. 296-306. https://doi.org/10.1109/ iccv48922.2021.00036
41. Zhong Z., Lin Z.Q., Bidart R., Hu X., Daya I.B., Li Z., Zheng W., Li J., Wong A. Squeeze-and-attention networks for semantic segmentation // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. P. 13065-13074. https://doi.org/10.1109/cvpr42600.2020.01308
42. Аксёнов А.А., Рюмин Д.А., Кашевник А.М., Иванько Д.В., Карпов А.А. Метод визуального анализа лица водителя для автомагического чтения речи по губам при управлении транспортным средством // Компьютерная оптика. 2022. Т. 46. № 6. С. 955-962. https://doi.org/10.18287/2412-6179-C0-1092
Авторы
Аксёнов Александр Александрович — младший научный сотрудник, Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, Санкт-Петербург, 199178, Российская Федерация, sc 57203963345, https://orcid.org/0000-0002-7479-2851, ахуопоу. a@iias.spb.su
Рюмина Елена Витальевна — младший научный сотрудник, Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, Санкт-Петербург, 199178, Российская Федерация, sc 57220572427, https://orcid.org/0000-0002-4135-6949, гуитша.е@ iias.spb.su
Рюмин Дмитрий Александрович — кандидат технических наук, старший научный сотрудник, Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, Санкт-Петербург, 199178, Российская Федерация, sc 57191960214, https://orcid.org/0000-
0002-7935-0569, dl_03.03.1991@mail.ru
Иванько Денис Викторович — кандидат технических наук, старший научный сотрудник, Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, Санкт-Петербург, 199178, Российская Федерация, sc 57190967993, https://orcid.org/0000-
0003-0412-7765, ivanko.d@iias.spb.su
Карпов Алексей Анатольевич — доктор технических наук, профессор, заведующий лабораторией, Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, Санкт-Петербург, 199178, Российская Федерация, sc 57219469958, https:// orcid.org/0000-0003-3424-652X, karpov@iias.spb.su
Статья поступила в редакцию 12.04.2023 Одобрена после рецензирования 17.05.2023 Принята к печати 24.07.2023
(ICASSP), 2019, pp. 6565-6569. https://doi.org/10.1109/ ICASSP.2019.8683733
35. Ivanko D., Axyonov A., Ryumin D., Kashevnik A., Karpov A. RUSAVIC Corpus: Russian audio-visual speech in cars. Proc. of the 13th Language Resources and Evaluation Conference (LREC), 2022, pp. 1555-1559.
36. Kashevnik A., Lashkov I., Axyonov A., Ivanko D., Ryumin D., Kolchin A., Karpov A. Multimodal corpus design for audio-visual speech recognition in vehicle cabin. IEEE Access, 2021, vol. 9, pp. 34986-35003. https://doi.org/10.1109/ACCESS.2021.3062752
37. Lugaresi C., Tang J., Nash H., McClanahan C., Uboweja E., Hays M., Zhang F., Chang C.-L., Yong M., Lee J., Chang W.-T., Hua W., Georg M., Grundmann M. MediaPipe: A framework for perceiving and processing reality. Proc. of the 3rd Workshop on Computer Vision for AR/VR at IEEE Computer Vision and Pattern Recognition (CVPR), 2019, vol. 2019, pp. 1-4.
38. Zhang H., Cisse M., Dauphin Y.N., Lopez-Paz D. MixUp: Beyond empirical risk minimization. Proc. of the ICLR Conference, 2018, pp. 1-13.
39. Feng D., Yang S., Shan S. An efficient software for building LIP reading models without pains. Proc. of the IEEE International Conference on Multimedia & Expo Workshops (ICMEW), 2021, pp. 1-2. https://doi.org/10.1109/ICMEW53276.2021.9456014
40. Kim M., Hong J., Park S.J., Ro Y.M. Multi-modality associative bridging through memory: speech sound recollected from face video. Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021, pp. 296-306. https://doi.org/10.1109/ iccv48922.2021.00036
41. Zhong Z., Lin Z.Q., Bidart R., Hu X., Daya I.B., Li Z., Zheng W., Li J., Wong A. Squeeze-and-attention networks for semantic segmentation. Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 13065-13074. https:// doi.org/10.1109/cvpr42600.2020.01308
42. Axyonov A.A., Ryumin D.A., Kashevnik A.M., Ivanko D.V., Karpov A.A. Method for visual analysis of driver's face for automatic lip-reading in the wild. Computer Optic, 2022, vol. 46, no. 6, pp. 955962. (in Russian). https://doi.org/10.18287/2412-6179-C0-1092
Authors
Alexandr A. Axyonov —Junior Researcher, St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS), Saint Petersburg, 199178, Russian Federation, sc 57203963345, https://orcid. org/0000-0002-7479-2851, axyonov.a@iias.spb.su
Elena V. Ryumina — Junior Researcher, St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS), Saint Petersburg, 199178, Russian Federation, sc 57220572427, https://orcid.org/0000-0002-4135-6949, ryumina.e@iias.spb.su
Dmitry A. Ryumin — PhD, Senior Researcher, St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS), Saint Petersburg, 199178, Russian Federation, sc 57191960214, https://orcid. org/0000-0002-7935-0569, dl_03.03.1991@mail.ru
Denis V. Ivanko — PhD, Senior Researcher, St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS), Saint Petersburg, 199178, Russian Federation, sc 57190967993, https://orcid. org/0000-0003-0412-7765, ivanko.d@iias.spb.su
Alexey A. Karpov — D.Sc., Professor, Head of Laboratory, St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS), Saint Petersburg, 199178, Russian Federation, sc 57219469958, https:// orcid.org/0000-0003-3424-652X, karpov@iias.spb.su
Received 12.04.2023
Approved after reviewing 17.05.2023
Accepted 24.07.2023
Работа доступна по лицензии Creative Commons «Attribution-NonCommercial»
Proceedings ofth^fßfh Conference on Language Resources and Evaluation (LREC 2022), pages 1555-1559
Marseille, 20-25 June 2022
© European Language Resources Association (ELRA), licensed under CC-BY-NC-4.0
Multi-Speaker Audio-Visual Corpus RUSAVIC: Russian Audio-Visual Speech
in Cars
Denis Ivanko, Dmitry Ryumin, Alexandr Axyonov, Alexey Kashevnik and Alexey Karpov
St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS)
St. Petersburg, Russia {ivanko.d, ryumin.d, axyonov.a, alexey.kashevnik, karpov}@iias.spb.su
Abstract
We present a new audio-visual speech corpus (RUSAVIC) recorded in-the-wild in a vehicle environment and designed for noise-robust speech recognition. Our goal was to produce a speech corpus which is natural (recorded in real driving conditions), controlled (providing different SNR levels by windows open/closed, moving/idling vehicle, etc.), and adequate size (the amount of data is enough to train state-of-the-art NN approaches). We focus on the problem of audio-visual speech recognition: with the use of automated lip-reading to improve the performance of audio-based speech recognition in the presence of severe acoustic noise caused by road traffic. We also describe the equipment and procedures used to create RUSAVIC corpus. Data are collected in a synchronous way through several smartphones located at different angles and equipped with FullHD video camera and microphone. The corpus includes the recordings of 20 drivers with minimum of 10 recording sessions for each. Besides providing a detailed description of the dataset and its collection pipeline, we evaluate several popular audio and visual speech recognition methods and present a set of baseline recognition results. At the moment RUSAVIC is a unique audio-visual corpus for the Russian language that is recorded in-the-wild condition and we make it publicly available.
Keywords: audio-visual corpus, automatic speech recognition, data collection, automated lip-reading, driver monitoring
1. Introduction
In recent years, along with the rapid development of artificial intelligence technologies, the trend to multimodality has become very important and significantly boosted machine perception. Audio and visual information represent the two main perceptual modalities that we use in our daily life. Thus, in the past decades they have been widely researched and developed by both academy and industry. Speech technology has been advanced over the last 15 years, however, despite a significant success achieved in automatic speech recognition there are still a lot of challenges when the training and test data have mismatched noise conditions such as SNR or speaking styles (Shillingford et al., 2018). This becomes especially noticeable in need of a reliable speech recognizer inside of a vehicle. Unfortunately, at the moment there is no noise-robust speech recognition system to be used in real-driving conditions. And use of a hand to control navigation system/air conditioner/smartphone may distract a driver and cause road accidents. Along with this, the acoustic noise itself is not the main challenge in this domain (Lin et al., 2018). More importantly, background noise affects not only the microphone but also it causes the speaker to increase vocal effort to overcome noise levels in his ears (so-called Lombard effect). Thus, it is not enough to simply add artificial noise to the lab-recorded data, because in the real-world scenarios the variation of speech production caused by noise exposure at the ear can damage the performance more than the acoustic noise itself. This phenomenon has been carefully analyzed by researchers in the work (Lee et al., 2004).
However, the most of existing audio-visual corpora were collected in laboratory conditions which greatly limits their practical use (Kagirov et al., 2020; Ivanko et al., 2021;). There are no known and publicly available audio-visual Russian speech corpora recorded in a vehicle environment. So, there is a need to create such database to develop-.
reliable audio-visual speech recognition in this language. At the same time, most of the existing audio-visual datasets are subject to some license restrictions and it is difficult to compare the speech recognition accuracy of one recognition system to another, as there is no common benchmark dataset, especially for the Russian language. Our goal in releasing the RUSAVIC corpus is to provide such a benchmark. We used developed earlier methodology as well as a mobile application and cloud infrastructure to make the corpora recording in-the-wild vehicle environment more convenient for the driver and automate the recording procedures (Kashevnik et al., 2021). The multi-speaker audio-visual corpus RUSAVIC can be downloaded from: https://mobiledrivesafely.com/corpus-rusavic.
The contribution of this paper is summarized as follows: Firstly, we present a new audio-visual Russian corpus in a vehicle environment. RUSAVIC consists of recordings of 20 drivers uttered the script of three categories: 62 most frequent requests from driver to a smartphone, 33 letters of the Russian alphabet and 39 digits (including tens and hundreds). At least for 10 recording sessions for each driver.
Secondly, we provide a detailed description of the recording pipeline and framework. The data are collected in a synchronous way through several smartphones located at different angles and mounted on the vehicle dashboard. Each smartphone is equipped with FullHD video camera (60 fps) and microphone (48 kHz frequency). Thirdly, we evaluate several state-of-the-art audio and visual speech recognition methods and present a set of baseline recognition results. The results demonstrate the consistency and the challenges of proposed benchmark. The paper is structured as follows: after the Introduction Section 2 provides an overview of research related to audio-visual speech corpora; Section 3 details the recording framework and describe corpus creation methodology; in Section 4 we present the RUSAVIC corpus and its main
characteristics; in Section 5 experimental results are shown and analyzed; conclusions from this study and proposed future research are presented in Section 6, followed by acknowledgements in Section 7.
2. Related Works
Nowadays the are many audio-visual (AV) speech datasets collected for different purposes and with different means. In order to develop noise-robust automatic speech recognition systems, high-quality training and testing corpora are crucial. The researchers in the works (Fernandez-Lopez et al., 2018) and (Ivanko, 2020) provide comprehensive analysis on existing audio-visual speech databases. In this paper we refrain from repeating existing research and refer readers to the aforementioned papers. It should be noted, that almost every of around 60 publicly available datasets are recorded in controlled laboratory conditions. However, as was proven by the researchers in (Lee et al., 2004) background noise affects not only the microphone but also it causes the speaker to increase vocal effort to overcome noise levels in his ears. So, it is almost impossible to model real-life data in laboratory conditions (Oghbaie et al, 2021). Combining video and audio information can improve speech recognition accuracy for low signal-to-noise ratio conditions (Ivanko et al., 2021b). It has been demonstrated, that for humans the presence of the visual information is roughly equal to a 12dB gain in acoustic signal-to-noise ratio (Lee et al., 2004). Another modern trend that appeared recently is the web-based corpora: datasets collected from open sources such as youtube or TV shows (Ryumina et al., 2021). The most well known of them are discussed in the works: LRW dataset (Yang et al., 2019), LRS2-BBC, LRS3-TED datasets (Afouras et al., 2018; Afouras et al., 2019; Yu et al., 2020), VGG-SOUND dataset (Chen et al., 2020), Modality corpus (Czyzewski et al., 2017), Multilingual AVSD (Mandalapu et al., 2021). A survey (Zhu et al., 2021) regarding this topic provides essential knowledge of current state-of-the-art situation. However, despite the fact that all aforementioned corpora are collected in the wild we cannot just repeat their success to create speech corpus for the car environments - because no such data is available on the web.
It is obvious that when driving a car, the active head turns from side to side are often involved. This simple fact greatly complicates the task of automated lip-reading, because the driver is showed to the camera with different angles. On the other hand, heavy acoustic noise on the road
significantly degrades the results of audio-based speech recognition (Fedotov et al., 2018). Thus, the real-life training and testing data is a prerequisite to build a noise-robust and reliable audio-visual speech recognition system. In our recent work (Kashevnik et al., 2021) we carefully analyzed all the possible challenges that we need to tackle and discussed the main differences between existing audiovisual corpora and the one we collected. Along with this, we took advantage of the experience of researchers, who previously collected speech corpora in-vehicle environment. According to our knowledge, there were only three attempts to record audio-visual speech corpora in a car, namely AVICAR (Lee et al., 2004), AV@CAR (Ortega et al., 2014), and Czech AVSC (Milos et al., 2003) for English, Spanish and Czech languages. Thus, there are no Russian audio-visual datasets recorded in-vehicle environment available up to now. The most well-known Russian audio-visual corpus is HAVRUS (Verkhodanova et al., 2016), however it is also recorded in laboratory conditions. Therefore, we hope the multispeaker audio-visual corpus RUSAVIC could fill a part of the gap for Russian.
3. Acquiring RUSAVIC corpus
We create the multi-speaker audio-visual speech corpus using the recording methodology recently proposed in our work (Kashevnik et al., 2021).
Three smartphones were mounted in the vehicle cabin. Basic data recording settings are shown in Figure 1, left. The angle of the smartphone in relation to the driver has not exceeded 30 degrees. In fact, on most records it was about 20 degrees. The main smartphone is responsible for synchronization and for establishing a connection with a secondary smartphones. It is also responsible for audio-based interaction with a driver, utilizing the smartphones' microphone. The application synthesizes phrases the driver should repeat. The system records the time when the phrases were generated and saves all information to the SQLite database for further analysis and processing. The detailed description of the developed application for audiovisual corpora recording can be found in the paper (Kashevnik et al., 2021). The secondary smartphones are located at an 20-30 degrees angle in a way that its camera successfully captures driver's face (see Figure 1, right). These smartphones mainly focused on recording video and audio information captured by the smartphones front-facing camera. It should be noted, that such locations are popular among drivers to set their mobile devices with the navigation system for vehicles.
Figure 1. Data recording settings (left) and recording environment snapshots (right). Left: (a) driver; (b) main smartphone; (c) left-smartphone; (d) right-smartphone; (e) steering wheel; (f) windshield;
Figure 2. Snapshots of the drivers during recording session; top row - actual driving conditions; bottom row - vehicle parked
near busy intersection.
4. RUSAVIC corpus description
The audio-visual corpus RUSAVIC can be divided into two main parts. The first one is collected in actual driving conditions and the second one is collected in a vehicle parked near a busy intersection (Figure 2). Both parts of the database are composed of the recordings of 20 speakers. The main parametric characteristics of the recorded corpus are depicted in Figure 3. Each speaker uttered the script of three different dictionaries: 62 most frequent driver's requests to smartphones, 33 letters of the Russian alphabet and 39 digits (including tens and hundreds). The first dictionary was chosen based on a market analysis of commercial driver assistance systems, such as AlexaAuto, YandexDrive, GoogleDrive, etc. Thus, the list of most frequently asked requests formed our main
recognition dictionary. Two supplement dictionaries (letters and digits) were recorded to tackle out of vocabulary problems. It should be noted, that in Russian language we have special words for tens and hundreds, so we were obliged to record them as well. At least 10 recording sessions have repeated each speaker (with maximum around 40 recording sessions). One recording session is a one repetition of three dictionaries. Since we record the corpus in-the-wild conditions the average SNR varies from 30 to 5 dB. The video resolution was FullHD 1920x1080 with 60 frames per second recording rate, mp4 format. The audio data was recorded with 48 kHz frequency. The current size of RUSAVIC corpus is about 250 Gb, mostly video data. During postprocessing, segmentation and labeling are performed. Recording sessions metadata files are also
Figure 3. Main characteristics of the RUSAVIC audio-visual speech corpus
included. It contains such information as device description, driving hours, recording conditions, driver rotation angle, etc.
5. Evaluation experiments
In this section, we present the baseline evaluation results of popular lip-reading and audio-based recognition methods to illustrate the advantages and shortcomings of the created speech Corpus.
To answer the question of how well we can do automatic lip-reading in real driving conditions we train end-to-end neural network architecture, depicted in Figure 4. The train and test sets were splitted 80 to 20 %. The input of the model is sequences of mouth images each 32 frames long with a resolution of 112*112 pixels, which pass through 3D convolutional layer (3D Conv) and modified residual blocks (Residual Blocks models ResNet-18) with attention modules (Squeeze-and-Attention, S.A.). Then the subsampling layer (Global Average Polling) transforms them into one-dimensional vectors that are fed to bidirectional networks with long short-term memory (BiLSTM) for subsequent recognition of phrases. Incoming video sequences are divided into segments of the same length into 32 frames with 50% overlap (16 frames). To reduce computational costs, the input images are transformed in grayscale and normalized to 112*112 pixels. To prevent overfitting MixUp augmentation technique is applied. The coefficient of combining two images and binary vectors ranged from 20 to 80%. For the remaining frames Label smoothing is applied. A comparison of various lip-reading architectures on RUSAVIC corpus is presented in Table 1. As we can see from the results when applying several techniques, such as Cosine WR, MixUp, LS, and SA, the recognition accuracy of 62 voice commands of drivers increased from 46.45% to 64.09% (or by 17.64%). It can be seen that a significant contribution to the increase in accuracy is achieved by the SA module, and data augmentation techniques (MixUp and LS) give approximately the same increase in accuracy. However, despite the achieved result of accuracy (64.09%) there is still a lot of place for improvement. The next step is to boost the accuracy of the automated lip-reading by adding an audio modality.
Acoustic speech recognition generally performed better than the lip-reading. This fact is also proved by our results (see Table 1) Audio speech recognition results were obtained by the end-to-end 2D CNN spectrogram-based acoustic speech recognition system. We preprocess the raw acoustic data and obtain phrase-level spectrograms, followed by normalization and fed into pre-trained 2D CNN.
№ Neural network architecture Recognition accuracy
1 3DResNet-18 + BiLSTM 46.45%
2 3DResNet-18 + BiLSTM + Cosine WR 48.28%
3 3DResNet-18 + MixUp + BiLSTM 49.14%
4 LS + 3DResNet-18 + BiLSTM 49.57%
5 SA + 3DResNet-18 + BiLSTM 55.59%
6 LS + MixUp + SA + 3DResNet-18 + BiLSTM + Cosine WR 64.09%
7 Audio: Spectrogam + pre-trained 2D CNN / VGG19 87.26%
Sequence_Length * 1 x 112 x 112 i
3D Conv (Sequence_Length x 64 x 56 x 56)
SA-Residual Block x 2 (SequenceLength x 64 x 56 x 56)
I
SA-Residual Block x 2 (Sequence Length x 128 x 28 x 28)
SA-Residual Block x 2 (Sequence Length x 256 x 14 x 14)
SA-Residual Block x 2 (Sequence Length x 512 x 7 x 7)
I
Global Average Pooling (Sequence Length x 512)
I
Dropout, p = 0.4
I
BiLSTM + Dropout, p = 0.3 (Sequence_Length x 2 x 512)
BiLSTM + Dropout, p = 0.2 (512)
I
FC + Softmax (62)
Table 1: Speech recognition results on RUSAVIC corpus
Figure 4. Visual speech recognition neural network model architecture
6. Conclusion
In this paper, we have created a multi-speaker audio-visual corpus RUSAVIC: Russian Audio-Visual Speech in Cars designed for noise-robust speech recognition. The corpus includes the recordings of 20 drivers with the minimum 10 recording sessions for each (134 phrases in 3 dictionaries for each session). Besides providing a detailed description of the corpus and its collection pipeline, we evaluate several popular audio and visual speech recognition methods and present a set of baseline recognition results. At the moment RUSAVIC is a unique audio-visual corpus for the Russian language that is recorded in-the-wild condition and we make it publicly available. This database is available by request from < https://mobiledrivesafely.com/corpus-rusavic >. With this new speech corpus, we wish to present the community with some challenges of the audio-visual speech recognition in-vehicle environment - acoustic noise, active head turns, pose, distance to recording devices, lightning conditions. These factors are encountered in many real-world applications and are very challenging for current state-of-the-art models. Our future work is related to new methods development for robust audio-visual speech recognition in a vehicle cabin based on RUSAVIC corpus.
7. Acknowledgements
This research is supported by the Russian Foundation for
Basic Research (project No. 19-29-09081), as well as
(Section V) by the Russian Science Foundation (project
No. 21-71-00132).
8. Bibliographical References
Afouras, T., Chung, J. S., Senior, A., Vinyals, O., & Zisserman, A. (2018). Deep audio-visual speech recognition. IEEE transactions on pattern analysis and machine intelligence.
Afouras, T., Chung, J. S., & Zisserman, A. (2019). LRS3-TED: a large-scale dataset for visual speech recognition. arXiv preprint arXiv:1809.00496.
Chen, H., Xie, W., Vedaldi, A., & Zisserman, A. (2020). Vggsound: A large-scale audio-visual dataset. In ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 721-725.
Czyzewski, A., Kostek, B., Bratoszewski, P., Kotus, J., & Szykulski, M. (2017). An audio-visual corpus for multimodal automatic speech recognition. Journal of Intelligent Information Systems, 49(2), 167-192.
Fedotov, D., Ivanko, D., Sidorov, M., & Minker, W. (2018). Contextual dependencies in time-continuous multidimensional affect recognition. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018).
Fernandez-Lopez, A., & Sukno, F. M. (2018). Survey on automatic lip-reading in the era of deep learning. Image and Vision Computing, 78, 53-72.
Ivanko, D. (2020). Audio-Visual Russian Speech Recognition. PhD thesis. 399 p.
Ivanko, D., Ryumin, D., Axyonov, A., & Kashevnik, A. (2021). Speaker-Dependent Visual Command Recognition in Vehicle Cabin: Methodology and Evaluation. In International Conference on Speech and Computer, pp. 291-302.
Ivanko, D., Ryumin, D., & Karpov, A. (2021). An Experimental Analysis of Different Approaches to Audio-Visual Speech Recognition and Lip-Reading. In Proceedings of 15th International Conference on Electromechanics and Robotics" Zavalishin's Readings, pp. 197-209, Springer, Singapore.
Kagirov, I., Ivanko, D., Ryumin, D., Axyonov, A., & Karpov, A. (2020). TheRuSLan: Database of Russian Sign Language. In Proceedings of the LREC 2020, pp. 6079-6085.
Kashevnik, A., Lashkov, I., Axyonov, A., Ivanko, D., Ryumin, D., Kolchin, A., & Karpov, A. (2021). Multimodal Corpus Design for Audio-Visual Speech Recognition in Vehicle Cabin. IEEE Access, 9, 3498635003.
Lee, B., Hasegawa-Johnson, M., Goudeseune, C., Kamdar, S., Borys, S., Liu, M., & Huang, T. (2004). AVICAR: Audio-visual speech corpus in a car environment. In Eighth International Conference on Spoken Language Processing.
Lin, S. C., Hsu, C. H., Talamonti, W., Zhang, Y., Oney, S., Mars, J., & Tang, L. (2018). Adasa: A conversational in-vehicle digital assistant for advanced driver assistance features. In 31st Annual ACM Symposium on User Interface Software and Technology, pp. 531-542.
Mandalapu, H., Reddy, P. A., Ramachandra, R., Rao, K. S., Mitra, P., Prasanna, S. M., & Busch, C. (2021). Multilingual Audio-Visual Smartphone Dataset and Evaluation. IEEE Access, 9, 153240-153257.
Oghbaie, M., Sabaghi, A., Hashemifard, K., & Akbari, M. (2021). Advances and Challenges in Deep Lip Reading. arXiv preprint arXiv:2110.07879.
Ortega, A., Sukno, F., Lleida, E., Frangi, A. F., Miguel, A., Buera, L., & Zacur, E. (2004). AV@CAR: A Spanish Multichannel Multimodal Corpus for In-Vehicle Automatic Audio-Visual Speech Recognition. In LREC.
Rothkrantz, L. (2017). Lip-reading by surveillance cameras. In 2017 Smart City Symposium Prague (SCSP), pp. 1-6.
Ryumina, E., Ryumin, D., Ivanko, D., & Karpov, A. (2021). A novel method for protective face mask detection using convolutional neural networks and image histograms. International Archives of the Photogrammetry, Remote Sensing & Spatial Information Sciences. pp. 177-182.
Shillingford, B., Assael, Y., Hoffman, M. W., Paine, T., Hughes, C., Prabhu, U., de Freitas, N. (2018). Large-scale visual speech recognition. arXiv preprint arXiv:1807.05162.
Verkhodanova, V., Ronzhin, A., Kipyatkova, I., Ivanko, D., Karpov, A., & Zelezny, M. (2016). HAVRUS corpus: high-speed recordings of audio-visual Russian speech. In SPECOM 2016, pp. 338-345.
Yang, S., Zhang, Y., Feng, D., Yang, M., Wang, C., Xiao, J., Chen, X. (2019). LRW-1000: A naturally-distributed large-scale benchmark for lip reading in the wild. In 14th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2019), pp. 1-8.
Yu, J., Zhang, S. X., Wu, J., Ghorbani, S., Wu, B., Kang, S. & Yu, D. (2020). Audio-visual recognition of overlapped speech for the lrs2 dataset. In ICASSP 20202020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6984-6988
Zelezny, M., & Cisar, P. (2003). Czech audio-visual speech corpus of a car driver for in-vehicle audio-visual speech recognition. In AVSP 2003-International Conference on Audio-Visual Speech Processing.
Zhu, H., Luo, M. D., Wang, R., Zheng, A. H., & He, R. (2021). Deep audio-visual learning: A survey. International Journal of Automation and Computing, 126.
9. Language Resource References
The multi-speaker audiovisual corpus RUSAVIC: RUSsian Audio-Visual speech In Cars: https://mobiledrivesafely.com/corpus-rusavic
Visual Speech Recognition in a Driver Assistance
System
Denis Ivanko
St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS) St. Petersburg, Russia denis.ivanko11@gmail.com
Dmitry Ryumin
St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS) St. Petersburg, Russia ryumin.d@iias.spb.su
Alexey Kashevnik
St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS) St. Petersburg, Russia alexey.kashevnik@iias.spb.su
Alexandr Axyonov St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS) St. Petersburg, Russia axyonov.a@iias.spb.su
Alexey Karpov St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS) St. Petersburg, Russia karpov@iias.spb.su
Abstract—Visual speech recognition or automated lip-reading is a field of growing attention. Video data proved its usefulness in multimodal speech recognition, especially when acoustic data is heavily noised or even inaccessible. In this paper, we present a novel method for visual speech recognition. We benchmark it on the famous LRW lip-reading dataset by outperforming the existing approaches. After a comprehensive evaluation, we adapt the developed method and test it on the collected RUSAVIC corpus we recorded in-the-wild for vehicle driver. The results obtained demonstrate not only the high performance of the proposed method, but also the fundamental possibility of recognizing speech only by using video modality, even in such difficult natural conditions as driving.
Keywords—visual speech recognition, automated lip-reading, end-to-end, speech recognition, computer vision
I. Introduction
Multi-modal human-machine spoken language communication gained increasing attention in recent years. Due to the prosperous growth of artificial intelligence and deep neural networks automated lip-reading become an appealing tool for intelligent human-machine interaction. Visual information is beneficial to the automatic speech recognition systems, especially when the audio itself is noisy or even inaccessible. Benefiting from the emergence of several large-scale datasets, such as GRID [1], LRW [2], LRS [3], etc. visual speech recognition has made great progress over the last five years. However, despite significant successes achieved by researchers, there is still a lot of place for improvement. Especially for visual speech recognition in natural conditions of use, e.g. driving a car. Speech recognition accuracy in these cases remains terribly low and often not suitable for practical applications.
To further push the boundary of this research area, in this work we focus on improving the performance of the state-of-the-art lip-reading models. We propose a method to solve the problem of robust visual speech recognition. On the one hand, we perform a comprehensive comparative analysis of the proposed method with the existing state-of-the-art, benchmarking on the well-known LRW dataset. We achieved better results than the current state-of-the-art on the largest publicly available word-level dataset. On the other hand, we demonstrate the efficiency of the proposed method and model architecture by testing it on the collected RUSAVIC corpus
we recorded in-the-wild for the vehicle driver assistance system. Thus, we demonstrated that modern lip-reading systems can provide reasonable speech recognition accuracy based purely on video data even in acoustically and visually noisy conditions, such as driving.
The structure of the paper is as follows. Section II consider related work in the topic of visual speech recognition. In Section III we present datasets we used. Section IV considers the proposed methodology and benchmarking results. Section V discusses experimental results for the driver assistance system. Conclusion summarize the paper.
II. Related Works
Research on visual speech recognition has a long history. A comprehensive study of earlier approaches can be found in the work [4]. In the recent years, with the rapid developments of machine learning approaches and artificial intelligence, deep neural networks were introduced to this area. The first breakthrough on large scale lip-reading datasets was achieved in [5] by introducing multi-layer CNN architecture based on VGG-M. Soon after, deep Residual networks were proposed by [6, 7] as the front-end of the visual speech recognition model. The current state-of-the-art, temporal convolutional neural networks were proposed for lip-reading by researchers in [8, 9]. The first end-to-end sentence lip-reading model LipNet was proposed by researchers in [10].
According to the design of the front end network, the modern lip-reading methods can be divided into three categories: 2-dimensional (2D) convolutional neural networks (CNN), such in [11], 3-dimensional convolutional neural networks (3D CNNs), such in [12], or a combination of 2D and 3D convolutions, which inherit the advantages of both [13]. Recently, the method of the third type has become widely used in visual speech recognition due to its ability to simultaneously capture temporal dynamics of lips movements and extract discriminative features. For sequence modeling LSTMs or its variations are often used [14]. When temporal modeling is required, LSTMs usually lead to better performance and are commonly used in NLP, video prediction, automated lip-reading, etc. [15, 16].
With these impressive methods, state-of-the-art visual speech recognition accuracy has been raised from 61.1% [2]
ISBN: 978-1-6654-6798-8
1131
EUSIPCO 2022
to 88.5% [9] on the largest English dataset LRW during the last five years.
The researchers in the work [17] provide analysis on existing audio-visual and visual-only speech databases. The most well-known of them are: LRW dataset [2], LRS2-BBC [18], LRS3-TED [19], VGG-SOUND [20], Modality corpus [21]. A survey [22] regarding this topic provides essential knowledge of the current state-of-the-art situation.
Driver assistance systems have gained remarkable progress recently. It allows drivers to use short commands to handle complex operations, which is a current industry demand [23]. In the past several years, many multimodal and visual speech datasets have been released to facilitate the research of in-vehicle speech recognition [24]. However, none of the previous works focuses on in-vehicle command recognition, especially, for languages other than English. The lack of data is one of the largest issues in building such systems. To the best of our knowledge, RUSAVIC corpus [25] is one of its kind for the Russian language.
The combination of state-of-the-art deep learning approaches and large-scale audio-visual datasets has been highly successful, achieving significant recognition accuracy results and even surpassing human performance [26]. However, there is still a long journey for practical visual speech recognition applications to meet the performance requirements of real-life scenarios and deal with various road environments and noise conditions for various driver languages and abilities.
III. Data
Two different visual speech datasets were used in the current research. For benchmarking, we test our methodology on a well-known Lip-Reading in the Wild (LRW) dataset [2], collected in 2016 based on BBC TV shows. The second dataset was collected specifically for use in drivers' assistive systems and is called RUSAVIC: Russian Audio-Visual Speech in Cars.
A. LRW dataset
Lip-Reading in the Wild dataset combines the recordings of hundreds of English language speakers. Dataset dictionary includes 500 words, forming up to 1000 difference utterances. All videos have the same frame rate. The LRW dataset parameters are presented in Table I.
Some snapshots of the speakers of the LRW dataset are given in Figure 1. Since the data in LRW are taken in natural conditions co-articulation of the lips from adjacent words is present.
B. RUSAVIC dataset
Russian Audio-Visual Speech in cars (RUSAVIC) is a multi-speaker and multi-modal corpus created based on the methodology proposed in the work [24] and described in detail in our recent paper [25].
RUSAVIC is designed specifically to tackle the speech recognition of the most frequent driver's requests and is meant to be used in the creation of driver's assistive systems. The main parametric characteristics of the RUSAVIC corpus regarding automated lip-reading tasks are shown in Table II. Each of the 20 speakers uttered 62 most frequent requests at least 10 times during several recording sessions (including actual driving conditions and a vehicle parked near a busy intersection). The video resolution is FullHD 1920*1080 with 60 frames per second frame rate. Some snapshots of the speakers of RUSAVIC are shown in Figure 2.
IV. Proposed Methodology and Benchmarking Results
In this section, we describe the proposed methodology to automated visual speech recognition and present the benchmarking results on the LRW dataset. According to our evaluation, the present approach clearly outperforms the existing methods known in the scientific literature to date.
A. Proposed Methodology
The functional diagram of the proposed visual speech recognition method consists of two stages and is shown in Figure 3.
TABLE II. RUSAVIC Dataset Characteristics
Parameter Value
Number of speakers 20
Video Resolution 1920 x 1080
Frame Rate 60
Classes 62
Samples for each class >400
Fig. 3. Functional diagram of the proposed visual speech recognition method
The first stage involves sequential execution of the several steps with the main idea to extract the voiced part of the speech and get rid of the silence (on video data). To achieve this goal, we use the Vosk voice activity detection model (https://github.com/alphacep/vosk-api), which is able to confidently detect speech regions even in heavy acoustically noisy conditions. Thus, after applying this simple preprocessing step we get proper video files, without redundant data.
At the second processing stage, we detect the mouth region on each frame using the MediaPipe FaceMesh algorithm [27]. The region-of-interest (mouth region) detection process is described in detail in our previous work [28]. After cropping region-of-interest several procedures are applied, namely: (1) grayscaling, (2) image normalization (in case of LRW dataset to 88 x 88 pixels), and (3) histogram alignment. This followed by the MixUp augmentation technique in order to reduce overfitting while training the neural network model.
The proposed end-to-end neural network architecture used for visual speech recognition on the LRW dataset is shown in Figure 4. As already mentioned, during the training procedure MixUp data augmentation technique was applied to images with a probability of 40% to reduce overfitting. The merging ratio of the two images varied from 30 to 70% so that the sum was always 100% (zero transparency). During this process, two samples A:(xA,yA) and B:(xB,yB) are selected to generate a new sample (x, y) by a weighted linear interpolation as:
£ = XxA + (1- A)xB,y = XyA + (1 - A)yB (1)
where xt,yt denotes the training sample and the word label of data i E [A, B} respectively.
Label Smoothing (LS) was applied to the labels of those frames that did not have MixUp. The resulting images were formed into batches and fed into convolutional layers for visual features extraction. Given an input sample belonging to word class i, we denote pt as the prediction logits and y as the annotated word label, as was done in [29]. Let N be the number of classes. Then the cross-entropy loss is computed as follows:
¿ = m^o^^t] (2)
When applying LS qt is changed (e is a small constant) to:
e / N,y ti
1 n-1 . (3)
1--e ,v t i
N J
A modified 3DResNet-18 neural network [30] was used in order to extract informative features. Useful representation for semantic segmentation appears at both global and local levels of each frame. At the pixel level, convolution layers generate feature maps conditional on local information, as convolution is computed locally around each pixel. At the global image level, context can be exploited to determine which parts of feature maps are activated, because the contextual features indicate which classes are likely to appear together in the image. To get the advantage of both, local and global information we use a squeeze-and-attention (SA) module.
Fig. 4. Proposed NN model architecture for visual speech recognition
TABLE III. Recognition Results on LRW Dataset TABLE IV. Recognition Results on RUSAVIC Dataset
No. Method Recognition accuracy Paper
1 3D Conv + ResNet-34 + BiLSTM 83.0 % [6]
2 Multi-grained + Bi-ConvLSTM 83.34 % [37]
3 3D Conv + ResNet-34 + Bi-GRU 83.39 % [36]
4 PCPG 83.5 % [35]
5 DFTN 84.13 % [34]
6 SpotFast + Transformer + Product-Key memory 84.4 % [33]
7 3D Conv + ResNet-18 + Bi-GRU 84.41 % [32]
8 3D Conv + P3D-ResNet50 + TCN 84.8 % [31]
9 3D Conv + ResNet-18 + Bi-GRU (Face Cutout) 85.02 % [25]
10 3D Conv + ResNet-18 + MS-TCN 85.3 % [8]
11 3D Conv + ResNet-18 + Bi-GRU + Visual-Audio Memory 85.4 % [30]
12 3D-ResNet + Bi-GRU + MixUp + Label Smoothing + Cosine LR 85.5 % [29]
13 3D-ResNet + Bi-GRU + MixUp + Label Smoothing + Cosine LR (Word Boundary) 88.4 % [29]
14 3D Conv + ResNet-18 + MS-TCN + KD (Ensemble) 88.5% [9]
15 Proposed Method 88.7 %
№ Neural network architecture Recognition accuracy
1 3DResNet-18 + BiLSTM 46.45%
2 3DResNet-18 + BiLSTM + Cosine wr 48.28%
3 3DResNet-18 + MixUp + BiLSTM 49.14%
4 LS + 3DResNet-18 + BiLSTM 49.57%
5 SA + 3DResNet-18 + BiLSTM 55.59%
6 Vosk + MediaPipe + LS + MixUp + SA + 3DResNet-18 + BiLSTM + Cosine WR (Our Method) 64.09%
B. Benchmarking Results on LR W dataset
The back-end of the model is a Bidirectional Long-Short Term Memory (LSTM) network. The extracted features were fed to 2 layers of BiLSTM. The output of the first BiLSTM layer is sequence-to-sequence. The output of the second BiLSTM layer is sequence-to-one. The last fully-connected layer determines the most probable recognition result from 500 classes.
A comparison of recognition results of several state-of-the-art approaches with the proposed methodology is presented in Table III. As can be seen from the table, our model outperforms all recent state-of-the-art approaches up to 5.7 % absolute (in comparison with the work [6]). The closest result was obtained by researchers in the work [9]. They rely on the same core idea of using 3D CNNs for features extraction, however, they used MS-TCN + KD for recognition, resulting in 0,2 % less accuracy than our approach.
As we can see from Table III, all modern approaches (11 out of 15) rely on the use of 3D Convolution Neural Networks for visual features extraction from the video. The same consent can be observed at the back-end of the model: all the researchers try to use some kind of Recurrent Neural Network, such as Bi-LSTM or Bi-GRU for the recognition part. The main advantages of our approach are: (1) better preprocessing by using Vosk to get rid of redundant silence on the video data, (2) applying MixUp augmentation technique to reduce overfitting, (3) using Squeeze-and-Attention module as heads to extract features and fully exploit their multi-scale. After a comprehensive comparative evaluation of the proposed method, we assert its full viability. In the following section, we implement it for the task of visual speech recognition in our driver assistance system based on the collected RUSAVIC dataset.
V. Experimental Results for Driver Assistance System
The train and test sets of the RUSAVIC dataset were split from 80% to 20%. Since the video resolution of RUSAVIC differs from LRW the input of the NN model was sequences of mouth images every 32 frames long with a resolution of 112*112 pixels. The rest of the end-to-end model architecture was the same as in Figure 4, except the final fully-connected layer (62 neurons with SoftMax activation in case of the RUSAVIC).
A comparison of various visual speech recognition architectures on RUSAVIC dataset is shown in Table IV. We can see that the recognition accuracy of 62 visual speech commands of drivers increased from 46.45% to 64.09% (or by 17.64%) by using our method in comparison with baseline, where 3D CNNs used for features extraction followed by Bi-LSTM for recognition.
The absolute recognition values on LRW and RUSAVIC datasets are differs by about 20%. However, it should be noted, that we cannot compare these results directly due to huge differences between datasets: amount of data (LRW dataset much bigger), language (English and Russian), recording conditions (much noisy environment in vehicles, a lot of head turns, etc.), etc. Thus, we can conclude with confidence that current state-of-the-art approaches and our method specifically can provide high speech recognition accuracy based purely on video data even in acoustically and visually noisy environments, such as driving conditions or TV shows.
VI. CONCLUSION
In this paper, we present state-of-the-art results on visual speech recognition. We propose a method for automated lip-reading. We benchmark it on the well-known LRW lip-reading dataset by outperforming the existing approaches. After a comprehensive evaluation, we adapt the developed method and test it on the collected RUSAVIC corpus we recorded in-the-wild for the vehicle driver assistance system. The results obtained demonstrate the high performance of the proposed method and the fundamental possibility of recognizing speech by using video modality only, even in such difficult natural conditions as driving.
Acknowledgment
This research is financially supported by Russian Foundation for Basic Research (project No. 19-29-09081), Grant (No. MK-42.2022.4) and the Leading scientific school (NSH-17.2022.1.6). Section IV is supported by the Russian Science Foundation (project No. 21-71-00132).
References
[1] M. Cooke, J. Barker, S. Cunningham, en X. Shao, "An audio-visual corpus for speech perception and automatic speech recognition", The Journal of the Acoustical Society of America, vol 120, no 5, pp. 24212424, 2006.
[2] J. S. Chung en A. Zisserman, "Lip reading in the wild", in Asian conference on computer vision, 2016, bll 87-103.
[3] J. S. Chung, A. Senior, O. Vinyals, en A. Zisserman, "Lip reading sentences in the wild", in 2017 IEEE conference on computer vision and pattern recognition (CVPR), 2017, pp. 3444-3453.
[4] Z. Zhou, G. Zhao, X. Hong, en M. Pietikainen, "A review of recent advances in visual speech decoding", Image and vision computing, vol 32, no 9, pp. 590-605, 2014.
[5] J. S. Chung en A. P. Zisserman, "Lip reading in profile", 2017.
[6] T. Stafylakis en G. Tzimiropoulos, "Combining residual networks with LSTMs for lipreading", arXiv preprint arXiv:1703. 04105, 2017.
[7] T. Stafylakis, M. H. Khan, en G. Tzimiropoulos, "Pushing the boundaries of audiovisual word recognition using residual networks and LSTMs", Computer Vision and Image Understanding, vol 176, pp. 22-32, 2018.
[8] B. Martinez, P. Ma, S. Petridis, en M. Pantic, "Lipreading using temporal convolutional networks", in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 6319-6323.
[9] P. Ma, B. Martinez, S. Petridis, en M. Pantic, "Towards practical lipreading with distilled and efficient models", in ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021, pp. 7608-7612.
[10] Y. M. Assael, B. Shillingford, S. Whiteson, en N. De Freitas, "Lipnet: End-to-end sentence-level lipreading", arXiv preprint arXiv:1611. 01599, 2016.
[11] D. Ivanko, D. Ryumin, A. Axyonov, en A. Kashevnik, "Speaker-Dependent Visual Command Recognition in Vehicle Cabin: Methodology and Evaluation", in International Conference on Speech and Computer, 2021, pp. 291-302.
[12] S. Yang et al., "LRW-1000: A naturally-distributed large-scale benchmark for lip reading in the wild", in 2019 14th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2019), 2019, pp. 1-8.
[13] B. Shillingford et al., "Large-scale visual speech recognition", arXiv preprint arXiv:1807. 05162, 2018.
[14] T. Afouras, J. S. Chung, en A. Zisserman, "LRS3-TED: a large-scale dataset for visual speech recognition", arXiv preprint arXiv:1809. 00496, 2018.
[15] E. Ryumina, D. Ryumin, D. Ivanko, en A. Karpov, "A novel method for protective face mask detection using convolutional neural networks and image histograms", International Archives of the Photogrammetry, Remote Sensing & Spatial Information Sciences, 2021.
[16] D. Ivanko, D. Ryumin, A. Axyonov, en M. Zelezny, "Designing advanced geometric features for automatic Russian visual speech recognition", in International Conference on Speech and Computer, 2018, pp. 245-254.
[ 17] A. Fernandez-Lopez en F. M. Sukno, "Survey on automatic lip-reading in the era of deep learning", Image and Vision Computing, vol 78, pp. 53-72, 2018.
[18] T. Afouras, J. S. Chung, A. Senior, O. Vinyals, en A. Zisserman, "Deep audio-visual speech recognition", IEEE transactions on pattern analysis and machine intelligence, 2018.
[19] T. Afouras, J. S. Chung, en A. Zisserman, "LRS3-TED: a large-scale dataset for visual speech recognition", arXiv preprint arXiv:1809. 00496, 2018.
[20] H. Chen, W. Xie, A. Vedaldi, en A. Zisserman, "Vggsound: A large-scale audio-visual dataset", in ICASSP 2020-2020 iEEe International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 721-725.
[21] A. Czyzewski, B. Kostek, P. Bratoszewski, J. Kotus, en M. Szykulski, "An audio-visual corpus for multimodal automatic speech recognition", Journal of Intelligent Information Systems, vol 49, no 2, pp. 167-192, 2017.
[22] H. Zhu, M.-D. Luo, R. Wang, A.-H. Zheng, en R. He, "Deep audiovisual learning: A survey", International Journal of Automation and Computing, vol 18, no 3, pp. 351-376, 2021.
[23] M. Zhou, Z. Qin, X. Lin, S. Hu, Q. Wang, en K. Ren, "Hidden voice commands: Attacks and defenses on the VCS of autonomous driving cars", IEEE Wireless Communications, vol 26, no 5, pp. 128-133, 2019.
[24] A. Kashevnik et al., "Multimodal corpus design for audio-visual speech recognition in vehicle cabin", IEEE Access, vol 9, pp. 3498635003, 2021.
[25] D. Ivanko, Axyonov A., Ryumin D., Kashevnik A., Karpov A., "MultiSpeaker Audio-Visual Corpus RUSAVIC: Russian Audio-Visual Speech in Cars", in LREC 2022 Conference, 2022, pp. 1-5. In press.
[26] Y. Zhang, S. Yang, J. Xiao, S. Shan, en X. Chen, "Can we read speech beyond the lips? rethinking roi selection for deep visual speech recognition", in 2020 15th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020), 2020, pp. 356363.
[27] Y. Kartynnik, A. Ablavatski, I. Grishchenko, en M. Grundmann, "Real-time facial surface geometry from monocular video on mobile GPUs", arXiv preprint arXiv:1907. 06724, 2019.
[28] D. Ivanko en D. Ryumin, "Development of Visual and Audio Speech Recognition Systems Using Deep Neural Networks".
[29] D. Feng, S. Yang, S. Shan, en X. Chen, "Learn an effective lip reading model without pains", arXiv preprint arXiv:2011. 07557, 2020.
[30] M. Kim, J. Hong, S. J. Park, en Y. M. Ro, "Multi-modality associative bridging through memory: Speech sound recollected from face video", in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 296-306.
[31] B. Xu, C. Lu, Y. Guo, en J. Wang, "Discriminative multi-modality speech recognition", in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 14433-14442.
[32] X. Zhao, S. Yang, S. Shan, en X. Chen, "Mutual information maximization for effective lip reading", in 2020 15th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020), 2020, pp. 420-427.
[33] P. Wiriyathammabhum, "SpotFast networks with memory augmented lateral transformers for lipreading", in International Conference on Neural Information Processing, 2020, pp. 554-561.
[34] J. Xiao, S. Yang, Y. Zhang, S. Shan, en X. Chen, "Deformation flow based two-stream network for lip reading", in 2020 15th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020), 2020, pp. 364-370.
[35] M. Luo, S. Yang, S. Shan, en X. Chen, "Pseudo-convolutional policy gradient for sequence-to-sequence lip-reading", in 2020 15th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020), 2020, pp. 273-280.
[36] S. Petridis, T. Stafylakis, P. Ma, F. Cai, G. Tzimiropoulos, en M. Pantic, "End-to-end audiovisual speech recognition", in 2018 IEEE international conference on acoustics, speech and signal processing (ICASSP), 2018, pp. 6548-6552.
[37] C. Wang, "Multi-grained spatio-temporal modeling for lip-reading", arXiv preprint arXiv:1908. 11618, 2019.
Interspeech 2022
18-22 September 2022, Incheon, Korea
DAVIS: Driver's Audio-Visual Speech Recognition
Denis Ivanko1, Dmitry Ryumin1, Alexey Kashevnik2, Alexandr Axyonov1, Andrey Kitenko1,
Igor Lashkov1, Alexey Karpov1
1St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS),
Saint Petersburg, Russia 2ITMO University, Saint Petersburg, Russia
{ivanko.d, ryumin.d, alexey.kashevnik, axyonov.a, andrey.kitenko, igor.lashkov,
karpov}@iias.spb.su
Abstract
DAVIS is a driver's audio-visual assistive system intended to improve accuracy and robustness of speech recognition of the most frequent drivers' requests in natural driving conditions. Since speech recognition in driving condition is highly challenging due to acoustic noises, active head turns, pose variation, distance to recording devices, lightning conditions, etc. We rely on multimodal information and use both automatic lip-reading system for visual stream and ASR for audio stream processing. We have trained audio and video models on own RUSAVIC dataset containing in-the-wild audio and video recordings of 20 drivers. The recognition application comprises a graphical user interface and modules for audio and video signal acquisition, analysis, and recognition. The obtained results demonstrate rather high performance of DAVIS and also the fundamental possibility of recognizing speech commands by using video modality, even in such difficult natural conditions as driving.
Index Terms: audio-visual speech recognition, driver assistance system, human-computer interaction
1. Introduction
Using visual information about speech in addition to audio is a fundamental step to human-like robust speech recognition system for challenging acoustic conditions [1]. Furthermore, visual data itself often contains enough information to recognize spoken phrases [2]. In the recent years, to improve recognition results some researchers employ visual data and investigate how lip-reading can contribute to audio-based speech recognition [3].
However, at the moment there is no reliable noise-robust speech recognition system to be used in real driving conditions. The use of hands to control navigation system/air conditioner/smartphone distracts a driver and cause road accidents. The acoustic noise itself is not only challenge in the domain [4]. A background noise affects not only the microphone, but also it causes the speaker to increase vocal effort to overcome noise levels in his ears (the so-called Lombard effect). In the real-world scenarios variation of speech production caused by noise exposure at the ear can damage the performance more than the acoustic noise itself [5]. In current research to train our models we use own RUSAVIC corpus that contains audio-visual speech data of 20 different drivers recorded in-the-wild [6].
In this work, we introduce DAVIS: a speech recognition assistive system for drivers that is able to recognize most
frequent drivers' control commands (62) by processing acoustic and visual speech information. We present the recognition app that provides a graphical user interface and modules for audiovisual signals acquisition, analysis, and recognition. DAVIS has been experimented and evaluated in some real-world scenarios. We make source code, dataset and trained models open access.
2. DAVIS Architecture
DAVIS has been developed as a driver's assistant application intended to improve accuracy and robustness of speech recognition in challenging acoustic conditions by processing audio-visual information.
It is developed for drivers to tackle 62 the most frequent requests to navigation/multimedia systems of the vehicle [7]. We designed the system to be used inside a vehicle cabin and offer drivers the possibility of robust speech recognition despite acoustic noises, active head turns, pose variation, distance to recording devices, lightning conditions, etc.
The app has two panels: (i) setting panel, where a user can select one of speech recognition modes (audio, visual or audiovisual), select desirable recognition mode, dictionary, etc. and (ii) recognition panel (Figure 1, right) that shows camera view, detected driver's mouth region and the last recognized phrase at the overlay. Screenshot of the DAVIS setup is shown in the Figure 1, left. Currently DAVIS uses audio-visual recognition architecture and the dictionary of 62 most frequent drivers' requests.
The speech recognition pipeline of the DAVIS is shown in Figure 2. The app is implemented as a GUI integrated with five software modules: (1) audio-visual signal acquisition module, (2) voice activity detection module, (3) audio-visual features extraction module, (4) recognition models, (5) modalities fusion and recognition module.
Figure 1: DAVIS setup (left) and app screenshot (right) during recognition process
Copyright © 2022 ISCA
1141
Figure 2: DAVIS audio-visual speech recognition pipeline
The signal acquisition module is used for capturing audio (mp4^wav) and video (mp4^ frames) signals. The audio signal is recorded at sampling frequency of 16kHz. The video of the speaker is simultaneously recorded at 30 frames per second with the resolution of 1280x720 pixels. The voice activity detection module is based on the Vosk model [8] gets acoustic speech boundaries and uses them to extract speech utterances from the raw audio/video signals.
Feature extraction (preprocessing) module performs the first step by detecting and cropping mouth images on each frame of the video, followed by some visual data preprocessing procedures: grayscaling, normalization, and histogram alignment. It also exctacts spectrograms from acoustic signal.
We use end-to-end neural network architectures for audio and visual speech recognition models. The core of the lip-reading model includes a modified 3DResNet-18 neural network [9] in followed by 2 layers of BiLSTM [10]. The core of the acoustic speech recognition is similar to the work [11].
Information fusion module performs a comparative assessment of recognition hypothesis provided by lip-reading and ASR models and makes the final decision. In our case, one of the 62 voice commands. Currently DAVIS uses weighting algorithm to this end [12]. In a simplified form: the more acoustically noisy the environment, the more we rely on video information and vice versa. If the angle of the face in relation to the camera is large or the video is dark / overexposed, then we rely more on the acoustic system. At the moment, the algorithm considers a large set of parameters, such as vehicle speed, head angle, SNR level, presence of music, etc.
3. Conclusions
Accurate speech recognition for drivers is challenging, in particular due to acoustic noise, active head turns, pose variation, distance to recording devices, lightning conditions, etc. DAVIS is an application that helps drivers by improving speech recognition accuracy of most frequent requests addressed to navigation/multimedia systems of the vehicle. The DAVIS implements both: automatic lip-reading system and acoustic speech recognition system. It has been developed as an app and trained on the real-world data. It has been tested for its functionalities and user interface. Source code, dataset and trained models free available by request1.
'https://mobiledrivesafely.com
2https://play.googlexom/store/apps/details?id=ru.igla.drivesaf ely
For future work we plan to integrate the developed DAVIS system to our developed Drive Safely system2 for voice-based command support [13]. Drive Safely is a driver monitoring system that detects dangerous driver behavior while driving (drowsiness, distraction, smartphone usage, and etc.).
4. Acknowledgements
This work was supported by the Analytical Center for the Government of the Russian Federation (IGK 000000D730321P5Q0002), agreement No. 70-2021-00141.
5. References
[1] B. Shi et al., "Robust Self-Supervised Audio-Visual Speech Recognition", arXiv preprint arXiv:2201. 01763, 2022.
[2] T. Afouras, J. S. Chung, A. Senior, O. Vinyals, and A. Zisserman, "Deep audio-visual speech recognition", IEEE transactions on pattern analysis and machine intelligence, 2018, pp. 1-13.
[3] P. Zhou, W. Yang, W. Chen, Y. Wang, and J. Jia, "Modality attention for end-to-end audio-visual speech recognition", in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 6565-6569.
[4] S.-C. Lin et al., "Adasa: A conversational in-vehicle digital assistant for advanced driver assistance features", in Proceedings of the 31st ACM UIST, 2018, pp. 531-542.
[5] B. Lee et al., "AVICAR: Audio-visual speech corpus in a car environment", in Eighth International Conference on Spoken Language Processing, 2004.
[6] A. Kashevnik et al., "Multimodal corpus design for audio-visual speech recognition in vehicle cabin", IEEE Access, vol 9, 2021, pp. 34986-35003.
[7] D. Ivanko et al., "Multi-Speaker Audio-Visual Corpus RUSAVIC: Russian Audio-Visual Speech in Cars", in LREC 2022 Conference, pp. 1555-1559.
[8] Vosk Speech Recognition Toolkit. Available at: https://github.com/alphacep/vosk-api
[9] M. Kim, J. Hong, S. J. Park and Y. M. Ro, "Multi-modality associative bridging through memory: Speech sound recollected from face video", in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 296-306.
[10] A. Howard et al., "Searching for mobilenetv3", in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019, pp. 1314-1324.
[11] A. Kashevnik, I. Lashkov, A. Gurtov "Methodology and Mobile Application for Driver Behavior Analysis and Accident Prevention", in IEEE Transactions on Intelligent Transportation Systems, IEEE, Vol. 21(6), 2019, pp. 2427-2436.
[12] D. Ivanko et al. "Multimodal speech recognition: increasing accuracy using high speed video data", in Journal on Multimodal User Interfaces, 12(4), 2018, pp. 319-328.
[13] D. Ivanko et al. "Visual speech recognition in a driver assistance system" in 30th European Signal Processing Conference (EUSIPCO), 2022, Accepted to EUSIPCO 2022.
MIDriveSafely: Multimodal Interaction for Drive Safely
Denis Ivanko
St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS) denis.ivanko11@gmail.com
Andrey Kitenko
St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS) kitenko.a@iias.spb.su
Alexey Kashevnik
St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS) alexey.kashevnik@iias.spb.su
Alexandr Axyonov
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.