Методы и алгоритмы взаимной реконструкции лицевых и голосовых данных тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Олейник Андрей Леонидович

  • Олейник Андрей Леонидович
  • кандидат науккандидат наук
  • 2018, ФГАОУ ВО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики»
  • Специальность ВАК РФ05.13.17
  • Количество страниц 273
Олейник Андрей Леонидович. Методы и алгоритмы взаимной реконструкции лицевых и голосовых данных: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГАОУ ВО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики». 2018. 273 с.

Введение диссертации (часть автореферата) на тему «Методы и алгоритмы взаимной реконструкции лицевых и голосовых данных»

Общая характеристика работы

Актуальность темы. Человеческое общение включает в себя множество составляющих: голос и его интонацию, мимику, жесты. Поэтому при решении различных задач человекомашинного общения и построения биометрических систем распознавания личности прибегают к использованию нескольких модальностей1, основными из которых являются визуальная и звуковая. Один из подходов к задействованию этих модальностей — использование лицевых и голосовых данных, для чего существует ряд технических средств. При этом многие устройства (в основном мобильные) оснащены не только микрофонами и камерами, но и дополнительными сенсорами: датчиками глубины, а также камерами, работающими в ближнем и тепловом инфракрасных спектрах. Это положило начало исследованиям, связанным с анализом и обработкой мультисенсорных изображений лиц: фотографий в видимом, ближнем инфракрасном и тепловом спектрах, карт глубины («range image», «depth map») и скетчей2.

Совместное использование мультисенсорных лицевых и голосовых данных позволяет расширять класс решаемых задач и разрабатывать принципиально новые решения в области мультимедийных систем, человеко-машинного общения, анимации, робототехники, лицевой и голосовой биометрии. С другой стороны, из-за различной природы исходных данных (физической и сенсорной) трудно обеспечить согласованность процессов их получения, анализа, обработки, распознавания и синтеза. Преодоление связанных с этим проблем и трудностей требует разработки и исследования новых методов, алгоритмов, моделей и программных средств.

Актуальность темы также подтверждается множеством докладов на международных конференциях по проблемам компьютерного зрения и обработки речи и статей в научных журналах. Примерами тому служат журналы «Труды СПИИРАН», «Автоматика и телемеханика», «IEEE Transactions on Pattern Analysis and Machine Intelligence», «ACM Transactions on Intelligent Systems and Technology», «IEEE Transactions on Multimedia», «Pattern Recognition Letters». Многие передовые исследования размещены в виде препринтов на arXiv.org.

Степень разработанности темы. Различные аспекты проблем обработки, распознавания, анализа и синтеза бимодальных и мультисенсорных данных рассмотрены в работах А.А. Карпова, А.Л. Ронжина, О.О. Басова, И.А. Саитова, N. de Freitas, Stan Z. Li, A.K. Jain, B. Klare, K. Nandakumar, A. Ross, K. Wang, M. Zelezny, R. Chellappa, H. Kaya, X. Tang, X. Wang, X. Gao. Исследования в этой области обработки проводят ведущие отечественные и зарубежные научные и научно-технические организации: СПИИРАН, ТУСУР, Академия ФСО России, Oxford University, Chinese Academy of Sciences, University of Maryland, Michigan State University, Massachusetts Institute of Technology, University of West Bohemia in Pilsen, Namik Kemal University, Chinese University of Hong Kong, Xidian

1 Модальность — способ представления информации, пригодный для восприятия человеком.

2Скетчи — фотороботы и рисунки, выполненные художником вручную или на компьютере.

University, The Hong Kong Polytechnic University, Google DeepMind, Microsoft Corporation, Rank One Computing.

Рассматриваемая область включает широкий спектр задач: от распознавания речи по голосу и лицу до поиска преступников по фотороботам. Под каждую из этих задач разработан ряд узкоспециализированных решений, позволяющих решать их достаточно эффективно. При этом на сегодняшний день не предложена технология, позволяющая решать вышеупомянутые задачи на основе одних и тех же принципов, моделей, методов и алгоритмов. Такая технология позволила бы реализовать операции по анализу и обработке бимодальных и мультисенсор-ных данных в рамках универсального набора программных модулей.

При разработке такой технологии возникают два аспекта, первый из которых — получение, предобработка и подготовка исходных данных. В связи с этим решаются задачи детектирования (поиска) лиц на изображении, трекинга (отслеживания) лиц в видеопотоке, удаления шума из аудиозаписей, синхронизации аудио- и видеопотоков. Несмотря на обилие разнообразных решений в данной области, класс исходных данных настолько широк, что порождает потребность в новых методах и алгоритмах.

Второй аспект — объединение бимодальных и мультисенсорных данных, выполняемое на основе слияния3, взаимной реконструкции (двунаправленного преобразования) и генерации популяций (наборов подобных, но не идентичных данных). Один из путей реализации этих операций — использование глубоких нейронных сетей, которые позволяют достичь высокой точности и надёжности. Однако это требует больших обучающих выборок, а в случае бимодальных и мультисенсорных данных такие выборки зачастую недоступны.

Альтернативой глубоким нейронным сетям являются методы проекции в собственные пространства4 (или проекционные методы): анализ главных компонент, линейный дискриминантный анализ, канонический корреляционный анализ и метод частичных наименьших квадратов5. Основная идея этих методов, предложенная ещё в первой половине XX века, заключается в построении собственных базисов. Свойства эти базисов позволяют легко решать задачи взаимной реконструкции данных и генерации популяций. Проекционные методы универсальны, математически обоснованны, интерпретируемы и при этом не требуют объёмных обучающих выборок (как методы глубокого обучения).

Проблемой является то, что проекционные методы не были разработаны для обработки объектов, представленных в матричной форме. К таким объектам относятся изображения и видеозаписи. В этом случае проявляется проблема малой выборки, а при увеличении объёма выборок необходимо решать задачи на

3англ. fusion, в русскоязычной литературе иногда используют термин «фузирование»

4Под собственным пространством понимается линейное пространство, порождённое собственным базисом. В свою очередь, собственный базис — это система базисных векторов, являющаяся решением некоторой задачи на собственные значения

5Principal Component Analysis (PCA), Linear Discriminant Analysis (LDA), Canonical Correlation Analysis (CCA), Partial Least Squares (PLS).

собственные значения высокой размерности. Это приводит к большим вычислительным затратам и неустойчивости получаемых решений. Преодолеть эти трудности можно с помощью двумерных проекционных методов6. Они были предложены недавно, а возможности их применения к задачам обработки бимодальных и мультисенсорных данных изучены недостаточно глубоко.

Таким образом, актуальна задача разработки и исследования моделей, методов и алгоритмов взаимной реконструкции мультисенсорных лицевых и голосовых данных на основе проекционных методов (в том числе двумерных). При этом важно учитывать особенности получения, предобработки и подготовки исходных данных.

Целью диссертации является исследование и развитие проекционных методов и разработка на их базе решений для анализа и обработки мультисенсор-ных лицевых и голосовых данных в широком классе сценариев с высокой вычислительной эффективностью и при малых обучающих выборках.

Для достижения поставленной цели решались следующие задачи:

1. Исследование различных путей развития проекционных методов для анализа и обработки мультисенсорных лицевых и голосовых данных и выбор подходов для решения задачи их взаимной реконструкции.

2. Определение состава процедур предобработки и подготовки исходных данных (изображений, аудио- и видеозаписей), а также разработка в рамках этих процедур алгоритма трекинга лиц в видеопотоке.

3. Разработка методов взаимной реконструкции мультисенсорных лицевых и голосовых данных, учитывающих специфические особенности различных практических задач и сценариев.

4. Алгоритмическая и программная реализация разработанных на предыдущих этапах решений.

5. Экспериментальная оценка предложенных решений, выработка рекомендаций их по применению и дальнейшему развитию.

Объект исследования. Наборы бимодальных и мультисенсорных данных, модели, методы и алгоритмы их анализа, распознавания и обработки.

Предмет исследования. Проекционные методы как универсальный инструмент моделирования, анализа, обработки и распознавания мультисенсорных лицевых и голосовых данных.

Научная новизна. Задачи анализа и обработки мультисенсорных лицевых и голосовых данных рассмотрены в рамках единой концепции, предполагающей представление исходных данных и их взаимную реконструкцию в собственных пространствах. Развитые в диссертации проекционные методы позволяют решать широкий класс задач на основе одних и тех же принципов и одного общего набора алгоритмов и программных модулей. Более того, такой подход решает

6Подробное описание двумерных проекционных методов, их характеристик и способов применения можно найти в монографии «Кухарев Г А. и др. Методы обработки и распознавания изображений лиц в задачах биометрии / под ред. Хитрова М.В. СПб.: Политехника, 2013. 388 с.»

все основные проблемы, следующие из различной природы исходных данных. При этом разработаны:

1. Алгоритм трекинга лиц в видеопотоке, основанный на бинарных дескрипторах и модели движения с тремя степенями свободы и учитывающий накопленную ошибку трекинга. Этот алгоритм позволяет выполнять обработку видеопотока в связке с различными детекторами лиц при высоком быстродействии и сравнимом с аналогом качестве трекинга.

2. Набор методов взаимной реконструкции мультисенсорных изображений лиц, позволяющих повысить подобие между исходными данными в соответствующих парах; обладающих устойчивостью к искажениям (шумам и снижению разрешения) обрабатываемых изображений лиц и не зависящих от сенсорной природы исходных данных. Эти методы характеризуются меньшей вычислительной сложностью при реализации и универсальностью, поскольку позволяют совместить реконструкцию с генерацией популяций.

3. Метод реконструкции контура рта по голосу на основе построения регрессионной модели в собственных пространствах, отличающийся отсутствием потребности в объёмной обучающей выборке, низкой вычислительной сложностью и возможностью реконструкции на неограниченном наборе фраз.

Кроме того, экспериментально подтверждена практическая применимость предложенных решений в широком классе сценариев.

Основные положения, выносимые на защиту:

1. Утверждается, что идеи, лежащие в основе алгоритма трекинга лиц в видеопотоке, позволяют улучшить быстродействие трекинга относительно существующих решений при сопоставимом качестве.

2. Показано, что взаимная реконструкция мультисенсорных изображений лиц реализуется в собственных пространствах единообразно и независимо от сенсорной природы исходных данных. При этом такой подход обладает широкой областью применения (что достигается в том числе за счёт генерации популяций), а использование двумерных проекционных методов позволяет существенно снизить вычислительные затраты.

3. Доказывается, что регрессионная модель, построенная в собственных пространствах, позволяет реконструировать контур рта по голосу на неограниченном наборе фраз с высокой точностью при низких вычислительных затратах.

Методология и методы исследования. Диссертация основана на методологии машинного обучения и компьютерного зрения. Исследования опираются на методы цифровой обработки изображений и сигналов, распознавания образов, проекции в собственные пространства, регрессионного анализа.

Достоверность научных положений, результатов и практических рекомендаций, представленных в настоящей диссертации, подтверждается корректной и обоснованной постановкой задач, экспертной оценкой, результатами экспериментальных исследований и внедрением на практике.

Теоретическая значимость работы заключается в развитии проекцион-

ных методов в приложении к задачам анализа и обработки мультисенсорных ли-

цевых и голосовых данных и решении этих задач в рамках единой концепции, предполагающей их представление и взаимную реконструкцию в собственных пространствах.

Практическая значимость работы. Область применения полученных результатов включает лицевые биометрические системы поиска и контроля доступа, автоматические системы видеонаблюдения, аудиовизуальные системы контроля доступа по лицу и голосу, мультимедийные и анимационные приложения.

Внедрение результатов работы. Результаты диссертационной работы внедрены в учебный процесс по магистерской образовательной программе «Речевые информационные системы» в дисциплине «Многомодальные биометрические системы». Кроме того, полученные результаты использовались при выполнении следующих прикладных научных исследований:

- «Разработка технологии автоматической бимодальной верификации по лицу и голосу с защитой от использования подложных биометрических образцов», соглашение №14.578.21.0189 от 03.10.2016, НИР № 360994.

- «Разработка прикладного решения применения современных нейросе-тевых методов с использованием различных архитектур нейронных сетей для решения задачи выделения и записи речи заданного источника в шумовом окружении с использованием массива удаленных микрофонов», соглашение №14.575.21.0132 от 26.09.2017, НИР № 370116.

- НИР «Методы, модели и технологии искусственного интеллекта в биоинформатике, социальных медиа, киберфизических, биометрических и речевых системах» (проект 5-100) № 718574.

Апробация результатов работы. Результаты исследования были представлены на внутривузовских, всероссийских и международных конференциях: XLIV, XLV, XLVI и XLVII научной и учебно-методической конференции Университета ИТМО (Санкт-Петербург, 2015-2018); IV, V, VI и VII всероссийском конгрессе молодых учёных (Санкт-Петербург, 2015-2018); International Conference on Image Analysis and Recognition (ICIAR) (Повуа-ди-Варзин, Португалия, 2016); International Conference on Computer Vision and Graphics (ICCVG) (Варшава, Польша, 2016). Автор награждён дипломами за лучший доклад на IV и VI всероссийском конгрессе молодых учёных и вошёл в число победителей конкурса грантов 2018 года для студентов вузов, расположенных на территории Санкт-Петербурга, аспирантов вузов, отраслевых и академических институтов, расположенных на территории Санкт-Петербурга.

Личный вклад автора включает представление общей схемы и деталей

решения задач анализа и обработки лицевых и голосовых данных на базе развитых в диссертации проекционных методов и алгоритма трекинга лиц; разработку набора методов взаимной реконструкции мультисенсорных лицевых и голосовых данных для различных типовых сценариев; реализующий предложенные решения пакет программ, применяемый в качестве инструмента моделирования работы систем совместной обработки лицевых и голосовых данных.

Публикации. Основные результаты по теме диссертации изложены в 14 публикациях. Из них 4 изданы в журналах, рекомендованных ВАК, 3 опубликованы в изданиях, индексируемых в базе цитирования Scopus. Также имеется патент на изобретение и 2 свидетельства о государственной регистрации программ для ЭВМ.

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Заключение диссертации по теме «Теоретические основы информатики», Олейник Андрей Леонидович

Заключение

В работе рассмотрена задача выявления скрытых связей между звуковой и визуальной модальностями речевого сигнала и их взаимной реконструкции. Предложенный подход основан на проекционных и регрессионных методах - PCA, MLR и регрессии PLS. Кроме того, для повышения точности реконструкции использована кластеризация на основе алгоритма K-средних.

Эксперименты по реконструкции контура рта по голосу проведены на аудиовизуальной англоязычной базе VidTIMIT. Представлены варианты реализации предложенного подхода на основе PCA и регрессии PLS с предварительной кластеризацией звуковых признаков и без нее (всего четыре варианта). Как количественная (объективная), так и качественная (субъективная) оценки подтвердили работоспособность предложенного подхода; наилучшие результаты показала реализация на основе регрессии PLS с кластеризацией.

Несмотря на то, что кластеризация несколько улучшает качество реконструкции, она несколько усложняет систему и увеличивает вычислительные затраты. По этой причине во многих случаях обоснован отказ от этого этапа в пользу простой линейной модели.

Одним из важных преимуществ предложенного подхода является отсутствие потребности в объемной обучающей выборке (достаточно всего 12 минут речи), что также подтверждено результатами экспериментов. Следует отметить, что по сравнению с методами PCA и MLR регрессия PLS позволяет добиться более высокого качества реконструкции при меньшем количестве компонент. При этом показано, что использование меньшего количества компонент позволяет существенно снизить вычислительные затраты.

На основе предложенного подхода могут быть разработаны разнообразные решения: бимодальные биометрические системы, управляемые голосом виртуальные двойники («аватары»), системы контроля доступа к мобильным устройствам и другие решения в области аудиовизуальных человеко-машинных интерфейсов.

Так как исследования проводились только на одной базе, неизвестно, насколько хорошо построенные модели будут работать в произвольных условиях. Однако поскольку обучение системы возможно без объемной обучающей выборки, проверка пригодности предложенных решений для той или иной практической задачи не требует больших трудозатрат.

Одним из возможных путей повышения качества реконструкции и надежности предложенного решения является замена MFCC на другой экстрактор голосовых признаков, хорошо работающий в сложных условиях. Такой экстрактор может обучаться совместно с регрессионной моделью подобно тому, как это делается в методе «глубокого канонического корреляционного анализа» (Deep CCA) [32], однако следует понимать, что в этом случае может потребоваться обучающая выборка гораздо большего объема. Кроме того, предложенная модель не учитывает тот факт, что некоторые звуки, играющие важную роль в восприятии смысла предложения (например, взрывные согласные), занимают лишь малую долю всей

временной шкалы. Отразить эту особенность в модели можно, если делать выборку звуковых признаков с разной частотой, определяемой характером самого речевого сигнала.

Список литературы диссертационного исследования кандидат наук Олейник Андрей Леонидович, 2018 год

Литература

1. Иванько Д.В., Карпов А.А. Анализ перспектив применения высокоскоростных камер для распознавания динамической видеоинформации // Труды СПИИРАН. 2016. № 1. С. 98113. doi: 10.15622/SP.44.7

2. McGurk H., MacDonald J. Hearing lips and seeing voices // Nature. 1976. V. 264. N 5588. P. 746-748.

3. Atrey P.K., Hossain M.A., El Saddik A., Kankanhalli M.S. Multimodal fusion for multimedia analysis: a survey // Multimedia Systems. 2010. V. 16. N 6. P. 345-379. doi: 10.1007/s00530-010-0182-0

4. Nefian A.V., Liang L., Pi X. et al. A coupled HMM for audiovisual speech recognition // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing. 2002. V. 2. P. 2013-2016. doi: 10.1109/ICASSP.2002.5745027

5. Карпов А.А. Реализация автоматической системы многомодального распознавания речи по аудио- и видеоинформации // Автоматика и телемеханика. 2014. № 12. С. 125-138.

6. Pachoud S., Gong S., Cavallaro A. Space-time audio-visual speech recognition with multiple multi-class probabilistic support vector machines // Proc. Auditory-Visual Speech Processing AVSP. Norwich, UK, 2009. P. 155-160.

7. Hammami I., Mercies G., Hamouda A. The Kohonen map for credal fusion of heterogeneous data // Proc. IEEE International Geoscience and Remote Sensing Symposium (IGARSS). Milan, Italy, 2015. P. 2947-2950. doi: 10.1109/IGARSS.2015.7326433

8. Hochreiter S., Schmidhuber J. Long short-term memory // Neural Computation. 1997. V. 9. N 8. P. 1735-1780. doi: 10.1162/neco.1997.9.8.1735

9. Jaeger H. The «echo state» approach to analysing and training recurrent neural networks - with an erratum note // GMD Technical Report 148, German National Research Center for Information Technology, 2001. 13 p.

10. LeCun Y. et al. Gradient-based learning applied to document recognition // Proceedings of the IEEE. 1998. V. 86. N 11. P. 2278-2324. doi: 10.1109/5.726791

11. Hou J.-C., Wang S.S., Lai Y.H., Tsao Y., Chang H.W., Wan H.M. Audio-visual speech enhancement based on multimodal deep convolutional neural network // ArXiv Prepr. ArXiv170310893. 2017.

12. Noda K., Yamaguchi Y., Nakadai K., Okuno H.G., Ogata T. Audio-visual speech recognition using deep learning // Applied Intelligence. 2015. V. 42. N 4. P. 722-737. doi: 10.1007/s10489-014-0629-7

13. Ren J., Hu Y., Tai Y.W. et al. Look, listen and learn - a multimodal LSTM for speaker identification // Proc. 30th AAAI Conference on Artificial Intelligence. Phoenix, USA, 2016. P. 3581-3587.

14. Кухарев Г.А., Каменская Е.И., Матвеев Ю.Н., Щеголева Н.Л. Методы обработки и распознавания изображений лиц в задачах биометрии / под ред. М.В. Хитрова. СПб.: Политехника, 2013. 388 с.

15. Meng H., Huang D., Wang H., Yang H., Al-Shuraifi M., Wang Y. Depression recognition based on dynamic facial and vocal expression features using partial least square regression // Proc. 3rd ACM International Workshop on Audio/Visual Emotion Challenge (AVEC 2013). Barselona, Spain, 2013. P. 21-29. doi: 10.1145/2512530.2512532

16. Liu M., Wang R., Huang Z., Shan S., Chen X. Partial least squares regression on grassmannian manifold for emotion recognition // Proc. 15th ACM on Int. Conf. on Multimodal Interaction. Sydney, Australia, 2013. P. 525-530. doi: 10.1145/2522848.2531738

17. Bakry A., Elgammal A. MKPLS: Manifold kernel partial least squares for lipreading and speaker identification // Proc. 26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2013). Portland, USA, 2013. P. 684-691. doi: 10.1109/CVPR.2013.94

18. Sargin M.E., Yemez Y., Erzin E., Tekalp A.M. Audiovisual synchronization and fusion using canonical correlation analysis

References

1. Ivanko D.V., Karpov A. A. An analysis of perspectives for using high-speed cameras in processing dynamic video information. SPIIRAS Proceedings, 2016, no. 1, pp. 98-113. doi: 10.15622/SP.44.7 (In Russian)

2. McGurk H., MacDonald J. Hearing lips and seeing voices. Nature, 1976, vol. 264, no. 5588, pp. 746-748.

3. Atrey P.K., Hossain M.A., El Saddik A., Kankanhalli M.S. Multimodal fusion for multimedia analysis: a survey. Multimedia Systems, 2010, vol. 16, no. 6, pp. 345-379. doi: 10.1007/s00530-010-0182-0

4. Nefian A.V., Liang L., Pi X. et al. A coupled HMM for audiovisual speech recognition. Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing, 2002, vol. 2, pp. 2013-2016. doi: 10.1109/ICASSP.2002.5745027

5. Karpov A. An automatic multimodal speech recognition system with audio and video information. Automation and Remote Control, 2014, vol. 75, no. 12, pp. 2190-2200. doi: 10.1134/S000511791412008X

6. Pachoud S., Gong S., Cavallaro A. Space-time audio-visual speech recognition with multiple multi-class probabilistic support vector machines. Proc. Auditory-Visual Speech Processing AVSP. Norwich, UK, 2009, pp. 155-160.

7. Hammami I., Mercies G., Hamouda A. The Kohonen map for credal fusion of heterogeneous data. Proc. IEEE International Geoscience and Remote Sensing Symposium, IGARSS. Milan, Italy, 2015, pp. 2947-2950. doi: 10.1109/IGARSS.2015.7326433

8. Hochreiter S., Schmidhuber J. Long short-term memory. Neural Computation, 1997, vol. 9, no. 8, pp. 1735-1780. doi: 10.1162/neco.1997.9.8.1735

9. Jaeger H. The «echo state» approach to analysing and training recurrent neural networks - with an erratum note. GMD Technical Report 148, German National Research Center for Information Technology, 2001, 13 p.

10. LeCun Y. et al. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998, vol. 86, no. 11, pp. 2278-2324. doi: 10.1109/5.726791

11. Hou J.-C., Wang S.S., Lai Y.H., Tsao Y., Chang H.W., Wan H.M. Audio-visual speech enhancement based on multimodal deep convolutional neural network. ArXiv Prepr, ArXiv170310893, 2017.

12. Noda K., Yamaguchi Y., Nakadai K., Okuno H.G., Ogata T. Audio-visual speech recognition using deep learning. Applied Intelligence, 2015, vol. 42, no. 4, pp. 722-737. doi: 10.1007/s10489-014-0629-7

13. Ren J., Hu Y., Tai Y.W. et al. Look, listen and learn - a multimodal LSTM for speaker identification. Proc. 30th AAAI Conference on Artificial Intelligence. Phoenix, USA, 2016, pp. 3581-3587.

14. Kukharev G.A., Kamenskaya E.I., Matveev Y.N., Shchegoleva N.L. Methods for Face Image Processing and Recognition in Biometric Applications. Ed. M.V. Khitrov. St. Petersburg, Politekhnika Publ., 2013, 388 p. (In Russian)

15. Meng H., Huang D., Wang H., Yang H., Al-Shuraifi M., Wang Y. Depression recognition based on dynamic facial and vocal expression features using partial least square regression. Proc. 3rd ACM International Workshop on Audio/Visual Emotion Challenge, AVEC 2013. Barselona, Spain, 2013, pp. 21-29. doi: 10.1145/2512530.2512532

16. Liu M., Wang R., Huang Z., Shan S., Chen X. Partial least squares regression on grassmannian manifold for emotion recognition. Proc. 15th ACM on Int. Conf. on Multimodal Interaction. Sydney, Australia, 2013, pp. 525-530. doi: 10.1145/2522848.2531738

17. Bakry A., Elgammal A. MKPLS: Manifold kernel partial least squares for lipreading and speaker identification. Proc. 26th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2013. Portland, USA, 2013, pp. 684-691. doi: 10.1109/CVPR.2013.94

18. Sargin M.E., Yemez Y., Erzin E., Tekalp A.M. Audiovisual

// IEEE Transactions on Multimedia. 2007. V. 9. N 7. P. 13961403. doi: 10.1109/TMM.2007.906583

19. Sigg C., Fischer B., Ommer B., Roth V., Buhmann J. Nonnegative CCA for audiovisual source separation // Proc. 17th IEEE Int. Workshop on Machine Learning for Signal Processing. Thessaloniki, Greece, 2007. P. 253-258. doi: 10.1109/MLSP.2007.4414315

20. Lee J.-S., Ebrahimi T. Two-level bimodal association for audiovisual speech recognition // Lecture Notes in Computer Science. 2009. V. 5807. P. 133-144. doi: 10.1007/978-3-642-04697-1_13

21. De Bie T., Cristianini N., Rosipal R. Eigenproblems in pattern recognition / In: Handbook of Geometric Computing. Ed. E.B. Corrochano. Berlin, Springer, 2005. P. 129-167. doi: 10.1007/3-540-28247-5_5

22. Эсбенсен К. Анализ многомерных данных. Черноголовка: ИПХФ РАН, 2005. 160 с.

23. Prasad N.V., Umesh S. Improved cepstral mean and variance normalization using Bayesian framework // Proc. 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. 2013. P. 156-161. doi: 10.1109/ASRU.2013.6707722

24. OpenCV Library [Электронный ресурс]. URL: http://opencv.org (дата обращения: 20.01.2018).

25. Kazemi V., Sullivan J. One millisecond face alignment with an ensemble of regression trees // Proc. IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014. P. 1867-1874. doi: 10.1109/CVPR.2014.241

26. dlib C++ Library [Электронный ресурс]. URL: http://dlib.net (дата обращения: 20.01.2018).

27. Олейник А.Л. Применение метода частичных наименьших квадратов для обработки и моделирования аудиовизуальной речи // Научно-технический вестник информационных технологий, механики и оптики. 2015. Т. 15. № 5. С. 886-892. doi: 10.17586/2226-1494-2015-15-5-886-892

28. SoX - Sound eXchange. HomePage [Электронный ресурс]. URL: http://sox.sourceforge.net (дата обращения: 09.09.2017).

29. Wojcicki K. Mel Frequency Cepstral Coefficient Feature Extraction [Электронный ресурс]. Режим доступа: www.mathworks.com/matlabcentral/fileexchange/32849-htk-mfcc-matlab свободный. Яз. англ. (дата обращения: 20.01.2018).

30. The VidTIMIT Audio-Video Database [Электронный ресурс]. URL: http://conradsanderson.id.au/vidtimit/ (дата обращения: 20.01.2018).

31. Sanderson C., Lovell B.C. Multi-region probabilistic histograms for robust and scalable identity inference // Lecture Notes in Computer Science. 2009. V. 5558. P. 199-208. doi: 10.1007/978-3-642-01793-3_21

32. Benton A., Khayrallah H., Gujral B., Reisinger D.A., Zhang S., Arora R. Deep generalized canonical correlation analysis // arXiv:1702.02519. 2017. 14 p.

Авторы

Олейник Андрей Леонидович - аспирант, Университет ИТМО,

Санкт-Петербург, 197101, Российская Федерация, Scopus ID:

57190279071, ORCID ID: 0000-0001-9425-2572,

aoleinik@corp.ifmo.ru

synchronization and fusion using canonical correlation analysis. IEEE Transactions on Multimedia, 2007, vol. 9, no. 7, pp. 1396-1403. doi: 10.1109/TMM.2007.906583

19. Sigg C., Fischer B., Ommer B., Roth V., Buhmann J. Nonnegative CCA for audiovisual source separation. Proc. 17th IEEE Int. Workshop on Machine Learning for Signal Processing. Thessaloniki, Greece, 2007, pp. 253-258. doi: 10.1109/MLSP.2007.4414315

20. Lee J.-S., Ebrahimi T. Two-level bimodal association for audio-visual speech recognition. Lecture Notes in Computer Science, 2009, vol. 5807, pp. 133-144. doi: 10.1007/978-3-642-04697-1_13

21. De Bie T., Cristianini N., Rosipal R. Eigenproblems in pattern recognition. In: Handbook of Geometric Computing. Ed. E.B. Corrochano. Berlin, Springer, 2005, pp. 129-167. doi: 10.1007/3-540-28247-5_5

22. Esbensen K.H. Multivariate Date Analysis — In Practice. 5th ed. Oslo, Norway, CAMO Process AS, 2002, 598 p.

23. Prasad N.V., Umesh S. Improved cepstral mean and variance normalization using Bayesian framework. Proc. 2013 IEEE Workshop on Automatic Speech Recognition and Understanding, 2013, pp. 156-161. doi: 10.1109/ASRU.2013.6707722

24. OpenCV Library. URL: http://opencv.org (accessed: 20.01.2018).

25. Kazemi V., Sullivan J. One millisecond face alignment with an ensemble of regression trees. Proc. IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014, pp. 1867-1874. doi: 10.1109/CVPR.2014.241

26. dlib C++ Library. URL: http://dlib.net (accessed: 20.01.2018).

27. Oleinik A.L. Application of Partial Least Squares regression for audio-visual speech processing and modeling. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2015, vol. 15, no. 5, pp. 886-892. (In Russian) doi: 10.17586/2226-1494-2015-15-5-886-892

28. SoX - Sound eXchange. HomePage. URL: http://sox.sourceforge.net (accessed: 09.09.2017).

29. Wojcicki K. Mel Frequency Cepstral Coefficient Feature Extraction. Available at: www.mathworks.com/matlabcentral/fileexchange/32849-htk-mfcc-matlab (accessed: 20.01.2018).

30. The VidTIMIT Audio-Video Database. URL: http://conradsanderson.id.au/vidtimit/ (accessed: 20.01.2018).

31. Sanderson C., Lovell B.C. Multi-region probabilistic histograms for robust and scalable identity inference. Lecture Notes in Computer Science, 2009, vol. 5558, pp. 199-208. doi: 10.1007/978-3-642-01793-3_21

32. Benton A., Khayrallah H., Gujral B., Reisinger D.A., Zhang S., Arora R. Deep generalized canonical correlation analysis. ArXiv Prepr, ArXiv1702.02519, 2017, 14 p.

Authors

Andrey L. Oleinik - postgraduate, ITMO University, Saint Petersburg, 197101, Russian Federation, Scopus ID: 57190279071, ORCID ID: 0000-0001-9425-2572, aoleinik@corp.ifmo.ru