Автоматическое чтение по губам с помощью LIpsID-признаков тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Главач Мирослав
- Специальность ВАК РФ05.13.17
- Количество страниц 156
Оглавление диссертации кандидат наук Главач Мирослав
Содержание
Содержание
Реферат
Synopsis
I Introduction
1. Introduction
2. Lipreading
2.1 Human lipreading
2.2 Automated lipreading
2.2.1 Visual Features Extraction
2.2.2 Extracted Features Processing
3. Dissertation Goals
3.1 Visual Speech Features Representation
3.2 New feature extraction method development
3.3 DNN Based Visual Speech Recognition
II Methodology
4. Statistical Models
4.1 Statistical Models of Shape
4.1.1 Landmarks
4.1.2 Aligning the Training Set
4.1.3 Modelling the Shape Variance
4.1.4 Model Generation and Constraints
4.1.5 Fitting the Model to New Points
4.2 Statistical Model of Appearance
4.2.1 Statistical Model of Texture
4.2.2 Combined Appearance Model
4.2.3 Image Warping
4.3 Active Shape Model
4.3.1 Modelling Local Structure
4.4 Active Appearance Model
4.4.1 AAM Search
4.4.2 Learning the Relation between 5c and SI
4.4.3 Iterative Model Refinement
5. Neural Networks
5.1 Artificial Neuron
5.1.1 Activation Functions
5.2 Neural Network Topology
5.2.1 Fully Connected Layer
5.2.2 Convolutional Layer
5.2.3 Response Normalisation Layers
5.2.4 Pooling Layers
5.2.5 Recurrent Layers
5.2.6 Softmax Layer
5.3 Training the Network
5.3.1 Cost Functions
5.3.2 Optimisation Algorithms
5.4 Deep Learning Frameworks
5.4.1 Caffe
5.4.2 Theano
5.4.3 Tensorflow
5.4.4 Torch7
5.4.5 CNTK
6. State-of-the-art methods for feature extraction and visual speech recognition
6.1 State-of-the-Art Methods for feature extraction
6.1.1 Chehra
6.1.2 Ensemble of Regression Trees
6.1.3 Improving Visual Features for Lip-reading
6.1.4 Per-speaker z-score Normalisation
6.1.5 VGG
6.1.6 ResNet
6.2 Visual Speech Recognition
6.2.1 View Independent Computer Lip-reading
6.2.2 Adaptive Multimodal Fusion by Uncertainty Compensation
6.2.3 LSTM Lipreading
6.2.4 Lip Reading in the Wild
6.2.5 LipNet
6.2.6 WLAS network
6.2.7 Transformer network
7. Datasets
7.1 Landmark and Object Detection Datasets
7.1.1 Helen
7.1.2 LFPW
7.1.3 ILSVRC2012
7.2 Audio-visual Speech Recognition Datasets
7.2.1 LiLIR
7.2.2 OuluVS
7.2.3 AV-TIMIT
7.2.4 TCD-TIMIT
7.2.5 AVICAR
7.2.6 GRID
7.2.7 LRW
7.2.8 LRS
IIIContribution to the state-of-the-art
8. Visual speech features analysis
8.1 Geometric features
8.2 Appearance features
8.3 Deep features
8.4 Feature use analysis
8.4.1 Height and width
8.4.2 Mutual information
8.4.3 Image quality
8.4.4 Appearance of tongue and teeth
8.4.5 DCT features
8.5 UWB-HSCAVC dataset extension
9. LipsID
9.1 Development of new deep visual features
9.2 LipsID using 3D convolutions
9.3 LipsID using ArcFace
9.4 Final form of LipsID features
10.Lipreading Experiments
10.1 The problem of feature normalisation
10.2 LipNet with LipsID
10.2.1 Results
10.3 AVSR with LipsID
10.3.1 Testing with TCD-TIMIT dataset
IVConclusion
11.Conclusio n
11.1 Thesis summary
11.2 Dissertation goals
11.2.1 Visual Speech Features Representation
11.2.2 New Feature Extraction Method Development
11.2.3 DNN Based Visual Speech Recognition
11.3 Future work
Список рисунков
Список таблиц
Список литературы
Публикации автора по теме диссертации
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Автоматическое распознавание аудиовизуальной русской речи2020 год, кандидат наук Иванько Денис
Робастное распознавание речи для низко-ресурсных языков2020 год, кандидат наук Романенко Алексей Николаевич
Гетерогенное распознавание лиц по эскизам лица2019 год, кандидат наук Грубер Иван
Автоматическое распознавание эмоциональных состояний дикторов по голосовым характеристикам и тональности текста высказывания2021 год, кандидат наук Верхоляк Оксана Владимировна
Синтез изображений лиц на основе генеративных методов машинного обучения с применением к распознаванию лиц2022 год, кандидат наук Зено Бассель
Введение диссертации (часть автореферата) на тему «Автоматическое чтение по губам с помощью LIpsID-признаков»
РЕФЕРАТ
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы диссертационной работы связана с исследовательским проектом, который был начат во время обучения в магистратуре. Проект был направлен на помощь людям с ограниченными возможностями здоровья. Инвалиды без голосовых связок воспроизводят звук на специальном устройстве Electrolarynx, которое помогает им воспроизводить речь, генерируя базовую частоту в 400 Гц. Одновременно человек использует оставшуюся часть своего голосового аппарата для создания слышимой речи. Этот процесс сильно зависит от способности говорящего произносить слова. Другие люди могут испытывать трудности с пониманием людей с ограниченными возможностями, поскольку речь основана на одной основной частоте. Чтобы помочь людям с ограниченными возможностями, сделана попытка разработать устройство для распознавания их аудиовизуальной речи. Задача визуального распознавания речи вызвана способностью человека распознавать произнесенные слова без наличия звука. Для имитации этой способности были разработаны различные методы. Задача нетривиальна, так как большая часть информации о речи кодируется в аудиосигнале. Человек, читающий речь по губам, должен знать данный естественный язык, чтобы распознавать произносимые слова. Методы, используемые для визуального распознавания речи, пока не дают выдающихся результатов, поэтому данное направление исследований актуально. В дальнейшем анализе области визуального распознавания речи были также обнаружены недостатки методов, используемых для чтения по губам.
Степень разработки проблемы. Тема автоматического визуального распознавания речи довольно популярна в мире. Современные методы в основном используют глубокие нейронные сети. Обзор методов включен в диссертацию. Подходы в целом можно разделить на две группы: 1) используются только визуальные данные (LipNet (1)), 2) используются аудиовизуальные данные (WLAS, AVSR network (2; 3)).
Объектом исследования является разработка метода адаптации современных систем чтения речи по губам на основе распознавания личности говорящего.
Целью данного исследования является повышение точности системы считывания речи с губ. Исследование соответствует паспорту специальности 05.13.17, в частности, пунктам 5, 6, 7.
Задачи исследования:
- анализ современных визуальных признаков речи, используемых для автоматического чтения по губам;
- анализ наборов данных, подходящих для задачи визуального распознавания речи;
- разработка нового набора визуальных признаков, пригодных для добавления в нейро-сетевые методы для распознавания речи по губам;
- экспериментальное исследование предложенных признаков с использованием существующих систем для проверки улучшения скорости распознавания визуальной речи.
Научная новизна работы заключается в улучшении текущих результатов в области автоматического чтения речи по губам диктора. Это достигается путем введения дополнительных визуальных признаков, основанных на распознавании личности диктора.
На защиту выносятся:
- Новые визуальные признаки LipsID и метод их автоматического извлечения.
- Повышение скорости распознавания речи по губам за счет использования признаков LipsID.
Диссеминация результатов представлена публикациями и докладами на международных научных конференциях, семинарах и совещаниях, в том числе:
- 1st International Conference on Interactive Collaborative Robotics (ICR), 2016, Будапешт, Венгрия
- 19th International Conference on Speech and Computer (SPECOM), 2017, Хатфилд, Великобритания
- 20th International Conference on Speech and Computer (SPECOM), 2018, Лейпциг, Германия
- Студенческие научные конференции в Университете Западной Богемии, 2012-2018, Пльзень, Чехия
Практическая значимость основных результатов подтверждается в следующих проектах: Assistive Mobile Information Robot (AMIR) (совместный проект Западночешского университета и СПИИРАН, Санкт-Петербург) и Многомодальное человеко-машинное взаимодействие (исследовательский проект Западночешского университета).
Публикации. На эту тему были опубликованы 3 статьи, которые проиндексированы в SCOPUS, а также еще 7 статей, связанных с этой работой, были опубликованы и представлены в молодежных конференциях и изданиях
Личный вклад автора состоит в разработке метода извлечения визуальных признаков LipsID и внедрение их в современные системы чтения речи по губам диктора.
Структура работы. Диссертация состоит из четырех частей (первая часть - введение, вторая часть - методология, третья часть - вклад, четвертая часть - заключение), приложения и списка использованной литературы (содержит 100 источников). Содержит 95 страниц текста.
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Контекстно-зависимое распознавание эмоций на основе многомодальных данных2020 год, кандидат наук Федотов Дмитрий Валерьевич
Многозначная классификация и распознавание именованных сущностей на основе переноса обучения по зашумленным меткам для малоресурсных языков2023 год, кандидат наук Шахин Зейн
Методы машинного обучения для сквозных систем автоматического распознавания речи2023 год, кандидат наук Лаптев Александр Алексеевич
Математическое обеспечение визуального распознавания русской речи в ассистивных транспортных системах2023 год, кандидат наук Аксёнов Александр
Методы создания и использования речевых баз данных и инструментальных средств анализа и исследования речи для развития речевых технологий2013 год, кандидат наук Богданов, Дмитрий Степанович
Заключение диссертации по теме «Теоретические основы информатики», Главач Мирослав
Заключение. В ходе выполнения диссертационной работы получены следующие основные результаты:
- выполнен обзор визуальных признаков, используемых в настоящее время для чтения речи по губам, а также оценка их применимости для обучения нейронных сетей;
- расширен корпус визуальных данных UWB-HSCAVC новым набором ключевых точек;
- разработан полуавтоматический метод создания набора данных;
- разработан новый набор визуальных признаков LipsID и метод для их извлечения.
- выполнено внедрение признаков LipsID в современные системы распознавания речи по губам и их экспериментальное исследование.
Список литературы диссертационного исследования кандидат наук Главач Мирослав, 2019 год
Список публикаций
Публикации индексируемых в SCOPUS:
Ivan Gruber, Miroslav Hlavac, Marek Hruz, Milos Zelezny, and Alexey Karpov. An analysis of visual faces datasets. In Lecture Notes in Computer Science . Springer, 2016.
Miroslav Hlavac, Ivan Gruber, Milos Zelezny, and Alexey Karpov. Semi-automatic facial keypoint dataset creation. In Lecture Notes in Computer Science . Springer, 2017.
Miroslav Hlavac, Ivan Gruber, Milos Zelezny, and Alexey Karpov. LipsID using 3D convolutional neural networks. In Lecture Notes in Computer Science . Springer, 2018.
Прочие публикации по теме диссертации:
Miroslav Hlavac. Detection of lips in video sequences. Master Thesis. 2012. Miroslav Hlavac. Detekce rtu ve videozaznamech. SVK FAV. 2012. Miroslav Hlavac. Lips tracking using AAM. SVK FAV. 2013.
Miroslav Hlavac. Sledovani rtu v realnem case pomoci aktivnich kontur. SVK FAV. 2014. Miroslav Hlavac. Lips landmark detection using CNN. SVK FAV. 2016. Miroslav Hlavac. LipsID. SVK FAV. 2018.
Miroslav Hlavac and Alexey Karpov. LipsID detection with CNN. Almanac of Scientific Works. ITMO University. 2018.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.