Многомодальная мягкая биометрия в условиях частичного перекрытия лица тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Маркитантов Максим Викторович
- Специальность ВАК РФ00.00.00
- Количество страниц 408
Оглавление диссертации кандидат наук Маркитантов Максим Викторович
Table of contents
Реферат
Synopsis
Chapter 1 Introduction
1.1 Motivation of the research
1.2 Practical application areas
1.3 Main goal of the thesis
1.4 Thesis contributions
1.5 Outline
Chapter 2 Background and Related Research
2.1 Feature extraction
2.2 Data augmentation methods
2.3 Basic concepts of neural networks
2.3.1 Convolutional neural networks
2.3.2 Attention mechanisms
2.4 Performance measures
2.5 SOTA approaches for gender recognition and age estimation
2.5.1 Audio-based approaches
2.5.2 Video-based approaches
2.6 SOTA approaches for protective mask detection
2.6.1 Audio-based approaches
2.6.2 Video-based approaches
2.7 Summary
Chapter 3 Existing Data and New Data Collection
3.1 Existing data for gender recognition and age estimation
3.1.1 Audio-only corpora
3.1.2 Video-only corpora
3.1.3 Audio-visual corpora
3.2 Existing data for protective mask detection
3.2.1 Audio-only corpora
3.2.2 Video-only corpora
3.3 Method for creating audio-visual speech corpora in partially facial occlusion conditions
3.4 BRAVE-MASKS corpus collection
3.4.1 Requirements for corpus
3.4.2 General information about the collected corpus
3.4.3 Bimodal part
3.4.4 Unimodal part
3.4.5 Data annotation
3.5 Data preprocessing
3.6 Software tools
3.7 Summary
Chapter 4 Gender recognition and age estimation
4.1 Audio-based gender recognition and age estimation
4.1.1 Proposed approach
4.1.2 Experimental setup
4.1.3 Experimental results
4.2 Video-based gender recognition and age estimation
4.2.1 Proposed approach
4.2.2 Experimental setup
4.2.3 Experimental results
4.3 Audio-visual gender recognition and age estimation using MTCMA blocks
4.3.1 Proposed approach
4.3.2 Experimental results
4.4 Summary
Chapter 5 Protective mask detection on a person's face
5.1 Audio-based protective mask detection
5.1.1 Proposed approach
5.1.2 Experimental setup
5.1.3 Experimental results
5.2 Video-based protective mask detection
5.2.1 Proposed approach
5.2.2 Experimental setup
5.2.3 Experimental results
5.3 Audio-visual protective mask type recognition
5.3.1 Proposed approach
5.3.2 Experimental results
5.4 Summary
Chapter 6 Software system for multimodal multi-task gender
recognition and age estimation of a person in partial facial occlusion conditions
6.1 Architecture of software system
6.2 Experimental results
6.3 Summary
Chapter 7 Conclusions
7.1 Overall summary
7.2 Thesis contributions
7.2.1 Theoretical
7.2.2 Practical
7.2.3 Experimental
7.3 Future research
References
Acronyms
List of figures
List of tables
List of publications
List of patents, software, and databases
Appendix A Acts on the use and implementation of the results of
the dissertation research
Appendix B Texts of author's publications
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Автоматическое распознавание аудиовизуальной русской речи2020 год, кандидат наук Иванько Денис
Автоматическое распознавание эмоциональных состояний дикторов по голосовым характеристикам и тональности текста высказывания2021 год, кандидат наук Верхоляк Оксана Владимировна
Многомодальный контекстный анализ динамики аффективных состояний в коллаборативных группах пользователей2024 год, кандидат наук Дресвянский Денис Владиславович
Контекстно-зависимое распознавание эмоций на основе многомодальных данных2020 год, кандидат наук Федотов Дмитрий Валерьевич
Робастное распознавание речи для низко-ресурсных языков2020 год, кандидат наук Романенко Алексей Николаевич
Введение диссертации (часть автореферата) на тему «Многомодальная мягкая биометрия в условиях частичного перекрытия лица»
Реферат
Общая характеристика диссертации
Актуальность темы исследования. В последние годы биометрия стала неотъемлемой частью жизни людей. Так в некоторых странах без биометрических данных нельзя получить паспорт и визу. Правительственные организации различных стран считают, что биометрия - один из самых эффективных способов идентификации беженцев и тех, кто нелегально пересекает границу. По мере развития биометрических технологий необходимо признать вспомогательную роль "мягкой" (soft) биометрии, которая дополняет традиционные биометрические методы. Мягкая биометрия часто используется в сочетании с традиционными биометрическими характеристиками (отпечатками пальцев или сканами радужной оболочки глаза) для повышения точности и надежности биометрических систем. В отличие от традиционных биометрических характеристик, которые являются уникальными и трудноизменяемыми, мягкие биометрические данные являются более описательными и могут предоставлять информацию о человеке. Эта информация не обязательно является уникальной, но все же полезна для идентификации и верификации. Такие характеристики могут включать в себя широкий спектр физических и поведенческих признаков, таких как: черты лица или голосовые характеристики, особенности телосложения, походка и движение тела, а также манера поведения. В частности, к ним можно отнести пол и возраст человека. Хотя эти характеристики могут не быть уникальными для конкретного человека, они все равно могут предоставить ценную информацию для проверки личности.
Распознавание пола и возраста человека является актуальной темой исследования, которая привлекает внимание огромного количества ученых по всему миру. Современные технологии искусственного интеллекта ориентированы на анализ различных характеристик человека, включая его поведение, мимику и речь, которые могут использоваться в биометрических системах верификации и идентификации. Тем не менее автоматическое распознавание пола и определение возраста человека являются сложными задачами, и существующие коммерческие системы не справляются с реальными
сценариями, что делает данные проблемы актуальными. Большинство исследований по извлечению акустических, визуальных признаков и разработке машинного классификатора пола и возраста диктора по голосу или лицу пока не позволяют получить удовлетворительную точность распознавания. Извлечение такой информации осложняется влиянием таких факторов, как, например, фоновый шум, голосовая вариативность, плохое освещение, высокая степень окклюзии (перекрытия) или даже мимика лица. В реальных условиях лицо человека может быть перекрыто маской или различными предметами одежды, что затрудняет корректное распознавание биометрическими системами различных состояний человека, включая пол и возраст. Использование масок, которые обычно закрывают рот и часть носа, сокращает диапазон акустических и визуальных признаков, которые можно наблюдать и анализировать. Таким образом, основной задачей при определении пола и возраста человека является извлечение надежных признаков и разработка эффективного метода классификации. Использование средств индивидуальной защиты и обязательное ношение масок подтвердили недостатки существующих систем во время пандемии ООУГО-19. Биометрические системы, системы распознавания различных характеристик человека, столкнулись с серьезными проблемами в сложных условиях: точность распознавания этих систем заметно снизилась, а процент отказов увеличился в условиях частичного перекрытия лица.
Целью диссертационной работы является повышение качества работы биометрических систем посредством новых методов и алгоритмов распознавания пола и определения возраста человека в условиях частичного перекрытия лица.
Для достижения цели исследования поставлены следующие задачи:
1. Обзор и анализ современных подходов и методов распознавания пола, определения возраста и детектирования защитной маски на лице человека, включая исследование современных методов машинного обучения.
2. Разработка методики создания аудио-визуальных речевых корпусов, отличающаяся использованием индивидуальных средств защиты, спонтанной и читаемой речи, сбор и аннотирование русскоязычной базы аудио-визуальных данных с разноракурсными лицами людей в различных вариациях защитных масок и аудиозаписями слитной русской речи людей в масках, а также разработка экспериментальной
среды с подбором существующих аудио-визуальных корпусов данных и необходимого программного обеспечения.
3. Разработка подходов для автоматического многозадачного распознавания пола и определения возраста человека по голосовым и лицевым характеристикам: разработка методов, моделей, экспериментальные исследования, сравнение с современными существующими методами.
4. Разработка подходов для автоматического детектирования защитной маски на лице человека по голосовым и лицевым характеристикам: разработка методов, моделей, экспериментальные исследования, сравнение с современными существующими методами.
5. Разработка программной системы для автоматического аудио-визуального многозадачного распознавания пола, определения возраста и детектирования защитной маски на лице человека по голосовым и лицевым характеристикам в условиях частичного перекрытия лица: разработка методов, моделей, экспериментальные исследования, сравнение с современными существующими методами.
Объектом исследования являются многомодальные биометрические характеристики людей.
Предметом исследования являются подходы, методы и алгоритмы машинного обучения для автоматического аудио-визуального распознавания пола и определения возраста человека в условиях частичного перекрытия лица.
Методы исследования. С ростом объема речевых данных и их разнообразием целесообразно применять глубокие нейронные сети, в частности, сверточные и рекуррентные нейронные сети, сети-трансформеры с механизмом внимания, которые неплохо зарекомендовали себя в различных областях, таких как компьютерное зрение, и речевые технологии, включая анализ и синтез речи. Таким образом, в данном исследовании используются современные методы цифровой обработки сигналов, распознавания образов, машинного обучения, а также методы вероятностного моделирования, статистического анализа, объединения информации, объектно-ориентированного проектирования и программирования.
Основные положения, выносимые на защиту:
1. Многозадачный нейросетевой метод одновременного распознавания пола и определения возраста человека по голосовым и лицевым характеристикам с использованием блоков многозадачного кросс-мо-
дального механизма внимания (Multi-Task Cross-Modal Attention). Соответствует пункту 13 специальности: "Разработка и применение методов распознавания образов, кластерного анализа, нейро-сетевых и нечетких технологий, решающих правил, мягких вычислений при анализе разнородной информации в базах данных". Положение раскрывается в Главе 4.
2. Архитектура программной системы многомодального многозадачного распознавания пола и определения возраста человека в условиях частичного перекрытия лица. Соответствует пункту 4
специальности: "Разработка методов и технологий цифровой обработки аудиовизуальной информации с целью обнаружения закономерностей в данных, включая обработку текстовых и иных изображений, видео контента. Разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения требуемой информации из текстов"Положение раскрывается в Главе 6.
Научную новизну можно резюмировать следующими пунктами:
1. Разработан метод автоматического аудио-визуального распознавания пола и определения возраста человека, отличающийся совместным использованием метода аугментации аудио-визуальных данных, моделей трансформеров для извлечения пространственно-временных глубоких признаков и двух блоков многозадачного кросс-модального механизма внимания (Multi-Task Cross-Modal Attention), которые позволяют проводить одновременный анализ аудио и видео информации, а также работать в условиях отсутствия данных одной из модальностей.
2. Разработана архитектура программной системы многомодального многозадачного распознавания пола и определения возраста человека в условиях частичного перекрытия лица, отличающаяся использованием модулей аудио-визуального распознавания пола, определения возраста и распознавания типа защитной маски на лице человека, которые могут работать параллельно в режиме реального времени с сохранением высокой точности распознавания.
Теоретическая значимость диссертационного исследования заключается в исследовании и разработке новых и усовершенствованных
методов, алгоритмов и моделей для автоматического аудио-визуального распознавания пола и определения возраста в условиях частичного перекрытия лица, а также разработке методики создания аудио-визуальных речевых корпусов, отличающаяся использованием индивидуальных средств защиты, спонтанной и читаемой речи.
Практическая значимость диссертационной работы заключается в реализации разработанных методов, алгоритмов и моделей в виде программной системы для автоматического аудио-визуального распознавания пола и определения возраста человека в условиях частичного перекрытия лица, которая может одновременно анализировать аудио и видео информацию, а также работать в условиях отсутствия данных одной из модальностей (при неисправности камер или микрофонов, в условиях высокого уровня шума и высокой степени окклюзии лиц). Данная система может быть использована для улучшения человеко-машинного взаимодействия в различных сферах, включая криминалистику и судебную экспертизу (сужение списка или идентификация подозреваемых при раскрытии преступлений, даже если их лица были частично скрыты масками во время совершения преступления; потенциальные заказчики - правоохранительные органы и государственные структуры), розничную торговлю (анализ демографии покупателей для таргетированной рекламы, даже если клиенты носят маски; потенциальные заказчики -крупные торговые сети, такие как X5 Retail Group, "Магнит" и "Лента"), телефонные службы поддержки (автоматическая маршрутизации звонков к соответствующим операторам для персонализации ответов; потенциальные заказчики - банковские учреждения, например, "Сбер", портал "Госуслуги", а также компании, предоставляющие услуги контакт-центров такие, как "Ростелеком", "МТС" и "Билайн"), здравоохранение (ранняя диагностика возрастных изменений лица и голоса или гендерно-специфичных заболеваний, в том числе COVID-19; потенциальные заказчики - медицинские учреждения и сети клиник, такие как "Медси" и "Инвитро"), индустрию развлечений (адаптирование контента для определенных возрастных групп, учитывая присутствие детей, даже если их лица частично скрыты; потенциальные заказчики - медиа-компании и стриминговые сервисы, такие как "Кинопоиск", "Okko" и "IVI"), промышленную безопасность (контроль условий труда и безопасности на пропускных пунктах различных предприятий, фабрик, заводов, на которых требуется ношение средств индивидуальной защиты;
потенциальные заказчики - предприятия "Газпром", "Роснефть", "Норникель" и "Росатом"). Другие примеры коммерческих применений распознавания пола и определения возраста включают интеллектуальные комнаты и дома, автомобильные системы, которые могут адаптироваться к потребностям целевого пользователя.
Достоверность и обоснованность результатов исследования, полученных в диссертационной работе, подтверждаются сравнительным обзором современных подходов и методов, экспериментальными результатами и успешным представлением основных выводов и результатов в виде докладов на ведущих международных и всероссийских конференциях.
Апробация результатов исследования. Основные результаты диссертационного исследования представлялись для обсуждения на следующих научных конференциях и семинарах международного и российского уровня: VIII Всероссийский конгресс молодых ученых (Санкт-Петербург, Россия, 2019); the 21st International Conference on Speech And Computer SPECOM 2019 (Стамбул, Турция, 2019); XLIX научная и учебно-методическая конференция университета ИТМО (Санкт-Петербург, Россия, 2020); 3-я Всероссийская акустическая конференция (Санкт-Петербург, Россия, 2020); the Workshop Bridging Social Sciences and AI for Understanding Child Behavior (Париж, Франция, 2020); the 22nd International Conference on Speech And Computer SPECOM 2020 (Санкт-Петербург, Россия, 2020); the 21st Annual Conference of the International Speech Communication Association INTERSPEECH 2020 (Шанхай, Китай, 2020); the 24th International Congress on Acoustics (ICA) 2022 (Кёнджу, Южная Корея, 2022); the 23rd Annual Conference of the International Speech Communication Association INTERSPEECH 2022 (Инчхон, Южная Корея, 2022); the 24th Annual Conference of the International Speech Communication Association INTERSPEECH 2023 (Дублин, Ирландия, 2023); the 6th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW) in conjunction with the IEEE Computer Vision and Pattern Recognition Conference (CVPR) 2024 (Сиэтл, США, 2024).
Внедрение результатов работы. Часть результатов диссертационного исследования была внедрена в учебный процесс Университета ИТМО в рамках дисциплины "Машинное обучение", и использовалась в фундаментальных и прикладных научных исследованиях:
— Проект "Разработка и исследование интеллектуальной системы для комплексного паралингвистического анализа речи", Российский Научный Фонд, № 18-11-00145.
— НИР "Методы, модели и технологии искусственного интеллекта в биоинформатике, социальных медиа, киберфизических, биометрических и речевых системах", Университет ИТМО (проект 5-100), № 718574.
— Проект "Анализ голосовых и лицевых характеристик человека в маске", Российский Фонд Фундаментальных Исследований, № 20-04-60529-вирусы.
— Проект "Интеллектуальная система многомодального распознавания аффективных состояний человека", Российский Научный Фонд, № 22-11-00321.
Личный вклад. Автором диссертационного исследования лично проведен анализ современных существующих подходов и методов, связанных с аудио-визуальным распознаванием пола, определением возраста [1-5] и распознаванием средств индивидуальной защиты на лице человека [6]. На основе проведенного анализа разработана методика создания аудио-визуальных речевых корпусов, отличающаяся использованием индивидуальных средств защиты, спонтанной и читаемой речи, разработан и собран первый в своем роде корпус аудио-визуальных русскоязычных данных людей в защитных масках Biometric Russian Audio-Visual Extended Masks (BRAVE-MASKS), содержащий разноракурсные изображения лиц людей в различных вариациях защитных масок, а также аудиозаписи слитной русской речи людей в масках [7]. Автором предложены, разработаны и исследованы методы аудио-визуального распознавания пола, определения возраста [15], детектирования и распознавания типа защитной маски [7; 8] на лице человека. Автор принимал участие в разработке метода объединения аудио и видео информации [7; 9; 10] и разработал новую программную систему для автоматического аудио-визуального распознавания пола и определения возраста человека в условиях частичного перекрытия лица. Автором проведены экспериментальные исследования, подтверждающие эффективность предложенных методов. В остальных работах автор давал консультации по проведению экспериментальных исследований и выполнял вычитку статьи (10-15% работы) [11-14]. Соавторы совместных публикаций внесли следующий вклад. Ryumina E. фокусировалась на разработке и исследовании методов,
анализирующих лицевые характеристики, включая детектирование масок и распознавание аффективных состояний, также участвовала в разработке методов объединении аудио-визуальной информации [6; 7; 9-11]. Ryumin D. занимался валидацией данных, давал консультации по экспериментальным исследованиям и проводил вычитку статей [6; 7; 9; 11-13]. Kaya H. предоставлял консультации по экспериментальным исследованиям и разработке иерархической системы распознавания паралингвистических явлений в речи [5; 8; 14]. Velichko A. разрабатывала методы детектирования лжи по голосовым характеристикам и иерархическую систему распознавания паралингвистических явлений в речи [5]. Dresvyanskiy D. и Mamontov D. исследовали методы предсказания сигнала дыхания на основе данных пьезоэлектрического датчика [8]. Letenkov M. и Iakovlev R. работали над генерацией синтетических изображений лиц в масках [12; 13]. Dvoynikova A. руководила работой по анализу современных методов в области распознавания средств индивидуальной защиты на лице человека [6]. Minker W., Verkholyak O. и Saveliev A. проводили вычитку статей [1; 8; 12; 13]. Karpov A. осуществлял общее руководство и выполнял вычитку статей [2-14].
Структура и объем диссертации. Диссертация состоит из введения, 7 глав, заключения и 2 приложений. Полный объём диссертации составляет 408 страниц, включая 45 рисунков и 28 таблиц. Список литературы содержит 161 наименование.
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Гетерогенное распознавание лиц по эскизам лица2019 год, кандидат наук Грубер Иван
Синтез изображений лиц на основе генеративных методов машинного обучения с применением к распознаванию лиц2022 год, кандидат наук Зено Бассель
Автоматическое чтение по губам с помощью LIpsID-признаков2019 год, кандидат наук Главач Мирослав
Методы и алгоритмы взаимной реконструкции лицевых и голосовых данных2018 год, кандидат наук Олейник Андрей Леонидович
Модели и методы распознавания динамических образов на основе пространственно-временного анализа последовательностей изображений2011 год, доктор технических наук Фаворская, Маргарита Николаевна
Заключение диссертации по теме «Другие cпециальности», Маркитантов Максим Викторович
Заключение
В работе рассмотрены и исследованы современные методы обнаружения защитных масок на лицах людей. Предложены методы генерации обучающих данных, в основе которых лежат способы Mixup и /или Insert. Результаты экспериментов показали, что с помощью одного из предложенных методов генерации данных RNMaskMixup+Insert получены значения UAR 98,51 % и 98,50 %, для тестовых корпусов RMFRD и M AF A (классы 0 и 1), что показывает абсолютный прирост 0,83 % и 0,38 % в сравнении с ранее предложенным нами методом RNHist. Однако исследование изображений лиц с имитацией защитных масок (корпусы MAFA (классы 3) и PFMD) показало значения UAR 85,91 % и 24,53 % соответственно, что значительно меньше по сравнению с изображениями
лиц с явным наличием /отсутствием защитных масок (корпусы MAFA (классы 0 и 1) и RMFRD). В связи с этим предлагается автоматизированный способ для уменьшения количества ошибок I и II рода. Так, для корпусов MAFA (классы 3) и PFMD количество ошибок II рода уменьшилось с 92 до 19 и с 40 до 14 соответственно, что говорит об эффективности предложенного автоматизированного способа.
Так как в текущей работе предложены методы генерации обучающих данных для задачи обнаружения защитных масок на лицах людей при заранее локализованных областях лиц, то в последующих исследованиях планируется разработать метод обнаружения защитных масок на лицах людей, который будет решать сразу две задачи, а именно: обнаруживать область лица на изображении с предоставлением ограничительных рамок; классифицировать обнаруженную область лица как «лицо без маски» либо «лицо в маске». В качестве обучающих данных планируется использование корпусов MMED, MAFA, LFW и Bio-metric Russian Audio-Visual Extended MASKS (BRAVE-MASKS) [25], а тестовых - MAFA и BRAVE-MASKS.
Список литературы диссертационного исследования кандидат наук Маркитантов Максим Викторович, 2024 год
References
[1] Cheng VC, Wong SC, Chuang VW, So SY, Chen JH, Sri-dhar S, To KK, Chan JF, Hung IF, Ho PL, Yuen KY. The role of community-wide wearing of face mask for control of coronavirus disease 2019 (COVID-19) epidemic due to SARS-CoV-2. J Infect 2020; 81(1): 107-114. DOI: 10.1016/j.jinf.2020.04.024.
[2] Wang J, Pan L, Tang S, Ji JS, Shi X. Mask use during COVID-19: A risk adjusted strategy. Environ Pollut 2020; 266(1): 115099. DOI: 10.1016/j.envpol.2020.115099.
[3] Howard MC. The relations between age, face mask perceptions and face mask wearing. J Public Health (Oxf) 2021: fdab018. DOI: 10.1093/pubmed/fdab018.
[4] Markitantov M, Dresvyanskiy D, Mamontov D, Kaya H, Minker W, Karpov A. Ensembling end-to-end deep models
for computational paralinguistics tasks: ComParE 2020 mask and breathing sub-challenges. Proc Interspeech 2020: 2072-2076. DOI: 10.21437/Interspeech.2020-2666.
[5] Montacie C, Caraty M. Phonetic, frame clustering and intelligibility analyses for the INTERSPEECH 2020 ComParE challeng. Proc Interspeech 2020: 2062-2066. DOI: 10.21437/Interspeech.2020-2243.
[6] Ryumina E, Ryumin D, Ivanko D, Karpov A. A novel method for protective face mask detection using convolu-tional neural networks and image histograms. Int Archives of the Photogrammetry Remote Sensing and Spatial Information Sciences 2021; XLIV-2/W1-2021: 177-182. DOI: 10.5194/isprs-archives-XLIV-2-W1-2021-177-2021.
[7] Loey M, Manogaran G, Taha MHN, Khalifa NEM. A hybrid deep transfer learning model with machine learning methods for face mask detection in the era of the COVID-19 pandemic. Measurement 2021; 167: 108288. DOI: 10.1016/j.measurement.2020.108288.
[8] Deshpande G, Schuller BW. Audio, speech, language, & signal processing for COVID-19: A comprehensive overview. arXiv Preprint 2020. Source: <https://arxiv.org/abs/2011.14445>.
[9] Efremtsev VG, Efremtsev NG, Teterin EP, Teterin PE, Ba-zavluk ES. Chest X-ray image classification for viral pneumonia and Covid-19 using neural networks. Computer Optics 2021; 45(1): 149-153. DOI: 10.18287/2412-6179-CO-765.
[10] Jiang X, Gao T, Zhu Z, Zhao Y. Real-time face mask detection method based on YOLOv3. Electronics 2021; 10(7): 837. DOI: 10.3390/electronics10070837.
[11] Zhang H, Cisse M, Dauphin Y, Lopez-Paz D. Mixup: Beyond empirical risk minimization. Proc. International Conference on Learning Representations (ICLR) 2018; 1-13.
[12] Singh S, Ahuja U, Kumar M, Kumar K, Sachdeva M. Face mask detection using YOLOv3 and faster R-CNN models: COVID-19 environment. Multimed Tools Appl 2021; 80(13): 19753-19768. DOI: 10.1007/s11042-021-10711-8.
[13] Vizilter YV, Gorbatsevich VS, Moiseenko AS. Single-shot face and landmarks detector. Computer Optics 2020; 44(4): 589-595. DOI: 10.18287/2412-6179-CO-674.
[14] Ge S, Li J, Ye Q, Luo Z. Detecting masked faces in the wild with LLE-CNNs. Proc IEEE Conf on Computer Vision and Pattern Recognition 2017: 2682-2690. DOI: 10.1109/CVPR.2017.53.
[15] Wang Z, Wang G, Huang B, Xiong Z, Hong Q, Wu H, Yi P, Jiang K, Wang N, Pei Y, Chen H, Miao Y, Huang Z, Liang J. Masked face recognition dataset and application.
arXiv Preprint 2020. Source: <https://arxiv.org/abs/2003.09093>.
[16] The simulated masked face dataset. Source: <https://github.com/prajnasb/observations/>.
[17] The labeled faces in the wild simulated masked face dataset. Source:
<https://www.kaggle.com/muhammeddalkran/lfW-simulated-masked-face-dataset/>.
[18] Nagrath P, Jain R, Madan A, Arora R, Kataria P, Hemanth J. SSDMNV2: A real time DNN-based face mask detection system using single shot multibox detector and Mo-bileNetV2. Sustain Cities Soc 2021; 66: 102692. DOI: 10.1016/j.scs.2020.102692.
[19] Dvoynikova AA, Markitantov MV, Ryumina EV, Ryumin DA, Karpov AA. Analytical review of audiovisual systems for determining personal protective equipment on a person's face [In Russian]. Informatics and Automation 2021; 20(5): 1116-1152. DOI: 10.15622/ia.2021.20.5.
[20] Learned-Miller E, Huang GB, RoyChowdhury A, Li H, Hua G. Labeled faces in the wild: A survey. In Book: Kawulok M, Celebi E, Smolka B, eds. Advances in face detection and facial image analysis. New York: Springer; 2016: 189-248. DOI: 10.1007/978-3-319-25958-1_8.
[21] Deng J, Guo J, Ververas E, Kotsia I, Zafeiriou S. Ret-inaFace: Single-shot multi-level face localisation in the wild. Proc IEEE Conf on Computer Vision and Pattern Recognition (CVPR) 2020: 5203-5212. DOI: 10.1109/CVPR42600.2020.00525.
[22] The annotation for MAsked FAce. Source: <https://github.com/ElenaRyumina/AnnotationMAFA/>.
[23] Ryumina EB, Karpov AA. Comparative analysis of methods for imbalance elimination of emotion classes in video data of facial expressions [In Russian]. Scientific and Technical Journal of Information Technologies, Mechanics and Optics 2020; 20(5:129): 683-691. DOI: 10.17586/2226-1494-2020-20-5-683-691.
[24] Selvaraju RR, Cogswell M, Das A, Vedantam R, Parikh D, Batra D. Grad-CAM: Visual explanations from deep networks via gradient-based localization. IEEE Int Conf on Computer Vision 2017: 618-626. DOI: 10.1109/ICCV.2017.74.
[25] Markitantov MV, Ryumin DA, Ryumina EV, Karpov AA. Corpus of audiovisual Russian-language data of people in protective masks (BRAVE-MASKS - Biometric Russian Audio-Visual Extended MASKS corpus) [In Russian]. Database state registration certificate N2021621094 of May 26, 2021.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.