Синтез структуры и алгоритмов функционирования кросс-доменной системы распознавания лиц для условий низкой освещенности тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Найнг Мин Тун

  • Найнг Мин Тун
  • кандидат науккандидат наук
  • 2021, ФГБОУ ВО «Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)»
  • Специальность ВАК РФ05.13.01
  • Количество страниц 130
Найнг Мин Тун. Синтез структуры и алгоритмов функционирования кросс-доменной системы распознавания лиц для условий низкой освещенности: дис. кандидат наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). ФГБОУ ВО «Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)». 2021. 130 с.

Оглавление диссертации кандидат наук Найнг Мин Тун

ВВЕДЕНИЕ

ГЛАВА 1. ПОДХОДЫ К ПОСТРОЕНИЮ СИСТЕМ РАСПОЗНАВАНИЯ ЛИЦ ПО ИЗОБРАЖЕНИЮ В УСЛОВИЯХ СЛАБОЙ ОСВЕЩЕННОСТИ

1.1. Биометрическая система распознавания лиц

1.2. Проблемы, возникающие в процессе распознавания лиц

1.3. Анализ источников, обеспечивающих спектральные системы визуализации

1.4. Методы, обеспечивающие распознавание лиц с использованием ближнего инфракрасного источника

1.4.1. Гетерогенная биометрия лица

1.4.2. Анализ методов и алгоритмов, используемых в задаче гетерогенного распознавания лиц

1.5. Методы, обеспечивающие шумоподавление с использованием нейронных сетей

1.6. Формализация задачи системы распознавания лиц

1.7. Выводы по главе

ГЛАВА 2. РАЗРАБОТКА МЕТОДОВ И АЛГОРИТМОВ РЕШЕНИЯ ЗАДАЧ

ГЕТЕРОГЕННОГО РАСПОЗНАВАНИЯ ЛИЦ

2.1. Архитектура системы распознавания лиц

2.2. Методология построения предлагаемой гетерогенной системы распознавания лиц

2.2.1. Что такое глубокое обучение?

2.2.2. Искусственная нейронная сеть

2.2.3. Функция активации

2.2.4. Свёрточный слой

2.2.5. Пулинговый слой

2.2.6. Полностью соединенные слои

2.2.7. Нормализация

2.2.8. Функция потерь

2.2.9. Методы регуляризации

2.2.10. Градиент и обратное распространение

2.2.11. Оптимизационные методы

2.3. Модель шумоподавления на основе автоэнкодера

2.4. Обнаружение лиц

2.4.1. Проблемы в области обнаружения лиц

2.4.2. Алгоритм на основе каскада Хаара

2.4.3. Алгоритм гистограммы направленных градиентов (HOG)

2.4.4. DNN детектор лица

2.5. Построение кросс-доменной модели на основе базовой модели ЦГСС

2.6. Детектирование признаков

2.7. Классификация признаков

2.7.1. Теория SVM

2.7.2. Алгоритм классификации SVM

2.7.3. Алгоритм «один-против-покоя» (One-agamst-rest)

2.7.4. Алгоритм «один-против-одного» (One-against-one)

2.8. Выводы по главе

ГЛАВА 3. РЕАЛИЗАЦИЯ РАЗРАБОТАННЫХ АЛГОРИТМОВ В СИСТЕМЕ ГЕТЕРОГЕННОГО РАСПОЗНАВАНИЯ ЛИЦ

3.1 Выбор средств разработки

3.1.1. Средства для разработки программного обеспечения

3.1.2. Аппаратные средства для разработки

3.2. Реализация разработанных алгоритмов с помощью ПО и использование

необходимых предварительно обученных моделей

3.2.1. Реализация разработанных алгоритмов

3.2.2. Реализация пред-обученных моделей

3.3. Выводы по главе

ГЛАВА 4. РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ И ОЦЕНКИ ЭКСПЕРИМЕНТОВ

4.1. Планирование эксперимента

4.2. База данных

4.2.1. CASIA NIR-VIS 2.0 Face Database

4.2.2. Собственная база данных

4.3. Блок-схема алгоритма функционирования гетерогенной системы распознавания лиц

4.4. Методы оценки распознавания лиц

4.4.1. Общая Точность (Accuracy)

4.4.2. Частота ошибок (Error rate)

4.4.3. Точность (Precision)

4.4.4. Полнота (Recall)

4.4.5. F-мера (F-measure)

4.5. Результаты экспериментов

4.4. Выводы по главе

ОБШИЕ ВЫВОДЫ И ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

СПИСОК СОКРАЩЕНИЙ

ANN - Artificial Neural Network (Искусственная нейронная сеть).

DNN - Deep Neural Network (Глубокая Нейронная Сеть)

CNN - Convolutional Neural Network (Сверточная Нейронная Сеть)

ГСС - Генеративные Состязательные Сети (Generative Adversarial Network

GAN)

ЦГСС - Цикловые Генеративные Состязательные Сети (Cycle Generative Adversarial Network - CycleGAN) NIR - Near-infrared (ближний ИК) VIS - Visible (Видимый)

HOG - Histogram of Oriented Gradients (Гистограмма Ориентированных Градиентов)

SVM - Support Vector Machines (Метод Опорных Векторов)

TP - True Positive (Истинно Положительный)

FP - False Positive (Ложный Положительный)

TN - True Negative (Истинно Отрицательный)

FN - False Negative (Ложно Отрицательный)

БД - база данных.

Open CV - Open-Source Computer Vision Library.

ВВЕДЕНИЕ

Актуальность выбора темы данного исследования обусловлена тем, что на сегодняшний день технология распознавания лиц является одним из самых перспективных и востребованных направлений, так как несмотря на то, что основными сферами применения данной технологии остаются безопасность и системы обеспечения физического доступа, уже сейчас ученые и разработчики задумываются о распространении алгоритмов во всех сферах деятельности человека.

К примеру, биометрическое распознавание лиц позволяет диагностировать заболевания, которые проявляются в изменении мимики, что даст возможность выявлять болезнь Альцгеймера на ранней стадии, либо обнаруживать генетические заболевания, такие как синдром Ди Джорджа с вероятностью успеха 96,6%. Транспортные компании начинают внедрять биометрические технологии для мониторинга усталости водителей.

Еще одним перспективным сценарием развития распознавания лиц является использование в области маркетинга, так как биометрические технологии в десятки раз ускоряют контроль планограмм, позволяют анализировать покупательские предпочтения, чем повышают продажи. Кроме того, с их помощью можно сократить убытки торговых предприятий за счет того, что системы распознавания лиц правильно идентифицируют потенциальных преступников, готовых на кражу.

Биометрические технологии используются в качестве идентификатора для платежных систем, когда покупку становится возможно оплатить с помощью сканирования лица покупателя, и др.

Как уже говорилось выше, на сегодняшний день наиболее часто система распознавания лиц используется в охранных системах и правоохранительными органами. Технологии интеллектуального распознавания лиц совмещены с системами видеонаблюдения на улицах городов, в общественном транспорте, в магазинах, банках, что позволяет ежедневно анализировать миллионы лиц, среди

которых может скрываться как потенциальный преступник, уже занесенный в базу МВД, так и готовящийся совершить преступление.

Однако несмотря на растущую популярность и широкое применение технологий интеллектуального распознавания лиц, в настоящее время существует и ряд недостатков, выявленных при их применении.

Во-первых, одним из существенных недостатков системы распознавания лиц является то, что в действительности камеры видеонаблюдения, установленные на улицах, в транспорте и других общественных местах, не способны прицельно следить за всеми перемещениями каждого отдельного человека.

Во-вторых, существенно снижают качество распознавания лиц так называемые «шумы» - помехи, которые могут быть вызваны различного рода световыми бликами, воздействием влажности, тумана, дождя, посторонних предметов, изменением позы, окклюзией, и что особенно важно - недостаточной освещенностью объекта наблюдения.

Однако несмотря на то, что в ученой среде разрабатываются так называемые «методы глубокого обучения» искусственного интеллекта, который играет ведущую роль в системах распознавания лиц, до сих пор не удалось полностью нивелировать влияние шумов и освещенности на качество идентификации объектов наблюдения.

Так, если в развитых странах данную проблему можно решить за счет оптимизации освещенности мест возможного расположения систем видеонаблюдения с функцией распознавания лиц, то в странах развивающихся правоохранительные органы зачастую сталкиваются с невозможностью получить качественное изображение для идентификации ввиду частичного или полного отсутствия освещенности.

С учетом вышесказанного, представляется важным разработка такой системы распознавания лиц, которая могла быть использована на объектах с повышенным визуальным шумом, а также в условиях слабой освещенности, что позволит правоохранительным органам и охранным структурам контролировать

как можно больше территорий и объектов с повышенной криминогенной обстановкой.

Как и многие современные задачи визуализации, проблемы освещения, как правило, решаются с помощью программного обеспечения, предназначенного либо для максимального использования доступного света, либо для генерирования света, чтобы видеокамеры наблюдения могли создавать более качественные видеоизображения в условиях низкой освещенности.

По большей части, проблемы, связанные с условиями низкой освещенности, могут быть решены с помощью ряда технологий, к которым относятся видеокамеры наблюдения с современными режимами работы день/ночь, и путем объединения ряда распространенных технологий обработки изображений.

Однако система распознавания лиц действует неэффективно при использовании инфракрасного изображения, которое производится видеокамерой ночного видения, так как многие приложения требуют, чтобы регистрация шаблонов лиц основывалась на видимых изображениях (VIS), которые используются при регистрации с использованием паспорта или удостоверения личности. Таким образом, необходимо преобразовать изображения ближнего инфракрасного диапазона в видимые изображения. Такая система распознавания лиц, преобразующая изображение из одного диапазона в другое, называется гетерогенной системой распознавания лиц.

Существует две основные задачи, решаемые системами распознавания лиц: система верификации и система идентификации. В настоящей работе автором предлагаются методы совокупности для построения системы идентификации лиц по спискам для использования в ночное время, которая является частным случаем системы идентификации. Данный вид систем имеет широкую область применения, ниже перечислены наиболее актуальные приложения:

- Системы наблюдения, устанавливаемые в общественных местах, на улицах, транспорте. Список идентификации в таком случае может включать пропавших детей, людей, находящихся в розыске, и др. В этом случае система распознавания

будет осуществлять мониторинг лиц, появляющихся в области видимости камер наблюдения;

- Системы безопасности финансовых организаций (к примеру банки, кредитные учреждения), где вероятность возникновения угроз весьма велика, причем кража или повреждение имущества в таких организациях обычно происходит в ночное время. Имея систему безопасности, которая способна идентифицировать лица в условиях низкой освещенности, можно значительно повысить защищенность собственности и имущества подобных организаций и их вкладчиков;

- Системы распознавания лиц, используемые правоохранительными органами, например, для судебно-медицинского исследования, когда автоматическое распознавание лиц позволит идентифицировать личность человека.

Итак, решение задач автоматической идентификации лиц на изображениях, полученных в неконтролируемых условиях, включает в себя создание алгоритмов шумоподавления, преобразование изображения и распознавание лиц на изображениях. В данной диссертации автором представлена система идентификации лиц с помощью алгоритмов шумоподавления и преобразования изображения.

Цель диссертационной работы:

Разработка алгоритмов идентификации лиц по изображениям, а также видеопоследовательностям, полученным в условиях недостаточной освещенности или повышенного шумового фона.

Основные задачи исследования:

1. Провести аналитический обзор существующих методов и алгоритмов, применяющихся в системах гетерогенного распознавания лиц.

2. Разработать структуру системы гетерогенного распознавания лиц, включающую в себя модель шумоподавления, модель преобразования модальности изображения и модель распознавания лиц.

3. Разработать модель шумоподавления на основе нейронных сетей.

4. Разработать модифицированную математическую модель на основе циклических генеративных состязательных сетей (ЦГСС), позволяющую преобразовать модальность изображения с учетом требуемого формата.

5. Разработать гетерогенную систему идентификации лиц для условий недостаточной освещенности и проблемно-ориентированное ПО.

6. Провести сравнение эффективности разработанного подхода с использующимися на сегодняшний день альтернативными методами гетерогенного распознавания лиц.

Научная новизна

Научная новизна работы, выносимая на защиту, состоит в следующем:

1. Предложен комбинированный подход к решению задачи идентификации лиц на основе метода глубокого обучения, отличающийся наличием автоэнкодера и позволяющий повысить качество работы системы распознавания лиц по сравнению с другими современными альтернативными методами гетерогенного распознавания лиц за счет эффективного шумоподавления.

2. На основе комбинированного подхода предложена оригинальная структура гетерогенной системы распознавания лиц для работы в условиях пониженной освещенности и зашумленной окружающей среды.

3. Предложена модифицированная математическая модель на основе существующей модели циклических генеративных состязательных сетей (ЦГСС) для преобразования модальности изображения, отличающаяся от известных функцией потерь, и обеспечивающая повышение точности распознавания лиц.

4. Разработан новый алгоритм, основанный на применении предложенного комбинированного подхода, дающий возможность идентифицировать личность на статических изображениях и на видеопоследовательности в режиме реального времени.

Научная ценность

Научная ценность диссертационной работы заключается в предложенном оригинальном комбинированном подходе, основанном на использовании методов обнаружения лиц, шумоподавления, преобразования модальности изображения, встраивания признаков и классификации признаков, увеличивающем качество работы системы идентификации лиц как на статических изображениях, так и на видеопоследовательности в реальном времени в условиях низкой освещенности и зашумленной окружающей среды.

Практическая ценность

Практическая ценность диссертационной работы состоит в том, что разработанные алгоритмы в виде программного обеспечения могут применяться в системах правоохранительных органов для идентификации личности, осуществления судебной экспертизы. Реализованные алгоритмы представлены для решения задач гетерогенной системы распознавания лиц на статических изображениях и на видеопоследовательности в режиме реального времени.

Основные положения, выносимые на защиту:

1. Комбинированный подход к решению задачи идентификации личности с использованием оригинальных моделей обнаружения лиц, шумоподавления, преобразования домена изображения, встраивания признаков и классификации признаков, позволяющий повысить качество работы гетерогенной системы распознавания лиц в условиях низкой освещенности и зашумленной окружающей среды.

2. Алгоритм шумоподавления для существенно зашумленных изображений, отличающийся настройками автоэнкодера, и позволяющий повысить качество шумоподавления по сравнению с другими современными альтернативными алгоритмами.

3. Модифицированная математическая модель ЦГСС для преобразования модальности изображения, отличающаяся от известных функцией потерь.

Средства моделирования с использованием языка программирования Python, библиотеки глубокого обучения Keras и Tensorflow.

4. Оригинальные структура и алгоритмы функционирования гетерогенной системы распознавания лиц, позволяющие реализовать предложенную методику определения сходства изображений в ближнем ИК диапазоне (NIR) с визуальными эталонами (VIS), хранящимися в базе данных.

Объект исследования

Объектом исследования диссертационной работы является система компьютерного зрения, осуществляющая идентификацию лиц на изображениях и видеопоследовательности в режиме реального времени.

Предмет исследования

Предметом исследования является комбинированный подход к решению задачи идентификации и алгоритмы идентификации лиц.

Методы исследования

В работе использовались методы цифровой обработки изображений, математической статистики, теории глубокого обучения, вероятностных моделей.

Реализация результатов и предложения об использовании.

Материалы диссертационной работы и полученные результаты использованы на кафедре информационных технологий машиностроения из технологического университета (Тханлин) под руководством министерства образования Союза Мьянмы.

Полученные в диссертационной работе результаты рекомендуется использовать для внедрения системы идентификации лиц в условиях недостаточной освещенности и шумовой окружающей среды.

Апробация

1. Международная научно-техническая конференция «Пром-Инжиниринг», (Сочи, 2019).

2. IEEE Conference of Russia Young Researchers in Electrical and Electronic Engineering (2020 EIConRus), organized by Moscow, National Research University of Electronic Technology «MIET», (Зеленоград, 2020).

3. Международная научно-техническая конференция «Пром-Инжиниринг», (Сочи, 2020).

4. Всероссийская студенческая конференция «Студенческая научная весна», (Москва, 2018).

5. Всероссийская студенческая конференция «Студенческая научная весна», (Москва, 2019).

Публикации

По результатам исследований опубликовано 7 научных работ, в числе которых 2 работы в журналах, входящих в список, утвержденный ВАК, 4 в материалах конференций, включенных в базу данных SCOPUS и 1 тезис доклада на научных конференциях.

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Синтез структуры и алгоритмов функционирования кросс-доменной системы распознавания лиц для условий низкой освещенности»

Структура работы

Диссертация состоит из введения, четырех глав, заключения, списка сокращений, списка литературы, который содержит 131 наименований. Объем диссертации: 130 страниц, включая 60 рисунков, 15 таблиц и 3 листинга.

ГЛАВА 1. ПОДХОДЫ К ПОСТРОЕНИЮ СИСТЕМ РАСПОЗНАВАНИЯ ЛИЦ ПО ИЗОБРАЖЕНИЮ В УСЛОВИЯХ СЛАБОЙ ОСВЕЩЕННОСТИ

Система распознавания лиц является одной из биометрических систем, играющих важную роль для идентификации или верификации человека. На сегодняшний день существует немало востребованных программ и приложений, использующих систему распознавания лиц, например:

- приложения для платежных систем, которые позволяют осуществлять оплату, перевод денежных сумм, иные различные платежные операции, используя идентификацию лица пользователя. Система распознавания лиц при платежах может быть внедрена в России уже в ближайшие годы;

- программы распознавания образов, в системах контроля доступа. К примеру, турникеты с распознаванием лиц решают вопрос учёта рабочего времени сотрудников. Можно использовать контроль доступа по лицу как при входе в офис, так и для организации зон с ограниченным доступом внутри помещения, при включении смартфона, при входе в дом, и пр.;

- система распознавания лиц существенно упрощает труд сотрудников правоохранительных органов, так как способна идентифицировать лица в толпе, быстро сопоставить лицо задержанного с существующей базой данных преступников, и пр.

Однако для успешной идентификации личности и получения изображения, пригодного для обработки системой распознавания лиц, лицо человека должно быть достаточно освещено, что не всегда возможно осуществить. Также существенной проблемой для распознавания лиц является визуальная зашумленность (световые блики, объекты, затрудняющие восприятие изображения, погодные условия - туман, дождь, и пр.). Нехватка освещенности и зашумленность может возникнуть в помещениях, где специально создается затемненный фон (ночные клубы, бары, дискотеки), в сумеречное и ночное время на улицах, в транспорте, и др.

На сегодняшний день в условиях недостаточной освещенности и визуальной зашумленности используются такие системы распознавания лиц, которые содержат видеокамеры ближнего инфракрасного диапазона, однако система распознавания лиц действует неэффективно при использовании инфракрасного изображения, которое производится видеокамерой ночного видения, так как многие приложения требуют, чтобы регистрация шаблонов лиц основывалась на видимых изображениях (VIS), которые используются при регистрации с использованием паспорта или удостоверения личности. Таким образом, необходима разработка такой системы, которая будет способна преобразовать изображения ближнего инфракрасного диапазона в видимые изображения.

По мнению автора, прежде чем приступить непосредственно к разработке системы, которая будет способна производить идентификацию лиц в условиях недостаточной освещенности и зашумленности, необходимо определиться с понятиями и терминологией, которые будут использоваться в дальнейшем в рамках данной работы.

1.1. Биометрическая система распознавания лиц

Распознавание лиц является одной из функций биометрических систем и представляет собой процесс автоматической идентификации или верификации человека путем сравнения и анализа параметров лица определенного человека с имеющимися в базе данных образцами [1, 2]. Существует два типа распознавания лиц: идентификация и верификация. Ключевое различие между идентификацией и верификацией заключается в следующем:

В процессе идентификации система пытается найти, кому принадлежит определенный образец, сравнивая образец с базой данных для того, чтобы найти совпадение (также этот процесс называют сравнением одного со многими). Идентификационная система спрашивает: «Вы кто?». В случае идентификации необходима центральная база данных биометрической информации, с которой будет сравниваться конкретный образец.

Верификация - сравнение, при котором биометрическая система пытается верифицировать личность человека. В данном случае новый биометрический образец сравнивается с ранее сохраненным образцом. Сравнивая эти два образца, система подтверждает, что данный человек действительно тот, за кого он себя выдает.

Если в процессе идентификации система сравнивает один образец со многими, то в процессе верификации система сравнивает «один с одним». Верификационная система спрашивает: «Вы действительно тот, за кого себя выдаете?». Во данном случае биометрические данные человека проверяются на сходство с электронными данными, которые содержатся, к примеру, на смарт-карте смартфона. Верификация является более приемлемым в социальном аспекте вариантом, так как информация о биометрических данных человека содержится не в основной базе данных, а лишь на носителе, который относится к конкретному индивиду.

Итак, верификация позволяет управлять доступом и безопасностью на основе биометрии. Независимо от того, развертывается ли биометрия в мобильном банковском приложении или настраивается биометрическая многофакторная система аутентификации для доступа к защищенному серверу, пользователь будет претендовать на личность кого-то уже известного системе. В биометрии это называется сопоставлением «один к одному».

Лучшим примером этого является то, как биометрия используется в современных смартфонах. Каждый раз, когда пользователь разблокирует смартфон при помощи своего лица, он прибегает к верификации, когда программа распознавания лиц, установленная на смартфоне, проверяет, что напротив камеры сканирования находится имено тот человек, которому разрешен доступ для разблокирования данного аппарата. При этом для того, чтобы разблокировать смартфон, программе совершенно не нужно сравнивать лицо владельца аппарата с центральной базой данных.

Функционирование системы распознавания лиц начинается с построения шаблона лица на основе существующих биометрических образцов, причем в

качестве образцов используются двумерные изображения - чаще всего используются фотографии, кадры из видеоряда. Однако в последнее время стали использоваться и трёхмерные модели, что стало возможно благодаря добавлению матрицы глубины D к RGB массиву.

Схема процедуры регистрации нового шаблона в биометрической системе изображена на Рисунке 1.1.

Рисунок. 1.1.

Процедура регистрации нового шаблона в базе данных Процедура регистрации шаблонов, оперирующая индивидуальными и биометрическими данными, позволяет формировать новые шаблоны или дополнять уже существующие шаблоны в центральной биометрической базе данных.

Процесс создания новых шаблонов определяется задачами, которые поставлены перед программой, методов, используемых в процессе распознавания лиц, видов исходных данных, или проблем, решаемых биометрической системой. Можно определить наиболее общие этапы формирования нового биометрического шаблона для системы распознавания лиц (см. Рисунок. 1.2).

Исходное «б 6

изображение предобработка Выделение признакоо Запись шаблона

I_______I I_______I

Рисунок.1.2.

Процедура формирования шаблонов для системы распознавания лиц

Итак, процедура создания шаблонов для системы распознавания лиц состоит из следующих этапов:

1. На первом этапе осуществляется процесс предобработки, который включает в себя детектирование лиц и приведение детектируемых областей лиц к определенным форматам: масштабирование, преобразование каналов изображения, выравнивание и т. п.

2. На втором этапе проводится определение ключевых точек и локализация пространственных признаков образца. На данном этапе определяются особенности и признаки определенного лица, способные выделить именно его из общей массы шаблонов лиц;

3. На последнем этапе происходит сохранение и кодировка готового шаблона, которая будет использована как базовая модель распознавания лиц. Сформированный шаблон в дальнейшем можно использовать для задач идентификации и верификации.

После построения биометрических шаблонов, система распознавания лиц может работать ними. Работу системы идентификации можно проиллюстрировать в различных режимах, на примере задач из «списка наблюдения» (см. Рисунок 1.3).

Предположим, что при получении исходного изображения система идентификации оперирует полученным изображением на основе базы данных зарегистрированных биометрических шаблонов и прогнозирует предполагаемую идентичность. После получения ожидаемой идентичности, система нуждается в уточнении предполагаемого результата, генерируемого режимом идентификации, в этом случае программа переключается на режим верификации, который сопоставляет предъявляемый образец с шаблоном предполагаемой личности с помощью порогового значения.

Рисунок 1.3.

Процедура решения биометрической системой задачи «список наблюдения» Если в представленном образце содержатся биометрические данные лица, прогнозируемые режимом идентификации, то верификация даст положительный результат, в противном случае личность предполагается неустановленной.

1.2. Проблемы, возникающие в процессе распознавания лиц

Несмотря на тот факт, что системы распознавания лиц исследуются, дорабатываются и модернизируются уже многие годы, до сих пор существует немало проблем, которые на позволяют осуществлять идентификацию лиц в определенных условиях, и решением данной проблемы обеспокоены многие ученые. Исследователи до сих пор пытаются получить надежную систему распознавания лиц, которая будет способна работать в различных условиях. Результаты исследования показывают, что все методы распознавания лиц были успешны при использовании обширных баз данных лиц, изображение которых было получено в хорошо контролируемых средах, однако в неконтролируемой среде их работоспособность значительно ухудшается главным образом из-за изменения освещенности, положения головы, наличия различных визуальных шумов, и пр. Можно выделить следующие основные проблемы неконтролируемой среды [3]:

Вариации положения головы: Одна из наиболее распространенных вариаций — это поза головы. Обработка изменений положения головы чрезвычайно важна во многих практических приложениях. Изменения положения головы определяется как поворот, наклон и отклонение [4].

Выражения лиц: Определенные изменения лица могут быть вызваны также изменениями мимики, которые вызваны различными эмоциональными состояниями человека [5]. В частности, общее выражение человеческого лица состоит из отдельных выражений, которые передают, к примеру, гнев, отвращение, страх, счастье, печаль или удивление, причем ярко выраженная мимика лица может существенно исказить лицо так, что оно будет существенно отличаться от «эталонного» состояния в спокойствии.

Окклюзия: Покрытие некоторой области лица чем-нибудь может отразиться на работоспособность системы распознавания лиц [6]. Маски, очки, борода или усы являются примерами проблемы окклюзии.

Старение, иные дефекты лица: Другая причина изменения лица может быть вызвана старением, и может повлиять на весь процесс автоматического распознавания лиц [7]. Также некоторые заболевания или травмы лица также могут значительно изменить внешность человека (паралич лицевой мышцы, глубокие порезы или травмы, влияющие на сокращение ряда мышц, и др.)

Разрешение изображения: Другие рядовые и часто встречающиеся факторы, влияющие на эффективность автоматического распознавания лиц, связаны с качеством и разрешением изображения лица [8]. В многих обученных моделях распознавания лиц используются стандартные базы данных, содержащие изображения с хорошим разрешением. Но в реальности применяются различные камеры для получения изображения человеческих лиц, причем некоторые из видеокамер производят изображения с низким или плохим разрешением.

Освещение является существенным фактором для распознавания лиц, поэтому, так как известно, что даже человек не может точно определить, что он видит при изменении условий освещения [9]. Из-за недостаточного освещения изображение лица может быть неточным.

Шумы: в условиях реального времени в процессе распознавания лиц могут возникать шумы (световые блики, туман, дождь, и др.), которые также могут повлиять на производительность распознавания лиц [10].

Отсутствие освещения: Традиционные системы распознавания лиц не могут работать при отсутствии освещения, однако в последние годы для получения изображений в отсутствие освещения стали использоваться NIR (near-infrared) камеры ближнего инфракрасного диапазона [11, 12, 13]. Многие исследователи представили свои методы и алгоритмы распознавания лиц с использованием изображений NIR.

Однако система распознавания лиц действует неэффективно при использовании инфракрасного изображения, которое производится видеокамерой ночного видения, так как многие приложения требуют, чтобы регистрация шаблонов лиц основывалась на видимых изображениях (VIS), которые используются при регистрации с использованием паспорта или удостоверения

личности. Таким образом, необходимо преобразовать изображения ближнего инфракрасного диапазона в видимые изображения.

1.3. Анализ источников, обеспечивающих спектральные системы

визуализации

Современные системы используют изображения, полученные в видимом диапазоне (0.4 - 0.75) электромагнитного спектра [14]. Однако эти системы страдают от ухудшения эксплуатационных характеристик из-за различных условий освещения. Для использования системы распознавания лиц в ночное время предложено несколько инвариантных к освещению методов, которые делятся на две основные категории: пассивные методы и активные методы, как показано на Рисунке 1.4.

Исследования инвариантных методов освещения, особенно пассивных, были представлены в работах различных ученых [15, 16].

Рисунок 1.4.

Категоризация инвариантных методов освещения

Пассивные методы изображения видимого спектра используются для преодоления проблемы, вызванной изменением освещенности. Пассивный метод можно разделить на четыре группы:

- моделирование вариации освещенности [17, 18];

- инвариантные признаки освещенности [19, 20];

- фотометрическая нормализация [21, 22];

- трехмерная морфологическая модель [23, 24].

Однако одним из главных недостатков этого подхода является потеря полезной информации об особенностях конкретного лица при компенсации освещенности.

Для преодоления вариаций освещенности используются активные методы визуализации. Эти методы используются для получения изображений лиц, инвариантных к освещению модальностей или для получения изображений лиц, сделанных в условиях недостаточного освещения. Активные методы можно разделить на те, которые используют 3Э-информацию [25, 26], и те, которые основаны на инфракрасном излучении [27, 28]. Инфракрасные методы можно разделить на тепловые инфракрасные [29-32] и ближние инфракрасные [33-35].

Основными недостатками активных методов являются повышенная стоимость и высокая сложность вычислительных систем при использовании 3Э-изображений. К другим недостаткам активных методов при использовании тепловизионных изображений относится их высокая чувствительность к температуре окружающей среды, а также состоянию здоровья и потоотделению, которые могут заметно понизить, либо повысить температуру определенных участков тела человека, чем привнести искажения в итоговое изображение лица [25, 37].

В последнее время ближнее инфракрасное изображение используется во многих системах распознавания лиц из-за высокой устойчивости ЭДК камер к изменениям освещенности и высокого качества получаемых изображений [38, 39]. Как показано на Рисунке 1.5, ЭДЕ. попадает между полосой видимого света и тепловым инфракрасным диапазоном.

Видимый спектр Инфракрасный спектр

Ближний ПК Коротковолновый ПК Средние волны ПК Длинноволновый ПК

0.4 ¡.1т 0.75 ¡.ни 1.4 ¡.И11 3 ¡.И11 8 цт 15 ит

Рисунок 1.5.

Различные диапазоны спектра излучения Изображения в ближнем инфракрасном диапазоне имеют преимущество по сравнению с видимыми изображениями, так как совершенно независимы от влияния внешнего освещения. Следовательно, изображения в ближнем инфракрасном спектре, полученные в темноте или при слабом освещении, гораздо более информативны, чем изображения, полученные в видимом спектре при тех же условиях (см. Рисунок. 1.6) [40, 38]. В результате системы распознавания лиц, основанные на изображениях ближнего инфракрасного диапазона, являются более точными, чем системы, основанные на видимых изображениях.

Рисунок 1.6.

а) видимые изображения при наличии вариаций освещенности; б) соответствующие изображения в ближнем инфракрасном диапазоне [33]

Очевидно, что использование инфракрасного диапазона в системах видеонаблюдения и распознавания лиц является наиболее распространенным

методом распознавания лиц в ночное время и в условиях недостаточной освещенности. В частности, использование NIR подсветки для ночного распознавания лиц имеет следующие преимущества [41, 42, 15]:

- Осветитель NIR обычно не виден человеческому глазу, поэтому сам факт видеонаблюдения сохраняется в тайне,

- NIR-изображения не зависят от температуры окружающей среды, эмоционального состояния и состояния здоровья объекта по сравнению с тепловыми изображениями,

- Более низкая цена осветителя NIR по сравнению с тепловыми датчиками,

- Освещение NIR может легко преодолеть толщу стекла,

- NIR освещение является устойчивым к вариациям освещенности.

1.4. Методы, обеспечивающие распознавание лиц с использованием ближнего инфракрасного источника

Ближняя инфракрасная (NIR) визуализация является недорогим и эффективным решением для получения высококачественных изображений в условиях низкой освещенности или полной темноты. Таким образом, она получила широкое распространение в мобильных устройствах, системах видеонаблюдения и аутентификации пользователей. Однако многие приложения требуют, чтобы регистрация шаблонов лиц основывалась на видимых изображениях (VIS), используемых при онлайн-регистрации и предварительной регистрации с использованием паспорта или удостоверения личности (ID), то есть, NIR изображениях, снятых под ближней инфракрасной подсветкой, и VIS изображений, захваченных при видимом освещении. Поэтому важность качественного сопоставления лиц между изображениями NIR и VIS крайне важна для дальнейшего машинного обучения. Изучению данной проблемы были посвящены многие исследования в области гетерогенного распознавания лиц (HFR), обеспечивающего алгоритм сопоставления изображений лиц в различных спектральных (или сенсорных) областях и отличающегося от обычного распознавания лиц VIS в однородных условиях.

1.4.1. Гетерогенная биометрия лица

Изображения лица могут быть получены в различных спектральных диапазонах, например, визуальном (VIS), ближнем инфракрасном (NIR) или тепловом инфракрасном (TIR), или в качестве измерений BD-формы лица [43]. Эти различные типы изображений, обусловленные различными характеристиками формирования изображений, называются гетерогенными. Даже в пределах типа VIS, изображения лиц могут поступать от различных источников изображения, таких как устройства с зарядовой связью (CCD) и металл-оксид-полупроводниковые (CMOS) комплементарные камеры, фото сканирование, эскизы лиц, при различных условиях освещения, с различными разрешениями изображения и различным качеством изображения.

Обзорную схему гетерогенной биометрии лица можно увидеть на Рисунке 1.7. Как можно увидеть из представленного ниже рисунка несмотря на то, что гетерогенные изображения лица одного и того же человека различаются по значениям пикселей, идентичность лица должна быть определена как одна и та же. Обработка и сопоставление разнообразных изображений лиц в совокупности называются гетерогенной биометрией лица (HFBs).

Рисунок 1.7.

Область применения гетерогенного распознавания лиц [44]

1.4.2. Анализ методов и алгоритмов, используемых в задаче гетерогенного

распознавания лиц

Латентные методы: Эти методы включают в себя обучение системы распознавания лиц проекции признаков из двух различных областей в общее латентное пространство, где образы с одинаковой идентичностью должны быть идентифицированы как одинаковые независимо от их области.

Линь и Тан [45] предложили алгоритм (Common Discriminant Feature Extraction - CDFE), в котором два различных доменных признака одновременно используются в общем пространстве для решения проблемы интермодальности, что позволяет решить проблему перенасыщения. В работе [46] представлен алгоритм, основанный на изученных внутренних локальных структур изображений. На этапе обучения Разностно-Гауссовская фильтрация используется для нормализации внешнего вида гетерогенных изображений лиц в обучающем наборе. В работе [47] предложено сопоставлять каждый отдельный участок изображения лица путем извлечения точек, ребер или контуров, сходных между доменами.

В работе [48] применены ограниченные машины Больцмана (Restricted Boltzmann Machines - RBMs) для решения проблемы нелинейности проекции NIR-VIS. После извлечения признаков Габора в локализованных точках лица, RBM используются для изучения общего представления в каждой точке лица. Эти локально изученные представления складываются и обрабатываются PCA для получения окончательного целостного представления.

В работе [49] представлен метод сопоставления изображений лиц NIR и VIS, называемый связанной спектральной регрессией (Coupled Spectral Regression -CSR). Как и другие методы, основанные на проекции, они используют два отображения для проецирования разнородных данных в общее подпространство. Для дальнейшего повышения производительности алгоритма (эффективности и обобщения) используются решения, полученные из представления вложения графа [50] и спектральной регрессии [51] в сочетании с методами регуляризации.

В работе [52] предложен метод дискриминативной спектральной регрессии (Discriminative Spectral Regression - DSR), который отображает изображения лиц NIR/VIS в общее дискриминативное подпространство, в котором может быть достигнута надежная классификация. Задача изучения подпространства трансформируется в задачу наименьших квадратов. Предлагается, чтобы изображения одного и того же субъекта отображались близко друг к другу, в то время как изображения разных субъектов должны быть как можно более разделены. Чтобы отразить отношения категорий в данных, также разработаны два новых термина регуляризации.

Методы доменно-инвариантных признаков: Данные методы ищут дискриминационные признаки, которые связаны только с идентификацией лица и игнорируют информацию о домене. Традиционные методы в этой категории основаны на локальных признаках, выделенных вручную, таких как локальные бинарные шаблоны (Local Binary Patterns - LBP), гистограммы ориентированных градиентов (Histograms of Oriented Gradients - HOG) и разность Гаусса (Difference of Gaussian - DoG) [53 - 56]. В работе [57] пиксели лица преобразовывались в кодированное пространство лица с помощью обученной общей модели кодирования. В последнее время глубокие нейронные сети демонстрируют большой потенциал для изучения доменно-инвариантных признаков гетерогенных изображений. Эти глубокие методы часто предварительно обучаются на крупномасштабном наборе данных лиц VIS, а затем тонко настраиваются на изображениях лиц NIR для изучения доменно-инвариантных признаков.

Основываясь на предварительно подготовленном VIS CNN, в работе [58] исследовались различные стратегии обучения метрикам для улучшения производительности HFR. В работе [59] разработаны два типа потери триплетов NIR-VIS для уменьшения расхождения доменов и увеличения пар обучающих выборок. В работе [60] приведены две новые сетевые структуры (названные IDNet) с небольшими сверточными фильтрами и использована сиамская сеть для соединения изученных признаков из этих двух сетей.

Методы синтеза изображений: Эти методы направлены на синтез изображений лиц из одного доменна в другой, чтобы гетерогенные изображения можно было непосредственно сравнивать в одной и той же спектральной области. В работе [61] предложена структура анализа путем синтеза, которая преобразует изображения лиц из NIR в VIS. Для достижения конверсии текстуры лица извлекаются из обеих модальностей. Текстурные шаблоны NIR-VIS, извлеченные в соответствующих областях различных пар лиц, в совокупности составляют обучающий набор соответствующих пар. После нормализации освещения [62] изображения VIS могут быть синтезированы патч за патчем, находя наилучший соответствующий патч для каждого патча входного изображения NIR.

В работе [63] также синтезируют VIS из изображений NIR, используя аналогичное изучение междоменного словаря соответствующих пар патчей VIS и NIR. Чтобы более надежно соответствовать патчам, для их представления используются инвариантные к освещению признаки LBP. Синтез изображения VIS дополнительно улучшен по сравнению с [61], используя локально-линейное вложение (locally-linear embedding - LLE), определенное синтезом патчей, а не простым ближайшим соседом. Наконец однородное сопоставление VIS выполняется с помощью NN классификатора на LBP представлениях синтезированных изображений. В работе [124] совместное изучение словаря (coupled dictionary learning - CDL) использовалось для реконструкции изображений лиц, а затем выполнялось сопоставление лиц. Этот метод ограничивает представление разнородных изображений в каждом словаре одним и тем же.

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Список литературы диссертационного исследования кандидат наук Найнг Мин Тун, 2021 год

СПИСОК ЛИТЕРАТУРЫ

1. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Нейросетевая биометрическая система распознавания изображений человеческого лица // Вестник Казанского технологического университета. Т. 19. №18. 2016. С. 135-138.

2. Wang M., Deng W. Deep face recognition: A survey // In CVP. arXiv:1804.06655. 2018. P. 1-31.

3. Olszewska J. I., Ramakrishnan S. Automated face recognition: Challenges and solutions // Pattern Recognition-Analysis and Applications. 2016. P. 59-79.

4. Nash S., Rhodes M., Olszewska J. I. iFR: Interactively-pose-corrected face recognition // In International Conference on Bio-inspired Systems and Signal Processing. 2016. P. 106-112.

5. Prikler F. Evaluation of emotional state of a person based on facial expression // In: Proceedings of the IEEE International Conference on Perspective Technologies and Methods in MEMS Design (MEMSTECH). 2016. P. 161-163.

6. Du S., Ward R. Face recognition under pose variations // Journal of the Franklin Institute. Vol. 343. № 6. 2006. P. 596-613.

7. Liu L., Xiong C., Zhang H., Niu Z., Wang M., Yan S. Deep aging face verification with large gaps // IEEE Transactions on Multimedia. Vol. 18. № 1. 2016. P. 64-75.

8. Mudunuri S.P., Biswas S. Low resolution face recognition across variations in pose and illumination // IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 38. № 5. 2016. P. 1034-1040.

9. Adini Y., Moses Y., Ullman S. Face recognition: The problem of compensating for changes in illumination direction // IEEE Trans. Patt. Anal. Mach. Intell. Vol. 19. 1997. P. 721-732.

10. Wang F., Chen L., et al., The devil of face recognition is in the noise // Proceedings of the European Conference on Computer Vision (ECCV). 2018. P. 765-780.

11. Li S., Chu R., Liao S., Zhang L. Illumination invariant face recognition using near-infrared images // IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 29. 2007. P. 627-639.

12. Anil K., Jain, Klare B. Park U. Face recognition: Some challenges in forensics // In Face and Gesture 2011. 2011. P. 726-733.

13. Lezama J., Qiu Q., Sapiro G. Not afraid of the dark: Nir-vis face recognition via cross-spectral hallucination and low-rank embedding // 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017. P. 6807-6816.

14. Thirimachos B., Arun R., Cunjian C., Lawrence H. A study on using mid-wave infrared images for face recognition // Sensing Technologies for Global Health, Military Medicine, Disaster Response, and Environmental Monitoring II; and Biometric Technology for Human Identification IX. Vol. 8371. 2012. P. 1-13.

15. Xuan Z., Josef K., Kieron M. Illumination invariant face recognition: a survey // 2007 First IEEE International Conference on Biometrics: Theory, Applications, and Systems. 2007. P. 1-8.

16. Makwana R. Illumination invariant face recognition: A survey of passive methods // Procedia Computer Science. Vol. 2. 2010. P. 101-110.

17. Zhang L., Samaras D. Face recognition under variable lighting using harmonic image exemplars // IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Vol. 1. 2003. P. 19-25.

18. Zhou, Shaohua Kevin, et al. Appearance characterization of linear Lambertian objects, generalized photometric stereo, and illumination-invariant face recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 29. № 2. 2007. P. 230-245.

19. Jadhav, Dattatray V., Holambe, Raghunath S. Rotation, illumination invariant polynomial kernel Fisher discriminant analysis using Radon and discrete cosine transforms based features for face recognition // Pattern Recognition Letters. Vol. 31. № 9. 2010. P. 1002-1009.

20. Zhang Y., Tian J., He X., Yang X. MQI based face recognition under uneven illumination // International Conference on Biometrics. 2007. P. 290-298.

21. Xie X, Lam KM. An efficient illumination normalization method for face recognition // Pattern Recognition Letters. Vol. 27. № 6. 2006. P. 609-617.

22. Chen W., Er M. J., Wu S. Illumination compensation and normalization for robust face recognition using discrete cosine transform in logarithm domain // IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics). Vol. 36. № 2. 2006. P. 458-466.

23. Bowyer K. W., Chang K. I., Flynn P. J. A survey of approaches to three-dimensional face recognition // IEEE 17th International Conference on Pattern Recognition (ICPR). Vol. 1. 2004. P. 358-361.

24. Blanz V., Vetter T. Face recognition based on fitting a 3D morphable model // IEEE Transactions on pattern analysis and machine intelligence. Vol. 25. № 9. 2003. P. 1063-1074.

25. Bowyer K. W., Chang K., Flynn P. A survey of approaches and challenges in 3D and multi-modal 3D + 2D face recognition // Computer vision and image understanding. Vol. 101. № 1. 1006. P. 1-15.

26. Scheenstra A., Ruifrok A., Veltkamp R. C. A survey of 3D face recognition methods // International Conference on Audio-and Video-based Biometric Person Authentication. 2005. P. 891-899.

27. Ghiass R. S., Arandjelovic O., Bendada H., Maldague X. Infrared face recognition: a literature review // The 2013 International Joint Conference on Neural Networks (IJCNN). 2013. P. 1-10.

28. Ghiass R. S., Arandjelovic O., Bendada H., Maldague X. Infrared face recognition: a comprehensive review of methodologies and databases // Pattern Recognition. Vol. 47. № 9. 2014. P. 2807-2824.

29. Kong S.G., Heo J., Abidi B.R., Paik J., Abidi M.A. Recent advances in visual and infrared face recognition-a review // Computer Vision and Image Understanding. Vol. 97. № 1. 2005. P. 103-135.

30. Buddharaju P., Pavlidis I.T., Tsiamyrtzis P., Bazakos M. Physiology-based face recognition in the thermal infrared spectrum // IEEE transactions on pattern analysis and machine intelligence. Vol. 29. № 4. 2007. P. 613-626.

31. Farokhi S., Shamsuddin S. M., Flusser J., Sheikh U.U. Assessment of time-lapse in visible and thermal face recognition // World Academy of Science, Engineering and Technology. Vol. 2. 2012. P. 540-545.

32. Ghiass R.S., Arandjelovic O., Bendada H., Maldague X. Vesselness features and the inverse compositional AAM for robust face recognition using thermal IR // Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 27. № 1. 2013. P. 357-364.

33. Li S.Z., Chu R., Liao S., Zhang L. Illumination invariant face recognition using near-infrared images // IEEE Transactions on pattern analysis and machine intelligence. Vol. 29. № 4. 2007. P. 627-639.

34. Farokhi S., Shamsuddin S.M., Flusser J., Sheikh U.U., Khansari M., Kourosh J. K. Rotation and noise invariant near-infrared face recognition by means of Zernike moments and spectral regression discriminant analysis // Journal of Electronic Imaging. Vol. 22. № 1. 2013. P. 1-11.

35. Farokhi S., Shamsuddin S.M., Flusser J., Sheikh U.U., Khansari M., Kourosh J. K. Near infrared face recognition by combining Zernike moments and undecimated discrete wavelet transform // Digital Signal Processing. Vol. 31. 2014. P. 13-27.

36. Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. Погружение в мир нейронных сетей. СПб.: Питер, 2018. С.476.

37. Bebis G., Gyaourova A., Singh S., Pavlidis I. Face recognition by fusing thermal infrared and visible imagery // Image and Vision Computing. Vol. 24. №7. 2006. P. 727-742.

38. Li S. Z., Chu R., Ao M., Zhang L., He R. Highly accurate and fast face recognition using near infrared images // International Conference on Biometrics. Springer. 2006. P. 151-158.

39. Di H., Yun-Hong W., Yi-Ding W., A robust infrared face recognition method based on AdaBoost Gabor features // 2007 International Conference on Wavelet Analysis and Pattern Recognition. Vol. 3. 2007. P. 1114-1118.

40. Zhao S., Grigat R.-R. An automatic face recognition system in the near infrared spectrum // International Workshop on Machine Learning and Data Mining in Pattern Recognition. Springer. 2005. P. 437-444.

41. Rara, H., Elhabian S., Ali A., Gault T., Miller M., Starr T., Farag A. A framework for long distance face recognition using dense- and sparse-stereo reconstruction // International Symposium on Visual Computing. 2009. P. 774-783.

42. Huang D., Wang Y., Wang Y. A robust method for near infrared face recognition based on extended local binary pattern // International Symposium on Visual Computing. 2007. P. 437-446.

43. Li, Stan Z. Encyclopedia of Biometrics: I-Z. Vol. 2. Springer Science & Business Media, 2009. P. 1433. ISBN 978-0-387-73002-8.

44. Ouyang S., Hospedales T., Song Y-Z., and Li X., Loy C. C., Wang X. A survey on heterogeneous face recognition: Sketch, infra-red, 3D and low-resolution // Image and Vision Computing. Vol. 56. 2016. P. 28-48.

45. Lin D., Tang X. Inter-modality face recognition // European conference on computer vision. Springer. 2006. P. 13-26.

46. Liao S., Yi D., Lei Z., Qin R., Li S. Z. Heterogeneous face recognition from local structures of normalized appearance // International Conference on Biometrics. 2009. P. 209-218.

47. Yi D., Liao S., Lei Z., Sang J., Li S. Z. Partial face matching between near infrared and visual images in mbgc portal challenge // International Conference on Biometrics. Springer. 2009. P. 733-742.

48. Yi D., Lei Z., Liao S. K., Li S. Shared representation learning for heterogeneous face recognition // 2015 11th IEEE international conference and workshops on automatic face and gesture recognition (FG). 2015. Vol. 1. P. 1-7.

49. Lei Z., Li S. Coupled spectral regression for matching heterogeneous faces // CVPR. 2009. P. 1123-1128.

50. Yan S., Xu D., Zhang B., Zhang H.-J., Yang Q., Lin S. Graph embedding and extensions: a general framework for dimensionality Reduction // TPAMI. 2007. P. 40-51.

51. Cai D., He X., Han J. Spectral regression for efficient regularized subspace learning // ICCV. 2007. P. 1-8.

52. Huang X., Lei Z., Fan M., Wang X., Li S. Regularized discriminative spectral regression method for heterogeneous face matching // TIP. 2013. P. 353-362.

53. Liao S., Yi D., Lei Z., Qin R., Li S. Z. Heterogeneous face recognition from local structures of normalized appearance // IAPR International Conference on Biometrics. 2009. P. 209-218.

54. Klare B. F., Li Z., Jain A. K. Matching forensic sketches to mug shot photos // IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 33. №3. 2011. P. 639-646.

55. Goswami D., Chan C. H., Windridge D., Kittler J. Evaluation of face recognition system in heterogeneous environments (visible vs NIR) // IEEE International Conference on Computer Vision Workshop. 2011. P. 2160-2167.

56. Dhamecha T. I., Sharma P., Singh R., Vatsa M. On effectiveness of histogram of oriented gradient features for visible to near infrared face matching // International Conference on Pattern Recognition. 2014. P. 1788-1793.

57. Gong D., Li Z., Huang W., Li X., Tao D. Heterogeneous face recognition: A common encoding feature discriminant approach // IEEE Transactions on Image Processing. Vol. 26. №5. 2017. P. 2079-2089.

58. Saxena S., Verbeek J. Heterogeneous face recognition with CNNs // European Conference on Computer Vision Workshops. 2016. P. 483-491.

59. Liu X., Song L., Wu X., Tan T. Transferring deep representation for NIR-VIS heterogeneous face recognition // 2016 International Conference on Biometrics (ICB). IEEE. 2016. P. 1-8.

60. Reale C., Nasrabadi N. M., Kwon H., Chellappa R. Seeing the forest from the trees: A holistic approach to near-infrared heterogeneous face recognition // IEEE Workshop on Perception Beyond the Visible Spectrum. 2016. P. 54-62.

61. Wang R., Yang J., Yi D., Li S. An analysis-by-synthesis method for heterogeneous face biometrics, Advances in Biometrics // Springer. 2009. P. 319-326.

62. Xie X., Lam K.-M. An efficient illumination normalization method for face recognition // Pattern Recognition Letters. Vol. 27. №6. 2006. P. 609-617.

63. Chen J., Yi D., Yang J., Zhao G., Li S., Pietikainen M. Learning mappings for face synthesis from near infrared to visual light images // CVPR. 2009. P. 156-163.

64. Zhang T., Wiliem A., Yang S., Lovell B. Tv-gan: Generative adversarial network based thermal to visible face recognition // 2018 international conference on biometrics (ICB). IEEE. 2018. P. 174-181.

65. Bi H., Li N., Guan H., Lu D., Yang L. A multi-scale conditional generative adversarial network for face sketch synthesis // 2019 IEEE International Conference on Image Processing (ICIP). IEEE. 2019. P. 3876-3880.

66. Цурков В. И., Гринчук О. В. Циклические генеративные нейронные сети для улучшения распознавания лиц в нестандартных доменах // Известия Российской академии наук. Теория и системы управления. №4. 2018. С. 153159.

67. Zhu J.-Y., Park T., Isola P., Efros A. A. Unpaired image-to-image translation using cycle-consistent adversarial networks // Proceedings of the IEEE international conference on computer vision. 2017. P. 2223-2232.

68. Франсуа Ш. Глубокое обучение на Python. СПб.: Питер, 2018. С.400.

69. Википедия свободная энциклопедия: Глубокое обучение. URL: https://ru.wikipedia.org/wiki/Глубокое_обучение (дата обращения: 15.09.2020).

70. Джейн А. К., Мао Ж., Моиуддин К. М. Введение в искусственные нейронные сети // Computer. Vol. 29. №3. 1996. P. 31-44.

71. CS231n Convolution Neural Networks for Visual Recognition. URL: http://cs231n.github.io/. (дата обращения: 15.09.2020).

72. Хайкин С. Нейронные сети: полный курс, 2-е издание. М.: Вильямс, 2016. C.1104. ISBN 978-5-8459-2069-0.

73. Грубер И. Гетерогенное распознавание лиц по эскизам лица. // Дисс. канд. Техн. Наук. 2019. P.183.

74. LeCun Y., Bengio Y. Convolutional networks for images, speech, and time series // The handbook of brain theory and neural networks. Vol. 3361. №10. 1995. P. 276279.

75. Гришанов К. М., Белов Ю. С. Модель сверточной нейронной сети в задачах машинного зрения // Электронный журнал: наука, техника и образование. №CB1. 2017. С. 100-106.

76. Гудфеллоу Я., Иошуа Б., Курвилль А. Глубокое обучение. М.: ДМК Пресс, 2018. С.652. ISBN 978-5-97060-618-6.

77. Goodfellow I., Bengio Y., Courville A., Bengio Y. Deep learning. Cambridge: MIT press, 2016. P. 800. ISBN 978-0262035613.

78. Kohonen T. Self-Organizing Maps // Springer Science & Business Media. 2012. P. 260. ISBN 3-540-6792-9.

79. Goodfellow I., Pouget-Abadie J., Mirza M., Xu B., Warde-Farley D., Ozair S., Courville A., Bengio Y. Generative adversarial nets // Advances in neural information processing systems. 2014. P. 2672-2680.

80. Chen L. C., Zhu Y., Papandreou G., Schroff F., Adam H. Encoder-decoder with atrous separable convolution for semantic image segmentation // Proceedings of the European conference on computer vision (ECCV). 2018. P. 801-818.

81. Lin M., Chen Q., Yan S. Network in network // arXiv preprint arXiv:1312.4400. 2013. P. 1-10.

82. Zhou B., Khosla A. Lapedriza A., Oliva A., Torralba A. Learning deep features for discriminative localization // Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. P. 2921-2929.

83. Ioffe S., Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift // International conference on machine learning PMLR. 2015. P. 448-456.

84. Salimans T., Kingma D. P. Weight normalization: A simple reparameterization to accelerate training of deep neural networks // Advances in neural information processing systems. 2016. P. 901-909.

85. Ba J. L., Kiros J. R., Hinton G. E. Layer normalization // arXiv preprint arXiv:1607.06450. 2016. P. 1-14.

86. Ulyanov D., Vedaldi A., Lempitsky V. Instance normalization: The missing ingredient for fast stylization // arXiv preprint arXiv: 1607.08022. 2016. P. 1-6.

87. Schroff F., Kalenichenko D., Philbin J. Facenet: A unified embedding for face recognition and clustering // Proceedings of the IEEE conference on computer vision and pattern recognition. 2015. P. 815-823.

88. Kumar A., Kaur A., Kumar M. Face detection techniques: a review // Artificial Intelligence Review. Vol. 52. №2. 2019. P. 927-948.

89. Viola P., Jones M. Robust real-time object detection // International journal of computer vision. Vol. 4. №34-47. 2001. P. 1-25.

90. Viola P., Jones M. J. Robust real-time face detection // International journal of computer vision. Vol. 57. №2. 2004. P. 137-154.

91. Freund Y., Schapire R. E. A decision-theoretic generalization of on-line learning and an application to boosting // Journal of computer and system sciences. Vol. 55. №1. 1997. P. 119-139.

92. Freeman W. T., Adelson E. H. The design and use of steerable filters // IEEE Transactions on Pattern analysis and machine intelligence. Vol. 13. №9. 1991. P. 891-906.

93. Ahad M. A. R. Computer Vision and Action Recognition: A Guide for Image Processing and Computer Vision Community for Action Understanding. Atlantis Ambient and Pervasive Intelligence: Atlantis Press. 2011. P. 211. ISBN 978-9491216-20-6.

94. Adouani A., Henia W. M., Lachiri Z. Comparison of Haar-like, HOG and LBP approaches for face detection in video sequences // 2019 16th International MultiConference on Systems, Signals & Devices (SSD). IEEE. 2019. P. 266-271.

95. Liu W., Anguelov D., Erhan D., Szegedy C., Reed S., Fu C. Y., Berg A. C. SSD: Single shot multibox detector // European conference on computer vision. Springer. 2016. P. 21-37.

96. He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition // Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. P. 770-778.

97. Tun N. M., Gavrilov A. I., Tun N. L., Paing P. P. Face Identification System using Deep Learning Method at Low Lighting Resources // 2020 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus). IEEE. 2020. P. 2001-2004.

98. Atienza R. Advanced Deep Learning with TensorFlow 2 and Keras: Apply DL, GANs, VAEs, deep RL, unsupervised learning, object detection and segmentation, and more. Birmingham: Packt Publishing Ltd, 2020. P. 513. ISBN 978-1-83882165-4.

99. Szegedy C., Liu W., Jia Y., Sermanet P., Reed S., Anguelov D., Erhan D., Vanhoucke V., Rabinovich A. Going deeper with convolutions // Proceedings of the IEEE conference on computer vision and pattern recognition. 2015. P. 1-9.

100. Zeiler M. D., Fergus R. Visualizing and understanding convolutional networks // European conference on computer vision. Springer. 2014. P. 818-833.

101. Medium: Build a Multi-Class Support Vector Machine in R. URL: https://medium.com/@ODSC/build-a-multi-class-support-vector-machine-in-r-abcdd4b7dab6. (дата обращения: 16.09.2020).

102. Zhang Y. Support vector machine classification algorithm and its application // International Conference on Information Computing and Applications. Springer. 2012. P. 179-186.

103. Li S., Yi D., Lei Z., Liao S. The casia nir-vis 2.0 face database // Proceedings of the IEEE conference on computer vision and pattern recognition workshops. 2013. P. 348-353.

104. Sundaram M., Mani A. Face recognition: demystification of multifarious aspect in evaluation metrics // Face Recognition-Semisupervised Classification, Subspace Projection and Evaluation Methods. Intech. 2016. P. 75-92.

105. Wang K., He R., Wang L., Wang W., Tan T. Joint feature selection and subspace learning for cross-modal retrieval // IEEE transactions on pattern analysis and machine intelligence. Vol. 38. №10. 2015. P. 2010-2023.

106. Dhamecha T. I., Sharma P., Singh R., Vatsa M. On effectiveness of histogram of oriented gradient features for visible to near infrared face matching // 2014 22nd International Conference on Pattern Recognition. IEEE. 2014. P. 1788-1793.

107. Jin Y., Lu J., Ruan Q. Coupled discriminative feature learning for heterogeneous face recognition // IEEE Transactions on Information Forensics and Security. Vol. 10. №3. 2015. 640-652.

108. Yi D., Lei Z., Li S. Z. Shared representation learning for heterogenous face recognition // 2015 11th IEEE international conference and workshops on automatic face and gesture recognition (FG). Vol. 1. 2015. P. 1-7.

109. Shao M., Fu Y. Cross-modality feature learning through generic hierarchical hyperlingual-words // IEEE transactions on neural networks and learning systems. Vol. 28. №2. 2016. P. 451-463.

110. Gong D., Li Z., Huang W., Li X., Tao D. Heterogeneous face recognition // IEEE Transactions on Image Processing. Vol. 26. №5. 2017. P. 2079-2089.

111. Liu X., Song L., Wu X., Tan T. Transferring deep representation for nir-vis heterogeneous face recognition // 2016 International Conference on Biometrics (ICB). IEEE. 2016. P. 1-8.

112. Saxena S., Verbeek J. Heterogeneous face recognition with CNNs // European conference on computer vision. Springer. 2016. P. 483-491.

113. Reale C., Nasrabadi N. M., Kwon H., Chellappa R. Seeing the forest from the trees: A holistic approach to near-infrared heterogeneous face recognition // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2016. P. 54-62.

114. He R., Wu X., Sun Z., Tan T. Learning invariant deep representation for nir-vis face recognition // Thirty-First AAAI Conference on Artificial Intelligence. 2017. P. 2001-2006.

115. Song L., Zhang M., Wu X., He R. Adversarial discriminative heterogeneous face recognition // Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 32. №1. 2018. P. 7355-7362.

116. Parkhi O. M., Vedaldi A., Zisserman A. Deep face recognition // British Machine Vision Association. 2015. P. 1-12.

117. Wen Y., Zhang K., Li Z., Qiao Y. A discriminative feature learning approach for deep face recognition // European conference on computer vision. Springer. 2016. P. 499-515.

118. Lei Z., Li SZ. Coupled spectral regression for matching heterogeneous faces // 2009 IEEE Conference on Computer Vision and Pattern Recognition. IEEE. 2009. P. 1123-1128.

119. Python. URL: https://www.python.org/. (дата обращения: 6.10.2020).

120. TensorFlow. URL: https://www.tensorflow.org/. (дата обращения: 6.10.2020).

121. Keras. URL: https://keras.io/. (дата обращения: 6.10.2020).

122. Scikit-learn Machine Learning in Python. URL: https://scikit-learn.org/stable/index.html. (дата обращения: 6.10.2020).

123. OpenCV. URL: https://opencv.org/. (дата обращения: 6.10.2020).

124. Huang D.-A., Wang Y. -C. F. Coupled dictionary and feature space learning with applications to cross-domain image synthesis and recognition // IEEE International Conference on Computer Vision. 2013. P. 2496-2503.

125. Jain V., Seung S. Natural image denoising with convolutional networks // Advances in neural information processing systems. Vol. 21. 2008. P. 769-776.

126. Burger H. C., Schuler C. J., Harmeling S. Image denoising: Can plain neural networks compete with BM3D? // 2012 IEEE conference on computer vision and pattern recognition. 2012. P. 2392-2399.

127. Xie J., Xu L., Chen E. Image denoising and inpainting with deep neural networks // Advances in neural information processing systems. Vol. 25. 2012. P. 341-349.

128. Ali I., Nawaz H., Hassan S. M., Maitlo A., Hassan B., Soomro I., Ruk S. A. Image Denoising with Color Scheme by Using Autoencoders // IJCSNS. Vol. 18. №12. 2018. P. 158-161.

129. Gondara L. Medical image denoising using convolutional denoising autoencoders // 2016 IEEE 16th International Conference on Data Mining Workshops (ICDMW). 2016. P. 241-246.

130. Prewitt J. M. Object enhancement and extraction // Picture processing and Psychopictorics. Vol. 10. №1. 1970. P. 15-19.

131. Knerr S., Personnaz L., Dreyfus G. Single-layer learning revisited: A stepwise procedure for building and training neural network // Neurocomputing. Springer. Springer. 1990. P. 41-50.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.