Разработка системы распознавания визуальных образов в потоке данных тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Хуршудов Артем Александрович
- Специальность ВАК РФ05.13.01
- Количество страниц 130
Оглавление диссертации кандидат наук Хуршудов Артем Александрович
ВВЕДЕНИЕ
ГЛАВА 1 АНАЛИТИЧЕСКИЙ ОБЗОР СОВРЕМЕННЫХ МЕТОДОВ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ
1.1 Обучение с учителем. Искусственные нейронные сети. Метод опорных векторов
1.2 Компактные целостные представления. Снижение размерности. Метод главных компонент
1.3 Обнаружение локальных признаков. Сверточные нейронные сети
1.4 Использование пространственных отношений при распознавании. Констелляционные модели
1.5 Методы оценки эффективности распознавания
1.6 Выводы по первой главе
ГЛАВА 2 РАЗРАБОТКА МОДЕЛИ РЕПРЕЗЕНТАЦИИ ОБЪЕКТА НА ИЗОБРАЖЕНИИ
2.1 Математический аппарат модели
2.2 Структура локального эквивариантного детектора модели
2.3 Трансформирующий автоэнкодер как элементарная единица иерархической модели
2.4 Обучение модели в потоке данных
2.5 Выводы по второй главе
ГЛАВА 3 РАЗРАБОТКА КОМПЛЕКСА АЛГОРИТМОВ ОБУЧЕНИЯ И РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ
3.1 Алгоритм выделения локальных признаков
3.2 Алгоритм оптического трекинга
3.3 Алгоритм обучения трансформирующего автоэнкодера
3.4 Алгоритм распознавания изображений
3.5 Выводы по третьей главе
ГЛАВА 4 РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ И ЭКСПЕРИМЕНТАЛЬНЫЕ ДАННЫЕ
4.1 Планирование эксперимента
4.2 Оценка эффективности работы трансформирующего автоэнкодера
4.3 Оценка эффективности распознавания изображений
4.4 Локализация объектов в композитных сценах
4.5 Выводы по четвертой главе
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЕ A. ДЕМОНСТРАЦИОННЫЕ МАТЕРИАЛЫ
ВВЕДЕНИЕ
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации2016 год, кандидат наук Хуршудов Артем Александрович
Алгоритмы классификации данных дистанционного зондирования Земли для интерпретации спутниковых и аэрофотоснимков2023 год, кандидат наук Ньян Линн Тун
Синтез объектной нейросетевой модели распознавания образов и её применение в задачах железнодорожной автоматики2013 год, кандидат наук Зуев, Денис Владимирович
Алгоритмическое обеспечение нейро-нечеткой системы классификации состояний объектов сложной структуры2022 год, кандидат наук Чернобаев Игорь Дмитриевич
НЕЙРОСЕТЕВОЕ МОДЕЛИРОВАНИЕ РАСПОЗНАВАНИЯ МНОГОПАРАМЕТРИЧЕСКИХ ОБЪЕКТОВ2016 год, кандидат наук Лагунов Никита Алексеевич
Введение диссертации (часть автореферата) на тему «Разработка системы распознавания визуальных образов в потоке данных»
Актуальность работы.
Распознавание визуальных образов представляет собой один из важнейших компонентов систем управления и обработки информации, автоматизированных систем и систем принятия решений. Задачи, связанные с классификацией и идентификацией предметов, явлений и сигналов, характеризующихся конечным набором некоторых свойств и признаков, возникают в таких отраслях как робототехника, информационный поиск, мониторинг и анализ визуальных данных, исследования искусственного интеллекта. Алгоритмическая обработка и классификация изображений применяются в системах безопасности, контроля и управления доступом, в системах видеонаблюдения, системах виртуальной реальности и информационных поисковых системах. В настоящий момент в производстве широко используются системы распознавания рукописного текста, автомобильных номеров, отпечатков пальцев или человеческих лиц, находящие применение в интерфейсах программных продуктов, системах безопасности и идентификации личности, а также в других прикладных целях.
Интенсивные исследования в этой области имеют многолетнюю историю и связаны с работами Д. Хьюбела и Т. Визела, [41-43], Т. Кохонена [51], М. Турка и А. Петланда [91], Д. Хинтона [39,54], Я. Лекуна [55,56] и других. За последнее время существенный прогресс в распознавании визуальных образов был достигнут с появлением методов снижения размерности [38], сверточных нейронных сетей [55,86] и констелляционных моделей [10]. Однако, несмотря на достигнутые успехи, современные исследования подтверждают тот факт, что алгоритмы распознавания изображений до сих пор не обладают полноценными способностями биологических зрительных систем, такими как способность функционировать на широком, не ограниченном сверху множестве классов распознавания, устойчивость к инвариантным преобразованиям и вариативности объектов в пределах категорий.
Так, актуальной проблемой, признанной научным сообществом, остается распознавание изображенных объектов под действием аффинных трансформаций, способных значительным образом изменить форму изображения, не влияя при этом на принадлежность объекта к категории распознавания. Попытки решения этой проблемы, фигурирующей в теории распознавания образов под названием проблемы инверсии, предпринимались в таких методах как SIFT [64] и ORB [81], а также многослойных сверточных сетях [56], однако в настоящий момент эти методы предлагают частичные решения, обеспечивающие устойчивость к ограниченному подмножеству преобразований. Актуальность данной проблемы особенно высока в отраслях, где распознавание образов применяется в естественной среде (видеонаблюдение, анализ данных камер мониторинга, робототехнические зрительные системы), где зрительный сенсор может иметь произвольный ограниченный угол обзора по отношению к искомому объекту.
Целью диссертационной работы является разработка метода распознавания визуальных образов, способного решать проблему инверсии для различных отраслей применения, распознавая трехмерные объекты окружающего мира с учетом их инвариантных преобразований.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Разработка модели репрезентации объекта с помощью иерархии признаков, устойчивых к инвариантным преобразованиям.
2. Разработка алгоритмической базы для представленной модели, включающей в себя алгоритм выделения признаков и алгоритм распознавания изображений. Реализация алгоритмического комплекса в виде программы для ЭВМ.
3. Оценка производительности разработанного метода и критериев достижения поставленной цели.
4. Оценка эффективности разработанного метода в сравнении с современными альтернативными методами распознавания.
Объектом исследования диссертационной работы являются системы компьютерного зрения, осуществляющие классификацию и идентификацию объектов на изображении.
Предметом исследования являются математические модели и алгоритмы распознавания изображений.
Методы исследования.
Для решения поставленных задач использовались методы компьютерного зрения, теории оптимизации, математической статистики, теории искусственных нейронных сетей, вероятностных моделей, теории планирования эксперимента.
Научная новизна диссертационной работы состоит в следующем:
1. Разработана математическая модель, способная инкапсулировать изображенные объекты с помощью иерархии локальных эквивариантных признаков, устойчивых к пространственным преобразованиям.
2. Разработан алгоритм обучения репрезентациям на базе модели эквивариантного представления объектов базе потока визуальных данных без участия экспериментатора.
3. Предложен алгоритм идентификации и классификации объектов, использующий модель эквивариантного представления объектов, обученную на потоковых данных.
Практическая значимость разработанного метода заключается в способности обрабатывать изображения объектов инвариантным образом, обеспечивая устойчивое распознавание в условиях различных углов зрения, а также различных видов визуального шума (размытие, окклюзия, частичное перекрытие).
Использование предложенного в данной работе метода позволяет добиться повышения эффективности систем компьютерного зрения и принятия решения за счет использования компактных иерархических представлений, требующих значительно меньшей вычислительной нагрузки по сравнению с альтернативными методами. Особенности представленной модели позволяют использовать ее как для решения узкоспефицичных задач, таких как распознавание лиц, с использованием предварительного обучения, так и для обобщенного анализа данных - для
выявления закономерностей при видеонаблюдении и самообучения обнаруженным структурам.
Достоверность полученных результатов обеспечивается:
- проверкой теоретических положений с помощью экспериментального исследования;
- базированием на обоснованном научном аппарате глубокого обучения распознаванию изображений по репрезентациям;
- сравнительным анализом результатов работы предложенного алгоритма с альтернативными признанными алгоритмами, обоснованными теоретически и широко использующимися на практике;
- сопоставлением результатов эксперимента с данными других экспериментов, проведенными исследователями в сфере распознавания образов.
Соответствие паспорту специальности. Работа соответствует паспорту специальности ВАК 05.13.01 - Системный анализ, управление и обработка информации (информационные и технические системы), по пунктам 4, 5 и 10:
- Разработка методов и алгоритмов решения задач системного анализа, оптимизации, управления, принятия решений и обработки информации.
- Разработка специального математического и алгоритмического обеспечения систем анализа, оптимизации, управления, принятия решений и обработки информации.
- Методы и алгоритмы интеллектуальной поддержки при принятии управленческих решений в технических системах.
Основные положения, выносимые на защиту:
1. Математическая модель объекта на изображении, представляемого с помощью иерархии локальных эквивариантных признаков.
2. Алгоритм обучения модели на базе потока визуальных данных, позволяющий решать такие задачи компьютерного зрения, как генерация объектов, построение связей между объектами и обучение модели без участия экспериментатора с высокой робастностью к пространственным преобразованиям входных данных.
3. Алгоритм распознавания объектов, способный решать проблемы инверсии и вариативности за счет использования локально-связного ансамбля эквивариантных признаков.
Апробация работы.
Основные результаты работы докладывались на следующих конференциях: III международная научно-практическая конференция «Новейшие исследования в современной науке: опыт, традиции, инновации» 2015 г., VIII международная научно-практическая конференция: «Современные концепции научных исследований» 2014 г., XI международная научно-практическая конференция «Научное обозрение физикоматематических и технических наук в XXI веке».
Публикации. По теме диссертации опубликовано 8 печатных работ, в том числе 5 в журналах, рекомендованных ВАК, получено 1 свидетельство о государственной регистрации программы для ЭВМ.
Личный вклад автора состоит в разработке модели представления данных, алгоритма обучения модели и алгоритма распознавания изображений, постановке эксперимента и анализе полученных результатов. Основные результаты по теме диссертации изложены в 8 печатных изданиях, 5 из которых изданы в журналах, рекомендованных ВАК, 3 — в тезисах докладов.
Объем и структура работы. Диссертация состоит из введения, четырех глав,
заключения и двух приложений. Полный объем диссертации составляет 129 страниц с 27 рисунками и 7 таблицами. Список литературы содержит 106 наименований.
ГЛАВА 1. АНАЛИТИЧЕСКИЙ ОБЗОР СОВРЕМЕННЫХ МЕТОДОВ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ
1.1 Обучение с учителем. Искусственные нейронные сети. Метод опорных векторов
Один из основных подходов, наиболее широко использовавшийся в области распознавания изображений, представляет собой применение классических моделей-классификаторов, обучающихся с учителем. Для обучения таких моделей используются маркированная выборка данных, состоящая из массива изображений и соответствующего им массива меток, определяющих категорию, к которой относится изображение. В процессе обучения массив данных разделяется на две неравные части — обучающую выборку и тестовую выборку, затем с помощью специфичного для конкретного алгоритма правила обучения параметры модели настраиваются с использованием обучающей выборки таким образом, чтобы получив в качестве входных данных изображение, модель на выходе производила бы метку соответствующего класса. Этот подход представлен множеством моделей, среди которых наиболее широко используемыми является регрессионная модель, искусственная нейронная сеть (многослойный перцептрон), метод опорных векторов, а также деревья принятия решений и моделиансамбли, представляющие собой сочетания некоторых перечисленных моделей [82,5].
Многослойные перцептроны, обучающиеся методом обратного распространения ошибки, широко используются для распознавания различных категорий изображений, таких как рукописные цифры [16], почерк [3], человеческие лица [25] и данные зрительных сенсоров робототехнический систем [70]. Модель многослойного перцептрона представляет собой совокупность искусственных нейронов — вычислительной единицы модели — объединенных в уровни (слои), заданные в иерархическом порядке.
Искусственный нейрон представляет собой модель биологического нейрона (нервной клетки), представленную одним или несколькими входами, одним выходом и функцией активации [31]. Помимо этого, каждый вход искусственного
нейрона имеет ассоциированный коэффициент или вес. Поведение нейрона строится следующим образом: пусть имеется т + 1 входов, значения которых равны х0,х1...хт, а значения их весов равны <±>0) ... <±>т, при этом первый входной элемент, как правило, представляет собой фиксированное значение смещения х0 = 1. Тогда выходное значение нейрона представляет собой значение функции активации от взвешенной суммы его входных значений:
у = <р(£?= „од) (1.0)
В качестве функции активации может выступать функция, обладающая свойствами нелинейности, нормализации входных данных, и некоторыми другими.
Распространенными кандидатами являются функция сигмоиды а (г) = 1+е_г ,
е2-е~2
гиперболический тангенс tanh(z) = ег+е_г или выпрямляющая линейная функция
, л (0, г<0 ^ = к г > О"
При объединении искусственных нейронов в сеть входные значения нейрона слоя I представляют собой выходные значения нейронов предыдущего слоя 1 — 1. При этом нейроны первого (входного) слоя получают в качестве входных значения непосредственно данные, подлежащие распознаванию, которые в случае распознавания изображения представляют собой значения интенсивности составляющих его пикселей (точечных элементов). Выходной слой сети может варьироваться в зависимости от задачи, но классическая архитектура подразумевает формирование его числом нейронов, равному количеству классов распознавания, при этом выходное значение каждого нейрона нормируется по интервалу {ОД}, и представляет собой вероятность принадлежности входного изображения к соответствующему классу. Как отмечают исследователи, такие многослойные нейронные сети способны инкапсулировать любую математическую функцию с помощью произвольного набора нейронов [55,18].
Поскольку сформулировать аналитически правило классификации изображений по категориями распознавания зачастую представляется затруднительным, способность обучаться на базе выборки делает нейронные сети и родственные им модели подходящими для распознавания естественных
изображений окружающего мира, отличающихся нечеткой структурой и множеством вариаций в пределах класса.
ВхО, Е ЕЕ ОЙ С Кры ГЬЕ Й ВЬЕ ХОД 1НОЙ СЛОЙ СЛОЙ С.1ЕОЙ
Выходное значение
Рисунок 1.1- Схема искусственной нейронной сети с тремя слоями
Обучение сети методом обратного распространения состоит в следующем: пусть имеется некоторая неизвестная функция распознавания д : X У, аргументом которой являются изображения хп Е X, представленные в виде вектора длины п, а значениями функций — множество классов (категорий) у Е У. Обучающая выборка представляет собой подмножество значений этой функции
О = {(х0, Уо)> Ок Ут)> ■■■> (Хт> Ут)\
Задача обучения модели распознавания заключается в отыскании такой функции к : X У , которая бы аппроксимировала функцию д на всей ее области определения, в том числе значениях, не включенных в О, и представляет собой приложение теории оптимизации.
Пусть ¡г(х) — выходное значение сети, полученное путем последовательной активации нейронов каждого слоя, а д(х) — значение аппроксимируемой функции для одного и того же изображения. Далее выполняется шаг обратного распространения, заключающийся в вычислении частной производной для каждого нейрона сети по отношению к его весам:
где Е = - (Я(х) — д(х))2 — среднеквадратичное отклонение сети. Далее на
каждом шаге обучения веса нейронов инкрементируются значениями частных производных в соответствии с методом градиентного спуска. Вариации обучающего алгоритма включают в себя исключительные дополнительных параметров регуляризации в целях защиты от переобучения, и использование различных оптимизаторов — метода Ньютона, метода имитации отжига, Ь-ВРСБ и других [2].
Многослойные перцептроны демонстрируют успешные результаты при использовании их для распознавания изображений некоторых отдельных ограниченных категорий, таких как символы естественного языка, рукописные цифры и почерк [55]. В настоящее время в большинстве приложений, использующих прямое обучение с учителем для распознавания изображений, нейронные сети вытеснены методом опорных векторов, предлагающим более эффективное с точки зрения объема вычислительных ресурсов решение.
Метод опорных векторов рассматривает каждый экземпляр данных (изображение) как точку в п-мерном пространстве, где п соответствует размерности данных или общему числу пикселей изображения. Каждая из точек принадлежит к некоторому классу (категории). При этом задача распознавания представляется в виде задачи по нахождению такой гиперплоскости в /7-мерном пространстве, которая бы отделяла все точки, соответствующие изображениям данного класса, от остальных, не принадлежащих ему. Предполагая, что таких гиперплоскостей может существовать много, метод опорных векторов ставит целью отыскание плоскости, расстояние до которой от ближайшей точки максимально в пределах множества возможных вариантов — т.н. оптимальную разделяющую гиперплоскость и соответствующий ей оптимальный классификатор.
Входные данные, таким образом, имеют вид:
(Оо, Уо)< (хх, У г), ■ ■ ■, (хт, ут)} (1.2)
где — ¿-тое изображение, а у; — ¿-тый класс, представленный целым числом. Значения представляющие собой п-мерный вектор, нормализуются в пределах интервала {ОД}. Разделяющая плоскость задается параметром и/ —
перпендикуляром (нормальным вектором) от точки к плоскости, и описывается уравнением wx — Ь = 0. Таким образом, задача сводится к минимизации \ \w\l. По теореме Куна - Таккера [33] гиперплоскость может быть представлена в качестве линейной комбинации векторов обучающей выборки:
ж = Т1=1а1У1х1 (1-3)
где щ — некоторые множители Лагранжа. Нахождение значения w таким образом позволяет получить линейные гиперплоскости, поэтому такой метод относится к разделу т.н. линейных опорных векторов. Классифицирующая функция при этом равна ^(х) = 51дп((^,х) + Ь), где Ь — вспомогательный параметр смещения. На практике случаи, где данные в задаче распознавания могут быть разделены линейно, достаточно редки. В таких случаях применяется метод использования ядер, предложенный Б. Босером, И. Гийон и В. Вапником, и заключающийся в том, что элементы обучающейся выборки вкладываются в пространство х' более высокой размерности с помощью специального отображения Яп ^ х'. При этом отображение ^ выбирается так, чтобы в пространстве х' выборка была разделима линейно. Ядром классификатора называется выражение х(х, х') = (р(х), ф{х'У), задающее отображение выборки в новое пространство, и его роль, как правило, может выполнять любая положительно определенная симметричная функция двух переменных. На практике встречаются следующие ядра: полиномиальное, радиальная базисная функция, гауссова базисная функция, сигмоида [33].
Обучения модели, использующей метод опорных векторов производится методами квадратичного программирования, такими как последовательная минимальная оптимизация [18].
Метод опорных векторов имеет некоторые преимущества и недостатки по отношению к использованию многослойных перцептронов:
1. Многослойный перцептрон представляет собой модель с множеством скрытых параметров, зависящих от числа нейронов сети. Параметризованная модель потенциально способна к инкапсуляции более сложных, высокоуровневых функций, но при этом требует больше времени и вычислительных ресурсов для
обучения и настройки параметров. Метод опорных векторов использует векторы, отобранные из обучающей выборки, при этом количество параметров ограничено сверху размером выборки, а на практике может быть прорежено за счет использования инженерии признаков [33].
2. В отличие от обучения нейронной сети, которое осуществляется с помощью метода градиентного спуска (и его вариаций) и оценки ошибки сети, обучение модели опорных векторов включает в себя не только оценку ошибки, но и метрику сложности полученной гиперплоскости. Поиск оптимального значения нейронной сети уязвим к наличию локального минимума, способного остановить процесс градиентного спуска, при этом метод опорных векторов при корректном выборе метапараметров гарантирует нахождение глобального решения [58].
3. Обученная нейронная сеть требует минимальных вычислительных ресурсов для работы в режиме распознавания (предсказания категорий). Метод опорных векторов в некоторых случаях, когда число векторов велико по сравнению с размером выборки, строит предсказания существенно медленнее [33].
4. По сравнению с нелинейным (использующим ядра) методом опорных векторов, нейронная сеть демонстрирует расширенные способности к онлайн-обучению, когда размер выборки не фиксирован и пополняется за счет поступления новых данных.
В большинстве современных приложений алгоритмов распознавания и машинного обучения в настоящий момент отдано предпочтение методу опорных векторов [6, 79] за счет сокращения времени обучения и устойчивости к локальному минимуму. Метод опорных векторов также широко используется для распознавания изображений, таких как человеческие лица, демонстрируя высокую точность распознавания (80-85% успешно распознанных изображений) [96-74] для выравненной выборки.
Особенность задачи распознавания изображений заключается в том, что данные, представляющие собой визуальные сигналы, демонстрируют крайне низкую информационную емкость — т.е., большая часть точек растрового изображения (например, соответствующие участкам однотонного или равномерно
распределенного фона) не содержит информации, влияющей на распознавание [85]. При этом размерность изображений, использующихся в системах обработки информации, как правило, достаточно велика — современные средства мультимедиа, графические дисплеи и сенсоры обеспечивают массовое распространение изображений (фотографий, кадров видео, компьютерной графики) высокого разрешения, размерность которых измеряется миллионами точек. Для классических методов распознавания образов характерна прямая зависимость между размерностью (числом параметров) данных обучающей выборки и временем обучения, а также показателями сходимости при оптимизации модели. Наличие большого числа параметров, основная часть которых не содержит существенной для распознавания информации, негативно влияет на производительность модели, и помимо требования значительно более высоких вычислительных ресурсов ведет к появлению т.н. проблемы переобучения [3], когда функция распознавания, аппроксимированная моделью, удовлетворительно классифицирует обучающую выборку, но является при этом не генерализованой и демонстрирует низкую точность в тестовой выборке. Для решения этой проблемы используется подход поиска компактного представления изображения — выделения ограниченного числа генерализованных признаков, содержащих основную информацию, необходимую для распознавания.
1.2 Компактные целостные представления. Снижение размерности. Метод главных компонент
Одна из особенностей распознавания изображений по сравнению с другими приложениями теории распознавания образов заключается в том, что изображения в растровом виде ( в виде двумерной матрицы пикселей, каждый из которых имеет некоторое значения яркости или цвета), имеют высокую размерность — среднестатистическая фотография может быть представлена вектором длины ~ 106. Данные, представлены размерностью таких порядков, требуют исключительных вычислительных ресурсов, и практически не поддаются обработке на современных
персональных компьютерах (ситуация, известная как «проклятие размерности» [1]). При этом, однако, лишь небольшая часть этих параметров критична для задачи распознавания, что позволяет изображениям демонстрировать низкую чувствительность к случайному шуму и глобальным искажениям. Эта особенность успешно используется в алгоритмах сжатия с потерями — с помощью алгоритма JPEG изображение может быть сжато вплоть до до 10%, при этом изменения остаются незаметны для человеческого глаза. Учитывая эту особенность, становится возможным применение к естественным изображениям статистических методов снижения размерности, таких как метод главных компонент [47]. Суть метода состоит в том, чтобы представить входные данные в виде линейной суммы компонент с некоторыми коэффициентами.
Пусть Xj — i-тое изображение. Найдем ковариационную матрицу £ =
Собственные векторы и собственные значения матрицы Г будут
соответствовать главным компонентам преобразованного изображения. Выберем р главных компонент в качестве базиса для представления данных. Построим матрицу
U = (u±\u2\...\up) (1.4)
где щ,и2, ...ир — р первых собственных векторов ковариационной матрицы (выбранных по порядку убывания соответствующих им собственных значений). Тогда мы можем получить компактное представление изображения как хРСА = UTx, где размерность хРСА будет снижена до значения р.
Классический метод главных компонент, однако, неприменим для большинства изображений из-за вычислительной сложности построения ковариационной матрицы. Турк и Пентланд [91] в 1991 г. предложили алгоритм распознавания Eigenfaces, где использовали альтернативный, приемлемый для современных компьютер метод расчета собственных векторов. В их примере метод использовался на фронтальных фотографиях человеческих лиц. Подтверждая предположение о том, что размерность изображения может быть значительно снижена, сохраняя при этом достаточно информации для успешного распознавания
человеком, они показали, что каждое из лиц выборки можно представить при помощи ограниченного (<10) набора главных компонент.
Рисунок 1.2 - Примеры главных компонент алгоритма Eigenfaces [91]
Для распознавания тестовые изображения проецировались на базис выбранных главных компонент, т.е. представлялись в виде линейной суммы р слагаемых. Затем на представленных таким образом данных тренировали модель, использующую обучение с учителем (многослойный перцептрон или SVM), и таким образом, задача сводилась к классической. Использование Eigenfaces позволяло эффективно распознавать лица при различном освещении и давало некоторую устойчивости к ориентации; однако, алгоритм плохо работал на лицах разного размера (вариации масштаба). Кроме того, алгоритм был рассчитан на то, что входные данные будут представлять собой лица, сориентированные соответствующим образом, не предлагая метода отыскания интересующего фрагмента лица среди изображения композитной сцены.
Помимо перечисленных, метод главных компонент имел и другие ограничения, которые способствовали появлению новых методов представления изображений. Б. Ольшозен в своей работе [76] показал, что алгоритм, названным им разреженным кодированием способен эффективнее представлять внутреннюю структуру изображения и объектов в нем, при этом демонстрируя некоторые свойства, впечатляюще схожие со свойствами клеток зрительной коры головного мозга (так называемых «простых клеток» зоны VI). Этот алгоритм, однако, в противоположность РСА, представлял данные в виде сверхполного базиса векторов, каждый из которых, таким образом, не являлся линейно независимым от
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Математическое моделирование и исследование алгоритмов обучения и выбора гиперпараметров искусственных нейронных сетей для классификации объектов на цифровых изображениях2023 год, кандидат наук Толстых Андрей Андреевич
Модель, метод и нейросетевое оптико-электронное вычислительное устройство распознавания изображений2020 год, кандидат наук Волков Денис Андреевич
Разработка математических моделей и алгоритмов классификации динамических объектов2018 год, кандидат наук Аль Хашеди Адам Абдо Ахмед
Автоматизированные системы научных исследований угроз безопасности личности2023 год, кандидат наук Бабичева Маргарита Вадимовна
Разработка и анализ алгоритмов детектирования и классификации объектов на основе методов машинного обучения2012 год, кандидат технических наук Голубев, Максим Николаевич
Список литературы диссертационного исследования кандидат наук Хуршудов Артем Александрович, 2016 год
СПИСОК ЛИТЕРАТУРЫ
1. Bellman, R. E. Perturbation techniques in mathematics, engineering and physics / R. E. Bellman. — Courier Corporation, 2003. — 214 pp.
2. Bengio, Y. Learning deep architectures for AI / Y. Bengio // Foundations and trends in Machine Learning. — 2009. — no. 1. — Pp. 1-127.
3. Bengio, Y. Representation learning: A review and new perspectives / Y. Bengio, A. Courville, P. Vincent // Pattern Analysis and Machine Intelligence. — 2013.
— no. 35(8). — Pp. 1798-1828.
4. Bengio, Y. Why does unsupervised pre-training help deep learning? / Y. Bengio, D. Erhan // The Journal of Machine Learning Research. — 2010. — no. 11. — Pp. 625-660.
5. Bishop, C. M. Pattern recognition and machine learning / C. M. Bishop. — New York: Springer, 2006. — 12 pp.
6. Bradski, G. The OpenCV library / G. Bradski // Doctor Dobbs Journal. — 2000.
— no. 25.11. — Pp. 120-126.
7. Brown, M.S. Image restoration of arbitrarily warped documents / M.S. Brown, W.B. Seales // Pattern Analysis and Machine Intelligence. — 2004. — Pp. 1295-1306.
8. Bundy, A. Difference of Gaussians / A. Bundy, L. Wallen // Catalogue of Artificial Intelligence Tools. — 1984. — Pp. 30-35.
9. Canny, J. A computational approach to edge detection / J. Canny // Pattern Analysis and Machine Intelligence, IEEE Transactions on. — 1986. — no. 6. — Pp. 679698.
10. Cao, L. Spatially coherent latent topic model for concurrent segmentation and classification of objects and scenes / L. Cao, L. Fei-Fei // Computer Vision (ICCV), 2007 IEEE International Conference. — 2007. — Pp. 1-8.
11. Changizi, M. A. Perceiving the present and a systematization of illusions / M. A. Changizi // Cognitive science. — 2008. — no. 32(3). — Pp. 459-503.
12. Ciresan, D. Multi-column deep neural networks for image classification / D. Ciresan, U. Meier, J. Schmidhuber // Computer Vision and Pattern Recognition (CVPR).
— 2012. — Pp. 3642-3649.
13. Cootes, T.F. Active appearance models / T.F. Cootes, G.J. Edwards, C.J. Taylor // IEEE Transactions on pattern analysis and machine intelligence. — 2001. — no. 23(6).
— Pp. 681-685.
14. Dementhon, D.F. Model-based object pose in 25 lines of code / D.F. Dementhon, L.S. Davis // International journal of computer vision. — 1995. — no. 15.12. — Pp. 123-141.
15. Deng, L. Recent advances in deep learning for speech research at Microsoft / L. Deng // Acoustics, Speech and Signal Processing (ICASSP). — 2013. — Pp. 86048608.
16. Deng, L. The MNIST database of handwritten digit images for machine learning research / L. Deng // IEEE Signal Processing Magazine. — 2012. — no. 29.6. — Pp. 141-142.
17. Droniou, A. Gated autoencoders with tied input weights / A. Droniou, O. Sigaud // International Conference on Machine Learning. — 2013. — Pp. 17-24.
18. Duin, R. P. W. Open issues in pattern recognition / R. P. W. Duin, E. Pekalska // Computer Recognition Systems. — 2005. — Pp. 27-42.
19. Farneback, G. Two-frame motion estimation based on polynomial expansion / G. Farneback // Image Analysis. — 2003. — Pp. 363-370.
20. Fei-Fei, L. Combining randomization and discrimination for fine-grained image categorization / L. Fei-Fei, B. Yao, A. Khosla // Computer Vision and Pattern Recognition. — 2011. — Pp. 1577-1584.
21. Fei-Fei, L. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories / L. Fei-Fei, R. Fergus, P. Perona // Computer Vision and Image Understanding. — 2007. — no. 106(1). — Pp. 5970.
22. Fei-Fei, L. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories / L. Fei-Fei, R. Fergus, P.
Perona // Computer Vision and Image Understanding. — 2007. — no. 106(1). — Pp. 5970.
23. Fei-Fei, L. One-shot learning of object categories / L. Fei-Fei, R. Fergus, P. Perona // Pattern Analysis and Machine Intelligence, IEEE Transactions. — 2006. — no. 28(4). — Pp. 594-611.
24. Felzenszwalb, P.F. Efficient graph-based image segmentation / P.F. Felzenszwalb, D.P. Huttenlocher // International Journal of Computer Vision. — 2004. — no. 59.2. — Pp. 167-181.
25. Fergus, R. A sparse object category model for efficient learning and exhaustive recognition / R. Fergus, P. Perona, A. Zisserman // Computer Vision and Pattern Recognition. — 2005. — no. 1. — Pp. 380-387.
26. Fukushima, K. Neocognitron: A hierarchical neural network capable of visual pattern recognition / K. Fukushima // Neural networks. — 1988. — no. 2. — Pp. 119130.
27. Fusiello, A. A compact algorithm for rectification of stereo pairs / A. Fusiello, E. Trucco, A. Verri // Machine Vision and Applications. — 2000. — no. 12.1. — Pp. 1622.
28. Gourier, N. Caffe: Convolutional architecture for fast feature embedding / N. Gourier, D. Hall, J.L. Crowley // FG Net Workshop on Visual Observation of Deictic Gestures. — 2004. — Pp. 1-9.
29. Gower, J.C. Procrustes problems / J.C. Gower, G.B. Dijksterhuis. — Oxford University Press, 2004. — 22-25 pp.
30. Grady, L. Random walks for image segmentation / L. Grady // Pattern Analysis and Machine Intelligence, IEEE Transactions on. — 2006. — no. 28.11. — Pp. 17681783.
31. Grauman, K. Visual object recognition / K. Grauman, B. Leibe. — Morgan & Claypool Publishers, 2010. — 165-186 pp.
32. Harris, C. A combined corner and edge detector / C. Harris, M. Stephens // Alvey vision. — 1988. — no. 15. — Pp. 61-67.
33. Hearst, M.A. Support vector machines / M.A. Hearst, S.T. Dumais, E. Osman et al. // Intelligent Systems and their Applications. — 1998. — no. 4. — Pp. 18-28.
34. Hinton, G.E. A new way to learn acoustic events / G.E. Hinton, N. Jaitly // Advances in Neural Information Processing Systems. — 2011. — no. 24.
35. Hinton, G.E. A practical guide to training restricted Boltzmann machines / G.E. Hinton // Momentum. — 2010. — no. 9(1). — P. 926.
36. Hinton, G.E. Dropout: A simple way to prevent neural networks from overfitting / G.E. Hinton, N. Srivastava // The Journal of Machine Learning Research. — 2014. — no. 15.1. — Pp. 1929-1958.
37. Hinton, G.E. Learning multiple layers of features from tiny images / A. Krizhevsky, G. Hinton // Computer Science Department, University of Toronto, Tech. Rep. — 2009. — no. 1.4. — Pp. 7-10.
38. Hinton, G.E. Reducing the dimensionality of data with neural networks / G.E. Hinton, R.R. Salakhutdinov // Science. — 2006. — no. 313(5786). — Pp. 504-507.
39. Hinton, G.E. Transforming auto-encoders / G.E. Hinton, A. Krizhevsky, S. D. Wang // Artificial Neural Networks and Machine Learning-ICANN 2011. — 2014. — Pp. 44-51.
40. Huang, G.B. Labeled faces in the wild: A database for studying face recognition in unconstrained environments / G.B. Huang, M. Ramesh, T. Berg, E. Learned-Miller // Technical Report 07-49, University of Massachusetts. — 2007. — no. 1(2). — Pp. 3-37.
41. Hubel, D. H. Brain and visual perception / D. H. Hubel, T. N. Wiesel. — ISBN13, 2005. — 36-46 pp.
42. Hubel, D. H. Eye, brain, and vision / D. H. Hubel. — New York: Scientific American Library, 1988. — 85-87 pp.
43. Hubel, D. H. Receptive fields and functional architecture of monkey striate cortex / D. H. Hubel, T. N. Wiesel // The Journal of physiology. — 1968. — no. 195(1). — Pp. 215-243.
44. ImageNet Large Scale Visual Recognition Challenge [Электронный ресурс] / Olga Russakovsky, Jia Deng, Hao Su et al. — arXiv, 2010. — http://www. imagenet. org/challenges/LSVRC.
45. Ji, Q. 3D face pose estimation and tracking from a monocular camera / Q. Ji // Image and vision computing. — 2002. — no. 20(7). — Pp. 499-511.
46. Jia, Y. Caffe: Convolutional architecture for fast feature embedding / Y. Jia // Proceedings of the ACM International Conference on Multimedia. — 2014. — Pp. 675678.
47. Jolliffe, I. Principal component analysis. / I. Jolliffe. // John Wiley and Sons, 2002. — 13-16 pp.
48. Kadir, T. An affine invariant salient region detector / T. Kadir, A. Zisserman, M. Brady // Computer Vision-ECCV. — 2004. — Pp. 228-241.
49. Keysers, D. Comparison and combination of state-of-the-art techniques for handwritten character recognition: topping the mnist benchmark / D. Keysers // arXiv. — 2007. — no. 0710.2231. — Pp. 21-27.
50. Koenderink, J.J. Optic flow / J.J. Koenderink // Vision research. — 1986. — no. 26.1. — Pp. 161-179.
51. Kohonen, T. Self-organization and associative memory / T. Kohonen // Springer-Verlag Berlin Heidelberg New York. — 1988. — no. 8(1). — Pp. 13-27.
52. Konolige, K. Projected texture stereo / K. Konolige // Robotics and Automation (ICRA). — 2010. — Pp. 23-28.
53. Kreutz-Delgado, K. Dictionary learning algorithms for sparse representation / K. Kreutz-Delgado // Neural computation. — 2003. — no. 15.2. — Pp. 349-396.
54. Krizhevsky, A. Imagenet classification with deep convolutional neural networks / A. Krizhevsky, I. Sutskever, G.E. Hinton // Advances in neural information processing systems. — 2012. — Pp. 1097-1105.
55. LeCun, Y. Backpropagation applied to handwritten zip code recognition / Y. LeCun // Neural computation. — 1989. — no. 4. — Pp. 541-551.
56. LeCun, Y. Comparison of learning algorithms for handwritten digit recognition / Y. LeCun // International conference on artificial neural networks. — 1995. — no. 60. — Pp. 111-115.
57. Lee, H. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations / H. Lee // Proceedings of the 26th Annual International Conference on Machine Learning. — 2009. — Pp. 609-616.
58. Lee, H. Efficient sparse coding algorithms / H. Lee // Advances in neural information processing systems. — 2006. — Pp. 801-808.
59. Leo, B. Random forests / B. Leo // Machine learning. — 2001. — no. 45(1). — Pp. 5-32.
60. Lindeberg, T. Scale invariant feature transform [Электронный ресурс] / T. Lindeberg // Scholarpedia. — 2012. — http://www.scholarpedia.org/article/Scale _Invariant _Feature _Transform.
61. Lindeberg, T. Scale-space theory: A basic tool for analyzing structures at different scales / T. Lindeberg // Journal of applied statistics. — 1994. — no. 21.1-2. — Pp. 225-270.
62. Liu, J. Seeing Jesus in toast: Neural and behavioral correlates of face pareidolia / J. Liu // Cortex. — 2014. — no. 53. — Pp. 60-77.
63. Liu, J. Statistics and social network of youtube videos / X. Cheng, C. Dale, J. Liu // Quality of Service, 16th International Workshop on. — 2008. — Pp. 113-121.
64. Lowe, D.G. Object recognition from local scale-invariant features / D.G. Lowe // Computer Vision (ICCV). The proceedings of the seventh IEEE international conference. — 1999. — no. 2. — Pp. 1150-1157.
65. Lucas, B.D. An iterative image registration technique with an application to stereo vision / B.D. Lucas, T. Kanade // IJCAI. — 1981. — no. 81. — Pp. 25-34.
66. Mairal, J. Online dictionary learning for sparse coding / J. Mairal // Proceedings of the 26th Annual International Conference on Machine Learning. — 2009. — Pp. 113123.
67. Martin, E. A density-based algorithm for discovering clusters in large spatial databases with noise / E. Martin // Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96). — 1996. — no. 9 (34). — P. 226231.
68. Matsugu, M. Subject independent facial expression recognition with robust face detection using a convolutional neural network / M. Matsugu // Neural Networks. — 2003. — no. 16(5). — Pp. 555-559.
69. Meyer, F. The morphological approach to segmentation: the watershed transformation / F. Meyer, B. Serge // Optical Engineering-New Yours-Marcel Dekker incorporated. — 1992. — no. 34. — Pp. 433-433.
70. Murphy-Chutorian, E. Head pose estimation in computer vision: A survey. / E. Murphy Chutorian, M.M. Trivedi // Pattern Analysis and Machine Intelligence, IEEE Transactions on 31.4. — 2009. — Pp. 607-626.
71. Navalpakkam, V. Search goal tunes visual features optimally / V. Navalpakkam, L. Itti // Neuron. — 2007. — no. 53.4. — Pp. 605-617.
72. Navneet, D. Histograms of oriented gradients for human detection / D. Navneet, B. Triggs // Computer Vision and Pattern Recognition. — 2005. — no. 1. — Pp. 886893.
73. Ng, A. The Importance of Encoding Versus Training with Sparse Coding and Vector Quantization / A. Ng, A. Coates // Workshop on Learning Architectures, Representations, and Optimization for Speech and Visual Information Processing / International Conference on Machine Learning. — 2011. — 06.
74. Ng, A.Y. An analysis of single-layer networks in unsupervised feature learning / A.Y. Ng, H. Lee, A. Coates // International Conference on Artificial Intelligence and Statistics. — 2011. — Pp. 215-223.
75. Oh, K.S. GPU implementation of neural networks / K.S. Oh, K. Jung // Pattern Recognition. — 2004. — no. 37.6. — Pp. 1311-1314.
76. Olshausen, B. A. Emergence of simple-cell receptive field properties by learning a sparse code for natural images / B. A. Olshausen // Nature. — 1996. — no. 6583. — Pp. 607-609.
77. Ozuysal, M. Pose estimation for category specific multiview object localization / M. Ozuysal, V. Lepetit, P. Fua // Computer Vision and Pattern Recognition. — 2009. — Pp. 778-785.
78. Pan, S.J. A survey on transfer learning / S.J. Pan, Q. Yang // Knowledge and Data Engineering, IEEE Transactions on. — 2010. — no. 22.10. — Pp. 1345-1359.
79. Pedregosa, F. Scikit-learn: Machine learning in Python / F. Pedregosa, G. Varoquaux, A. Gramfort et al. // The Journal of Machine Learning Research. — 2011. — no. 12. — Pp. 2825-2830.
80. Purves, D. Why we see what we do: An empirical theory of vision / D. Purves, R. B. Lotto. — Sinauer Associates, 2003. — 113 pp.
81. Rublee, E. ORB: an efficient alternative to SIFT or SURF / E. Rublee // Computer Vision (ICCV), 2011 IEEE International Conference. — 2011. — Pp. 25642571.
82. Sebe, N. Machine learning in computer vision / N. Sebe. — New York: Springer Science & Business Media, 2005. — 29 pp.
83. Serre, T. Object recognition with features inspired by visual cortex / T. Serre, L. Wolf, T. Poggio // Computer Vision and Pattern Recognition. — 2005. — no. 2. — Pp. 994-1000.
84. Shimojo, S. Occlusion and the solution to the aperture problem for motion / S. Shimojo, G.H. Silverman, K. Nakayama // Vision research. — 1989. — no. 29.5. — Pp. 619-626.
85. Simoncelli, E. P. Natural image statistics and neural representation / E. P. Simoncelli, B. A. Olshausen // Annual review of neuroscience. — 2001. — no. 24(1). — Pp. 1193-1216.
86. Szegedy, C. Going deeper with convolutions / C. Szegedy // arXiv. — 2014. — no. 1409.4842.
87. Thaler, L. Neural correlates of natural human echolocation in early and late blind echolocation experts / L. Thaler, S. R. Arnott, M. A. Goodale // PLoS One. — 2011. — no. 6(5). — P. e20162.
88. Treisman, A.M. A feature-integration theory of attention / A.M. Treisman, G. Gelade // Cognitive psychology. — 1980. — Pp. 97-136.
89. Treue, S. Feature-based attention influences motion processing gain in macaque visual cortex / S. Treue, J.C. Martinez-Trujillo // Nature. — 1999. — no. 399.6736. — Pp. 575-579.
90. Tsotsos, J.K. Modeling visual attention via selective tuning / J.K. Tsotsos // Artificial intelligence. — 1995. — no. 78.1. — Pp. 507-545.
91. Turk, M. A. Face recognition using eigenfaces / M. A. Turk, A. P. Pentland // Computer Vision and Pattern Recognition. — 1991. — no. Proceedings CVPR'91., IEEE Computer Society Conference. — Pp. 586-591.
92. Viola, P. Rapid object detection using a boosted cascade of simple features / P. Viola, M. Jones // Computer Vision and Pattern Recognition. — 2001. — no. 1. — Pp. I-511.
93. Wang, S. Learning to Extract Parameterized Features by Predicting Transformed Images / S. Wang. — М., 2011. — 53 pp.
94. Welinder, P. Towards automated large scale discovery of image families / M. Aly, P. Welinder, M. Munich, P. Perona // Computer Vision and Pattern Recognition. — 2009. — Pp. 9-16.
95. Willems, G. An efficient dense and scale-invariant spatio-temporal interest point detector / G. Willems, T. Tuytelaars, L. Van Gool // Computer Vision-ECCV. — 2008. — Pp. 650-663.
96. Yahia, S. Human detection based on integral Histograms of Oriented Gradients and SVM / S. Yahia, M. Atri, R. Tourki // Communications, Computing and Control Applications. — 2011. — Pp. 1 - 5.
97. Zuo, F. Fast facial feature extraction using a deformable shape model with haar-wavelet based local texture attributes / F. Zuo, P. H. N. de With // Image Processing. — 2004. — no. 3. — Pp. 1425-1428.
98. Хуршудов, А.А. Визуальный трекинг объектов для обучения локальным признакам / А.А. Хуршудов, В.Н. Марков // Новейшие исследования в современной науке: опыт, традиции, инновации: Сборник научных статей III Международной научно-практической конференции. — 2015. — С. 67-71.
99. Хуршудов, А.А. Обнаружение локальных пространственных структур для распознавания изображений / А.А. Хуршудов // Научно-технические ведомости СпбГУ. Информатика. Телекоммуникации. Управление. — 2014. — №2 5(205). — С. 72-82.
100. Хуршудов, А.А. Обучение многослойного разреженного автоэнкодера на изображениях большого масштаба / А.А. Хуршудов // Вестник компьютерных и информационных технологий. — 2014. — № 2(116). — С. 27-31.
101. Хуршудов, А.А. Построение констелляционной модели представления визуальных образов / А.А. Хуршудов, В.Н. Марков // Prospero. XI межнудародная научно-практическая конференция "Научное обозрение физико-математических и технических наук в XXI веке". — 2014. — № 6. — С. 35-40.
102. Хуршудов, А.А. Построение трехмерных карт признаков на основе видеофрагментов методом оптического потока / А.А. Хуршудов // Научно-технические ведомости СпбГУ. Информатика. Телекоммуникации. Управление. — 2015. — № 2(217).
103. Хуршудов, А.А. Представление трехмерных объектов с помощью ансамбля трансформирующих автоэнкодеров / А.А. Хуршудов // Научно-технические ведомости СпбГУ. Информатика. Телекоммуникации. Управление. — 2015. — № 3(222).
104. Хуршудов, А.А. Проблема инверсии в компьютерном зрении / А.А. Хуршудов, В.Н. Марков // Евразийский Союз Ученых (ЕСУ). VIII международная научно-практическая конференция "Современные концепции научных исследований". — 2014. — № 8. — С. 58-63.
105. Хуршудов, А.А. Спонтанное выделение иерархии двумерных признаков / А.А. Хуршудов, В.Н. Марков // Научно-технические ведомости СпбГУ. Информатика. Телекоммуникации. Управление. — 2014. — № 6(210). — С. 58-69.
106. Ярбус, А.Л. К вопросу о роли движений глаз в процессе зрения / А.Л. Ярбус // Биофизика. — 1959. — № 6. — С. 41-51.
125
СПИСОК РИСУНКОВ
1.1 Схема искусственной нейронной сети с тремя слоями
1.2 Примеры главных компонент алгоритма Eigenfaces [5]
1.3 а) Демонстрация представления участков изображения с помощью разреженного кода. б) Примеры компонент для трех категорий объектов (на разных уровнях) [35]
1.4 Архитектура сверточной нейронной сети
1.5 Объекты, представленные локальными признаками SIFT, демонстрируют высокую устойчивость к пространственным преобразованиям, и окклюзии [13].
1.6 Справа внизу: примеры изображений для обучения составных частей модели.
Справа вверху: визуализация параметров в. Слева: примеры успешно распознанных изображений [12]
2.1 Модель представления объектов на примере человеческих лиц, содержащая два уровня репрезентации
2.2 Схема дискриминативного эквивариантного детектора для изображения глаза. Выходные данные детектора представляю собой кортеж из значений двух его функций. Трансформация T в данном случае представлена вектором трех углов Эйлера
2.3 Структурная схема трансформирующего автоэнкодера для обучения трансляциям
2.4 Веса нейронов порождающего слоя автоэнкодера, обученного на трансформированных изображениях MNIST (только трансляция)
2.5 Реконструкции трансформированных изображений MNIST (только трансляция)
2.6 Трансформирующий автоэнкодер, использующий матрицу двумерной аффинной трансформации
2.7 Реконструкции трансформированных изображений ММЗТ (полная аффинная трансформация)
2.8 Веса нейронов порождающего слоя автоэнкодера, обученного на изображениях ММЗТ (полная аффинная трансформация)
2.9 Схема обучения модели в потоке данных
2.10 Последовательности участков заметности, обнаруженные при вращении трех мерной модели лица. Каждая пара соседних фрагментов соответствует извест ной трансформации: повороту вокруг оси 2 на угол ф
3.1 Фрагменты изображения, обнаруженные алгоритмом выделения локальных признаков. а) Фрагменты, характеризующиеся максимальной заметностью (локальной энтропией). б) Фрагменты, характеризующиеся отличительными по казателями интенсивности и структурной сложности
3.2 Схема проекции трехмерных точек на плоскость сенсора. Математическая операция проекции используется при построении трехмерной карты признаков.
3.3 Определение разностной карты по двум позициям камеры методом параллакса.
3.4 Последовательности локальных фрагментов изображений, обнаруженные с помощью алгоритма оптического трекинга
3.5 Блок-схема алгоритма распознавания
4.1 Графики обучения моделей в зависимости от метапараметра в
4.2 Графики обучения моделей в зависимости от метапараметра ^
4.3 Реконструкции трансформированных изображений
4.4 Визуализация весов нейронов слоя распознавания и порождающего слоя
4.5 Последовательности участков локальных фрагментов, обнаруженных
при ана лизе данных дорожных камер А. 1 Результаты активаций локальных детекторов модели, соответствующих
структурным элементам человеческих лиц А.2 Примеры успешно распознанных лиц
128
СПИСОК ТАБЛИЦ
4.1 Показатели точности реконструкций автоэнкодера, %
4.2 Показатели точности, полноты и согласованности трансформирующего авто энкодера на выборке НРГО, %
4.3 Точность оценки позиции с помощью трансформирующего автоэнкодера, %
4.4 Показатели точности распознавания лиц для групп различных ориентаций, %
4.5 Показатели точности распознавания размытых лиц для групп различных ориентаций, %
4.6 Показатели точности распознавания частично перекрытых лиц для групп различных ориентаций, %
4.7 Оценка анализа алгоритмом композитных сцен
ПРИЛОЖЕНИЕ ^ ДЕМОНСТРАЦИОННЫЕ МАТЕРИАЛЫ
Рисунок А.1 - Результаты активаций локальных детекторов модели, соответствующих структурным элементам человеческих лиц
Рисунок А.2 - Примеры успешно распознанных лиц
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.