Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Хуршудов Артем Александрович

  • Хуршудов Артем Александрович
  • кандидат науккандидат наук
  • 2016, ФГБОУ ВО «Кубанский государственный технологический университет»
  • Специальность ВАК РФ05.13.01
  • Количество страниц 127
Хуршудов Артем Александрович. Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации: дис. кандидат наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). ФГБОУ ВО «Кубанский государственный технологический университет». 2016. 127 с.

Оглавление диссертации кандидат наук Хуршудов Артем Александрович

СОДЕРЖАНИЕ

ВВЕДЕНИЕ

ГЛАВА 1. АНАЛИТИЧЕСКИЙ ОБЗОР СОВРЕМЕННЫХ МЕТОДОВ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ

1.1 Обучение с учителем. Искусственные нейронные сети. Метод опорных векторов

1.2 Компактные целостные представления. Снижение размерности. Метод главных компонент

1.3 Обнаружение локальных признаков. Сверточные нейронные сети

1.4 Использование пространственных отношений при распознавании. Констелляционные модели

1.5 Методы оценки эффективности распознавания

1.6 Выводы по первой главе

ГЛАВА 2. МОДЕЛЬ РЕПРЕЗЕНТАЦИИ ИЗОБРАЖЕНИЯ ОБЪЕКТА

2.1 Понятие эквивариантного детектора как элементарной единицы модели

2.2 Высокоуровневые детекторы и взаимодействие между уровнями модели

2.3 Выводы по второй главе

ГЛАВА 3. МЕТОД ОБУЧЕНИЯ СИСТЕМЫ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ В ПОТОКЕ ДАННЫХ

3.1 Использования потока визуальных данных для обучения

3.2 Алгоритм выделения локальных признаков

3.3 Алгоритм оптического трекинга

3.4 Параллельное обучение нескольких иерархий признаков

3.5 Выводы по третьей главе

ГЛАВА 4. АЛГОРИТМ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ

4.1 Распознавание изображения путем последовательной активации

детекторов

4.2 Использование решающей обратной связи при распознавании

4.3 Выводы по четвертой главе

ГЛАВА 5. РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ И ЭКСПЕРИМЕНТАЛЬНЫЕ ДАННЫЕ

5.1 Планирование эксперимента

5.2 Оценка эффективности отдельного эквивариантного дететкора

5.3 Оценка эффективности распознавания изображений

5.5 Локализация объектов в композитных сценах

5.5 Выводы по четвертой главе

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

СПИСОК РИСУНКОВ

СПИСОК ТАБЛИЦ

ПРИЛОЖЕНИЕ А. ДЕМОНСТРАЦИОННЫЕ МАТЕРИАЛЫ

ВВЕДЕНИЕ

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации»

Актуальность работы.

Распознавание изображений представляет собой один из важнейших компонентов систем управления и обработки информации, автоматизированных систем и систем принятия решений. Задачи, связанные с классификацией и идентификацией предметов, явлений и сигналов, характеризующихся конечным набором некоторых свойств и признаков, возникают в таких сферах как робототехника, информационный поиск, мониторинг и анализ визуальных данных, исследования искусственного интеллекта. Алгоритмическая обработка и классификация изображений применяются в системах безопасности, контроля и управления доступом, в системах видеонаблюдения, системах виртуальной реальности и информационных поисковых системах. В настоящий момент в производстве широко используются системы распознавания рукописного текста, автомобильных номеров, отпечатков пальцев или человеческих лиц, находящие применение в интерфейсах программных продуктов, системах безопасности и идентификации личности, а также в других прикладных целях.

Интенсивные исследования в этой области имеют многолетнюю историю и связаны с работами Д. Хьюбела и Т. Визела [48, 46, 47], Т. Кохонена [55], М. Турка и А. Петланда [99], Д. Хинтона [40, 59], Я. Лекуна [60, 61] и других. За последнее время существенный прогресс в распознавании визуальных образов был достигнут с появлением методов снижения размерности [42], сверточных нейронных сетей [60, 94] и констелляционных моделей [12]. Однако, несмотря на достигнутые успехи, современные исследования подтверждают тот факт, что алгоритмы распознавания изображений до сих пор не обладают полноценными способностями биологических зрительных систем.

Так, актуальным проблемным вопросом, признанным научным сообществом [7, 5], остается распознавание изображений трехмерных объектов под различными углами зрения, подвергнутых преобразованиям вращения, масштабирования и трансляции. Современные подходы к решению этого вопроса, такие как

многослойные сверточные нейронные сети, а также использование инвариантных детекторов признаков SIFT [68] и ORB [86], в настоящий момент предлагают частичные решения, не обеспечивающие достаточной точности распознавания и теряющие информацию о структуре объекта. В данной диссертационной работе подробно рассматриваются существующие подходы к распознаванию трансформированных объектов и предлагается система распознавания изображений, разработанная для решения этого проблемного вопроса.

Целью диссертационной работы является разработка системы распознавания изображений трёхмерных объектов под произвольными углами обзора.

Для достижения поставленной цели необходимо решить следующие задачи:

1. Сформулировать характерные признаки объектов распознавания с учетом их пространственных трансформаций.

2. Разработать теоретические положения репрезентации объектов нейросетевой системой распознавания с обеспечением устойчивого распознавания с различных углов обзора.

3. Разработать метод обучения системы распознавания, использующий представленную модель репрезентации объектов.

4. Разработать алгоритм классификации изображений объектов для системы распознавания.

5. Оценить эффективность обучения и распознавания разработанной системы по сравнению с известными системами.

Объектом исследования диссертационной работы является система распознавания изображений трехмерных объектов под произвольными углами обзора.

Предметом исследования является математические методы, модели и алгоритмы системы распознавания трехмерных объектов по изображениям.

Методы исследования.

Для решения поставленных задач использовались методы системного анализа, теории информации, компьютерного зрения, теории оптимизации,

математической статистики, теории искусственных нейронных сетей, вероятностных моделей, теории планирования эксперимента.

Научная новизна диссертационной работы состоит в следующем:

1. Разработаны теоретические положения нейросетевой системы распознавания изображений, использующей иерархическую модель локально-эквивариантной репрезентации объектов, изображенных под произвольными углами обзора.

2. Разработан метод обучения системы распознавания изображений в потоке визуальных данных без учителя, формирующий иерархию локальных признаков объекта путем оценки областей визуальной заметности и оптического трекинга.

3. Разработан алгоритм распознавания изображений объектов под произвольными углами обзора на основе иерархической модели представления объектов.

Практическая значимость разработанной системы заключается в способности распознавать изображения под произвольными углами обзора. Применение для таких изображений разработанной в данной работе системы распознавания позволяет добиться повышения точности распознавания на 3-5% по сравнению с известными методами.

Достоверность полученных результатов обеспечивается:

- проверкой теоретических положений с помощью экспериментальных исследований;

- базированием на теории системного анализа, распознавания образов, методах компьютерного зрения;

- сравнительным анализом результатов работы предложенного алгоритма с известными алгоритмами, обоснованными теоретически и широко использующимися на практике.

Соответствие паспорту специальности. Работа соответствует паспорту специальности ВАК 05.13.01 - Системный анализ, управление и обработка информации (информационные и технические системы), по пунктам 4, 5 и 10:

- Разработка методов и алгоритмов решения задач системного анализа, оптимизации, управления, принятия решений и обработки информации.

- Разработка специального математического и алгоритмического обеспечения систем анализа, оптимизации, управления, принятия решений и обработки информации.

- Методы и алгоритмы интеллектуальной поддержки при принятии управленческих решений в технических системах.

Основные положения, выносимые на защиту:

1. Математическая модель репрезентации изображения объектов под произвольными углами обзора, представляющая собой иерархию локальных эквивариантных признаков.

2. Метод обучения системы распознавания изображений на базе оценки визуальной заметности и оптического трекинга признаков в потоке данных.

3. Алгоритм распознавания изображений под произвольными углами обзора, основанный на использовании иерархической структуры локальных эквивариантных признаков.

Апробация работы.

Основные результаты работы докладывались на следующих конференциях: III международная научно-практическая конференция «Новейшие исследования в современной науке: опыт, традиции, инновации» 2015 г., VIII международная научно-практическая конференция: «Современные концепции научных исследований» 2014 г., XI международная научно-практическая конференция «Научное обозрение физикоматематических и технических наук в XXI веке».

Публикации. По теме диссертации опубликовано 8 печатных работ, в том числе 5 в журналах, рекомендованных ВАК при Министерстве образования и науки Российской Федерации, получено 1 свидетельство о государственной регистрации программы для ЭВМ.

Личный вклад автора состоит в разработке модели репрезентации объекта, метода обучения в потоке данных, алгоритма распознавания изображений, постановке эксперимента и анализе полученных результатов. Основные

результаты по теме диссертации изложены в 8 печатных изданиях, 5 из которых изданы в журналах, рекомендованных ВАК, 3 — в тезисах докладов.

Объем и структура работы. Диссертация состоит из введения, четырех глав, заключения и двух приложений. Полный объем диссертации составляет 127 страниц с 49 рисунками и 7 таблицами. Список литературы содержит 114 наименований.

ГЛАВА 1. АНАЛИТИЧЕСКИЙ ОБЗОР СОВРЕМЕННЫХ МЕТОДОВ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ

1.1 Обучение с учителем. Искусственные нейронные сети. Метод опорных векторов

Один из основных подходов, наиболее широко использовавшийся в области распознавания изображений, представляет собой применение классических моделей-классификаторов, обучающихся с учителем. Для обучения таких моделей используются маркированная выборка данных, состоящая из массива изображений и соответствующего им массива меток, определяющих категорию, к которой относится изображение. В процессе обучения массив данных разделяется на две неравные части — обучающую выборку и тестовую выборку, затем с помощью специфичного для конкретного алгоритма правила обучения параметры модели настраиваются с использованием обучающей выборки таким образом, чтобы получив в качестве входных данных изображение, модель на выходе производила бы метку соответствующего класса. Этот подход представлен множеством моделей, среди которых наиболее широко используемыми является регрессионная модель, искусственная нейронная сеть (многослойный перцептрон), метод опорных векторов, а также деревья принятия решений и моделиансамбли, представляющие собой сочетания некоторых перечисленных моделей [88, 7].

Многослойные перцептроны, обучающиеся методом обратного распространения ошибки, широко используются для распознавания различных категорий изображений, таких как рукописные цифры [20], почерк, человеческие лица [36] и данные зрительных сенсоров робототехнический систем [74]. Модель многослойного перцептрона представляет собой совокупность искусственных нейронов — вычислительной единицы модели — объединенных в уровни (слои), заданные в иерархическом порядке.

Искусственный нейрон представляет собой модель биологического нейрона (нервной клетки), представленную одним или несколькими входами, одним

выходом и функцией активации [7]. Помимо этого, каждый вход искусственного нейрона имеет ассоциированный коэффициент или вес. Поведение нейрона строится следующим образом: пусть имеется т + 1 входов, значения которых равны х0,х± ...хт, а значения их весов равны со0, со1... сот, при этом первый входной элемент, как правило, представляет собой фиксированное значение смещения х0 = 1. Тогда выходное значение нейрона представляет собой значение функции активации от взвешенной суммы его входных значений [6]:

У = <р(Еи*щ*д (1.0)

В качестве функции активации может выступать функция, обладающая свойствами нелинейности, нормализации входных данных, и некоторыми другими. Распространенными кандидатами являются функция сигмоиды а (г) =

1+е_г , гиперболический тангенс tanh(z) = ег+е_г или выпрямляющая линейная

функция у(г) = ^ Л [7].

При объединении искусственных нейронов в сеть входные значения нейрона слоя I представляют собой выходные значения нейронов предыдущего слоя 1 — 1. При этом нейроны первого (входного) слоя получают в качестве входных значения непосредственно данные, подлежащие распознаванию, которые в случае распознавания изображения представляют собой значения интенсивности составляющих его пикселей (точечных элементов). Выходной слой сети может варьироваться в зависимости от задачи, но классическая архитектура подразумевает формирование его числом нейронов, равному количеству классов распознавания, при этом выходное значение каждого нейрона нормируется по интервалу {ОД}, и представляет собой вероятность принадлежности входного изображения к соответствующему классу [6]. Согласно теореме об универсальной аппроксимации, такие многослойные нейронные сети способны инкапсулировать любую непрерывную функцию с помощью произвольного набора нейронов [17].

Поскольку сформулировать аналитически правило классификации изображений по категориями распознавания зачастую представляется затруднительным, способность обучаться на базе выборки делает нейронные сети

и родственные им модели подходящими для распознавания естественных изображений окружающего мира, отличающихся нечеткой структурой и множеством вариаций в пределах класса.

Вход щой С кры гы й В ы ход 1 н ой (-.{ОЙ слой слой

Рисунок 1.1- Схема искусственной нейронной сети с тремя слоями

Обучение сети методом обратного распространения состоит в следующем: пусть имеется некоторая неизвестная функция распознавания д : X У, аргументом которой являются изображения хп Е X, представленные в виде вектора длины п, а значениями функций — множество классов (категорий) у Е У. Обучающая выборка представляет собой подмножество значений этой функции £> = {(х0, у о), (х1; уД..., (хт, ут)} [6].

Задача обучения модели распознавания заключается в отыскании такой функции к : X У , которая бы аппроксимировала функцию д на всей ее области определения, в том числе значениях, не включенных вй,и представляет собой приложение теории оптимизации [6].

Пусть ¡г(х) — выходное значение сети, полученное путем последовательной активации нейронов каждого слоя, а д(х) — значение аппроксимируемой функции для одного и того же изображения. Далее выполняется шаг обратного распространения, заключающийся в вычислении частной производной от выхода сети для каждого нейрона сети по отношению к его весам [7]:

где Е = -(Я(х) — д(х))2 — среднеквадратичное отклонение сети, ^¿у - вес между ¿-м и у'-м нейроном, пе^- - входное, а О] - выходное значение у'-того нейрона. Далее на каждом шаге обучения веса нейронов инкрементируются значениями частных производных в соответствии с методом градиентного спуска [6]. Вариации обучающего алгоритма включают в себя исключительные дополнительных параметров регуляризации в целях защиты от переобучения, и использование различных оптимизаторов — метода Ньютона, метода имитации отжига, L-BFGS и других [7].

Многослойные перцептроны демонстрируют успешные результаты при использовании их для распознавания изображений некоторых отдельных ограниченных категорий, таких как символы естественного языка, рукописные цифры и почерк [23]. В настоящее время в большинстве приложений, использующих прямое обучение с учителем для распознавания изображений, нейронные сети вытеснены методом опорных векторов, предлагающим более эффективное с точки зрения объема вычислительных ресурсов решение [36].

Метод опорных векторов рассматривает каждый экземпляр данных (изображение) как точку в -мерном пространстве, где п соответствует размерности данных или общему числу пикселей изображения [22]. Каждая из точек принадлежит к некоторому классу (категории). При этом задача распознавания представляется в виде задачи по нахождению такой гиперплоскости в «-мерном пространстве, которая бы отделяла все точки, соответствующие изображениям данного класса, от остальных, не принадлежащих ему. Предполагая, что таких гиперплоскостей может существовать много, метод опорных векторов ставит целью отыскание плоскости, расстояние до которой от ближайшей точки максимально в пределах множества возможных вариантов — т.н. оптимальную разделяющую гиперплоскость и соответствующий ей оптимальный классификатор.

Входные данные, таким образом, имеют вид [22]:

((х0, у0), (х1; У!),..., (хт, ут)} (1.2)

где — ¿-тое изображение, а у^ — ¿-тый класс, представленный целым числом. Значения X;, представляющие собой -мерный вектор, нормализуются в пределах интервала {0,1}. Разделяющая плоскость задается параметром ш — перпендикуляром (нормальным вектором) от точки к плоскости, и описывается уравнением wx — Ь = 0. Таким образом, задача сводится к минимизации \\w\l. По теореме Куна - Таккера [38] гиперплоскость может быть представлена в качестве линейной комбинации векторов обучающей выборки:

™ = (1.3)

где щ — некоторые множители Лагранжа. Нахождение значения w таким образом позволяет получить линейные гиперплоскости, поэтому такой метод относится к разделу т.н. линейных опорных векторов. Классифицирующая функция при этом равна ^(х) = 51дп((^,х) + Ь), где Ь — вспомогательный параметр смещения [7]. На практике случаи, где данные в задаче распознавания могут быть разделены линейно, достаточно редки. В таких случаях применяется метод использования ядер, предложенный Б. Босером, И. Гийон и В. Вапником, и заключающийся в том, что элементы обучающейся выборки вкладываются в пространство х' более высокой размерности с помощью специального отображения Яп ^ х' [38]. При этом отображение ^ выбирается так, чтобы в пространстве х' выборка была разделима линейно. Ядром классификатора называется выражение х(х, х') = (^(х), ^(х')), задающее отображение выборки в новое пространство, и его роль, как правило, может выполнять любая положительно определенная симметричная функция двух переменных. На практике встречаются следующие ядра: полиномиальное, радиальная базисная функция, гауссова базисная функция, сигмоида [38].

Обучения модели, использующей метод опорных векторов производится методами квадратичного программирования, такими как последовательная минимальная оптимизация.

Метод опорных векторов имеет некоторые преимущества и недостатки по отношению к использованию многослойных перцептронов:

1. Многослойный перцептрон представляет собой модель с множеством скрытых параметров, зависящих от числа нейронов сети. Параметризованная модель потенциально способна к инкапсуляции более сложных, высокоуровневых функций, но при этом требует больше времени и вычислительных ресурсов для обучения и настройки параметров. Метод опорных векторов использует векторы, отобранные из обучающей выборки, при этом количество параметров ограничено сверху размером выборки, а на практике может быть прорежено за счет использования инженерии признаков [7].

2. В отличие от обучения нейронной сети, которое осуществляется с помощью метода градиентного спуска (и его вариаций) и оценки ошибки сети, обучение модели опорных векторов включает в себя не только оценку ошибки, но и метрику сложности полученной гиперплоскости. Поиск оптимального значения нейронной сети уязвим к наличию локального минимума, способного остановить процесс градиентного спуска, при этом метод опорных векторов при корректном выборе метапараметров гарантирует нахождение глобального решения [23].

3. Обученная нейронная сеть требует минимальных вычислительных ресурсов для работы в режиме распознавания (предсказания категорий). Метод опорных векторов в некоторых случаях, когда число векторов велико по сравнению с размером выборки, строит предсказания существенно медленнее [7].

4. По сравнению с нелинейным (использующим ядра) методом опорных векторов, нейронная сеть демонстрирует расширенные способности к онлайн-обучению, когда размер выборки не фиксирован и пополняется за счет поступления новых данных.

В большинстве современных приложений алгоритмов распознавания и машинного обучения в настоящий момент отдано предпочтение методу опорных векторов [8, 84] за счет сокращения времени обучения и устойчивости к локальному минимуму. Метод опорных векторов также широко используется для распознавания таких изображений, таких как человеческие лица, демонстрируя высокую точность распознавания (80-85% успешно распознанных изображений) [103] для выравненной выборки.

Особенность задачи распознавания изображений заключается в том, что данные, представляющие собой визуальные сигналы, демонстрируют крайне низкую информационную емкость — т.е., большая часть точек растрового изображения (например, соответствующие участкам однотонного или равномерно распределенного фона) не содержит информации, влияющей на распознавание [92]. При этом размерность изображений, использующихся в системах обработки информации, как правило, достаточно велика — современные средства мультимедиа, графические дисплеи и сенсоры обеспечивают массовое распространение изображений (фотографий, кадров видео, компьютерной графики) высокого разрешения, размерность которых измеряется миллионами точек. Для классических методов распознавания образов характерна прямая зависимость между размерностью (числом параметров) данных обучающей выборки и временем обучения, а также показателями сходимости при оптимизации модели. Наличие большого числа параметров, основная часть которых не содержит существенной для распознавания информации, негативно влияет на производительность модели, и помимо требования значительно более высоких вычислительных ресурсов ведет к появлению т.н. проблемы переобучения [6], когда функция распознавания, аппроксимированная моделью, удовлетворительно классифицирует обучающую выборку, но является при этом не генерализованой и демонстрирует низкую точность в тестовой выборке. Для решения этой проблемы используется подход поиска компактного представления изображения — выделения ограниченного числа генерализованных признаков, содержащих основную информацию, необходимую для распознавания.

1.2 Компактные целостные представления. Снижение размерности. Метод главных компонент

Одна из особенностей распознавания изображений по сравнению с другими приложениями теории распознавания образов заключается в том, что изображения в растровом виде ( в виде двумерной матрицы пикселей, каждый из которых имеет

некоторое значения яркости или цвета), имеют высокую размерность — среднестатистическая фотография может быть представлена вектором длины ~ 106. Обработка данных, представленных размерностью таких порядков, требует исключительных вычислительных ресурсов, и для неспециализированных вычислительных машин представляется невыполнимой либо непрактичной задачей. При этом, однако, лишь небольшая часть этих параметров критична для задачи распознавания, что позволяет изображениям демонстрировать низкую чувствительность к случайному шуму и глобальным искажениям. Эта особенность успешно используется в алгоритмах сжатия с потерями — так, с помощью алгоритма JPEG изображение может быть сжато вплоть до до 10%, при этом изменения остаются незаметны для человеческого глаза. Учитывая эту особенность, становится возможным применение к естественным изображениям статистических методов снижения размерности, таких как метод главных компонент [51]. Суть метода состоит в том, чтобы представить входные данные в виде линейной суммы компонент с некоторыми коэффициентами.

Пусть Xj — i-тое изображение. Найдем ковариационную матрицу £ =

Собственные векторы и собственные значения матрицы Г будут

соответствовать главным компонентам преобразованного изображения. Выберем р главных компонент в качестве базиса для представления данных. Построим матрицу

U = (u±\u2\...\uT) (1.4)

где щ,и2, ...ир — р первых собственных векторов ковариационной матрицы (выбранных по порядку убывания соответствующих им собственных значений). Тогда мы можем получить компактное представление изображения как хРСА = UTx, где размерность хРСА будет снижена до значения р [51].

Классический метод главных компонент, однако, неприменим для большинства изображений из-за вычислительной сложности построения ковариационной матрицы. М. Турк и А. Пентланд [99] в 1991 г. предложили алгоритм распознавания Eigenfaces, где использовали альтернативный, приемлемый для современных вычислительных машин метод расчета

собственных векторов. В их примере метод использовался на фронтальных фотографиях человеческих лиц. Подтверждая предположение о том, что размерность изображения может быть значительно снижена, сохраняя при этом достаточно информации для успешного распознавания человеком, они показали, что каждое из лиц выборки можно представить при помощи ограниченного (<10) набора главных компонент.

Рисунок 1.2 - Примеры главных компонент алгоритма Eigenfaces [96]

Для распознавания тестовые изображения проецировались на базис выбранных главных компонент, т.е. представлялись в виде линейной суммы р слагаемых. Затем на представленных таким образом данных тренировали модель, использующую обучение с учителем (многослойный перцептрон или SVM), и таким образом, задача сводилась к классической. Использование Eigenfaces позволяло эффективно распознавать лица при различном освещении и давало некоторую устойчивости к ориентации; однако, алгоритм демонстрировал неудовлетворительные результаты для изображений лиц разного размера (вариации масштаба) [22]. Кроме того, алгоритм был рассчитан на то, что входные данные будут представлять собой лица, сориентированные соответствующим образом, не предлагая метода отыскания интересующего фрагмента лица среди изображения композитной сцены.

Помимо перечисленных, метод главных компонент имел и другие ограничения, которые способствовали появлению новых методов представления изображений. Б. Ольшозен в своей работе [81] показал, что алгоритм, названным им разреженным кодированием способен эффективнее представлять внутреннюю структуру изображения и объектов в нем, при этом демонстрируя некоторые

свойства, впечатляюще схожие со свойствами клеток зрительной коры головного мозга (так называемых «простых клеток» зоны V!). Этот алгоритм, однако, в противоположность РСА, представлял данные в виде переполненного базиса векторов, каждый из которых, таким образом, не являлся линейно независимым от других. Иначе, если изображение х £ Яп, то разреженное представление складывается из взвешенной суммы таких векторов что

* = (1.5)

где к > п (условие переполненности базиса) [81].

Разреженность полученного представления обеспечивается тем, что для отдельно взятого изображения х, большинство компонентов ^ будут иметь коэффициент, равный нулю. Это условие мотивировано тем фактом, что естественные изображения, как правило, могут быть представлены с помощью комбинации небольшого числа ненулевых компонентовпримитивов, таких как края или границы (в области алгоритмов разреженного кодирования соответствующие компоненты носят название «атомов» или «кодовых слов» [5]). Таким образом, разреженное кодирование обеспечивает большой набор компонентов, которые могут значительно отличаться друг от друга, при этом гарантируя, что отдельно взятое изображение будет представлено при помощи суммы всего лишь некоторых из них [42].

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Список литературы диссертационного исследования кандидат наук Хуршудов Артем Александрович, 2016 год

СПИСОК ЛИТЕРАТУРЫ

1. Aly M., Welinder P., Munich M., Perona P. Towards automated large scale discovery of image families // Computer Vision and Pattern Recognition. 2009. pp. 9-16.

2. Bellman R.E. Perturbation techniques in mathematics, engineering and physics. Courier Corporation, 2003.

3. Bengio Y., Courville A., Vincent P. Representation learning: A review and new perspectives // Pattern Analysis and Machine Intelligence. 2013. No. 35(8). pp. 1798-1828.

4. Bengio Y., Erhan D. Why does unsupervised pre-training help deep learning? // The Journal of Machine Learning Research. 2010. No. 11. pp. 625-660.

5. Bengio Y. Learning deep architectures for AI // Foundations and trends in Machine Learning. 2009. No. 1. pp. 1-127.

6. Bishop C.M. Neural networks for pattern recognition. Oxford: Oxford university press, 1995.

7. Bishop C.M. Pattern recognition and machine learning. New York: Springer, 2006.

8. Bradski G. The OpenCV library // Doctor Dobbs Journal. 2000. No. 25.11. pp. 120126.

9. Brown M.S., Seales W.B. Image restoration of arbitrarily warped documents // Pattern Analysis and Machine Intelligence. 2004. pp. 1295-1306.

10. Bundy A., Wallen L. Difference of Gaussians // Catalogue of Artificial Intelligence Tools. 1984. pp. 30-35.

11. Canny J. A computational approach to edge detection // Pattern Analysis and Machine Intelligence, IEEE Transactions on. 1986. No. 6. pp. 679-698.

12. Cao L., Fei-Fei L. Spatially coherent latent topic model for concurrent segmentation and classification of objects and scenes // Computer Vision (ICCV), 2007 IEEE International Conference. 2007. pp. 1-8.

13. Changizi M.A. Perceiving the present and a systematization of illusions // Cognitive science. 2008. No. 32(3). pp. 459-503.

14. Cheng X., Dale C., Liu J. Statistics and social network of youtube videos // Quality of Service, 16th International Workshop on. 2008. pp. 113-121.

15. Ciresan D., Meier U., Schmidhuber J. Multi-column deep neural networks for image classification // Computer Vision and Pattern Recognition (CVPR). 2012. pp. 3642-3649.

16. Cootes T.F., Edwards G.J., Taylor C.J. Active appearance models // IEEE Transactions on pattern analysis and machine intelligence. 2001. No. 23(6). pp. 681-685.

17. Cybenko G. Approximation by superposition of sigmoidal functions // Mathematics of Control, Signals and Systems, No. 2.4, 1989. pp. 303-314.

18. Dementhon D.F., Davis L.S. Model-based object pose in 25 lines of code // International journal of computer vision. 1995. No. 15.1-2. pp. 123-141.

19. Deng L. Recent advances in deep learning for speech research at Microsoft // Acoustics, Speech and Signal Processing (ICASSP). 2013. pp. 8604-8608.

20. Deng L. The MNIST database of handwritten digit images for machine learning research // IEEE Signal Processing Magazine. 2012. No. 29.6. pp. 141-142.

21. Droniou A., Sigaud O. Gated autoencoders with tied input weights // International Conference on Machine Learning. 2013. pp. 17-24.

22. Duda R.O., Hart P.E., Stork D.G. Pattern classification. John Wiley & Sons, 2012.

23. Duin R.P., Pekalska E. Open issues in pattern recognition // Computer Recognition Systems. 2005. pp. 27-42.

24. Farneback G. Two-frame motion estimation based on polynomial expansion // Image Analysis. 2003. pp. 363-370.

25. Fei-Fei L., Fergus R., Perona P. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories // Computer Vision and Image Understanding. 2007. No. 106.1. pp. 59-

26. Fei-Fei L., Fergus R., Perona P. One-shot learning of object categories // Pattern Analysis and Machine Intelligence, IEEE Transactions. 2006. No. 28(4). pp. 594611.

27. Fei-Fei L., Yao B., Khosla A. Combining randomization and discrimination for fine-grained image categorization // Computer Vision and Pattern Recognition. 2011. pp. 1577-1584.

28. Felzenszwalb P.F., Huttenlocher D.P. Efficient graph-based image segmentation // International Journal of Computer Vision. 2004. No. 59.2. pp. 167-181.

29. Fergus R., Perona P., Zisserman A. A sparse object category model for efficient learning and exhaustive recognition // Computer Vision and Pattern Recognition. 2005. No. 1. pp. 380-387.

30. Fukushima K. Neocognitron: A hierarchical neural network capable of visual pattern recognition // Neural networks. 1988. No. 2. pp. 119-130.

31. Fusiello A., Trucco E., Verri A. A compact algorithm for rectification of stereo pairs // Machine Vision and Applications. 2000. No. 12.1. pp. 16-22.

32. Gourier N., Hall D., Crowley J.L. Caffe: Convolutional architecture for fast feature embedding // FG Net Workshop on Visual Observation of Deictic Gestures. 2004. pp. 1-9.

33. Gourier N., Hall D., Crowley J.L. Estimating face orientation from robust detection of salient facial structures // FG Net Workshop on Visual Observation of Deictic Gestures, 2004.

34. Gower J.C., Dijksterhuis G.B. Procrustes problems. Oxford University Press, 2004.

35. Grady L. Random walks for image segmentation // Pattern Analysis and Machine Intelligence, IEEE Transactions on. 2006. No. 28.11. pp. 1768-1783.

36. Grauman K., Leibe B. Visual object recognition. Morgan & Claypool Publishers, 2010.

37. Harris C., Stephens M. A combined corner and edge detector // Alvey vision. 1988.

No. 15. pp. 61-67.

38. Hearst M.A., S.T. D., Osman E. Support vector machines // Intelligent Systems and their Applications, No. 4, 1998. pp. 18-28.

39. Hinton G.E., Jaitly N. A new way to learn acoustic events // Advances in Neural Information Processing Systems. 2011. No. 24.

40. Hinton G.E., Krizhevsky A., Wang S.D. Transforming auto-encoders // Artificial Neural Networks and Machine Learninga ICANN 2011. 2014. pp. 44-51.

41. Hinton G.E., Osindero S., Teh Y.W. A fast learning algorithm for deep belief nets, No. 18.7, 2006. pp. 1527-1554.

42. Hinton G.E., Salakhutdinov R.R. Reducing the dimensionality of data with neural networks // Science. 2006. No. 313(5786). pp. 504-507.

43. Hinton G.E., Srivastava N. Dropout: A simple way to prevent neural networks from overfitting // The Journal of Machine Learning Research. 2014. No. 15.1. pp. 19291958.

44. Hinton G.E. A practical guide to training restricted Boltzmann machines // Momentum. 2010. No. 9(1). P. 926.

45. Huang G.B., Ramesh M., Berg T., Learned-Miller E. Labeled faces in the wild: A database for studying face recognition in unconstrained environments // Technical Report 07-49, University of Massachusetts. 2007. No. 1(2). pp. 3-37.

46. Hubel D.H., Wiesel T.N. Brain and visual perception. ISBN13, 2005.

47. Hubel D.H., Wiesel T.N. Receptive fields and functional architecture of monkey striate cortex // The Journal of physiology. 1968. No. 195(1). pp. 215-243.

48. Hubel D.H. Eye, brain, and vision. New York: Scientific American Library, 1988.

49. Ji Q. 3D face pose estimation and tracking from a monocular camera // Image and vision computing. 2002. No. 20(7). pp. 499-511.

50. Jia Y. Caffe: Convolutional architecture for fast feature embedding // ConferenceProceedings of the ACM International Conference on Multimedia. 2014. pp. 675-678.

51. Jolliffe I. Principal component analysis. John Wiley and Sons, 2002. 13-16 pp.

52. Kadir T., Zisserman A., Brady M. An affine invariant salient region detector // Computer Vision-ECCV. 2004. pp. 228-241.

53. Keysers D. Comparison and combination of state-of-the-art techniques for handwritten character recognition: topping the mnist benchmark // arXiv. 2007. No. 0710.2231. pp. 21-27.

54. Koenderink J.J. Optic flow // Vision research. 1986. No. 26.1. pp. 161-179.

55. Kohonen T. Self-organization and associative memory. New York: Springer-Verlag Berlin Heidelberg, 1984. Pp. 13-27. pp.

56. Konolige K. Projected texture stereo // Robotics and Automation (ICRA). 2010. pp. 23-28.

57. Kreutz-Delgado K. Dictionary learning algorithms for sparse representation // Neural computation. 2003. No. 15.2. pp. 349-396.

58. Krizhevsky A., Hinton G.E. Learning multiple layers of features from tiny images // Computer Science Department, University of Toronto, Tech. Rep. 2009. No. 1.4. pp. 7-10.

59. Krizhevsky A., Sutskever I., Hinton G.E. Imagenet classification with deep convolutional neural networks // Advances in neural information processing systems. 2012. pp. 1097-1105.

60. LeCun Y. Backpropagation applied to handwritten zip code recognition // Neural computation. 1989. No. 4. pp. 541-551.

61. LeCun Y. Comparison of learning algorithms for handwritten digit recognition // International conference on artificial neural networks. 1995. No. 60. pp. 111-115.

62. Lee H. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations // ConferenceProceedings of the 26th Annual International Conference on Machine Learning. 2009. pp. 609-616.

63. Lee H. Efficient sparse coding algorithms // Advances in neural information processing systems. 2006. pp. 801-808.

64. Leo B. Random forests // Machine learning. 2001. No. 45(1). pp. 5-32.

65. Lindeberg T. Scale invariant feature transform // Scholarpedia. 2012.

66. Lindeberg T. Scale-space theory: A basic tool for analyzing structures at different scales // Journal of applied statistics. 1994. No. 21.1-2. pp. 225-270.

67. Liu J. Seeing Jesus in toast: Neural and behavioral correlates of face pareidolia // Cortex. 2014. No. 53. pp. 60-77.

68. Lowe D.G. Object recognition from local scale-invariant features // Computer Vision (ICCV). The proceedings of the seventh IEEE international conference. 1999. No. 2. pp. 1150-1157.

69. Lucas B.D., Kanade T. An iterative image registration technique with an application to stereo vision // IJCAI. 1981. No. 81. pp. 25-34.

70. Mairal J. Online dictionary learning for sparse coding // ConferenceProceedings of the 26th Annual International Conference on Machine Learning. 2009. pp. 113-123.

71. Martin E. A density-based algorithm for discovering clusters in large spatial databases with noise // ConferenceProceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96). 1996. No. 96(34). pp. 226-231.

72. Matsugu M. Subject independent facial expression recognition with robust face detection using a convolutional neural network // Neural Networks. 2003. No. 16(5). pp. 555-559.

73. Meyer F., Serge B. The morphological approach to segmentation: the watershed transformation // Optical Engineering-New Yours-Marcel Dekker incorporated. 1992. No. 34. pp. 433-433.

74. Murphy-Chutorian E., Trivedi M.M. Head pose estimation in computer vision: A survey. // Pattern Analysis and Machine Intelligence, IEEE Transactions on 31.4. 2009. pp. 607-626.

75. Navalpakkam V., Itti L. Search goal tunes visual features optimally // Neuron. 2007. No. 53.4. pp. 605-617.

76. Navneet D., Triggs B. Histograms of oriented gradients for human detection // Computer Vision and Pattern Recognition. 2005. No. 1. pp. 886-893.

77. Ng A., Fei-Fei L., Platt J., Huang X., Greenberg S. The 28th International Conference on Machine Learning (ICML 2011) Jun 2011.

78. Ng A.Y., Lee H., Coates A. An analysis of single-layer networks in unsupervised feature learning // International Conference on Artificial Intelligence and Statistics. 2011. pp. 215-223.

79. Ng A.Y..C.A. The Importance of Encoding Versus Training with Sparse Coding and Vector Quantization // Workshop on Learning Architectures, Representations, and Optimization for Speech and Visual Information Processing / International Conference on Machine Learning. 2011. Vol. 06.

80. Oh K.S., Jung K. GPU implementation of neural networks // Pattern Recognition. 2004. No. 37.6. pp. 1311-1314.

81. Olshausen B.A. Emergence of simple-cell receptive field properties by learning a sparse code for natural images // Nature. 1996. No. 6583. pp. 607-609.

82. Ozuysal M., Lepetit V., Fua P. Pose estimation for category specific multiview object localization // Computer Vision and Pattern Recognition. 2009. pp. 778-785.

83. Pan S.J., Yang Q. A survey on transfer learning // Knowledge and Data Engineering, IEEE Transactions on. 2010. No. 22.10. pp. 1345-1359.

84. Pedregosa F., Varoquaux G., A. G. Scikit-learn: Machine learning in Python // The Journal of Machine Learning Research, No. 12, 2011. pp. 2825-2830.

85. Purves D., Lotto R.B. Why we see what we do: An empirical theory of vision. Sinauer Associates, 2003.

86. Rublee E. ORB: an efficient alternative to SIFT or SURF // Computer Vision (ICCV), 2011 IEEE International Conference. 2011. pp. 2564-2571.

87. Russakovsky O., Deng J., Su H., Krause J., Satheesh S., Ma S., Huang Z., Karpathy A., Khosla A., Bernstein M., Berg A.C., Fei-Fei L. ImageNet Large Scale Visual Recognition Challenge. arXiv, 2010.

88. Sebe N. Machine learning in computer vision. New York: Springer Science & Business Media, 2005.

89. Serfling R. Equivariance and invariance properties of multivariate quantile and related functions, and the role of standardisation // Journal of Nonparametric Statistics, No. 22.7, 2010. pp. 915-936.

90. Serre T., Wolf L., Poggio T. Object recognition with features inspired by visual cortex // Computer Vision and Pattern Recognition. 2005. No. 2. pp. 994-1000.

91. Shimojo S., Silverman G.H., Nakayama K. Occlusion and the solution to the aperture problem for motion // Vision research. 1989. No. 29.5. pp. 619-626.

92. Simoncelli E.P., Olshausen B.A. Natural image statistics and neural representation // Annual review of neuroscience. 2001. No. 24(1). pp. 1193-1216.

93. Singular Inversions. FaceGen modeller (Version 3.3)[computer software] // Singular Inversions, 2008.

94. Szegedy C. Going deeper with convolutions // arXiv. 2014. No. 1409.4842.

95. Thaler L., Arnott S.R., Goodale M.A. Neural correlates of natural human echolocation in early and late blind echolocation experts // PLoS One. 2011. No. 6(5). P. 20162.

96. Treisman A.M., Gelade G. A feature-integration theory of attention // Cognitive psychology. 1980. pp. 97-136.

97. Treue S., Martinez-Trujillo J.C. Feature-based attention influences motion processing gain in macaque visual cortex // Nature. 1999. No. 399.6736. pp. 575579.

98. Tsotsos J.K. Modeling visual attention via selective tuning // Artificial intelligence. 1995. No. 78.1. pp. 507-545.

99. Turk M.A., Pentland A.P. Face recognition using eigenfaces // Computer Vision and Pattern Recognition. 1991. No. ConferenceProceedings CVPR'91., IEEE Computer Society Conference. pp. 586-591.

100. Viola P., Jones M. Rapid object detection using a boosted cascade of simple

features, No. 1, 2001. pp. 502-511.

101. Wang S. Learning to Extract Parameterized Features by Predicting Transformed Images. ECCV, 2011.

102.Willems G., Tuytelaars T., Van Gool L. An efficient dense and scale-invariant spatio-temporal interest point detector // Computer Vision, ECCV. 2008. pp. 650663.

103.Yahia S., Atri M., Tourki R. Human detection based on integral Histograms of Oriented Gradients and SVM // Communications, Computing and Control Applications, 2011. pp. 1-5.

104. Yang J. Linear spatial pyramid matching using sparse coding for image classification // Computer Vision and Pattern Recognition, 2009. pp. 17-23.

105. Zuo F., de With P.H. Fast facial feature extraction using a deformable shape model with haar-wavelet based local texture attributes // Image Processing. 2004. No. 3. pp. 1425-1428.

107.Хуршудов А.А. Обучение многослойного разреженного автоэнкодера на изображениях большого масштаба // Вестник компьютерных и информационных технологий, Vol. 2, No. 116, 2014. pp. 27-31.

106.Хуршудов А.А., Марков В.Н. Визуальный трекинг объектов для обучения локальным признакам // Новейшие исследования в современной науке: опыт, традиции, инновации: Сборник научных статей III Международной научно-практической конференции. М. 2015. pp. 67-71.

108.Хуршудов А.А., Марков В.Н. Построение констелляционной модели представления визуальных образов // Prospero. XI межнудародная научно-практическая конференция "Научное обозрение физико-математических и технических наук в XXI веке". М. 2014. Vol. 6. pp. 35-40.

109.Хуршудов А.А., Марков В.Н. Проблема инверсии в компьютерном зрении // Евразийский Союз Ученых (ЕСУ). VIII международная научно-практическая конференция "Современные концепции научных исследований". М. 2014. Vol. 8. pp. 58-63.

110.Хуршудов А.А., Марков В.Н. Спонтанное выделение иерархии двумерных признаков // Научно-технические ведомости СпбГУ. Информатика. Телекоммуникации. Управление, Vol. 210, No. 6, 2014. pp. 58-69.

111.Хуршудов А.А. Обнаружение локальных пространственных структур для распознавания изображений // Научно-технические ведомости СпбГУ. Информатика. Телекоммуникации. Управление, Vol. 5, No. 205, 2014. pp. 7282.

112.Хуршудов А.А. Построение трехмерных карт признаков на основе видеофрагментов методом оптического потока // Научно-технические ведомости СпбГУ. Информатика. Телекоммуникации. Управление, Vol. 2, No. 217, 2015. pp. 67-72.

113.Хуршудов А.А. Представление трехмерных объектов с помощью ансамбля трансформирующих автоэнкодеров // Научно-технические ведомости СпбГУ. Информатика. Телекоммуникации. Управление, Vol. 222, No. 3, 2015. pp. 89100.

114.Ярбус А.Л. К вопросу о роли движений глаз в процессе зрения // Биофизика, Vol. 6, 1959. pp. 41-51.

122

СПИСОК РИСУНКОВ

1.1 - Схема искусственной нейронной сети с тремя слоями

1.2 - Примеры главных компонент алгоритма Eigenfaces [96]

1.3 - а) Демонстрация представления участков изображения с помощью разреженного кода. б) Примеры компонент для трех категорий объектов (на разных уровнях) [79]

1.4 - Архитектура сверточной нейронной сети [55]

1.5 - Объекты, представленные локальными признаками SIFT, демонстрируют высокую устойчивость к пространственным преобразованиям, и окклюзии [68]

1.6 - Справа внизу: примеры изображений для обучения составных частей модели. Справа вверху: визуализация параметров 0. Слева: примеры успешно распознанных изображений [12]

2.1 - Сопоставление инвариантного и эквивариантного детектора локальных признаков. Выходные параметры детектора выражены лингвистическими переменными

2.2 - Схема дискриминативного эквивариантного детектора для изображения глаза. Выходные данные детектора представляют собой кортеж из значений двух его функций. Трансформация T в данном случае представлена вектором трех углов Эйлера

2.3 - Схема комбинации выходных параметров детектора первого уровня и обработки детектором второго уровня

2.4 - Модель представления объектов на примере человеческих лиц, содержащая два уровня репрезентации

2.5 - Эквивариантный детектор, реализованный с использованием алгоритма случайного леса

2.6 - Эквивариантный детектор, реализованный с использованием алгоритма трансформирующего автонэкодера

2.7 - Схема иерархической организации локальных эквивариантных детекторов признаков

3.1 - Схема обучения модели в потоке данных

3.2 - Блок-схема алгоритма выделения локальных признаков

3.3 - Фрагменты изображения, обнаруженные алгоритмом выделения локальных признаков. а) Фрагменты, характеризующиеся максимальной заметностью (локальной энтропией). б) Фрагменты, характеризующиеся отличительными показателями интенсивности и структурной сложности

3.4 - Схема проекции трехмерных точек на плоскость сенсора. Математическая операция проекции используется при построении трехмерной карты признаков

3.5 - Определение разностной карты по двум позициям камеры методом параллакса

3.6 - Последовательности областей заметности, обнаруженные при помощи оптического трекинга вращения трехмерной модели лица. Каждой паре соседних фрагментов соответствует трансформация поворота вокруг оси Ъ на угол ф

3.7 - Блок-схема алгоритма оптического трекинга

3.8 - Последовательности, обнаруженные оптическим трекингом автомобилей в композитной сцене

3.9 - Примеры обнаруженных автомбилей на данных видеонаблюдения дорожных камер

4.1 - Блок-схема алгоритма распознавания

4.2 - Восстановление ложноотрицательных ошибок детектором верхнего уровня с помощью обратной связи

4.3 - Коррекция ложноположительных ошибок детекторов верхнего уровня с помощью обратной связи

5.1 - Графики обучения моделей в зависимости от метапараметра в

5.2 - Графики обучения моделей в зависимости от метапараметра s

5.3 - Реконструкции трансформированных изображений

5.4 - Визуализация весов нейронов слоя распознавания и порождающего

слоя

А1 - Результаты активаций локальных детекторов модели, соответствующих структурным элементам человеческих лиц А2 - Примеры успешно распознанных лиц

125

СПИСОК ТАБЛИЦ

5.1 Показатели точности реконструкций автоэнкодера, %

5.2 Показатели точности, полноты и согласованности трансформирующего авто энкодера на выборке НРГО, %

5.3 Точность оценки позиции с помощью трансформирующего автоэнкодера, %

5.4 Показатели точности распознавания лиц для групп различных ориентаций, %

5.5 Показатели точности распознавания размытых лиц для групп различных ориентаций, %

5.6 Показатели точности распознавания частично перекрытых лиц для групп различных ориентаций, %

5.7 Оценка анализа алгоритмом композитных сцен

ПРИЛОЖЕНИЕ ^ ДЕМОНСТРАЦИОННЫЕ МАТЕРИАЛЫ

Рисунок А.1 - Результаты активаций локальных детекторов модели, соответствующих структурным элементам человеческих лиц

Рисунок А.2 - Примеры успешно распознанных лиц

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.