Сопровождение и распознавание объектов на телевизионных изображениях тема диссертации и автореферата по ВАК РФ 05.12.04, кандидат технических наук Ганин, Александр Николаевич

  • Ганин, Александр Николаевич
  • кандидат технических науккандидат технических наук
  • 2013, Ярославль
  • Специальность ВАК РФ05.12.04
  • Количество страниц 149
Ганин, Александр Николаевич. Сопровождение и распознавание объектов на телевизионных изображениях: дис. кандидат технических наук: 05.12.04 - Радиотехника, в том числе системы и устройства телевидения. Ярославль. 2013. 149 с.

Оглавление диссертации кандидат технических наук Ганин, Александр Николаевич

СОДЕРЖАНИЕ

ВВЕДЕНИЕ

1. АЛГОРИТМИЧЕСКАЯ ОСНОВА СОВРЕМЕННЫХ СИСТЕМ АНАЛИЗА ВИДЕОДАННЫХ

1.1. Вводные замечания

1.2. Схема построения системы анализа аудитории

1.3. Детектирование лиц

1.4. Сопровождение лиц

1.5. Распознавание людей

1.6. Классификация пола

1.7. Краткие выводы

2. АНАЛИЗ И МОДИФИКАЦИЯ АЛГОРИТМОВ СОПРОВОЖДЕНИЯ ЛИЦ

2.1. Вводные замечания

2.2. Метод цветовых гистограмм

2.2.1. Построение гистограммы

2.2.2. Построение изображения правдоподобия

2.2.3. Итеративная смена центра окна поиска и размеров окна поиска

2.2.4. Фильтрация изображения правдоподобия

2.3. Алгоритм на основе метода Лукаса-Канаде

2.3.1. Точечные особенности

2.3.2. Алгоритм Лукаса-Канаде

2.4. Модификация алгоритмов сопровождения лиц

2.4.1. Постановка задач

2.4.2. Описание модификаций

2.4.3. Метрики оценки качества сопровождения

2.4.4. Тестовые видеопоследовательности

2.5. Результаты анализа работы алгоритмов сопровождения

2.6. Краткие выводы

3. РАЗРАБОТКА И АНАЛИЗ АЛГОРИТМОВ РАСПОЗНАВАНИЯ ЛЮДЕЙ НА ВИДЕОПОСЛЕДОВАТЕЛЬНОСТЯХ

3.1. Вводные замечания

3.2. Алгоритмы распознавания людей на основе информации о лице

3.2.1. Алгоритм на основе метода главных компонент

3.2.2. Алгоритм на основе линейного дискриминантного анализа

3.2.3. Метод сравнения гистограмм локальных бинарных паттернов

3.3. Алгоритмы распознавания людей на основе информации о туловище

3.4. Результаты анализа алгоритмов распознавания людей

3.4.1. Постановка задачи

3.4.2. Тестовые изображения

3.4.3. Оптимизация параметров алгоритмов распознавания

3.4.4. Распознавание людей в условиях наличия аддитивного белого гауссовского шума на изображениях

3.4.5. Распознавание людей на изображениях, восстановленных с помощью фильтра А-ДКП

3.5. Краткие выводы

4. РЕАЛИЗАЦИЯ АЛГОРИТМОВ СОПРОВОЖДЕНИЯ И РАСПОЗНАВАНИЯ ЛИЦ В ПРОГРАММНО-АППАРАТНОМ КОМПЛЕКСЕ RECOGNITION.LAB

4.1. Вводные замечания

4.2. Интерфейс программы

4.2.1. Основное окно

4.2.2. Панель статистики

4.2.3. Настройка параметров

4.3. Особенности представления алгоритмов в Recognition.Lab

4.3.1. Кадр

4.3.2. Обработка кадров

4.4. Визуализатор статистики

4.5. Анализ результатов работы программы Recognition.Lab

4.5.1. Тестовые видеопоследовательности

4.5.2. Анализ результатов

4.6. Сравнение результатов Recognition.Lab с результатами

Intel Aim Suite

4.6.1. Введение метрики

4.6.2. Анализ результатов

4.7. Краткие выводы

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

Рекомендованный список диссертаций по специальности «Радиотехника, в том числе системы и устройства телевидения», 05.12.04 шифр ВАК

Введение диссертации (часть автореферата) на тему «Сопровождение и распознавание объектов на телевизионных изображениях»

ВВЕДЕНИЕ

Актуальность темы. Миллиарды камер охранного телевидения -неотъемлемая часть современного цивилизованного мира [1-10, 94-97]. Изображения сменяют друг друга на мониторах, многочисленные операторы обеспечивают безопасность в аэропортах, на вокзалах и в других общественных местах. Видеонаблюдение сегодня считается едва ли не самым главным техническим инструментом обеспечения безопасности. Важнейшую роль в современных системах охранного телевидения играют алгоритмы цифровой обработки изображений [7, 8, 10, 20, 95, 97] и компьютерного зрения [14, 15], позволяющие контролировать тысячи видеоканалов в режиме реального времени.

Для построения современных систем охранного телевидения характерны следующие основные проблемы и задачи [95]:

— обнаружение объекта интереса на сложном изменяющемся фоне;

— измерение пространственных параметров и оценка динамических параметров объектов по наборам последовательных кадров;

— сопровождение объектов;

— классификация и распознавание динамических объектов.

Среди объектов для распознавания и классификации наиболее развитой и актуальной задачей является детектирование и классификация человеческих лиц [26, 51-55, 59, 62, 65-68]. В настоящее время эта задача находит применение в различных сферах человеческой деятельности (в первую очередь, в системах безопасности). Сферами применения распознавания лиц являются, например, системы охранного телевидения, сравнение фотографий на паспортах или водительских удостоверениях, контроль доступа к безопасным компьютерным сетям и оборудованию в учреждениях, наблюдение за аэропортами и вокзалами для предотвращения террористических актов и др. В большинстве практических ситуаций анализ входного изображения должен осуществляться в режиме реального времени.

Современные алгоритмы позволяют детектировать лицо человека на реальных видеоизображениях со сложным фоном с вероятностью, превышающей 90%. Среди них самым известным является алгоритм на основе бустинга [74], предложенный P. Viola и М. Jones в 2001 г.

Целью задачи сопровождения (трекинга) является установление соответствия между различными объектами или частями в последовательности кадров и нахождение траекторий объектов, а также вычисление их динамических характеристик, таких как скорость и направление движения [30]. Сопровождение объектов в большинстве практических приложений требуется осуществлять в режиме реального времени [31].

Одним из важнейших направлений компьютерного зрения является задача автоматизированного распознавания объектов [26, 32, 52, 53, 55, 56, 59, 62-65, 69]. Успешное решение этой задачи необходимо для разработки и производства систем, способных интеллектуально оценивать внешнюю среду и выполнять в ней те или иные действия. Однако в реальных системах охранного телевидения задачу распознавания объектов приходится решать в условиях наличия искажений, связанных с помехами в радиотехнических устройствах и сжатием двумерного сигнала, поэтому для эффективного решения поставленной задачи требуется применение специализированных алгоритмов цифровой обработки изображений. Среди них можно выделить нелинейные алгоритмы фильтрации и восстановления изображений, вейвлет-обработку, системы, построенные на нечеткой логике, генетических алгоритмах, нейронных сетях.

В область разработки алгоритмов цифровой обработки телевизионных изображений внесли вклад как отечественные ученые — Ю.Б. Зубарев [1-3, 10], М.И. Кривошеев, В.П. Дворкович [1-3, 10, 97], A.B. Дворкович [3, 97], М.К. Чобану [9], A.C. Крылов, Ю.С. Бехтин, Ю.С. Радченко, A.JI. Приоров, так и зарубежные - R. Gonzalez [20], R. Woods [20], A. Bovik, Y. Neuvo, J. Astola, К. Egiazaryan, M. Nikolova.

Первые работы по распознаванию динамических объектов были опубликованы еще в конце 1980-х гг. Следует отметить особый вклад советских и российских ученых, занимающихся в данной области, таких как Ю.И. Журавлев [13, 22], Ю.В. Гуляев, В.А. Сойфер [21], А.И. Галушкин, В.Н. Вапник [12], Н.Г. Загоруйко [23], A.A. Потапов [15]. В области анализа-синтеза алгоритмов сопровождения объектов и оценки их движения на видеоизображениях выделяются работы Б.А. Алпатова, П.В. Бабаяна, М.Н. Фаворской, Ю.В. Визильтера, Е.В. Медведевой, В. Lucas [33], Т. Kanade [33].

На сегодняшний день достигнуты значительные успехи при построении систем видеоаналитики, систем аутентификации личности по изображениям. Однако существуют нерешенные проблемы при распознавании динамических образов из-за сложности и многообразия поведения объектов реального мира [95]. Существует класс задач, где особую важность приобретает информация о структуре и движении объектов сцены (видеонаблюдение в закрытых помещениях, в местах большого скопления людей, управление движением робототехнических комплексов, наблюдение за движением транспортных средств и т.д.).

Так, например, для задач сопровождения объектов на современном этапе развития представляет интерес обработка следующих практических ситуаций [95]:

— изменение изображения или освещенности сцены;

— наличие шума камеры;

— присутствие объектов, изменяющих свою форму;

— временное исчезновение объектов интереса, возникающее из-за перекрытия их другими объектами;

— наличие нескольких одновременно движущихся объектов с близкими характерными признаками и пересекающимися траекториями.

Для задач распознавания объектов актуальным остается поиск алгоритмов, работающих в режиме реального времени и позволяющих

6

идентифицировать объект в условиях наличия помех на телевизионных изображениях. Поэтому на современном этапе развития науки и техники разработка и анализ алгоритмов сопровождения и распознавания объектов на телевизионных изображениях представляют собой актуальную задачу.

Основной целью работы является разработка, усовершенствование и исследование новых алгоритмов сопровождения и распознавания объектов на видеоизображениях в условиях наличия искажений и помех, обусловленных практическими требованиями для функционирования систем охранного телевидения.

Объектом исследования являются алгоритмы сопровождения и распознавания объектов, применяемые в радиотехнических системах обработки и анализа изображений и современных системах телевидения.

Предметом исследования являются модификация и разработка алгоритмов, с целью повышения эффективности функционирования видеоинформационных систем охранного телевидения.

Задачи диссертационной работы:

- разработка алгоритмов сопровождения объектов на телевизионных изображениях в условиях наличия специфических искажений и помех;

— разработка методики объективного сравнения различных алгоритмов сопровождения объектов по видеоданным;

- разработка комбинированного алгоритма обработки изображения, зашумленного белым гауссовским шумом, сочетающего нелинейную фильтрацию на основе адаптивного дискретного косинусного преобразования и алгоритм распознавания лиц;

— усовершенствование работы алгоритма распознавания объектов на основе локальных бинарных паттернов с использованием дополнительной информации о цвете объекта.

Методы исследования. При решении поставленных задач использовались современные методы цифровой обработки изображений, компьютерного зрения, распознавания образов, математического анализа,

7

теории вероятностей и математической статистики. Для практической реализации алгоритмов применялись современные численные методы и методы объектно-ориентированного программирования на языке С#. Научная новизна полученных результатов В рамках данной работы получены следующие новые научные результаты:

- разработаны новые алгоритмы сопровождения объектов на видеоданных, показывающие свою эффективность в условиях наличия искажений и помех;

- разработан комбинированный алгоритм обработки телевизионного изображения, зашумленного аддитивным белым гауссовским шумом, на основе нового алгоритма нелинейной фильтрации и алгоритма распознавания лиц;

- разработана модификация алгоритма распознавания объектов на телевизионных изображениях на основе локальных бинарных паттернов с использованием дополнительной информации о цвете.

Практическая значимость полученных результатов

1. Разработана методика объективного сравнения различных алгоритмов сопровождения объектов по видеоданным.

2. Проведен анализ работы алгоритмов сопровождения объектов на видеоданных при наличии искажающих факторов и предложены модификации, позволившие повысить уровень сопровождения в среднем на 5-10%.

3. Разработаны модификации алгоритма распознавания лиц путем использования информации о цвете и предварительной нелинейной цифровой фильтрации, позволившие увеличить результат верного распознавания на 10-20% в условиях наличия искажений, связанных с помехами в радиотехнических устройствах и сжатием двумерного сигнала.

4. Разработан критерий качества функционирования систем определения числа объектов на видеоданных для решения ряда практических задач в области современных систем охранного телевидения. Разработанные методы и алгоритмы требуют для их практической реализации относительно небольших вычислительных ресурсов, что позволяет использовать их для обработки телевизионных изображений в системах реального времени.

Результаты работы внедрены в соответствующие разработки ООО «А-ВИЖН», г. Ярославль и ООО «ЛВЛ Инжиниринг», Московская обл. Отдельные результаты диссертационной работы внедрены в учебный процесс ЯрГУ им. П.Г. Демидова в рамках дисциплин «Цифровая обработка изображений» и «Компьютерное зрение», а также в научно-исследовательские работы при выполнении исследований в рамках гранта РФФИ №10-08-01186. Получено свидетельство на программный продукт, зарегистрированное в Реестре программ для ЭВМ.

Достоверность полученных научных результатов обусловлена применением адекватного математического аппарата, подтверждается их согласованностью с результатами проведенного компьютерного моделирования и сопоставлением полученных результатов с научными данными, известными из российской и зарубежной литературы.

Апробация работы. Результаты работы докладывались и обсуждались на следующих научно-технических конференциях и семинарах.

- 1st IEEE International Conference on Circuits and Systems for Communications (ICCSC'02), Sankt Petersburg, 2002.

- 4-я, 13-15-я международные конференции «Цифровая обработка сигналов и ее применение», Москва, 2002, 2011-2013.

- 67-я научная сессия, посвященная Дню радио, Москва, 2012.

- 18-я международная научно-техническая конференция «Радиоэлектроника, электротехника и энергетика», Москва, 2012.

- 14-я всероссийская научно-техническая конференция «Нейроинформатика», Москва, 2012.

- 10-я всероссийская научная конференция «Нейрокомпьютеры и их применение», Москва, 2012.

- 2-я всероссийская научная конференция молодых ученых с международным участием, Рыбинск, 2012.

- International MultiConference of Engineers and Computer Scientists (imaging engineering section), Hong Kong, 2013.

Публикации. По теме диссертации опубликовано 22 научные работы, из них 2 статьи в журналах, рекомендованных ВАК, учебное пособие, 17 докладов на научных конференциях, свидетельство о регистрации программы для ЭВМ.

Структура и объем работы. Диссертация состоит из введения, четырех разделов, заключения, списка использованных источников, содержащего 97 наименований. Она изложена на 149 страницах машинописного текста, содержит 62 рисунка и 5 таблиц.

Основные научные положения и результаты, выносимые на защиту:

1. Алгоритм сопровождения объектов на телевизионных изображениях на основе метода Лукаса-Канаде, с использованием медианной фильтрации скоростей ключевых особенностей и детектора препятствий, увеличивает уровень сопровождения объектов, при наличии искажений и помех, на 5-10% по сравнению с классическим алгоритмом.

2. Применение предварительного алгоритма фильтрации на базе адаптивного дискретного косинусного преобразования позволяет использовать алгоритм распознавания на основе локальных бинарных паттернов в ситуации присутствия аддитивного белого гауссовского шума.

3. Модификация алгоритма на основе локальных бинарных паттернов с использованием дополнительной информации о цвете повышает уровень распознавания на 10-20% по сравнению с исходным алгоритмом.

Благодарности. Автор выражает слова глубокой благодарности своему научному руководителю профессору Юрию Александровичу Брюханову за помощь на всех этапах выполнения данной работы. Отдельная благодарность преподавателям ЯрГУ С.Е. Биркгану, И.В. Изотовой, К.С. Артемову, Л.Н. Казакову, И.Т. Рожкову, А.Н. Креневу, В.И. Ярмоленко, В.А. Тимофееву, работы которых оказали значительное влияние на формирование взглядов автора в данном научном направлении. Эти взгляды формировались также в совместной работе с коллегами по лаборатории «Цифровые цепи и сигналы» кафедры динамики электронных систем ЯрГУ, среди которых особенно хочется отметить Ю. Лукашевича, В. Кобелева, А. Аверина, Д. Волкова, А. Тараканова, И. Апалькова, М. Голубева, Л. Шмаглита, Е. Саутова, А. Носкова, А. Шемякова, О. Гущину, Е. Аминову.

Особая благодарность - доцентам ЯрГУ Андрею Леонидовичу Приорову и Владимиру Вячеславовичу Хрящеву за постоянную поддержку во время обучения в аспирантуре и подготовки данной диссертации.

1. АЛГОРИТМИЧЕСКАЯ ОСНОВА СОВРЕМЕННЫХ СИСТЕМ

АНАЛИЗА ВИДЕОДАННЫХ 1.1. Вводные замечания

Устройства видеонаблюдения используются для сбора информации и мониторинга людей, их деятельности и событий [14, 95]. Среди технологий визуального наблюдения ПЗС камеры, тепловизионные камеры и устройства ночного видения - три наиболее широко используемых типа устройств на рынке современного видеонаблюдения. Визуальный анализ динамических сцен, особенно с участием людей, сегодня одно из наиболее активно развивающихся направлений исследований в области технического зрения и искусственного интеллекта. Оно имеет широкий спектр приложений для обеспечения общественного порядка и безопасности, включая контроль доступа, сбор статистики о движении толпы и анализ очередей, детектирование и анализ человеческого поведения и т.д. [94].

Визуальное наблюдение динамической сцены с нескольких камер дает больше возможностей для детектирования, распознавания и сопровождения определенных объектов на последовательностях изображений и, что более важно, позволяет понять и описать поведение объектов. Основная цель визуального наблюдения - это разработка интеллектуальной системы, способной заменить традиционное пассивное видеонаблюдение, которое при увеличении числа камер доказало свою неэффективность из-за ограниченности возможностей людей-операторов их контролировать. Цель визуального наблюдения не только разместить камеры в определенных местах, но и полностью решить задачу наблюдения при минимальном участии человека (при максимально возможной автоматизации).

Подсистема обработки автоматизированной системы визуального наблюдения включает следующие операции (рис. 1.1): детектирование движения/объекта, классификация объекта, сопровождение объекта, анализ и

понимание поведения и деятельности, идентификация человека, обработка перехода между камерами и объединение данных с нескольких камер [95].

Почти каждая система визуального наблюдения начинает свою работу с

детектирования движения и объекта [20, 21, 94]. Цель детектирования

движения состоит в отделении областей, соответствующих движущимся

объектам от остальных областей изображения. Последующие процессы,

такие как сопровождение объекта, анализ и распознавание его поведения,

сильно зависят от качества выполнения этой операции. Процесс

детектирования движения/объекта обычно включает моделирование

фона/окружения и сегментацию движения, которые пересекаются друг с

другом во время работы. Цель сегментации движения на последовательности

изображений состоит в детектировании областей, соответствующим

движущимся объектам, таким как люди и транспортные средства [14].

13

Выявление областей движения позволяет последующим процессам, таким как сопровождение и анализ поведения, ограничить свою работу только данными областями, поскольку только они представляют интерес для дальнейших исследований.

После детектирования движения и объектов системы наблюдения, как правило, сопровождают движущиеся объекты от одного кадра к другому на последовательности изображений. Работа алгоритмов сопровождения (трекинга) обычно в значительной мере пересекается с работой детекторов движения. Сопровождение во времени, как правило, включает сопоставление объектов на последовательных кадрах с использованием набора признаков, таких как точки, линии и блобы [94].

Понимание поведения включает анализ и распознавание паттернов движения и предоставление на их основе описания действий и взаимодействий между или среди объектов. Так, например, в некоторых ситуациях необходимо проанализировать поведение людей и определить является ли это поведение нормальным или нет. Лицо человека и его походка сейчас относятся к основным биометрическим признакам, которые могут быть использованы для персональной идентификации в системах визуального наблюдения [26].

Детектирование движения, сопровождение, понимание поведения и персональная идентификация на расстоянии могут быть реализованы в системах визуального наблюдения на основе единственной камеры. Системы визуального наблюдения на основе нескольких камер могут быть чрезвычайно полезны, поскольку увеличивается зона наблюдения и информация с нескольких видов может решить проблему перекрытия объекта. Однако визуальное наблюдение с использованием нескольких камер также порождает проблемы, такие как установка камер (как покрыть всю сцену с использованием минимального числа камер), калибровка камер,

сопоставление объектов, автоматическое переключение между камерами и объединение данных.

Обработка видеоданных в системах наблюдения наследует те же трудности, которые приходится преодолевать при разработке приложений технического зрения, т.е. изменение освещенности, изменение точки обзора, изменение масштаба (расстояния до камеры) и изменение ориентации [14]. Однако ввиду сложности разработки общих алгоритмов наблюдения система визуального наблюдения обычно проектируется как набор отдельных алгоритмов, которые выбираются для решения конкретной задачи.

1.2. Схема построения системы анализа аудитории

В качестве примера системы автоматизированного визуального наблюдения рассмотрим схему построения программно-аппаратного комплекса анализа аудитории (рис. 1.2). В качестве основного объекта для анализа в данном случае выступает лицо человека [71].

Детектирование лиц

Сопровождение лиц

Распознавание людей

_1 г_

Классификация пола

_ _ _)

Рис. 1.2. Блок-схема системы анализа аудитории

Рассматриваемая система состоит из следующих блоков [75, 77, 80, 83].

15

1. Детектирование лиц. Данный блок отвечает за обнаружение интересующих объектов - лиц людей, с целью их последующего анализа. Данная операция имеет важнейшее значение и от используемых здесь алгоритмов зависит работоспособность всей системы в целом [82, 84].

2. Сопровождение лиц. Данный блок отвечает за отслеживание объектов между моментами детектирования. Движения людей имеют непредсказуемый характер и не во всех кадрах видеопоследовательности лицо человека отчетливо видно и может быть детектировано. Кроме того, поскольку поиск лиц производится по всему изображению и при различных масштабах, операция детектирования является вычислительно затратной и вносит задержки в работу всей системы. Поэтому использовать детектирование в каждом кадре нецелесообразно. В силу описанных выше причин сопровождение лиц становится важным компонентом системы для непрерывного отслеживания положения и размеров объекта [78, 83, 85].

3. Распознавание людей. Для правильного подсчета числа объектов и различения новых объектов от уже сопровождаемых применяется операция распознавания. В рамках данной системы под распознаванием понимается способность классифицировать детектированные объекты по двум классам — известный объект (объект, который уже есть в базе системы) и неизвестный объект (объект, который появился впервые и должен быть зарегистрирован в системе). Объект должен быть отнесен к классу известных в двух ситуациях: 1) когда объект был перекрыт другим объектом или элементами сцены, а затем появился снова; 2) когда объект покинул сцену, а затем снова оказался в поле зрения камеры [89-92].

4. Классификация пола. Данная задача является частным случаем более общей задачи разделения объектов на различные классы. В данном случае лица людей делятся на два класса — «мужчины» и «женщины». В зависимости от области применения могут использоваться и другие виды классификации, например, классификация по возрастным группам («младше 18 лет», «от 18 до 45 лет», «старше 45 лет») [79, 81, 87, 88].

Диссертационная работа посвящена разработке, модификации и анализу алгоритмов, которые применяются для сопровождения лиц (раздел 2) и распознавания людей (раздел 3). Раздел 4 носит практический характер и описывает пример реализации описанной выше системы в программе 11есо§пШопХаЬ [92]. Ниже приводится краткий обзор современного состояния и применяемых алгоритмов для осуществления каждой из описанных выше операций.

1.3. Детектирование лиц

На современном этапе развития все методы детектирования лиц классифицируются на 4 группы [26, 93]. Некоторые методы находятся на границе категорий.

1. Методы, основанные на знаниях. Эти методы основаны на правилах, которые описывают человеческие знания о том, что собой представляет типичное человеческое лицо. Обычно эти правила охватывают взаимосвязи между признаками лица.

2. Методы на основе инвариантных свойств. Целью этих алгоритмов является нахождение структурных признаков, которые сохраняются даже при изменении положения головы, точки наблюдения или условий освещенности, и последующее использование этих признаков для нахождения лиц.

3. Методы сравнения с шаблоном. Несколько стандартных шаблонов лица хранятся для его описания или некоторых его признаков. Для

17

детектирования вычисляется корреляция между входным изображением и хранимыми шаблонами.

4. Методы на основе обучения. В отличие от методов сравнения с шаблоном модели (или шаблоны) получаются путем обучения на наборе тренировочных изображений, который должен охватывать широкий набор возможных изменений лица. Эти обученные модели затем используются для детектирования.

Табл. 1.1 обобщает алгоритмы и представляет работы по выделению лиц на неподвижном изображении внутри этих четырех категорий.

Таблица 1.1

Классификация методов выделения лиц на неподвижном изображении

Название метода Примеры алгоритмов

Методы, основанные на знаниях Крупномасштабный метод, основанный на правилах

Методы на основе инвариантных свойств - Признаки лица - Текстура - Цвет кожи - Сочетание признаков Группировка границ Пространственная матрица зависимостей уровней серого (Space Gray-Level Dependence matrix, SGLD) для шаблона лица Смесь функций Гаусса Объединение цвета кожи, размера и формы

Методы на основе сравнения с шаблоном - Предопределенные шаблоны лица - Деформируемые шаблоны Шаблон формы Активная модель формы (Active Shape Model, ASM)

Методы на основе обучения - Собственные лица - На основе вероятностных распределений - Нейронные сети - Машина опорных векторов (MOB) - Наивный байесовский классификатор - Скрытая марковская модель (СММ) - Теоретико-информационный подход Декомпозиция и кластеризация собственных векторов Распределение Гаусса и многослойный персептрон Сочетание нейронных сетей и схемы принятия решений MOB с полиномиальным ядром Совместная статистика локального внешнего вида и положения Статистики высокого порядка в СММ Относительная информация Кульбака

Наиболее перспективными методами для решения задачи детектирования лиц являются методы на основе обучения. Одним из широко используемых алгоритмов данной категории является алгоритм на базе бустинга. Данный алгоритм реализован в библиотеке компьютерного зрения ОрепСУ и используется в программе 11есо§пШопХаЬ [92].

Данный подход, предложенный П. Виолой и М. Джонсом в работе [74], использует процедуру обучения, основанную на процедуре адаптивного бустинга [84]. Их алгоритм состоит из трех этапов.

1. Переход к интегральному изображению. Интегральное изображение позволяет быстро вычислять признаки изображения, которые используются классификатором. Основная причина использования признаков вместо значений пикселей заключается в том, что признаки позволяют закодировать полученную в результате обучения информацию. К тому же системы, работающие с признаками, гораздо быстрее систем, оперирующих со значениями пикселей. Предлагаемый алгоритм использует три вида простых признаков. Значение двух-прямоугольного признака вычисляется как разность между суммами значений пикселей, принадлежащих двум прямоугольным областям. Области имеют одинаковую длину и ширину и ориентированы вертикально или горизонтально, как показано на рис. 1.3.

Л 1 3

а) двух-прямоугольные признаки

1 11 \ш

Е

б) трех-прямоугольный признак в) четырех-прямоугольный признак

Рис. 1.3. Примеры прямоугольных признаков и их расположения

внутри окна детектора

Значение трех-прямоугольного признака вычисляется как разность между суммой значений пикселей в двух внешних прямоугольниках и суммой значений пикселей в центральном прямоугольнике. И, наконец, четырех-прямоугольный признак находится как разность между суммами значений пикселей, расположенных в диагональных парах прямоугольников.

Прямоугольные признаки могут быть быстро посчитаны с помощью промежуточного представления изображения, которое мы называем интегральным изображением. Интегральное изображение в точке (х,_у) содержит сумму пикселей, расположенных слева и сверху над этой точкой, и определяется по формуле:

х'<х,у'<у

где ii(x, у) — интегральное изображение, i(x, у) - исходное изображение. Для вычисления используется следующая пара рекурсий:

s(x, у) = у-1)+i(x, у) ii(x, у) = ii(x -1 ,у)+s(x, у)'

где s(x,у) - кумулятивная строка суммы, s(x— l) = 0, ii(— 1,у)= 0.

Следовательно, интегральное изображение может быть вычислено за один проход по первоначальному изображению. При использовании интегрального изображения, вычисление признаков одинакового вида, но с разными геометрическими параметрами, проходит за одинаковое время.

2. Метод построения классификатора на основе алгоритма бустинга. Сложный классификатор можно рассматривать как суперпозицию простых классификаторов порогового типа. Обозначим простой классификатор как:

X если pjfj{x)< pjOj

hj(x) =

О, в остальных случаях

где Pj — показывает направление знака неравенства, вj — значение порога,

/}(х) - вычисленное значение признака, х - входное изображение,

N - общее количество признаков.

Рассмотрим алгоритм бустинга, с помощью которого осуществляется отбор простых классификаторов и формирование на их основе сложного классификатора. Зададим обучающий набор Xр — |х/,1.. .хрг }, содержащий

Ь изображений лиц разрешением 24x24 пикселя и обучающий набор Хп = |хИ1.. .хПм ], содержащий М изображений нелиц того же разрешения.

Похожие диссертационные работы по специальности «Радиотехника, в том числе системы и устройства телевидения», 05.12.04 шифр ВАК

Заключение диссертации по теме «Радиотехника, в том числе системы и устройства телевидения», Ганин, Александр Николаевич

Основные результаты диссертации можно сформулировать в следующем виде.

1. Проведен анализ известных алгоритмов решения задач детектирования, сопровождения, распознавания и классификации объектов, позволяющий оценить эффективность существующих методов.

2. Предложены новые алгоритмы сопровождения объектов на телевизионных изображениях в условиях наличия специфических искажений на основе метода Лукаса-Канаде.

3. Разработана методика объективного сравнения различных алгоритмов сопровождения объектов по видеоданным. Ее использование показывает, что преимущество предложенного алгоритма Лукаса-Канаде-3 над классическим алгоритмом сопровождения (при одинаковой вычислительной сложности) составляет в среднем 5-10%.

4. Показано, что использование предложенного нелинейного фильтра на базе А-ДКП совместно с алгоритмом распознавания лиц на основе ЛБП позволяет получать уровень точного распознавания 85-90% (при числе классов N до 20) в условиях присутствия АБГШ (<Т<40). Это позволяет использовать эффективный алгоритм распознавания лиц в условиях низкого отношения сигнал/шум без потери уровня точного распознавания.

5. При увеличении числа классов (20<1Ч<50) целесообразно использование дополнительной информации о цвете объекта (для людей — распознавание по туловищу). Использование предложенного комбинированного алгоритма позволило увеличить процент верно распознанных объектов по сравнению с алгоритмом ЛБП на 10-20%. При этом уровень точного распознавания при N=50 составляет 79%, что является удовлетворительным для существующих практических приложений.

6. Предложена метрика для количественного выражения ошибки определения объектов, основанная на покадровом сравнении результатов с экспертными данными. Проведено сравнение разработанной программы Recognition.Lab с коммерческим аналогом -Intel AIM Suite. Программа Recognition.Lab показала в 2 раза меньшее значение ошибки по сравнению с аналогом.

ЗАКЛЮЧЕНИЕ

Список литературы диссертационного исследования кандидат технических наук Ганин, Александр Николаевич, 2013 год

СПИСОК ЛИТЕРАТУРЫ

1. Борисов Ю.И., Дворкович В.П., Зубарев Ю.Б. Технические проблемы и перспективы внедрения цифрового телевидения и радиовещания в России. Часть 1 // Broadcasting. Телевидение и радиовещание, 2007. №1. С. 22-27.

2. Борисов Ю.И., Дворкович В.П., Зубарев Ю.Б. Технические проблемы и перспективы внедрения цифрового телевидения и радиовещания в России. Часть 2 // Broadcasting. Телевидение и радиовещание, 2007. №2. С. 14-18.

3. Зубарев Ю.Б., Дворкович В.П., Дворкович A.B. Проблемы и перспективы внедрения информационных мультимедийных систем в России // Электросвязь, 2004. №10. С. 11-16.

4. Ярославский Л.П. Введение в цифровую обработку изображений. — М.: Советское радио, 1979. 312 с.

5. Yaroslavsky L. Digital Picture Processing - An Introduction // Springer Verlag, 1985. 276 p.

6. Yaroslavsky L. Eden M. Fundamentals of Digital Optics // Birkhauser, Boston, 1996. 368 p.

7. Даджион Д., Мерсеро P. Цифровая обработка многомерных сигналов // М.: Мир, 1988. 488 с.

8. Прэтт У. Цифровая обработка изображений // М.: Мир, 1982. 311 + 479 с.

9. Чобану М.К. Многомерные многоскоростные системы обработки сигналов //М.: Техносфера, 2009. 480 с.

10. Цифровая обработка телевизионных и компьютерных изображений / Под ред. Зубарева Ю.Б. и Дворковича В.П. // М.: 1997. 252 с.

11. Фурман Я.А. Юрьев А.Н. Яншин В.В. Цифровые методы обработки и распознавания бинарных изображений // Красноярск: Изд-во Краснояр. ун-та, 1992. 248 с.

12. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов (статистические проблемы обучения) // М.: Наука, 1974. 416 с.

13. Журавлев Ю.И., Рязанов В.В., Сенько О.В. Распознавание. Математические методы. Программная система. Практические применения. // М.: Фазис, 2005. 159 с.

14. Форсайт Д.А., Понс Д. Компьютерное зрение. Современный подход // М.: «Вильяме», 2004. 928 с.

15. Потапов A.C. Распознавание образов и машинное восприятие: общий подход на основе принципа минимальной длины описания. // СПб.: Политехника, 2007. 548 с.

16. Николенко С. И., Тулупьев A.J1. Самообучающиеся системы // М.: МЦНМО, 2009. 288 с.

17. Sammut С., Webb G.I. Encyclopedia of Machine Learning // Springer, 2011.

18. Люгер Дж. Ф. Искусственный интеллект: стратегии и методы решения сложных проблем // М.: «Вильяме», 2003. 864 с.

19. Мерков А.Б. Распознавание образов. Введение в методы статистического обучения // М.: Едиториал УРСС, 2011. 256 с.

20. Гонсалес Р., Вудс Р. Цифровая обработка изображений // М.: Техносфера, 2005. 621 с.

21. Методы компьютерной обработки изображений // Под ред. В.А. Сойфера М.: Физматлит, 2001. 784 с.

22. Журавлев Ю.И. Избранные научные труды // М.: Издательство Магистр, 1998. 420 с.

23. Загоруйко Н.Г. Прикладные методы анализа данных и знаний // Новосибирск: Изд-во Института математики, 1999. 270 с.

24. Уоссермен Ф. Нейрокомпьютерная техника // М.: Мир, 1992. 118 с.

25. Дюк В., Самойленко A. Data Mining: учебный курс // СПб: Питер, 2001. 368 с.

26. Stan Z. Li, Anil К. Jain. Handbook of Face Recognition // Springer Science+Business Media, 2005. 408 p.

27. Cover Т., Thomas J. Elements of Information Theory // Wiley Interscience, 1991.542 p.

28. Quinlan J.R. C4. 5: Programs for Machine Learning // Kluwer Academic, 1993.302 p.

29. Mitchell T. Machine Learning // McGraw Hill, 1997. 432 p.

30. Yilmaz A., Javed O., Shah M. Object Tracking: A Survey // ACM Comput. Surv, 2006. V. 38 P. 13.

31. Bradski G.R. Computer Vision Face Tracking For Use in a Perceptual User Interface // Proc. IEEE Workshop on Applications of Сотр. Vision, Princeton, 1998. P. 214-219.

32. Fukunaga K. Introduction to Statistical Pattern Recognition // Academic Press, Boston, 1990. 592 p.

33. Lucas B.D., Kanade T. An iterative image registration technique with an application to stereo vision // Proceedings of Imaging Understanding Workshop, 1981. P. 121-130.

34. Salari V., Sethi I.K. Feature point correspondence in the presence of occlusion // IEEE Trans. Patt. Analy. Mach. Intell. 12, 1, 1990. P. 87-91.

35. Veenman C., Reinders M., Backer E. Resolving motion correspondence for densely moving points // IEEE Trans. Patt. Analy. Mach. Intell. 23, 1, 2001. P. 54-72.

36. Broida, T., Chellappa, R. Estimation of object motion parameters from noisy images // IEEE Trans. Patt. Analy. Mach. Intell. 8, 1, 1986. P. 90-99.

37. Bar-Shalom Y., Foreman T. Tracking and Data Association // Academic Press Inc., 1988. 353 p.

38. Streit R.L., Luginbuhl T.E. Maximum likelihood method for probabilistic multi-hypothesis tracking // In Proceedings of the International Society for Optical Engineering (SPIE.), 1994. V. 2235. P. 394-405.

39. Comaniciu D., Ramesh V., Andmeer P. Kernel-based object tracking // IEEE Trans. Patt. Analy. Mach. Intell. 25, 2003. P. 564-575.

40. Shi J., Tomasi C. Good features to track // In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 1994. P. 593-600.

41. Tao H., Sawhney H., Kumar R. Object tracking with bayesian estimation of dynamic layer representations // IEEE Trans. Patt. Analy. Mach. Intell. 24, 1, 2002. P. 75-89.

42. Black M., Jepson A. Eigentracking: Robust matching and tracking of articulated objects using a view-based representation // Int. J. Comput. Vision, 26,1, 1998. P. 63-84.

43. Avidan S. Support vector tracking // In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2001. P. 184-191.

44. Isard M., Blake A. Condensation - conditional density propagation for visual tracking // Int. J. Comput. Vision 29,1, 1998. P. 5-28.

45. Bertalmio M., Sapiro, G., Randall G. Morphing active contours // IEEE Trans. Patt. Analy. Mach. Intell. 22, 7, 2000. P. 733-737.

46. Ronfard R. Region based strategies for active contour models // Int. J. Comput. Vision 13, 2, 1994. P. 229-251.

47. Huttenlocher D., Noh J., Rucklidge W. Tracking nonrigid objects in complex scenes // In IEEE International Conference on Computer Vision (ICCV), 1993. P. 93-101.

48. Sato K., Aggarwal J. Temporal spatio-velocity transform and its application to tracking and interaction // Comput. Vision Image Understand. 96, 2, 2004. P. 100-128.

49. Kang J., Cohen I., Medioni G. Object reacquisition using geometric invariant appearance model // In International Conference on Pattern Recongnition (ICPR), 2004. P. 759-762.

50. ISO/IEC 19794-5 Information Technology - Biometric Data Interchange Formats - Part 5: Face Image Data. JTC 1/SC 37, international standard edition, 2005. http:/isotc.iso.org/isotcportal. Accessed March 15, 2011.

51. Sirovitch L., Kirby M. Low-Dimensional Procedure for the Characterization of Human Faces // J. Optical Soc. Of Am. A., 1987. V. 2, P. 519-524.

52. Turk M., Pentland A. Eigenfaces for Recognition // J. Cognitive Neuroscience, 1991. V. 3. P. 72-86.

53. Turk M., Pentland A. Face Recognition Using Eigenfaces // Proc. IEEE Conf. on Computer Vision and Pattern Recognition, 1991. P. 586-591.

54. Hallinan P. A Low-Dimensional Representation of Human Faces for Arbitrary Lighting Conditions // Proc. IEEE Conf. on Computer Vision and Pattern Recognition, 1994. P. 995-999.

55. Pentland A., Moghaddam B., Starner T. View-Based and Modular Eigenspaces for Face Recognition // Proc. IEEE Conf. on Computer Vision and Pattern Recognition, 1994. P. 84-91.

56. Murase H., Nayar S. Visual Learning and Recognitions of 3D Objects from Appearance // Int'l J. Computer Vision, 1995. V. 14 P. 5-24.

57. Duda R., Hart P. Pattern Classification and Scene Analysis // New York: Wiley, 1973. 512 p.

58. Fisher R.A. The Use of Multiple Measures in Taxonomic Problems // Ann. Fugenics, 1936. V. 7 P. 179-188.

59. Chellappa R., Wilson C., Sirohey S. Human and Machine Recognition of Faces: A Survey//Proc. IEEE, 1995. V. 83 P.705-740.

60. Ojala T., Pietikainen M., Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns // IEEE Transactions on Pattern Analysis and Machine Intelligence 24,2002. P. 971-987.

61. Ojala T., Pietikainen M., Harwood D. A comparative study of texture measures with classification based on feature distributions // Pattern Recognition 29, 1996. P. 51-5.

62. Gong S., McKenna S.J., Psarrou A. Dynamic Vision, From Images to Face Recognition // Imperial College Press, London, 2000. 344 p.

63. Belhumeur P.N., Hespanha J.P., Kriegman D.J. Recognition Using Class Specific Linear Projection // IEEE Transactions on Pattern Analysis and Machine Intelligence 19, 1997. P. 711-720.

64. Phillips P.J., Moon H., Rizvi S.A., Rauss P.J. The FERET evaluation methodology for face recognition algorithms // IEEE Transactions on Pattern Analysis and Machine Intelligence 22, 2000. P. 1090-1104.

65. Beveridge J.R., She K., Draper B.A., Givens G.H. A nonparametric statistical comparison of principal component and linear discriminant subspaces for face recognition // In: IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2001. P. 535-542.

66. Samaria F.S., Harter A.C. Parameterisation of a stochastic model for human face identification // In: IEEE Workshop on Applications of Computer Vision., 1994. P. 138-142.

67. Lanitis A., Taylor C.J., Cootes T.F. A Unified Approach to Coding and Interpreting Face Images // Int'l Conf. Computer Vision, 1995. P. 368-373.

68. Craw I., Tock D., Bennet A. Finding Face Features // Proc. European Conf. Computer Vision, 1992. P. 92-96.

69. Matsuno K., Lee C.W., Kimura S., Tsuji S. Automatic Recognition of Human Facial Expressions // Int'l Conf. Computer Vision, 1995. P. 352-359.

70. Moghaddam В., Pentland A. Probabilistic Visual Learning for Object Detection // Int'l Conf. Computer Vision, 1995. P. 786-793.

71. Онлайн-измерение аудитории Digital Signage (http://27faces.com/).

72. Троелсен Э. Язык программирования C# 5.0 и платформа .NET 4.5, 6-е издание //М.: «Вильяме», 2013. 1312 с.

73. Мак-Дональд М. WPF: Windows Presentation Foundation в .NET 4.0 с примерами на С# 2010 для профессионалов // М.: «Вильяме», 2011. 1020 с.

74. Viola P., Jones М. Rapid object detection using a boosted cascade of simple features // Proc. Int. Conf. on Computer Vision and Pattern Recognition. 2001. № 1. p. 511-518.

75. Шмаглит Л.А., Хрящев B.B., Ганин A.H., Матвеев Д.В. Распознавание пола человека по выделенной области лица на изображениях// Проектирование и технологии электронных средств, 2011. №4. Владимир. С. 36-43.

76. Ганин А.Н., Гущина О.Н., Хрящев В.В. Анализ применения адаптивного дискретного косинусного преобразования в некоторых задачах

цифровой обработки изображений // Успехи современной радиоэлектроники. 2011. №2. С. 72-80.

77. Шмаглит Л.А., Ганин А.Н. Система слежения и тендерной классификации лиц на видеоизображениях // Тез. докл. 18-й междунар. науч.-тех. конф. «Радиоэлектроника, электротехника и энергетика». Москва, 2012. Т. 1. С. 128-129.

78. Носков A.A., Кандрин А.Е., Ганин А.Н. Слежение за областью лица на видеопоследовательностях // Докл. 14-й междунар. конф. «Цифровая обработка сигналов и ее применение» (DSPA-2012), Москва, 2012. Т. 2. С. 285-288.

79. Шмаглит JI.A., Голубев М.Н., Ганин А.Н., Хрящев В.В. Тендерная классификация по изображению лица // Докл. 14-й междунар. конф. «Цифровая обработка сигналов и ее применение» (DSPA-2012), Москва, 2012. Т. 2. С. 425-428.

80. Голубев М.Н., Шмаглит JI.A., Ганин А.Н. Разработка и анализ системы автоматического распознавания пола людей по изображению лица // XIV Всероссийская научно-техническая конференция «Нейроинформатика-2012», Москва, 2012. С. 151-159.

81. Голубев М.Н., Ганин А.Н., Шмаглит JI.A. Алгоритм распознавания пола на основе адаптивных признаков и метода опорных векторов // X всероссийская научно-техническая конференция «Нейрокомпьютеры и их применение», Москва, 2012. С. 33.

82. Ганин А.Н., Шмаглит Л.А., Храбров Д.Е., Манов H.A. Программно-аппаратный комплекс для детектирования, слежения и тендерной классификации объектов по изображению лиц // Тр. LXVII науч. сессии, посвященной Дню Радио. Москва, 2012. С.163-166.

83. Хрящев В.В., Ганин А.Н., Манов H.A., Матвеев Д.В. Система анализа аудитории на основе алгоритмов детектирования, слежения и тендерной

классификации // Тр. II всероссийской научной конференции молодых ученых с международным участием. Рыбинск, 2012. Т.2. С. 136-142.

84. Никитин А.Е., Ганин А.Н., Хрящев В.В. Выделение людей на изображениях на основе алгоритма Adaboost // Тез. докл. IX всерос. науч. конф. «Нейрокомпьютеры и их применение». Москва, 2011. С. 33.

85. Матвеев Д.В., Аминова Е.А., Ганин А.Н. Алгоритм отслеживания движения точечных объектов // Докл. 13-й междунар. конф. «Цифровая обработка сигналов и ее применение» (DSPA-2011), Москва, 2011. Т.1. С. 275-277.

86. Гущина О.Н., Соловьев Е.В., Ганин А.Н. Удаление артефактов блочности из сжатых изображений с использованием адаптивного дискретного косинусного преобразования // Докл. 13-й междунар. конф. «Цифровая обработка сигналов и ее применение» (DSPA-2011), Москва, 2011. Т.2. С. 119-122.

87. Ганин А.Н., Вдовченко П.В., Матвеев Д.В. Разработка и анализ алгоритмов тендерной классификации по изображениям лиц // Матер, междунар. науч.-практ. конф. "Молодежь и наука: модернизация и инновационное развитие страны". Пенза, 2011 г., Ч. 1, С. 221-223.

88. Ганин А.Н., Тихонова Т.С., Шмаглит JI.A. Распознавание пола людей по изображению лица // Материалы IX Всероссийской науч.-техн. конф. «Динамика нелинейных дискретных электротехнических и электронных систем» (ДНДС-2011), Чебоксары, 2011. С. 57-58.

89. Khryashchev V., Ganin A., Golubev M., Shmaglit L. Audience analysis system on the basis of face detection, tracking and classification techniques // Proc. International MultiConference of Engineers and Computer Scientists 2013. Hong Kong, 2013. V. 1. P. 446-450.

90. Ганин A.H., Хрящев B.B., Шемяков A.M., Шмаглит JI.A. Тендерная и возрастная классификация по видеоданным // Докл. 15-й междунар.

конф. «Цифровая обработка сигналов и ее применение» (DSPA-2013), Москва, 2013. Т. 2. С. 292-294.

91. Ганин А.Н., Кисельникова O.A., Матвеев Д.В., Носков A.A. Применение метода цифровых гистограмм для детектирования повторного появления объекта на видеоданных // Докл. 15-й междунар. конф. «Цифровая обработка сигналов и ее применение» (DSPA-2013), Москва, 2013. Т. 2. С. 292-294.

92. Аминова Е.А., Ганин А.Н., Голубев М.Н., Хрящев B.B. Recognition.Lab -научно-исследовательская среда для детектирования и распознавания лиц на цифровых изображениях с целью анализа возраста и пола личности // Свидетельство о государственной регистрации программы для ЭВМ №2011612318 от 30 мая 2011.

93. Голубев М.Н. Разработка и анализ алгоритмов детектирования и классификации объектов на основе методов машинного обучения // Диссертация на соискание ученой степени кандидата технических наук, Ярославль, 2012.

94. Ко, Т. A Survey on behavior analysis in video surveillance for homeland security application // 37th IEEE Applied Imagery Pattern Recognition Workshop, AIPR. P. 1-8, 2008.

95. Лукьяница A.A., Шишкин А.Г. Цифровая обработка видеоизображений // М.: «Ай-Эс-Эс Пресс», 2009. 518 с.

96. Конушин A.C. Слежение за точечными особенностями сцены // Компьютерная графика и мультимедиа. Выпуск №1(5). 2003.

97. Дворкович В.П., Дворкович A.B. Цифровые видеоинформационные системы (теория и практика) // Техносфера, 2012. 1008 с.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.