Методы и алгоритмы анализа статических и динамических зрительных сцен на основе сверточных нейронных сетей тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Гаранин Олег Игоревич
- Специальность ВАК РФ05.13.01
- Количество страниц 149
Оглавление диссертации кандидат наук Гаранин Олег Игоревич
ВВЕДЕНИЕ
1 ИССЛЕДОВАНИЕ МЕТОДОВ АНАЛИЗА СТАТИЧЕСКИХ И ДИНАМИЧЕСКИХ ЗРИТЕЛЬНЫХ СЦЕН
1.1 Методы анализа статических зрительных сцен
1.1.1 Методы выделения объектов статических зрительных сцен
1.1.2 Методы распознавания объектов статических зрительных сцен
1.1.3 Методы детектирования объектов статических зрительных сцен
1.2 Методы анализа динамических зрительных сцен
1.2.1 Классификация моделей сопровождения множества объектов по признакам
1.2.2 Классификация моделей сопровождения множества объектов по компонентам метода сопровождения
1.3 Исследование искусственных нейронных сетей для анализа статических и динамических зрительных сцен
1.4 Анализ существующих способов выделения рецептивного поля СНС
1.5 Постановка задачи исследования
1.6 Выводы по главе
2 РАЗРАБОТКА МЕТОДОВ АНАЛИЗА СТАТИЧЕСКИХ И ДИНАМИЧЕСКИХ ЗРИТЕЛЬНЫХ СЦЕН НА ОСНОВЕ СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ
2.1 Разработка сверточной нейронной сети для анализа статических и динамических зрительных сцен
2.1.1 Структура и описание СНС для анализа статических и динамических зрительных сцен
2.1.2 Модель визуального представления объекта и способ выделения «глубоких признаков» его детекции
2.2 Метод анализа статических зрительных сцен
2.2.1 Постановка задачи
2.2.2 Описание метода
2.2.3 Обучение многомасштабной модели детектирования визуальных объектов
2.2.4 Способ выделения эмпирического рецептивного поля слоя сверточной нейронной сети
2.2.5 Способ вычисления размеров «якорных» прямоугольников для многомасштабной модели детектирования визуальных объектов
2.3 Метод анализа динамических зрительных сцен
2.3.1 Постановка задачи
2.3.2 Описание метода
2.3.3 Модель движения объекта
2.3.4 Способ восстановления пропусков объектов детектором
2.3.5 Способ фильтрации детекций объектов
2.4 Выводы по главе
3 РАЗРАБОТКА АЛГОРИТМОВ И ПРОГРАММНЫХ СРЕДСТВ ДЛЯ
РЕАЛИЗАЦИИ МЕТОДОВ АНАЛИЗА СТАТИЧЕСКИХ И
ДИНАМИЧЕСКИХ ЗРИТЕЛЬНЫХ СЦЕН НА ОСНОВЕ СВЕРТОЧНЫХ
НЕЙРОННЫХ СЕТЕЙ
3.1 Алгоритмы для реализации методов анализа статических и динамических зрительных сцен на основе СНС
3.1.1 Алгоритм вычисления размеров «якорных» прямоугольников для многомасштабной модели детектирования визуальных объектов
3.1.2 Алгоритм выделения эмпирического рецептивного поля для каждого слоя СНС
3.1.3 Алгоритм анализа динамической зрительной сцены
3.2 Разработка библиотеки программных функций, реализующих методы анализа статических и динамических зрительных сцен
3.2.1 Структура программных средств, реализующих методы анализа статических и динамических зрительных сцен
3.2.2 Библиотека программных функций, реализующих настройку СНС для анализа статических и динамических зрительных сцен
3.2.3 Библиотека программных функций, реализующих анализ статических
и динамических зрительных сцен с помощью обученной СНС
3.3 Работа со СНС с использованием библиотеки Caffe
3.3.1 Описание возможностей и принципов работы Caffe
3.3.2 Описание структуры слоя ROI-Pooling с использованием Caffe
3.4 Выводы по главе
4 ОЦЕНКА ТОЧНОСТИ И ОПЕРАТИВНОСТИ АНАЛИЗА
СТАТИЧЕСКИХ И ДИНАМИЧЕСКИХ ЗРИТЕЛЬНЫХ СЦЕН С
ИСПОЛЬЗОВАНИЕМ ПРЕДЛАГАЕМЫХ МЕТОДОВ И АЛГОРИТМОВ
НА ОСНОВЕ СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ
4.1 Методика оценки точности анализа статических зрительных сцен
4.2 Методика оценки точности анализа динамических зрительных сцен
4.3 Оценка оперативности и точности анализа статических зрительных
сцен с использованием предлагаемого метода
4.3.1 Оценка оперативности выделения эмпирического рецептивного
поля слоя СНС
4.3.2 Оценка точности анализа статических зрительных сцен
4.4 Оценка точности анализа динамических зрительных сцен с использованием предлагаемого метода
4.4.1 Оценка целесообразности применения разработанной модели визуального представления объекта для поиска одинаковых объектов на соседних кадрах
4.4.2 Оценка точности анализа динамических зрительных сцен с использованием разработанной модели движения СНС
4.4.3 Оценка точности анализа динамических зрительных сцен с использованием разработанного способа восстановления пропусков объектов детектором
4.4.4 Оценка точности анализа динамических зрительных сцен с использованием разработанного способа фильтрации детекций объектов
4.4.5 Оценка точности детектирования при анализе динамических зрительных сцен
4.4.6 Сравнительная оценка точности анализа динамических зрительных сцен
4.5 Оценка оперативности выполнения разработанных алгоритмов с использованием различных аппаратных средств
4.6 Применение разработанных методов для решения практической задачи
4.6.1 Постановка задачи
4.6.2 Решение задачи детектирования и сопровождения силуэтов людей
4.7 Выводы по главе
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
Приложение А
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Исследование и разработка методов и алгоритмов повышения быстродействия обработки больших объемов видеоданных, полученных с БПЛА2024 год, кандидат наук Хейн Хтет Зо
Разработка алгоритмов анализа аудитории для систем прикладного телевидения2016 год, кандидат наук Матвеев Дмитрий Вячеславович
Алгоритмы нейросетевого детектирования и распознавания символов на сложном фоне2016 год, кандидат наук Друки Алексей Алексеевич
Генеративные и дискриминантные вероятностные методы обучения визуальным понятиям2016 год, кандидат наук Филатов, Владислав Игоревич
Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации2016 год, кандидат наук Хуршудов Артем Александрович
Введение диссертации (часть автореферата) на тему «Методы и алгоритмы анализа статических и динамических зрительных сцен на основе сверточных нейронных сетей»
ВВЕДЕНИЕ
В ряде активно развивающихся предметных областей обеспечения безопасности, навигации роботов, автономного управления транспортными средствами и других востребованным является решение задач анализа статических и динамических зрительных сцен. Данные задачи характеризуются следующими особенностями:
• необходимость выделения, распознавания и сопровождения объектов как в статике, так и в динамике;
• обработка последовательности кадров с достаточно высокой точностью в режиме реального времени;
• зависимость точности сопровождения объектов в динамике от точности выделения и распознавания объектов в статике;
• наличие как статических, так и движущихся камер с различной скоростью движения;
• наличие сцен с различным освещением и размером объектов;
• возникновение перекрытий одних объектов другими во время сопровождения этих объектов в динамике.
Исследования в этой области основываются на работах таких зарубежных и отечественных исследователях как Y. LeCun, G. Hinton, P. Viola, M. Jones, A. Krizhevsky, N. Dalal, W. Triggs, J. Sanchez, F. Perronnin, R. Girshick, W. Liu, L. Leal-Taixe, A. Milan, W. Luo, J. Xing, J. Redmon, S. Divvala, A. Farhadi, K. Simonyan, A. Zisserman, M. D. Zeiler, R. Fergus, Э.Д. Аведьян, В.Н. Вапник, А.И. Галушкин, Д.А. Поспелов, А.Я. Червоненкис и др.
Для решения задач выделения объектов на статических зрительных сценах может быть применен подход на основе «скользящего окна» совместно с шаблонами [32], дескрипторами локальных особенностей, такими как HOG, LBP, SIFT, SURF [25, 28, 38, 73], цветовыми признаками [94], методами контурного анализа [21]. Основными недостатками таких методов, является необ-
ходимость перебора достаточно большого количества областей, требуемых для выделения объектов, а также специфичность признаков для «скользящего окна».
Другая группа методов основана на сегментировании изображений [40, 51, 97]. Такие методы являются эвристически необучаемыми методами и не зависят от специфики решаемой задачи, кроме того, они требуют значительных вычислений и даже с использованием современных вычислительных средств не позволяют реализовать режим реального времени.
Методы генерации гипотез о местоположении объектов на изображении, основанные на нейросетевом подходе [41, 87], позволяют устранить указанные недостатки.
Для решения задач распознавания объектов на статических зрительных сценах наиболее часто используются методы, основанные на применении математической статистики [22, 90] и машинного обучения [7, 76]. Среди методов машинного обучения достаточно хорошо себя зарекомендовали искусственные нейронные сети [55, 68], в том числе, сверточные нейронные сети [63, 68, 86]. Такие нейронные сети характеризуются значительным увеличением точности распознавания по сравнению с классическими методами. Так, например, как показано в [63], впервые применение «глубоких» сверточных нейронных сетей (СНС) позволило уменьшить среднюю ошибку распознавания примерно в полтора раза по сравнению с одним из лучших методов, решающим задачу классификации изображений с использованием векторов Фишера и SIFT, предложенной в [86].
Для решения задач детектирования объектов на статических зрительных сценах целесообразным является совместное использование методов для выделения и распознавания объектов. Однако для уменьшения вычислительной сложности эффективнее использовать методы, решающие обе эти задачи одновременно. Такие методы (например, Faster R-CNN [80]) являются достаточно точными, но, как правило, не позволяют детектировать объекты на зрительных сценах в режиме реального времени. Другие методы (например, YOLO [78]) работают в режиме реального времени, но не обеспечивают требуемую точ-
ность. Еще одна группа методов (например, SSD [70]) обеспечивает компромисс между точностью и скоростью выделения и распознавания объектов.
Для решения задач детектирования объектов и объединения их в треки на динамических зрительных сценах требуется сначала детектировать объекты, затем выделить признаки отдельно для каждого объекта [84, 99], затем, на основе полученных признаков назначить найденные детекции объектов на треки, с использованием методов сопровождения объектов. Под детекцией объекта на изображении понимается область изображения, на которой объект выделен с помощью обрамляющего прямоугольника.
Признаки объектов могут быть выделены с использованием отдельной СНС [30, 56, 84], однако, такой подход требует значительных вычислительных ресурсов.
Анализ методов сопровождения объектов показал, что существуют достаточно точные методы сопровождения объектов, например, [61, 65], но они не позволяют выполнять обработку в режиме реального времени, поскольку решают задачу глобальной оптимизации и требуют наличия сразу всей последовательности кадров. Другие же методы, выполняют обработку в режиме реального времени, но не являются достаточно точными, например, [30].
Для исследования методов анализа динамических зрительных сцен с применением существующих баз для тестирования предлагается [66] работать с большим числом ложных детекций объектов и разрабатывать алгоритмы, позволяющие выделять данные из шума. Однако при использовании СНС зачастую приходится иметь дело не с большим количеством ложных детекций объектов, а с их пропусками.
Исследование существующих методов выделения, распознавания и сопровождения объектов на статических и динамических зрительных сценах выявили следующие основные ограничения:
• отсутствуют методы сопровождения и детектирования объектов, позволяющие выполнить детектирование и выделение «глубоких» признаков объектов за один проход СНС;
• отсутствуют алгоритмы, позволяющие сопровождать объекты в условиях неопределенности их детектирования;
• отсутствуют алгоритмы, позволяющие выполнять подстройку метода в зависимости от условий детектирования: неопределенности или зашумленности данных.
Таким образом, разработка методов анализа статических и динамических зрительных сцен на основе сверточных нейронных сетей, позволяющих устранить указанные ограничения, является актуальной задачей.
Цель работы заключается в разработке новых методов на основе сверточ-ных нейронных сетей для повышения точности и оперативности анализа статических и динамических зрительных сцен в условиях неопределенности их детектирования.
Для этого необходимо решить следующие задачи:
• разработать новый тип СНС, позволяющий выполнить детектирование и выделение «глубоких» признаков объектов на статических и динамических зрительных сценах за один проход СНС;
• разработать метод анализа статических зрительных сцен на основе предлагаемого типа СНС;
• разработать метод анализа динамических зрительных сцен на основе предлагаемого типа СНС;
• разработать алгоритмы и программные средства, реализующие предлагаемые методы анализа статических и динамических зрительных сцен на основе СНС;
• выполнить оценку точности и оперативности анализа статических и динамических зрительных сцен на основе предлагаемых методов и алгоритмов и сопоставление с результатами известных высокоточных и производительных методов.
Соответствие паспорту специальности. Диссертационная работа соответствует пункту 4 «Разработка методов и алгоритмов решения задач системного анализа, оптимизации, управления, принятия решений и обработки инфор-
мации» и пункту 5 «Разработка специального математического и алгоритмического обеспечения систем анализа, оптимизации, управления, принятия решений и обработки информации» паспорта специальности 05.13.01 - «Системный анализ, управление и обработка информации».
В ходе работы над диссертацией использованы следующие методы исследований: теории распознавания образов, теории искусственных нейронных сетей, теории графов, математического моделирования, объектно-ориентированного проектирования и программирования.
Достоверность научных положений подтверждена соответствием теоретических положений и результатов экспериментов на основе компьютерного моделирования и положительными итогами практического применения разработанных методов и программных средств, апробацией основных результатов диссертации на конференциях. Детальным изучением российских и зарубежных публикаций по тематике работы и сопоставлением собственных результатов с известными в литературе.
Научная новизна работы заключается в следующем.
1. Разработан новый тип сверточной нейронной сети, позволяющий выполнять анализ статических и динамических зрительных сцен за один проход СНС.
2. Предложен и обоснован метод анализа статических зрительных сцен, позволяющий достичь более высокой точности и оперативности детектирования объектов за счет выделения «глубоких» признаков их детекций.
3. Разработан метод анализа динамических зрительных сцен, обеспечивающий более высокую точность построения треков, обработку и анализ данных в режиме реального времени как в условиях неопределенности, так и при зашумленности данных детектирования.
Практическую значимость работы составляют следующие результаты.
1. Разработаны методики и рекомендации по оценке точности и оперативности анализа статических и динамических зрительных сцен с использованием предложенных методов и алгоритмов.
2. Созданы программные средства, реализующие предложенные методы и алгоритмы анализа статических и динамических зрительных сцен, оформленные в виде библиотеки программных функций.
3. Разработанные алгоритмы и программные средства внедрены и используются в ООО «Конструкторское бюро Спецаппаратуры Лагрон плюс» для анализа состояния комплексов специального назначения в условиях динамического изменения внешних воздействий, а также в ООО «Радиоинж» в составе системы, выполняющей охранные функции.
Реализация результатов работы. По результатам работы созданы программные средства «Графический редактор макромодели транспортной сети с возможностью нахождения максимального потока» (Свидетельство о государственной регистрации программы для ЭВМ № 2014660475 от 08.10.2014) и «Программа для анализа динамических зрительных сцен в режиме реального времени» (Свидетельство о государственной регистрации программы для ЭВМ № 2018126210 от 24.05.2018).
Результаты работы внедрены в ООО «Конструкторское бюро Спецаппаратуры Лагрон Плюс» и ООО «Радиоинж», а также используются в учебном процессе филиала ФГБОУ ВО НИУ «МЭИ» в г. Смоленске, что подтверждено актами о внедрении.
Теоретические и практические результаты диссертационной работы использованы в ходе выполнения: гранта РФФИ №18-07-00928_а «Методы и технологии интеллектуальной поддержки исследований сложных гидромеханических процессов в условиях неопределенности на основе сверточных нейро-нечетких сетей»; НИР «Исследование и разработка методов, моделей и технологий интеллектуального анализа данных и поддержки принятия решений в топливно-энергетическом комплексе», базовая часть Государственного задания Минобрнауки России № 2014/123, проект № 2493, 2014-2016 г.г.
Апробация работы. Основные результаты работы докладывались и обсуждались на следующих конференциях и конкурсах: XVII Международная научно-техническая конференция студентов и аспирантов «Радиоэлектроника,
электротехника и энергетика» (Москва, 2011); X-XII Международные научно-технические конференции студентов и аспирантов «Информационные технологии, энергетика и экономика» (Смоленск, 2013-2015); Смоленский областной конкурс студенческих научных работ (Смоленск, 2014); V Международная научно-практическая конференция «Информатика, математическое моделирование, экономика» (Смоленск, 2015), XVI Всероссийская научная конференция «Нейрокомпьютеры и их применение» (Москва, 2018), XVI Национальная конференция по искусственному интеллекту (Москва, 2018).
Публикации. По материалам исследований опубликовано 13 работ общим объемом 6,4 п.л., в том числе 3 статьи в изданиях из перечня ВАК, 1 статья в издании, индексируемом в базе данных Scopus. Авторский вклад - 4,3 п.л. Результаты отражены в 2 отчетах о НИР.
Структура и объем работы. Работа состоит из введения, четырех глав, заключения, списка литературы, включающего 108 наименований. Диссертация содержит 149 страниц машинописного текста, 46 рисунков, 32 таблицы, 1 приложение.
В первой главе проведено исследование методов анализа статических и динамических зрительных сцен, выделены их достоинства и недостатки и выявлено, что на сегодняшний день наиболее перспективными являются методы, построенные на основе СНС.
Во второй главе разработаны методы анализа статических и динамических зрительных сцен на основе сверточных нейронных сетей. Для реализации данных методов созданы: структура сверточной нейронной сети и алгоритм ее обучения для анализа статических и динамических зрительных сцен, способ выделения эмпирического рецептивного поля слоя СНС; способ вычисления размеров «якорных» прямоугольников многомасштабной модели детектирования визуальных объектов; модель движения объекта; способ восстановления пропусков объектов детектором; способ фильтрации детекций объектов.
В третьей главе разработаны алгоритмы, реализующие методы анализа статических и динамических зрительных сцен: алгоритм вычисления размеров
«якорных» прямоугольников многомасштабной модели детектирования визуальных объектов, алгоритм выделения эмпирического рецептивного поля для каждого слоя СНС, алгоритм восстановления пропусков объектов детектором, алгоритм фильтрации детекций объектов, алгоритм выделения «глубоких» признаков детекции объекта. Выполнена программная реализация разработанных алгоритмов в виде библиотеки программных функций.
В четвертой главе проведена оценка точности и оперативности анализа статических и динамических зрительных сцен с использованием предлагаемых методов. Выполнено сравнение разработанных методов с существующими с использованием популярных обучающих и тестовых баз изображений.
1 ИССЛЕДОВАНИЕ МЕТОДОВ АНАЛИЗА СТАТИЧЕСКИХ И ДИНАМИЧЕСКИХ ЗРИТЕЛЬНЫХ СЦЕН
1.1 Методы анализа статических зрительных сцен
1.1.1 Методы выделения объектов статических зрительных сцен
Под задачей выделения объектов на статической зрительной сцене, на которой присутствует множество объектов O = {om}, m = 1,...,M понимается выделение подмножества O с O, каждый элемент которого o'm, где m' = 1,...,M'-индекс объекта из множества O', выделен на соответствующей зрительной сцене обрамляющим прямоугольником (bounding box), покрывающим данный объект целиком или частично. В данном пункте под изображением будем понимать изображение статической зрительной сцены.
В настоящее время наиболее популярным методом выделения объектов на изображении является подход, основанный на идеи «скользящего окна». Двоичный классификатор последовательно анализирует небольшие области изображения (называемых окнами), как показано на рисунке 1.1, присваивая им метки «объект» и «не объект». Для выделения объектов разного масштаба поиск производится с помощью построения изображений разного масштаба.
Рисунок 1.1 - Схема работы методов на основе скользящего окна
Одна из групп методов с использованием «скользящего окна» основана на выделении объектов с использованием шаблонов [32]. Шаблон последовательно накладывается на разные части изображения и вычисляется корреляция между исходной областью изображения и шаблоном. Те участки изображения, на которых различие между двумя областями минимальны, помечаются как искомые. Такие методы не позволяют с уверенностью сказать, был ли найден искомый объект или нет, поскольку результат работы метода в значительной мере зависит от масштаба, угла обзора, поворота изображения. Кроме того, возможны ложные срабатывания, когда исходного объекта на изображении нет, но имеются какие-то общие черты.
«Скользящее окно» может быть использовано совместно с методами описания признаков объекта [25, 38, 73, 93], что показано в работах [38, 95]. Например, в качестве таких признаков могут выступать дескрипторы локальных особенностей такие как: Histogram of Oriented Gradients (HOG), Scale-Invariant Feature Transform (SIFT), (Speeded Up Robust Features) (SURF).
В таких дескрипторах признаки строятся на основе информации об интенсивности, цвете и текстуре особой точки. Кроме того, особые точки могут представляться углами, ребрами или даже контуром объекта, поэтому, вычисления этих признаков выполняются для некоторой окрестности. Дескриптор представляет собой композицию отдельных областей изображения (блоков), где для каждого такого блока рассчитываются параметры локальных особенностей.
Достоинства таких признаков заключаются в том, что они позволяют справиться с проблемой окклюзий за счет своей локальности. Кроме того, признаки инварианты к изменению масштаба и ориентации. Недостатки данных методов - они не способны производить локализацию объекта на изображении. Кроме того, методы работают только с определенным типом локальных особенностей. Например, SURF не работает с объектами простой формы и без выраженных границ, а SIFT чувствителен к изменению освещенности.
В качестве признаков описания объекта также могут использоваться, количественные характеристики цвета в одном из цветовых пространств (RGB,
HSV, LAB). Например, такой подход может быть использован для детектирования кожи человека, как описано в [94] или для детектирования дорожных знаков [83]. Недостатком данных методов является значительное влияние условий освещенности. Кроме того, описание объекта только по цвету является недостаточным, поэтому чаще всего необходимо использовать дополнительные признаки.
Другая группа методов - методы контурного анализа [21]. Данные методы основаны на поиске таких точек изображения, в которых яркость резко изменяется. Найденные точки обычно объединяются и образуют сглаженные линии, называемые границами. Достоинства таких методов заключается в том, что они инварианты относительно вращения, масштабирования и смещения контура на изображении. Основные недостатки - одинаковая яркость объекта и фона или перекрытия с другими объектами приводят к тому, что контуры выделяются неправильно.
Основными недостатками группы методов, основанных на использовании «скользящего окна» является перебор достаточно большого количества областей, требуемых для выделения объектов, а также специфичность признаков, с которыми «скользящее окно» чаще всего применяется. Данные признаки могут использоваться только для выделения определенной группы объектов (лица людей, машины, дорожные знаки). Комбинирование различных признаков позволяет применить «скользящее окно» для поиска объектов различных групп, но вместе с тем еще больше увеличивает вычислительную сложность алгоритма и не всегда позволяет выполнять обработку в режиме реального времени.
Другая группа методов основана на применении сегментирования изображения вместо «скользящего окна», что позволяет генерировать гипотезы или объекты-кандидаты «объект», «не объект». Общее количество таких гипотез обычно не превышает нескольких тысяч вне зависимости от размера изображения, что уменьшает вычислительную сложность по сравнению со «скользящим окном».
В качестве таких методов используются: метод селективного поиска (Segmentation as Selective Search) [51], региональные признаки для детектирования объектов (Regionlets for Object Detection) [97], независимые от категорий гипотезы объектов (Category Independent Object Proposals) [40].
Наиболее распространенным методом является селективный поиск (selective search) [51], результат работы которого показан на рисунке 1.2. В основе данного метода лежит подход на основе сегментации изображений на графах [44], общая идея которого заключается в следующем: каждый пиксель изображения представляется вершиной в графе. А вес (длина) ребра, соединяющего соседние вершины, выражается формулой:
w(vt, vj) = I(pt) -1(pj) , где I(pj)- интенсивность (яркость) пикселя pj.
Рисунок 1.2 - Исходное изображение (слева) и изображение, полученное в результате применения к нему селективного поиска (справа)
В ходе выполнения сегментации каждый пиксель (вершина в графе) объединяется с соседними пикселями (вершинами), ребра которых имеют наименьшую длину. В результате такого объединения будем иметь несколько разрозненных сегментов (подмножеств пикселей) с минимальным суммарным весом внутри. Сегменты объединяются между собой, если разность интенсивно-стей на их границе меньше максимальной разности внутри каждого из объеди-
няемых сегментов. В конечном итоге изображение будет поделено на блоки, соответствующие отдельным объектам.
Помимо сегментации на графах метод селективного поиска учитывает различные масштабы изображений, группирует отдельные части изображений не только по яркости, но и по другим признакам. Кроме того, метод селективного поиска использует несколько цветовых пространств.
Классические методы выделения гипотез являются эвристически необу-чаемыми методами и не зависят от решаемой задачи, кроме того, требуют значительных вычислений и даже на современных компьютерах не позволяют решать задачи в режиме реального времени. Поэтому расширением данных методов явилась группа методов, которые используют специально обученную нейронную сеть для генерации гипотез о местоположении объектов на изображении [41, 87].
Такими методами являются:
1. МиШЬох - на вход данной сети подается исходное изображение, а на выходе - гипотеза, а также значение «уверенности», что в этом окне действительно содержится объект.
2. OverFeat - на вход данной сети подается исходное изображение, а на выходе получается карта энергий, показывающая в каких местах изображения наиболее вероятно нахождение объекта.
Данные методы позволяют решать задачу выделения в режиме реального времени и на сегодняшний день являются наиболее перспективными. В случае если требуется также распознавание объекта, то необходимо использовать другую нейронную сеть, на вход которой будет поступать гипотеза от первой сети. Такая комбинация нейронных сетей увеличит количество вычислений и в некоторых случаях требование обработки в реальном времени не будет выполнено. Поэтому достаточно перспективными являются методы, которые позволяют выполнять выделение и распознавание объектов с использованием одной нейронной сети и желательно за один прямой проход для всех гипотез сразу. Такие методы будут рассмотрены далее.
1.1.2 Методы распознавания объектов статических зрительных сцен
Под задачей распознавания (классификации) объектов на статической зрительной сцене понимается сопоставление между выделенным объектом и одной из меток заранее заданных классов. Предполагаем, что объект уже выделен обрамляющим прямоугольником (bounding box), который покрывает данный объект целиком или частично, а также в случае, если в данном пункте не описано, каким образом выделяются признаки объекта, то объект уже описан с помощью некоторого набора признаков, представленных дескрипторами. Методы такого описания были рассмотрены ранее.
В качестве методов распознавания объектов чаще всего используются методы, основанные на применении математической статистики и машинного обучения, которые и будут рассмотрены.
Одним из методов, основанным на применении математической статистики является метод главных компонент (Principal Component Analysis, PCA) [90]. Хотя метод чаще всего применяется для уменьшения размерности данных, он может быть использован, например, для распознавания лиц [5]. Идея метода заключается в линейном ортогональном преобразовании входного вектора (в качестве такого вектора может быть использовано изображение объекта) P размерности N в выходной вектор Q (проекция входного вектора) размерности M, M<N. Для применения данного метода как классификатора вычисляются расстояние от тестового вектора до его проекции и расстояние от этой проекции до усредненного вектора тренировочного набора, что позволяет отнести объект к одному из классов. Основные недостатки метода: метод не использует информацию о принадлежности признака к определенному классу, а также достаточно чувствителен к условию съемки объектов и освещению.
Другая группа методов, позволяющая частично устранить недостатки метода главных компонент, основана на линейном дискриминантном анализе [22]. Общая идея методов заключается в том, что они выбирают проекцию пространства изображений на пространство признаков таким образом, чтобы минимизировать внутриклассовое и максимизировать межклассовое расстояние в про-
странстве признаков. В этих методах предполагается, что классы линейно разделимы. Основной недостаток заключается в том, что такие методы требуют нахождения обратных ковариационных матриц классов, что невозможно, в случае, когда матрицы являются вырожденными.
Еще одна группа методов основана на алгоритмах машинного обучения. Одним из широко используемых методов классификации является машина опорных векторов (SVM) [7], которая довольно часто применяется для классификации признаков изображения объекта, построенных на основе гистограммы ориентированных градиентов (HOG).
Задача распознавания по методу опорных векторов заключается в нахождении такой гиперплоскости в w-мерном пространстве (n - размерность вектора признаков, с использованием которого описываются объекты изображения, а каждое изображение - точка в n-мерном пространстве), которая отделяет все точки соответствующие изображениям данного класса, от остальных не принадлежащих ему. Поскольку таких гиперплоскостей может быть достаточно много, метод ставит целью отыскание так называемой оптимальной гиперплоскости, расстояние до которой от ближайшей точки для каждого из классов максимально.
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Метод нейросетевого детектирования лиц в видеопотоке сверхвысокого разрешения2016 год, кандидат наук Калиновский, Илья Андреевич
Разработка системы распознавания визуальных образов в потоке данных2016 год, кандидат наук Хуршудов Артем Александрович
Математическое моделирование и исследование алгоритмов обучения и выбора гиперпараметров искусственных нейронных сетей для классификации объектов на цифровых изображениях2023 год, кандидат наук Толстых Андрей Андреевич
Методы восстановления параметров сцены для решения проблемы реалистичной визуализации в системах смешанной реальности2021 год, кандидат наук Сорокин Максим Игоревич
Разработка алгоритмов распознавания объектов воздушной съемки на основе свёрточных нейронных сетей c иерархическим классификатором2022 год, кандидат наук Нгуен Ван Чонг
Список литературы диссертационного исследования кандидат наук Гаранин Олег Игоревич, 2019 год
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1. Аведьян Э.Д., Галушкин А.И., Селиванов С.А. Сравнительный анализ структур полносвязных и сверточных нейронных сетей и их алгоритмов обучения // Информатизация и связь. - 2017. - № 1.
2. Антощук С.Г. Отслеживание объектов интереса при построении автоматизированных систем видеонаблюдения за людьми // Электротехнические и компьютерные системы. - 2012. - №8(84). - С. 151-156.
3. Программа для анализа динамических зрительных сцен в режиме реального времени / В.В. Борисов, О.И. Гаранин // Свидетельство о государственной регистрации программы для ЭВМ № 2018126210 от 24.05.2018.
4. Борисов В.В., Синявский Ю.В., Гаранин О.И., Коршунова К.П. Сверточ-ная нейро-нечеткая сеть для исследования гидромеханических процессов в условиях неопределенности // Сборник тезисов докладов XVI Всероссийской научной конференции «Нейрокомпьютеры и их применение» 13 марта 2018 года. Москва. - С. 140-141.
5. Буй Тхи Тху Чанг, Фан Нгок Хоанг, Спицын В.Г. Распознавание лиц на основе применения метода Виолы-Джонса, вейвлет-преобразования и метода главных компонент // Известия Томского политехнического университета. - 2012. - № 5. - С.54-59.
6. Беляев Е.А., Тюрликов А.М. Алгоритмы оценки движения в задачах сжатия на низких битовых скоростях // Компьютерная оптика. - 2008. - №4.
7. Вапник В.Н. Восстановление зависимостей по эмпирических данным. -М.: Наука, 1979.
8. Графический редактор макромодели транспортной сети с возможностью нахождения максимального потока/ О.И. Гаранин // Свидетельство о государственной регистрации программы для ЭВМ № 2014660475 от 08.10.2014.
9. Гаранин О.И. Модель регулятора транспортных потоков // Сборник трудов 10-ой международной научно-технической конференции студентов и
аспирантов «Информационные технологии, энергетика и экономика» 1718 апреля 2013 года. Филиал МЭИ в г. Смоленске. Смоленск. - 2013.
10. Гаранин О.И. Классификация моделей транспортных средств // Сборник трудов 11-ой международной научно-технической конференции студентов и аспирантов «Информационные технологии, энергетика и экономика» 17-18 апреля 2014 года. Филиал МЭИ в г. Смоленске. Смоленск. 2014. - С. 223-226.
11. Гаранин О.И. Способ моделирования транспортной сети на основе многомодельного подхода // Сборник трудов 11-ой международной научно-технической конференции студентов и аспирантов «Информационные технологии, энергетика и экономика» 17-18 апреля 2014 года. Филиал МЭИ в г. Смоленске. Смоленск. 2014. С. 227-229.
12. Гаранин О.И. Способ моделирования транспортных сетей с использованием многомодельного подхода // Сборник материалов областного конкурса студенческих научных работ 2014 г. Смоленск, 2014.
13. Гаранин О.И., Зернов М.И. Анализ алгоритмов выделения и идентификации лиц на изображениях // Сборник трудов 12-ой международной научно-технической конференции студентов и аспирантов «Информационные технологии, энергетика и экономика» 16-17 апреля 2015 года. Филиал МЭИ в г. Смоленске. - 2015. - С. 195-198.
14. Гаранин О.И., Зернов М.И. Исследование возможностей алгоритмов распознавания лиц для решения задачи классификации на изображениях // Сборник трудов пятой международной научно-практической конференции «Информатика, математическое моделирование, экономика». Смоленский филиал Российского университета кооперации. -2015. - С. 44-48.
15. Гаранин О.И. Применение алгоритмов распознавания лиц и логики пространства для распознавания зрительной сцены. // Естественные и технические науки. - 2016. - №9(99). - С. 105-108.
16. Гаранин О.И. Способ выделения эмпирического рецептивного поля свер-точной нейронной сети // Нейрокомпьютеры разработка и применение. -2017. - № 3. С. 63-69.
17. Гаранин О.И. Способ настройки многомасштабной модели детектирования визуальных объектов в сверточной нейронной сети // Нейрокомпьютеры разработка и применение. - 2018. - № 2. С. 50-56.
18. Золотых Н.Ю., Кустикова В.Д., Мееров И.Б. Обзор методов поиска и сопровождения транспортных средств на потоке видеоданных // Вестник Нижегородского университета им. Н.И. Лобачевского. - 2012. - № 5. -С. 348-358.
19. Поспелов Д.А. Ситуационное управление: теория и практика - М.: Наука - Физ. мат. лит. - 1986.
20. Тассов К.Л., Бекасов Д.Е. Обработка перекрытий в задачах отслеживания объектов в видеопотоке // Инженерный журнал: наука и инновации. -2013. - № 6.
21. Сакович И.О., Белов Ю.С. Обзор основных методов контурного анализа для выделения контуров движущихся объектов // Инженерный журнал: наука и инновации. - 2014. - № 12.
22. Тимошенко Д.М. Методы автоматической идентификации личности по изображениям лиц, полученным в неконтролируемых условиях: Диссертация на соискание ученой степени кандидата технических наук. - Санкт-Петербург, 2014. - 140 с.
23. Филатов И.Ю. Алгоритмы совместной обработки информации от бортовых источников летательного аппарата на основе логики взаимного расположения объектов: Автореферат диссертации на соискание ученой степени кандидата технических наук // РГРТУ. Рязань. - 2006. - 22 с.
24. Ющенко А.С. Методы нечеткой логики в управлении мобильными мани-пуляционными роботами // Вестник МГТУ им. Н.Э.Баумана. Приборостроение. - 2012. - № 7. - С. 29-43.
25. Ahonen T., Hadid A., Pietikainen M. Face Recognition with Local Binary Patterns // Proc. 8th European Conference on Computer Vision (ECCV). - 2004. P. 469-481.
26. Babenko A., Lempitsky V. Additive Quantization for Extreme Vector Compression // Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. - 2014. P. 931-938.
27. Babenko A., Lempitsky V. Aggregating Deep Convolutional Features for Image Retrieval // Proceedings of the IEEE International Conference on Computer Vision. - 2015. P. 1269-1277.
28. Bay H., Tuytelaars T., Gool L.V. SURF: Speeded Up Robust Features // Proc. 10th European Conference on Computer Vision (ECCV). - 2006. P. 404-417.
29. Berclaz J., Fleuret F., Fua P. Robust people tracking with global trajectory Computer Vision and Pattern Recognition. - 2006. - P. 744-750.
30. Bewley A., Ge Z. Simple online and realtime tracking // arXiv.org [Электронный ресурс]. 2016. - URL: https://arxiv.org/abs/1602.00763 (дата обращения: 14.03.2018).
31. Borisov V.V., Garanin O.I. A Method of Dynamic Visual Scene Analysis Based on Convolutional Neural Network // In Proc. of 16th Russian Conference on Artificial Intelligence, RCAI-2018, Moscow, Russia, in September 24-27, 2018. - Springer: Communications in Computer and Information Science. Vol. 934. - PP. 60-69. https://doi.org/10.1007/978-3-030-00617-4.
32. Brunelli, R. Template Matching Techniques in Computer Vision: Theory and Practice // Wiley. - 2009.
33. Cai B., Xu X. BIT: Biologically Inspired Tracker // IEEE Transactions on Image Processing. - 2016. - 25(3). - P. 1327-1339.
34. Chi Z., Li H., Dual Deep Network for Visual Tracking // arXiv.org[Электронный ресурс]. 2016. - URL: https://arxiv.org/abs/1612.06053 (дата обращения: 14.03.2018).
35. Chigorin A., Krivovyaz G., Velizhev A., Konushin A. A method for traffic sign detection in an image with learning from synthetic data // 14th International Conference Digital Signal Processing and its Applications. - 2012. P. 316-319.
36. Chu Q., Ouyang W. Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention Mechanism // arXiv.org[Электронный ресурс]. 2017. - URL: https://arxiv.org/abs/1708.02843 (дата обращения: 14.03.2018).
37. Dan S., Baojun Zh., Linbo T. A Tracking Algorithm Based on SIFT and Kal-man Filter // Proceedings The 2nd International Conference on Computer Application and System Modeling. - 2012. P. 1563-1566.
38. Dalal N., Triggs W. Histogram of oriented gradients for human detection // Proc. IEEE Conf. Computer Vision and Pattern Recognition. - 2005. P. 886-893.
39. Drayer B., Brox T. Object Detection, Tracking, and Motion Segmentation for Object-level Video Segmentation // arXiv.org [Электронный ресурс]. 2016. -URL: https://arxiv.org/abs/1608.03066 (дата обращения: 14.03.2018).
40. Endres I., Hoiem D. Category Independent Object Proposals // Proc. 11th European Conference on Computer Vision (ECCV). - 2010. P. 575-588.
41. Erhan D. Scalable Object Detection using Deep Neural Networks // Computer Vision and Pattern Recognition. - 2014. P. 2155-2162.
42. Everingham M., Van Gool L., Williams C. K., Winn J., Zisserman A.. The pascal visual object classes (voc) challenge // International journal of computer vision. - 2010. - 88(2). - P. 303-338.
43. Everingham M., Eslami S. M. A., Van Gool L., Williams C., Winn J., Zisser-man A. The Pascal visual object classes challenge: A retrospective // IJCV. -2015. - P. 98-136.
44. Felzenszwalb F. Efficient Graph-Based Image Segmentation // International Journal of Computer Vision. - 2004. - V. 59. - P. 145-157.
45. Forrest N. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size // arXiv.org [Электронный ресурс]. 2016. - URL: https://arxiv.org/abs/1602.07360 (дата обращения: 13.03.2018).
46. Gustafsson F., Gunnarsson F., Bergman N. Particle Filters for Positioning, Navigation and Tracking // IEEE Transactions on Signal Processing. - 2002. P. 425-437.
47. Girshick R. Rich feature hierarchies for accurate object detection and semantic segmentation // arXiv.org [Электронный ресурс]. 2013. - URL: https://arxiv.org/abs/1311.2524 (дата обращения: 12.03.2018).
48. Girshick R. Fast R-CNN // arXiv.org [Электронный ресурс]. 2015. - URL: https://arxiv.org/abs/1504.08083 (дата обращения: 13.03.2018).
49. Gordon D., Farhadi A. Re3: Real-Time Recurrent Regression Networks for Object Tracking // arXiv.org [Электронный ресурс]. 2017. - URL: https://arxiv.org/abs/1705.06368 (дата обращения: 14.03.2018).
50. Hong S., You T. Online Tracking by Learning Discriminative Saliency Map with Convolutional Neural Network // Proceedings of the 32-nd International Conference on Machine Learning. - 2015.
51. Jasper, R. R. Segmentation As Selective Search for Object Recognition // International Conference on Computer Vision. - 2011. P. 1879-1886.
52. Jia Y., Shelhamer E., Donahue J., Karayev S., Long J., Girshick R., Guadarrama S., Darrell T. Caffe: Convolutional architecture for fast feature embedding // MM. - 2014.
53. He K., Zhang X. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition // arXiv.org[Электронный ресурс]. 2014. - URL: https://arxiv.org/abs/1406.4729(дата обращения: 13.03.2018).
54. He K., Znang X. Deep Residual Learning for Image Recognition // Computer Vision and Pattern Recognition, CVPR. - 2015. - P. 770-778.
55. Hinton G. A practical guide to training restricted Boltzmann machines // Momentum. - 2010. - № 9(1).
56. Held D., Thrun S., Savarese S. Learning to Track at 100 FPS with Deep Regression Networks // arXiv.org[Электронный ресурс]. 2016. - URL: https://arxiv.org/abs/1604.01802 (дата обращения: 24.02.2018).
57. Hochreiter S., Urgen Schmidhuber J. Long Short-Term Memory // Neural Computation. - 1997. - 9(8). P. 1735-1780.
58. Honglak L. Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations // In Proceedings of the 26th Annual International Conference on Machine Learning. - 2009. P. 609-616.
59. Huang C., Wu B., Nevatia R. Robust object tracking by hierarchical association of detection responses // Proc. European Conference on Computer Vision (ECCV). - 2008. P. 788-801.
60. Jiang H., Fels S., Little J. J. A linear programming approach for multiple object tracking // Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. - 2007. P. 1-8.
61. Kim C., Li F. Multiple Hypothesis Tracking Revisited // Proceedings of the IEEE International Conference on Computer Vision. - 2015.
62. Konev A., Chigorin A., Krivovyaz G., Velizhev A., Konushin A. Traffic signs recognition on images with training on synthetic data // Technical vision in computer systems. - 2012. P. 65-66.
63. Krizhevsky A., Sutskever I., Hinton G. Imagenet classification with deep convolutional neural networks // Proceedings of the Neural Information Processing Systems conference, NIPS. - 2012. - P. 1-9.
64. Leal-Taixe L., Pons-Moll G., Rosenhahn B. Branch-and-price global optimization for multi-view multi-target tracking // Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. - 2012. P. 1987-1994.
65. Leal-Taixe L., Ferrer C., Schindler K. Learning by tracking: Siamese CNN for robust target association // arXiv.org [Электронный ресурс]. 2016. - URL: https://arxiv.org/abs/1604.07866 (дата обращения: 14.03.2018).
66. Leal-Taixe L., Milan A. MOTChallenge 2015: Towards a Benchmark for Multi-Target Tracking // arXiv.org [Электронный ресурс]. 2015. - URL: https://arxiv.org/abs/1504.01942 (дата обращения: 14.03.2018).
67. Leal-Taixe L., Milan A., Tracking the Trackers: An Analysis of the State of the Art in Multiple Object Tracking// arXiv.org [Электронный ресурс]. 2017. -URL: https://arxiv.org/abs/1704.02781 (дата обращения: 14.03.2018).
68. LeCun Y., Boser B., Denker J.S. Handwritten Digit Recognition with a Back-Propagation Network // Proceedings of the Neural Information Processing Systems conference, NIPS. - 1989. P. 396-404.
69. Lee J., Ide S. Globally Optimal Object Tracking with Fully Convolutional Networks // arXiv.org [Электронный ресурс]. 2016. - URL: https://arxiv.org/abs/1612.08274 (дата обращения: 14.03.2018).
70. Liu W., Anguelov D., Erhan D., Szegedy C., Reed S. E. SSD: single shot mul-tibox detector // CoRR. - 2015.
71. Long J., Zhang N., Darrell T. Do Convnets Learn Correspondence // NIPS. - 2014.
72. Long J., Shelhamer E., Darrell T. Fully convolutional networks for semantic segmentation // CVPR. - 2015. - P. 3431-3440.
73. Lowe D. Object Recognition from local scale-invariant features // International Conference on Computer Vision. - 1999.
74. Luo W., Xing J. Multiple Object Tracking: A Literature Review // arXiv.org [Электронный ресурс]. 2017. - URL: https://arxiv.org/abs/1409.7618 (дата обращения: 14.03.2018).
75. Madrigal F. Evaluation of Multiple Motion Models for Multiple Pedestrian Visual Tracking // 10th IEEE International Conference on Advanced Video and Signal Based Surveillance. - 2013. P. 31-36.
76. McCann S., Lowe D.G. Local naive bayes nearest neighbor for image classification // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). - 2012. - P.3650-3656.
77. McLaughlin N., Martinez Del Rincon J., Miller P. Enhancing Linear Programming with Motion Modeling for Multi-target Tracking // IEEE Winter Conference on Applications of Computer Vision. - 2015. P. 71-77.
78. Redmon, J., Divvala, S., Girshick, R., Farhadi, A. You only look once: Unified, real-time object detection //Computer Vision and Pattern Recognition, CVPR, - 2016.
79. Redmond J., Farhadi A. YOLO9000: Better, Faster, Stronger // arXiv.org [Электронный ресурс]. 2016. - URL: https://arxiv.org/abs/1612.08242 (дата обращения: 24.02.2018).
80. Ren S., He K., Girshick R., Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks //Proceedings of the Neural Information Processing Systems conference, NIPS. - 2015.
81. Ribeiro D., Mateus A. A Real-Time Pedestrian Detector using Deep Learning for Human-Aware Navigation // arXiv.org [Электронный ресурс]. 2016. -URL: https://arxiv.org/abs/1607.04441 (дата обращения: 14.03.2018).
82. Russakovsky O., Deng J., Su H., Krause J., Satheesh S., Ma S., Huang Z., Kar-pathy A., Khosla A., Bernstein M., Berg A.C., Fei-Fei L. Imagenet large scale visual recognition challenge // IJCV. - 2015.
83. Ruta A. A New Approach for In-Vehicle Camera Traffic Sign Detection and Recognition // IAPR Conference on Machine vision Applications (MVA). -2009. - P. 509-513.
84. Sadeghian A., Alahi A., Savarese S. Tracking The Untrackable: Learning To Track Multiple Cues with Long-Term Dependencies // arXiv.org [Электронный ресурс]. 2017. - URL: https://arxiv.org/abs/1701.01909 (дата обращения: 24.02.2018).
85. Salarpour A., Salarpour A., Fathi M. Vehicle tracking using Kalman filter and features // Signal & Image Processing: An International Journal (SIPIJ). -2011. - №2.
86. Sánchez J., Perronnin F. High-dimensional signature compression for large-scale image classification // Computer Vision and Pattern Recognition, CVPR. - 2011. - P. 1665-1672.
87. Sermanet P. OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks // Computer Vision and Pattern Recognition. -2013. - P. 1082-1090.
88. Sermanet M., Kavukcuoglu K. Pedestrian Detection with Unsupervised MultiStage Feature Learning // Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. - 2013.
89. Sonka M., Hlavac V., Boyle R. Image Processing, Analysis and Machine Vision // Thomson. - 2008.
90. Shlens J. A tutorial on Principal Components Analysis // arXiv.org [Электронный ресурс]. 2014. - URL: https://arxiv.org/abs/1404.1100 (дата обращения: 12.03.2018).
91. Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition // Proceedings of the Neural Information Processing Systems conference, NIPS. - 2015.
92. Szegedy C., Liu W., Jia Y. Going deeper with convolutions // CVPR. - 2015.
93. Talukder K.H., Harada K. Haar Wavelet Based Approach for Image Compression and Quality Assessment of Compressed Image // IAENG International Journal of Applied Mathematics. - 2007. - 36(1).
94. Vezhnevets V., Sazonov V., Andreeva A. A Survey on Pixel-Based Skin Color Detection Techniques // Graphicon 2003 proceedings. - 2003.
95. Viola P., Jones M. Robust Real-Time Face Detection // International Journal of Computer Vision. - 2004. - V. 57. - №2. - P. 137-154.
96. Wang L., Ouyang W. Visual Tracking with Fully Convolutional Networks // Proceedings of the IEEE International Conference on Computer Vision. - 2015.
97. Wang, M. Y. Regionlets for generic object detection // International Conference on Computer Vision. - 2013. - P. 17-24.
98. Wenjie L., Yujia L., Urtasun R., Zemel R. Understanding the Effective Receptive Field in Deep Convolutional Neural Networks // Proceedings of the Neural Information Processing Systems conference, NIPS. - 2016.
99. Wojke N., Bewley A., Paulus D. Simple online and realtime tracking with a deep association metric // arXiv.org[Электронный ресурс]. 2017. - URL: https://arxiv.org/abs/1703.07402 (дата обращения: 24.02.2018).
100. Xiang Y., Alahi A. Learning to Track: Online Multi-Object Tracking by Decision Making // Proceedings of the IEEE International Conference on Computer Vision. - 2015.
101. Yang M., Wu Y. A Hybrid Data Association Framework for Robust Online Multi-Object Tracking // arXiv.org [Электронный ресурс]. 2017. - URL: https://arxiv.org/abs/1703.10764 (дата обращения: 24.02.2018).
102. Yang M., Yunde J. Temporal Dynamic Appearance Modeling for Online Multi-Person Tracking // arXiv.org [Электронный ресурс]. 2015. - URL: https://arxiv.org/abs/1510.02906 (дата обращения: 14.03.2018).
103. Zeiler M.D., Fergus R. Visualizing and Understanding Convolutional Networks // Proc. European Conference on Computer Vision (ECCV). - 2014. P. 818-833.
104. Zhai M., Roshtkhari M., Mori G. Deep Learning of Appearance Models for Online Object Tracking // arXiv.org [Электронный ресурс]. 2016. - URL: https://arxiv.org/abs/1607.02568 (дата обращения: 24.02.2018).
105. Zhang K., Liu Q. Robust Visual Tracking via Convolutional Networks // arXiv.org [Электронный ресурс]. 2015. - URL: https://arxiv.org/abs/1501.04505 (дата обращения: 14.03.2018).
106. Zheng L., Bie Z. MARS: A Video Benchmark for Large-Scale Person Reidentification // Proc. European Conference on Computer Vision (ECCV). - 2016.
107. Zhu G., Porikli F. Robust Visual Tracking with Deep Convolutional Neural Network based Object Proposals on PETS // Computer Vision and Pattern Recognition. - 2016. - P. 26-33.
108. Zhou B., Khosla A., Lapedriza A., Oliva A., Torralba A. Object detectors emerge in deep scene cnns // ICLR. - 2015.
145
Приложение А
«УТВЕРЖДАЮ* Г«(фхп1.ный директор ООО «Конструкторское бюро Сгк'Цйппррлтдщ Лафон плюс»
li mihi
í2019 H
AKT
и внедрении p&r.vbtttíunoQ 0и{1<.срп!сщи0нной работы Гаранина Олега И^кпича, aunómúwfi на СоиСканщ? уч\. ttoü степени кандидата технических наук
Ко Si Hit и я в составе:
преоси»íí«iL иг те ерзл ¡.ноги днреIrrdipa Аля имова Д. Л :
'.i't'.Mííj; шыш^'мп: невольника отдела прогриммкык разработок Смоляком i
СВ.;
начальника отдела щьнсгрулройання радиоэлектронной аппаратуры Копыла О, Fi.
wet ¡шила кютошкП aKt о том, что результаты диссерт л иконной pliúütu Га рунный OIS, внедрены » OOU «Конструкторское бюро Снеиаппарапры ЛаЕрон плюо>, а именно алгоритм филыг^иши данных детектора и ¿игориты жх&тй* наследия пропусков использованы при лроекi пропанни it pa ipaüo r*tr автоматизированной ей»темы контроля (ACIC) для анализа состояния комгтексод&Пвцн-олыюго ми'!начоц!1я р условиях днйамичйского изменения внешних воздействий. Внедрение предложенных алгоритмов в АС К цодолцло повысить качество анализа состояний этих комплексов за счот ум l-h млении количества ошибок itx доекции в среднем im 1
[ 0>ЕДСЕДАТЕЛЬ КОМИССИИ
генеральный Директор
ЧЛЕНЫ КОМИССИИ
начальник отдела профаммыых разработок
начальник отдела конструирован^! радиоэлектронной аппаратуры
Д.Д. Адхимон
С В С мол я ков
O.Ii. Кииыл
«УТВЕРЖДАЮ»
^ЩуЙШэальный директор
_ IU, 11, ( 'амойленкм
_20] 9 г.
>юинж»
A К Т
о wtetfpejtua рЕзуА&тнЩав диссхршацгюнмои работы 1 аранина Олега Игоревича, выполненной на соискание фт.ной стине/ш
квндид&тка техни<1&к№с наук
Комиссия и ¿оставь:
предсефтеяя - гедарадьэого директора Самойлепко Ю.Н.: членов комиссии:
начальника сектора разработки цифровых устройств Миронова ПЛО.; ведущего инженера-программиста Леоиетзйрва Д. А. сострила настоящий акт о там, что результаты диссертационной работу Гаранина О.И. внедренЩ в ООО «Рад и они ж». zl именно преддоженэдае методы и алгоритмы анализа $тати||скИх и динамически* зрительный; сцен на основе сьер-ТОЧНЫХ нейронных сстей з:р и меняются и состав^ вдпарвд -но-про грим много компаса детектирования и сопровождения движущимся объект и для выполнения охррвных функШщ
Разработанные алгоритмы позволяю г выполнять задачи детектированнд и ^одровощекия движущихся объектов (силртои людей) с точностью ¡к; ниже 85% а режиме реального Времени со скоростью не ниже 2-! кадра а сек.
ПРЕДСЕДА ГЕЛЬ КОМИССИИ
ЧЛЕНЫ КОМИССИИ
tfiду щий ш (же)¡if р - про грам\п ¡ct
hii'hi. i ы-jhm сектфа разработки цифровых устройств
Пн(0- Миронов
Д.А. Леойонкои
УТВЕРЖДАЮ
Директор филиала ФГБОУ |Ь^:НИУ «МЭИ» оленье
д. 1-и... профессор
____ А.С. Федулов
201 й г.
у*
АКТ
ой и&пальзоО&тш результатом Опссер/па ционнрй работы 1'артшиа Олега Игоревича. представленной на соискание леченой степени кандшкнна технических н&ук в учебном процессе яуза
Настоящим актом подтверждается использование результатов диссертационной работа О. И. Гаранина при проведении лекций, н ракш чески к занятий и лаборатс^ных работ л о дисциплине «Интеллектуал ыше системы» а рамках магистерской программы «Информационное Fг про! раммиое обеспечение автоматизированных систем» по направлению 09.04,01 - «Информатика и вычислительная техникой
Заместитель заведующего кафедрой вычисли гельной ^никн к.т.]!., дррент
Лектор дисциплины
«Ин геллектуальные системы^
К,]\Н,Г ДОцСНТ
М.М. Чернов
__: _^ _ _201И г.
/
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.