Методы и алгоритмы детектирования объектов на основе нейронной сети с полносвязным ядром свертки тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Алексеев Алексей Алексеевич

  • Алексеев Алексей Алексеевич
  • кандидат науккандидат наук
  • 2019, ФГАОУ ВО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики»
  • Специальность ВАК РФ05.13.17
  • Количество страниц 239
Алексеев Алексей Алексеевич. Методы и алгоритмы детектирования объектов на основе нейронной сети с полносвязным ядром свертки: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГАОУ ВО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики». 2019. 239 с.

Оглавление диссертации кандидат наук Алексеев Алексей Алексеевич

Реферат

Synopsis

Введение

Глава 1. Обзор методов и алгоритмов детектирования объектов на

основе нейронных сетей

1.1 Задача детектирования объектов

1.1.1 Постановка задачи

1.1.2 Эволюция методов детектирования объектов

1.1.3 Детектирование малых, близкорасположенных и разноразмерных объектов

1.2 Глубокие нейронные сети

1.2.1 Сверточные нейронные сети

1.2.2 Параметры и свойства нейронной сети

1.2.3 Наборы линейных фильтров и нелинейные ядра

1.2.4 Создание глубоких нейронных сетей за счет применения единичных передаточных функций

1.2.5 Подготовка и дополнение данных

1.2.6 Метод обеспечения инвариантности к пространственной ориентации объекта

1.2.7 Методы обучения при использовании объектов только заданного класса

1.3 Особенности применения глубоких нейронных сетей для детектирования объектов

1.3.1 Используемые метрики оценки качества детектирования объектов

1.3.2 Обзор современных нейросетевых архитектур детектирования объектов на изображениях

Стр.

1.3.3 Дополнение классических архитектур детектирования

сегментацией экземпляров

1.4 Выводы по главе

Глава 2. Разработка методов и алгоритмов детектирования объектов

2.1 Подготовка данных для обучения

2.1.1 Метод подготовки обучающих данных на изображениях произвольного размера

2.1.2 Метод дополнения на изображениях сопоставимых с размерами объектов

2.2 Разработка нейронной сети на основе нелинейного ядра свертки

для детектирования объектов

2.2.1 Свойства и расчет параметров нейронной сети

2.2.2 Прямая и транспонированная свертки

2.2.3 Алгоритм обратного распространения ошибки

2.2.4 Метод фокусировки нейронной сети или выбор ее приемлемого размера

2.3 Метод детектирования малоразмерных и близкорасположенных объектов

2.3.1 Двухкаскадная схема детектирования объектов

2.3.2 Упрощенный метод формирования центров объектов и их ограничивающих областей

2.3.3 Метод построения плотных масок

2.3.4 Метод итеративного обновления выходных параметров

2.3.5 Классификатор локализованных объектов

2.3.6 Динамически вычисляемая функция потерь

2.4 Алгоритмы инициализации и обучения глубоких нейронных сетей

2.4.1 Архитектура остаточной нейронной сети и ее представление ансамблем простых нейронных сетей

2.4.2 Метод эффективной единичной передаточной функции

2.4.3 Метод устранения эффекта взрывного градиента

2.4.4 Анализ характеристик сети, инициализированной единичной передаточной функцией

2.5 Метод детектирования разноразмерных объектов

Стр.

2.6 Выводы по главе

Глава 3. Комплекс программных средств глубокого машинного

обучения для решения задачи детектирования объектов и результаты экспериментальных исследований

3.1 Состав комплекса программных средств

3.2 Планирование эксперимента

3.3 Реализация разработанных методов и алгоритмов и оценка их эффективности

3.3.1 Детектирование малых и близкорасположенных объектов

3.3.2 Детектирование разноразмерных объектов

3.3.3 Классификация объектов

3.3.4 Сегментация экземпляров статических и движущихся объектов

3.4 Выводы по главе

Заключение

Список сокращений и условных обозначений

Словарь терминов

Список рисунков

Список таблиц

Список литературы

Публикации автора по теме диссертации

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы и алгоритмы детектирования объектов на основе нейронной сети с полносвязным ядром свертки»

Реферат Общая характеристика работы

Актуальность темы. Детектирование объектов на изображениях со сложным фоном является одной из важнейших задач обработки визуальной информации. Детектирование относится к области компьютерного зрения и включает в себя множественную локализацию объектов и их последующую классификацию. Потребность в подобных алгоритмах и решениях, основанных на них, очень высока в таких отраслях как робототехника, искусственный интеллект, мониторинг и анализ визуальных данных. Если говорить более конкретно, то системы детектирования находят широкое применение в системах управления автоматизированными беспилотными средствами, системах ассистирования и привлечения внимания, системах безопасности и управления доступом, информационно-поисковых системах, системах наблюдения, трекинговых системах, системах учета количества объектов, системах детектирования аномалий, системах автоматизированного детектирования на производстве, конвейерных линиях, в сельском хозяйстве. Разработкой и активным внедрением систем детектирования занимаются такие крупные компании как Microsoft, Google, Facebook, Amazon, Сбербанк и другие. Предоставляемые в открытый доступ полученные ими результаты, а также доступность открытых средств разработки, привлекает и обеспечивает значительный интерес со стороны многих других специалистов к использованию современных достижений области. Это позволяет быстро перестроиться к решению задач, которые ранее решались на основе классических методов. Данные системы также находят себе военное применение. Так, например, в 2016 году в США стартовал проект Управления перспективных исследовательских проектов Министерства обороны (DARPA) по созданию опытного образца комплекса борьбы с малыми БПЛА (Беспилотный Летательный Аппарат) - MFP (Mobile Force Protection), одной из ключевых задач которого станет детектирование малых и близкорасположенных объектов. Цель к 2020 году - создание финального прототипа. В России также ведутся разработки по данной тематике. Определенная новизна задач, заключающаяся в сравнительно недавнем, начиная с 2012 года, сразу после получения значительного прогресса

по классификации изображений на основе глубоких нейронных сетей на соревновании Large Scale Visual Recognition Challenge 2012 (ILSVRC2012), активном и успешном развитии области, сохраняющейся недостаточной проработанности задач, связанных с детектированием, например, малых, близкорасположенных и разноразмерных объектов, а также высокой потребности по созданию подобного рода систем, характеризуют актуальность работы.

В последние годы задачи детектирования и классификации объектов на изображениях все чаще решаются нейросетевыми методами, среди которых следует выделить методы глубокого обучения и построенные на их основе сверточные нейронные сети. Последние доказали свое превосходство по ряду критериев над классическими методами, такими, например, как точность детектирования и сложность разработки архитектур или алгоритмов.

С учетом сказанного, применение современных методов машинного зрения и глубокого обучения является основой для разработки алгоритмов детектирования малых, близкорасположенных и разноразмерных объектов на изображениях произвольного размера.

Несмотря на то, что нейросетевые методы и алгоритмы получили очередной импульс развития буквально несколько лет тому назад, сами исследования в области детектирования визуальных объектов на базе нейронных сетей имеют многолетнюю историю и связаны с работами российских ученых: Тимофеева А. В., Дорогова А. Ю., Потапова А.С., Калиновского И.А. и других, а также с работами зарубежных ученых: Ф. Розенблатта, Д. Хьюбела, Т. Визела, Д. Цибенко, Т. Кохонена, М. Турка, А. Петланда, Я. Лекуна, Д. Хинтона, и других. В последние годы стоит также отметить работы таких специалистов как И. Гудфелоу, Р. Салатхутдинова, И. Бенджио, П. Аббеля, А. Карпатского, Д. Сонга и других, внесших значительный теоретический и практический вклад в дальнейшее развитие области.

Целью данной работы является повышение точности детектирования малых, близкорасположенных и разноразмерных объектов на изображениях произвольного размера.

Для достижения поставленной цели были поставлены и решены следующие задачи:

1. Исследование методов и алгоритмов детектирования малоразмерных, близкорасположенных и разноразмерных объектов на изображениях произвольного размера.

2. Разработка базовой архитектуры глубокой нейронной сети на основе глубокой нейронной сети с полносвязным (нелинейным) ядром свертки для повышения точности детектирования малоразмерных и близкорасположенных объектов.

3. Разработка алгоритмов обучения базовой архитектуры глубокой нейронной сети.

4. Разработка на основе базовой, архитектуры глубокой нейронной сети для детектирования разноразмерных объектов.

5. Разработка программных средств для реализации предложенных алгоритмов обучения глубокой нейронной сети и детектирования объектов.

6. Проведение экспериментальных исследований с использованием разработанных программных средств для подтверждения полученных теоретических результатов.

Объект исследования. Малые, близкорасположенные и разноразмерные объекты, методы и алгоритмы их детектирования.

Предмет исследования. Методы и алгоритмы детектирования малых, близкорасположенных и разноразмерных объектов на изображениях произвольного размера на основе глубоких нейронных сетей.

Методология и методы исследования. Используется широко распространенная в прикладных научных исследованиях методология: постановка целей и задач, анализ соответствующей литературы и текущих результатов работ, разработка методов и алгоритмов, экспериментальная оценка их эффективности. Экспериментальные исследования выполнялись по общепринятым на международных конкурсах методикам проведения эксперимента и метрикам оценки результатов, а также на общедоступных базах данных изображений с использованием стандартного их деления на обучающую, тестовую и валидационную выборки. При решении задач диссертационного исследования использовались методы машинного обучения, классификации образов, линейной алгебры, цифровой обработки изображений и современные методы разработки программного обеспечения.

Научная новизна: Разработанные в диссертации оригинальные нейросете-вые методы и алгоритмы позволяют решать задачи детектирования объектов на изображениях, включающих объекты разного количества, типа, размера и степени близости расположения друг к другу, на основе предложенной базовой архитектуры нейронной сети.

Для этого были разработаны:

1. Метод детектирования малоразмерных и близко расположенных объектов на основе использования предложенной базовой архитектуры глубокой нейронной сети с полносвязным (нелинейным) ядром свертки. Данная архитектура решает ряд проблем сверточных сетей, таких, например, как сохранность информации о пространственном расположении объектов путем отказа от пулинга, и, как следствие, повышает точность локализации объектов, эквивариантность к частям целого объекта, а также устранение алиазинговых артефактов при использовании большого шага операции свертки, что в свою очередь важно для ограничения глубины сетей и повышения быстродействия систем детектирования.

2. Алгоритмы инициализации и обучения базовой архитектуры. Алгоритм инициализации позволяет строить очень глубокие нейронные сети за счет снижения влияния эффекта исчезающего градиента при обучении и обеспечивать постепенный переход от эквивалентного ансамбля параллельно соединенных простых сетей к единой сети. Это позволяет снижать избыточность нейронной сети и, следовательно, ее вычислительную сложность, а также использовать более длинные пути прохождения информации. Последнее важно для построения более сложных решающих функций. Алгоритм обучения, включающий адаптивную настройку порога, позволяет бороться с эффектом взрывного градиента.

3. Метод детектирования разноразмерных объектов путем построения ней-росетевой архитектуры, состоящей из пирамиды базовых архитектур с разделяемыми весовыми коэффициентами. Это позволяет использовать одну и ту же базовую архитектуру для детектирования разноразмерных объектов, а также потенциально, в определенных пределах и при определенных условиях обучения, обеспечить инвариантность к размерам объектов.

Теоретическая и практическая значимость. Теоретическая значимость работы заключается в совершенствовании существующих и разработке новых нейросетевых методов и алгоритмов обучения и классификации для задач детектирования объектов на изображениях, в том числе малых, близкорасположенных и разноразмерных объектов. Практическая значимость заключается в использовании разработанных программных решений при создании и обучении системы детектирования, которая на основе общепринятых оценок качества ра-

боты показала соответствие современным требованиям, в том числе, высокую вычислительную эффективность алгоритмов.

Основные положения, выносимые на защиту:

1. Метод детектирования малоразмерных и близко расположенных объектов, отличающийся использованием глубокой нейронной сети с нелинейным ядром свертки, позволяющей более точно определять местоположение объектов, и решением проблемы эквивариантности, присущей сверточным нейросетям, за счет отказа от пулинга и применения нелинейного ядра свертки.

2. Алгоритмы инициализации и обучения глубокой нейронной сети с нелинейным ядром свертки, позволяющие строить более глубокие нейронные сети за счет существенного снижения их избыточности путем использования более длинных путей передачи информации между уровнями, при этом алгоритм инициализации позволяет бороться с эффектом исчезающего градиента, а алгоритм обучения, основанный на урезании градиента путем адаптивной настройки порога, позволяет бороться с эффектом взрывного градиента.

3. Метод детектирования разноразмерных объектов, отличающийся объединением с разделяемыми весовыми коэффициентами глубоких нейронных сетей с нелинейным ядром свертки, что позволяет согласовывать размеры объектов с размером нейронной сети в процессе обучения и использования.

4. Комплекс программных средств глубокого машинного обучения для решения задач классификации и детектирования визуальных объектов, включающий процедуры работы с глубокими нейронными сетями с нелинейным ядром свертки и реализующий предлагаемые методы детектирования.

Достоверность научных положений и выводов, полученных в данной диссертационной работе, обеспечивается результатами экспериментальных исследований, успешным представлением основных положений в докладах на ведущих международных конференциях, согласованностью результатов диссертационной работы с результатами других авторов и успешным внедрением полученных практических результатов.

Внедрение результатов работы. Результаты диссертационной работы внедрены в учебный процесс по магистерской образовательной программе

"Речевые информационные системы" в дисциплине «Многомодальные биометрические системы». Кроме того, полученные результаты использовались

1. При выполнении прикладных научных исследований по НИР №718574 (проект 5-100) «Методы, модели и технологии искусственного интеллекта в биоинформатике, социальных медиа, киберфизических, биометрических и речевых системах», Университет ИТМО.

2. В составе программно-аппаратного комплекса детектирования летательных объектов Акционерного Общества «Ульяновский механический завод», являющегося дочерним обществом АО «Концерн ВКО «Алмаз -Антей».

Апробация работы. Основные результаты работы докладывались на следующих научно-методических конференциях: «XLV научная и учебно-методическая конференция Университета ИТМО» (Санкт-Петербург, Россия, 2016), «XLVI научная и учебно-методическая конференция Университета ИТ-МО» (Санкт-Петербург, Россия, 2017), «10-я Всероссийская мультиконференция по проблемам управления (МКПУ-2017)» (Геленджик, Россия, 2017) «XXIV Международная научно-техническая конференция Радиолокация, навигация, связь» (Воронеж, Россия, 2018) «XV Всероссийская межвузовская конференция молодых ученых» (Санкт-Петербург, Россия, 2018), «VIII Всероссийский конгресс молодых ученых» (Санкт-Петербург, Россия, 2019), The «1t International Workshop on Deep and Transfer Learning» (Валенсия, Испания, 2018), The «23rd Iberoamerican Congress on Pattern Recognition» (Мадрид, Испания, 2018), The «15th International Work-Conference on Artificial Neural Networks» (Гран-Канария, Испания, 2019), The «28th International Conference on Artificial Neural Networks» (Мюнхен, Германия, 2019).

Личный вклад. Автор принимал активное участие в исследовании и анализе существующих методов к решению задачи детектирования объектов на изображениях. На основе проведенного анализа автором разработаны методы и алгоритмы детектирования объектов на изображениях, а также алгоритм инициализации и обучения нейронной сети с нелинейным ядром свертки на основе которой выполнены задачи детектирования. Экспериментальная часть реализована посредством использования разработанного в процессе работы над диссертацией программного обеспечения. Автором лично решены задачи диссертации. Подготовка основных публикаций проводилась с соавторами, при этом вклад автора был основным.

Публикации. Основные результаты по теме диссертации изложены в 12 печатных изданиях, 3 из которых опубликованы в журналах, рекомендованных ВАК, 4 — в периодических научных изданиях, индексируемых Scopus, 5 — в тезисах докладов всероссийских и международных конференций.

Объем и структура работы. Диссертация состоит из введения, трёх глав и заключения.

Содержание работы

Во введении приводится краткий обзор результатов исследований по изучаемому вопросу, выявляется проблема, обосновывается актуальность темы диссертационного исследования, формулируется цель, ставятся задачи, излагается научная новизна и практическая значимость представляемой работы.

Первая глава посвящена обзору и исследованию современных нейросе-тевых методов и алгоритмов детектирования объектов на изображениях. Дано общепринятое определение современным глубоким нейронным сетям, описаны алгоритмы работы с ними, а также сопутствующие им параметры. Описаны существующие типы операций сверток, их отличия и особенности каждой из них. Приведены преимущества замены набора линейных фильтров стандартной сверточной сети на нелинейные ядра полносвязной сети. Описаны известные и наиболее популярные структуры нейросетевых систем детектирования объектов на изображениях и применяемые к ним оценочные метрики. Выявлены слабые стороны существующих нейросетевых подходов к решению задачи определения пространственных координат объектов, в частности малых, близкорасположенных и разноразмерных объектов. Уделено внимание вопросу создания архитектур глубоких нейронных сетей за счет применения единичных передаточных функций. Также рассмотрены некоторые методы подготовки и дополнения обучающих данных.

На основе проведеного анализа выявлены недостатки современных нейро-сетевых систем детектирования и их ограничения. В первую очередь это связано с недостатками архитектуры CNN (convolutional neural network). Среди них подверженность состязательным атакам (adversarial attacks), инвариантность, а не эквивариантность к расположению отдельных частей целого объекта, сложность

учета масштаба и пространственной ориентации объектов, сложность обучения глубоких сетей из-за исчезающего градиента (vanishing gradient) и попадания в седловые точки и локальные минимумы, сложность обучения глубоких сетей из-за взрывного градиента (exploding gradient), недообучение и переобучение. Из-за пулинга (pooling) частично теряется информация о пространственном расположении, с чем связана проблема детектирования малых и близкорасположенных объектов.

Все перечисленное определило цель и направление работ, связанных с разработкой улучшенной системы детектирования объектов на изображениях.

Вторая глава посвящена рассмотрению всех основных этапов решения задачи детектирования объектов, включая выделение области объекта путем использования так называемого и ставшего популярным метода сегментации экземпляров (instant segmentation).

На основе проведенного анализа в диссертационой работе предложены методы и алгоритмы детектирования объектов, включающие множественную локализацию и распознавание. Для этого разрабатывались и исследовались различные архитектуры нейронных сетей, предлагались решения для улучшения характеристик их работы, разрабатывались процедуры подготовки данных для обучения и собственно процедуры обучения.

В исследовании в разделе 2.1 рассматриваются некоторые методы подготовки и дополнения обучающих данных. В разделе 2.2 вводится нейронная сеть с нелинейным ядром свертки, которая рассматривается применительно к задачам детектирования и сегментации экземпляров (instance segmentation). Экспериментально показано, что разработанная нейронная сеть лучше сохраняет пространственную информацию, что очень важно при работе с малыми объектами, поскольку ошибка, как правило, не зависит от размеров объектов и, следовательно, имеет тем более сильное влияние, чем меньше объект. Сохранение пространственной информации также важно и для обеспечения лучшей разрешающей способности нейронной сети, необходимой при различении близкорасположенных объектов. Данное свойство сохранения пространственной информации легло в основу разработанного метода детектирования малоразмерных и близкорасположенных объектов, описанного в разделе 2.3. Именно данная нейронная сеть с нелинейным ядром свертки, позволила создавать очень глубокие архитектуры, за счет применимого к ней метода формирования единичной передаточной функции, разработанного в настоящем исследовании и

описанного в разделе 2.4. И именно глубокие архитектуры, построенные на нелинейных ядрах свертки и обладающие более сложными решающими функциями, способствовали разработке метода детектирования разноразмерных объектов, описанного в разделе 2.5.

Последовательность этапов разработки детектора показана на блок-схеме рис. 1.

# ) Конец

Рисунок 1 — Последовательность этапов разработки детектора

В разделе 2.1 описаны два метода подготовки обучающих данных на базе уже имеющихся проекций объектов, использование которых может обеспечить лучшие свойства нейронной сети при ее работе после обучения. Совместное использование данных методов дополнения не встречается в литературе, но может использоваться в случаях, когда размеры объектов меньше размеров изображений и когда размеры изображений фиксированы и могут включать объекты равные размерам изображений.

Раздел 2.2 посвящен описанию особенностей и возможностей нейронной сети с полносвязным ядром свертки. Как было отмечено ранее, в современных системах распознавания и детектирования изображений объектов используются нейросетевые решения, в основе которых лежит свертка с набором линейных фильтров k € RM,M, где M-размерность фильтра в декартовых координатах x, y. В процессе обучения происходит итерационное вычислениие весовых коэффициентов каждой из матриц W нейронной сети. В диссертационном исследовании выявлены недостатки данной архитектуры, состоящие в том, что данная нейронная сеть ввиду линейной природы фильтров допускает избыточность, т.е. два любых фильтра одного уровня могут обучиться на одни и те же признаки, также при задании большого шага (stride) окна фильтров на каждом уровне свертки возникают артефакты наложения соседних элементов изображений, получаемых после каждого сверточного уровня нейронной сети (aliasing artefacts) [1], тем самым снижается их различимость. Обычно применяют шаг на каждом из уровней не более 1-2. При таком шаге и больших размерах входных изображений требуется задание большой глубины нейронной сети, что делает в большинстве случаев применение нейронной сети не практичной из-за ее вычислительной сложности или эффекта исчезающего градиента (vanishing gradient) [2; 3]. Это связано с тем, что глубина нейронной сети обратно связана с величиной шага окон на каждом уровне свертки. Поэтому на практике снижение глубины обеспечивается через применение операции объединения (pooling - максимального maximum, усредненного average и др.) к картам признаков. Данная операция обеспечивает некоторую инвариантность к смещениям объектов на изображениях, но серьезно снижает объем пространственной информации об объектах при передаче на уровни выше. В предлагаемой архитектуре используются нелинейные классификаторы типа сеть в сети (network in network, NiN) [4]. На рис. 2 показаны схемы соединения нейронов для набора линейных фильтров и нелинейного ядра на основе полносвязного нейросетевого соединения. В таблице 1 показаны примеры коли-

чества умножений и количества связей в линейном фильтре и нелинейном ядре. Из данных таблицы следует, что количество умножений в нелинейном ядре растет линейно при увеличении количества уровней нейронной сети ядра, а количество путей (внутренних связей) нелинейно. Данная нелинейность свидетельствует о большом потенциале ядра для вычисления сложных решающих функций.

Набор Линеиных

Нелинейное ядро

фильтров

Рисунок 2 — Слева набор линейных фильтров. Справа нелинейное ядро с заданным количеством выходов. М-кол-во умножений. №кол-во пикселей изображения. D-глубина. L-кол-во уровней сети

Таблица 1 — Примеры соотношений количества умножений М и количества путей S (связей) в линейном фильтре и нелинейном ядре в зависимости от количества уровней L для случая N=D=16

L9 М,

число число число

1 256 256

2 512 4096

3 768 65536

4 1024 1048576

5 1280 16777216

Также определяются свойства и производится расчет параметров нейронной сети, приводятся возможные реализации прямой (для работы кодирующей части НС, необходимой для формирования признаков) и транспонированной (для работы декодирующей части НС, необходимой для построения плотной маски) сверток, адаптируется алгоритм обратного распространения ошибки, приводятся дополнительные предложения по улучшению работы нейронной сети.

В разделе 2.3 описан метод детектирования малоразмерных и близкорасположенных объектов. В однопроходных системах детектирования (так называемые end-to-end системы) задачи множественной локализации и классификации решаются одновременно. Но такой подход увеличивает требуемое количество выходов нейронной сети. Это, в свою очередь, требует увеличения количества ее связей. Двухпроходные системы решают данные задачи поочередно, используя на последнем этапе общий классификатор. В диссертационной работе предлагается двухпроходная система, в которой локализатор выполняет поиск и местоопре-деление всех интересуемых объектов, а классификатор обеспечивает уточнение классов на предлагаемых локализатором областях.

Первый нейросетевой каскад двухпроходного детектора представлен ло-кализатором. Для решения задачи локализации возможно использование двух подходов - через формирование разреженной сетки опорных точек и ограничивающих областей объектов или при помощи плотной маски. Для работы с разреженной сеткой опорных точек возможно непосредственное задействование выходов нейронной сети с нелинейным ядром. Для построения плотной маски также формируется сетка опорных точек, но это происходит через использование операции транспонированной свертки (transposed convolution). Первый подход более приемлем для локализации небольших и не протяженных объектов, поскольку в этом случае каждый выход нейронной сети действует как независимый агент, самостоятельно принимающий решение о состоянии своего выхода (рис. 3). На рисунке показана сетка опорных точек (по аналогии с якорями в известных алгоритмах детектирования) и результат их сходимости в центр объекта. Точки, помеченные серым цветом, являются неактивными агентами и дальнейшего участия в обработке не принимают, поскольку объект не входит в их область активации, которая в свою очередь определяется некоторым заданным радиусом. В диссертационной работе он задавался как у7(xi — xi+l)2 + (yi — yi+l)2, где Xi и yi - координаты любой из точек опорной сетки.

Опорные точки расположены равномерно в шахматном порядке по центру области детектирования. Если поступить иначе, расположив их ровными рядами, то возникает ситуация, когда может быть пропущен объект, располагающийся между двух близкорасположенных других объектов. Все опорные точки, сгруппированные по центрам объектов, должны подвергнуться постобработке. Для данного случая хорошо подходит алгоритм кластеризации сдвиг среднего "mean-shift" [5]. Он позволяет более точно сформировать центры объектов, а также

Рисунок 3 — Принцип построения сетки выходных опорных точек

отфильтровать ложные срабатывания. Задание порога в виде среднего расстояния между сгруппированными точками осуществляется динамически, в зависимости от средних значений x, y для ограничивающих областей. Это позволяет более эффективно осуществлять кластеризацию.

Использование нелинейных ядер в качестве свертки, даже с высоким общим шагом окна свертки (stride), обеспечивает семантически и пространственно насыщенную карту признаков на выходе сверточной нейронной сети. Таким образом, необходимость в создании сквозных соединений (skip connections) или объединении различных уровней нейронной сети [6] для формирования плотной маски отсутствует.

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Список литературы диссертационного исследования кандидат наук Алексеев Алексей Алексеевич, 2019 год

Список литературы

1. Zeiler, M. D. Visualizing and Understanding Convolutional Networks / M. D. Zeiler, R. Fergus // CoRR. — 2013. — Т. abs/1311.2901. — arXiv: 1311.2901. —URL: http://arxiv.org/abs/1311.2901.

2. Bengio, Y. Learning Long-term Dependencies with Gradient Descent is Difficult / Y. Bengio, P. Simard, P. Frasconi // Trans. Neur. Netw. — Piscataway, NJ, USA, 1994. — Март. — Т. 5, № 2. — С. 157—166. — URL: http://dx.doi.org/10.1109/ 72.279181.

3. Glorot, X. Understanding the difficulty of training deep feedforward neural networks / X. Glorot, Y. Bengio // Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics. Т. 9 / под ред. Y. W. Teh, M. Titterington. — Chia Laguna Resort, Sardinia, Italy : PMLR, 13-15 May.2010. — С. 249—256. — (Proceedings of Machine Learning Research). — URL: http://proceedings.mlr.press/v9/glorot10a.html.

4. Lin, M. Network In Network / M. Lin, Q. Chen, S. Yan // CoRR. — 2013. — Т. abs/1312.4400. — arXiv: 1312.4400. —URL: http://arxiv.org/abs/1312.4400.

5. Cheng, Y. Mean Shift, Mode Seeking, and Clustering / Y. Cheng // IEEE Trans. Pattern Anal. Mach. Intell. — Washington, DC, USA, 1995. — Авг. — Т. 17, № 8. — С. 790—799. — URL: http://dx.doi.org/10.1109/34.400568.

6. Long, J. Fully Convolutional Networks for Semantic Segmentation / J. Long, E. Shelhamer, T. Darrell // CoRR. — 2014. — Т. abs/1411.4038. — arXiv: 1411. 4038. — URL: http://arxiv.org/abs/1411.4038.

7. FlowNet 2.0: Evolution of Optical Flow Estimation with Deep Networks / E. Ilg [и др.] // CoRR. — 2016. — Т. abs/1612.01925. — arXiv: 1612.01925. — URL: http://arxiv.org/abs/1612.01925.

8. Focal Loss for Dense Object Detection / T.-Y. Lin [и др.] // 2017 IEEE International Conference on Computer Vision (ICCV). — 2017. — С. 2999—3007.

9. Deep Residual Learning for Image Recognition / K. He [и др.] // 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 06.2016. — С. 770—778.

10. Veit, A. Residual Networks Behave Like Ensembles of Relatively Shallow Networks / A. Veit, M. Wilber, S. Belongie // Advances in Neural Information Processing Systems. — 2016. — Man.

11. Le, Q. V. A Simple Way to Initialize Recurrent Networks of Rectified Linear Units/Q. V. Le,N. Jaitly, G. E. Hinton//CoRR. — 2015. — T. abs/1504.00941. — arXiv: 1504.00941. — URL: http://arxiv.org/abs/1504.00941.

12. Independently Recurrent Neural Network (IndRNN): Building A Longer and Deeper RNN / S. Li [h gp.] // CoRR. — 2018. — T. abs/1803.04831. — arXiv: 1803.04831. — URL: http://arxiv.org/abs/1803.04831.

13. Pascanu, R. Understanding the exploding gradient problem / R. Pascanu, T. Mikolov, Y. Bengio // CoRR. — 2012. — T. abs/1211.5063. — arXiv: 1211.5063. — URL: http://arxiv.org/abs/1211.5063.

14. FlowNet: Learning Optical Flow with Convolutional Networks / P. Fischer [h gp.] // CoRR. — 2015. — T. abs/1504.06852. — arXiv: 1504.06852. — URL: http://arxiv.org/abs/1504.06852.

15. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks / S. Ren [h gp.] // ArXiv e-prints. — 2015. — Hmhb. — arXiv: 1506. 01497 [cs.CV].

16. SSD: Single Shot MultiBox Detector / W. Liu [h gp.] // CoRR. - 2015. -T. abs/1512.02325. — arXiv: 1512.02325. — URL: http://arxiv.org/abs/1512. 02325.

17. Bai, S. An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling / S. Bai, J. Z. Kolter, V. Koltun // CoRR. — 2018. — T. abs/1803.01271. — arXiv: 1803.01271. — URL: http://arxiv.org/abs/ 1803.01271.

18. Alexeev, A. A3Net: fast end-to-end object detector on neural network for scenes with arbitrary size / A. Alexeev, Y. Matveev, G. Kukharev // Robotics and Technical Cybernetics. — 2018. — CeHT. — T. 3. — C. 43—52.

19. Microsoft COCO: Common Objects inContext/T. Lin [ugp.] //CoRR. — 2014. — T. abs/1405.0312. — arXiv: 1405.0312. — URL: http://arxiv.org/abs/1405.0312.

Публикации автора по теме диссертации

В изданиях из списка ВАК РФ

1. Алексеев А.А. Методы и алгоритмы получения карт глубины для их использования в ассиметричных видеосистемах // XXI век: итоги прошлого и проблемы настоящего плюс -2016. - № 6(34). - С. 23-30

2. Алексеев А.А. Методика кластеризации и распознавания динамических последовательностей с помощью аппарата марковских цепей // Робототехника и техническая кибернетика -2017. - № 2(15). - С. 37-47

3. Алексеев А.А., Матвеев Ю.Н., Кухарев Г.А. A3Net: быстрый нейросетевой end-to-end детектор объектов на изображениях произвольного размера // Робототехника и техническая кибернетика -2018. - Т. 20. - № 3. - С. 43-52

В изданиях, входящих в международную базу цитирования Scopus

1. Alexeev A., Matveev Y., Kukharev G. Using a Fully Connected Convolutional Network to Detect Objects in Images//2018 5th International Conference on Social Networks Analysis, Management and Security, SNAMS 2018, 2018, pp. 141-146

2. Alexeev A., Matveev Y.N., Kukharev G. Object detection on base of modified convolutional network//Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2019, Vol. 11401, pp. 530-537

3. Alexeev A., Matveev Y., Matveev A.I., Kukharev G., Almatarneh S. Detector of Small Objects with Application to the License Plate Symbols//Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2019, Vol. 11506, pp. 533-544

4. Alexeev A., Matveev Y.N., Matveev A., Pavlenko D. Residual Learning for FC Kernels of Convolutional Network//Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2019, Vol. 11728, pp. 361-372

В сборниках трудов конференций

1. Алексеев А.А. Обучение на трехмерных моделях при асимметричном распознавании // Альманах научных работ молодых ученых Университета ИТМО - 2017. - Т. 1. - С. 1-3 - 2017

2. Алексеев А.А. Нейросетевой метод анализа последовательности изображений для формирования трехмерной реконструкции объекта // конференция МКПУ-2017//МКПУ-2017 - 2017

3. Алексеев А.А. Быстрый метод стереосопоставления на основе выделения и анализа контрастных областей // Научные работы участников конкурса "Молодые ученые Университета ИТМ0"2016 года -2017. - С. 18-24

4. Алексеев А.А. Многоракурсный нейросетевой каскадный классификатор объектов изображений//Сборник тезисов докладов конгресса молодых ученых. Электронное издание. - СПб: Университет ИТМО, 2018-2018

5. Алексеев А.А., Суздальцев Д.А. Алексеев А.А. Распознавание типов беспилотных летательных аппаратов по их радиолокационным сигнатурам, XXIV Международная научно-техническая конференция «Радиолокация, навигация, связь» (RLNC*2018)//А0 «Концерн «Созвездие» и Воронежский государственный университет - 2018. - С. 291-296

Synopsis Introduction

Relevance. Detecting objects in images with a complex background is one of the most important tasks of processing visual information. of processing information. Detection refers to the field of computer vision and includes multiple localization of objects and their subsequent classification. These algorithms and solutions based on them are in high demand for such industries as robotics, artificial intelligence, monitoring and analysis of visual data. More specifically, detection systems are widely used in control systems for automated unmanned aerial vehicles, assistance and attention management systems, security and access control systems, information retrieval systems, surveillance systems, tracking systems, accounting systems for the number of objects, anomaly detection systems, automated detection systems in production, conveyor lines, in agriculture. Detection systems are developed and actively implemented in such companies as Microsoft, Google, Facebook, Amazon and Sberbank. They provide open access results, as well as the availability of open development tools, which attract and provide significant interest in terms of modern achievements in the field. This allows to quickly readjust to solving problems that were previously solved based on classical approaches. These systems are also used in military sphere. For example, in 2016, the Department of Defense Advanced Research Projects Office (DARPA) launched a project in the United States to create a prototype of a complex to fight against small UAVs (Unmanned Aerial Vehicle) the MFP (Mobile Force Protection) with key tasks to detect small and closely spaced objects. The goal set by 2020 is to create the final prototype. In Russia, developments are also underway on this topic. A certain novelty of the tasks (which are relatively recent, starting in 2012 immediately after the achievements at the Large Scale Visual Recognition Challenge 2012 (ILSVRC2012)), active and successful development of the field, remaining insufficiently developed tasks, related to the detection of example, small, closely spaced and different-scaled objects, as well as the high demand for creation of such systems establish the relevance of the work.

In recent years, the tasks of detecting and recognizing objects in images are increasingly being addressed by neural network methods, among which are deep

learning methods and convolutional neural networks based on them. The latter have proven their superiority in a number of criteria over classical methods, such as, for example, the accuracy of detection and the complexity of developing architectures or algorithms.

The application of modern methods of machine vision and deep learning is the basis for the development of algorithms for the detection of small, closely spaced and different-scaled objects in images of arbitrary size.

Despite the fact that neural network methods and algorithms received another impetus of development just a few years ago, research itself in the field of detection of visual objects based on neural networks has a long history and is associated with the work of Russian scientists: A. V. Timofeeva, A. Y. Dorogova, A.S. Potapova, I.A. Kalinovsky and others, as well as with the works of foreign scientists: F. Rosenblatt, D. Hubel, T. Wiesel, D. Tsibenko, T. Kohonen, M. Turk, A. Petland, J. Lecun, D. Hinton, and others. It is also worth noting the work of such specialists as I. Goodfelou, R. Salathutdinov, I. Benggio, P. Abbel, A. Karpatsky, D. Song and others, who have made a significant theoretical and practical contribution to the further development of the field.

The aim of this work is to improve the accuracy of detection of small, closely spaced and different-scaled objects in images of arbitrary size.

To achieve this goal, the following tasks were set and solved tasks:

1. The study of methods and algorithms for detecting small, closely spaced and different-scaled objects in images of arbitrary size.

2. Development of basic architecture of a deep neural network to improve the detection accuracy of small and closely spaced objects.

3. Development of training algorithms for basic architecture of a deep neural network.

4. Development based on the basic architecture of a deep neural network for the detection of multi-scale objects.

5. Software development to implement the proposed algorithms into a deep neural network training and object detection.

6. Conducting experimental studies using the developed software to confirm theoretical results.

The object of research. Small, closely spaced and different-scaled objects, methods and algorithms for their detection.

The subject of research. Methods and algorithms for detecting small, closely spaced and different-scaled objects in images of arbitrary size based on deep neural networks.

Research methods. The widely common methodology in applied scientific research is used: setting goals and objectives, analysis of relevant literature and current results of work, development of methods and algorithms, experimental assessment of their effectiveness. The experimental studies were carried out according to the generally accepted at international competitions experimental methods and metrics for evaluating the results, as well as on publicly available image databases using their standard division into training, test and validation samples. The main results of the thesis were obtained by machine learning methods, pattern classification, linear algebra, digital image processing and modern software development methods.

Scientific novelty: The original neural network methods and algorithms developed in the thesis allow to solve the problems of detecting objects in images, including objects of different numbers, type, size and degree of space proximity to each other, based on the proposed basic architecture of the neural network.

For this new methods have been developed:

1. A method for detecting small and closely spaced objects based on the use of proposed basic deep neural network architecture with a fully-connected (nonlinear) convolution kernel. This architecture solves a number of problems of convolution networks, for example, such as safety of information about the spatial location of objects when refusing from pooling, improve the accuracy of objects localization, equivariance to parts of the whole object, as well as the elimination of aliasing artifacts when using a large stride of convolution operation, which, in turn, is important for limiting the depth of networks and increasing the speed of detection systems.

2. Initialization and training algorithms for the basic architecture. The initialization algorithm allows to build very deep neural networks by reducing the influence of the vanishing gradient effect during training and provide a gradual transition from an equivalent ensemble of parallel connected simple networks to a single network. This allows to reduce the redundancy of the neural network and, therefore, its computational complexity, as well as use longer paths of information. The latter is important for constructing more complex decision functions. The learning algorithm, including adaptive threshold settings, allows to deal with the effect of an explosive gradient.

3. A method for detecting different-scaled objects by constructing a neural network architecture pyramid of basic architectures with shared weights. This allows to use the same basic architecture to detect objects of different scale, as well as potentially within certain limits and under certain training conditions, to ensure invariance to the size of objects.

Theoretical and practical relevance. The theoretical significance of the work is to improve the existing and develop new neural network training and classification methods and algorithms for objects detection in images, including small, closely spaced and different-scaled objects. The application of the developed software solutions when creating and training a detection system is of practical importance, which based on generally accepted assessments of the work quality showed compliance with modern demands, including, high computational efficiency of algorithms.

Principal positions:

1. A method for detecting small and closely spaced objects, using deep neural network with a non-linear convolution kernel, allowing more accurate location of objects, and solve the equivariance problem inherent in convolutional neural networks, due to the rejection of pooling and the use of a nonlinear convolution kernel.

2. Initialization and training algorithms for a deep neural network with a nonlinear convolution kernel, which allow building deeper neural networks due to significant reduce of their redundancy by using longer ways of transferring information between levels. The initialization algorithm allows to deal with the effect of a vanishing gradient, and the training algorithm based on clipping the gradient by adaptive threshold settings allows to deal with the effect of the explosive gradient.

3. A method for detecting different-scaled objects, characterized by combining deep neural networks with a non-linear convolution kernel with shared weights, which allows to match the size of objects with the size of the neural network during training and use.

4. A software tools for deep machine learning for solving problems of classification and detection of visual objects, including procedures for working with deep neural networks with a nonlinear convolution kernel and implementing the proposed detection methods.

Credibility of scientific provisions and conclusions obtained in this research is provided by the results of experimental studies, successful presentation of key points

in reports at leading international conferences, consistency of the research results with the results of other authors and successful implementation of practical results.

Implementation of work results. The results of the thesis are introduced into the educational process for the master's educational program "Speech Information Systems" in the discipline «Multimodal biometric systems». In addition, the results obtained were used

1. In scientific research work №718574 (project 5-100) «Methods, models and technologies of artificial intelligence in bioinformatics, social media, cyberphysical, biometric and speech systems», ITMO University.

2. As part of the hardware and software complex for detecting aircraft objects of the Joint Stock Company "Ulyanovsk Mechanical Plant", being a subsidiary of JSC Concern «Almaz-Antey».

Approbation. The main results of this research were presented and discussed at the following international and Russian conferences: «XLV Scientific and educational-methodical conference of the ITMO University» (Saint-Petersburg, Russia, 2016), «XLVI Scientific and educational-methodical conference of the ITMO University» (Saint-Petersburg, Russia, 2017), «10th All-Russian multiconference on management issues (MKPU-2017)» (Gelendzhik, Russia, 2017) «XXIV International Scientific and Technical Conference Radar, Navigation, Communication» (Voronezh, Russia, 2018) «XV All-Russian Interuniversity Conference of Young Scientists» (Saint-Petersburg, Russia, 2018), «VIII All-Russian Congress of Young Scientists» (Saint-Petersburg, Russia, 2019), The «1t International Workshop on Deep and Transfer Learning» (Valencia, Spain, 2018), The «23rd Iberoamerican Congress on Pattern Recognition» (Madrid, Spain, 2018), The «15th International Work-Conference on Artificial Neural Networks» (Gran Canaria, Spain, 2019), The «28th International Conference on Artificial Neural Networks» (Munich Germany, 2019).

Personal contribution. The author took an active part in the study and analysis of existing approaches to solving the problem of detecting objects in images. Based on the analysis, the author developed methods and algorithms for detecting objects in images, as well as an algorithm for initializing and training a neural network with a nonlinear convolution kernel, based on which the detection tasks are performed. The experimental part is implemented through the use of software developed during the work on the dissertation. The author personally solved the thesis problems. The preparation of the main publications was carried out with co-authors, with the main contribution of the author.

Publications. The main results of the research are presented in 12 publications, 3 of which are published in journals recommended by the Higher Attestation Commission, 4 — are published in international editions, indexed by Scopus, 5 — in abstracts of all-Russian and international conferences.

Thesis structure. The thesis consists of introduction, three chapters and conclusion.

Contents

The introduction provides a brief overview of research results on the issue under study, a problem is identified, the relevance of the topic of thesis research is justified, the goal is formulated, the tasks are set, the scientific novelty is stated and practical relevance of the research is presented.

Chapter one is devoted to the review and study of modern neural network methods and algorithms for detecting objects in images. The generally accepted definition of modern deep neural networks is given, the algorithms for working with them, as well as the parameters associated with them, are described. The existing types of convolution operations, their differences, and the features of each of them are described. The advantages of replacing a set of linear filters of a standard convolutional network to nonlinear kernels of a fully connected network are given. The well-known and most popular structures of neural network systems for detecting objects in images and the estimated metrics applied to them are described. Weaknesses of existing neural network approaches to solving the problem of determining the spatial coordinates of objects, in particular small, closely-spaced and different-scaled objects, were revealed. Attention is paid to the creation of deep neural network architectures using identity transfer functions. Some methods for preparing and supplementing training data are also considered.

Based on the analysis, the disadvantages of modern neural network detection systems and their limitations are identified. Most of them appear due to the shortcomings of the CNN architecture (convolutional neural network). Among them, susceptibility to adversarial attacks; invariance, but not equivariance to the location of the individual parts of the whole object; the difficulty of dealing with objects of different scale and spatial orientation; the difficulty of training deep networks due to the vanishing gradient

and the presence of saddle points and local minima; the difficulty of training deep networks due to the exploding gradient, underfitting and overfitting. Due to pooling, information about the spatial location is partially lost, that is the problem in detecting small and closely-spaced objects.

All of the above has determined the purpose and direction of work related to the development of an improved system for detecting objects in images.

Chapter two is devoted to the consideration of all the main stages of solving the problem of detecting objects, including the allocation of an object region by using the so-called instant segmentation method that has become popular.

Based on the study performed, methods and algorithms were proposed for object detection, including multiple localization and recognition. These methods and algorithms are based on various architectures of neural networks that were developed and investigated. Solutions to improve performance of neural networks were proposed, procedures to prepare training datasets and training procedures themselves were developed.

The study in section 2.1 discusses some methods for preparing and supplementing training data. In section 2.2, a neural network with a nonlinear convolution kernel is introduced, which is considered in relation to the problems of detection and instance segmentation. It was experimentally shown that the developed neural network better save spatial information, which is very important when working with small objects since the error is usually does not depend on the size of the objects and, therefore, has the stronger effect, the smaller the object. Preserving spatial information is also important to provide better resolution of neural network needed to distinguish between closely-spaced objects. This property of preserving spatial information formed the basis of the developed method for detecting small and closely-spaced objects, described in section 2.3. It was this neural network with a nonlinear convolution kernel that made it possible to create very deep architectures, due to the method of forming a single identity function applicable to it, developed in the present study and described in section 2.4. And it is deep architectures built on non-linear convolution kernels and possessing more complex decisive functions, contributed to the development of a method for detecting different-scaled objects described in section 2.5.

The detector development steps are shown in the block diagram of fig. 1.

Fig. 1 — Detector development steps

Section 2.1 describes two methods of training dataset augmentation to train object detectors based on deep neural networks. Joint using of these methods of augmentation can be used in cases when the sizes of objects are smaller than the sizes of images and when the sizes of images are fixed and can include objects equal to the sizes of images.

Section 2.2 describes the features and capabilities of a neural network with a fully connected convolution kernel. As noted earlier, in modern systems for recognizing and detecting images of objects neural network based solutions are often used. Usually

they are based on convolution with a set of linear filters k e RM M, where M is the dimension of the filter in the Cartesian coordinates x, y. During training, the weights of each of the matrices W of the neural network are calculated iteratively. In the thesis, the disadvantages of this architecture are revealed, mainly the fact that due to the linear nature of the filters, this neural network is redundant, i.e. any two filters at the same level can be trained on the same features. Also, on setting a big step (stride) of the filter window at each convolution level, artifacts of overlapping adjacent image elements, obtained after each convolutional level of the neural network (aliasing artifacts) [1], appear. Usually the step for each level does not exceed 1-2. For such step and big size images deeper neural networks are needed, which in most cases makes the use of neural networks impractical due to their computational complexity and a vanishing gradient problem.[2; 3]. This is due to the fact that the depth of the neural network is inversely related to the step at each level of convolution. In practice, a decrease in depth is provided by combining (pooling - maximum, average, etc.) feature maps. This operation provides some invariance to object positions in images, but significantly reduces the amount of spatial information about the objects positions when transferred to higher levels. The proposed architecture contains non-linear classifiers such as network in network (network in network, NiN) [4]. Fig. 2 shows connection diagrams of neurons for a set of linear filters and for a nonlinear kernel based on a fully connected neural network. Table 1 shows the number of multiplications and connections in a linear filter and a nonlinear kernel. It follows from the table that the number of multiplications in the nonlinear kernel grows linearly with an increase in the number of levels of the kernel, while the number of paths (internal connections) grows nonlinearly. This nonlinearity indicates the great potential of the nonlinear kernel in implementing complex decision functions.

Properties of the neural network are also determined, and parameters are calculated. Possible implementations of the direct (for the coding part of the NN, needed for feature extraction) and the transposed (for the decoding part of the NN, needed for building a dense mask) convolutions are presented. An adaptation of a backpropagation algorithm is demonstrated, and additional suggestions for enhancing the performance of neural networks are provided.

The section 2.3 describes a method for detecting small and closely-spaced objects. In one-pass detection systems (the so-called end-to-end systems), multiple localization and classification problems are solved simultaneously. But this approach increases the required number of outputs of the neural network. This, in turn, requires

Set of Linearfilters Nonl"near kernel

Fig. 2 — On the left is a set of linear filters. On the right is a nonlinear kernel with a given number of outputs. M-number of multiplications. N-number of pixels in the image. D-depth. L-number of network levels

Table 1 — The number of multiplications M and the number of paths S (links) in a linear filter and a nonlinear kernel depending on the number of levels L for the case N=D=16

L, number M, number S, number

1 256 256

2 512 4096

3 768 65536

4 1024 1048576

5 1280 16777216

an increase in the number of its connections. Two-pass systems solve these problems one by one, using a general classifier at the last stage. In the thesis, a two-pass system is proposed in which the localizer searches and locates all objects of interest, and the classifier provides refinement of classes in the areas proposed by the localizer.

The first neural network cascade of the two-pass detector is represented by the localizer. To solve the localization problem, two approaches are possible - through forming a sparse grid of reference points and bounding areas of objects or building a dense mask. To work with a sparse grid of reference points, it is possible to use the outputs of a neural network with a nonlinear kernel directly. To build a dense mask, a grid of reference points is also formed, but using the transposed convolution operation. The first approach is more acceptable for the localization of small and non-extended objects, since in this case each output of the neural network acts as an independent

agent, independently deciding on the state of its output. (fig. 3). The figure shows a grid of reference points (similar to anchors in well-known detection algorithms) and the result of their convergence to the center of the object. The points marked in gray are inactive agents and do not used further since the object is not included in their activation area, which in turn is determined by some given radius. In the thesis, it was defined as \J(xi — xi+1)2 + (yi — yi+1)2, where xi and yi are coordinates of points in the reference grid.

Fig. 3 — The principle of building a grid of output reference points

The reference points are evenly spread in a checkerboard pattern in the center of the detection area. If placed in a regular grid, then a situation may arise when an object, located between the other two objects close together, might be skipped. All reference points grouped by the centers of the objects must undergo post-processing. For this case, the mean-shift algorithm [5] is well suited. It allows to determine the centers of objects more accurately, as well as to filter out false positives. The threshold is set to the average distance between grouped points dynamically, depending on the average values of x,y for the bounding areas. This schema provides more efficient clustering.

The use of nonlinear kernels as a convolution, even with a big overall step of the convolution window (stride), provides a semantically and spatially saturated map of attributes at the output of the convolutional neural network. Thus, there is no need to create skip connections or to combine different levels of the neural network [6] to form a dense mask.

Dense masks are needed for the instant segmentation of bulk objects. If the object is not bulky and if the size of the image window is also small (up to 50x50 pixels), it is possible to use a sparse grid of reference points.

The dense mask is a uniformly distributed cloud of points on a plane in the region of the image window with the number of points comparable to the number of pixels in the input window. The study considers the mask as the first step in detecting objects, it allows to identify areas in the image that should be classified. Also, as in the simplified method above, a rectangular area is constructed in the center of the image window (fig. 3). The difference is that there are more outputs of the neural network, and that the data after an operation of transposed convolution is also used. The transposed convolution is necessary for this task to simplify the transfer of spatial information in the neural network to higher levels. It also provides a better convergence rate of the neural network but reduces its ability to localize small objects.

Post-processing includes filtering points that belong to the object and merging areas of points that have passed the filtering, as well as smoothing the edges of the emerged zones.

The section also discusses an iterative approach to neural network architectures with non-linear convolution kernels. In particular, to solve this problem with the FlowNet2 [7] neural network architecture, due to the intermediate calculation of the pixel stream, one of the images is changed at each subsequent cascade. It has been shown that the serial connection of FlowNetS cascades (a neural network where convolution with both compared images of the pair is performed jointly) and FlowNetC cascades (a neural network where convolution with both compared images of the pair is performed separately) increases the accuracy of the optical flow at the last network output. Each cascade has its own weight, since it is difficult to combine cascades with recursive links in convolutional networks with sets of linear filters. In this thesis shown, that iterative processing is possible based on one basic convolutional neural network (see fig. 4) by using a non-linear convolution kernel. Equivalently this can be expressed as a series of cascades, but with shared weights. Data of object masks are used as inputs of the neural network. The task can be expanded by passing the complete set of output data to the input.

The second neural network cascade of the two-pass detector is represented by a classifier of selected areas of objects. The classifier is the same neural network that is used to localize regions and based on only direct convolution. The number of outputs is equal to the number of classes Nciasses. The advantage of this approach is that at the output of the localizer after post-processing appears information about the size of objects, which, in turn, can be used to directly adjust their size using the neural network classifier, without the need for a pyramidal approach.

Fig. 4 — NN architecture with iterative computing support

Additionally, the study introduces a curve of the loss function of this kind, by analogy with [8], which, when applying the training algorithm for back propagation of errors, will ensure the greater reduction in the values of derivatives, the smaller their difference (difference error) from the target values. This principle does not allow rare but informative classes, such as images of objects, to be replaced by more frequent or lighter classes, such as background. It is proposed to use a similar form of the curve of the loss function, but constructed on the basis of the function MSE (y — t)m, where m = 3 should be used for coordinate regression,

1

lj(i) = o(yj(i) — tJ(i)) y(i) —13(i)\a = cj

3

while its derivative

(1)

(yj(i) — tj (i))\yj(i) — tj (i)\a,

(2)

and for classification m = 4, since it requires less accuracy

L (i) = \(yj(i) — tJ (i))4aJ = C a >

(3)

where L - current losses for class j at iteration i, C - current error for class j at iteration i, a - preset attenuation / gain for a given class j, yj (i) - sample i output value for class j, tj(i) - target value of sample i for class j.

However, an approach based only on the form of curves of loss functions allows for imbalance at the beginning of training, and also does not take into account the magnitude of the errors of each class. In this study, taking into account the given loss functions (1) and (3), a method was developed for adaptively taking into account the

error values of each of the classes. Required depending on the degree of deviation of the error from the objective function and regardless of the frequency of occurrence of objects of one type or another and their complexity, compensate for the imbalance in training. For this, at the current total value of the loss function T for all classes, it is necessary to calculate such parameters of gain (attenuation) of the learning force Kj of each class, which provide the previous value of T, with the equality of the product LK for each of the classes

N

T(i) = £ Lj (i)Kj, (4)

j=i

where T - total losses, N is the number of classes.

To calculate the coefficients Kj , there is not enough data at one iteration i, an average value is required at a certain number of iterations, we call this interval the epoch

1 M

Aj = mE Lj (5)

i=i

where A - class-average error of class j, M - the amount of data of class j on the epoch. Sum up and average the error for all classes

1N

R = ^E Aj' (6)

N j=1

where R - average error.

Lets represent this expression as follows

N i N

R = £( N Aj ) = E(Kj Aj ) = N * Kj Aj (7)

N

j =1 j =1

assuming that KmAm == KkAk for any m and k e RN. It is required to ensure the equality of all terms of the sum of the left side of the equation with each other. It follows

that the coefficients Kj are calculated as

R

Kj = AN (8)

Thus, with a fixed level of total error, it is possible to maintain a close, within certain limits, error level for all classes. Moreover, the loss functions Lj (i) of the equations (1) and (3), taking into account the newly calculated Kj, is written as follows

Lj (i) = Cj aj Kj, (9)

A legitimate question arises - what is the point of preserving the specificity of the form of the curves of the loss functions (1) and (3) when using the adaptive approach? The fact is that the calculation of the parameters Kj is based on the values averaged over some sample. In this case, there may be significant deviations from the mean values of the difference errors between class objects, which can have a significant negative impact on the learning process. Using the same cost functions allows you to reduce this effect.

Section 2.4 describes an algorithm of initializing and training deep neural networks. Vanishing gradient problem manifests itself with an increase of the depth of a neural network and, as a consequence, a decrease in the speed of update of the weights W and b of the neural network due to lower values of partial derivatives of the error functions relative to each previous layer of the neural network when applying the backpropagation (BPG) algorithm. With an increase in the depth of standard neural networks, a situation of a significant decrease of the training speed in its first layers is possible. This can completely neutralize the effect of training a neural network. On the other hand, neural networks of big depth can theoretically allow the formation of complex decision functions by neural networks of small width, which in turn can provide their high performance. In article [9], the concept of residual blocks is used to combat the effect of a vanishing gradient, as the basic construction of a neural network.

Using these blocks allows to get a greater effect from the use of deep neural networks in comparison with plain neural networks.

On analyzing a ResNet neural network as an ensemble of simple neural networks [10], several features were revealed that demonstrated both their architectural limitations, and a set of ways to more effectively address the vanishing gradient problem.

Any ResNet-like neural network can be represented as an ensemble of shallow neural networks, so, for example, for 3 series-connected cascades, the ensemble can be set as

y3 = y2 + f3y)

= [yi + h(yi)]+ /a(yi + /2(yi)) = [yo + /i(yo) + /2 (yo + /i(yo))} + /a(yo + /i(yo) + Myo + /i(yo)))

Any ensemble of simple solutions usually implies two properties: the possibility of mutual rearrangement of the components of the ensemble and the ability to remove a small number of components of the ensemble without visible differences in the overall

performance of the ensemble. These two properties are the disadvantages of residual networks since during training the shorter paths between the input and the output of the neural network have a greater impact and long paths still cause a vanishing gradient effect.

In the thesis research, an effective identity transfer function was proposed supported by the method of initializing weights. Here, as well as in residual networks, is used an equivalent ensemble of shallow networks, but only at the main stage of training, when a significant increase in the gradient during training is observed. The architecture with a nonlinear convolution kernel (similar to NiN) remains the same, only with the new procedure of initializing a neural network. A similar approach was used in recurrent neural networks. For example, in the articles [11], [12] is shown that simple initialization of a matrix of the simplest recurrent neural network as the identity matrix, allows to deal with the problem of a vanishing gradient and to model long-term links.

The solution proposed in the thesis showed that the neural network is able to learn and not to lead to saturation even with a large number of layers in each nonlinear convolution kernel. At the same time, the performance of the neural network of medium depth (up to 30 levels) in terms of error function values at the output of the neural network, turned out to be higher than that of its less deep counterparts. Deeper neural networks (up to 250 levels) show similar results but have a lower convergence rate. The standard neural network of large and even medium depth ceases to converge at the very beginning of its training.

Consider the simplest case of a connection between the levels of a nonlinear kernel, when the weight matrix W between the layers is square.

In this case, the neural network output level Ln+1 will be equal to

xi+i = a(W ixi) = a((W o + Sn)xi) = a(W oxi + SnXi), (11)

where a this is a nonlinear activation function leaky ReLU, W0 e Rnxn,w0ii = 0 for each i, W1 e Rnxn,wlii = A for each i, A - constant, Sn = diag(A) = AI -scalar matrix.

The scalar matrix Sn, by analogy with the identity transfer function of residual blocks in the case of A = 1,0, provides lossless data transfer between levels of the neural network, as well as, in the process of training, reduces the impact of the vanishing gradient problem.

If a RELU-like function with a single transmission in the positive region is selected as the activation function, the parameter A = 1,0, and also considering that

xi is a positive vector, and the weights Wi have very small values except for the main diagonal of the matrix, then the equation (11) goes into the standard ResNet residual neural network equation with one level inside (only single-level structures inside each block are used)

xi+i = <J(Woxi + Snxi) « o(Wox4) + InXi « G(Woxi) + xi (12)

From the equation (12) follows, that the data from the first level of the neural network (row image data) are transmitted to the very last level of each nonlinear convolutional kernel of the neural network, causing the neural network to calculate the residual F(x) := H(x) — x as in [9]. At the same time, the correspondence of the residual design of the neural network proposed in the work with the residual blocks of the residual neural network (residual network) is observed F (x) = u(W o xi), H(x) = xi+i and x = xi.

In the general case, the number of identity connections is determined by the number of neurons in the layer Ln or Ln+i, which has a smaller number of neurons, while the connections are selected in parallel only once during the initialization of the neural network (fig. 5). For simplicity, standard connections are displayed only for the upper right neurons of each scheme. On the right is the result of finished training. All identity connections that form identity transfer functions have only partially changed their values, as in standard fully-connected neural networks, as shown by bold dashed lines. The weights of these connections are fixed and equal to A. All other connections are standard weighted connections that provide training for the neural network. In the case of an unequal number of neurons, individual identity connections between levels remain unused. A connection of this type is established between all levels of nonlinear kernels, including the first layer, associated with the image. Otherwise, the quality of training a neural network becomes significantly worse, since the principle of identity transfer functions between the input and output of the entire convolutional neural network is not applied. In the proposed method, there is a partial transition from parallel to single serial connection due to the natural adjustment of weights during learning process, including those initialized initially in «1». Thus, the beginning of training provides a uniform increase in the gradient, gradually partially transferring the neural network from parallel to sequentially connected levels. The results of the analysis of the gradient at the initial level of training of the neural network showed its greater growth at all levels of the neural network, compared with the standard version. It is important to note that all the weights of the involved identity connections after training

perform the same task as the rest of the connections of the neural network, thereby not introducing any redundancy.

a a

OSTt1

07

Begin of learning

■ Identity connections Small weights

o——

o-'y/////

0 0 0 • C7;

^ O1;

0 O7

\J 0 7 07

0

End of learning

Fig. 5 — Transition of Identity connections to standard connections

In the proposed method, as well as in ResNet, the principle of identity transfer functions is used when distributing data from input to output, but at the same time, its implementation is provided by integration into the neural network itself, not introducing any additional connections. The hypothesis confirmed of the effectiveness of using close to zero distribution of the weights of the matrix W0, which makes the neural network functionally similar to ResNet neural networks. The experimental results below show the applicability of the method both for deep, to a certain level, and for neural networks that have only a few levels. In fig. 6 shows the dynamics of the Loss function during training for deep (residual / standard) and shallow standard neural networks consisting of 6, 31, 51 and 150 levels. For residual networks, the values A = 0,5 and A = 1,0 were used. The best convergence rate and low Loss value for the network, using the initialization of weights that are not included in the main diagonal of the matrices, by low values (lw-low weights).

The thesis also proposed a method for eliminating the effect of an explosive gradient. In deep neural networks, gradient accumulation is possible during its propagation in the training process. This can lead to a significant increase in values of the norm of the gradient, thereby leading to the so-called exploding gradient [13]. The latter can be expressed in increasing the error of the objective function, or, in extreme cases, in the appearance of a special state of floating-point numbers (Not-a-Number, NaN). Several effective methods are known to combat this effect. The most popular

Loss / iteration

0.25

0 2 0 40 60 SO lOO 12 O

iter. C3e3, batch=16r..32)

Fig. 6 — The dynamics of the Loss function during training

and effective is the use of gradient clipping. Instead of using constant gradient values, the method limits the maximum step value in accordance with the gradient norm and a given threshold, if the threshold is exceeded.

Theshold ....

G = G—f|Gf\—'

where G - gradient, \\G\\ - norm of gradient, Theshold - comparison threshold.

In a thesis research, a modification of this method is used, allowing adaptively, depending on the current and previous averaged values of the norm of the weights, calculated at N iterations, to adjust the gradient level when updating the weights. The Frobenius norm for the matrix W0 (see (11)) is calculated as the gradient norm. With that said, the expression (13) gets a new look

I

G if \\Gl\\ <= \\Gn\

G =4 ......11 ,7" ,, 11 11 , (14)

G *g|| if \\Gl\\ > \\Gn\\* Threshhold v 7

where Threshhold >= 1,0, \ \ GL\ \ - norm of gradient at last iteration, \ \ Gn\ \ =

II

j=1N+-L- - the gradient norm averaged over N penultimate iterations.

It was found that the use of a small step at the beginning of training a neural network with its gradual increase at a given small number of iterations, also effectively reduces explosive gradient effect [14].

The work also provides a detailed analysis of the characteristics of a neural network initialized by a identity transfer function.

The section 2.5 describes a method for detecting objects of different-scaled. There are three main approaches to solving the detection problem that are invariant to the size of objects based on neural networks: building a pyramid of images and corresponding pyramids of signs; filter pyramids with various sizes that work with the signs of a neural network; pyramids of anchor coordinates, as in the Faster-RCNN [15] algorithm.

All these approaches work with a given feature map. It is also known that the lower the level of the feature map, the more spatial information it contains, but the less it is semantically saturated and vice versa. So, in the SSD [16] detector, only semantically saturated levels are used (respectively, they contain less spatial information), not allowing to work with small objects. All this means that if the feature map is not consistent with the size of the object, then the detector is not efficient. In this case, inconsistency is understood as a situation when a set of filters used at a certain level of the CNN neural network, is not optimal. In addition to the inability to work with features of a given level, it can also filter useful data when they are transferred to the higher levels of the neural network. In the thesis research, an approach was investigated in which, as base blocks having the same weight, full-fledged convolutional neural networks with a fixed set of inputs and outputs at all levels are used, the number of which is determined by the size of the image. In case of inconsistency between the block and the image object, the data is transmitted further to the next level, the same block, but to which the information of the previous and all previous levels is already supplied. A fully connected neural network is used as the core of each full-fledged convolutional neural network (block). The latter, due to the high nonlinearity of the decisive functions, is able to solve the problems of processing objects in a certain range of scale and provide efficient data transfer for analysis at a higher level.

The basic blocks of a neural network are trained to provide a compressive identity transfer function (identity function). This allows detecting objects of a wide range of sizes on images of any size. Each block can be looked at as a kind of auto encoder, which compresses the information, but does not filter the data for the block of the next stage of the neural network of the detector in the absence of the object of interest in the coverage area of the viewing area of the block. If the pyramid option is chosen, when the image is represented by different scales, then, in this case, the information about the object is directly lost the more the higher the level of image scaling. In the proposed algorithm, due to a single transfer function, the image data will be compressed with the

maximum preservation of information, so there will be less loss. Although both options are equivalent in essence, they vary in processing quality.

The proposed architecture can be equivalently represented by a pair of encoder-detector (see fig. 7), which work in parallel and each of which performs its own task independently. The task of the encoder is to preserve the semantically rich in

Fig. 7 — Equivalent representation of the base unit of a neural network pyramid

information part of the image while compressing its volume. At the same time, during training, it provides compression of information about objects, transmitted to the upper network levels with sizes, determined by the range of the corresponding pyramid level. In addition, as a result of the operation of the encoder, a decision is made about which data is clearly not related to the detected classes and which, accordingly, should not be passed to the levels above. In turn, the detector performs its inherent task when working with objects of the corresponding level. Each encoder-detector pair has shared weights, regardless of the scale level of the images of objects with which they have to work.

When training the encoder using the back propagation method, the total error from the previous blocks and the error propagated by the decoder of this block are used. The decoder error generation is provided by comparison with the corresponding target functions.

Thus, it becomes possible to work with images of arbitrary size and in a wide range of the scale of detected objects. It should be noted that there is a similarity with the

temporal convolutional network (TCM) [17] architecture used for time series analysis, as an effective replacement for recursive neural networks. The practical effectiveness of this approach confirms the advantages of architecture proposed in the thesis.

Third Chapter is devoted to the development of a set of software tools for deep machine learning for solving problem of detection of objects and evaluating the results of experimental studies. The chapter describes the developed software package that implements the training algorithms of the proposed deep neural networks and developed algorithms for detecting objects in images. Demonstrates the composition and structure of the software package, its modules, programming language and libraries used. The procedure for preparing data and conducting an experiment is described. The results of experimental studies on publicly accessible databases of objects are presented, as well as a comparison with competitors. Conclusions are drawn on the compliance of the results with the international level.

The described software package was created by the author during the work on the thesis and is called a3net. It is its own machine learning library in the C++ programming language, which implements algorithms for deep learning and detection of objects based on it [18].

The software package consists of three main modules:

- The module for working with image databases of datasets. Databases are sets of named images, as well as markup files of objects on them. Markup files can be represented in xml, json and csv formats.

- The libs library module, which includes the external ones: (cublas - library for working with the GPU, including the implementation of the linear algebra for the GPU, eigen - a linear algebra library for the CPU, opencv - a library of computer vision algorithms, boost - a collection of class libraries that use the functionality of the C++ language; and internal programs lann - a library for creating, training and using a network with a nonlinear convolution kernel, lmath - a library of high-level mathematical operations, lmedia - a library of high-level operations for working with images, lservice is a library of service functions.

- The module of high-level applications apps, the task of which is to solve a particular task of detection using a selected database of objects. Modules can operate in training, recognition or detection modes. The module includes lp_sym_det programs - for working with license plate numbers, signs_det -

for working with road signs, motion_det - for working with moving objects, mscoco_det - for working with the MS COCO database and others.

Experimental studies were carried out in the following two main areas:

- Detection of small and closely-spaced objects.

- Detection of different-scaled objects.

To demonstrate the fidelity of the proposed theoretical and practical states, it was enough to conduct experiments on grayscale images, so the color component was removed from the images.

Algorithms and software were tested on HP Elitebook 8770w with Intel® Core™ i7-3840QM CPU @ 2,80GHz 2,80GHz, RAM 32GB and PCs with Intel® Xeon® Processor E5-2658 v3 CPU @ 2,20GHz 2,20GHz, RAM 32GB. The software in terms of matrix computing has been optimized, including taking into account the hardware capabilities of SSE2 and GPU. The training was mainly based on the NVIDIA Quadro K4000M 4 GB GDDR5 GPU and only partially on the basis of the NVIDIA GEFORCE GTX1080 TI 11 GB GDDR5X GPU. During training, two threads were used - one for servicing and operating the neural network, including when working with the GPU, another thread provided data pumping from a dataset, unpacking images and selecting the active frame.

Experimental studies of the proposed neural network architectures and methods and algorithms for training and detection showed that on publicly accessible databases of objects using generally accepted testing and evaluation criteria, the proposed solutions correspond to the international level. It is also worth noting that an increase in both speed and detection accuracy has been achieved on publicly accessible databases of small and closely spaced objects. For the latter, the obtained recall results are listed in the table 2. The same table contains the results of the work of third-party detectors for other open databases and the results of developed detector for these databases, when training on all available data, and not separately for each of them.

It follows from the table that the results of the developed a3net detector in all cases exceed the results of competitors both in the Recall parameter value and in the time rate of localization and recognition.

For objects of different scales, alignment of the obtained results of detection accuracy for categories of small, medium and large objects is observed, as can be seen from the table 3, which contains the test results on the open database MS COCO [19]. In particular, with a decrease in the accuracy of detection of medium and large objects, compared with some (but not all) competing methods, there is an improvement

Table 2 — Comparison of detection algorithms on databases containing small and closely spaced objects

DS, Algorithm, Backbone, Recall, T localization, T recognition,

name name name % ms ms

SSIG Sighthound 73,1

OpenALPR - 87,4 - -

UFPR-ALPR YOLOv2 85,5 1,6555 (GPU) on LP area 11,5164 (GPU)

a3net NiN-28 91,0 1,5 (CPU) on image 180x80 2 (CPU)

UFPR-ALPR Sighthound 47,4

OpenALPR - 50,9 - -

UFPR-ALPR YOLOv2 64,9 1,6555 (GPU) on LP area 11,5164 (GPU)

a3net NiN-28 93,0 0,15 (GPU) on image 180x80 0,2 (GPU)

Created by author DS RUS+KG

a3net NiN-28 89,0 0,15 (GPU) on image 180x80 0,2 (GPU)

in the detection result of small objects. It is important to note that no special measures, usually applied by other algorithms, were used to improve the accuracy of detection of any category of objects. This serves as the basis for the assertion of the possibility of obtaining even better results by detection systems, built on the basis of the methods and algorithms proposed in the thesis.

Table 3 — Comparison of detection algorithms for different-scaled objects based on MS COCO dataset

Algorithm, Backbone, AP, APs , APm , APl, FPS,

name name % % % % GPU

Multistage

Faster R-CNN+++ ResNet-101-C4 34,9 15,6 38,7 50,9 7

Faster R-CNN w FPN ResNet-101-FPN 36,2 18,2 39,0 48,2 7

Faster R-CNN by G-RMI Inception-ResNet-v2 34,7 13,5 38,1 52,0 7

Faster R-CNN w TDM Inception-ResNet-v2-TDM 36,8 16,2 39,8 52,1 7

a3net NiN-28 32,3 25,0 33,1 40,5 15

Singlestage

YOLOv2 DarkNet-19 21,6 5,0 22,4 35,5 45

SSD513 ResNet-101-SSD 31,2 10,2 34,5 49,8 46

DSSD513 ResNet-101-DSSD 33,2 13,0 35,4 51,1 46

RetinaNet ResNet-101-FPN 39,1 21,8 42,7 50,2 8

RetinaNet ResNeXt-101-FPN 40,8 24,1 44,2 51,2 8

YOLOv3 Darknet-53 33,0 18,3 35,4 41,9 46

In conclusion the main results of the work are presented, which are as follows:

1. A method has been developed for detecting small and closely spaced objects, characterized by the use of a deep neural network with a nonlinear convolution kernel, taking into account spatial information about the location of objects, and by solving the invariance problem inherent in convolutional neural networks.

2. Algorithms for initialization and training of a deep neural network with a nonlinear convolution kernel are developed, which allow building deeper neural networks by significantly reducing their redundancy by using longer information transfer paths between levels, while the initialization algorithm allows you to deal with the effect of a disappearing gradient, and the algorithm training, based on clipping the gradient by adaptive threshold, allows you to deal with the effect of the explosive gradient.

3. A method for detecting different-scaled objects has been developed, characterized by combining deep neural networks with a nonlinear convolution kernel with shared weighting coefficients, which allows to adjust the size of objects with the size of the neural network during training and use.

4. A complex of deep machine learning software tools has been developed for solving the problems of recognition and detection of visual objects, including procedures for working with deep neural networks with a nonlinear convolution kernel and implementing the proposed detection methods, based on which experimental studies have been carried out to confirm the theoretical results.

5. Experimental studies of the proposed methods for detecting objects, neural network architectures and the algorithms for their training, showed that on public databases of objects using generally accepted testing and evaluation criteria, the proposed solutions correspond to the international level. So on publicly available databases of small and closely spaced objects, an increase in the detection speed by several times, and in the accuracy of localization and recognition, up to 15 % achived.

Based on the formulated tasks and the results obtained on them, the goal of this thesis research is achieved. The studies performed and the experimental results obtained from them are of practical interest in creating systems for recognizing and detecting objects in images.

Prospects for further work:

1. Development of the neural network methods and algorithms obtained in the thesis in the direction of instance segmentation.

2. Expanding the scope of application of the developed methods and algorithms.

3. Further development of the a3net software package, or its integration into one of the open and widely used research frameworks.

Список литературы

1. Zeiler, M. D. Visualizing and Understanding Convolutional Networks / M. D. Zeiler, R. Fergus // CoRR. — 2013. — Т. abs/1311.2901. — arXiv: 1311.2901. —URL: http://arxiv.org/abs/1311.2901.

2. Bengio, Y. Learning Long-term Dependencies with Gradient Descent is Difficult / Y. Bengio, P. Simard, P. Frasconi // Trans. Neur. Netw. — Piscataway, NJ, USA, 1994. — Март. — Т. 5, № 2. — С. 157—166. — URL: http://dx.doi.org/10.1109/ 72.279181.

3. Glorot, X. Understanding the difficulty of training deep feedforward neural networks / X. Glorot, Y. Bengio // Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics. Т. 9 / под ред. Y. W. Teh, M. Titterington. — Chia Laguna Resort, Sardinia, Italy : PMLR, 13-15 May.2010. — С. 249—256. — (Proceedings of Machine Learning Research). — URL: http://proceedings.mlr.press/v9/glorot10a.html.

4. Lin, M. Network In Network / M. Lin, Q. Chen, S. Yan // CoRR. — 2013. — Т. abs/1312.4400. — arXiv: 1312.4400. —URL: http://arxiv.org/abs/1312.4400.

5. Cheng, Y. Mean Shift, Mode Seeking, and Clustering / Y. Cheng // IEEE Trans. Pattern Anal. Mach. Intell. — Washington, DC, USA, 1995. — Авг. — Т. 17, № 8. — С. 790—799. — URL: http://dx.doi.org/10.1109/34.400568.

6. Long, J. Fully Convolutional Networks for Semantic Segmentation / J. Long, E. Shelhamer, T. Darrell // CoRR. — 2014. — Т. abs/1411.4038. — arXiv: 1411. 4038. — URL: http://arxiv.org/abs/1411.4038.

7. FlowNet 2.0: Evolution of Optical Flow Estimation with Deep Networks / E. Ilg [и др.] // CoRR. — 2016. — Т. abs/1612.01925. — arXiv: 1612.01925. — URL: http://arxiv.org/abs/1612.01925.

8. Focal Loss for Dense Object Detection / T.-Y. Lin [и др.] // 2017 IEEE International Conference on Computer Vision (ICCV). — 2017. — С. 2999—3007.

9. Deep Residual Learning for Image Recognition / K. He [и др.] // 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 06.2016. — С. 770—778.

10. Veit, A. Residual Networks Behave Like Ensembles of Relatively Shallow Networks / A. Veit, M. Wilber, S. Belongie // Advances in Neural Information Processing Systems. — 2016. — Man.

11. Le, Q. V. A Simple Way to Initialize Recurrent Networks of Rectified Linear Units/Q. V. Le,N. Jaitly, G. E. Hinton//CoRR. — 2015. — T. abs/1504.00941. — arXiv: 1504.00941. — URL: http://arxiv.org/abs/1504.00941.

12. Independently Recurrent Neural Network (IndRNN): Building A Longer and Deeper RNN / S. Li [h gp.] // CoRR. — 2018. — T. abs/1803.04831. — arXiv: 1803.04831. — URL: http://arxiv.org/abs/1803.04831.

13. Pascanu, R. Understanding the exploding gradient problem / R. Pascanu, T. Mikolov, Y. Bengio // CoRR. — 2012. — T. abs/1211.5063. — arXiv: 1211.5063. — URL: http://arxiv.org/abs/1211.5063.

14. FlowNet: Learning Optical Flow with Convolutional Networks / P. Fischer [h gp.] // CoRR. — 2015. — T. abs/1504.06852. — arXiv: 1504.06852. — URL: http://arxiv.org/abs/1504.06852.

15. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks / S. Ren [h gp.] // ArXiv e-prints. — 2015. — Hmhb. — arXiv: 1506. 01497 [cs.CV].

16. SSD: Single Shot MultiBox Detector / W. Liu [h gp.] // CoRR. - 2015. -T. abs/1512.02325. — arXiv: 1512.02325. — URL: http://arxiv.org/abs/1512. 02325.

17. Bai, S. An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling / S. Bai, J. Z. Kolter, V. Koltun // CoRR. — 2018. — T. abs/1803.01271. — arXiv: 1803.01271. — URL: http://arxiv.org/abs/ 1803.01271.

18. Alexeev, A. A3Net: fast end-to-end object detector on neural network for scenes with arbitrary size / A. Alexeev, Y. Matveev, G. Kukharev // Robotics and Technical Cybernetics. — 2018. — CeHT. — T. 3. — C. 43—52.

19. Microsoft COCO: Common Objects inContext/T. Lin [ugp.] //CoRR. — 2014. — T. abs/1405.0312. — arXiv: 1405.0312. — URL: http://arxiv.org/abs/1405.0312.

Research-related publications of the author

Publications in editions from the list of the Higher Attestation Commission of the Russian Federation of peer-reviewed scientific journals where the main scientific results of the dissertations for the degree of candidate of science and for the degree of PhD have to be published

1. Alexeev, A. A. Methods and algorithms for obtaining depth maps for their use in asymmetric video systems / A. A. Alexeev // XXI century: results of the past and problems of the present plus. — 2016. — T. 6, № 34. — C. 23—30. — (in Russian).

2. Alexeev, A. A. The method of clustering and recognition of dynamic sequences using the apparatus of Markov chains / A. A. Alexeev // Robotics and technical cybernetics. — 2017. — T. 2, № 15. — C. 37—47. — (in Russian).

3. Alexeev, A. A. A3NET: fast neural network end-to-end detector of objects in images of arbitrary size / A. A. Alexeev // Robotics and technical cybernetics. —

2018. — T. 3. — C. 43—52. — (in Russian).

Publications in international editions, indexed in Scopus

1. Alexeev A., Matveev Y., Kukharev G. Using a Fully Connected Convolutional Network to Detect Objects in Images//2018 5th International Conference on Social Networks Analysis, Management and Security, SNAMS 2018, 2018, pp. 141-146. —(Scopus).

2. Alexeev A., Matveev Y.N., Kukharev G. Object detection on base of modified convolutional network//Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics),

2019, Vol. 11401, pp. 530-537. — (Scopus).

3. Alexeev A., Matveev Y., Matveev A.I., Kukharev G., Almatarneh S. Detector of Small Objects with Application to the License Plate Symbols//Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2019, Vol. 11506, pp. 533-544. — (Scopus).

4. Alexeev A., Matveev Y.N., Matveev A., Pavlenko D. Residual Learning for FC Kernels of Convolutional Network//Lecture Notes in Computer Science

(including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2019, Vol. 11728, pp. 361-372. — (Scopus).

In conference proceedings

1. Alexeev, A. A. Training on three-dimensional models with asymmetric recognition / A. A. Alexeev // Almanac of scientific works of young scientists of ITMO University. — 2017. — T. 1. — C. 1—3. — (in Russian).

2. Alexeev, A. A. Neural network method of image sequence analysis for forming a threedimensional reconstruction of an object / A. A. Alexeev // 10th AllRussian Multiconference on Management Issues MKPU2017. — 2017. — T. 1. — C. 14—16. — (in Russian).

3. Alexeev, A. A. Fast stereo matching method based on the selection and analysis of contrast areas / A. A. Alexeev // Scientific works of participants in the competition "Young Scientists of ITMO University". — 2017. — C. 18—24. — (in Russian).

4. Alexeev, A. A. Multiangle neural network cascading classifier of image objects / A. A. Alexeev // Collection of Abstracts of the Congress of Young Scientists. — 2018. — (in Russian).

5. Alexeev, A. A. Recognition of types of unmanned aerial vehicles by their radar signatures / A. A. Alexeev // collection of the XXIV International scientific and technical conference «Radar, navigation, communication» (RLNC*2018). — 2018. — C. 291—296. — (in Russian).

Введение

Детектирование объектов на изображениях со сложным фоном является одной из важнейших задач обработки визуальной информации. Детектирование относится к области компьютерного зрения и включает в себя множественную локализацию объектов и их последующую классификацию. Потребность в подобных алгоритмах и решениях, основанных на них, очень высока в таких отраслях как робототехника, искусственный интеллект, мониторинг и анализ визуальных данных. Если говорить более конкретно, то системы детектирования находят широкое применение в системах управления автоматизированными беспилотными средствами, системах ассистирования и привлечения внимания, системах безопасности и управления доступом, информационно-поисковых системах, системах наблюдения, трекинговых системах, системах учета количества объектов, системах детектирования аномалий, системах автоматизированного детектирования на производстве, конвейерных линиях, в сельском хозяйстве. Разработкой и активным внедрением систем детектирования занимаются такие крупные компании как Microsoft, Google, Facebook, Amazon, Сбербанк и другие. Предоставляемые в открытый доступ полученные ими результаты, а также доступность открытых средств разработки, привлекает и обеспечивает значительный интерес со стороны многих других специалистов к использованию современных достижений области. Это позволяет быстро перестроиться к решению задач, которые ранее решались на основе классических методов. Данные системы также находят себе военное применение. Так, например, в 2016 году в США стартовал проект Управления перспективных исследовательских проектов Министерства обороны (DARPA) по созданию опытного образца комплекса борьбы с малыми БПЛА (Беспилотный Летательный Аппарат) - MFP (Mobile Force Protection), одной из ключевых задач которого станет детектирование малых и близкорасположенных объектов. Цель к 2020 году - создание финального прототипа. В России также ведутся разработки по данной тематике. Определенная новизна задач, заключающаяся в сравнительно недавнем, начиная с 2012 года, сразу после получения значительного прогресса по классификации изображений на основе глубоких нейронных сетей на соревновании Large Scale Visual Recognition Challenge 2012 (ILSVRC2012), активном и успешном развитии области, сохраняющейся недостаточной проработанности задач, связанных

с детектированием, например, малых, близкорасположенных и разноразмерных объектов, а также высокой потребности по созданию подобного рода систем, характеризуют актуальность работы.

В последние годы задачи детектирования и классификации объектов на изображениях все чаще решаются нейросетевыми методами, среди которых следует выделить методы глубокого обучения и построенные на их основе сверточные нейронные сети. Последние доказали свое превосходство по ряду критериев над классическими методами, такими, например, как точность детектирования и сложность разработки архитектур или алгоритмов.

С учетом сказанного, применение современных методов машинного зрения и глубокого обучения является основой для разработки алгоритмов детектирования малых, близкорасположенных и разноразмерных объектов на изображениях произвольного размера.

Несмотря на то, что нейросетевые методы и алгоритмы получили очередной импульс развития буквально несколько лет тому назад, сами исследования в области детектирования визуальных объектов на базе нейронных сетей имеют многолетнюю историю и связаны с работами российских ученых: Тимофеева А. В., Дорогова А. Ю., Потапова А.С., Калиновского И.А. и других, а также с работами зарубежных ученых: Ф. Розенблатта, Д. Хьюбела, Т. Визела, Д. Цибенко, Т. Кохонена, М. Турка, А. Петланда, Я. Лекуна, Д. Хинтона, и других. В последние годы стоит также отметить работы таких специалистов как И. Гудфелоу, Р. Салатхутдинова, И. Бенджио, П. Аббеля, А. Карпатского, Д. Сонга и других, внесших значительный теоретический и практический вклад в дальнейшее развитие области.

Целью данной работы является повышение точности детектирования малых, близкорасположенных и разноразмерных объектов на изображениях произвольного размера.

Для достижения поставленной цели были поставлены и решены следующие задачи:

1. Исследование методов и алгоритмов детектирования малоразмерных, близкорасположенных и разноразмерных объектов на изображениях произвольного размера.

2. Разработка базовой архитектуры глубокой нейронной сети на основе глубокой нейронной сети с полносвязным (нелинейным) ядром свертки для

повышения точности детектирования малоразмерных и близкорасположенных объектов.

3. Разработка алгоритмов обучения базовой архитектуры глубокой нейронной сети.

4. Разработка на основе базовой, архитектуры глубокой нейронной сети для детектирования разноразмерных объектов.

5. Разработка программных средств для реализации предложенных алгоритмов обучения глубокой нейронной сети и детектирования объектов.

6. Проведение экспериментальных исследований с использованием разработанных программных средств для подтверждения полученных теоретических результатов.

Объект исследования. Малые, близкорасположенные и разноразмерные объекты, методы и алгоритмы их детектирования.

Предмет исследования. Методы и алгоритмы детектирования малых, близкорасположенных и разноразмерных объектов на изображениях произвольного размера на основе глубоких нейронных сетей.

Методология и методы исследования. Используется широко распространенная в прикладных научных исследованиях методология: постановка целей и задач, анализ соответствующей литературы и текущих результатов работ, разработка методов и алгоритмов, экспериментальная оценка их эффективности. Экспериментальные исследования выполнялись по общепринятым на международных конкурсах методикам проведения эксперимента и метрикам оценки результатов, а также на общедоступных базах данных изображений с использованием стандартного их деления на обучающую, тестовую и валидационную выборки. При решении задач диссертационного исследования использовались методы машинного обучения, классификации образов, линейной алгебры, цифровой обработки изображений и современные методы разработки программного обеспечения.

Научная новизна: Разработанные в диссертации оригинальные нейросете-вые методы и алгоритмы позволяют решать задачи детектирования объектов на изображениях, включающих объекты разного количества, типа, размера и степени близости расположения друг к другу, на основе предложенной базовой архитектуры нейронной сети.

Для этого были разработаны:

1. Метод детектирования малоразмерных и близко расположенных объектов на основе использования предложенной базовой архитектуры глубокой нейронной сети с полносвязным (нелинейным) ядром свертки. Данная архитектура решает ряд проблем сверточных сетей, таких, например, как сохранность информации о пространственном расположении объектов путем отказа от пулинга, и, как следствие, повышает точность локализации объектов, эквивариантность к частям целого объекта, а также устранение алиазинговых артефактов при использовании большого шага операции свертки, что в свою очередь важно для ограничения глубины сетей и повышения быстродействия систем детектирования.

2. Алгоритмы инициализации и обучения базовой архитектуры. Алгоритм инициализации позволяет строить очень глубокие нейронные сети за счет снижения влияния эффекта исчезающего градиента при обучении и обеспечивать постепенный переход от эквивалентного ансамбля параллельно соединенных простых сетей к единой сети. Это позволяет снижать избыточность нейронной сети и, следовательно, ее вычислительную сложность, а также использовать более длинные пути прохождения информации. Последнее важно для построения более сложных решающих функций. Алгоритм обучения, включающий адаптивную настройку порога, позволяет бороться с эффектом взрывного градиента.

3. Метод детектирования разноразмерных объектов путем построения ней-росетевой архитектуры, состоящей из пирамиды базовых архитектур с разделяемыми весовыми коэффициентами. Это позволяет использовать одну и ту же базовую архитектуру для детектирования разноразмерных объектов, а также потенциально, в определенных пределах и при определенных условиях обучения, обеспечить инвариантность к размерам объектов.

Теоретическая и практическая значимость. Теоретическая значимость работы заключается в совершенствовании существующих и разработке новых нейросетевых методов и алгоритмов обучения и классификации для задач детектирования объектов на изображениях, в том числе малых, близкорасположенных и разноразмерных объектов. Практическая значимость заключается в использовании разработанных программных решений при создании и обучении системы детектирования, которая на основе общепринятых оценок качества работы показала

соответствие современным требованиям, в том числе, высокую вычислительную эффективность алгоритмов.

Основные положения, выносимые на защиту:

1. Метод детектирования малоразмерных и близко расположенных объектов, отличающийся использованием глубокой нейронной сети с нелинейным ядром свертки, позволяющей более точно определять местоположение объектов, и решением проблемы эквивариантности, присущей сверточным нейросетям, за счет отказа от пулинга и применения нелинейного ядра свертки.

2. Алгоритмы инициализации и обучения глубокой нейронной сети с нелинейным ядром свертки, позволяющие строить более глубокие нейронные сети за счет существенного снижения их избыточности путем использования более длинных путей передачи информации между уровнями, при этом алгоритм инициализации позволяет бороться с эффектом исчезающего градиента, а алгоритм обучения, основанный на урезании градиента путем адаптивной настройки порога, позволяет бороться с эффектом взрывного градиента.

3. Метод детектирования разноразмерных объектов, отличающийся объединением с разделяемыми весовыми коэффициентами глубоких нейронных сетей с нелинейным ядром свертки, что позволяет согласовывать размеры объектов с размером нейронной сети в процессе обучения и использования.

4. Комплекс программных средств глубокого машинного обучения для решения задач классификации и детектирования визуальных объектов, включающий процедуры работы с глубокими нейронными сетями с нелинейным ядром свертки и реализующий предлагаемые методы детектирования.

Достоверность научных положений и выводов, полученных в данной диссертационной работе, обеспечивается результатами экспериментальных исследований, успешным представлением основных положений в докладах на ведущих международных конференциях, согласованностью результатов диссертационной работы с результатами других авторов и успешным внедрением полученных практических результатов.

Внедрение результатов работы. Результаты диссертационной работы внедрены в учебный процесс по магистерской образовательной программе

"Речевые информационные системы" в дисциплине «Многомодальные биометрические системы». Кроме того, полученные результаты использовались

1. При выполнении прикладных научных исследований по НИР №718574 (проект 5-100) «Методы, модели и технологии искусственного интеллекта в биоинформатике, социальных медиа, киберфизических, биометрических и речевых системах», Университет ИТМО.

2. В составе программно-аппаратного комплекса детектирования летательных объектов Акционерного Общества «Ульяновский механический завод», являющегося дочерним обществом АО «Концерн ВКО «Алмаз -Антей».

Апробация работы. Основные результаты работы докладывались на следующих научно-методических конференциях: «XLV научная и учебно-методическая конференция Университета ИТМО» (Санкт-Петербург, Россия, 2016), «XLVI научная и учебно-методическая конференция Университета ИТ-МО» (Санкт-Петербург, Россия, 2017), «10-я Всероссийская мультиконференция по проблемам управления (МКПУ-2017)» (Геленджик, Россия, 2017) «XXIV Международная научно-техническая конференция Радиолокация, навигация, связь» (Воронеж, Россия, 2018) «XV Всероссийская межвузовская конференция молодых ученых» (Санкт-Петербург, Россия, 2018), «VIII Всероссийский конгресс молодых ученых» (Санкт-Петербург, Россия, 2019), The «1t International Workshop on Deep and Transfer Learning» (Валенсия, Испания, 2018), The «23rd Iberoamerican Congress on Pattern Recognition» (Мадрид, Испания, 2018), The «15th International Work-Conference on Artificial Neural Networks» (Гран-Канария, Испания, 2019), The «28th International Conference on Artificial Neural Networks» (Мюнхен, Германия, 2019).

Личный вклад. Автор принимал активное участие в исследовании и анализе существующих методов к решению задачи детектирования объектов на изображениях. На основе проведенного анализа автором разработаны методы и алгоритмы детектирования объектов на изображениях, а также алгоритм инициализации и обучения нейронной сети с нелинейным ядром свертки на основе которой выполнены задачи детектирования. Экспериментальная часть реализована посредством использования разработанного в процессе работы над диссертацией программного обеспечения. Автором лично решены задачи диссертации. Подготовка основных публикаций проводилась с соавторами, при этом вклад автора был основным.

Публикации. Основные результаты по теме диссертации изложены в 12 печатных изданиях, 3 из которых опубликованы в журналах, рекомендованных ВАК, 4 — в периодических научных изданиях, индексируемых Scopus, 5 — в тезисах докладов всероссийских и международных конференций.

Объем и структура работы. Диссертация состоит из введения, трёх глав и заключения. Полный объём диссертации составляет 146 страниц, включая 49 рисунков и 11 таблиц. Список литературы содержит 138 наименований.

Глава 1. Обзор методов и алгоритмов детектирования объектов на основе

нейронных сетей

В первой главе даны общепринятые определения современным глубоким нейронным сетям, описаны принципы их работы, а также приведены сопутствующие им параметры. Показаны существующие варианты и особенности сканирования входного изображения и промежуточных карт признаков свер-точной нейронной сети через линейный набор фильтров и через нелинейное ядро. Приведены преимущества замены линейного набора фильтров сверточ-ной нейронной сети на нелинейные ядра, представляющие собою полносвязные нейронные сети. Описаны известные и наиболее популярные структуры ней-росетевых систем детектирования объектов на изображениях и применяемые к ним метрики. Выявлены слабые стороны существующих нейросетевых методов к решению задачи определения пространственных координат объектов, в частности малых, близкорасположенных и разноразмерных объектов. Уделено внимание вопросу создания архитектур глубоких нейронных сетей за счет применения единичных передаточных функций. Также рассмотрены некоторые методы подготовки и дополнения обучающих данных.

1.1 Задача детектирования объектов 1.1.1 Постановка задачи

Под детектированием понимается одновременная множественная локализация объектов на изображениях и их классификация [1]. Сегментация экземпляров (instant segmentation или иначе формирование плотной маски интересуемых объектов) является дополнением задачи детектирования и определяет область пикселей, к которым относится объект [2].

На рис. 1.1 показаны примеры задач детектирования и сегментации экземпляров на примере Беспилотных Летательных Аппаратов (БПЛА).

а)Определение области б)Сегментация экземпляров

Рисунок 1.1 — Примеры различных задач детектирования объектов

1.1.2 Эволюция методов детектирования объектов

Существует разделение на традиционные (или классические) и нейросе-тевые методы решения задачи детектирования объектов [3]. Среди традицио-ных методов классификации можно выделить методы, основанные на внешних признаках (Appearance based), на формировании признаков (Feature based), на интерпретационых деревьях (Interpretation trees), на основе шаблонов (Pattern matching). Данные методы в настоящее время вытеснены нейросетевыми методами [3], поскольку разница показателей точности детектирования mAP (mean average precision, см. (1.37)) достигла 50 и больше процентов на известных базах данных детектирования объектов, что показано на рис. 1.2 (все основные нейро-сетевые методы, показанные на данном рисунке, рассмотрены в разделе 1.3). Этот разрыв объясним свойством нейронных сетей обеспечивать повышение точности детектирования при наличии большого объема обучающего материала, см. рис. 1.3. Здесь под не глубокими сетями понимаются сети с малым количеством слоев, а под простыми сетями сети, не использующую свертку, т.е. многослойный перцептрон. Традиционные методы могут еще составить конкуренцию при решении ряда задач, например, таких как построение карты диспаритетов в задаче сопоставления изображений стереопары, хотя и эти задачи сейчас эффективно решаются нейросетевыми методами [4]. В задачах детекции объектов, на известных и содержащих достаточный для обучения материал базах данных, самые лучшие решения обеспечиваются исключительно нейросетевыми методами. На основе

проведенного в диссертационном исследовании анализа, можно сделать вывод о перспективности исследования и разработки методов и алгоритмов детектирования, в основе которых лежат нейронные сети. Поэтому далее, в диссертационном исследовании, будут рассматриваться только нейро сетевые методы решения задачи детекции объектов.

Рисунок 1.2 — Прогресс улучшения точности детектирования mAP на БД MS COCO и VOC и эволюция методов детектирования [3]

CL

<

£

Глубокие нейронные сети

Не глубокие нейронные сети

Традиционые методы

Простые нейронные сети

Объем данных

Рисунок 1.3 — Прогресс улучшения точности детектирования mAP при увеличении объема обучающего материала[5]

1.1.3 Детектирование малых, близкорасположенных и разноразмерных

объектов

В наиболее часто используемой при разработках детекторов базы данных объектов из повседневной жизни в их естественном окружении БД MS COCO [6] проводится разделение объектов в зависимости от их абсолютных размеров (таблица 1), а в [7] показана статистика используемых в данной БД объектов (таблица 2) в процентах для каждого типа измерений от общего количества. Дальше в диссертационном исследовании под близкорасположенными объектами будут пониматься близкие, но не пересекащиеся объекты малых размеров, абсолютное расстояние между которыми составляет менее 10 пикселей. При малой разрешающей способности систем детектирования такие объекты могут быть не различимы. Разноразмерными считаются объекты, которые в соответствии с классификацией по их размерности (таблица 1) могут быть отнесены к категориям больших, средних и малых объектов. Размер самого большого объекта может в несколько раз превосходить размер самого малого объекта, что усложняет работу нейросетевых детекторов на размерах объектов, не используемых при обучении.

Особую сложность вызывает детекция малых и разделение близкорасположенных объектов, ввиду архитектурных особенностей применяемых для решения задачи сверточных нейронных сетей, в частности из-за потери пространственной информации и часто незасисимости уровня погрешности детектирования

Таблица 1 — Определение классов объектов по размеру в БД MS COCO

Мин. размер области, Макс. размер области,

пиксели пиксели

Малые объекты 1x1 32x32

Средние объекты 33x33 96x96

Большие объекты 97x97 то x то

Таблица 2 — Статистика БД MS COCO

Количество объектов, % Изображения, % Площадь объектов, %

Малые объекты 41,43 51,82 1,23

Средние объекты 34,32 70,07 10,18

Большие объекты 24,24 82,28 88,59

от размера объектов. Последнее означает, что относительная ошибка детектирования объектов, например их детектируемая область, определяемая через IoU (intersection over union) (1.36), при одном и том же абсолютном уровне ошибки определения координат, будет больше для малых объектов. Также сложность детекции малых объектов заключается и в частоте появления на изображениях малых объектов, наличия большого количества областей изображений, не относящихся к интересуемым объектам (объекты других классов, в том числе задний фон), сложных сцен (большое количество информативных признаков как самих объектов, так и других областей изображений) и т.п. Наглядным примером возникающих проблем в подобных решениях является результат детектирования объектов [7] одной из лучшей в настоящее время нейросетевой архитектурой Mask R-CNN на изображении из БД MS COCO [6], которое включает малые объекты (см. рис. 1.4). Эта и ряд других нерешенных проблем, а также растущий интерес к их решению, заставляет проводить соревнования международного уровня на различных открытых базах данных, например самые известные среди них соревнования на БД MS COCO [6] и БД Pascal VOC [8]. Количество подобных и других соревнований и число участвующих в них растет с каждым годом. Стоит также отметит, что и сложность решаемых задач также меняется, например постепенный переход - классификация одиночных объектов -> множественное

определение ограничивающих областей объектов -> сегментация экземпляров -> определение трехмерных ограничивающих областей объектов.

Рисунок 1.4 — Пример детектирования объектов разного размера сетевой

архитектурой Mask R-CNN [7]

Основные проблемы и недостатки сверточных нейронных сетей, как основы нейросетевых методов детектирования, будут описаны в разделе 1.2.1, а в разделе 1.3 будут обсуждаться детально конкретные существующие архитектурные решения, в частности их особенности, позволяющие решать частные проблемы детектирования.

1.2 Глубокие нейронные сети 1.2.1 Сверточные нейронные сети

Многослойная сверточная нейронная сеть (convolutional neural network, CNN) является наиболее характерным представителем области глубокого обучения. Архитектуру большинства CNN можно сопоставить с зрительной системой человека, которая состоит из двух подсистем - первичной зрительной подсистемы (так называемой зоны головного мозга cortex V1) формирования карт признаков

(feature maps) и вторичной зрительной подсистемы (так называемой зоны головного мозга cortex V2), решающей задачу обработки и классификации на основе имеющихся признаков [9]. На рисунке 1.5 приведена типовая и часто используемая топология сверточной нейронной сети - VGG16 [10]. На ней видно две подсистемы, первая сверточная - она состоит из 14 карт признаков (feature maps), вторая полносвязная, она решает задачу класификации, иногда регрессии.

224* 234*3 22-1 х 221 х til

Рисунок 1.5 — Сетевая топология VGG16 [10]

В первой подсистеме формирование признаков на каждом слое происходит иерархически. Самый первый слой формирует базовые примитивы, второй связку этих примитивов и формирование базовых фигур и т.д. до последнего слоя, который представляет собою описание деталей объекта или сам объект [11]. Для формирования каждого последующего слоя карты признаков над предыдущим слоем карты признаков производится одна или несколько операций. Среди них объединение (pooling), свертка с набором базовых фильтров (чьи веса вычисляются в процессе обучения) [12] и последующее нелинейное преобразование [12]. Размер фильтров и их количество определяются на этапе проектирования системы. Операция пулинга достаточно часто используется в сверточных нейронных сетях, хотя не всегда. Она обеспечивает некоторую инвариантность к небольшим смещениям объектов, а также позволяет снизить размерность формируемых

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.