Распознавание редких дорожных знаков с использованием синтетических обучающих выборок тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Шахуро Владислав Игоревич
- Специальность ВАК РФ05.13.17
- Количество страниц 92
Оглавление диссертации кандидат наук Шахуро Владислав Игоревич
Введение
Глава 1. Обзор литературы
1.1 Использование синтетических данных для обучения алгоритмов распознавания изображений
1.2 Порождающие нейронные сети
1.3 Распознавание дорожных знаков на изображениях
1.3.1 Эвристические алгоритмы распознавания дорожных знаков
1.3.2 Методы распознавания дорожных знаков на основе классических методов машинного обучения
1.3.3 Методы распознавания дорожных знаков на основе глубоких сверточных нейронных сетей
Глава 2. Российская база изображений дорожных знаков
2.1 Обзор существующих баз дорожных знаков
2.2 Описание российской базы знаков
2.3 Экспериментальная оценка существующих алгоритмов
2.3.1 Детектор
2.3.2 Классификатор
2.4 Разбиение КГЗВ для решения задачи распознавания редких дорожных знаков
2.5 Заключение
Глава 3. Генерация синтетических тренировочных выборок
для классификации дорожных знаков
3.1 Безусловная генерация изображений дорожных знаков
3.1.1 Постановка задачи
Стр.
3.1.2 Обучение конкурирующих порождающих нейросетей
3.1.3 Обучение порождающих нейросетей с помощью метрики Васерштейна первого порядка
3.1.4 Генерация условных изображений
3.1.5 Экспериментальная оценка
3.2 Условная генерация изображений дорожных знаков
3.2.1 Предложенный метод
3.2.2 Обучение на несбалансированной выборке
3.2.3 Экспериментальная оценка
3.3 Улучшение синтетических изображений дорожных знаков с помощью нейросетей
3.3.1 Описание метода
3.3.2 Экспериментальная оценка
3.4 Заключение
Глава 4. Классификация редких дорожных знаков
4.1 Описание метода
4.1.1 Генерация синтетических данных
4.1.2 Базовый метод классификации
4.1.3 Улучшение нейросетевых признаков
4.1.4 Предложенный метод классификации
4.1.5 Метод разделения редких и частых знаков
4.2 Экспериментальная оценка
4.2.1 База изображений и данные для обучения
4.2.2 Результаты разных подходов
4.2.3 Выводы
Глава 5. Синтез данных для обучения детектора дорожных
знаков
Стр.
5.1 Генерация синтетических изображений дорожных знаках
5.1.1 Случайное размещение дорожных знаков
5.1.2 Замена реальных дорожных знаков синтетическими
5.2 Метрики качества
5.2.1 Оценка качества детектора без учета предсказаний классификатора
5.2.2 Оценка качества детектора с учетом предсказаний классификатора
5.3 Оценка качества детектора и классификатора на подмножестве классов
5.4 Экспериментальная оценка
5.5 Заключение
Заключение
Список литературы
Список рисунков
Список таблиц
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Исследование переносимости нейросетевых моделей между различными распределениями данных в задаче детектирования объектов2022 год, кандидат наук Никитин Андрей Дмитриевич
Разработка алгоритмов распознавания объектов воздушной съемки на основе свёрточных нейронных сетей c иерархическим классификатором2022 год, кандидат наук Нгуен Ван Чонг
Автоматизированные системы научных исследований угроз безопасности личности2023 год, кандидат наук Бабичева Маргарита Вадимовна
Нейросетевое моделирование и машинное обучение на основе экспериментальных и наблюдательных данных2021 год, доктор наук Сбоев Александр Георгиевич
Восстановление геометрических свойств трехмерных форм методами машинного обучения с приложением к инженерным задачам2023 год, кандидат наук Матвеев Альберт Антонович
Введение диссертации (часть автореферата) на тему «Распознавание редких дорожных знаков с использованием синтетических обучающих выборок»
Введение
Одной из основных задач компьютерного зрения является задача распознавания объектов на изображении. В большинстве случаев она решается с помощью методов машинного обучения по прецедентам. Для таких методов часто нужна обучающая выборка значительного размера. Качество распознавания на основе современных машинного обучения существенно зависит от размера обучающей выборки. Например, в работе [1] показано, что использование обучающей выборки размером 4.4 миллиона экземпляров при обучении глубинных нейросетей позволяет довести уровень распознавания лиц на изображениях до уровня человека на эталонной коллекции LFW [2].
Методы генерации синтетических обучающих выборок позволяют решить следующие проблемы при обучении алгоритмов:
— трудоемкость получения выборок большого размера (которые необходимы, например, при обучении глубинных нейронных сетей);
— трудоемкость создания эталонной разметки для выборок;
— необходимость создания новой выборки при изменении предметной области;
— получение данных для редких классов объектов;
— получение качественных моделей за счет обучения на сложных синтетических выборках.
В данной работе исследуются методы генерации синтетических обучающих данных применительно к задаче распознавания автодорожных знаков. Дорожный знак — плоский искусственный объект с фиксированным внешним видом. С помощью автоматизированной компьютерной генерации синтетические изображения дорожных знаков можно получать быстро и в больших количествах. Задачу распознавания дорожных знаков можно разделить на два этапа: детекция и классификация. На этапе детекции все дорожные знаки выделяются прямоугольниками, на втором этапе — классифицируются: каждому
выделенному дорожному знаку присваивается метка класса из набора заранее заданных классов. Существуют две прикладные задачи, в которых используются алгоритмы распознавания знаков.
Первая задача — управление беспилотным автомобилем. Беспилотные автомобили — это автомобили, которые способны ездить по дорогам без водителя безопасно для других людей. Ключевая компонента системы управления беспилотным автомобилем — распознавание объектов. Объектами интереса являются в первую очередь пешеходы, другие автомобили, светофоры и дорожные знаки.
Вторая задача, в которой используется детектирование дорожных знаков — автоматическое составление карт по данным видеорегистраторов, установленных на автомобилях. Задача является актуальной, т.к. в настоящее время составление и поддержание в актуальном состоянии подробных дорожных карт требует либо значительных финансовых затрат (если используется коммерческое решение), либо большое количество человеческого времени (если для разметки данных используются бесплатные краудсорсинговые проекты).
Детектор дорожных знаков, используемый в таком автомобиле, должен удовлетворять нескольким требованиям:
1. Находить широкий класс дорожных знаков, в том числе и знаки, которые встречаются в обучающих выборках крайне редко. Примеры таких знаков приведены на рис. 1. В существующих работах под задачей распознавания дорожных знаков обычно понимают распознавание ограниченного набора классов дорожных знаков, которые присутствуют в большом количестве в обучающей выборке. При этом общее число классов знаков на порядки больше.
2. Быть устойчивым к различным условиям освещения и погодным условиям: темному времени суток, снегу, дождю и т.п.
3. Удовлетворять требованиям по полноте (близко к 100%) и точности (1 ложное обнаружение на 1 минуту видеопотока, т.е. примерно 90%), достаточным для работы с видеопотоком.
Рисунок 1 — Примеры редких российских дорожных знаков
Для удовлетворения всем трем означенным требованиям систему распознавания дорожных знаков нужно обучать на репрезентативной выборке. Вместо дорогостоящей разметки большого массива данных можно использовать синтетические обучающие примеры.
Несмотря на то, что задача генерации синтетических данных для обучения алгоритмов распознавания объектов активно исследуется в компьютерном зрении, методов, решающих задачу генерации синтетических обучающих выборок для распознавания дорожных знаков, немного. Можно отметить работы [3—5], в которых рассматриваются методы генерации синтетических данных по иконке с помощью заранее заданных преобразований (поворот, перенос, размытие, изменение яркости и цветности). Экспериментальная оценка простого метода генерации обучающих данных показывает, что добавление синтетических данных к реальным данным позволяет улучшить качество классификации. Однако текущие методы не улучшают качество детектирования дорожных знаков и не позволяют обучать детектор и классификатор дорожных знаков только на синтетических данных с приемлемым качеством.
Перспективным направлением исследований по синтезу обучающих выборок в настоящее время является использование порождающих нейросетевых моделей. В работе [6] был предложен метод генерации реалистичных синтетических изображений с использованием конкурирующих нейросетей (Generative Adversarial Networks, GAN). Ключевая идея заключается в том, что вместо использования аналитической оценки реалистичности изображения обучается специальная нейросетевая модель, которая отличает реальные изображения от сгенерированных. Таким образом, аналитическая оценка заменяется на модель, настроенную по данным. Это позволило резко повысить фотореализм
синтетических изображений. Конкурирующие нейронные сети в настоящее время успешно применяются для задачи генерации реалистичных синтетических изображений [7], перевода изображений в другой домен [8] (например, перевод спутникового снимка в карту области, стилизация изображений). В [9] было показано, что синтетические данные, генерируемые с помощью GAN, помогают улучшить качество алгоритма в задаче реиндентификации человека.
Цель данной работы — повышение качества распознавания редких дорожных знаков за счет использования синтетических обучающих данных.
Для достижения данной цели были поставлены следующие задачи:
1. Собрать и разметить выборку кадров с дорожными знаками широкого класса с полной разметкой встречающихся классов знаков. Выборка должна подходить для задачи распознавания редких дорожных знаков.
2. Исследовать применимость современных нейросетевых методов генерации изображений к задаче синтеза обучающих выборок для классификации дорожных знаков.
3. Разработать метод условной нейросетевой генерации изображений дорожных знаков для обучения классификатора дорожных знаков.
4. Разработать метод повышения визуального реализма синтетических изображений редких дорожных знаков.
5. Разработать метод классификации редких дорожных знаков.
6. Разработать метод синтеза обучающих выборок для повышения качества детектирования редких дорожных знаков.
Основные положения, выносимые на защиту:
1. Собрана и размечена выборка российских дорожных знаков (Russian Traffic Sign Dataset, RTSD). Эта выборка превосходит другие публичные выборки дорожных знаков по количеству кадров, классов знаков. Выборка содержит кадры, снятые в различных условиях освещения, погодных условиях и временах года. Выборка содержит 205 классов знаков, из которых 99 классов — редкие (содержатся только в тестовой части выборки).
2. Исследована применимость порождающих конкурирующих нейросетей к задаче генерации дорожных знаков. Добавление синтетических обучающие выборки, полученные с помощью порождающей нейросети, к реальным обучающим данным позволяет повысить качество классификатора дорожных знаков. Предложен метод условной генерации дорожных знаков на основе метрики Васерштейна.
3. Предложен нейросетевой метод улучшения синтетических изображений дорожных знаков. Обучающие данные, полученные с помощью данного метода, позволяют повысить точность классификации дорожных знаков.
4. Предложен метод классификации дорожных знаков, позволяющий классифицировать как частые (присутствующие в обучающей и тестовой выборках), так и редкие (присутствующие только в тестовой выборке) классы дорожных знаков. Метод обучается на реальных и синтетических обучающих примерах.
5. Предложен метод синтеза обучающих выборок для детекции дорожных знаков. Экспериментальная оценка показала, что предложенный метод позволяет повысить точность детектирования редких дорожных знаков.
Научная новизна:
1. В диссертационной работе впервые исследована задача распознавания редких дорожных знаков на достаточно большой выборке с большим количеством классов.
2. В работе впервые подробно исследована применимость конкурирующих порождающих нейросетей к задаче генерации синтетических изображений дорожных знаков. Исследованные методы протестированы на задачах классификации дорожных знаков.
3. В работе предложен новый метод решения задачи классификации дорожных знаков, позволяющий улучшить качество классификации
редких дорожных знаков при сохранении качества классификации частых дорожных знаков. 4. В работе предложен новый метод синтеза данных для обучения детектора дорожных знаков, повышающий точность детектирования редких дорожных знаков. Практическая значимость.
Публикации. Результаты работы изложены в 5 печатных изданиях, входящих в базу цитирования Scopus.
Публикации повышенного уровня:
1. Shakhuro, V. Image synthesis with neural networks for traffic sign classification / V. I. Shakhuro, A. S. Konouchine // Computer Optics. — 2018. — т. 42, № 1. — с. 105—112. (Scopus, Q2).
2. Shakhuro V. Classification of rare traffic signs / B. V. Faizov, V. I. Shakhuro, V. V. Sanzharov, A. S. Konouchine // Computer Optics. — 2020. — т. 44, № 2. — с. 236—243. (Scopus, Q2).
Публикации стандартного уровня:
3. Shakhuro, V. Russian traffic sign images dataset / V. I. Shakhuro, A. S. Konushin // Computer Optics. — 2016. — т. 40, № 2. — с. 294—300. (Scopus,
Q3).
Прочие публикации:
4. Shakhuro, V. Rare Traffic Sign Recognition Using Synthetic Training Data / V. Shakhuro, B. Faizov, A. Konushin // Proceedings of the 3rd International Conference on Video and Image Processing. — Shanghai, China : Association for Computing Machinery, 2019. — с. 23—26. (Scopus).
5. Шахуро В. Синтез изображений дорожных знаков с помощью условных порождающих противоборствующих нейросетей / П. Хрушков, В. Шахуро, А. Конушин // Труды Международной конференции по компьютерной графики и зрению "Графикон". — 2018. — с. 242—246. (Scopus)
Личный вклад автора состоит в выполнении основных теоретических и практических исследований, изложенных в диссертационной работе. В [1,3] научному руководителю А.С. Конушину принадлежит постановка задачи, В.И. Шахуро — все полученные результаты. В [2] научному руководителю А.С. Конушину принадлежит постановка задачи, В.И. Шахуро — все полученные результаты. Вклад Б.В. Фаизова состоит в технической помощи с классификацией дорожных знаков. В [2] научному руководителю А.С. Конушину принадлежит постановка задачи, автору — полученные результаты. Вклад Б.В. Фаизова состоит в помощи в технической реализации предложенного метода классификации, В.В. Санжарова — в помощи в технической реализации метода рендеринга изображений с помощью трассировки лучей. В [5] научному руководителю А.С. Конушину принадлежит постановка задачи, автору — полученные результаты. Вклад П.В. Хрушкова состоит в помощи в технической реализации предложенного метода условной генерации изображений.
Апробация работы. Результаты работы докладывались на:
— Международной конференции по обработке изображений ICVIP 2019, Китай, Шанхай, 22-24 декабря 2019 г.;
— 28-й Международной конференции по компьютерной графике, обработке изображений и машинному зрению, системам визуализации и виртуального окружения GraphiCon 2018, Томск, Россия;
— семинаре по компьютерному зрению под руководством А.С. Конушина на факультете ВМК МГУ;
— аспирантском семинаре по компьютерным наукам НИУ ВШЭ;
— Летней школе Microsoft для аспирантов (Microsoft Research PhD Summer School), Англия, Кембридж, 2015.
Объем и структура работы. Диссертация состоит из введения, пяти глав и заключения. Полный объём диссертации составляет 92 страницы, включая 27 рисунков и 18 таблиц. Список литературы содержит 69 наименований.
Глава 1. Обзор литературы
1.1 Использование синтетических данных для обучения алгоритмов распознавания изображений
Синтетические обучающие выборки применяются для обучения алгоритмов распознавания изображений в случаях, когда получение и разметка реальных данных невозможна или требует слишком много ресурсов. Один из примеров такой ситуации — анализ медицинских изображений. Данные могут быть труднодоступны (снимки пациентов с редким заболеванием) и трудоемки в разметке (для сегментации снимков, например, может понадобиться большое количество времени высококвалифицированного специалиста). Генерация реалистичных изображений — плохо определенная задача, т.к. в обработке изображений и компьютерном зрении на сегодняшний день не существует метрики фотореалистичности изображения, а в каждой задаче обучающая выборка имеет особенности, которые могут затруднить процесс генерации данных. Кроме этого, пока не предложено надежного способа сравнения между собой различных генераторов синтетических изображений [10]. Поэтому сейчас на практике активно используются два вида синтетических данных: дополнительные обучающие примеры, полученные из реальных путем размножения, и синтетические данные, полученные путем трехмерного моделирования. Третий способ генерации синтетических данных, генерация с использованием порождающих нейросетей [6; 7], активно развивается, однако пока не получил широкого применения.
Первый способ, размножение данных, повсеместно используется при обучении сверточных нейронных сетей. Нейронные сети имеют большое количество параметров, и для их обучения требуются огромные обучающие выборки, часто недоступные для задачи. Поэтому к изображениям применяются различные
преобразования: зеркальные отражения, повороты, сдвиги, масштабирования и т.п. Такими преобразованиями можно получить только близкие к обучающей выборке синтетические изображения. В [11] для обучения классификатора изображений обучающая выборка увеличивается на порядки за счет случайной обрезки изображения и зеркальных отражений относительно вертикальной оси изображения. В [12] изображения дорожных знаков размножаются за счет случайных поворотов, сдвигов и масштабирований. В [13] предлагается метод поиска преобразований, которые улучшают обучение нейронных сетей. Для поиска используется обучение с подкреплением.
Второй способ генерации синтетических данных — трехмерное моделирование. В нем задается параметризованная трехмерная модель. В качестве параметров используются случайные переменные. Сэмплируются параметры модели и с фиксированными параметрами происходит рендеринг трехмерной модели с помощью графического движка в изображение. Этот способ имеет ограниченное применение, т.к. для каждой задачи требуется своя трехмерная модель с фотореалистичными текстурами. Рассмотрим несколько примеров применения трехмерного моделирования для получения синтетических обучающих выборок.
В [14] обучается регрессор позы человека по карте глубины. С помощью трехмерного моделирования генерируются зашумленные карты глубины, которые, в отличие от реалистичных ЯОБ-изображений, сгенерировать достаточно просто. Для задачи вычисления оптического потока с помощью сверточных нейронных сетей [15] используется нереалистичная выборка «Летающие стулья». Для вычисления оптического потока нейросеть должна научиться сопоставлять области двух кадров, поэтому правдоподобность данных не требуется. Примеры пар синтетических изображений и соответствующей им разметки (оптического потока) приведена на рис. 1.1.
В работах [16; 17] игровые движки используются для генерации размеченных городских сцен. Экспериментальная оценка показывает, что только синтетических данных недостаточно для качественного обучения алгоритма де-
Рисунок 1.1 — Синтетические пары изображений и соответствующая им разметка (оптический поток) из синтетического набора данных «Летающие
стулья»
тектирования объектов и сегментирования изображений. Однако использование синтетических данных вместе с реальными позволяет улучшить качество итогового алгоритма и уменьшить требования к количеству реальных данных в три раза. На рис. 1.2 показаны примеры реальных кадров из набора данных К1ТТ1 [18] и их синтетические аналоги.
В работах [4; 5] рассматривается простой метод генерации изображений дорожных знаков. Знак — стандартизированный объект, поэтому для него в качестве модели можно взять иконку. Затем с помощью случайных преобразований (гауссово размытие, размытие движения, поворот, сдвиг, масштабирование, наложение на фон, изменение контраста и цветности) из иконки получается изображение дорожного знака. Визуализация процесса генерации синтетических изображений дорожных знаков показана на рис. 1.3. Этот метод требует априорного задания преобразований и их параметров, которые меняются не только в зависимости от задачи, но и даже от используемой тестовой выборки. Эксперименты в [4] показывают сверточная нейронная сеть для классификации дорожных знаков, обученная на таких синтетических данных, показывает качество, сравнимое с нейронной сетью, обученной на реальных данных. Это позволяет решить проблему нерепрезентативных выборок и редко встречающихся классов знаков. Однако эксперименты в [5] показывают, что детектор дорожных знаков, обученный на синтетических данных, показывает неудовлетворительное качество.
Рисунок 1.2 — Примеры реальных (левая колонка) кадров из набора данных К1ТТ1 и их синтетические аналоги (правая колонка) из набора данных
УК1ТТ1.
А
А
4
А
А
А
А
□ 0
А
А
Рисунок 1.3 — Визуализация процесса генерации простых синтетических
изображений дорожных знаков.
В работе [3] рассматривается задача классификации знаков четырех классов ограничения скорости. Для обучения классификатора генерируется синтетическая обучающая выборка. Генерация синтетических примеров М^^ из пиктограмм М1леа1 задается уравнением
Мзупог = а[А(гх,гу,зх,зу, а)М1Яеа1 ] + Ь. (1.1)
К пиктограмме сначала применяется аффинное преобразование А, а затем линейное преобразование яркости с параметрами а и Ь. Параметры (линейный коэффициент а, аддитивный коэффициент Ь, А — аффинное преобразование, задаваемое параметрами переноса , масштабирования зх,зу, и углом поворота а) сначала оцениваются на реальных данных в ходе процедуры оптимизации по методу Левенберга-Марквардта. Результаты оценки гистограмм параметров приведены на рис. 1.4. Анализ полученных гистограмм показал, что распределение параметров может быть факторизовано в следующем виде:
Р(ф) = Р(Ъ, гу, а, 8Х, 8у, а, Ь) = Р(Ъ)Р(1У)Р(а)Р(зх, зу)Р(а, Ь). (1.2)
Полученные распределения параметров можно использовать для генерации синтетических дорожных знаков разных классов, это было подтверждено с помощью теста Колмогорова-Смирнова в ходе проверки гипотезы о независимости параметров и класса знака. Оцененные распределения параметров можно использовать для генерации синтетических обучающих примеров. Описанная работа — одна из немногих работ, которая предлагает математическую модель генерации синтетических дорожных знаков и проводит строгую оценку корректности предложенной модели. Можно отметить три основных недостатка данной работы:
1. Используются черно-белые изображения, в то время как большинство методов машинного обучения используют цветные изображения.
2. Количество классов невелико и они сильно похожи друг на друга (знаки ограничения скорости 30, 60, 80, 100).
3. Не рассматривается наложение пиктограммы на фон.
Рисунок 1.4 — Пиктограммы дорожных знаков и оцененные распределения параметров генерации синтетических изображений дорожных знаков из [3]
1.2 Порождающие нейронные сети
Как уже было отмечено в предыдущем разделе, не существует метрики для оценки фотореалистичности изображения. Однако в последнее время был предложен подход, позволяющий оценивать реалистичность генерируемых изображений в зависимости от задачи. В работе [6] была сформулирована новая парадигма порождающих конкурирующих нейросетей. В этой модели одна ней-росеть является генератором, т.е. пытается преобразовать случайный шум в реалистичное изображение. Вторая нейросеть — дискриминатор — пытается по изображению понять, является ли оно настоящим или сгенерированным. Ней-росети обучаются попеременно. Метрикой потерь при этом является бинарная
кросс-энтропия. Можно показать, что минимаксная формулировка оптимизационной задачи с кросс-энтропией эквивалентна минимизации дивергенции Йенсена-Шеннона двух распределений: реального и распределения сэмплов генератора. Таким образом, в виде нейросети-дискриминатора обучается сложная метрика реалистичности изображений, которую практически невозможно задать априорно. В дальнейшем этот подход получил развитие.
В [7] для генерации изображений предложена сверточная архитектура нейронной сети с транспонированными свертками для повышения разрешения. Использование сверточных слоев, в сравнении с полносвязными слоями, позволяется обучать нейросеть быстрее (за счет меньшего количества параметров) и повышает качество генерируемых изображений (за счет более простого вида фильтров, которые проще обучать). В [19] лапласовская пирамида изображений и несколько пар нейросетей генератор-дискриминатор используются для генерации изображений высокого разрешения. В [20] рассматривается задача условной генерации изображений. На вход генератору подается не только случайный шум, но и метка класса объекта, который необходимо сгенерировать.
Конкурирующие порождающие нейронные сети активно развиваются и используются для генерации обучающих выборок. В работе [9] показывается, что данные, генерируемые порождающими нейронными сетями, добавленные к реальным данным, помогают улучшить качество повторной идентификации людей в видео. В [21] синтетические данные добавляются в обучающую выборку для улучшения качества классификации поражений печени.
1.3 Распознавание дорожных знаков на изображениях
Алгоритмы распознавания объектов на изображении можно условно разделить на три группы: на основе эвристических алгоритмов, на основе клас-
сического машинного обучения и на основе глубоких сверточных нейронных сетей.
1.3.1 Эвристические алгоритмы распознавания дорожных знаков
Эвристические алгоритмы для поиска дорожных знаков используют тот факт, что знаки имеют фиксированный цвет и форму. Как правило, в эвристических алгоритмах сначала производится предобработка изображения — перевод изображения в удобное для работы цветовое пространство, вычисление карты краев и т.п. Затем с помощью фиксированного математического преобразования ищутся знаки необходимой формы в выбранном диапазоне размеров. В [22] на входном изображении считается карта краёв, которая затем сопоставляется с шаблоном знака с помощью преобразования Фурье. В [23] рассматривается задача выделения знаков с красными рамками. Входное изображение предобрабатывается: переводится в пространство HSV, отсекается по порогу, фильтруется от шума. Финальные гипотезы получаются с помощью обобщённого преобразования Хафа. В [24] круглые знаки выделяются с помощью каналов, выделяющих области преобладания цвета, и преобразования Хафа. К недостаткам эвристических алгоритмов можно отнести неустойчивость при размытых входных изображениях и сложность их построения в случае большого количества знаков разных цветов и формы.
1.3.2 Методы распознавания дорожных знаков на основе классических методов машинного обучения
Рассмотрим вторую группу алгоритмов распознавания, методы с использованием классического машинного обучения. Эти методы используют, как
правило, либо сильные эвристические признаки, либо набор слабых легко вычисляемых признаков, объединяемых с помощью бустинга в сильные классификаторы.
Наиболее часто используемым методом до 2012 года для выделения объектов на изображении являлся детектор, использующий признаки, основанные на гистограммах ориентированных градиентов (HOG) и машины опорных векторов (SVM). В [25] была показана эффективность метода для задачи выделения пешеходов на изображении. Описание изображения с помощью HOG оказалось эффективным и для задач многоклассовой классификации. В [26; 27] проводится сравнительный анализ различных гистограмм ориентированных градиентов, ядерных функций в SVM и других классификаторов на задаче классификации дорожных знаков базы GTSRB.
Второй распространенный классический метод — метод на основе каскада слабых классификаторов. Его развитие началось с работы Виолы и Джонса [28], в которой впервые была решена задача выделения лиц на изображении в реальном времени. Метод использует быстро вычисляемые интегральные признаки и неглубокие деревья решений (слабые классификаторы), которые объединяются с помощью бустинга в каскад (сильный классификатор). Сильный классификатор последовательно применяет слабые классификаторы. После каждого слабого классификатора часть окон отбрасывается. Таким образом, целиком каскад проходят только окна с объектами и наиболее сложными примерами фона. Модифицированные варианты каскадного подхода показывают высокое качество и скорость на задачах выделения объектов с небольшой внутриклассовой изменчивостью: пешеходах [29—31], дорожных знаках [26; 32].
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Обучение нейронных сетей: Методы, алгоритмы, тестовые испытания, прим. прил.1997 год, кандидат физико-математических наук Гилев, Сергей Евгеньевич
Исследование и разработка методов сопровождения людей и частей их тела в видеопоследовательности2017 год, кандидат наук Шальнов, Евгений Вадимович
Исследование и разработка методов сопровождения людей и частей их тела в видеопоследовательности2018 год, кандидат наук Шальнов, Евгений Вадимович
Разработка системы распознавания визуальных образов в потоке данных2016 год, кандидат наук Хуршудов Артем Александрович
Обнаружение объектов видеоряда на основе технологии машинного обучения (на примере лесных пожаров)2023 год, кандидат наук Лаптев Никита Витальевич
Список литературы диссертационного исследования кандидат наук Шахуро Владислав Игоревич, 2021 год
Список литературы
1. Deepface: Closing the gap to human-level performance in face verification [текст] / Y. Taigman [и др.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2014. — с. 1701—1708.
2. Labeled Faces in the Wild: A Database for Studying Face Recognition in Unconstrained Environments [текст] : тех. отч. / G. B. Huang [и др.] ; University of Massachusetts, Amherst. — 10.2007. — № 07—49.
3. Classifier training based on synthetically generated samples [текст] / H. Hoessler [и др.] // International Conference on Computer Vision Systems: Proceedings (2007). — 2007.
4. Evaluation of traffic sign recognition methods trained on synthetically generated data [текст] / B. Moiseev [и др.] // International Conference on Advanced Concepts for Intelligent Vision Systems. — Springer. 2013. — с. 576—583.
5. Chigorin, A. A system for large-scale automatic traffic sign recognition and mapping [текст] / A. Chigorin, A. Konushin // CMRT13-City Models, Roads and Traffic. — 2013. — т. 2013. — с. 13—17.
6. Generative adversarial nets [текст] / I. Goodfellow [и др.] // Advances in neural information processing systems. — 2014. — с. 2672—2680.
7. Radford, A. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks [текст] / A. Radford, L. Metz, S. Chintala // CoRR. — 2015. — т. abs/1511.06434.
8. Unpaired image-to-image translation using cycle-consistent adversarial networks [текст] / J.-Y. Zhu [и др.] // Proceedings of the IEEE international conference on computer vision. — 2017. — с. 2223—2232.
9. Zheng, Z. Unlabeled samples generated by gan improve the person reidentification baseline in vitro [текст] / Z. Zheng, L. Zheng, Y. Yang // Proceedings of the IEEE International Conference on Computer Vision. — 2017. — с. 3754—3762.
10. Theis, L. A note on the evaluation of generative models [текст] / L. Theis, A. v. d. Oord, M. Bethge // arXiv preprint arXiv:1511.01844. — 2015.
11. Krizhevsky, A. Imagenet classification with deep convolutional neural networks [текст] / A. Krizhevsky, I. Sutskever, G. E. Hinton // Advances in neural information processing systems. — 2012. — с. 1097—1105.
12. Multi-column deep neural network for traffic sign classification [текст] / D. CiresAn [и др.] // Neural networks. — 2012. — т. 32. — с. 333—338.
13. Autoaugment: Learning augmentation policies from data [текст] / E. D. Cubuk [и др.] // arXiv preprint arXiv:1805.09501. — 2018.
14. Real-time human pose recognition in parts from single depth images [текст] / J. Shotton [и др.] // CVPR 2011. — Ieee. 2011. — с. 1297—1304.
15. Flownet: Learning optical flow with convolutional networks [текст] / A. Dosovitskiy [и др.] // Proceedings of the IEEE international conference on computer vision. — 2015. — с. 2758—2766.
16. Playing for data: Ground truth from computer games [текст] / S. R. Richter [и др.] // European conference on computer vision. — Springer. 2016. — с. 102—118.
17. Virtual worlds as proxy for multi-object tracking analysis [текст] / A. Gaidon [и др.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2016. — с. 4340—4349.
18. Geiger, A. Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite [текст] / A. Geiger, P. Lenz, R. Urtasun // Conference on Computer Vision and Pattern Recognition (CVPR). — 2012.
19. Deep generative image models using a laplacian pyramid of adversarial networks [текст] / E. L. Denton, S. Chintala, R. Fergus [и др.] // Advances in neural information processing systems. — 2015. — с. 1486—1494.
20. Mirza, M. Conditional generative adversarial nets [текст] / M. Mirza, S. Osindero // arXiv preprint arXiv:1411.1784. — 2014.
21. Synthetic data augmentation using GAN for improved liver lesion classification [текст] / M. Frid-Adar [и др.] // 2018 IEEE 15th international symposium on biomedical imaging (ISBI 2018). — IEEE. 2018. — с. 289—293.
22. Larsson, F. Using Fourier descriptors and spatial models for traffic sign recognition [текст] / F. Larsson, M. Felsberg // Scandinavian conference on image analysis. — Springer. 2011. — с. 238—249.
23. Якимов, П. Ю. Предварительная обработка цифровых изображений в системах локализации и распознавания дорожных знаков [текст] / П. Ю. Якимов // Компьютерная оптика. — 2013. — т. 37, № 3.
24. A new approach for in-vehicle camera traffic sign detection and recognition [текст] / A. Ruta [и др.]. — 2009.
25. Dalal, N. Histograms of oriented gradients for human detection [текст] / N. Dalal, B. Triggs // 2005 IEEE computer society conference on computer vision and pattern recognition (CVPR'05). т. 1. — IEEE. 2005. — с. 886—893.
26. Traffic sign recognition—How far are we from the solution? [текст] / M. Mathias [и др.] // The 2013 international joint conference on Neural networks (IJCNN). — IEEE. 2013. — с. 1—8.
27. Лисицын, С. О. Распознавание дорожных знаков с помощью метода опорных векторов и гистограмм ориентированных градиентов [текст] / С. О. Лисицын, О. А. Байда // Компьютерная оптика. — 2012. — т. 36, № 2.
28. Viola, P. Rapid object detection using a boosted cascade of simple features [текст] / P. Viola, M. Jones // Proceedings of the 2001 IEEE computer society conference on computer vision and pattern recognition. CVPR 2001. т. 1. — IEEE. 2001. — с. I—I.
29. Dollar, P. Crosstalk cascades for frame-rate pedestrian detection [текст] / P. Dollar, R. Appel, W. Kienzle // European conference on computer vision. — Springer. 2012. — с. 645—659.
30. Fast feature pyramids for object detection [текст] / P. Dollar [и др.] // IEEE transactions on pattern analysis and machine intelligence. — 2014. — т. 36, № 8. — с. 1532—1545.
31. Pedestrian detection at 100 frames per second [текст] / R. Benenson [и др.] // 2012 IEEE Conference on Computer Vision and Pattern Recognition. — IEEE. 2012. — с. 2903—2910.
32. Creating robust high-throughput traffic sign detectors using centre-surround HOG statistics [текст] / G. Overett [и др.] // Machine vision and applications. — 2014. — т. 25, № 3. — с. 713—726.
33. Fukushima, K. Neocognitron: A self-organizing neural network model for a mechanism of visual pattern recognition [текст] / K. Fukushima, S. Miyake // Competition and cooperation in neural nets. — Springer, 1982. — с. 267—285.
34. Backpropagation applied to handwritten zip code recognition [текст] / Y. LeCun [и др.] // Neural computation. — 1989. — т. 1, № 4. — с. 541—551.
35. Rich feature hierarchies for accurate object detection and semantic segmentation [текст] / R. Girshick [и др.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2014. — с. 580—587.
36. Selective search for object recognition [текст] / J. R. Uijlings [и др.] // International journal of computer vision. — 2013. — т. 104, № 2. — с. 154—171.
37. Girshick, R. Fast r-cnn [текст] / R. Girshick // Proceedings of the IEEE international conference on computer vision. — 2015. — с. 1440—1448.
38. Faster r-cnn: Towards real-time object detection with region proposal networks [текст] / S. Ren [и др.] // Advances in neural information processing systems. — 2015. — с. 91—99.
39. Mask r-cnn [текст] / K. He [и др.] // Proceedings of the IEEE international conference on computer vision. — 2017. — с. 2961—2969.
40. You only look once: Unified, real-time object detection [текст] / J. Redmon [и др.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2016. — с. 779—788.
41. Ssd: Single shot multibox detector [текст] / W. Liu [и др.] // European conference on computer vision. — Springer. 2016. — с. 21—37.
42. A convolutional neural network cascade for face detection [текст] / H. Li [и др.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2015. — с. 5325—5334.
43. PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection [текст] / K.-H. Kim [и др.]. — 2016. — arXiv: 1608.08021 [cs.CV].
44. Going deeper with convolutions [текст] / C. Szegedy [и др.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2015. — с. 1—9.
45. Focal loss for dense object detection [текст] / T.-Y. Lin [и др.] // Proceedings of the IEEE international conference on computer vision. — 2017. — с. 2980—2988.
46. Man vs. computer: Benchmarking machine learning algorithms for traffic sign recognition [текст] / J. Stallkamp [и др.] // Neural Networks. — 2012. — т. 32. — с. 323—332. — Selected Papers from IJCNN 2011.
47. Detection of traffic signs in real-world images: The German Traffic Sign Detection Benchmark [текст] / S. Houben [и др.] // The 2013 international joint conference on neural networks (IJCNN). — IEEE. 2013. — с. 1—8.
48. Larsson, F. Using Fourier descriptors and spatial models for traffic sign recognition [текст] / F. Larsson, M. Felsberg // Scandinavian conference on image analysis. — Springer. 2011. — с. 238—249.
49. Timofte, R. Multi-view traffic sign detection, recognition, and 3D localisation [текст] / R. Timofte, K. Zimmermann, L. Van Gool // Machine vision and applications. — 2014. — т. 25, № 3. — с. 633—647.
50. Mogelmose, A. Vision-based traffic sign detection and analysis for intelligent driver assistance systems: Perspectives and survey [текст] / A. Mogelmose, M. M. Trivedi, T. B. Moeslund // IEEE Transactions on Intelligent Transportation Systems. — 2012. — т. 13, № 4. — с. 1484—1497.
51. Dollar, P. Piotr's Computer Vision Matlab Toolbox (PMT) [текст] / P. Dollar. — https://github.com/pdollar/toolbox.
52. Traffic sign recognition—How far are we from the solution? [текст] / M. Mathias [и др.] // The 2013 international joint conference on Neural networks (IJCNN). — IEEE. 2013. — с. 1—8.
53. Caffe: Convolutional Architecture for Fast Feature Embedding [текст] / Y. Jia [и др.] // arXiv preprint arXiv:1408.5093. — 2014.
54. Shakhuro, V. Russian traffic sign images dataset [текст] / V. Shakhuro, A. Konushin // Computer Optics. — 2016. — т. 40, № 2. — с. 294—300.
55. Arjovsky, M. Wasserstein Generative Adversarial Networks [текст] / M. Arjovsky, S. Chintala, L. Bottou // Proceedings of the 34th International Conference on Machine Learning - Volume 70. — Sydney, NSW, Australia : JMLR.org, 2017. — с. 214—223. — (ICML'17).
56. Mirza, M. Conditional Generative Adversarial Nets [текст] / M. Mirza, S. Osindero. — 2014. — arXiv: 1411.1784 [cs.LG].
57. Лисицын, С. О. Распознавание дорожных знаков с помощью метода опорных векторов и гистограмм ориентированных градиентов [текст] / С. О. Лисицын, О. А. Байда // Компьютерная оптика. — 2012. — т. 36, № 2.
58. Evaluation of traffic sign recognition methods trained on synthetically generated data [текст] / B. Moiseev [и др.] // International Conference on Advanced Concepts for Intelligent Vision Systems. — Springer. 2013. — с. 576—583.
59. Improved Training of Wasserstein GANs [текст] / I. Gulrajani [и др.] // Proceedings of the 31st International Conference on Neural Information Processing Systems. — Long Beach, California, USA : Curran Associates Inc., 2017. — с. 5769—5779. — (NIPS'17).
60. Beyond face rotation: Global and local perception gan for photorealistic and identity preserving frontal view synthesis [текст] / R. Huang [и др.] // Proceedings of the IEEE International Conference on Computer Vision. —
2017. — с. 2439—2448.
61. Shakhuro, V. I. Image synthesis with neural networks for traffic sign classification [текст] / V. I. Shakhuro, A. Konouchine // Computer Optics. —
2018. — т. 42, № 1. — с. 105—112.
62. Хрушков, П. Синтез изображений дорожных знаков с помощью условных порождающих противоборствующих нейросетей [текст] / П. Хрушков, В. Шахуро, А. Конушин // Труды Международной конференции по компьютерной графики и зрению'Трафикон". — Федеральное государственное учреждение"Федеральный исследовательский центр ... 2018. — с. 242—246.
63. Hydra Renderer [текст]. — https : / / github . com / Ray - Tracing - Systems / HydraAPI.
64. Zagoruyko, S. Wide Residual Networks [текст] / S. Zagoruyko, N. Komodakis. — 2016. — arXiv: 1605.07146 [cs.CV].
65. Metric learning for novelty and anomaly detection [текст] / M. Masana [и др.] // arXiv preprint arXiv:1808.05492. — 2018.
66. Faceshop: Deep sketch-based face image editing [текст] / T. Portenier [и др.] // arXiv preprint arXiv:1804.08972. — 2018.
67. Maas, A. L. Rectifier nonlinearities improve neural network acoustic models [текст] / A. L. Maas, A. Y. Hannun, A. Y. Ng // in ICML Workshop on Deep Learning for Audio, Speech and Language Processing. — Citeseer. 2013.
68. Ulyanov, D. Instance normalization: The missing ingredient for fast stylization [текст] / D. Ulyanov, A. Vedaldi, V. Lempitsky // arXiv preprint arXiv:1607.08022. — 2016.
69. Shakhuro, V. Rare Traffic Sign Recognition Using Synthetic Training Data [текст] / V. Shakhuro, B. Faizov, A. Konushin // Proceedings of the 3rd International Conference on Video and Image Processing. — Shanghai, China : Association for Computing Machinery, 2019. — с. 23—26. — (ICVIP 2019). — URL: https://doi.org/10.1145/3376067.3376105.
Список рисунков
1 Примеры редких российских дорожных знаков............. 7
1.1 Синтетические пары изображений и соответствующая им разметка (оптический поток) из синтетического набора данных «Летающие стулья»................................... 14
1.2 Примеры реальных (левая колонка) кадров из набора данных KITTI и их синтетические аналоги (правая колонка) из набора данных VKITTI............................... 15
1.3 Визуализация процесса генерации простых синтетических изображений дорожных знаков...................... 15
1.4 Пиктограммы дорожных знаков и оцененные распределения параметров генерации синтетических изображений дорожных
знаков из [3] ................................ 17
1.5 Архитектура Inception-блоков, используемых в детекторе PVANet . . 25
2.1 Примеры кадров из баз дорожных знаков GTSDB, STS, BTSD, LISA 27
2.2 Кадры из базы RTSD, демонстрирующие различные времена года, погоду и освещенность ........................... 28
2.3 Интерфейс программ, использовавшихся для разметки базы RTSD . 29
2.4 Общий вид дорожных знаков в выборках базы RTSD......... 29
2.5 Количество изображений в зависимости от класса знака в тренировочной (оранжевые столбцы) и в тестовой (синие столбцы) выборках нового разбиения RTSD. Классы отсортированы по возрастанию количества изображений в тестовой выборке....... 36
3.1 Примеры изображений, сгенерированных нейросетью, обученной на всей выборке изображений дорожных знаков.............. 41
3.2 Примеры изображений, сгенерированных поклассово обученными нейросетями................................. 42
3.3 Архитектура нейросети-генератора синтетических изображений дорожных знаков.............................. 43
3.4 Примеры изображений, сгенерированных по иконке.......... 44
3.5 Примеры изображений, сгенерированных с помощью условного Wasserstein GAN............................... 50
3.6 Улучшение простых синтетических изображений дорожных знаков
с помощью CycleGAN без сохранения класса знака........... 52
3.7 Схема генерации изображений, улучшенных с помощнью
CycleGAN, с сохранением класса дорожного знака........... 53
3.8 Примеры преобразованных синтетических изображений дорожных знаков с сохранением класса знака.................... 53
4.1 Схема базового классификатора..................... 57
4.2 Схема сети для получения улучшенных признаков ........... 59
4.3 Схема сети для классификации двух видов знаков ........... 60
5.1 Пример изображения с наложенными простыми синтетическими дорожными знаками (Synt)........................ 67
5.2 Пример изображения с наложенными фотореалистичными синтетическими дорожными знаками (CGI)............... 68
5.3 Пример изображения с наложенными фотореалистичными синтетическими дорожными знаками, улучшенными с помощью нейросети-преобразователя (CGI-GAN).................. 68
5.4 Расположение дорожных знаков по кадру в базе RTSD. Точками показаны центры прямоугольников, ограничивающих дорожные
знаки .................................... 70
5.5 Пример кадра с реальным дорожным знаком, замазанным знаком и
вставленным простым синтетическим изображением дорожного знака. 72
Список таблиц
1 Статистики публичных баз дорожных знаков ............. 29
2 Статистики выборок из ИТЗЭ и результаты тестирования
детектора на них.............................. 30
3 Результаты эксперимента с неплотной пирамидой и игнорированием знаков других классов при подсчёте качества выделения знаков на выборке КТ80-В2................. 30
4 Результаты классификации выборок из ИТЗЭ с помощью сверточной нейронной сети........................ 31
5 Архитектура сверточной нейросети, использовавшейся для классификации знаков........................... 49
6 Результаты тестирования классификатора на различных выборках знаков.................................... 49
7 Точность классификации знаков с заменой части тренировочной выборки на синтетическую......................... 55
8 Точность работы базового метода..........................................62
9 Точность работы при обучении нейронной сети только на синтетических данных......................................................62
10 Точность работы при обучении нейронной сети только на частых классах........................................................................63
11 Точность работы при обучении с использованием сравнительной функции потерь и улучшенными признаками............................63
12 Точность работы классификатора редких и частых классов............63
13 Точность работы предложенного метода..................................64
14 Архитектура нейросети-генератора, используемая для замазывания дорожных знаков ............................. 71
15 Архитектура нейросети-дискриминатора, используемая для
обучения нейросети для замазывания дорожных знаков ....... 72
16 Точность работы детектора, обученного на разных тренировочных выборках................................... 76
17 Точность работы детектора и нейросетевого классификатора, обученных на разных тренировочных выборках............. 77
18 Точность работы детектора и классификатора редких знаков, обученных на разных тренировочных выборках............. 78
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.