Разработка и исследование методов и алгоритмов автоматического обнаружения и отслеживания динамических объектов с восстановлением их 3D-моделей тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Мурхиж Юшаа
- Специальность ВАК РФ00.00.00
- Количество страниц 128
Оглавление диссертации кандидат наук Мурхиж Юшаа
Введение
Глава 1. Анализ существующих методов обнаружения и отслеживания
объектов
1.1 Анализ методов обнаружения трехмерных объектов
1.1.1 Определение и особенности 3D-обнаружения объектов
1.1.2 Анализ наборов данных
1.1.3 Метрики для оценки качества
1.1.4 Обнаружение 2D-объектов
1.1.5 Обнаружение 3D-объектов
1.1.6 Двухэтапное обнаружение 3D-объектов
1.2 Исследование методик отслеживания объектов
1.2.1 Двухмерное отслеживание объектов
1.2.2 Трехмерное отслеживание объектов
1.3 Анализ подходов прогнозирования потока карт проходимости на основе результатов 3D-обнаружения и трекинга объектов
1.4 Анализ подходов к восстановлению 3D моделей объектов
1.4.1 Монокулярное 3D обнаружение объектов
1.4.2 Монокулярная 3D-реконструкция позы и формы
1.5 Общая постановка задачи
1.5.1 Общая научная идея
1.5.2 Общая задача
1.5.3 Ограничения и допущения:
1.5.4 Оценка достаточности метрик качества:
Глава 2. Разработка моделей глубокого обучения для обнаружения
объектов в трехмерных облаках точек в заданной среде
2.1 Разработка быстрых моделей глубокого обучения для обнаружения динамических объектов в трехмерных облаках точек и оценки
их 6D-позы
2.1.1 Улучшение обнаружения и отслеживания 3D-объектов
с помощью потока карт признаков
2.2 Нейросетевой метод обнаружения и классификации трехмерных объектов в облаках точек
2.2.1 Быстрый динамический вокселизатор
2.2.2 Модуль RV-Backbone
2.2.3 Модуль классификации
2.3 Выводы по главе
Глава Э. Разработка глубокой модели для восстановления ЭБ-моделей
объектов и их позы
3.1 Постановка задачи
3.2 Обзор модели
3.3 Конструирование признаков
3.4 Моделирование с деформируемым вниманием
3.4.1 Контекстное деформируемое внимание
3.5 Функции потерь для обучения модели
3.5.1 Регрессионная функция потерь
3.5.2 Функция потерь обнаружения объектов
3.5.3 Пространственная функция потерь
3.5.4 Функция потерь для расстояния между фасками
3.5.5 Иерархическая функция потерь
3.5.6 Комбинированная функция потерь
3.6 Выводы
Глава 4. Разработка метода прогнозирования потока карт проходимости беспилотного транспортного средства на основе результатов
обнаружения и трекинга трёхмерных объектов
4.1 Постановка задачи
4.2 Входные характеристики
4.3 Архитектуры моделей
4.4 Функции потерь для обучения моделей
4.5 Метрики оценки качества
4.5.1 Показатели качества генерации карт проходимости
4.5.2 Метрики оценки качества построения
потока карт проходимости
4.5.3 Совместные метрики качества генерации карт
проходимости и их потока
4.6 Выводы
Глава 5. Программная реализация и экспериментальное исследование
разработанных алгоритмов
5.1 Экспериментальные результаты разработанного метода обнаружения и отслеживания 3D-объектов с помощью потока карт признаков (FMFNet)
5.1.1 Эксперименты с обнаружением 3D-объектов
в последовательности облаков точек
5.1.2 Эксперименты с отслеживанием 3D-объектов
5.1.3 Наборы данных
5.1.4 Детали реализации
5.1.5 Производительность
5.2 Экспериментальные результаты разработанного метода вокселизации и классификации для обнаружения 3D-объектов (RVCDet)
5.2.1 Результаты экспериментов на открытых наборах данных
5.2.2 Исследование вариантов реализации метода
5.3 Экспериментальные результаты разработанного метода восстановления 3D-моделей объектов и их позы (DAGM-Mono)
5.3.1 Набор данных ApolloScape Car Instance
5.3.2 Детали реализации
5.3.3 Основные результаты
5.3.4 Исследование вариантов реализации метода
5.4 Экспериментальные результаты разработанного метода прогнозирования потока карт проходимости в городской среде (OFMPNet)
5.4.1 Набор данных
5.4.2 Путевые точки
5.4.3 Настройка обучения
5.4.4 Исследование вариантов реализации метода
5.4.5 Результаты на наборе данных Waymo Open Motion
Заключение
Словарь терминов
Список рисунков
Список таблиц
Приложение А. Государственные регистрации программы для ЭВМ
А.1 Программный комплекс обнаружения и трекинга препятствий на
основе обработки облаков точек
А.2 Программный компонент прогнозирования траектории движения
динамических препятствий
Приложение Б. Акт о внедрении и использовании результатов
исследования
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Разработка и исследование методов обнаружения препятствий движению интеллектуального транспорта на основе мультиспектральной системы технического зрения2025 год, кандидат наук Шепель Илья Олегович
Обработка и анализ видеоданных в системе управления беспилотного автомобиля2022 год, кандидат наук Зубов Илья Геннадьевич
Методы и алгоритмы планирования маршрута планетохода и коррекции навигационного комплекса2025 год, кандидат наук Чжан Минмин
Семантический разбор и обработка трехмерных сцен2021 год, кандидат наук Рухович Данила Дмитриевич
Обнаружение объектов видеоряда на основе технологии машинного обучения (на примере лесных пожаров)2023 год, кандидат наук Лаптев Никита Витальевич
Введение диссертации (часть автореферата) на тему «Разработка и исследование методов и алгоритмов автоматического обнаружения и отслеживания динамических объектов с восстановлением их 3D-моделей»
Введение
Автономное вождение, целью которого является обеспечение возможности транспортным средствам интеллектуально интерпретировать окружающую среду и безопасно перемещаться с минимальным или отсутствующим участием человека, достигло значительного прогресса в последние годы. Технологии автономного управления транспортом активно внедряются в различных сферах, таких как грузовые перевозки, роботизированные такси, курьеры и другие, что помогает уменьшить количество ошибок, вызванных человеческим фактором, и повысить уровень безопасности на дорогах. Модули восприятия, как ключевой компонент систем автономного вождения, позволяют автономным транспортным средствам осознавать окружающую среду на основе сенсорных данных. Системы восприятия, как правило, работают с мультимодальными данными, включая изображения с камер, облака точек, полученные с LiDAR-сканеров (лидаров), а также высокодетализированные карты, и на их основе прогнозируют геометрические и семантические характеристики ключевых объектов на дороге. Высококачественные результаты восприятия служат надежными наблюдениями для последующих этапов, таких как отслеживание объектов, прогнозирование траектории и планирование пути.
Восприятие в системе управления автомобилем может требовать привлечения различных задач компьютерного зрения, таких как обнаружение и отслеживание объектов, определение полос движения, семантическая и инстанс сегментация.
Среди ключевых задач автомобильных систем восприятия особое значение имеет 3D-обнаружение объектов. Оно позволяет определять местоположение, размеры и категории важных объектов, таких как автомобили, пешеходы и велосипедисты, в 3D-пространстве.
В отличие от 2Б-обнаружения, 3Б-обнаружение направлено на локализацию и распознавание объектов в реальной трёхмерной системе координат, а не просто на создание ограничивающих рамок на изображениях.
Обнаружение объектов часто связано с реконструкцией их трехмерных моделей, которые позволяют точнее оценивать занимаемое объектом пространство и выполнять его фотореалистичную визуализацию.
Предсказанная геометрическая информация помогает измерять расстояние между автомобилем-наблюдателем и ключевыми объектами, что важно для планирования маршрутов и предотвращения аварий.
Методы распознавания трехмерных объектов быстро развивались с появлением методов глубокого обучения в области компьютерного зрения и робототехники.
Эти методы позволяют автоматически выучивать признаки изображений или облаков точек, обеспечивая формирование сжатых векторных представлений трехмерной сцены, которые пригодны для решения задач классификации, обнаружения, сегментации объектов, а также их трекинга и прогнозирования траекторий движения.
Проблеме обнаружения и трекинга динамических объектов в городской среде с восстановлением их 3D-моделей посвящены работы таких исследователей как Визильтер Ю. В., Князь В. А., Бурнаев Е. В., Geiger A., Dietmayer K. и других, кроме того много авторов рассматривают вспомогательные задачи: обнаружение движущихся препятствий, семантическую сегментацию сцен, комплексирование мультимодальных сенсоров и т. п., например, Yin T., Панов А. И., Юдин Д. А., Liu H., Lee H. и другие.
Надежное обнаружение трехмерных областей расположения объектов в данных бортовых сенсоров - одна из ключевых задач для систем управления беспилотным транспортом. Для ее решения требуется быстрая и качественная обработка и распознавание данных бортовых лидаров и камер - наиболее распространенных сенсоров. Для устранения проблемы шумов в данных и их неполноты в реальных условиях съемки с беспилотных транспортных средств наиболее перспективным можно считать разработку и применение обучаемых нейро сетевых подходов для распознавания трехмерных сцен.
При этом создаваемые методы распознавания должны надежно работать на городских дорогах и в парковых зонах для роботов и беспилотных автомобилей в различных погодных условиях и в различное время суток.
Целью данной работы является разработка и улучшение качества работы методов и алгоритмов обнаружения и трекинга динамических объектов в городской среде с восстановлением их 3D-моделей, пригодных для использования в бортовых системах очувствления беспилотных транспортных средств.
Для достижения поставленной цели необходимо было решить следующие задачи:
1. Разработать и исследовать модели глубокого обучения для обнаружения и отслеживания SD-объектов (автомобили, велосипедисты, пешеходы и др.) в трехмерных облаках точек в заданной среде.
2. Разработать и исследовать нейросетевые модели для восстановления трехмерных моделей объектов и их 3D-позы в пространстве.
3. Применить результаты обнаружения и трекинга динамических объектов для прогнозирования изменения карт проходимости беспилотного транспортного средства в городской среде, в том числе, разработать и исследовать нейросетевые модели для этого.
Соответствие пунктам паспорта специальности 1.2.1 Искусственный интеллект и машинное обучение. Проведенные в рамках подготовки диссертации исследования и полученные результаты соответствуют следующим пунктам паспорта специально сти:
4 Разработка методов, алгоритмов и создание систем искусственного интеллекта и машинного обучения для обработки и анализа текстов на естественном языке, для изображений, речи, биомедицины и других специальных видов данных.
17 Исследования в области многослойных алгоритмических конструкций, в том числе - многослойных нейросетей.
Научная новизна: При выполнении поставленных задач в диссертационном исследовании были получены следующие новые научные результаты:
1. Разработан оригинальный нейросетевой метод обнаружения трехмерных динамических объектов в облаках точек лидара FMFNet, отличающийся предложенным подходом к пространственно-временной агрегации карт признаков.
2. Разработан оригинальный быстрый нейросетевой метод RVCDet обнаружения и классификации трехмерных объектов в облаках точек, позволяющий снизить количество ошибок распознавания, отличающийся предложенными подходом быстрой динамической вокселизации (FDV) в базовом модуле извлечения признаков вида сверху (bird's eye view), а также предложенным дополнительным классификатором для фильтрации ложно обнаруженных объектов.
3. Разработан метод реконструкции формы динамических объетов (автомобилей) и оценки их трехмерной позы по изображениям бортовой камеры транспортного средства DAGM-Mono, отличающийся используемым механизмом деформируемого внимания в модуле реконструкции формы объекта, новой функцией потерь на основе
расстояния между фасками (Chamfer Distance) для улучшения процесса реконструкции формы.
4. Разработана новая трансформерная модель OFMPNet для прогнозирования потока карт проходимости беспилотного транспортного средства на основе результатов обнаружения и трекинга трехмерных объектов, отличающаяся оригинальной взвешенной по времени функцией потерь потока карты проходимости, а также архитектурой нейросетевого рекуррентного декодера.
Практическая значимость состоит в нескольких аспектах:
1. Методы искусственного интеллекта:
- Разработанные методы 3D-обнаружения и отслеживания объектов: это помогает в идентификации и отслеживании других автомобилей, пешеходов и препятствий в реальном времени и может значительно улучшить безопасность и эффективность автономных машин и роботов.
- Предложенный метод оценки SD-позы и реконструкция формы объектов помогает понять ориентацию и форму объектов вокруг автомобиля. Например, знание позы пешехода может помочь предсказать его будущую траекторию движения. Аналогично, понимание формы автомобиля может помочь в оценке его размера и прогнозировании его поведения.
- Разработанный метод прогнозирования карт проходимости транспортного средства на основе результатов 3D-обнаружения и трекинга объектов. может помочь в планировании пути автомобиля и избежать перегруженных участков и выбрать наиболее эффективный маршрут Это может привести к более безопасной и плавной езде и меньшему времени в пути.
2. Учебный процесс: разработанные методы и алгоритмы могут быть применены для изучения студентами современных методов искусственного интеллекта, связанных с компьютерным зрением.
3. Индустриальные приложения: разработанные методы могут использоваться в составе бортовых систем автономного управления наземными роботами и автомобилями, в том числе в системах помощи водителю, которые разрабатывают ведущие компании России и мира (акт о внедрении)
Методология и методы исследования. При создании алгоритмов применялись подходы машинного обучения, глубокого обучения, оптимизации и статистики. При разработке каждый добавляемый компонент детально проверялся на эффективность, с использованием методологии постепенного улучшения.
Оценка результатов происходила с помощью численных экспериментов на больших и разнообразных наборах реальных сенсорных данных, которые позволяют сравнивать различные подходы к решению задачи.
Для выполнения этих задач использовались библиотеки глубокого обучения, такие как TensorFlow 2 и PyTorch. В качестве метода оптимизации применялся стохастический градиентный спуск с адаптивной оценкой моментов (Adam).
Программная реализация методов и алгоритмов выполнялась на языке программирования Python 3, с использованием открытых модулей, предоставляющих различные функции — от визуализации до библиотек для обучения нейронных сетей.
При проведении экспериментов использован подход контейнеризации на основе технологии Docker, который позволяет воспроизводить результаты на различных устройствах.
Для логирования промежуточных результатов экспериментов использована библиотека Wandb.
Основные положения, выносимые на защиту:
1. Оригинальный нейросетевой метод обнаружения трехмерных динамических объектов в облаках точек лидара FMFNet, отличающийся предложенным подходом к пространственно-временной агрегации карт признаков.
2. Оригинальный быстрый нейросетевой метод RVCDet обнаружения и классификации трехмерных объектов в облаках точек, позволяющий снизить количество ошибок распознавания, отличающийся предложенными подходом быстрой динамической вокселизации (FDV) в базовом модуле извлечения признаков вида сверху (bird's eye view), а также предложенным дополнительным классификатором для фильтрации ложно обнаруженных объектов.
3. Метод реконструкции формы динамических объетов (автомобилей) и оценки их трехмерной позы по изображениям бортовой камеры транспортного средства DAGM-Mono, отличающийся используемым механизмом деформируемого внимания в модуле реконструкции формы
объекта, новой функцией потерь на основе расстояния между фасками (Chamfer Distance) для улучшения процесса реконструкции формы.
4. Новая трансформерная модель OFMPNet для прогнозирования потока карт проходимости беспилотного траспортного средства на основе результатов обнаружения и трекинга трехмерных объектов, отличающаяся оригинальной взвешенной по времени функцией потерь потока карты проходимости, а также архитектурой нейросетевого рекуррентного декодера.
Достоверность полученных результатов обеспечивается с помощью численных экспериментов. Полученные результаты согласуются с выводами других исследователей, опубликованных в открытых источниках.. Для каждого из алгоритмов предоставлено подробное описание и полный список гиперпараметров, используемых при обучении. Программные реализации всех предложенных методов и алгоритмов размещены в открытом доступе. Программные реализации методов настроены так, чтобы обеспечить одинаковые условия для запуска и обучения, и они уже используются в исследованиях других авторов.
Апробация работы. Основные результаты работы докладывались на научных конференциях:
1. Международная объединенная конференция по нейронным сетям (IJCNN 2022), Падуя, Италия.
2. 29-я Международная конференция по нейронной обработке информации (ICONIP 2022), ИИТ Индор, Индия.
3. 63-я Всероссийская научная конференция МФТИ (2020), Москва, Россия.
Личный вклад. В статье в рецензируемом журнале Neurocomputing [177],
автор представил и реализовал обучаемые подходы к задаче прогнозирования карт проходимости и их потока. Кроме того, в работе в журнале Optical Memory and Neural Networks [178], автор подготовил метод детальной реконструкции формы, используя деформируемые механизмы внимания. В статье [179], автор разработал и реализовал алгоритм пространственно-временной агрегации карт признаков. В работе [180], автор предложил метод быстрого динамического вокселизатора (FDV) для моделей 3Б-обнаружения, а также дополнительный выходной модуль классификации для фильтрации ложно обнаруженных объектов. В работе [181], автор представил программную реализацию метода обнаружения и отслеживания объектов на основе облаков точек в реальном времени. К публикациям, в которых излагаются основные научные результаты диссертации на соискание учёной степени, приравниваются
также полученные в соавторстве свидетельства на программу для электронных вычислительных машин [182; 183], зарегистрированные в установленном порядке.
Публикации. Основные результаты по теме диссертации изложены в 5 печатных изданиях, 2 из которых изданы в журналах, рекомендованных ВАК, 4 — в периодических научных журналах, индексируемых Web of Science и Scopus, 3 — в тезисах докладов. Зарегистрированы 2 программы для ЭВМ.
Объем и структура работы. Диссертация состоит из введения, 5 глав, заключения. Полный объём диссертации составляет 128 страниц, включая 20 рисунков и 24 таблицы. Список литературы содержит 180 наименованиеияий.
Глава 1. Анализ существующих методов обнаружения и отслеживания объектов
1.1 Анализ методов обнаружения трехмерных объектов
1.1.1 Определение и особенности SD-обнаружения объектов
Формулировка проблемы. Задача 3D-обнаружения объектов заключается в определении ограничивающих рамок ЭБ-объектов в контексте сценариев вождения на основе данных бортовых сенсоров транспортных средств. Общая формулировка задачи ЭБ-обнаружения объектов может быть выражена следующим образом:
B fdet(Isensor С1-1)
где Б = {Б\,..., BN} представляет собой набор из N ЭБ-объектов на сцене, fdet обозначает модель ЭБ-обнаружения объектов, а Isensor представляет собой один или несколько сенсорных входов. Ключевым вопросом в этой задаче является представление ЭБ-объекта B¡, поскольку оно определяет, какая ЭБ-информация должна быть предоставлена для последующих этапов прогнозирования и планирования. В большинстве случаев ЭБ-объект представляется в виде ЭБ-кубоида, охватывающего данный объект, то есть:
Б = [xc, yc, zc, l, w,h, 6, class], (1.2)
где (xc, y с, zc) — это ЭБ-координаты центра кубоида, l,w,h — это длина, ширина и высота кубоида соответственно, 6 — это угол ориентации, т.е. угол рыскания кубоида на земной плоскости, а class обозначает категорию ЭБ-объекта, например, автомобили, грузовики, пешеходы, велосипедисты. Рассмотрено использование набора данных nuScenes [1], в котором используются дополнительные параметры vx и vy, которые описывают скорость ЭБ-объекта вдоль осей x и y на земной поверхности.
Входные данные сенсоров.
В распределенных системах компьютерного зрения для 3D-обнаружения объектов применяются различные типы датчиков, среди которых наиболее часто используются радары, камеры и LiDAR.
Радары обеспечивают широкий диапазон обнаружения и сохраняют свою эффективность даже при изменении погодных условий. За счет использования эффекта Доплера они могут дополнительно измерять скорость объектов, что способствует повышению точности SD-обнаружения
Камеры являются доступными и широко используемыми для задач семантического анализа, например, распознавания типов дорожных знаков. Они создают изображения формата Icam Е RW хНх3 для 3D-обнаружения, где W и H обозначают ширину и высоту изображения, а каждый пиксель содержит три канала RGB.
Однако у камер есть ограничения при применении их для SD-обнаружения объектов. Во-первых, камеры фиксируют только внешние визуальные данные, не предоставляя прямой информации о ЭБ-структуре сцены. Во-вторых, для 3D-обнаружения требуется точная локализация объектов, тогда как оценка глубины из изображений часто сопровождается значительными погрешностями. Кроме того, камеры подвержены влиянию экстремальных погодных условий и времени суток: обнаружение ночью или в туманную погоду существенно сложнее, чем при ясной погоде, что снижает надежность таких систем для автономного вождения.
В качестве альтернативы датчики LiDAR могут обеспечивать точное восприятие 3D-структуры, используя лазерные лучи и анализируя их отражение. Датчик LiDAR, который испускает m лазерных лучей и выполняет n измерений за один цикл сканирования, формирует диапазонное изображение Irange Е Rmxnx3. В каждом пикселе диапазонного изображения содержится информация о диапазоне r, азимуте а, угле наклона ср в сферической системе координат и интенсивности отражения. Эти диапазонные изображения представляют собой сырые данные, полученные с LiDAR, и могут быть преобразованы в облака точек с использованием декартовых координат
Облако точек можно представить как Ipoint Е RNх3, где N — количество точек, а каждая точка имеет три координаты xyz. Диапазонные изображения и облака точек содержат точную информацию о 3D-структуре, полученную с помощью LiDAR, что делает эти датчики более подходящими для 3D-обнаружения объектов, а также более устойчивыми к погодным и временным изменениям по сравнению с камерами.
Однако стоимость датчиков LiDAR значительно выше, что может ограничить их применение в автономном транспорте. Пример 3Б-обнаружения объектов приведен на рисунке 1.1.
Рисунок 1.1 — Схема процесса 3D-обнаружения объектов в контексте автономного
вождения.
Сопоставление с 2Б-обнаружением объектов. 2Б-обнаружение объектов, целью которого является создание 2D-ограничивающих рамок на изображениях, представляет собой основную задачу в области компьютерного зрения. Методы 3Б-обнаружения объектов заимствовали множество концепций дизайна от своих 2D-аналогов, таких как генерация и уточнение предложений, якоря, подавление немаксимальных значений и т.д. Однако, с различных точек зрения, 3Б-обнаружение объектов не является простой адаптацией методов 2D-обнаружения объектов к 3D-пространству.
(1) Методы 3D-обнаружения объектов должны работать с разнородными представлениями данных. Обнаружение из облаков точек требует новых операторов и сетей для обработки нерегулярных данных точек, в то время как обнаружение как из облаков точек, так и из изображений требует специализированных механизмов слияния.
(2) Методы 3D-обнаружения объектов обычно используют различные проекционные виды для генерации предсказаний объектов. В отличие от методов 2D-обнаружения объектов, которые обнаруживают объекты с перспективного вида, методы 3D должны учитывать различные виды для обнаружения 3D-объектов, например, вид с птичьего полета, точечный вид и цилиндрический вид.
(3) Обнаружение 3D-объектов предъявляет высокие требования к точной локализации объектов в 3Б-пространстве. Ошибка локализации на уровне дециметра
может привести к сбою обнаружения малых объектов, таких как пешеходы и велосипедисты, тогда как в 2D-обнаружении объектов ошибка локализации в несколько пикселей может по-прежнему поддерживать высокое пересечение над союзом (IoU) между предсказанными и истинными ограничивающими рамками. Следовательно, точная 3D-геометрическая информация является неотъемлемой для обнаружения 3D-объектов как из облаков точек, так и из изображений.
Сопоставление с 3Б-обнаружением объектов в помещении.
Существуют исследования, посвященные SD-обнаружению объектов в помещениях, такие как ScanNet [2] и SUN RGB-D [3], где представлены 3D-структуры комнат, восстановленные на основе данных с RGB-D камер и 3D-разметки. Эти исследования охватывают такие объекты, как двери, окна, кровати и стулья.
Обнаружение 3D-объектов в помещении [4—7] основано на использовании облаков точек или изображений. Однако, обнаружение в сценариях вождения имеет уникальные отличия. В отличие от помещений, где точки распределяются равномерно на поверхностях и большинство 3Б-объектов получают достаточное количество точек на своих поверхностях [2], в сценариях вождения большинство точек попадает в ближайшее окружение датчика LiDAR, а те 3Б-объекгы, которые находятся далеко от датчика, получают только несколько точек. Это означает, что методы в сценариях вождения требуют обработки различных плотностей облаков точек 3D-объектов и точного обнаружения даже разреженных объектов.
Кроме того, в сценариях автономного вождения существует высокая потребность в минимальной задержке вывода. Системы восприятия должны работать в режиме реального времени, чтобы предотвратить аварии. Следовательно, эти методы должны быть вычислительно эффективными, иначе их использование в реальных приложениях станет невозможным.
1.1.2 Анализ наборов данных
Для задач автономного вождения было разработано множество наборов данных, предоставляющих мультимодальные сенсорные данные и 3D-аннотации для 3D-обнаружения объектов. В таблицах 1 и 2 перечислены наборы данных, собранные в условиях вождения, с 3D-аннотациями объектов в виде кубоидов.
Одним из первых проектов по сбору и аннотации данных стал К1ТТ1 [8], который предложил стандартный подход: оснащение транспортных средств камерами и датчиками LiDAR для записи данных во время вождения по дорогам и последующей 3D-аннотации объектов. Последующие исследования улучшали этот подход в нескольких аспектах:
1. Масштаб данных: В отличие от К1ТТ1 [8], крупные наборы данных, такие как [9], [1], [10], увеличили объем данных более чем в 10 раз, предлагая больше облаков точек, изображений и аннотаций.
2. Разнообразие данных: К1ТТ1 [8] содержит данные, собранные только днем при хороших погодных условиях. В то время как более поздние наборы данных, такие как [11], [12], [13], [1], [9], [14], [10], [15], включают данные, собранные ночью или в неблагоприятных погодных условиях, например, в дождь.
3. Количество аннотированных категорий. Некоторые наборы данных [1; 14—17] предоставляют более детализированные классы объектов, включая животных, барьеры, дорожные конусы и т. д. Они также предоставляют детализированные подкатегории существующих классов, например, категорию взрослых и детей для существующего класса пешеходов в [1].
4. Количество модальностей данных. Помимо изображений и облаков точек, последние наборы данных предоставляют больше типов данных, включая карты высокого разрешения [9; 12; 15; 18], данные радара [1], данные LiDAR дальнего действия [19; 20], тепловые изображения [11].
Анализ: перспективы будущих наборов данных для вождения. Научное сообщество стало свидетелем бурного роста числа наборов данных для 3Б-обнаружения объектов в сценариях автономного вождения. В связи с этим возникает вопрос: какими будут следующие поколения наборов данных для автономного вождения? Учитывая тот факт, что 3Б-обнаружение объектов не является независимой задачей, а компонентом систем вождения, предполагается, что будущие наборы данных будут включать все важные задачи в автономном вождении: восприятие, прогнозирование, планирование и картографирование, как единое целое и в конце-концовом виде. Это позволит разработку и оценку методов 3Б-обнаружения объектов рассматривать с общей и систематической точки зрения. Несколько наборов данных [1; 9; 25] уже работают над достижением этой цели.
Далее рассматриваются наиболее распространенные наборы данных и те, на которых проводились эксперименты обучения.
Таблица 1 — Наборы данных для обнаружения 3Б-объектов в сценариях вождения.
Наборы данных Год Размер Реальный мир LiDAR scans
KITTI [8; 21] 2012 1.5ч Да 15k
KAIST [11] 2018 - Да 8.9k
Apollo [22; 23] 2019 100ч Да 20k
H3D [24] 2019 0.77ч Да 27k
Lyft L5 [18] 2019 2.5ч Да 46k
Argoverse [12] 2019 0.6ч Да 44k
WoodScape [25] 2019 - Да 10k
AIODrive [19] 2020 6.9ч Нет 250k
A*3D [13] 2020 55ч Да 39k
A2D2 [17] 2020 - Да 12.5k
Cityscapes3D [26] 2020 - Да 0
nuScenes [1] 2020 5.5ч Да 400k
WaymoOpen [9] 2020 6.4ч Да 230k
Cirrus [20] 2021 - Да 6.2k
PandaSet [14] 2021 0.22ч Да 8.2k
KITTI-360 [16] 2021 - Да 80k
Argoversev2 [15] 2021 - Да -
ONCE [10] 2021 144ч Да 1M
Набор данных nuScenes
nuScenes1 - это крупномасштабный публичный датасет для автономного вождения. Он позволяет исследователям изучать сложные городские ситуации вождения с использованием полного набора датчиков реального автомобиля с автопилотом. Датасет содержит 1000 сцен продолжительностью 20 секунд каждая, собранных в Бостоне и Сингапуре - двух городах, известных своим плотным движением и сложными ситуациями вождения. Данные датчиков включают в себя: 1 лидар среднего диапазона, 5 радаров, 6 камер (спереди и сбоку), данные IMU и GPS. В датасете также присутствуют аннотации для 23 классов объектов с точными SD-ограничивающими рамками на частоте 2 Гц на протяжении всего датасета.
1 http://www.nuscenes.org
Таблица 2 — Продолжение анализа наборов данных для обнаружения 3D-объектов в сценариях вождения.
Наборы данных Изображения 3D аннотации Классы night/rain
KITTI [8; 21] 15k 200k 8 Нет/Нет
KAIST [11] 8.9k Да 3 Да/Нет
Apollo [22; 23] 144k 475k 6 -/-
H3D [24] 83k 1.1M 8 Нет/Нет
Lyft L5 [18] 323k 1.3M 9 Нет/Нет
Argoverse [12] 490k 993k 15 Да/Да
WoodScape [25] 10k - 3 Да/Да
AIODrive [19] 250k 26M - Да/Да
A*3D [13] 39k 230k 7 Да/Да
A2D2 [17] 41.3k - 14 -/-
Cityscapes3D [26] 5k - 8 Нет/Нет
nuScenes [1] 1.4M 1.4M 23 Да/Да
WaymoOpen [9] 12M - 4 Да/Да
Cirrus [20] 6.2k - 8 -/-
PandaSet [14] 49k 1.3M 28 -/-
KITTI-360 [16] 300k 68k 37 -/-
Argoversev2 [15] - - 30 -/-
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Исследование и разработка моделей и методов построения инфраструктуры сетей автономного транспорта с использованием технологий Искусственного Интеллекта2023 год, кандидат наук Аль-Свейти Малик
Алгоритмы и методы применения многокамерных систем кругового обзора в контуре управления мобильного робота2024 год, кандидат наук Варлашин Виктор Витальевич
Масштабируемые алгоритмы одновременного построения карты и локализации стаи мобильных роботов2021 год, кандидат наук Филатов Антон Юрьевич
Разработка и исследование методов и алгоритмов адаптивного планирования маневров беспилотного автомобиля2024 год, кандидат наук Жамал Маис
Лидарный программно-аппаратный комплекс для пространственного картирования аэрозольных шлейфов2024 год, кандидат наук Чжан Шо
Список литературы диссертационного исследования кандидат наук Мурхиж Юшаа, 2024 год
Список литературы
1. nuscenes: A multimodal dataset for autonomous driving / H. Caesar [и др.] // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. — 2020. — С. 11621—11631.
2. Scannet: Richly-annotated 3d reconstructions of indoor scenes / A. Dai [и др.] // Proceedings of the IEEE conference on computer vision and pattern recognition. —
2017. —С. 5828-5839.
3. Song, S. Sun rgb-d: A rgb-d scene understanding benchmark suite / S. Song, S. P. Lichtenberg, J. Xiao // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2015. — С. 567—576.
4. Frustum pointnets for 3d object detection from rgb-d data / C. R. Qi [и др.] // Proceedings of the IEEE conference on computer vision and pattern recognition. —
2018. —С. 918-927.
5. Deep Hough Voting for 3D Object Detection in Point Clouds / C. Qi [и др.] // 2019 IEEE/CVF International Conference on Computer Vision (ICCV). — 2019. — С. 9276-9285.
6. ImVoteNet: Boosting 3D Object Detection in Point Clouds With Image Votes / C. R. Qi [и др.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 2020.
7. Group-free 3d object detection via transformers / Z. Liu [и др.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2021. — С. 2949-2958.
8. Geiger, A. Are we ready for autonomous driving? the kitti vision benchmark suite / A. Geiger, P. Lenz, R. Urtasun //2012 IEEE conference on computer vision and pattern recognition. — IEEE. 2012. — С. 3354—3361.
9. Scalability in perception for autonomous driving: Waymo open dataset / P. Sun [и др.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2020. — С. 2446—2454.
10. One million scenes for autonomous driving: Once dataset / J. Mao [и др.] // arXiv preprint arXiv:2106.11037. — 2021.
11. KAIST multi-spectral day/night data set for autonomous and assisted driving / Y. Choi [и др.] // IEEE Transactions on Intelligent Transportation Systems. — 2018. - Т. 19, № 3. - С. 934-948.
12. Argoverse: 3d tracking and forecasting with rich maps / M.-F. Chang [и др.] // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. — 2019. — С. 8748—8757.
13. A 3D dataset: Towards autonomous driving in challenging environments / Q.-H. Pham [и др.] // 2020 IEEE International Conference on Robotics and Automation (ICRA). — IEEE. 2020. — С. 2267—2273.
14. Pandaset: Advanced sensor suite dataset for autonomous driving / P. Xiao [и др.] // 2021 IEEE International Intelligent Transportation Systems Conference (ITSC). — IEEE. 2021. —С. 3095-3101.
15. Argoverse 2: Next generation datasets for self-driving perception and forecasting /
B. Wilson [и др.] // arXiv preprint arXiv:2301.00493. — 2023.
16. Liao, Y. KITTI-360: A novel dataset and benchmarks for urban scene understanding in 2d and 3d / Y Liao, J. Xie, A. Geiger // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2022.
17. A2d2: Audi autonomous driving dataset / J. Geyer [и др.] // arXiv preprint arXiv:2004.06320.-2020.
18. Lyft Level 5 AV Dataset 2019 / R. Kesten [и др.]. — 2019. — https://level5.lyft. com/dataset/.
19. All-in-one drive: A large-scale comprehensive perception dataset with high-density long-range point clouds / X. Weng [и др.] // arXiv. — 2020.
20. Cirrus: A long-range bi-pattern lidar dataset / Z. Wang [и др.] // 2021 IEEE International Conference on Robotics and Automation (ICRA). — IEEE. 2021. —
C. 5744—5750.
21. Vision meets robotics: The kitti dataset / A. Geiger [и др.] // The International Journal of Robotics Research. — 2013. — Т. 32, № 11. — С. 1231—1237.
22. The apolloscape open dataset for autonomous driving and its application / X. Huang [и др.] // IEEE transactions on pattern analysis and machine intelligence. — 2019. — Т. 42, № 10. — С. 2702—2719.
23. Trafficpredict: Trajectory prediction for heterogeneous traffic-agents / Y. Ma [h gp.] // Proceedings of the AAAI conference on artificial intelligence. T. 33. — 2019. — C. 6120-6127.
24. The h3d dataset for full-surround 3d multi-object detection and tracking in crowded urban scenes / A. Patil [h gp.] //2019 International Conference on Robotics and Automation (ICRA). — IEEE. 2019. — C. 9552—9557.
25. Woodscape: A multi-task, multi-camera fisheye dataset for autonomous driving / S. Yogamani [h gp.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2019. — C. 9308—9318.
26. Cityscapes 3d: Dataset and benchmark for 9 dof vehicle detection / N. Gahlert [h gp.] // arXiv preprint arXiv:2006.07864. — 2020.
27. Microsoft coco: Common objects in context / T.-Y. Lin [h gp.] // Computer Vision-ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13. — Springer. 2014. — C. 740—755.
28. Philion, J. Learning to evaluate perception models using planner-centric metrics / J. Philion, A. Kar, S. Fidler // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2020. — C. 14055—14064.
29. Revisiting 3d object detection from an egocentric perspective / B. Deng [h gp.] // Advances in Neural Information Processing Systems. — 2021. — T. 34. — C. 26066--26079.
30. Wang, XSalient object detection via fast R-CNN and low-level cues / X. Wang, H. Ma, X. Chen // 2016 IEEE International Conference on Image Processing (ICIP). - IEEE. 2016. - C. 1042-1046.
31. Rich feature hierarchies for accurate object detection and semantic segmentation / R. Girshick [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2014. — C. 580—587.
32. Mask r-cnn / K. He [h gp.] // Proceedings of the IEEE international conference on computer vision. — 2017. — C. 2961—2969.
33. Faster r-cnn: Towards real-time object detection with region proposal networks / S. Ren [h gp.] // Advances in neural information processing systems. — 2015. — T. 28.
34. Redmon, J. YOLO9000: better, faster, stronger / J. Redmon, A. Farhadi // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2017. — C. 7263-7271.
35. Ssd: Single shot multibox detector / W. Liu [h gp.] // European conference on computer vision. — Springer. 2016. — C. 21—37.
36. Focal loss for dense object detection / T.-Y. Lin [h gp.] // Proceedings of the IEEE international conference on computer vision. — 2017. — C. 2980—2988.
37. Zhou, X. Objects as points / X. Zhou, D. Wang, P. Krâhenbuhl // arXiv preprint arXiv:1904.07850. — 2019.
38. Zhou, X. Tracking objects as points / X. Zhou, V. Koltun, P. Krâhenbuhl // European Conference on Computer Vision. — Springer. 2020. — C. 474—490.
39. Structure aware single-stage 3d object detection from point cloud / C. He [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2020. — C. 11873—11882.
40. Shi, S. Pointrcnn: 3d object proposal generation and detection from point cloud / S. Shi, X. Wang, H. Li // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. — 2019. — C. 770—779.
41. Complex-yolo: An euler-region-proposal for real-time 3d object detection on point clouds / M. Simony [h gp.] // Proceedings of the European Conference on Computer Vision (ECCV) Workshops. — 2018.
42. 3dssd: Point-based 3d single stage object detector / Z. Yang [h gp.] // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. — 2020. — C. 11040-11048.
43. Pointpillars: Fast encoders for object detection from point clouds / A. H. Lang [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2019. — C. 12697—12705.
44. Multi-task multi-sensor fusion for 3d object detection / M. Liang [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2019. — C. 7345—7353.
45. Yan, Y. Second: Sparsely embedded convolutional detection / Y. Yan, Y. Mao, B. Li // Sensors. — 2018. — T. 18, № 10. — C. 3337.
46. Std: Sparse-to-dense 3d object detector for point cloud / Z. Yang [h gp.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. —
2019. — C. 1951-1960.
47. Vote3deep: Fast object detection in 3d point clouds using efficient convolutional neural networks / M. Engelcke [h gp.] //2017 IEEE International Conference on Robotics and Automation (ICRA). — IEEE. 2017. — C. 1355—1361.
48. Wang, D. Z. Voting for voting in online point cloud object detection. / D. Z. Wang, I. Posner // Robotics: Science and Systems. T. 1. — Rome, Italy. 2015. — C. 10—15.
49. Zhou, Y. Voxelnet: End-to-end learning for point cloud based 3d object detection / Y Zhou, O. Tuzel // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2018. — C. 4490—4499.
50. Pointnet: Deep learning on point sets for 3d classification and segmentation / C. R. Qi [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2017. — C. 652—660.
51. Graham, B. 3d semantic segmentation with submanifold sparse convolutional networks / B. Graham, M. Engelcke, L. Van Der Maaten // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2018. — C. 9224—9232.
52. Yang, B. Pixor: Real-time 3d object detection from point clouds / B. Yang, W. Luo, R. Urtasun // Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. — 2018. — C. 7652—7660.
53. End-to-end multi-view fusion for 3d object detection in lidar point clouds / Y. Zhou [h gp.] // Conference on Robot Learning. — PMLR. 2020. — C. 923—932.
54. Pillar-based object detection for autonomous driving / Y. Wang [h gp.] // Computer Vision-ECCV 2020: 16th European Conference, Glasgow, UK, August 23-28,
2020, Proceedings, Part XXII 16. — Springer. 2020. — C. 18—34.
55. Deep hough voting for 3d object detection in point clouds / C. R. Qi [h gp.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2019. — C. 9277-9286.
56. Identifying unknown instances for autonomous driving / K. Wong [h gp.] // Conference on Robot Learning. — PMLR. 2020. — C. 384—393.
57. Object as hotspots: An anchor-free 3d object detection approach via firing of hotspots / Q. Chen [h gp.] // European Conference on Computer Vision. — Springer. 2020. - C. 68-84.
58. Fast point r-cnn / Y. Chen [h gp.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2019. — C. 9775—9784.
59. Pv-rcnn: Point-voxel feature set abstraction for 3d object detection / S. Shi [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2020. — C. 10529—10538.
60. From points to parts: 3d object detection from point cloud with part-aware and part-aggregation network / S. Shi [h gp.] // IEEE transactions on pattern analysis and machine intelligence. — 2020.
61. Instance-aware, context-focused, and memory-efficient weakly supervised object detection / Z. Ren [h gp.] // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. — 2020. — C. 10598—10607.
62. UFO 2: A unified framework towards omni-supervised object detection / Z. Ren [h gp.] // Computer Vision-ECCV 2020: 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part XIX. — Springer. 2020. — C. 288—313.
63. Fcos: Fully convolutional one-stage object detection / Z. Tian [h gp.] // Proceedings of the IEEE/CVF international conference on computer vision. — 2019. — C. 9627--9636.
64. Yang, XMaking convolutional networks recurrent for visual sequence learning / X. Yang, P. Molchanov, J. Kautz // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2018. — C. 6469—6478.
65. Kalman, R. E. A new approach to linear filtering and prediction problems / R. E. Kalman. — 1960.
66. Simple online and realtime tracking / A. Bewley [h gp.] // 2016 IEEE international conference on image processing (ICIP). — IEEE. 2016. — C. 3464—3468.
67. Feichtenhofer, C. Detect to track and track to detect / C. Feichtenhofer, A. Pinz, A. Zisserman // Proceedings of the IEEE international conference on computer vision. - 2017. - C. 3038-3046.
68. Chained-tracker: Chaining paired attentive regression results for end-to-end joint multiple-object detection and tracking / J. Peng [h gp.] // Computer Vision-ECCV 2020: 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part IV 16. — Springer. 2020. — C. 145—161.
69. Joint discriminative and generative learning for person re-identification / Z. Zheng [h gp.] // proceedings of the IEEE/CVF conference on computer vision and pattern recognition. — 2019. — C. 2138—2147.
70. Joint disentangling and adaptation for cross-domain person re-identification / Y. Zou [h gp.] // Computer Vision-ECCV 2020: 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part II 16. — Springer. 2020. — C. 87—104.
71. Retinatrack: Online single stage joint detection and tracking / Z. Lu [h gp.] // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. — 2020. — C. 14668—14678.
72. Fairmot: On the fairness of detection and re-identification in multiple object tracking / Y. Zhang [h gp.] // International Journal of Computer Vision. — 2021. — T. 129. — C. 3069-3087.
73. Bergmann, P. Tracking without bells and whistles / P. Bergmann, T. Meinhardt, L. Leal-Taixe // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2019. — C. 941—951.
74. Attention is all you need / A. Vaswani [h gp.] // Advances in neural information processing systems. — 2017. — C. 5998—6008.
75. Trackformer: Multi-object tracking with transformers / T. Meinhardt [h gp.] // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. — 2022. — C. 8844—8854.
76. End-to-end object detection with transformers / N. Carion [h gp.] // Computer Vision-ECCV 2020: 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part I 16. — Springer. 2020. — C. 213—229.
77. Transtrack: Multiple object tracking with transformer / P. Sun [h gp.] // arXiv preprint arXiv:2012.15460. — 2020.
78. AB3DMOT: A Baseline for 3D Multi-Object Tracking and New Evaluation Metrics / X. Weng [h gp.] // arXiv preprint arXiv:2008.08063. — 2020.
79. Yin, T. Center-based 3d object detection and tracking / T. Yin, X. Zhou, P. Krahenbuhl // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2021. — C. 11784—11793.
80. Luo, W. Fast and furious: Real time end-to-end 3d detection, tracking and motion forecasting with a single convolutional net / W. Luo, B. Yang, R. Urtasun // Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. — 2018. — C. 3569-3577.
81. Pnpnet: End-to-end perception and prediction with tracking in the loop / M. Liang [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2020. — C. 11553—11562.
82. Probabilistic 3d multi-modal, multi-object tracking for autonomous driving / H.-k. Chiu [h gp.] // 2021 IEEE International Conference on Robotics and Automation (ICRA). — IEEE. 2021. — C. 14227—14233.
83. Vectornet: Encoding hd maps and agent dynamics from vectorized representation / J. Gao [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2020. — C. 11525—11533.
84. Huang, Z. Multi-modal Motion Prediction with Transformer-based Neural Network for Autonomous Driving / Z. Huang, X. Mo, C. Lv // 2022 International Conference on Robotics and Automation (ICRA). — 2022. — C. 2605—2611.
85. An image is worth 16x16 words: Transformers for image recognition at scale / A. Dosovitskiy [h gp.] // arXiv preprint arXiv:2010.11929. — 2020.
86. Scene Transformer: A unified architecture for predicting future trajectories of multiple agents / J. Ngiam [h gp.] // International Conference on Learning Representations. — 2021.
87. Prank: motion prediction based on ranking / Y. Biktairov [h gp.] // Advances in neural information processing systems. — 2020. — T. 33. — C. 2553—2563.
88. Uncertainty-aware short-term motion prediction of traffic actors for autonomous driving / N. Djuric [h gp.] // Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. — 2020. — C. 2095—2104.
89. Hoermann, S. Dynamic occupancy grid prediction for urban autonomous driving: A deep learning approach with fully automatic labeling / S. Hoermann, M. Bach, K. Dietmayer //2018 IEEE International Conference on Robotics and Automation (ICRA). - IEEE. 2018. - C. 2056-2063.
90. Liu, H. STrajNet: Occupancy Flow Prediction via Multi-modal Swin Transformer / H. Liu, Z. Huang, C. Lv // arXiv preprint arXiv:2208.00394. — 2022.
91. HOPE: Hierarchical Spatial-temporal Network for Occupancy Flow Prediction / Y. Hu [h gp.] // arXiv preprint arXiv:2206.10118. — 2022.
92. Bansal, M. Chauffeurnet: Learning to drive by imitating the best and synthesizing the worst / M. Bansal, A. Krizhevsky, A. Ogale // arXiv preprint arXiv:1812.03079. — 2018.
93. Discrete residual flow for probabilistic pedestrian behavior prediction / A. Jain [h gp.] // Conference on Robot Learning. — PMLR. 2020. — C. 407—419.
94. Casas, S. Mp3: A unified model to map, perceive, predict and plan / S. Casas, A. Sadat, R. Urtasun // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2021. — C. 14403—14412.
95. Hong, J. Rules of the road: Predicting driving behavior with a convolutional model of semantic interactions / J. Hong, B. Sapp, J. Philbin // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2019. — C. 8454--8462.
96. Occupancy Grid Generation With Dynamic Obstacle Segmentation in Stereo Images / I. Shepel [h gp.] // IEEE Transactions on Intelligent Transportation Systems. - 2022. - T. 23, № 9. - C. 14779-14789.
97. Sharma, N. Pedestrian Intention Prediction for Autonomous Vehicles: A Comprehensive Survey / N. Sharma, C. Dhiman, S. Indu // Neurocomputing. — 2022. — T. 508. — C. 120—152. — URL: https://www.sciencedirect.com/science/ article/pii/S0925231222009547.
98. A grey convolutional neural network model for traffic flow prediction under traffic accidents / Y. Liu [h gp.] // Neurocomputing. — 2022. — T. 500. — C. 761—775. — URL: https://www.sciencedirect.com/science/article/pii/S0925231222006567.
99. Weng, X. PTP: Parallelized tracking and prediction with graph neural networks and diversity sampling / X. Weng, Y. Yuan, K. Kitani // IEEE Robotics and Automation Letters. — 2021. — T. 6, № 3. — C. 4640—4647.
100. Accurate monocular 3d object detection via color-embedded 3d reconstruction for autonomous driving / X. Ma [h gp.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2019. — C. 6851—6860.
101. Pseudo-lidar from visual depth estimation: Bridging the gap in 3d object detection for autonomous driving / Y. Wang [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2019. — C. 8445-8453.
102. Rethinking pseudo-lidar representation / X. Ma [h gp.] // Computer Vision-ECCV 2020: 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part XIII 16. — Springer. 2020. — C. 311—327.
103. Is pseudo-lidar needed for monocular 3d object detection? / D. Park [h gp.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. —
2021. — C. 3142-3152.
104. Did-m3d: Decoupling instance depth for monocular 3d object detection / L. Peng [h gp.] // European Conference on Computer Vision. — Springer. 2022. — C. 71—88.
105. 3d bounding box estimation using deep learning and geometry / A. Mousavian [h gp.] // Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. — 2017. — C. 7074—7082.
106. Geometry uncertainty projection network for monocular 3d object detection / Y. Lu [h gp.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. - 2021. - C. 3111-3121.
107. Zhang, Y. Objects are different: Flexible monocular 3d object detection / Y. Zhang, J. Lu, J. Zhou // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2021. — C. 3289—3298.
108. Qin, Z. Monoground: Detecting monocular 3d objects from the ground / Z. Qin, X. Li // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2022. — C. 3793—3802.
109. Dimension Embeddings for Monocular 3D Object Detection / Y Zhang [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2022. — C. 1589—1598.
110. Monopair: Monocular 3d object detection using pairwise spatial relationships / Y. Chen [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2020. — C. 12093—12102.
111. Homography loss for monocular 3d object detection / J. Gu [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. —
2022. — C. 1080-1089.
112. BAAM: Monocular 3D pose and shape reconstruction with bi-contextual attention module and attention-guided modeling / H.-J. Lee [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2023. — C. 9011-9020.
113. Learning to estimate robust 3d human mesh from in-the-wild crowded scenes / H. Choi [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2022. — C. 1475—1484.
114. End-to-end recovery of human shape and pose / A. Kanazawa [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2018. — C. 7122-7131.
115. SPEC: Seeing people in the wild with an estimated camera / M. Kocabas [h gp.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2021. — C. 11035-11045.
116. SMPL: A skinned multi-person linear model / M. Loper [h gp.] // Seminal Graphics Papers: Pushing the Boundaries, Volume 2. -- Association for Computing Machinery, 2023. — C. 851—866.
117. Monocular, one-stage, regression of multiple 3d people / Y. Sun [h gp.] // Proceedings of the IEEE/CVF international conference on computer vision. — 2021. — C. 11179-11188.
118. Putting people in their place: Monocular regression of 3d people in depth / Y. Sun [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2022. — C. 13243—13252.
119. Deep manta: A coarse-to-fine many-task network for joint 2d and 3d vehicle analysis from monocular image / F. Chabot [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2017. — C. 2040—2049.
120. Kundu, A. 3d-rcnn: Instance-level 3d object reconstruction via render-and-compare / A. Kundu, Y. Li, J. M. Rehg // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2018. — C. 3559—3568.
121. Manhardt, F. Roi-10d: Monocular lifting of 2d detection to 6d pose and metric shape / F. Manhardt, W. Kehl, A. Gaidon // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2019. — C. 2069--2078.
122. Apollocar3d: A large 3d car instance understanding benchmark for autonomous driving / X. Song [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2019. — C. 5452—5462.
123. Gsnet: Joint vehicle pose and shape reconstruction with geometrical and scene-aware supervision / L. Ke [h gp.] // Computer Vision-ECCV 2020: 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part XV 16. — Springer. 2020. — C. 515—532.
124. Tex2shape: Detailed full human body geometry from a single image / T. Alldieck [h gp.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. - 2019. - C. 2293—2303.
125. Learning to dress 3d people in generative clothing / Q. Ma [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2020. - C. 6469-6478.
126. Disentangling Monocular 3D Object Detection / A. Simonelli [h gp.] // 2019 IEEE/CVF International Conference on Computer Vision (ICCV). — 2019. — C. 1991—1999.
127. Liu, Z. Smoke: Single-stage monocular 3d object detection via keypoint estimation / Z. Liu, Z. Wu, R. Toth // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. — 2020. — C. 996—997.
128. Joint monocular 3D vehicle detection and tracking / H.-N. Hu [h gp.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2019. — C. 5390—5399.
129. Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance Disparity Estimation / J. Sun [h gp.] // 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 2020. — C. 10545—10554.
130. Li, P. Joint spatial-temporal optimization for stereo 3D object tracking / P. Li, J. Shi, S. Shen // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2020. — C. 6877—6886.
131. Nabati, R. Radar-Camera Sensor Fusion for Joint Object Detection and Distance Estimation in Autonomous Vehicles / R. Nabati, H. Qi // arXiv:2009.08428. — 2020.
132. Class-balanced grouping and sampling for point cloud 3d object detection / B. Zhu [h gp.] // arXiv preprint arXiv:1908.09492. — 2019.
133. SSN: Shape Signature Networks for Multi-class Object Detection from Point Clouds / X. Zhu [h gp.] // Proceedings of the European Conference on Computer Vision. — 2020.
134. Pseudo-lidar++: Accurate depth for 3d object detection in autonomous driving / Y. You [h gp.] // arXiv preprint arXiv:1906.06310. — 2019.
135. Complexer-yolo: Real-time 3d object detection and tracking on semantic point clouds / M. Simon [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. — 2019.
136. Sindagi, V. A. MVX-Net: Multimodal voxelnet for 3D object detection / V. A. Sindagi, Y. Zhou, O. Tuzel //2019 International Conference on Robotics and Automation (ICRA). — IEEE. 2019. — C. 7276—7282.
137. Rowbury, J. Lidar erupts into new applications: Now smaller, cheaper and more robust, light detection and ranging instruments are being used in new ways. / J. Rowbury // Electro Optics. — 2020. — № 309. — C. 18—20.
138. Cheng, R. Geometry-aware recurrent neural networks for active visual recognition / R. Cheng, Z. Wang, K. Fragkiadaki // arXiv preprint arXiv:1811.01292. — 2018.
139. Centernet: Keypoint triplets for object detection / K. Duan [h gp.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2019. — C. 6569-6578.
140. Law, H. Cornernet: Detecting objects as paired keypoints / H. Law, J. Deng // Proceedings of the European conference on computer vision (ECCV). — 2018. — C. 734—750.
141. Focal Sparse Convolutional Networks for 3D Object Detection / Y. Chen [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2022. — C. 5428—5437.
142. Transfusion: Robust lidar-camera fusion for 3d object detection with transformers / X. Bai [h gp.] // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. — 2022. — C. 1090—1099.
143. 3d object detection with a self-supervised lidar scene flow backbone / E. Er?elik [h gp.] // European Conference on Computer Vision. — Springer. 2022. — C. 247-265.
144. Shape prior guided instance disparity estimation for 3d object detection / L. Chen [h gp.] // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2021. — T. 44, № 9. — C. 5529--5540.
145. Li, P. Stereo r-cnn based 3d object detection for autonomous driving / P. Li, X. Chen, S. Shen // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2019. — C. 7644—7652.
146. Brazil, G. M3d-rpn: Monocular 3d region proposal network for object detection / G. Brazil, X. Liu // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2019. — C. 9287—9296.
147. Monodtr: Monocular 3d object detection with depth-aware transformer / K.-C. Huang [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2022. — C. 4012—4021.
148. Gs3d: An efficient 3d object detection framework for autonomous driving / B. Li [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2019. — C. 1019—1028.
149. Rtm3d: Real-time monocular 3d detection from object keypoints for autonomous driving / P. Li [h gp.] // European Conference on Computer Vision. — Springer.
2020. - C. 644-660.
150. Autoshape: Real-time shape-aware monocular 3d object detection / Z. Liu [h gp.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. —
2021. — C. 15641-15650.
151. Hendrycks, D. Gaussian error linear units (gelus) / D. Hendrycks, K. Gimpel // arXiv preprint arXiv:1606.08415. — 2016.
152. Part-level car parsing and reconstruction in single street view images / Q. Geng [h gp.] // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2021. - T. 44, № 8. - C. 4291-4305.
153. Paravarzar, S. Motion prediction on self-driving cars: A review / S. Paravarzar, B. Mohammad // arXiv preprint arXiv:2011.03635. — 2020.
154. Large scale interactive motion forecasting for autonomous driving: The waymo open motion dataset / S. Ettinger [h gp.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2021. — C. 9710—9719.
155. Gu, J. Densetnt: End-to-end trajectory prediction from dense goal sets / J. Gu, C. Sun, H. Zhao // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2021. — C. 15303—15312.
156. Konev, S. MotionCNN: a strong baseline for motion prediction in autonomous driving / S. Konev, K. Brodt, A. Sanakoyeu // arXiv preprint arXiv:2206.02163. — 2022.
157. Dab-detr: Dynamic anchor boxes are better queries for detr / S. Liu [h gp.] // arXiv preprint arXiv:2201.12329. — 2022.
158. Scenario Understanding and Motion Prediction for Autonomous Vehicles—Review and Comparison / P. Karle [h gp.] // IEEE Transactions on Intelligent Transportation Systems. - 2022. - T. 23, № 10. - C. 16962-16982.
159. Motion transformer with global intention localization and local movement refinement / S. Shi [h gp.] // arXiv preprint arXiv:2209.13508. — 2022.
160. nuScenes: A multimodal dataset for autonomous driving / H. Caesar [h gp.] // arXiv preprint arXiv:1903.11027. — 2019.
161. Argoverse 2: Next Generation Datasets for Self-driving Perception and Forecasting /
B. Wilson [h gp.] // Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks (NeurIPS Datasets and Benchmarks 2021). — 2021.
162. Swin transformer: Hierarchical vision transformer using shifted windows / Z. Liu [h gp.] // Proceedings of the IEEE/CVF international conference on computer vision. -2021. — C. 10012-10022.
163. Occupancy Flow Fields for Motion Forecasting in Autonomous Driving / R. Mahjourian [h gp.] // IEEE Robotics and Automation Letters. — 2022. — Anp. — T. 7, № 2. — C. 5639—5646. — Publisher Copyright: © 2016 IEEE.
164. Sarpnet: Shape attention regional proposal network for lidar-based 3d object detection / Y. Ye [h gp.] // Neurocomputing. — 2020. — T. 379. — C. 53—63.
165. Lidar-based online 3d video object detection with graph-based message passing and spatiotemporal transformer attention / J. Yin [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2020. —
C. 11495-11504.
166. Pointpainting: Sequential fusion for 3d object detection / S. Vora [h gp.] // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. — 2020. — C. 4604—4612.
167. Loshchilov, I. Decoupled weight decay regularization /1. Loshchilov, F. Hutter // arXiv preprint arXiv:1711.05101. — 2017.
168. 3d multi-object tracking: A baseline and new evaluation metrics / X. Weng [h gp.] // 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). - IEEE. 2020. - C. 10359-10366.
169. Probabilistic 3d multi-object tracking for autonomous driving / H.-k. Chiu [h gp.]. — 2020.
170. Cia-ssd: Confident iou-aware single-stage object detector from point cloud / W. Zheng [h gp.] // Proceedings of the AAAI conference on artificial intelligence. T. 35. - 2021. - C. 3555-3562.
171. Res2net: A new multi-scale backbone architecture / S.-H. Gao [h gp.] // IEEE transactions on pattern analysis and machine intelligence. — 2019. — T. 43, № 2. — C. 652-662.
172. Valanarasu, J. M. J. Unext: Mlp-based rapid medical image segmentation network / J. M. J. Valanarasu, V. M. Patel // Medical Image Computing and Computer Assisted Intervention-MICCAI 2022: 25th International Conference, Singapore, September 18-22, 2022, Proceedings, Part V. — Springer. 2022. — C. 23—33.
173. Occupancy and Flow Prediction Challenge Leaderboard. — Accessed: 2023-06-25. https://waymo.com/open/challenges/2022/occupancy-flow-prediction-challenge/.
174. Wu, P. Motionnet: Joint perception and motion prediction for autonomous driving based on bird's eye view maps / P. Wu, S. Chen, D. N. Metaxas // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. — 2020. — C. 11385-11395.
175. He, Z. STCNN: A Spatio-Temporal Convolutional Neural Network for Long-Term Traffic Prediction / Z. He, C.-Y. Chow, J.-D. Zhang // 2019 20th IEEE International Conference on Mobile Data Management (MDM). — 2019. — C. 226—233.
176. VectorFlow: Combining Images and Vectors for Traffic Occupancy and Flow Prediction / X. Huang [h gp.] // arXiv preprint arXiv:2208.04530. — 2022.
Публикации автора по теме диссертации
177. Murhij, Y. OFMPNet: Deep end-to-end model for occupancy and flow prediction in urban environment / Y. Murhij, D. Yudin // Neurocomputing. — 2024. — Т. 586. — С. 127649. — URL: https://www.sciencedirect.com/science/article/pii/ S092523122400420X.
178. Murhij, Y. DAGM-Mono: Deformable Attention-Guided Modeling for Monocular 3D Reconstruction / Y. Murhij, D. Yudin // Optical Memory and Neural Networks. — 2024. - Т. 33, № 2. - С. 144-156.
179. Murhij, Y. FMFNet: Improve the 3D Object Detection and Tracking via Feature Map Flow / Y. Murhij, D. Yudin // 2022 International Joint Conference on Neural Networks (IJCNN). — IEEE, 2022. — С. 1—8.
180. Murhij, Y. Rethinking Voxelization and Classification for 3D Object Detection / Y. Murhij, A. Golodkov, D. Yudin // Neural Information Processing / под ред. M. Tanveer [и др.]. — Singapore : Springer Nature Singapore, 2023. — С. 470—481.
181. Мурхиж Ю., Ю. Д. Программная реализация метода обнаружения и отслеживания объектов на основе облака точек в реальном времени / Ю. Д. Мурхиж Ю. // 63-я Всероссийская научная конференция МФТИ. — 2020.-С. 308-310.
182. Свидетельство о гос. регистрации программы для ЭВМ. Программный комплекс обнаружения и трекинга препятствий на основе обработки облаков точек / Ю. Мурхиж ; О. с ограниченной ответственностью ИнтеграНТ. — № 2024613107 ; заявл. 08.02.2024 ; опубл. 08.02.2024, 2023689209 (Рос. Федерация).
183. Свидетельство о гос. регистрации программы для ЭВМ. Программный компонент прогнозирования траектории движения динамических препятствий / Ю. Мурхиж; О. с ограниченной ответственностью ИнтеграНТ. — № 2023688827 ; заявл. 25.12.2023 ; опубл. 25.12.2023, 2023688195 (Рос. Федерация).
Список рисунков
1.1 Схема процесса 3D-обнаружения объектов в контексте автономного вождения.................................... 15
1.2 Общая научная идея разрабатываемых подходах..............32
1.3 Общая задача восприятия, рассмотренная в диссертации. Она включает в себя три основных модуля, позволяющих решать связанные между собой задачи: 1) задачу 3D-обнаружения и трекинга объектов, 2) задачу оценки позы и реконструкции 3D-модели объекта, 3) задачу прогнозирования потока карт проходимости транспортного средства на основе полученных результатов обнаружения и трекинга объектов. . . 33
2.1 Архитектура предлагаемого метода обнаружения и отслеживания 3D-объектов с модулем потока карт объектов под названием FMFNet . 41
2.2 Предлагаемый подход к пространственно-временной агрегации двух карт признаков с разных временных этапов вывода глубокой нейронной модели (называемый потоком карт признаков (Feature Map Flow, FMF)): (a) Общая структура подхода FMF - данные одометрии являются необязательными, (b) Модуль FMF-Concat - это простая конкатенация, (c) FMF-base - это конкатенация с последующей сверткой, batch-нормализацией и активацией ReLU, (d) FMF-Context - это агрегация контекста на основе модуля внимания, (e) FMF-Odometry - это объединение текущей и преобразованной предыдущей карты объектов
в соответствии с данными одометрии....................50
2.3 Структура используемого многозадачного выходного модуля......51
2.4 Среднее значение разброса по 2D/3D воксельной сетке.........51
2.5 Схема нашего подхода 3D-обнаружения, названного RVDet, включая модуль классификации...........................52
3.1 Архитектура предлагаемого метода DAGM-Mono............55
3.2 Блок внимания с учетом формы, который отображает изучаемые элементы шаблона и характеристики транспортного средства, чтобы предсказать смещение транспортного средства и оценитьего форму . . 58
3.3 Би-Контекстное внимание, которое точно предсказывает позиции объектов. BCDA интегрирует контекст, учитывающий как сцену, так и отношения..................................60
4.1 Визуализация выходных данных для обсуждаемой задачи на основе данных конкурса Waymo Occupancy and Flow Prediction [154]......66
4.2 Схема предлагаемых архитектур метода OFMPNet............75
4.3 Функция потерь потока зависит от временного веса wt..........75
5.1 Визуализация результатов FMFNet в виде сверху на наборе данных nuScenes (лучше видно на экране)......................79
5.2 Пример производительности подхода обнаружения на наборе данных Waymo до (слева) и после (справа) добавления выходного модуля (головы) классификации ..........................82
5.3 Качественные результаты DAGM-Mono на Apollo Car 3D.........92
5.4 Качественные результаты DAGM-Mono при 3D - проекции автомобиля Apollo на исходные изображения. ..................... 93
5.5 Сравнение результатов прогнозирования потока OFMPNet на WOD Val-Set. 95
5.6 Качественные результаты на наборе данных Waymo Open Motion
с использованием нашей модели OFMPNet-Swin-T............98
Список таблиц
1 Наборы данных для обнаружения 3D-объектов в сценариях вождения. 18
2 Продолжение анализа наборов данных для обнаружения 3D-объектов
в сценариях вождения............................ 19
3 Сравнение современных методов ЭБ-обнаружения на тестовом наборе nuScenes....................................78
4 Продолжение сравнения современных методов ЭБ-обнаружения на тестовом наборе nuScenes, Сокращения: строительная машина (CV), пешеход (Ped), мотоцикл (мотор) и дорожный конус (TC)......... 78
5 Сравнение методов ЭБ-отслеживания на тестовом наборе nuScenes. . . 80
6 Производительность методов на основе FMF для ЭБ-обнаружения на тестовом наборе Waymo. Показывается Среднее mAPHL2 и для каждого класса. Задержка показана для графического процессора Tesla V100. . . 81
7 Исследования метода отслеживания ЭБ-объектов на наборе nuScenes Validation.................................... 81
8 Сравнение One-Stage CenterPoint и методов на основе FMF для ЭБ-обнаружения на наборе Waymo Validation. Показывается Среднее mAPHL2 и для каждого класса. Задержка показана для графического процессора Tesla V100............................81
9 Влияние динамического вокселайзера на показатели ЭБ-обнаружения
в тестовом наборе данных Waymo...................... 8Э
10 Основные результаты динамического вокселайзера по набору данных KITTI ЭБ detection - Test...........................84
11 Влияние динамического вокселайзера на показатели ЭБ-обнаружения
в наборе данных Waymo - Validation. Задержка, измеренная на RTX-Э060Ti 84
12 Car Metrics in KITTI-Validation comparing Dynamic Voxelizer and CenterPoint (Oiff: difficulty, Mod: Moderate)................85
13 Pedestrian Metrics in KITTI-Validation comparing Dynamic Voxelizer and CenterPoint (Oiff: difficulty, Mod: Moderate)................85
14 Cyclist Metrics in KITTI-Validation comparing Dynamic Voxelizer and CenterPoint (Oiff: difficulty, Mod: Moderate)................85
15 Влияние архитектуры классификатора на точность CP-PointPillars
в наборе данных проверки Waymo...................... 87
16 Точность различных архитектур классификаторов на данных Waymo Validation.................................... 87
17 Точность и recall (для ложных прогнозов) для слоев MLP-2 с различными размерами входных данных в наборе данных Waymo-Validation...............................87
18 Сравнение производительности с передовыми методами для монокулярной 3D-позы и восстановления формы на наборе данных ApolloCar3D..................................91
19 Основные показатели A3DP-Abs в Apollo Car 3D - Car Instance Benchmark (набор для проверки).......................93
20 Основные показатели A3DP-Rel в Apollo Car 3D - Car Instance Benchmark (набор для проверки).......................94
21 Основная задержка вывода наших OFMPNet-моделей на графическом процессоре NVidia RTX-3060........................ 97
22 Основные показатели прогнозирования потока карт проходимости на данных Waymo Benchmark (набор для проверки).............97
23 Основные показатели прогнозирования потока карт проходимости на данных Waymo Benchmark (набор для теста)................97
24 Таблица лидеров Waymo Occupancy and Flow. ..............100
Приложение А Государственные регистрации программы для ЭВМ
А.1 Программный комплекс обнаружения и трекинга препятствий на основе
обработки облаков точек
российская федерация
Щ
-y-
федеральная служба по интеллектуальной собственности
ГОСУДАРСТВЕННАЯ РЕГИСТРАЦИЯ ПРОГРАММЫ ДЛЯ ЭВМ
Номер регистрации (свидетельства): Автор(ы):
2024613107 Кочиев Леон Гурамиевич ^Ц),
Дата регистрации: 08.02.2024 Кумичев Глеб Александрович (К-Щ
Номер и дата поступления заявки: Клоков Алексей Андреевич ^Ц),
2023689209 19.12.2023 Мурхиж Юшаа (SY)
Дата публикации и номер бюллетеня: Правообладатель(и):
08.02.2024 Бюл. № 2 Общество с ограниченной ответственностью "Интеграция новых технологий" (Ии)
RU2024613107
Название программы для ЭВМ:
Программный комплекс обнаружения и трекинга препятствий на основе обработки облаков точек Реферат:
Программный комплекс для наземных мобильных роботов предназначен для обнаружения движущихся объектов в облаке точек и построения их траекторий. Комплекс предназначен для работы в системах реального времени на встраиваемых вычислителях. Программный комплекс включает в себя компоненты, функционирующие в составе программной платформы ROS и выполняющие следующие функции: обнаружение движущихся объектов в зоне действия датчиков (лидаров); построение траекторий объектов за некоторый интервал времени (может варьироваться). Тип ЭВМ: IBM PC-совмест. ПК на базе процессора с архитектурой ARM; ОС: Linux Ubuntu 18.04, 20.04, 22.04.
Язык программирования: C++, Python
Объем программы для ЭВМ:
1,1 МБ
А.2 Программный компонент прогнозирования траектории движения
динамических препятствий
российская федерация
RU2023688827
федеральная служба по интеллектуальной собственности
ГОСУДАРСТВЕННАЯ РЕГИСТРАЦИЯ ПРОГРАММЫ ДЛЯ ЭВМ
Номер регистрации (свидетельства): Автор(ы):
2023688827 Кумичёв Глеб Александрович ^Ц),
Дата регистрации: 25.12.2023 Кочиев Леон Гурамиевич ^Ц),
Номер и дата поступления заявки: Клоков Алексей Андреевич ^Ц),
2023688195 15.12.2023 Мурхиж Юшаа (SY)
Дата публикации и номер бюллетеня: Правообладатель(и):
25.12.2023 Бюл. № 1 Общество с ограниченной ответственностью "Интеграция новых технологий" ^Ц)
Название программы для ЭВМ:
Программный компонент прогнозирования траектории движения динамических препятствий Реферат:
Программный комплекс предназначен для предсказания нелинейных траекторий движения динамических препятствий, обнаруженных системой детекции и трекинга. Программный комплекс включает в себя компоненты, функционирующие посредством программной платформы ROS, и выполняет функцию прогнозирования будущих траекторий и их вероятностей. Алгоритм вычисления построен с применением графовых нейронных сетей.
Язык программирования: Python
Объем программы для ЭВМ: 21,6 КБ
Приложение Б
Акт о внедрении и использовании результатов исследования
АКЦИОНЕРНОЕ ОБЩЕСТВО
«168 РОБОТИКС»
АКТ
об использовании результатов диссертационной работы Мурхиж Юшаа
г.Москва 17.09.2024
на тему «Разработка и исследование методов и алгоритмов автоматического обнаружения и отслеживания динамических объектов с восстановлением их ЗЭ-моделей», представленной на соискание ученой степени кандидата технических наук
Результаты диссертационной работы «Разработка и исследование методов и алгоритмов автоматического обнаружения и отслеживания динамических объектов с восстановлением их ЗЭ-моделей» обладают высокой актуальностью и представляют практический интерес для решения задач автоматического обнаружения и отслеживания объектов в системах управления мобильных робототехнических платформ и других автоматизированных систем.
В диссертационной работе Мурхиж 10. были разработаны методы глубокого обучения для обнаружения и отслеживания динамических объектов в трехмерных облаках точек, включая подходы к восстановлению их ЗЭ-моделей. Было создано несколько нейросетевых моделей для обнаружения и классификации ЗО-объектов с высокой точностью и эффективностью, а также усовершенствован алгоритм 60-позиционирования объектов.
Полученные теоретические результаты нашли свое практическое применение в научно-исследовательской работе «Исследования и разработка комплекта аппаратно-программных средств для создания технологии роботизированных сервисов на территориях общественных пространств». В рамках выполнения указанной НИР были исследованы программные реализации вышеуказанных алгоритмов.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.