Семантический разбор и обработка трехмерных сцен тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Рухович Данила Дмитриевич

  • Рухович Данила Дмитриевич
  • кандидат науккандидат наук
  • 2021, ФГБОУ ВО «Московский государственный университет имени М.В. Ломоносова»
  • Специальность ВАК РФ05.13.17
  • Количество страниц 123
Рухович Данила Дмитриевич. Семантический разбор и обработка трехмерных сцен: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГБОУ ВО «Московский государственный университет имени М.В. Ломоносова». 2021. 123 с.

Оглавление диссертации кандидат наук Рухович Данила Дмитриевич

Введение

Глава 1. Оценка масштаба трехмерной сцены

1.1 Введение

1.2 Постановка задачи

1.3 Обзор публикаций по теме

1.3.1 Методы оценки масштаба трехмерной сцены

1.3.2 Обучение нейросетевых методов на синтетических данных

1.4 Предлагаемый метод

1.4.1 Создание синтетических данных

1.4.2 Нейросетевые архитектуры

1.5 Эксперименты

1.5.1 Наборы данных

1.5.2 Оценка точности предсказаний (метрики качества)

1.5.3 Протокол экспериментов

1.6 Результаты

1.6.1 Сравнение с существующими нейросетевыми методами оценки масштаба

1.6.2 Исследование влияния размера истории модуля ЬБТМ на точность оценки

1.6.3 Исследование влияния разнообразия синтетических

данных на точность оценки

1.7 Выводы

Глава 2. Визуальная детекция объектов

2.1 Введение

2.2 Постановка задачи

2.3 Обзор публикаций по теме

2.3.1 Стандартные нейросетевые методы детекции объектов

2.3.2 Модификации метода подавления немаксимумов

2.3.3 Нейросетевые методы детекции для большого числа объектов

2.4 Предлагаемый метод

2.4.1 Базовая нейросетевая модель детекции объектов

2.4.2 Учет истории в модели детекции объектов

2.4.3 Модификация архитектуры нейросетевой модели

детекции объектов

2.4.4 Обучение модели детекции объектов, учитывающей историю

2.5 Эксперименты

2.5.1 Наборы данных

2.5.2 Оценка точности предсказаний (метрики качества)

2.5.3 Протокол экспериментов

2.6 Результаты

2.6.1 Проверка итеративного способа получения предсказаний

на наборах данных Toy V1 и Toy V2

2.6.2 Исследование влияния количества итераций IterDet на среднюю точность

2.6.3 Результаты на Toy V1 и Toy V2

2.6.4 Результаты на CrowdHuman

2.6.5 Результаты на WiderPerson

2.6.6 Производительность и время работы

2.7 Выводы

Глава 3. Трехмерная детекция объектов

3.1 Введение

3.2 Постановка задачи

3.3 Обзор публикаций по теме

3.3.1 Методы анализа сцены на основе мультиракурсных входов

3.3.2 Методы трехмерной детекции объектов

3.4 Предлагаемый метод

3.4.1 Извлечение двухмерных признаков из изображений

3.4.2 Построение трехмерного параллелепипеда вокселов

3.4.3 Вычисление трехмерных признаков

3.4.4 Голова

3.4.5 Дополнительная двухмерная голова

3.5 Эксперименты

3.5.1 Наборы данных

3.5.2 Оценка точности предсказаний (метрики качества)

3.5.3 Протокол экспериментов

3.6 Результаты

3.6.1 Результаты на наборе данных KITTI

3.6.2 Производительность и время работы

3.6.3 Результаты на наборе данных nuScenes

3.6.4 Результаты на наборе данных SUN RGB-D

3.6.5 Результаты на наборе данных ScanNet

3.7 Выводы

Заключение

Список сокращений и условных обозначений

Список рисунков

Список таблиц

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Семантический разбор и обработка трехмерных сцен»

Введение

Актуальность темы. В течение последних нескольких десятилетий было опубликовано множество исследований [1], посвященных вопросам картографирования среды функционирования автономных роботов. Вместе с этим благодаря активным исследованиям в области глубокого машинного обучения нейросетевые методы [2] стали признанным стандартом для решения задач визуальной классификации и анализа пространственного расположения и геометрии объектов. Можно предположить, что использование нейронных сетей в составе методов картографирования пространств позволит обогатить, расширить и уточнить создаваемые карты за счет добавления в них семантической информации об объектах, расположенных в исследуемой области пространства.

Существующая научная проблематика визуального анализа включает несколько основных задач, которые могут быть решены в том числе и с использованием нейронных сетей:

— визуальная классификация объектов на изображении;

— визуальная сегментация объектов на изображении;

— оценка расстояний до точек сцены (построение т.н. карт глубины)

— определение расположения объектов на изображении (визуальная детекция)

— определение пространственного расположения и геометрии трехмерных объектов (трехмерная детекция);

— определение положения камеры в пространстве (собственная локализация);

— реконструкция сцены (построение трехмерной модели).

Задача визуальной классификации [3—5] состоит в определении принадлежности объекта на изображении к одной из наперед заданных классов-категорий. Основная сложность задачи классификации связана, во-первых, с большой визуальной вариативностью самих объектов, во-вторых, неопределенностью, вносимой изменчивостью внешней среды, например, освещением и взаимным расположением объектов, и в-третьих, условиями съемки: ракурсом, удаленностью камеры от объекта, поворотом камеры и др.

Задача визуальной сегментации заключается в разметке областей, занимаемых объектами на изображении. Данное направление визуального анализа

изображений наиболее схоже с задачей классификации, но позволяет получить более полные и детальные результаты, так как в данной постановке задачи определение категории наблюдаемого объекта происходит на уровне отдельных пикселей изображения. Выделяют семантическую [6], объектную [7] и паноп-тическую [8] сегментацию. Семантическая сегментация предполагает разметку изображения в зависимости от категории объекта, при этом разные объекты одной категории отмечаются одинаково. При решении задачи объектной сегментации различным объектам на изображении присваиваются уникальные метки. Паноптическая сегментация объединяет семантическую и объектную сегментацию: эта задача заключается в одновременном выделении отдельных объектов на изображении и определении их категории.

Задача построения карты глубины сцены предполагает вычисление расстояния от объектива камеры до предметов в сцене. Наибольшую точность показывают методы [9] оценки расстояний на основе стереоизображений, однако и методы [10; 11] оценки расстояний по монокулярным изображениям за последнее время достигли значительного прогресса. Если известны параметры камеры, то карту глубины сцены тривиальным образом можно преобразовать в трехмерное облако точек сцены, видимых с конкретного ракурса - позы камеры. Агрегируя трехмерные облака точек сцены, полученные при разных позах камеры, можно построить полную трехмерную реконструкцию всей сцены или отдельного объекта.

Визуальная детекция [12—14] предполагает определение расположения объектов из наперед заданных категорий на изображении. Для каждого объекта методы визуальной детекции возвращают расположение на изображении и категорию данного объекта. Детекция объектов на изображении может использоваться для решения задач управления мобильными и манипуляционными роботами, в частности, в составе системы навигации для построения маршрута передвижения или захвата целевого предмета.

Определив расположение объекта на нескольких изображениях одной и той же сцены, снятых с различных ракурсов, возможно приблизительно вычислить расположение объекта в трехмерном пространстве. Однако подобный переход от визуального анализа изображений к трехмерному анализу сцен не может быть осуществлен без информации о позе камеры в пространстве в моменты фиксации изображений.

Методы трехмерной детекции объектов [15—19] непосредственно решают задачу оценки размеров объекта, его расположения и ориентации в пространстве, а также определения категории объекта. Ориентация объекта в пространстве, как правило, задается угловыми координатами: азимутальным углом и углом между оптической осью камеры и пространственным вектором, указывающим из центра камеры на центр объекта.

Агрегируя результаты визуальной детекции объектов на нескольких изображениях сцены, или же применив метод трехмерной детекции, возможно определить размер, расположение и ориентацию объекта в трехмерном пространстве, а также его категорию, и нанести эту информацию на семантическую карту сцены.

Задача определения позы камеры в пространстве [20] может рассматриваться как самостоятельная задача, решаемая при реализации системы визуальной навигации в наперед известных сценах. В то же время данная задача является подзадачей комплексной задачи реконструкции сцены, так как методы реконструкции сцены используют информацию о позе камеры в момент фиксации изображений. В настоящем исследовании данная проблема рассматривается исключительно в контексте реконструкции сцены.

Общий алгоритм реконструкции сцены без априорной информации о позе камеры можно условно разделить на два этапа. Первый этап включает оценку собственного движения камеры между близкими изображениями и определение взаимного относительного расположения изображений в пространстве, а также восстановление пространственной "структуры" сцены в виде набора разреженных точек сцены, наблюдаемых с разных ракурсов. Задача, решаемая на этом этапе, обычно называется задачей восстановления структуры из движения (Structure from Motion, SfM) [21]. На втором этапе происходит построение трехмерной карты сцены. Задача, решаемая на этом этапе, называется задачей оценки геометрии по изображениям с нескольких ракурсов (Multi-View Stereo, MVS) [22]. Кроме того, в последние десятилетия получили развитие и распространение методы одновременной локализации и картографирования в реальном времени (Simultaneous Localization and Mapping, SLAM) [1]. Алгоритм SLAM позволяет оценить позы камеры из упорядоченных изображений сцены, а также построить разреженную карту сцены.

Методы SLAM и SfM имеют много общего: эти методы решают задачу определения позы камеры и строят разреженную карту пространства в виде

отдельных точек сцены. Также и в методах SLAM, и в методах SfM широко применяется нелинейная оптимизация.

Методы SLAM реконструируют сцену в режиме реального времени, получая на вход упорядоченную последовательность изображений с конкретной монокулярной камеры или стереокамеры с известными и фиксированными параметрами. Напротив, методы SfM работают с неупорядоченным набором изображений из нескольких источников, полученных с использованием различных камер. Однако использование методов SfM возможно только в условиях нежестких временных ограничений и доступности вычислительных ресурсов. Эти ограничения постепенно ослабляются благодаря постоянному развитию компьютерного оборудования, параллельных вычислений и технологий графических процессоров, однако по мере увеличения разрешения и количества изображений объем необходимых вычислений резко возрастает, что затрудняет его использование во многих приложениях.

Источниками информации об окружающем пространстве могут служить данные, поступающие с различных датчиков, входящих в состав записывающей установки. Это могут быть монокулярные или стереокамеры, датчики глубины, оценивающие расстояния до объектов сцены, лидары, возвращающие облако точек сцены, а также инерциальные датчики (IMU) и системы глобального позиционирования (GPS, ГЛОНАСС). Однако применение лидаров и систем глобального позиционирования возможно только в крупномасштабных уличных сценах, в то время как в силу физических ограничений на точность и дальность измерений датчики глубины пригодны только для работы внутри помещений. Обычные камеры обладают рядом преимуществ по отношению к прочим датчикам в качестве базовой технологии восприятия информации о среде: они относительно дешевы, долговечны, обладают малым весом и габаритами и потому могут быть легко смонтированы практически в любом месте автономного транспортного средства любого размера, дизайна и назначения. Тем не менее, данные с камеры не содержат полную информацию о геометрии сцены, о местоположении объекта в сцене или о его размерах в абсолютных величинах. Стереокамера позволяет оценить расстояния до точек сцены и таким образом восстановить недостающую информацию. Однако не всегда возможно реализовать стереозрение: например, в беспилотных летательных аппаратах это технически трудноосуществимо, кроме того, установка более чем одной камеры может сделать нерентабельным недорогое робототехническое устройство.

Таким образом, использование единственной, или монокулярной, камеры для получения информации о среде является наиболее универсальным решением. Программное решение на основе изображений пригодно для внедрения в качестве компонента программного обеспечения робототехнического устройства, работающего как снаружи, так и внутри помещений.

Методы реконструкции сцены по набору изображений возвращают трехмерную модель, инвариантную к масштабу. Следовательно, карту необходимо масштабировать таким образом, чтобы ее линейные размеры соответствовали реальным: иными словами, требуется определить масштаб сцены.

Требуется:

— Изучить и решить проблему оценки масштаба в приложении к задачи реконструкции трехмерной сцены. Для решения задачи необходимо задействовать глубинное обучение. Новый метод оценки масштаба трехмерной сцены должен использовать данные с монокулярной камеры и не задействовать другие источники информации. Также данный метод не должен накладывать дополнительных ограничений на свойства среды и находящихся в ней объектов и быть легко интегрируемым в существующие программные решения задачи трехмерной реконструкции сцены.

Кроме этого, необходимо дополнить трехмерную реконструкцию сцены семантической информацией, что позволит решать более широкий диапазон задач, связанных с локализацией, навигацией, планированием маршрута передвижения по сцене, а также взаимодействия с объектами сцены.

Требуется:

— Разработать новый нейросетевый метод визуальной детекции, позволяющий получить семантическую информацию о видимой сцене. Данный метод должен использовать данные с монокулярной камеры и не задействовать другие источники информации.

— Разработать новый нейросетевый метод трехмерной детекции объектов в пространстве, позволяющие дополнить трехмерную модель сцены семантической информацией. Эти методы должны использовать данные с монокулярной камеры и не задействовать другие источники информации.

Таким образом, в диссертационном исследовании рассматриваются различные подзадачи комплексной задачи создания интеллектуальных методов

картографирования на основе семантических свойств окружающей среды. Эти подзадачи должны быть решены методами, использующими монокулярные изображения в качестве входных данных.

Такая деятельность соответствует областям исследования, отмеченным в пунктах 1, 2, 5 и 7 Паспорта специальности 05.13.17 «Теоретические основы информатики».

Целью диссертационной работы является разработка новых методов (моделей, алгоритмов, программных средств) решения различных задач семантического анализа трехмерных сцен, превосходящих по качественным характеристикам существующие методы.

Настоящее исследование выполнено в рамках методологии прикладных исследований в области машинного обучения. Данная методология гарантирует верифицируемость разрабатываемых методов машинного обучения, которые проверяются экспериментальным образом согласно общепринятым протоколам. Таким образом, создание новых методов машинного обучения можно отнести скорее к теоретическим исследованиям, нежели к практическим разработкам. Можно говорить, что и настоящее исследование направлено на углубление и дополнение научного знания в области компьютерного зрения, а практическое применение является скорее вторичным результатом, приложением разработанных методов. Соответственно, ключевой характеристикой данных методов следует считать точность оценок, полученных с их помощью. Другие характеристики методов, такие как время работы, вычислительная эффективность, объем занимаемой памяти и энергопотребление, могут являться определяющими при решении сугубо инженерных, прикладных, задач, однако не настолько значимы в контексте теоретического исследования.

Для достижения поставленной цели необходимо было решить следующие задачи:

1. Оценка масштаба трехмерной сцены:

— провести обзор публикаций по теме исследования и на его основе выбрать базовый метод оценки масштаба трехмерной сцены;

— реализовать базовый метод оценки масштаба трехмерной сцены;

— внести модификации в базовый метод оценки масштаба трехмерной сцены;

— провести экспериментальную проверку на открытых аннотированных наборах данных и определить лучшую модификацию.

2. Визуальная детекция объектов на изображении:

— провести обзор публикаций по теме и на его основе определить перспективные идеи;

— придумать и реализовать новый метод визуальной детекции объектов на изображении, превосходящий по качественным характеристикам существующие методы;

— провести экспериментальную проверку предложенного метода на открытых аннотированных наборах данных.

3. Трехмерная детекция объектов в пространстве:

— провести обзор публикаций по теме и на его основе определить перспективные идеи;

— придумать и реализовать новый метод трехмерной детекции объектов в пространстве, превосходящий по качествуенным характеристикам существующие методы;

— провести экспериментальную проверку предложенного метода на открытых аннотированных наборах данных.

Положения, выносимые на защиту. На защиту выносятся: обоснование актуальности, научная новизна, теоретическая и практическая значимость работы, ее результаты, полученные на основе следующих положений:

1. Новых методов решения трех подзадач комплексной задачи семантического разбора трехмерной сцены, включающих новые нейросетевые модели, алгоритмы их обучения и тестирования, а также программные реализации;

2. Метода оценки масштаба трехмерной сцены, включающего алгоритм обучения нейросетевой модели на смеси реальных и искусственно сгенерированных данных;

3. Метода визуальной детекции объектов, включающего итеративный алгоритм обучения и тестирования нейросетевой модели;

4. Метода детекции объектов в трехмерном пространстве, включающего нейросетевую модель, применимую как в монокулярной, так и в муль-тиракурсной постановках.

Научная новизна диссертационной работы характеризуется следующими результатами.

1. Разработан новый метод оценки масштаба трехмерной сцены, превосходящий существующие по качественным характеристикам. Впервые для снижения зависимости качества работы метода оценки масштаба от конфигурации установки сбора данных применен алгоритм обучения нейросетевой модели на смеси реальных и искусственно сгенерированных данных. Дополнительно для существующих нейросетевых моделей рассмотрены модификации их архитектуры и алгоритма обучения, повышающие качественные характеристики и одновременно оставляющие процедуру тестирования в режиме реального времени.

2. Разработан новый метод визуальной детекции объектов, превосходящий существующие по качественным характеристикам. Впервые предложена модификация архитектуры сверточной нейросетевой модели, позволяющая учесть информацию об уже обнаруженных объектах, которая может быть применена ко всем существующим одно- и двух-стадийным сверточным нейросетевым модели детекции объектов. Предложен итеративный метод, включающий новые алгоритмы обучения и тестирования сверточных нейросетевых моделей детекции объектов.

3. Разработан новый метод детекции объектов в трехмерном пространстве, превосходящий существующие по качественным характеристикам. Впервые сформулирована задача обучения нейросетевой модели трехмерной детекции объектов на основе мультиракурсных входов. Предложенный в качестве решения метод является полностью дифференцируемым при переменном числе входных изображений. Впервые предложен метод монокулярной трехмерной детекции, который может быть применен как для уличных сцен так и для сцен помещений.

Научная и практическая значимость. Результаты настоящего исследования могут быть применены при решении различных задач, а именно:

— навигация робототехнического устройства на сцене в режиме реального времени;

— планирование траектории движения робототехнического устройства по сцене;

— захват и манипуляция объектами сцены;

— построение трехмерной реконструкции сцен с нанесенной семантической разметкой объектов.

Изложенное свидетельствует об актуальности проведенного исследования и значимости поставленной проблемы для различных робототехнических приложений.

Степень достоверности полученных результатов обеспечивается экспериментальной проверкой методов на тестовых подвыборках общедоступных наборов данных, что является стандартной практикой оценивания качества обучаемых методов. Программная реализация предлагаемых методов находится в открытом доступе в сети Интернет. Для каждого предлагаемого метода также представлены наглядные свидетельства его корректности в виде визуализации результатов работы этого метода. Результаты, полученные в рамках настоящей работы, находятся в соответствии с результатами, полученными другими авторами. Достоверность полученных результатов также подтверждается тем, что они были представлены на научных конференциях.

Апробация работы. Основные результаты, полученные в диссертации, докладывались на следующих международных и всероссийских конференциях и научно-исследовательских семинарах.

1. Доклад «Применение синтетических данных для оценки расстояний в системах навигации автономных движущихся средств». Конференция «Ломоносовские чтения», Москва, 2020.

2. Доклад «Estimation of Absolute Scale in Monocular SLAM Using Synthetic Data». Конференция «IEEE/CVF International Conference on Computer Vision», Seoul, Korea, 2019.

3. Доклад «IterDet: Iterative Scheme for Object Detection in Crowded Environments». Конференция «Structural, Syntactic, and Statistical Pattern Recognition: Joint IAPR International Workshops», Padua, Italy, 2021.

4. Доклад «Семантический разбор и обработка трехмерных сцен». Объединенный семинар по робототехническим системам им. профессора А.К. Платонова. ИПМ им. М.В. Келдыша, 14 октября 2021.

Личный вклад. Все приведенные в работе методы семантического анализа трехмерных сцен разработаны и программно реализованы автором настоящей работы лично.

Публикации. По теме диссертационной работы опубликовано 6 работ, 5 из которых являются статьями, индексируемыми в системах Web of Science, Scopus, RSCI.

Объем и структура работы. Диссертация состоит из введения, трех глав и заключения. Полный объём диссертации составляет 123 страницы с 15 рисунками и 21 таблицей. Список литературы содержит 108 наименований.

Глава 1. Оценка масштаба трехмерной сцены

1.1 Введение

Задача оценки масштаба возникает при выполнении реконструкции трехмерных сцен. В том случае, если в качестве входных данных доступны только изображения с камеры, то определить истинный масштаб трехмерной сцены невозможно. Так, например, иногда невозможно отличить фотографии реального дома от кукольного, а снимки настоящего автомобиля - от изображений миниатюрной коллекционной модели. Таким образом, можно утверждать, что задача оценки масштаба трехмерной сцены является недоопределенной.

Методы реконструкции сцены по набору изображений возвращают трехмерную карту сцены, а также позы камеры в произвольном масштабе. Как следствие, восстановленная трехмерная карта непригодна для решения задач навигации и манипуляции, поскольку не позволяет точно рассчитывать траектории перемещения робототехнического устройства по сцене и амплитуду движений при манипулировании объектами. Соответственно, располагая подобной трехмерной картой сцены, невозможно подавать корректные управляющие команды робототехническому устройству. Но это ограничение возможно преодолеть, подобрав масштаб так, чтобы линейные размеры трехмерной карты сцены соответствовали реальным размерам: иными словами, требуется определить истинный масштаб трехмерной сцены. При фиксированных координатах всех точек известный масштаб трехмерной сцены позволяет вычислить абсолютное расстояние между любой их парой, а значит, верно определить дальность всех объектов сцены.

На практике для оценки масштаба трехмерной сцены используются данные с дополнительных датчиков, таких как инерциальные измерительные модули, системы глобального позиционирования, лидары, стереокамеры, или специальные камеры глубины, оценивающие расстояния до объектов сцены. Однако использование дополнительного оборудования повышает стоимость, сложность, энергопотребление и вес робототехнической системы в целом, тем самым ограничивая возможность практического применения.

В настоящей работе рассматривается проблема оценки масштаба в приложении к трехмерной реконструкции сцены. Задача рассматривается в наиболее общей постановке, т. е. без использования предположений о сцене или находящихся внутри нее объектах. В данной работе предлагается оценивать масштаб трехмерной сцены путем введения дополнительного ограничения на неизменность абсолютного масштаба для набора изображений одной сцены; также предполагается, что этот набор изображений представляет собой упорядоченные кадры видеопоследовательности. Таким образом, входной информацией являются визуальные данные, непрерывно получаемые с камеры робототехни-ческого устройства, выходной информацией - расстояния между положениями камеры в трехмерном пространстве. Оценка масштаба трехмерной сцены реализуется через вычисление с помощью нейросетевой модели абсолютных расстояний между положениями камеры для подряд идущих кадров видеопоследовательности. При этом каждая пара кадров рассматривается независимо от остальных. Подобный подход, получивший название Scale-from-Motion, или ScaleFM, не накладывает дополнительных ограничений на свойства сцены и находящихся в ней объектов и потому может быть легко интегрирован в существующие программные решения задачи трехмерной реконструкции сцены. Новизна предлагаемого метода заключается в том, что впервые для оценки масштаба трехмерной сцены была использована рекуррентная нейросетевая модель.

1.2 Постановка задачи

Определение 1.1. Сцена, трехмерная сцена - это представление области трехмерного пространства, в котором располагаются объекты.

Определение 1.2. Масштаб трехмерной сцены - ее пространственные размеры.

Определение 1.3. Изображение - двухмерное представление на плоскости внешнего вида наблюдаемых объектов, представленное в цифровом виде. В данной работе рассматриваются цифровые трехканальные изображения в формате RGB, имеющие вид I е R^хЯх3.

Определение 1.4. Положение камеры - расположение камеры в трехмерном пространстве, заданное координатами ее центра р е Я3.

Масштаб трехмерной сцены может быть определен через абсолютные расстояния в пространстве между положениями движущейся в пространстве камеры. Соответственно, чтобы оценить масштаб трехмерной сцены, достаточно определить пройденное камерой расстояние для двух изображений, снятых из разных положений камеры.

Определение 1.5. Метод оценки масштаба трехмернйо сцены М представляет собой алгоритм, отображающий пару цифровых трехканальных изображений 11 е хЯх3, 12 е хЯх3, снятых с неизвестных положений камеры Р\ е К3, р2 е К3 соответственно, в Евклидово расстояние между этими положениями камер ¿(Ь 1,£2) = Цр\ — Р2Ц2:

М : ¡1, 12 ^ Цр1 — Р2Ц2

Таким образом, входными данными в задаче оценки масштаба трехмерной сцены является пара изображений с камеры, выходными - оценка абсолютного расстояния, пройденного камерой в пространстве между съемкой первого и второго кадров.

1.3 Обзор публикаций по теме

1.3.1 Методы оценки масштаба трехмерной сцены

Настоящий подраздел содержит краткое описание принципов работы и особенностей существующих методов оценки абсолютного масштаба в приложении к трехмерной реконструкции сцены на основе монокулярных изображений. Данные методы можно разделить на три группы по критерию использования информации о сцене:

1. использующие информацию о сцене;

2. использующие ограничивающие предположения о сцене;

3. общие, т. е. не использующие информацию или ограничивающие предположения о сцене.

Методы оценки масштаба, использующие информацию о сцене.

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Список литературы диссертационного исследования кандидат наук Рухович Данила Дмитриевич, 2021 год

Список литературы

1. Yousif K., Bab-Hadiashar A., Hoseinnezhad R. An overview to visual odometry and visual SLAM: Applications to mobile robotics // Intelligent Industrial Systems. — 2015. — Т. 1, № 4. — С. 289—311.

2. Deep learning. Т. 1 / I. Goodfellow [и др.]. — MIT press Cambridge, 2016.

3. Krizhevsky A., Sutskever I., Hinton G. E. Imagenet classification with deep convolutional neural networks // Advances in neural information processing systems. — 2012. — Т. 25. — С. 1097—1105.

4. Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition // arXiv preprint arXiv:1409.1556. — 2014.

5. Deep residual learning for image recognition / K. He [и др.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2016. — С. 770—778.

6. Ronneberger O., Fischer P., Brox T. U-net: Convolutional networks for biomedical image segmentation // International Conference on Medical image computing and computer-assisted intervention. — Springer. 2015. — С. 234—241.

7. Sofiiuk K., Barinova O, Konushin A. Adaptis: Adaptive instance selection network // Proceedings of the IEEE International Conference on Computer Vision. — 2019. — С. 7355—7363.

8. Panoptic segmentation / A. Kirillov [и др.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2019. — С. 9404—9413.

9. Unos: Unified unsupervised optical-flow and stereo-depth estimation by watching videos / Y. Wang [и др.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2019. — С. 8071—8081.

10. Consistent video depth estimation / X. Luo [и др.] // ACM Transactions on Graphics (TOG). — 2020. — Т. 39, № 4. — С. 71—1.

11. Deep ordinal regression network for monocular depth estimation / H. Fu [h gp.] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2018. — C. 2002—2011.

12. Fcos: Fully convolutional one-stage object detection / Z. Tian [h gp.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2019. — C. 9627—9636.

13. Focal loss for dense object detection / T.-Y. Lin [h gp.] // Proceedings of the IEEE international conference on computer vision. — 2017. — C. 2980—2988.

14. Faster r-cnn: Towards real-time object detection with region proposal networks / S. Ren [h gp.] // Advances in neural information processing systems. — 2015. — C. 91—99.

15. Liu Z, Wu Z, Toth R. Smoke: single-stage monocular 3d object detection via keypoint estimation // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. — 2020. — C. 996—997.

16. Total3dunderstanding: Joint layout, object pose and mesh reconstruction for indoor scenes from a single image / Y. Nie [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2020. — C. 55—64.

17. Disentangling Monocular 3D Object Detection: From Single to Multi-Class Recognition / A. Simonelli [h gp.] // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2020.

18. Ding Z, Han X., Niethammer M. VoteNet: A deep learning label fusion method for multi-atlas segmentation // International Conference on Medical Image Computing and Computer-Assisted Intervention. — Springer. 2019. — C. 202—210.

19. Imvotenet: Boosting 3d object detection in point clouds with image votes / C. R. Qi [h gp.] // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. — 2020. — C. 4404—4413.

20. Marchand E, Uchiyama H., Spindler F . Pose estimation for augmented reality: a hands-on survey // IEEE transactions on visualization and computer graphics. — 2015. — T. 22, № 12. — C. 2633—2651.

21. Schonberger J. L, Frahm J.-M. Structure-from-motion revisited // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2016. — C. 4104—4113.

22. Pixelwise view selection for unstructured multi-view stereo / J. L. Schonberger [h gp.] // European Conference on Computer Vision. — Springer. 2016. — C. 501—518.

23. Rosenholm D., TORLEGARD K. Three-dimensional absolute orientation of stereo models using digital elevation models // Photogrammetric engineering and remote sensing. — 1988. — T. 54, № 10. — C. 1385—1389.

24. 3d traffic scene understanding from movable platforms / A. Geiger [h gp.] // IEEE transactions on pattern analysis and machine intelligence. — 2013. — T. 36, № 5. — C. 1012—1025.

25. Geiger A., Ziegler J., Stiller C. Stereoscan: Dense 3d reconstruction in realtime // Intelligent Vehicles Symposium (IV), 2011 IEEE. — Ieee. 2011. — C. 963—968.

26. Grater J., Schwarze T, Lauer M. Robust scale estimation for monocular visual odometry using structure from motion and vanishing points // 2015 IEEE Intelligent Vehicles Symposium (IV). — IEEE. 2015. — C. 475—480.

27. Zhou D., Dai Y, Li H. Ground-plane-based absolute scale estimation for monocular visual odometry // IEEE Transactions on Intelligent Transportation Systems. — 2019. — T. 21, № 2. — C. 791—802.

28. Absolute scale in structure from motion from a single vehicle mounted camera by exploiting nonholonomic constraints / D. Scaramuzza [h gp.] // 2009 IEEE 12th international conference on computer vision. — IEEE. 2009. — C. 1413—1419.

29. Towards simultaneous recognition, localization and mapping for hand-held and wearable cameras / R. O. Castle [h gp.] // Proceedings 2007 IEEE International Conference on Robotics and Automation. — IEEE. 2007. — C. 4102—4107.

30. Frost D. P., Kahler O, Murray D. W. Object-aware bundle adjustment for correcting monocular scale drift // 2016 IEEE International Conference on Robotics and Automation (ICRA). — IEEE. 2016. — C. 4770—4776.

31. Kitt B., Geiger A., Lategahn H. Visual odometry based on stereo image sequences with ransac-based outlier rejection scheme // Intelligent Vehicles Symposium (IV), 2010 IEEE. — IEEE. 2010. — C. 486—492.

32. Song S., Chandraker M. Robust scale estimation in real-time monocular SFM for autonomous driving // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2014. — C. 1566—1573.

33. Sucar E., Hayet J.-B. Bayesian scale estimation for monocular slam based on generic object detection for correcting scale drift // 2018 IEEE International Conference on Robotics and Automation (ICRA). — IEEE. 2018. — C. 5152—5158.

34. KinectFusion: real-time 3D reconstruction and interaction using a moving depth camera / S. Izadi [h gp.] // Proceedings of the 24th annual ACM symposium on User interface software and technology. — 2011. — C. 559—568.

35. Kerl C, Sturm J., Cremers D. Robust odometry estimation for RGB-D cameras // 2013 IEEE International Conference on Robotics and Automation. — IEEE. 2013. — C. 3748—3754.

36. Atapour-Abarghouei A., Breckon T. P. Real-time monocular depth estimation using synthetic data with domain adaptation via image style transfer // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2018. — C. 2800—2810.

37. Eigen D., Puhrsch C, Fergus R. Depth map prediction from a single image using a multi-scale deep network // arXiv preprint arXiv:1406.2283. — 2014.

38. Frost D., Murray D., Prisacariu V. Using learning of speed to stabilize scale in monocular localization and mapping // 2017 International Conference on 3D Vision (3DV). — IEEE. 2017. — C. 527—536.

39. Flownet: Learning optical flow with convolutional networks / A. Dosovitskiy [h gp.] // Proceedings of the IEEE international conference on computer vision. — 2015. — C. 2758—2766.

40. Geiger A., Lenz P., Urtasun R. Are we ready for autonomous driving? the kitti vision benchmark suite // 2012 IEEE Conference on Computer Vision and Pattern Recognition. — IEEE. 2012. — C. 3354—3361.

41. CARLA: An open urban driving simulator / A. Dosovitskiy [h gp.] // Conference on robot learning. — PMLR. 2017. — C. 1—16.

42. Airsim: High-fidelity visual and physical simulation for autonomous vehicles / S. Shah [h gp.] // Field and service robotics. — Springer. 2018. — C. 621—635.

43. Long-term recurrent convolutional networks for visual recognition and description / J. Donahue [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2015. — C. 2625—2634.

44. Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation. — 1997. — T. 9, № 8. — C. 1735—1780.

45. Deep virtual stereo odometry: Leveraging deep depth prediction for monocular direct sparse odometry / N. Yang [h gp.] // Proceedings of the European Conference on Computer Vision (ECCV). — 2018. — C. 817—833.

46. Tensorflow: Large-scale machine learning on heterogeneous distributed systems / M. Abadi [h gp.] // arXiv preprint arXiv:1603.04467. — 2016.

47. Kingma D. P., Ba J. Adam: A method for stochastic optimization // arXiv preprint arXiv:1412.6980. — 2014.

48. Ssd: Single shot multibox detector / W. Liu [h gp.] // European conference on computer vision. — Springer. 2016. — C. 21—37.

49. Girshick R. Fast r-cnn // Proceedings of the IEEE international conference on computer vision. — 2015. — C. 1440—1448.

50. Rothe R., Guillaumin M, Van Gool L. Non-maximum suppression for object detection by passing messages between windows // Asian conference on computer vision. — Springer. 2014. — C. 290—306.

51. Soft-NMS-improving object detection with one line of code / N. Bodla [h gp.] // Proceedings of the IEEE international conference on computer vision. — 2017. — C. 5561—5569.

52. Hosang J., Benenson R., Schiele B. Learning non-maximum suppression // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2017. — C. 4507—4515.

53. Tychsen-Smith L., Petersson L. Improving object localization with fitness nms and bounded iou loss // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2018. — C. 6877—6885.

54. Liu S., Huang D., Wang Y. Adaptive nms: Refining pedestrian detection in a crowd // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2019. — C. 6459—6468.

55. NMS by Representative Region: Towards Crowded Pedestrian Detection by Proposal Pairing / X. Huang [h gp.] // arXiv preprint arXiv:2003.12729. — 2020.

56. Relation networks for object detection / H. Hu [h gp.] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2018. — C. 3588—3597.

57. Precise detection in densely packed scenes / E. Goldman [h gp.] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2019. — C. 5227—5236.

58. PS-RCNN: Detecting Secondary Human Instances in a Crowd via Primary Object Suppression / Z. Ge [h gp.] // arXiv preprint arXiv:2003.07080. — 2020.

59. Stewart R., Andriluka M, Ng A. Y. End-to-end people detection in crowded scenes // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2016. — C. 2325—2333.

60. Crowdhuman: A benchmark for detecting human in a crowd / S. Shao [h gp.] // arXiv preprint arXiv:1805.00123. — 2018.

61. WiderPerson: A Diverse Dataset for Dense Pedestrian Detection in the Wild / S. Zhang [h gp.] // IEEE Transactions on Multimedia. — 2019.

62. Gong J., Zhao Z, Li N. Improving Multi-stage Object Detection via Iterative Proposal Refinement. // BMVC. — 2019. — C. 223.

63. MMDetection: Open mmlab detection toolbox and benchmark / K. Chen [h gp.] // arXiv preprint arXiv:1906.07155. — 2019.

64. PyTorch: An Imperative Style, High-Performance Deep Learning Library / A. Paszke [h gp.]. — 2019.

65. Repulsion Loss: Detecting Pedestrians in a Crowd / W. Xinlong [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2018. — C. 7774—7783.

66. Salscheider N. O. FeatureNMS: Non-Maximum Suppression by Learning Feature Embeddings // arXiv preprint arXiv:2002.07662. — 2020.

67. Roddick T, Kendall A., Cipolla R. Orthographic feature transform for monocular 3d object detection // arXiv preprint arXiv:1811.08188. — 2018.

68. Hou J., Dai A., Niefiner M. 3d-sis: 3d semantic instance segmentation of rgb-d scans // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2019. — C. 4421—4430.

69. Jaritz M, Gu J., Su H. Multi-view pointnet for 3d scene understanding // Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops. — 2019.

70. Atlas: End-to-end 3d scene reconstruction from posed images / Z. Murez [h gp.] // arXiv preprint arXiv:2003.10432. — 2020.

71. Yan Y, Mao Y, Li B. Second: Sparsely embedded convolutional detection // Sensors. — 2018. — T. 18, № 10. — C. 3337.

72. Pointpillars: Fast encoders for object detection from point clouds / A. H. Lang [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2019. — C. 12697—12705.

73. H3dnet: 3d object detection using hybrid geometric primitives / Z. Zhang [h gp.] // European Conference on Computer Vision. — Springer. 2020. — C. 311—329.

74. Sindagi V. A., Zhou Y, Tuzel O. Mvx-net: Multimodal voxelnet for 3d object detection // 2019 International Conference on Robotics and Automation (ICRA). — IEEE. 2019. — C. 7276—7282.

75. Frustum pointnets for 3d object detection from rgb-d data / C. R. Qi [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2018. — C. 918—927.

76. Xu D., Anguelov D., Jain A. Pointfusion: Deep sensor fusion for 3d bounding box estimation // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2018. — C. 244—253.

77. Song S., Xiao J. Deep sliding shapes for amodal 3d object detection in rgb-d images // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2016. — C. 808—816.

78. 3d object proposals using stereo imagery for accurate object class detection / X. Chen [h gp.] // IEEE transactions on pattern analysis and machine intelligence. — 2017. — T. 40, № 5. — C. 1259—1272.

79. Qin Z, Wang J., Lu Y. Triangulation learning network: from monocular to stereo 3d object detection // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2019. — C. 7615—7623.

80. Li P., Chen X., Shen S. Stereo r-cnn based 3d object detection for autonomous driving // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2019. — C. 7644—7652.

81. Cooperative holistic scene understanding: Unifying 3d object, layout, and camera pose estimation / S. Huang [h gp.] // arXiv preprint arXiv:1810.13049. — 2018.

82. Deep manta: A coarse-to-fine many-task network for joint 2d and 3d vehicle analysis from monocular image / F. Chabot [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2017. — C. 2040—2049.

83. Qin Z, Wang J., Lu Y. Monogrnet: A geometric reasoning network for monocular 3d object localization // Proceedings of the AAAI Conference on Artificial Intelligence. T. 33. — 2019. — C. 8851—8858.

84. Kundu A., Li Y, Rehg J. M. 3d-rcnn: Instance-level 3d object reconstruction via render-and-compare // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2018. — C. 3559—3568.

85. 3d bounding box estimation using deep learning and geometry / A. Mousavian [h gp.] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2017. — C. 7074—7082.

86. Monocular 3d object detection for autonomous driving / X. Chen [h gp.] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2016. — C. 2147—2156.

87. Accurate monocular 3d object detection via color-embedded 3d reconstruction for autonomous driving / X. Ma [h gp.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2019. — C. 6851—6860.

88. Ku J., Pon A. D., Waslander S. L. Monocular 3d object detection leveraging accurate proposals and shape reconstruction // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2019. — C. 11867—11876.

89. Pointnet: Deep learning on point sets for 3d classification and segmentation / C. R. Qi [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2017. — C. 652—660.

90. nuscenes: A multimodal dataset for autonomous driving / H. Caesar [h gp.] // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. — 2020. — C. 11621—11631.

91. Song S., Lichtenberg S. P., Xiao J. Sun rgb-d: A rgb-d scene understanding benchmark suite // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2015. — C. 567—576.

92. Holistic 3d scene parsing and reconstruction from a single rgb image / S. Huang [h gp.] // Proceedings of the European Conference on Computer Vision (ECCV). — 2018. — C. 187—203.

93. Scannet: Richly-annotated 3d reconstructions of indoor scenes / A. Dai [h gp.] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2017. — C. 5828—5839.

94. Iou loss for 2d/3d object detection / D. Zhou [h gp.] // 2019 International Conference on 3D Vision (3DV). — IEEE. 2019. — C. 85—94.

95. Brazil G., Liu X. M3d-rpn: Monocular 3d region proposal network for object detection // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2019. — C. 9287—9296.

96. Gs3d: An efficient 3d object detection framework for autonomous driving / B. Li [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2019. — C. 1019—1028.

97. Jorgensen E., Zach C, Kahl F. Monocular 3d object detection and box fitting trained end-to-end using intersection-over-union loss // arXiv preprint arXiv:1906.08070. — 2019.

98. Monopair: Monocular 3d object detection using pairwise spatial relationships / Y. Chen [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2020. — C. 12093—12102.

99. RTM3D: Real-time monocular 3D detection from object keypoints for autonomous driving / P. Li [и др.] // arXiv preprint arXiv:2001.03343. — 2020. — Т. 2.

100. Indoor segmentation and support inference from rgbd images / N. Silberman [и др.] // European conference on computer vision. — Springer. 2012. —

C. 746—760.

101. Understanding indoor scenes using 3d geometric phrases / W. Choi [и др.] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2013. — С. 33—40.

102. PerspectiveNet: 3D Object Detection from a Single RGB Image via Perspective Points / S. Huang [и др.] // Advances in Neural Information Processing Systems. Т. 32. — Curran Associates, Inc., 2019.

Публикации автора по теме диссертации Статьи в рецензируемых научных изданиях

103. Рухович Д. Д. Оценка абсолютного масштаба в монокулярных SLAM-системах с использованием синтетических данных // Программная инженерия. — 2020. — Т. 11, № 2. — С. 86—95.

104. Рухович Д. Д. Итеративный метод обнаружения объектов // Программная инженерия. — 2021. — Т. 12, № 1. — С. 31—39.

105. Рухович Д. Д. Проекция изображений в пространство для монокулярной и мультиракурсной трехмерной детекции объектов в уличных сценах // Программная инженерия. — 2021. — Т. 12, № 7. — С. 373—384.

106. Estimation of absolute scale in monocular slam using synthetic data /

D. Rukhovich [и др.] // Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). — 2019. —

C. 803—812.

107. IterDet: Iterative Scheme for Object Detection in Crowded Environments /

D. Rukhovich [и др.] // Structural, Syntactic, and Statistical Pattern Recognition: Joint IAPR International Workshops, S+ SSPR 2020, Padua,

Italy, January 21-22, 2021, Proceedings. Т. 12644. — Springer Nature. — С. 344—354.

Тезисы докладов

108. Рухович Д. Д. Применение синтетических данных для оценки расстояний в системах навигации автономных движущихся средств // Ломоносовские чтения. Научная конференция. Секция механики. Октябрь 2020 года. Тезисы докладов. — 2020.

Список рисунков

1.1 Примеры реальных изображений из набора KITTI (верхний ряд) и из симулятора CARLA (нижние три ряда) для разного времени

суток и изменяемых погодных условий................. 24

1.2 Архитектура сверточной модели. Сверточные слои изображены

синим цветом, полносвязные отмечены желтым............. 27

1.3 Архитектура сверточной модели. Сверточные (convolutional) слои изображены синим цветом, полносвязные (fully connected) - желтым. 30

1.4 Траектории набора данных KITTI, окрашенные в зависимости от величины ошибки оценки пройденного камерой расстояния: а) -базовый метод [38]; б) - ScaleFM. Единица цветовой шкалы — метр. 38

1.5 Примеры пар соседних кадров тестовых видеопоследовательностей набора KITTI, на которых ошибка метода является наибольшей. . . 39

2.1 Архитектура нейросетевой модели, лежащая в основе итеративного

метода детекции объектов......................... 49

2.2 Визуализация предсказаний, полученных с помощью модификации IterDet, на изображении из набора Toy V2. Первый ряд содержит визуализации масок ранее найденных объектов. В изображениях второго ряда объекты, найденные на каждой итерации, обведены рамкой. Справа приведен итоговый результат: за 16 итераций были

успешно найдены 16 объектов....................... 56

2.3 Сравнение средней точности при различном числе итераций для

Faster RCNN-IterDet............................ 57

2.4 Сравнение результатов базового Faster RCNN (слева) и Faster RCNN-IterDet (справа) на тестовом изображении из набора CrowdHuman. Ограничивающие рамки объектов, найденных на первой и второй итерации, показаны зеленым и желтым цветом

соответственно. В правом верхнем углу показан сложный случай двух сильно перекрывающихся объектов, с которым Faster RCNN-IterDet успешно справляется, в то время как базовый Faster

RCNN выдает ошибочное предсказание.................. 61

2.5 Результаты детекции объектов с использованием итеративного метода на наборах Toy V1 и Toy V2 (первый ряд), CrowdHuman (второй ряд) и WiderPerson (третий ряд)................. 63

3.1 Общая схема предлагаемого метода ImVoxelNet. Пунктирные линии

вокруг нейросетевых блоков обозначают, что веса сети распределяются между несколькими входами.............. 75

3.2 Объекты, обнаруженные ImVoxelNet на изображениях из валидационной части набора данных KITTI............... 96

3.3 Объекты, обнаруженные с помощью предлагаемого метода на

сценах из валидационной части набора данных nuScenes........ 99

3.4 Объекты, обнаруженные ImVoxelNet на изображених из валидационной части набора данных SUN RGB-D...........102

3.5 Объекты, обнаруженные ImVoxelNet на сценах из валидационной

части набора данных ScanNet.......................105

Список таблиц

1 Результаты методов оценки масштаба трехмерной сцены........ 35

2 Результаты ScaleFM на основе рекуррентной нейросетевой модели с одно- и двунаправленным модулем LSTM с различным размером истории, полученные на тестовых видеопоследовательностях набора данных KITTI................................ 36

3 Результаты предлагаемого метода на тестовых видеопоследовательностях KITTI в зависимости от количества карт симулятора, используемых при создании обучающей выборки..... 37

4 Сравнение наборов данных по среднему числу объектов и пар объектов с различными уровнями пересечения на одном изображении. 51

5 Результаты экспериментов на наборах данных Toy V1 и Toy V2. ... 58

6 Результаты экспериментов на наборе данных CrowdHuman с разметкой фигуры человека полностью.................. 59

7 Результаты экспериментов на наборе данных CrowdHuman с разметкой видимой части фигуры человека............... 59

8 Результаты экспериментов на наборе данных WiderPerson....... 61

9 Сравнение производительности моделей на наборе WiderPerson.

Время работы указано в секундах..................... 62

10 Этапы работы предлагаемого метода трехмерной детекции объектов. 76

11 Детали реализации. Предельные координаты исследуемой области пространства и размеры вокселов приведены в метрах......... 92

12 Результаты экспериментов по трехмерной детекции объектов на основе монокулярных изображений из набора данных KITTI. В данной таблице приведены значения метрики AP3D@70 для объектов категории автомобиль. Результаты на валидационной части набора данных KITTI приведены в столбцах Валидация, на тестовой части - Тест............................ 94

13 Результаты экспериментов по трехмерной детекции объектов на основе монокулярных изображений из набора данных KITTI. В данной таблице приведены значения метрики AP2D@70 для объектов категории автомобиль. Результаты на валидационной части набора данных KITTI приведены в столбцах Валидация, на тестовой части - Тест............................ 95

14 Результаты экспериментов по трехмерной детекции объектов на основе монокулярных изображений из валидационной части набора данных KITTI. В данной таблице приведены значения метрики AP3D@0.7 для умеренно сложных объектов категории автомобиль. . 97

15 Результаты экспериментов по трехмерной детекции на основе монокулярных изображений из набора данных nuScenes........ 98

16 Результаты экспериментов по трехмерной детекции на основе монокулярных изображений из набора данных SUN RGB-D.

Метрика качества - AP3D@15.......................100

17 Точность определения углов поворота камеры и трехмерной планировки помещения на наборе данных SUN RGB-D.........100

18 Результаты экспериментов по трехмерной детекции объектов на основе монокулярных изображений из набора данных SUN RGB-D. Метрика качества - AP3D@25. Все методы, кроме ImVoxelNet, принимают облако точек в качестве входных данных..........101

19 Результаты экспериментов по трехмерной детекции объектов на основе монокулярных изображений из набора данных SUN RGB-D. Метрика качества - AP3D@15.......................101

20 Точность ImVoxelNet на наборе данных ScanNet в зависимости от количества изображений на этапе тестирования. Время работы указано в секундах.............................104

21 Результаты экспериментов по трехмерной детекции объектов на наборе данных ScanNet. Метрика качества - AP@0.25 для 18 категорий объектов из набора данных ScanNet. Все методы, кроме ImVoxelNet, принимают облако точек в качестве входных данных. . . 104

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.