Мультимодальное машинное зрение тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Сенюшкин Дмитрий Сергеевич

  • Сенюшкин Дмитрий Сергеевич
  • кандидат науккандидат наук
  • 2025, ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 99
Сенюшкин Дмитрий Сергеевич. Мультимодальное машинное зрение: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики». 2025. 99 с.

Оглавление диссертации кандидат наук Сенюшкин Дмитрий Сергеевич

1.4 Основные результаты

1.5 Заключение по главе

Глава 2. Проблема обучения многозадачных нейросетевых моделей

2.1 Постановка многокритериальной задачи обучения

2.2 Концепция Парето оптимальности

2.3 Подходы к построению и обучению многозадачных моделей

2.4 Устойчивый метод многокритериальной оптимизации

2.5 Аппроксимация устойчивого метода Aligned-MTL для случая факторизуемых нейронных сетей

2.6 Основные результаты

2.7 Заключение по главе

Глава 3. Проблема разделения модальностей в задаче обратного рендеринга

3.1 Постановка обратной задачи рендеринга

3.2 Методы обратного рендеринга

3.3 Нейронная аппоксимация глобального источника освещения для решения обратной задачи рендеринга

3.4 Основные резульаты

3.5 Заключение по главе

Заключение

Список литературы

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Мультимодальное машинное зрение»

Введение

В данной работе рассматривается проблема построения многозадачных многомодальных нейросетевых моделей нацеленных на решение практических задач компьютерного зрения. Под многозадачностью в работе понимается способность модели оценивать несколько параметров различной природы наблюдаемой сцены одновременно в рамках одного вывода. Многомодальность модели подразумаевает возможность модели эффективно обрабатывать дополнительную информацию помимо изображений. Подобного рода модели представляют интерес для применения на устройствах с огранниченным вычислительным бюджетом и при этом оснащенных дополнительными сенсорами, например, беспилотных автомобилях или смартфонах.

Современная проблематика компьютерного зрения насчитивает большое количество задач разной степени сложности. В рамках данной работы затрагиваются следующие из них:

- визуальная классификация объектов на изображении;

- визуальная сегментация объектов и поверхностей на изображении;

- оценка глубины по одному изображению;

- дополнение данных сенсора глубины по визуальной информации с камеры;

- оценка ориентации нормалей поверхностей в сцене;

- оценка параметров материалов и освещения в сцене.

Задача визуальной классификации объектов заключается в соотнесении объекта, изображенного на снимке, к одной из категорий объектов. Чаще всего постановка включает наперед заданный словарь объектов, по которому происходит классификация. В рамках классических методов компьютерного зрения проблема классификации трудно решаема. Это обусловлено высокой вариабельностью объектов внутри одной категории, а также изменчивостью условий съемки объектов (экспозиция). Нейросетевые методы на текущий момент предлагают наилучшее качество решения этой задачи.

Проблема визуальной сегментации является расширением задачи визуальной классификации, в которой требуется построить разбиение всего поля зрения на непересекающиеся области. Сегментация предполагает соотнесение каждого сегмента одной из заданных категории. Обычно выделяют три вида визуальной сегментации: семантическая, объектная и паноптическая. В рамках семантической сегментации сегменты классифицируются по заданному набору категорий, который ключает как объектные классы, так и необъектные. При этом распознавания экземпляров объектов не происходит. С другой стороны объектная сегментация нацелена на распознавание только объектных категорий с учетом разделения их по экземплярам. Последний тип сегментации объединяет в себе две предыдущих и представляет наиболее полный семантический анализ изображения.

Для приложений монокулярной реконструкции сцены актуальной является проблема оценки трехмерного положения точек изображения в системе координат камеры. При известной внутренней калибровке камеры монокулярная реконструкция сводится к оценке глубины - расстояния от центра проекции камеры до пикселей в сцене. Технически эта задача плохо определена и не может быть решена строго в монокулярной постановке. Тем не менее нейросетевые методы, обученные на больших массивах размеченных данных, демонстрируют, что глубина может быть неплохо оценена с точностью до масштаба и сдвига или даже в метрическом масштабе. Однако не всегда существует необходимость оценивания глубины с нуля. Некоторые устройства оснащены датчиками, измеряющими глубину. Существующие измерители однако неидеальны и часто порождают сигнал с пропусками. В таком случае встает проблема оценки недостающих измерений, используя неплотные данные сенсора и изображение сцены.

Помимо реконструкции геометрии для практических применений интерес представляет оценка материалов поверхностей и объектов в сцене. Это необходимо для возможности использования реконструкций внутри существующих систем визуализации и компьютерной графики. Структура материалов, которые необходимо оценить, обычно продиктована конкретной моделью освещения используемой такой системой. В индустрии наиболее распространенной является модель физических материалов (PBR), которая включает параметры диффузной (альбедо - albedo) и спекулярной (металличность и грубость - roughness, metalic) составляющей расчета освещения, а также параметры ориентации плоскостей (нормали).

Первая часть работы посвящена решению практической задачи дополнения карт глубины по входному изображению. Проблема заключается в построении плотной карты расстояний для каждого пикселя изображения, имея на входе кадр изображения и неплотный сигнал сенсора глубины. В части современных устройств измерения глубины невозможно обеспечить полное покрытие кадра измерениями (LiDAR), что неизбежно ведет к пропускам. Другое семейство устройств (Time-of-Fly, Structured Light) имеет сильно огранниченную дальность действия, также порождая отсутствие измерений в части областей. Данная задача рассматривается с точки зрения проблематики построения эффективной многомодальной модели для решения конкретной практической задачи зрения. В работе предлагается оригинальный способ смешивания плотного сигнала изображения и разреженного сигнала глубины, позволяющий учесть их статистическую разницу в рамках простой эффективной модели путем специальной нормализации активаций нейронной сети. Как упоминалось ранее, модели дополнения глубины особенно востребованы в приложениях трехмерной реконструкции.

Вторая часть работы посвящена исследованию способов обучения многозадачных нейросетевых моделей. Процесс обучения рассматривается как задача минимизации составного функционала потерь, где каждая компонента

описывает отдельную задачу. В работе исследуется возможность применения многокритериальных градентных методов оптмизации для решения такой задачи. В результате исследования предложен и теоретически обоснован метод многокритериальной оптимизации, основанный на критерии устойчивости градиентной системы, составленной из градиентов отдельных компонент функции потерь. Предлагаемый метод сходится к Парето стационарной точке с наперед заданными соотношениями функций потерь линейно. В работе демонстрируется эффективность предлагаемого способа обучения нейросетевых алгоритмом в контесте архитектурно разных моделей и разных наборов задач. В частности обучены модели, одновременно оценивающие по одному кадру глубину, семантическую и объектную карты сегментации, а также карту нормалей поверхностей. Помимо этого метод протестирован в контесте обучения нейронной сети, решающей задачу многоклассовой классификации. Предложенный метод является максимально широким и может быть использован для оптимизации вне контекста обучения нейронных сетей. В общем случае предложенный подход может быть рассмотрен как обобщение обыкновенного градиентного спуска на случай многих функций.

В заключительной части рассматривается практическая проблема декомпозиции материалов и освещения в трехмерной сцене по заданному набору входных кадров с известными положениями камер. Проблема рассмотрена с точки зрения разделения сильно смешанных модальностей данных, в данном случае это физические свойства (PBR) поверхностей и освещение в сцене. В общем случае эта проблема не может иметь уникального решения в такой постановке. В данной работе предлагается гладкая параметризация процедуры расчета освещения, которая обеспечивает достаточную гибкость и емкость математической модели освещенности, что позволяет разделять модальности с меньшим количеством артефактов по сравнению с похожими подходами. Параметризация полностью совместима с моделями физических материалов, которые широко распространены в индустрии визуализации и компьютерной графики. Разработанный метод может быть использован как для извлечения материалов поверхностей и объектов в сцене, так и освещения в виде карты окружения.

Актуальность темы. Компьютерное зрение за последнее десятилетие прочно вошло в повседневный обиход большого количества людей. Так, большинство носимых устройств, начиная от мобильного телефона и заканчивая компьютером, используют алгоритмы компьютерного зрения для решения каких-то задач. Спектр таких задач очень широк и включает классификацию изображений, визуальную сегментацию, визуальную детекцию, определение геометрических свойств сцены, например оценка карт глубины, реконструкцию сцены, определение материалов объектов сцены, картографирование и прочие. Признанным стандартом решения практических задач компьютерного зрения стали нейронные сети, обученные на выборках размеченных данных. Нейронные сети обеспечивают высокое качество решения конкретных задач, но такие алгоритмы остаются узкоспециализироваными.

На практике часто возникает потребность решать больше одной задачи одновременно. В таком случае такая система является линейно масштабируемой по сложности в зависимости от количества задач, что может быть источником неэффективности такого подхода. Очевидным решением проблемы могли бы стать многозадачные алгоритмы, решающие больше одной задачи за меньшую вычислительную стоимость, чем несколько специализированных моделей, примененных последовательно. Проблема построения многозадачных алгоритмов компьютерного зрения к настоящему моменту не решена полностью и привлекает все больший интерес научного сообщества. Наибольшие успехи в области многозадачности достигнуты в рамках больших языковых моделей, где задачи могут быть описаны в терминах символов или токенов. Так, модели семейства GPT уже способны отвечать на вопросы, дополнять текстовые описания, классифицировать тексты и даже в некотором смысле "по-нимать"визуальную информацию. Тем не менее языковые модели необычайно требовательны к вычислительным ресурсам, что ограничивает спектр их применений на практике. В области компьютерного зрения фундаментальные модели тоже активно развиваются. Ряд подходов демонстрирует потенциал таких моделей в контектсе многозадачности, однако они все еще не достигают качества специализированных подходов. Как и в случае с большими языковыми моделями, фундаментальные модели зрения включают сотни миллионов обучаемых параметров, потребляя большое количество физической памяти и процессорного времени даже для простого вывода. Построение более эффективных архитектур и способов их обучения представляет широкий практический интерес для применений в условиях сильно огранниченных ресурсов, таких как беспилотный транспорт или робототехника.

Между тем современные устройства зачастую содержат целый набор сенсоров, способных собирать дополнительную информацию помимо изображений. Такими сенсорами могут быть, например, инерциальные датчики, гироскопы или камеры глубины. Многие алгоритмы классического (без нейронных сетей) компьютерного зрения нативно способны встраивать дополнительную информацию в алгоритм без значительных изменений в логике, что повышает качество решения задачи. Классическим примером могут служить алгоритмы визуальной инерциальной одометрии. Нейросетевые алгоритмы в свою очередь требуют переобучения модели под конкретный набор входных данных и при этом не гарантируют повышение качества алгоритма. Универсального способа, который позволил бы внедрять новые типы данных в такие модели не создано ввиду уникальности последних. Тем не менее, с практической точки зрения, тема представляет интерес в конкретных областях.

Целью диссертации является исследование и разработка эффективных многомодальных многозадачных нейросетевых алгоритмов решения практических задач компьютерного зрения.

Для достижения цели диссертационного исследования поставлены следующие задачи в рамках рассмотриваемых прикладных проблем:

1. Разработка многомодальной архитектуры нейронной сети для решения проблемы дополнения карты глубины по входному изображению для сцен помещений.

- исследование и анализ актуальных методов решения этой задачи, тестирование нескольких базовых решений и выявление проблемных мест;

- разработка оригинального метода решения на основе проведенного анализа;

- проведение качественного и количественного сравнения предлагаемого подхода с существующими аналогами на общедоступных наборах данных, включающих несколько датасетов.

2. Разработка метода обучения многозадачных нейросетевых моделей.

- исследование классических методов многокритериальной оптимизации применительно к балансированию функций потерь при обучении многозадачных моделей;

- разработка нового метода градиентной оптимизации, основанного на критерии устойчивости;

- теоретическое и практическое обоснование предложенного метода;

- тестирование метода путем обучения различных нейросетевых архитектур на разные комбинации задач зрения, включающих классификацию, сегментацию, детекцию объектов, а также оценку глубины по входному кадру.

3. Разработка метода декомпозиции материалов и освещения в трехмерной сцене по заданному набору входных кадров с известными положениями камер.

- исследование и анализ существующих методов решения поставленной задачи, поиск проблемных мест;

- разработка нейросетевой параметризации модели освещения;

- тестирование нейронной модели освещения в рамках физической модели расчета цвета.

Настоящее исследование выполнено в рамках методологии прикладных исследований в области машинного обучения. Данная методология основана на экспериментальной проверке разрабатываемых методов машинного обучения с использованием открытых протоколов оценивания и общедоступных наборов данных. Большинство результатов, приведенных в данной работе, подкреплены реализациями, которые размещены на общедоступных хранилищах программного кода в сети Интернет.

Основные результаты

Основными положениями, выносимыми на защиту, являются обоснование актуальности, научная новизна, практическая и теоретическая значимость

работы, а также результаты проведенных исследований, полученные на основании следующих разработанных методов и положений:

1. Новая нейросетевая модель дополнения пропущенных измерений глубины по заданному кадру и разреженному сигналу сенсора, включающая модуль пространственной модуляции активаций декодера.

2. Оригинальный метод многокритериальной оптимизации с ограничениями на критерий устойчивости.

3. Оригинальный метод решения обратной задачи рендеринга, включающий новую непрерывную и дифференцируюмую нейронную модель источника, совмещающую как прямые так и непрямые источники освещения в рамках одной модели.

В данной диссертационной работе получены следующие практические и теоретические результаты, обладающие научной новизной:

1. Предложена и исследована оригинальная архитектура нейронной сети для решения задачи дополнения карты глубины по входному изображению. Структурно нейронная сеть основана на общей модели кодировщик-декодировщик, но включает дополнительную подсеть, осуществляющую модуляцию активаций нейросети в декодирующей части. Механизм модуляции позволяет снизить влияние доменного сдвига между областями входного сигнала, позволяя более точно реконструировать пропущенные значения глубины.

2. Попутно предложен механизм синтезирования полусинтетических обучающих данных для задачи дополнения глубины без необходимости проведения дорогостоящей процедуры полной трехмерной реконструкции сцены. Такой подход экономит значительные временные и вычислительные ресурсы и при этом демонстрирует эффективность обучения нейросетевых моделей на таких данных.

3. Экспериментально выявлен факт зависимости качества обучения многозадачных моделей от параметра устойчивости градиентной системы. Проведено исследование влияния параметра устойчивости на процесс обучения нейросетевых моделей. Показана практическая и теоретическая взаимосвязь коэффициента обусловленности градиентной системы с метриками, измеряющими совместимость и доминирование в системе градиентов заданного набора функций потерь.

4. На основании выше изложенного экспериментального факта впервые предложен метод многокритериальной оптимизации, предоставляющий теоретические гарантии устойчивости градиентной системы во время всего процесса оптимизации. Предложенный метод может быть рассмотрен как обобщение стандартного градиентного спуска (который является частным случаем) на случай нескольких функций потерь с учетом ограничений на коэффициент обусловленности. Показана эффективность такого метода оптимизации в контексте оптимизации составных функционалов, а также в контексте обучения многозадачных

нейросетевых моделей. Экспериментально показано, что метод применим для обучения нейронных сетей различной архитектуры, в том числе специально разработанных для многозадачности, а также совместим с разными наборами задач. Метод имеет линейную сложность относительно количества обратных проходов по параметрам сети, что является следствием необходимости расчета градиентов отдельных составляющих функции потерь.

5. Для факторизуемых нейронных сетей типа кодировщик-декодировщик предложена аппроксимация оригинального метода оптимизации имеющая константную сложность относительно количества обратных проходов по нейронной сети.

6. Проведено исследование предлагаемых метода многокритериальной оптимизации и его аппроксимация на предмет сходимости для случая непрерывных и дифференцируемых функционалов с условием Липшица. Показано, что метод гарантирует сходимость за линейное время в Парето стационарную точку, в которой достигается равенство нулю взвещенного градиента функции потерь с наперед заданным (любым) набором весов. Этот теоретический факт подкреплен синтетическим примером минимизации двухкомпонентного функционала с известными положениями глобальных оптимумов.

7. В рамках задачи разделения модальностей материалов и освещения по изображениям, снятым с нескольких известных ракурсов, качественно продемонстрировано влияние емкости (гибкости) математической модели освещения на процесс разделения: простые модели ведут к артефактам в реконструированных материалах.

8. Впервые предложена непрерывная нейросетевая модель источника, включающая как прямой свет, так и непрямые источники (такие как переотражения) в рамках единой нейронной сети. Предлагаемая параметрическая функция источника полностью непрерывна и дифференцируема, что позволяет подбирать ее параметры градиентной оптимизацией сквозным способом из набора изображений. Показана эффективность предложенной модели в рамках решения обратной задачи рендеринга.

Предлагаемые теоретические результаты проведенного исследования имеют высокую научную и практическую значимость:

- Разаботанный метод многокритериальной оптимизации предлагает новый взгляд на проблему балансирования функций потерь в рамках процедуры градиентой минимизации с точки зрения критерия устойчивости.

- Метод применим для решения широкого спектра задач минимизации включающих аналитические функционалы или нейронные модели.

В то же время изложенные практические результаты могут быть использованы как часть более общих систем компьютерного зрения, решающих конкретные прикладные задачи, такие как:

- трехмерная реконструкция помещений по RGBD видео;

- навигация и планирование траекторий робота в среде, например, беспилотного автомобиля;

- редактирование освещения или материалов в сцене;

- вписывание объектов в сцену.

Таким образом предлагаемое диссертационное исследование затрагивает целый спектр актуальных проблем создания практикоориентированных многомодальных многозадачных нейросетевых моделей. Основные методы и положения, разработанные в результате этой работы, могут иметь применение в таких сферах деятельности, как компьютерная графика, дополненная реальность, виртуальная реальность, робототехника, беспилотный транспорт и многих других, что еще раз подчеркивает актуальность работы.

Личным вкладом автора этой диссертации является проектирование, реализация, обучение и тестирование затронутых нейросетевых моделей, а также теоретическое и экспериментальное обоснование изложенных результатов. Большинство программных реализаций публично доступны в сети Интернет на личной странице автора, либо на ресурсах аффилированных огранизаций.

Степень достоверности всех вышеизложенных результатов обеспечена общепринятой экспериментальной методологией провеки нейросетевых моделей машинного обучения. Она определяет единообразный порядок и способы валидирования методов и подходов на основании публично доступных тестовых наборов данных. Приведенные в диссертации результаты соотносятся с результатами, опубликованными другими авторами в рецензируемых журналах, что также подтверждает их достоверность.

Публикации и апробация работы

В рамках данного диссертационного исследования автором были опубликованы следующие публикации в международных рецензируемых сборниках:

Публикации повышенного уровня 1

1. Decoder Modulation for Indoor Depth Completion [Текст] / D. Senushkin, M. Romanov, I. Belikov, N. Patakin, A. Konushin // 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) - CORE A. 2021. С. 2181—2188

2. Independent Component Alignment for Multi-Task Learning [Текст] / D. Senushkin, N. Patakin, A. Kuznetsov, A. Konushin // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) - CORE A*. 06.2023. С. 20083—20093

'публикации в рецензируемых изданиях из списка CORE A/A*

Публикации стандартного уровня 2

1. Neural Global Illumination for Inverse Rendering [Текст] / N. Patakin, D. Senushkin, A. Vorontsova, A. Konushin//IEEE International Conference on Image Processing, ICIP 2023 - COREB. IEEE, 2023. С. 1580-1584

Кроме этого результаты исследования были доложены и представлены на следующих научных конференциях и семинарах:

1. Конференция 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2021), Прага, Чешская Республика, 2830 сентября 2021 года. Тема: "Decoder Modulation for Indoor Depth Completion". Язык доклада английский.

2. Конференция IEEE/CVF Conference on Computer Vision and Pattern Recognition 2023 (CVPR 2023), Ванкувер, Канада, 18-22 июня 2023 года. Тема: "Independent Component Alignment for Multi-Task Learning". Удаленное участие, язык доклада английский.

3. Конференция 2023 IEEE International Conference on Image Processing (ICIP 2023), Куала-Лумпур, Малайзия, 8-11 октября 2023 года. Тема: "Neural Global Illumination for Inverse Rendering". Язык доклада английский.

Объем и структура работы. Диссертация содержит введение, три главы, излагающих основные результаты исследований и заключение. Общий объем диссертации 99 страниц.

Содержание работы

Основная часть диссертации включает три части по числу опубликованных автором работ. Каждая часть предлагает краткое изложение основных идей, методов и результатов соответствующих публикаций, а также описывает место полученных результатов в развитии темы данной диссертации, а также в общей структуре знаний предметной области.

2публикации в рецензируемых изданиях из списка CORE B

11

Глава 1.

Проблема смешения информации в задаче дополнения карт глубины

В последние годы датчики глубины стали неотъемлемым компонентом многих устройств, от беспилотных автомобилей до смартфонов. Однако качество современных датчиков глубины еще далеко от совершенства. Так, например, дорогостоящие и громоздские системы LiDAR обеспечивают точные, но пространственно очень разреженные измерения. С другой стороны, датчики глубины потребительского сегмента, основанные на активном стерео со структурированным светом (например, Microsoft Kinect) или Time-of-Flight (например, Microsoft Kinect Azure или датчики глубины во многих смартфонах), дают оценки, которые являются относительно плотными, но менее точными и в пределах ограниченного диапазона расстояний. Сценарии применения этих датчиков также различаются: LiDAR подобные сенсоры широко используются в условиях вне помещений, особенно для беспилотных автомобилей, тогда как другие датчики в основном применимы в помещениях. Имея сходства и различия, эти сенсоры тем не менее являются физическими приборами и подвержены значительным ограничениям, что приводит к пропускам или ошибкам измерений даже в рабочем диапазоне.

В последнее время предпринимаются попытки создания программных комплексов, способных дополнять пропущенные значения, неизмеренные сенсором, на основе данных и нейрсетевых моделей. Предлагается рассматривать данные прибора, измеряющего глубину, не изолированно, а в паре с цветным изображением. Тогда общая задача дополнения карт глубины заключается в построении алгоритма, который по входному цветному кадру и сырым измерениям прибора оценивает оставшиеся значения. Использование изображения для оценивания пропусков не является сильным ограничивающим фактором. Чаще всего при реальном использовании сенсоры глубины являются вспомогательными, тогда как основным остается цветная камера, потому не использовать такой информационно богатый сигнал, как цветной кадр, представляется неразумным. Так или иначе в такой постановке задача дополнения карт глубины затрагивает более обширную проблему смешения информации из разных источников. В частности, в данной диссертации предлагается нейросетевая модель решения

этой задачи, которая позволяет смешивать цветные изображения и сырые измерения дальномера, учитывая пропуски.

Из-за быстрого роста индустрии беспилотных автомобилей большинство последних методов, решающих эту задачу дополнения, в основном разрабатываются для лидарных дальномеров, часто упуская из виду другие типы датчиков и сценарии. Тем не менее, потребительские датчики глубины являются неотъемлемой частью многих современных устройств (таких как мобильные телефоны, очки дополненной реальности и другие). Эти датчики обеспечивают полуплотные карты с плотными измерениями в некоторых областях и почти пустыми в других. В данной работе предложена нейросетевая модель дополнения карт глубины именно для потребительский типов сенсоров глубины.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Сенюшкин Дмитрий Сергеевич, 2025 год

Список литературы

1. Decoder Modulation for Indoor Depth Completion [Текст] / D. Senushkin, M. Romanov, I. Belikov, N. Patakin, A. Konushin // 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) - CORE A. —2021.-С. 2181-2188.

2. Independent Component Alignment for Multi-Task Learning [Текст] / D. Senushkin, N. Patakin, A. Kuznetsov, A. Konushin // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) - CORE A*. — 06.2023. - С. 20083-20093.

3. Neural Global Illumination for Inverse Rendering [Текст] / N. Patakin, D. Senushkin, A. Vorontsova, A. Konushin // IEEE International Conference on Image Processing, ICIP 2023 - CORE B. — IEEE, 2023. — С. 1580—1584.

4. Vapnik, V. Estimation of Dependencies Based on Empirical Data [Текст] / V. Vapnik. — Springer-Verlag, New York, 1982.

5. Eigen, D. Depth Map Prediction from a Single Image using a Multi-Scale Deep Network [Текст] / D. Eigen, C. Puhrsch, R. Fergus // Advances in Neural Information Processing Systems. Т. 27 / под ред. Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, K. Weinberger. — Curran Associates, Inc., 2014. — URL: https : / / proceedings . neurips . cc / paper files / paper / 2014 / file / 7bccfde7714a1ebadf06c5f4cea752c1 -Paper.pdf.

6. Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-Shot Cross-Dataset Transfer [Текст] / R. Ranftl, K. Lasinger, D. Hafner, K. Schindler, V. Koltun // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2022. — Т. 44, № 3.

7. Deep Residual Learning for Image Recognition [Текст] / K. He, X. Zhang, S. Ren, J. Sun // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 06.2016.

8. Aggregated Residual Transformations for Deep Neural Networks [Текст] / S. Xie, R. Girshick, P. Dollar, Z. Tu, K. He // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 07.2017.

9. Imagenet: A large-scale hierarchical image database [Текст] / J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, L. Fei-Fei // 2009 IEEE conference on computer vision and pattern recognition. — Ieee. 2009. — С. 248—255.

10. RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation [Текст] / G. Lin, A. Milan, C. Shen, I. Reid// CVPR. — 07.2017.

11. RefineNet: Multi-Path Refinement Networks for Dense Prediction [Текст] / G. Lin, F. Liu, A. Milan, C. Shen, I. Reid // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2019.

12. Ranftl, R. Vision Transformers for Dense Prediction [Текст] / R. Ranftl, A. Bochkovskiy, V. Koltun // Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). — 10.2021. - С. 12179—12188.

13. Single-Stage 3D Geometry-Preserving Depth Estimation Model Training on Dataset Mixtures With Uncalibrated Stereo Data [Текст] / N. Patakin, A. Vorontsova, M. Artemyev, A. Konushin // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 06.2022. —С. 1705—1714.

14. Tan, MEfficientNet: Rethinking Model Scaling for Convolutional Neural Networks [Текст] / M. Tan, Q. Le // Proceedings of the 36th International Conference on Machine Learning. Т. 97 / под ред. K. Chaudhuri, R. Salakhutdinov. — PMLR, 09-15 Jun.2019. - С. 6105—6114. -(Proceedings of Machine Learning Research). — URL: https : / / proceedings.mlr.press/v97/tan19a.html.

15. Vladimir Nekrasov Chunhua Shen, I. R. Light-Weight RefineNet for Real-Time Semantic Segmentation [Текст] / I. R. Vladimir Nekrasov Chunhua Shen // BMVC.-2018.

16. Learning to Recover 3D Scene Shape from a Single Image [Текст] / W. Yin, J. Zhang, O. Wang, S. Niklaus, L. Mai, S. Chen, C. Shen // Proc. IEEE Conf. Comp. Vis. Patt. Recogn. (CVPR). — 2021.

17. ZoeDepth: Zero-shot Transfer by Combining Relative and Metric Depth [Текст] / S. F. Bhat, R. Birkl, D. Wofk, P. Wonka, M. Müller. — 2023. — URL:

https://arxiv.org/abs/2302.12288.

18. Metric3D v2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation [Текст] / M. Hu, W. Yin, C. Zhang, Z. Cai, X. Long, H. Chen, K. Wang, G. Yu, C. Shen, S. Shen//arXiv preprint arXiv:2404.15506. — 2024.

19. Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data [Текст] / L. Yang, B. Kang, Z. Huang, X. Xu, J. Feng, H. Zhao // CVPR. -2024.

20. Bhat, S. F. AdaBins: Depth Estimation Using Adaptive Bins [Текст] / S. F. Bhat, I. Alhashim, P. Wonka // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 06.2021. — С. 4009-4018.

21. Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation [Текст] / B. Ke, A. Obukhov, S. Huang, N. Metzger, R. C. Daudt, K. Schindler // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 2024.

22. GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [Текст] / X. Fu, W. Yin, M. Hu, K. Wang, Y. Ma, P. Tan, S. Shen, D. Lin, X. Long // ECCV. — 2024.

23. DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos [Текст] / W. Hu, X. Gao, X. Li, S. Zhao, X. Cun, Y. Zhang, L. Quan, Y. Shan // arXiv preprint arXiv:2409.02095. — 2024.

24. DepthART: Monocular Depth Estimation as Autoregressive Refinement Task [Текст] / B. Gabdullin, N. Konovalova, N. Patakin, D. Senushkin, A. Konushin // arXiv preprint. — 2024.

25. Donoho, D. Compressed sensing [Текст] / D. Donoho // IEEE Transactions on Information Theory. — 2006. — Т. 52, № 4. — С. 1289—1306.

26. Hawe, S. Dense disparity maps from sparse disparity measurements [Текст] / S. Hawe, M. Kleinsteuber, K. Diepold // 2011 International Conference on Computer Vision. - 2011. - С. 2126—2133.

27. Liu, L.-K. Depth Reconstruction From Sparse Samples: Representation, Algorithm, and Sampling [Текст] / L.-K. Liu, S. Chan, T. Nguyen // IEEE transactions on image processing : a publication of the IEEE Signal Processing Society. — 2015. — Март. — Т. 24.

28. Sparsity Invariant CNNs [Текст] / J. Uhrig, N. Schneider, L. Schneider, U. Franke, T. Brox, A. Geiger// 2017 International Conference on 3D Vision (3DV).-2017. — С. 11-20.

29. Yang, Y. Dense Depth Posterior (DDP) From Single Image and Sparse Range [Текст] / Y. Yang, A. Wong, S. Soatto // 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 2019. — С. 3348—3357.

30. CSPN++: Learning Context and Resource Aware Convolutional Spatial Propagation Networks for Depth Completion [Текст] / X. Cheng, P. Wang, C. Guan, R. Yang // Proceedings of the AAAI Conference on Artificial Intelligence. — 2020. - Т. 34, № 07. — С. 10615—10622. - URL: https : //ojs.aaai.org/index.php/AAAI/article/view/6635.

31. Learning Guided Convolutional Network for Depth Completion [Текст] / J. Tang, F.-P. Tian, W. Feng, J. Li, P. Tan // IEEE Transactions on Image Processing. — 2019. — Т. 30. — С. 1116—1129. — URL: https : //api . semanticscholar.org/CorpusID:199441899.

32. Learning Joint 2D-3D Representations for Depth Completion [Текст] / Y. Chen, B. Yang, M. Liang, R. Urtasun //2019 IEEE/CVF International Conference on Computer Vision (ICCV). — 2019. — С. 10022—10031.

33. A Multi-Scale Guided Cascade Hourglass Network for Depth Completion [Текст] / A. Li, Z. Yuan, Y. Ling, W. Chi, S. Zhang, C. Zhang // 2020 IEEE Winter Conference on Applications of Computer Vision (WACV). — 2020. — С. 32-40.

34. Indoor depth completion with boundary consistency and self-attention [Текст] / Y.-K. Huang, T.-H. Wu, Y.-C. Liu, W. H. Hsu // Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops. — 2019. — С. 0-0.

35. DeepLiDAR: Deep Surface Normal Guided Depth Prediction for Outdoor Scene From Sparse LiDAR Data and Single Color Image [Текст] / J. Qiu, Z. Cui, Y. Zhang, X. Zhang, S. Liu, B. Zeng, M. Pollefeys // The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 06.2019.

36. DeepLiDAR: Deep Surface Normal Guided Depth Prediction for Outdoor Scene From Sparse LiDAR Data and Single Color Image [Текст] / J. Qiu, Z. Cui, Y. Zhang, X. Zhang, S. Liu, B. Zeng, M. Pollefeys //. — 06.2019. -С. 3308—3317.

37. Zhang, Y. Deep Depth Completion of a Single RGB-D Image [Текст] / Y. Zhang, T. Funkhouser //2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2018. — С. 175—185.

38. Gregorek, J. SteeredMarigold: Steering Diffusion Towards Depth Completion of Largely Incomplete Depth Maps [Текст] / J. Gregorek, L. Nalpantidis. — 2024. — arXiv: 24 09.102 02 [cs.RO]. — URL: https://arxiv.org/ abs/2409.10202.

39. Vision meets Robotics: The KITTI Dataset [Текст] / A. Geiger, P. Lenz, C. Stiller, R. Urtasun // International Journal of Robotics Research (IJRR). — 2013.

40. Nathan Silberman Derek Hoiem, P. K. Indoor Segmentation and Support Inference from RGBD Images [Текст] / P. K. Nathan Silberman Derek Hoiem, R. Fergus //ECCV. — 2012.

41. Ioffe, S. Batch normalization: accelerating deep network training by reducing internal covariate shift [Текст] / S. Ioffe, C. Szegedy // Proceedings of the 32nd International Conference on International Conference on Machine Learning -Volume 37. — Lille, France : JMLR.org, 2015. — С. 448-456. — (ICML'15).

42. MobileNetV2: Inverted Residuals and Linear Bottlenecks [Текст] /M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, L.-C. Chen // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 06.2018.

43. Tan, M.EfficientDet: Scalable and Efficient Object Detection [Текст] / M. Tan, R. Pang, Q. V. Le // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 06.2020.

44. Eff-UNet: A Novel Architecture for Semantic Segmentation in Unstructured Environment [Текст] /B. Baheti, S. Innani, S. Gajre, S. Talbar//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops. - 06.2020.

45. Real-Time Joint Semantic Segmentation and Depth Estimation Using Asymmetric Annotations [Текст] / V. Nekrasov, T. Dharmasiri, A. Spek, T. Drummond, C. Shen, I. Reid //. — 05.2019. - С. 7101-7107.

46. Semantic Image Synthesis With Spatially-Adaptive Normalization [Текст] / T. Park, M. Liu, T. Wang, J. Zhu //2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 2019. — С. 2332—2341.

47. Towards General Purpose Geometry-Preserving Single-View Depth Estimation [Текст] /M. Romanov, N. Patatkin, A. Vorontsova, S. Nikolenko, A. Konushin, D. Senyushkin. — 2021. — arXiv: 2009.12419 [cs.CV]. — URL: https: //arxiv.org/abs/2 009.12419.

48. Matterport3D: Learning from RGB-D Data in Indoor Environments [Текст] / A. Chang, A. Dai, T. Funkhouser, M. Halber, M. Niessner, M. Savva, S. Song, A. Zeng, Y. Zhang // International Conference on 3D Vision (3DV). — 2017.

49. ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes [Текст] / A. Dai, A. X. Chang, M. Savva, M. Halber, T. Funkhouser, M. Nießner//Proc. Computer Vision and Pattern Recognition (CVPR), IEEE. — 2017.

50. Felzenszwalb, P. F. Efficient Graph-Based Image Segmentation [Текст] / P. F. Felzenszwalb, D. P. Huttenlocher // Int. J. Comput. Vision. — USA, 2004. - Сент. - Т. 59, № 2. — С. 167—181. — URL: https : / / doi . org/10.1023/B:VISI.0000022288.19776.77.

51. SLIC Superpixels Compared to State-of-the-Art Superpixel Methods [Текст] / R. Achanta, A. Shaji, K. Smith, A. Lucchi, P. Fua, S. Süsstrunk // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2012. — Т. 34, № 11. — С. 2274—2282.

52. Vedaldi, A. Quick Shift and Kernel Methods for Mode Seeking. [Текст] / A. Vedaldi, S. Soatto // ECCV (4). Т. 5305 / под ред. D. A. Forsyth, P. H. S. Torr, A. Zisserman. — Springer, 2008. — С. 705—718. — (Lecture Notes in Computer Science). — URL: http : / /dblp . uni- trier . de/ db/conf/eccv/eccv2008-4.html#VedaldiS08.

53. Kingma, D. P. Adam: A Method for Stochastic Optimization [Текст] / D. P. Kingma, J. Ba //. — 2015.

54. Automatic differentiation in PyTorch [Текст] / A. Paszke, S. Gross, S. Chintala, G. Chanan, E. Yang, Z. DeVito, Z. Lin, A. Desmaison, L. Antiga, A. Lerer. — 2017.

55. Sparse and Noisy LiDAR Completion with RGB Guidance and Uncertainty [Текст] / W. Gansbeke, D. Neven, B. Brabandere, L. Van Gool //. — 05.2019. — С. 1-6.

56. Cheng, X. Depth Estimation via Affinity Learned with Convolutional Spatial Propagation Network [Текст] / X. Cheng, P. Wang, R. Yang // Proceedings of the European Conference on Computer Vision (ECCV). — 09.2018.

57. Deep Architecture With Cross Guidance Between Single Image and Sparse LiDAR Data for Depth Completion [Текст] / S. Lee, J. Lee, D. Kim, J. Kim // IEEE Access. — 2020. - Т. 8. - С. 79801-79810.

58. Gradient Surgery for Multi-Task Learning [Текст] / T. Yu, S. Kumar, A. Gupta, S. Levine, K. Hausman, C. Finn // Advances in Neural Information Processing Systems (NeurIPS). Т. 33. — Curran Associates, Inc., 2020. - С. 5824—5836.

59. End-to-End Training of Deep Visuomotor Policies [Текст] / S. Levine, C. Finn, T. Darrell, P. Abbeel // Journal of Machine Learning Research. — 2016. — Т. 17, № 39. — С. 1—40. — URL: http : / / jmlr . org/ papers / v17 /15-522.html.

60. GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks [Текст] / Z. Chen, V. Badrinarayanan, C.-Y. Lee, A. Rabinovich // Proceedings of the 35th International Conference on Machine Learning (ICML). Т. 80. — PMLR, 2018. — С. 794—803. — (Proceedings of Machine Learning Research).

61. Ray Interference: a Source of Plateaus in Deep Reinforcement Learning [Текст] / T. Schaul, D. Borsa, J. Modayil, R. Pascanu // ArXiv. — 2019. — Т. abs/1904.11455. — URL: https : / /api . semanticscholar .org/ CorpusID:131777070.

62. Cross-Stitch Networks for Multi-task Learning [Текст] / I. Misra, A. Shrivastava, A. Gupta, M. Hebert // 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 2016. — С. 3994—4003.

63. Caruana, R. Multitask learning: a knowledge-based source of inductive bias [Текст] / R. Caruana // Proceedings of the Tenth International Conference on International Conference on Machine Learning. — Amherst, MA, USA : Morgan KaufmannPublishers Inc., 1993. — С. 41—48. — (ICML'93).

64. Crawshaw, MMulti-Task Learning with Deep Neural Networks: A Survey [Текст] / M. Crawshaw. — 09.2020.

65. Ruder, S. An Overview of Multi-Task Learning in Deep Neural Networks [Текст] / S. Ruder // ArXiv. — 2017. — Т. abs/1706.05098. — URL: https : //api.semanticscholar.org/CorpusID:10175374.

66. Bilen, H. Integrated perception with recurrent multi-task neural networks [Текст] / H. Bilen, A. Vedaldi // Advances in Neural Information Processing Systems. Т. 29 / под ред. D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, R. Garnett. — Curran Associates, Inc., 2016. — URL: https : / / proceedings.neurips.cc/paper files/paper/2016/file/ 0640966322 6af2f31144 85aa4e0a2~3b4-Paper.pdf.

67. Kendall, A. Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics [Текст] / A. Kendall, Y. Gal, R. Cipolla //. — 2018. — С. 7482—7491.

68. Kokkinos, I. UberNet: Training a Universal Convolutional Neural Network for Low-, Mid-, and High-Level Vision Using Diverse Datasets and Limited Memory [Текст] /1. Kokkinos // 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 2017. — С. 5454—5463.

69. Collobert, R. A unified architecture for natural language processing: deep neural networks with multitask learning [Текст] R. Collobert, J. Weston Proceedings of the 25th International Conference on Machine Learning. — Helsinki, Finland : Association for Computing Machinery, 2008. — С. 160-167. - (ICML '08). -URL: https : //doi . org/10 . 1145/ 1390156.1390177.

70. Multi-Task Learning for Multiple Language Translation [Текст] D. Dong, H. Wu, W. He, D. Yu, H. Wang //. - 01.2015. - С. 1723-1732.

71. Seltzer, M. L. Multi-task learning in deep neural networks for improved phoneme recognition [Текст] / M. L. Seltzer, J. Droppo // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. — 2013. —С. 6965-6969.

72. Regularized Hierarchical Policies for Compositional Transfer in Robotics [Текст] / M. Wulfmeier, A. Abdolmaleki, R. Hafner, J. T. Springenberg, M. Neunert, T. Hertweck, T. Lampe, N. Y. Siegel, N. Heess, M. A. Riedmiller// CoRR. — 2019. - Т. abs/1906.11228. — arXiv: 1906 . 11228. - URL: http://arxiv.org/abs/1906.1122 8.

73. Mask R-CNN [Текст] / K. He, G. Gkioxari, P. Dollar, R. Girshick // 2017 IEEE International Conference on Computer Vision (ICCV). — 2017. — С. 2980—2988.

74. Baxter, J. A Bayesian/Information Theoretic Model of Learning to Learn via Multiple Task Sampling [Текст] / J. Baxter // Machine Learning. — 1997. — С. 7-39.

75. Low Resource Dependency Parsing: Cross-lingual Parameter Sharing in a Neural Network Parser [Текст] / L. Duong, T. Cohn, S. Bird, P. Cook //. — 01.2015. —С. 845-850.

76. Yang, Y. Trace Norm Regularised Deep Multi-Task Learning [Текст] / Y. Yang, T. Hospedales. — 2016. — Июнь.

77. Long, M. Learning Multiple Tasks with Deep Relationship Networks [Текст] / M. Long, J. Wang. — 2015. — Июнь.

78. Kendall, A. PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization [Текст] / A. Kendall, M. Grimes, R. Cipolla //. — 12.2015. — С. 2938—2946.

79. Liu, S. End-To-End Multi-Task Learning With Attention [Текст] / S. Liu, E. Johns, A. J. Davison //. — 2019. - С. 1871-1880.

80. Reasonable Effectiveness of Random Weighting: A Litmus Test for Multi-Task Learning [Текст] / B. Lin, F. Ye, Y. Zhang, I. W. Tsang // arXiv preprint arXiv:2111.10603. — 2022.

81. Desideri, J.-A. Multiple-gradient descent algorithm for multiobjective optimization [Текст] / J.-A. Desideri // European Congress on Computational Methods in Applied Sciences and Engineering (ECCOMAS). — 2012.

82. Conflict-Averse Gradient Descent for Multi-task learning [Текст] / B. Liu, X. Liu, X. Jin, P. Stone, Q. Liu // Advances in Neural Information Processing Systems (NeurIPS). Т. 34. — Curran Associates, Inc., 2021. — С. 18878-18890.

83. Towards Impartial Multi-task Learning [Текст] / L. Liu, Y. Li, Z. Kuang, J.-H. Xue, Y. Chen, W. Yang, Q. Liao, W. Zhang //. - 2021.

84. Lee, H. Deep Asymmetric Multi-task Feature Learning [Текст] / H. Lee, E. Yang, S. Hwang. — 2017. — Авг.

85. Just Pick a Sign: Optimizing Deep Multitask Models with Gradient Sign Dropout [Текст] / Z. Chen, J. Ngiam, Y. Huang, T. Luong, H. Kretzschmar, Y. Chai, D. Anguelov // Advances in Neural Information Processing Systems (NeurIPS). Т. 33. — Curran Associates, Inc., 2020. — С. 2039—2050.

86. Multi-Task Learning as a Bargaining Game [Текст] / A. Navon, A. Shamsian, I. Achituve, H. Maron, K. Kawaguchi, G. Chechik, E. Fetaya // Proceedings of the 39th International Conference on Machine Learning (ICML). Т. 162. — PMLR, 2022. — С. 16428—16446. — (Proceedings of Machine Learning Research).

87. Peitz, S. Gradient-Based Multiobjective Optimization with Uncertainties [Текст] / S. Peitz, M. Dellnitz // NEO 2016. — Springer International Publishing, 09.2017. — С. 159—182. — URL: http : / / dx . doi . org /

10.1007/978-3-319-64063-1_7.

88. Poirion, F. Descent algorithm for nonsmooth stochastic multiobjective optimization [Текст] / F. Poirion, Q. Mercier, J.-A. Desideri // Computational Optimization and Applications. — 2017. — № 2. — С. 317—331.

89. Fliege, J. Steepest descent methods for multicriteria optimization [Текст] / J. Fliege, B. F. Svaiter // Mathematical Methods of Operations Research. — 2000. — Т. 51. — С. 479-494.

90. Schaffler, S. Stochastic Method for the Solution of Unconstrained Vector Optimization Problems [Текст] / S. Schaffler, R. R. Schultz, K. Weinzierl // Journal of Optimization Theory and Applications. — 2002. — Т. 114. — С. 209—222.

91. Kuhn, H. W. Nonlinear programming [Текст] / H. W. Kuhn, A. W. Tucker // Proceedings of the Second Berkeley Symposium on Mathematical Statistics and Probability. — University of California Press, 1951.

92. Sener, O. Multi-Task Learning as Multi-Objective Optimization [Текст] / O. Sener, V. Koltun // Advances in Neural Information Processing Systems (NeurIPS). Т. 31. — Curran Associates, Inc., 2018. - С. 527—538.

93. Schönemann, P. A generalized solution of the orthogonal procrustes problem [Текст] / P. Schönemann // Psychometrika. — 1966. — Т. 31, № 1. — С. 1—10.

94. Gradient Vaccine: Investigating and Improving Multi-task Optimization in Massively Multilingual Models [Текст] / Z. Wang, Y. Tsvetkov, O. Firat, Y. Cao//.-2021.

95. The Cityscapes Dataset for Semantic Urban Scene Understanding [Текст] / M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, B. Schiele // Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 2016.

96. Pyramid Scene Parsing Network [Текст] / H. Zhao, J. Shi, X. Qi, X. Wang, J. Jia //. - 2017. — С. 6230—6239.

97. Liu, S. End-To-End Multi-Task Learning With Attention [Текст] / S. Liu, E. Johns, A. J. Davison //. — 2019. - С. 1871-1880.

98. Hirschmuller, H. Stereo Processing by Semiglobal Matching and Mutual Information [Текст] / H. Hirschmuller // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2008. — Т. 30, № 2. — С. 328—341.

99. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning [Текст] / T. Yu, D. Quillen, Z. He, R. Julian, K. Hausman, C. Finn, S. Levine // Conference on Robot Learning (CoRL). — 2019.—URL: https://arxiv.org/abs/1910.108 97.

100. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor [Текст] / T. Haarnoja, A. Zhou, P. Abbeel, S. Levine // ICML. —2018.

101. Sodhani, S. Multi-Task Reinforcement Learning with Context-based Representations [Текст] / S. Sodhani, A. Zhang, J. Pineau // Proceedings of the 38th International Conference on Machine Learning. Т. 139 / под ред. M. Meila, T. Zhang. - PMLR, 18-24 Jul.2021. — С. 9767-9779. -(Proceedings of Machine Learning Research). — URL: https : / / proceedings.mlr.press/v139/sodhani21a.html.

102. Multi-Task Reinforcement Learning with Soft Modularization [Текст] / R. Yang, H. Xu, Y. Wu, X. Wang // Proceedings of the 34th International Conference on Neural Information Processing Systems. — Vancouver, BC, Canada : Curran Associates Inc., 2020. — (NIPS'20).

103. Nerf: Representing scenes as neural radiance fields forview synthesis [Текст] / B. Mildenhall, P. P. Srinivasan, M. Tancik, J. T. Barron, R. Ramamoorthi, R. Ng // ECCV. — 2020.

104. Modular Primitives for High-Performance Differentiable Rendering [Текст] / S. Laine, J. Hellsten, T. Karras, Y. Seol, J. Lehtinen, T. Aila // ACM Transactions on Graphics. — 2020. — Т. 39, № 6.

105. Kajiya, J. T. The rendering equation [Текст] / J. T. Kajiya // Proceedings of the 13th annual conference on Computer graphics and interactive techniques. — 1986. —С. 143-150.

106. Mitsuba 3 renderer [Текст] / W. Jakob, S. Speierer, N. Roussel, M. Nimier-David, D. Vicini, T. Zeltner, B. Nicolet, M. Crespo, V. Leroy, Z. Zhang. — Вер. 3.1.1. — 2022. — https://mitsuba-renderer.org.

107. Mip-nerf: A multiscale representation for anti-aliasing neural radiance fields [Текст] / J. T. Barron, B. Mildenhall, M. Tancik, P. Hedman, R. Martin-Brualla, P. P. Srinivasan // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2021. — С. 5855—5864.

108. Burley, B. Physically-based shading at Disney [Текст] / B. Burley, W. D. A. Studios // ACM SIGGRAPH. Т. 2012. - vol. 2012. 2012. — С. 1-7.

109. Hasselgren, J.Shape, Light, and Material Decomposition from Images using Monte Carlo Rendering and Denoising [Текст] / J. Hasselgren, N. Hofmann, J. Munkberg // Advances in Neural Information Processing Systems / под ред.

A. H. Oh, A. Agarwal, D. Belgrave, K. Cho. — 2022. — URL: https : / / openreview.net/forum?id=VAeAUWHNrty.

110. Phong, B. T. Illumination for computer generated pictures [Текст] /

B. T. Phong // Commun. ACM. - New York, NY, USA, 1975. — Июнь. -

Т. 18, № 6. — С. 311—317. — URL: https : / /doi . org / 10 . 1145/ 360825.360839.

111. Microfacet Models for Refraction through Rough Surfaces. [Текст]/B. Walter, S. R. Marschner, H. Li, K. E. Torrance // Rendering techniques. — 2007. — Т. 2007. - 18th.

112. Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [Текст] / T. Müller, A. Evans, C. Schied, A. Keller // ACM Trans. Graph. — New York, NY, USA, 2022. —Июль. - Т. 41, № 4. —102:1-102:15. -URL: https://doi.org/10.114 5/352 822 3.353012 7.

113. DIB-R++: Learning to Predict Lighting and Material with a Hybrid Differentiable Renderer [Текст] / W. Chen, J. Litalien, J. Gao, Z. Wang,

C. F. Tsang, S. Khalis, O. Litany, S. Fidler // Advances in Neural Information Processing Systems (NeurIPS). — 2021.

114. Differentiable Monte Carlo Ray Tracing through Edge Sampling [Текст] / T.-M. Li, M. Aittala, F. Durand, J. Lehtinen // ACM Trans. Graph. (Proc. SIGGRAPH Asia). — 2018. - Т. 37, № 6. — 222:1—222:11.

115. SDFDiff: Differentiable Rendering of Signed Distance Fields for 3D Shape Optimization [Текст] / Y. Jiang, D. Ji, Z. Han, M. Zwicker // The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 06.2020.

116. Differentiable Volumetric Rendering: Learning Implicit 3D Representations without 3D Supervision [Текст] M. Niemeyer, L. M. Mescheder, M. Oechsle, A. Geiger//CoRR. —2019. —Т. abs/1912.07372. — arXiv: 1912.07372.-URL:http://arxiv.org/abs/1912.07372.

117. FastNeRF: High-Fidelity Neural Rendering at 200FPS [Текст] / S. J. Garbin, M. Kowalski, M. Johnson, J. Shotton, J. P. C. Valentin // 2021 IEEE/CVF International Conference on Computer Vision (ICCV). — 2021. — С. 14326—14335. — URL: https : / / api . semanticscholar . org/ CorpusID:232270138.

118. NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections [Текст] / R. Martin-Brualla, N. Radwan, M. S. M. Sajjadi, J. T. Barron,

A. Dosovitskiy, D. Duckworth// CVPR. — 2021.

119. Niemeyer, M.GIRAFFE: Representing Scenes As Compositional Generative Neural Feature Fields [Текст] / M. Niemeyer, A. Geiger // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). -06.2021. — С. 11453-11464.

120. D-NeRF: Neural Radiance Fields for Dynamic Scenes [Текст] / A. Pumarola, E. Corona, G. Pons-Moll, F. Moreno-Noguer // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 06.2021. —С. 10318—10327.

121. KiloNeRF: Speeding Up Neural Radiance Fields With Thousands of Tiny MLPs [Текст] / C. Reiser, S. Peng, Y. Liao, A. Geiger // Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). — 10.2021. —С. 14335—14345.

122. NeRF++: Analyzing and Improving Neural Radiance Fields [Текст] / K. Zhang, G. Riegler, N. Snavely, V. Koltun // ArXiv. — 2020. — Т. abs/2010.07492. -URL: https : / / api . semanticscholar . org / CorpusID : 222380037.

123. Multiview Neural Surface Reconstruction by Disentangling Geometry and Appearance [Текст] / L. Yariv, Y. Kasten, D. Moran, M. Galun, M. Atzmon,

B. Ronen, Y. Lipman// Advances inNeural Information Processing Systems. — 2020. —Т. 33.

124. Oechsle, M. UNISURF: Unifying Neural Implicit Surfaces and Radiance Fields for Multi-View Reconstruction [Текст] /M. Oechsle, S. Peng, A. Geiger//2021 IEEE/CVF International Conference on Computer Vision (ICCV). — 2021. —

C. 5569—5579. —URL: https : / / api . semanticscholar . org/ CorpusID:233307004.

125. NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction [Текст] / P. Wang, L. Liu, Y. Liu, C. Theobalt, T. Komura, W. Wang // NeurIPS. - 2021.

126. Neural Reflectance Fields for Appearance Acquisition [Текст] / S. Bi, Z. Xu, P. P. Srinivasan, B. Mildenhall, K. Sunkavalli, M. Havsan, Y. Hold-Geoffroy, D. J. Kriegman, R. Ramamoorthi // ArXiv. — 2020. — Т. abs/2008.03824. — URL: https : / / api . semanticscholar . org / CorpusID : 221090788.

127. Two-shot Spatially-varying BRDF and Shape Estimation [Текст] / M. Boss, V. Jampani, K. Kim, H. P. Lensch, J. Kautz // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 2020.

128. Linear Light Source Reflectometry [Текст] / A. Gardner, C. Tchou, T. Hawkins, P. Debevec // ACM Transactions on Graphics. — 2003. — Май. — Т. 22.

129. Estimating Specular Roughness and Anisotropy from Second Order Spherical Gradient Illumination [Текст] / A. Ghosh, T. Chen, P. Peers, C. Wilson, P. Debevec // Comput. Graph. Forum. — 2009. — Июнь. — Т. 28. — С. 1161—1170.

130. Deep inverse rendering for high-resolution SVBRDF estimation from an arbitrary number of images [Текст] / D. Gao, X. Li, Y. Dong, P. Peers, K. Xu, X. Tong // ACM Transactions on Graphics (TOG). — 2019. — Т. 38. -

С. 1—15. — URL: https : / / api . semanticscholar . org / CorpusID:196834610.

131. MaterialGAN: Reflectance Capture using a Generative SVBRDF Model [Текст] / Y. Guo, C. Smith, M. Hasan, K. Sunkavalli, S. Zhao. - 09.2020.

132. Inverse Rendering for Complex Indoor Scenes: Shape, Spatially-Varying Lighting and SVBRDF From a Single Image [Текст] / Z. Li, M. Shafiei, R. Ramamoorthi, K. Sunkavalli, M. Chandraker // 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 2019. — С. 2472—2481. —URL: https : / / api . semanticscholar . org/ CorpusID:147704018.

133. Learning to reconstruct shape and spatially-varying reflectance from a single image [Текст] /Z. Li, Z. Xu, R. Ramamoorthi, K. Sunkavalli, M. Chandraker// ACM Transactions on Graphics (TOG). — 2018. — Т. 37. — С. 1-11. - URL:

https://api.semanticscholar.org/CorpusID:52841588.

134. Unified Shape and SVBRDF Recovery using Differentiable Monte Carlo Rendering [Текст] / F. Luan, S. Zhao, K. Bala, Z. Dong // Computer Graphics Forum. — 2021. — Т. 40. — URL: https : / / api . semanticscholar . org/CorpusID:232 4 04 668.

135. Sartor, S. MatFusion: A Generative Diffusion Model for SVBRDF Capture [Текст] / S. Sartor, P. Peers // SIGGRAPH Asia 2023 Conference Papers. — Sydney, NSW, Australia : Association for Computing Machinery, 2023. — (SA '23). — URL: https://doi.org/10.1145/361054 8.3618194.

136. Learning to Predict 3D Objects with an Interpolation-based Differentiable Renderer [Текст] / W. Chen, J. Gao, H. Ling, E. Smith, J. Lehtinen,

A. Jacobson, S. Fidler Advances In Neural Information Processing Systems.-2019.

137. Appearance-Driven Automatic 3D Model Simplification [Текст]

J. Hasselgren, J. Munkberg, J. Lehtinen, M. Aittala, S. Laine Eurographics Symposium on Rendering. — 2021. — URL: https : / / api .

semanticscholar.org/CorpusID:233204317.

138. NeRV: Neural Reflectance and Visibility Fields for Relighting and View Synthesis [Текст] P. P. Srinivasan, B. Deng, X. Zhang, M. Tancik,

B. Mildenhall, J. T. Barron // 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 2020. — С. 7491—7500. — URL:

https://api.semanticscholar.org/CorpusID:227348246.

139. NeRD: Neural Reflectance Decomposition from Image Collections [Текст] / M. Boss, R. Braun, V. Jampani, J. T. Barron, C. Liu, H. P. Lensch // IEEE International Conference on Computer Vision (ICCV). — 2021.

140. PhySG: Inverse Rendering with Spherical Gaussians for Physics-based Material Editing and Relighting [Текст] / K. Zhang, F. Luan, Q. Wang, K. Bala, N. Snavely // The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 2021.

141. NeRFactor: Neural Factorization of Shape and Reflectance Under an Unknown Illumination [Текст] / X. Zhang, P. Srinivasan, B. Deng, P. Debevec, W. Freeman, J. Barron. — 06.2021.

142. Extracting Triangular 3D Models, Materials, and Lighting From Images [Текст] / J. Munkberg, J. Hasselgren, T. Shen, J. Gao, W. Chen, A. Evans, T. Müller, S. Fidler // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2022. — С. 8280—8290.

143. Karis, B. Real shading in unreal engine 4 [Текст] / B. Karis, E. Games // Proc. Physically Based Shading Theory Practice. — 2013. — Т. 4, № 3. — С. 1.

144. Microfacet Models for Refraction through Rough Surfaces. [Текст]^. Walter, S. Marschner, H. Li, K. Torrance //. - 01.2007. — С. 195—206.

145. Monte Carlo Estimators for Differential Light Transport [Текст] / T. Zeltner, S. Speierer, I. Georgiev, W. Jakob // Transactions on Graphics (Proceedings of SIGGRAPH). - 2021. — Авг. — Т. 40, № 4.

146. Community, B. O. Blender - a 3D modelling and rendering package [Текст] / B. O. Community. — Stichting Blender Foundation, Amsterdam : Blender Foundation, 2018. — URL: http://www.blender.org.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.