Методы восстановления параметров сцены для решения проблемы реалистичной визуализации в системах смешанной реальности тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Сорокин Максим Игоревич
- Специальность ВАК РФ05.13.11
- Количество страниц 366
Оглавление диссертации кандидат наук Сорокин Максим Игоревич
Оглавление
Реферат
Synopsis
Введение
ГЛАВА 1 Аналитический обзор предметной области
1.1 AR/VR/MR системы. Понятие смешанной реальности
1.2 Особенности технологий Extended Reality
1.3 Сферы применения устройств Extended Reality
1.4 Типы устройств смешанной реальности и их проблемы
1.5 Понятие искусственных нейронных сетей и машинного обучения
1.6 Обзор существующих методов и решений обеспечения естественного восприятия виртуальных объектов
1.7 Выводы к 1 главе
ГЛАВА 2. Автоматическое формирование данных для систем обучения нейронных сетей и методы оценки корректности освещения виртуальных объектов в системах смешанной реальности
2.1 Программное средство реалистичного рендеринга "Lumicept"
2.2 Визуализации изображений и создание наборов данных с реалистичным освещением и автоматической маркировкой
2.3 Критерии оценки дискомфорта зрительного восприятия
2.3.1 Текстура синтезированного объекта
2.3.2 Яркость синтезированного объекта
2.3.3 Корректность освещения и тени
2.4 Метод оценки корректности освещения
2.5 Выводы ко 2 главе
ГЛАВА 3 Разработка метода восстановления координат источников освещения с использованием сверточных нейронных сетей, основанных на алгоритмах сегментации и восстановлении карт глубин помещений на предобученных весах RedNet
3.1 Вычисление карт глубин и сегментация объектов интерьерной сцены с использованием нейронных сетей
3.2 Выбор архитектуры и обучение нейронной сети
3.3 Визуализация виртуальных объектов после восстановления координат источников освещения
3.4 Выводы к 3 главе
ГЛАВА 4 Разработка методов и алгоритмов восстановления источников освещения на основе трассировки теневых лучей с использованием сверточных нейронных сетей
4.1 Метод восстановления источников света на основе анализа теней
4.2 Обучение нейронной сети для решения задачи обнаружения теней трехмерных объектов сцены
4.3 Определение контуров теней и объектов с использованием алгоритмов машинного зрения
4.4 Трассировка теневых лучей для восстановления координат источников освещения
4.5 Выводы к 4 главе
ГЛАВА 5 Разработка методов и алгоритмов восстановления световых характеристик сцены с использованием полносверточных нейронных сетей и программного комплекса реалистичного рендеринга
5.1 Сегментация изображений с целью анализа освещения сцены
5.2 Использование и обучение сверточной нейронной сети с архитектурой VGG16-NET для классификации видов освещения
5.3. Обучение полносверточной нейронной сети с архитектурой VGG16-NET на синтезированном наборе данных для классификации световых параметров сцены
5.4. Использование люксметра для калибровки изображений, полученных на выходе нейронной сети
5.5. Восстановление световых параметров сцены и формирование корректного освещения для виртуальных объектов в системах смешанной
реальности
5.6. Выводы к 5 главе
Заключение
Список литературы
Список рисунков
Приложение 1 Акты внедрения
Приложения 2 Тексты публикаций
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Методы и алгоритмы эффективной визуализации моделей трехмерных сцен на многопроцессорных рабочих станциях2020 год, кандидат наук Жданов Андрей Дмитриевич
Программные технологии автоматизации построения реалистичных изображений2012 год, доктор физико-математических наук Волобой, Алексей Геннадьевич
Методы и алгоритмы эффективного вычисления освещенности трехмерных виртуальных сцен в реальном режиме времени2011 год, кандидат физико-математических наук Мальцев, Андрей Валерьевич
Исследование и разработка алгоритмов, методов и программных средств для задач синтеза реалистичных изображений2005 год, кандидат физико-математических наук Волобой, Алексей Геннадьевич
Методы глобального освещения для интерактивного синтеза изображений сложных сцен на графических процессорах2013 год, кандидат технических наук Боголепов, Денис Константинович
Введение диссертации (часть автореферата) на тему «Методы восстановления параметров сцены для решения проблемы реалистичной визуализации в системах смешанной реальности»
Реферат
Краткая характеристика диссертации
Актуальность выбора темы диссертационного исследования заключается в растущей популярности систем "Extended reality" и новых сферах их применения. Под "Extended reality" подразумеваются системы виртуальной, дополненной и смешанной реальности. Если же для систем виртуальной реальности основные задачи были сосредоточены в визуализации объектов виртуального мира и основная проблема заключалась в реализме воспроизведения этого мира, то для более сложных систем, появляются новые проблемы, связанные с правильным восприятием виртуальных объектов в реальном окружении. Формирование естественных условий освещения для виртуальных объектов при добавлении их в реальное окружение является одной из таких проблем. Окружение реального мира всегда содержит источники освещения, которые могут быть естественными, например, солнце, и искусственными, например, фонари, лампы, прожекторы и т. п. Кроме того, в ряде случаев большую роль играет вторичное освещение, возникающее в результате переотражения света от объектов реальной сцены. При добавлении виртуального объекта в сцену реального мира, необходимо обеспечить его правильное освещение. Виртуальный объект должен быть освещен со стороны источника света и отбрасывать тень в противоположную сторону. Кроме того, виртуальный объект должен естественным образом влиять на окружающий мир, т. е. освещать его собственным или отраженным светом, отражаться в зеркалах, затенять объекты реального мира и т. п. Появление некорректностей в модели освещения виртуальных объектов вызывает дискомфорт восприятия реальности, в котором смешаны объекты реального и виртуального миров, и ограничивает время возможного пребывания человека в смешанной реальности. А поскольку системы дополненной и смешанной реальностей приобретают все большее практическое значение, например, в образовании, когда обучающиеся ставят эксперименты и получают результаты на
виртуальном оборудовании, или при проектировании сложных устройств, которые надо вписать и согласовать с реальным окружением, необходимо обеспечить максимальную эргономичность работы данных систем.
Степень разработанности проблемы. Большой вклад в теорию развития машинного обучения внесли Ян Лекун и Алекс Крижевский; в развитие архитектур нейронных сетей, для восстановления карт глубин и семантического анализа изображений - Дэвид Эйген, Кристиан Перш, Роб Фергус; в развитие методов и алгоритмов восстановления и классификации источников освещения - Холд-Жоффруа, Жан-Франсуа Лалонд, Алексей Эфрос.
Практический вклад для достижения естественного восприятия в системах смешанной реальности вносят такие компании, как: Microsoft, Samsung, Apple, Magic Leap, Scanta, Niantic, VR Vision Inc, 8ninths.
Передовыми решениями являются такие устройства смешанной реальности, как: HoloLens 2, Lightfield, AjnaLens, One, но даже они обладают недостатками и не решают проблемы правильного взаимодействия между реальным и виртуальным мирами в полной степени. Данные решения плохо справляются со сложными сценами с многочисленными источниками освещения.
Предметом исследования являются методы и алгоритмы сбора и обработки информации с цифровых изображений сцены, а также программное обеспечение и технологии управления на их основе.
Объектом исследования является разработка высокоскоростных алгоритмов определения оптических параметров и источников освещения для систем смешанной реальности.
Методы исследования включают методы и алгоритмы обработки и анализа цифровой информации сцены, построение систем смешанной реальности, создание наборов данных, разработка и выбор архитектур нейронных сетей для обучения.
Целью исследования является формирование условий естественного восприятия виртуальных объектов в различного рода устройствах смешанной реальности.
Решаются следующие задачи:
• Анализ существующих методов и алгоритмов, используемых для обеспечения правильного освещения виртуальных объектов и их применения в системах смешанной реальности.
• Реализация алгоритмов автоматического создания и разметки набора RGBD изображений, формируемых системами смешанной реальности, для обучения нейронных сетей и оценки качества визуального восприятия виртуальных объектов в данных системах.
• Реализация метода восстановления координат источников освещения реального мира для систем смешанной реальности на основе алгоритмов машинного обучения и нейронных сетей.
• Реализация метода теневой трассировки лучей для восстановления координат источников освещения систем смешанной реальности, основанного на обработке RGBD изображения сцены и использования сверточных нейронных сетей для определения координат теней на изображении.
• Реализация метода восстановления оптических параметров сцены реального мира, обеспечивающего естественные условия освещения виртуальных объектов в системе смешанной реальности с использованием сверточных нейронных сетей.
Новизна и практическая значимость. Научная новизна исследования заключается в разработке методов и алгоритмических решений, позволяющих с помощью полносверточных нейронных сетей не только находить координаты источников света, находящихся в прямой видимости камеры, но и выявлять ложные источники света (блики), определять световые характеристики источников света и производить классификацию и оценку оптических параметров объектов сцены. В разработке методов и
алгоритмических решений, позволяющих с помощью сверточных нейронных сетей производить анализ RGBD изображения сцены, детектировать контуры объектов и их теней и на этой основе находить координаты источника света, не находящегося в поле зрения камер системы смешанной реальности. В разработке высокоэффективных методов обработки и восстановления светооптических характеристик реального мира, позволяющих повысить реалистичность отображения объектов виртуального мира, и разработке вычислительной архитектуры и тестировании ее прототипа с целью подтверждения возможности реализации разработанных алгоритмов для встроенных систем дополненной и смешанной реальностей. Практическая значимость исследования заключается в разработке программных решений, которые могут быть установлены на встроенных вычислительных системах видео-прозрачных очков дополненной реальности, что позволит создать естественные условия освещения виртуальных объектов, повысить комфорт их зрительно восприятия, снизить утомляемость пользователя и повысить время его комфортного пребывания в среде смешанной реальности. Кроме того, разработанные программные решения могут быть реализованы в виде приложений смешанной реальности на планшетах и смартфонах, формирующих условия естественного восприятия объектов виртуального мира. Повышение реализма зрительного восприятия, снижение утомляемости и увеличение времени пребывания в среде смешанной реальности открывают новые возможности для более широкого применения разработанных решений как в производственной сфере при проведении сервисных и инжиниринговых работ, в которых появляется возможность совмещения реального и требуемого состояния элементов конструкций и механизмов, так и в социальной сфере, например, для создания образовательного контента, для виртуального воссоздания исторических зданий, памятников и артефактов, для решения задач архитектурного строительства и дизайна, для выхода игровой индустрии на новый уровень реализма.
Ценность научных работ. Содержание диссертационного исследования отражено в 17 статьях по теме исследования. Ценность научных работ подтверждается участием в грантах и апробацией полученных результатов на 16 научных отечественных и международных конференциях. Публикации соискателя направлены на обеспечение естественного освещения виртуальных объектов в системах смешанной реальности, позволяющих снизить утомляемость пользователей системах данного типа, что на данный момент является актуальной темой исследования в области проектирования систем смешанной реальности. В работах представлены новые эффективные методы и алгоритмы, позволяющие восстановить условия естественного освещения виртуальных объектов в системах смешанной реальности. Полученные результаты исследований углубляют знания в области обеспечения комфортного пребывания человека в системах смешанной реальности с использованием алгоритмов машинного обучения и компьютерного зрения. Результаты, отраженные в научных работах соискателя, внедрены в ряде организаций и предприятий, в частности иностранных, для повышения качества визуализации виртуальных объектов и автоматического формирования наборов данных с реалистичным физически-корректным освещением.
На защиту выносятся:
• Метод восстановления координат источников освещения с использованием сверточных нейронных сетей способом обучения без учителя.
• Метод восстановления координат источников освещения на основе анализа RGBD изображений, с использованием сверточных нейронных сетей для восстановления положений объектов и их теней.
• Метод восстановления оптических параметров сцены, находящихся в прямой видимости системы смешанной реальности, с использованием сверточных нейронных сетей.
Соответствие паспорту специальности. Исследование посвящено созданию методов и алгоритмов восстановления оптических параметров сцены для обеспечения естественного визуального восприятия в системах смешанной реальности, что соответствует пункту 7 области исследований «Человеко-машинные интерфейсы; модели, методы, алгоритмы и программные средства машинной графики, визуализации, обработки изображений, систем виртуальной реальности, мультимедийного общения» паспорта специальности 2.3.5 «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей».
Апробация работы. Результаты исследования апробированы в 20 докладах на 16 всероссийских и международных научных и научно-исследовательских семинарах и конференциях:
• «IX Научно-практическая конференция молодых ученых», Санкт-Петербург, 2018;
• «XLVII научная и учебно-методическая конференция Университета ИТМО», Санкт-Петербург, 2018;
• «VII Конгресс молодых ученых (КМУ)», Санкт-Петербург, 2018;
• «The Majorov International Conference on Software Engineering and Computer Systems (MICSECS 2018)», Санкт-Петербург, 2018;
• «XLVIII научная и учебно-методическая конференция», Санкт-Петербург, 2018;
• «XLVIII Научная и учебно-методическая конференция Университет ИТМО», Санкт-Петербург, 2019;
• «EVA 2019 SAINT PETERSBURG Electronic Imaging & the Visual Arts conference», Санкт-Петербург, 2019;
• «29-я международная конференция по компьютерной графике и машинному зрению ГрафиКон-2019 (GraphiCon-2019)», Брянск, 2019;
• «11th Majorov International Conference on Software Engineering and Computer Systems (MICSECS 2019)», Санкт-Петербург, 2019;
• «XLIX научная и учебно-методическая конференция университета ИТМО», Санкт-Петербург, 2020;
• «IX Конгресс молодых ученых (КМУ)», Санкт-Петербург, 2020;
• «30-я международная конференция по компьютерной графике и машинному зрению ГрафиКон-2020 (GraphiCon-2020)», Санкт-Петербург, Россия, 2020;
• «SPIE/COS Photonics Asia Digital Forum 2020», Пекин, Китай, 2020;
• «X конгресс молодых ученых (КМУ)», Санкт-Петербург, 2021;
• «SPIE Optical Systems Design (EOD21)», Мадрид, Испания, 2021;
• «31-я международная конференция по компьютерной графике и машинному зрению ГрафиКон-2021 (GraphiCon-2021)», Нижний Новгород, 2021.
Степень достоверности результатов проведенных исследований.
Достоверность результатов подтверждается современными методами анализа предмета исследования, обработкой и систематизацией полученной информации, участием в научных проектах и грантах, которые соответствуют сформулированным целям и задачам. Выводы и научные положения подкреплены информативностью текста, таблицами и рисунками. Теория и полученные результаты не противоречат работам других исследователей в данной сфере. Диссертационное исследование содержит список использованных источников с более чем 100 наименований. Результаты работы нейронных сетей проверены с использованием тестовых наборов данных, полученных в компьютерной системе фотореалистичной визуализации и физически корректного оптического моделирования Lumicept, прошедшей апробацию на системе тестов, разработанных МКО (Международная Комиссия по Освещению, франц. CIE - Commission internationale de l'éclairage). Использование системы Lumicept позволяет
моделировать RGB и RGBD изображения сцены, дополненные информацией о геометрии, соответствующие визуальному восприятию виртуальных объектов в системах смешанной реальности. Было проведено сравнение результатов с эталонными значениями, полученными при расчете освещения при виртуальном прототипировании и проведено сравнение полученных распределений яркостей изображений с данными, полученными с использованием специальных устройств для измерения освещенности, такими как люксметры. Результаты исследования прошли апробацию на научных конференциях и опубликованы в научных трудах.
Внедрение результатов работы. Результаты, полученные при написании данной диссертационной работы, были использованы в следующих проектах:
• проект Университета ИТМО № 619296 «Разработка методов создания и внедрения киберфизических систем»;
• проект Российского Научного Фонда № 18-79-10190 «Разработка методов, алгоритмов и вычислительной архитектуры для восстановления светооптических параметров реального окружения в системах дополненной и смешанной реальностей»;
• проект РНФ № 18-79-10190 «Разработка методов, алгоритмов и вычислительной архитектуры для восстановления светооптических параметров реального окружения в системах дополненной и смешанной реальностей»;
• проект РФФИ № 18-08-01484 «Построение модели адаптивной системы динамической вергенции-аккомодации для устройств виртуальной и дополненной реальности».
Разработанные в диссертационном исследовании методы используются в университете имени М.В. Келдыша для формирования естественного восприятия и повышения скорости визуализации реалистичных изображений компьютерными моделями систем смешанной реальности. Также, методы восстановления оптических параметров сцены и координат источников
освещения используются компанией «AW OPTICS LIMITED» для визуализации виртуальных объектов, соответствующих освещению реальной среды и компанией «Shanghai Aozhan Intelligent Technology Co., Ltd» для автоматической разметки при формировании наборов данных сцен с реалистичным освещением.
Публикации. Основное содержание диссертации опубликовано в 17 статьях, из них 8 публикаций в изданиях, рецензируемых Web of Science или Scopus, 4 публикаций в журналах из перечня ВАК.
Личное участие соискателя в получении результатов, изложенных в диссертации. Личный вклад соискателя заключается в анализе научных отечественных и зарубежных работ с целью постановки актуальности, определении цели и задач диссертационного исследования. В проектировании и реализации методов и алгоритмов восстановления оптических параметров и источников освещения, основанных на использовании технологии нейронных сетей, и разработке алгоритма теневой трассировки лучей для восстановления естественных условий освещения виртуальных объектов в различных системах смешанной реальности. Представленные в данном диссертационном исследовании результаты принадлежат автору, которые он неоднократно представлял на научных форумах и конференциях. Соискатель участвовал в подготовке публикаций по теме исследования, а также в сборе и обработке исходных данных.
Вклад Жданова Д.Д. заключается в общем научном руководстве диссертационного исследования.
Вклад Жданова А.Д. заключается в разработке методов и алгоритмов эффективной реалистичной визуализации моделей трехмерных сцен и эффективной параллельной обработке на современных многопроцессорных станциях.
Вклад Потемина И.С., Богданова Н.Н. в проектировании оптических систем освещения и дизайне трехмерных моделей сцен.
Вклад Ершова С.В., Волобоя А.Г. и Барладян Б.Х. заключается в разработке модели зрительного восприятия глаза человека и модели конфликта вергенции-аккомодации зрения.
Структура диссертационного исследования. Данное диссертационное исследование состоит из введения, пяти (5) глав, заключения, списка цитируемой литературы, списка рисунков и двух приложений. Материал диссертации, включая реферат, изложен на триста шестидесяти пяти (365) страницах, содержит семьдесят пять (75) рисунков, три (3) таблицы и список цитируемой литературы из ста девяти (109) наименований.
Краткое содержание диссертации
Во введении данного диссертационного исследования формируются цели и задачи диссертации, а также научная новизна и защищаемые положения. Приводится актуальность, практическая и научная значимость.
Первая глава посвящена анализу существующих программных и алгоритмических решений, направленных на решение проблем дискомфорта зрительного восприятия в системах смешанной реальности и формирование условий естественного восприятия виртуальных объектов в различного рода устройствах смешанной реальности. В данной главе приведен обзор предметной области и рассмотрены какие существуют устройства изменения реальности (Extended Reality), их особенности, преимущества, недостатки, существующие проблемы и методы их решения.
Анализ, обработка, восстановление геометрии и оптических параметров сцены - это нетривиальная задача. На данный момент существует множество работ, направленных на работу с освещением. Среди них встречаются те, которые восстанавливают интенсивность каждого пикселя изображения и основываясь на яркости и интенсивности, а также на значениях соседних пикселей делают выводы о принадлежности данного участка к одному из классов. Например, в работе [39] представлен метод анализа освещения на открытом пространстве с использованием полносверточной сети.
Освещение важно для правильной визуализации виртуальных объектов в реальном мире, особенно в случае приложений AR/MR. Важным вкладом в MR-освещение является отражение реального окружения на виртуальных объектах. Следовательно, для правильного рендеринга необходимо учитывать окружающую среду. Работы [33], [83], [87], [92] направлены на обнаружение и сегментацию объектов интерьерной сцены с использованием сверточных нейронных сетей.
Текстуры окружения используются для освещения виртуальных объектов в виртуальной сцене. Использование этих текстур имеет решающее значение для формирования качественного освещения и отражения. В статье [81] был представлен подход восстановления информации об освещении с использованием кубических карт. Кубические карты улучшаются с каждым кадром и передаются в нейронную сеть для оценки недостающих частей. На выходе нейронной сети информация о недостающих частях освещения объединяется с текущим кадром, чтобы сделать возможным визуализацию зеркальных отражений даже на мобильных устройствах.
Алгоритм, представленный в работе [56] в качестве входных данных получает на вход панорамные изображения под открытым небом, анализирует окружение и встраивает виртуальные объекты в это окружение реального мира.
В работе [31] представлен алгоритм, который восстанавливает тени виртуальных объектов в соответствии с реальным окружением. В работе [61] представлена архитектура нейронной сети, которая позволяет определить место положения объекта.
Для прогнозирования глубины, сегментации и оценки нормалей предлагаются архитектуры, представленные в работе [26].
Синтезированные изображения с реалистичным освещением формируются с использованием методов стохастической трассировки лучей, поэтому, как и изображения, полученные с видеокамер содержат шум. Существует множество алгоритмов фильтрации, например "Canny Edge
Detector" или "Sobel", однако они не всегда эффективны, наиболее эффективным будет использование фильтров, встроенных в процесс трассировки лучей [10], [31].
В работе [58] обучена нейронная сеть для вывода естественного изображения высокого динамического диапазона с камеры мобильного телефона с ограниченным полем обзора. Для тренировочных данных использовались видео данные с различными отражающими сферами, помещенными в поле зрения камеры. Обучаясь на видео с автоматической экспозицией и балансировкой белого, были достигнуты результаты реалистичной визуализации объектов для мобильных приложений.
Как и данное диссертационное исследование, работы [16], [38], [74], [29] направлены на восстановление параметров освещения для систем дополненной реальности, но для других задач.
Авторы работы [79] представляет метод оценки освещения смешанной реальности, основанный на использовании сверточных нейронных сетей. Для легкой адаптации и развертывания системы сверточные нейронные сети обучаются на синтезированных данных и применяются на реальных изображениях. Для эффективности параметры освещенности оценивается несколькими нейронными сетями. Результаты показывают, что можно получить достаточно точные оценки на реальных изображениях.
Тени добавляют для придания реалистичности освещения виртуальных объектов и создания естественных условий их зрительного восприятия и по этой причине правильные тени важны в современных приложениях реального времени. В работе [35] предложен метод, позволяющий восстанавливать естественные тени виртуальных объектов в приложениях дополненной реальности. В работе [89] предложен метод восстановления теней, естественных для восприятия, с помощью анализа окружения при работе с приложениями дополненной реальности. В данном методе используется купол с источниками света. Цвет определяется областью среды
за источником освещения, после восстановления освещения визуализируются правильные тени.
В работе [27] используются порталы, окклюзии и методы отбора усеченного вида для улучшения алгоритма восстановления теневых участков, позволяя избежать визуализацию ненужных теней. В данной работе используется язык затенения nVIDIA Cg [49], [71].
В статье [41] описывается подход к рендерингу цветных изображений для приложений смешанной реальности. Подход состоит из двух шагов. Первый шаг использует метод фотометрического стерео на основе нейронной сети для одновременного получения как трехмерной модели, так и коэффициентов отражения, учитывающих свет объекта. Второй шаг использует рендеринг для создания реалистичных виртуальных изображений с произвольной точки обзора и направления источника света. Предлагаемый подход позволяет достичь высокого качества трехмерного моделирования реальных объектов и последующей визуализации виртуальных изображений на основе эмпирических измерений.
Авторы работы [72] представили подход восстановления освещения и поверхности материалов по случайно-отсканированной геометрии. С помощью датчика RGB-D выполняется быстрая шумная процедура сканирования, в отличии от процедур реконструкции, которые требуют больших вычислительных мощностей. Восстановленная геометрия сегментируется и вычисляется яркость, что позволяет восстанавливать свойства зеркальных отражений. Результаты могут использоваться в разных приложениях, включая визуализацию сцен с естественным параметрами освещения, либо частичная визуализация сцены. Однако к минусам данного метода можно отнести жесткие ограничения на сканирующее устройство и необходимость динамической геометрической реконструкции и информации о переносе светового излучения для каждого момента времени.
Работы [1], [3], [4] восстанавливают параметры освещения по HDRI изображениям. Методы, предложенные в данных работах позволяют
выделять яркие участки наблюдаемой сцены, которые могут содержать блики и тени. Однако для систем смешанной реальности, для нахождения естественного освещения лучше использовать датчики, позволяющие по широте, долготе, дате и времени найти положение солнца.
У всех рассмотренных выше работ существует большой недостаток. Они не восстанавливают координаты источников света и плохо справляются с ситуациями, когда сцена содержит много источников освещения. Главная цель диссертационного исследования — это восстановление оптических параметров сцены и координат источников света для дальнейшей правильной визуализации виртуальных объектов.
В рамках первой главы диссертационного исследования были даны определения систем виртуальной дополненной и смешанной реальности, рассмотрены области их применения, проблемы, с которыми сталкиваются пользователи данных система, а также была исследована актуальность и используемые на данный момент алгоритмы для обеспечения естественного восприятия виртуальных объектов в устройствах смешанной реальности. Были сделаны выводы о достоинствах и недостатках существующих программных и алгоритмических решений, которые должны учитываться при разработке новых методов восстановления оптических параметров сцены для обеспечения естественного восприятия виртуальных объектов, и сформулированы основные задачи и цели диссертационной работы.
Вторая глава диссертационного исследования рассматривает формирование критериев оценки качества естественного визуального восприятия в системах смешанной реальности, что в первую очередь включает в себя создание синтезированного набора данных для обучения нейронной сети.
Первостепенной задачей в построении метода оценки корректности освещения виртуальных объектов является формирование набора сцен с разными заданными параметрами освещения. Это позволит провести синтез (визуализацию) изображений с естественным и некорректным освещением
ряда виртуальных объектов. Цель данной главы заключается в автоматическом формировании наборов данных с различными оптическими параметрами сцены, а также выявлении и формулировании основных критериев и факторов, которые позволят снизить утомляемость оператора при добавлении виртуальных объектов в системах смешанной реальности.
В качестве критериев качества зрительного восприятия предлагается использовать оценки несовпадения параметров теней от виртуальных объектов и распределения яркости этих объектов в изображениях сцен, содержащих модели "реальных" и "виртуальных" объектов. Уровень несоответствия оценивается по отношению к истинным условиям освещения реального мира.
Для физически корректного оптического моделирования 3D сцен используется программный комплекс "Lumicept", который сочетает в себе функции редактирования окружения сцены и управления поведением света. Данное программное обеспечение предлагает мощные инструменты для моделирования поведения и распространения излучения света в 3 D пространстве и является мощным инструментом для инженеров и дизайнеров в области оптики.
Основная цель главы два диссертационного исследования — создать наборы изображений для обучения нейронных сетей, что включает в себя разработку алгоритма автоматического перемещения по сцене, визуализацию реалистичных изображений и их автоматическую разметку. Необходимо разработать алгоритм движения наблюдателя (камеры) по сцене.
Главная идея алгоритма заключается в перемещении камеры по всему доступному пространству комнаты, проверка на наличие препятствий, синтез изображения и его автоматическая разметка. Если в поле зрения камеры обнаруживается препятствие, то наблюдатель обходит его.
Алгоритм движения наблюдателя по сцене Lumicept представлен на Рисунке 1.
Рисунок 1 - Алгоритм движения наблюдателя по сцене
Для создания методики оценки корректности освещения в интерьерных сценах, было решено выбрать метод опроса (проведение тестирования). Сформированные данные оценок позволяют создать метрику оценки с точки зрения естественности зрительного восприятия «хорошо/плохо», а также сформировать основные факторы, вызывающие зрительный дискомфорт при работе с системами смешанной реальности.
Проведённый опрос состоял из трёх рубрик, каждая из трёх вопросов и была посвящена отдельным темам:
1) Положение источника света;
2) Тени;
3) Тип источника света и испускаемая мощность.
Каждый элемент опросного листа сопровождался двумя изображениями с четырьмя вариантами ответов:
1) 1 вариант комфортен;
2) 2 вариант комфортен;
3) Оба варианта комфортны;
4) Оба варианта некомфортны.
Требовалось ответить, вызывают ли какие-то из изображений проблемы с восприятием виртуального объекта в сцене, кажутся ли они достаточно естественными. Никакой более информации не предоставлялось. Опрашиваемые не знали, на каких изображениях проводилось физически корректное освещение, а на каких добавлялись инородные объекты или иные параметры освещения.
На Рисунках 2 и 3 представлена пара изображений и результаты опроса, предоставляемых экспертам и результаты ответов. Первое изображение содержало лампу, при этом свет испускался из камеры. Второе же изображение имело полностью корректное освещение.
Рисунок 2 - Пара изображений, предоставляемых экспертам
Результаты следующие:
ф Вариант 1
# Вариант 2
# Оба варианта ком<рортгиы
# Оба варианта некомфортны
Рисунок 3 - Результаты опроса
Результаты первой рубрики тестирования явно показывают, что правильное направление освещения объекта смешанной реальности играет значительную роль.
В общем случае опрошенные хорошо отличали физически корректное освещение от некорректного. Однако не было отмечено особого дискомфорта от восприятия инородных объектов, если их освещение было равномерным: например с источником света над объектом или из центра камеры.
Вторая рубрика позволила сделать вывод, что опрошенные испытывают серьёзный дискомфорт от восприятия объекта, который не имеет тени. Люди достаточно хорошо видят разницу между корректными и некорректными тенями.
Наличие правильной тени от объекта значительно упрощает восприятие, однако тени желательно иметь «мягкие» и небольшие (если они не соответствуют реальному освещению), чтобы они не забирали на себя большее внимание, чем на сам объект.
Результаты опроса по третьей рубрике открыли иную сторону причин дискомфорта: разительный контраст между яркостями виртуальных и реальных объектов. Особенность наблюдается в том, что даже если сама сцена содержит недостаточную или избыточную освещённость, виртуальные объекты должны учитывать это и иметь близкую яркость, чтобы не выделяться на ярком или темном фоне.
В рамках диссертационного исследования были реализованы алгоритмы и методы, с помощью которых пользователь может параметрическим образом контролировать формирование необходимого ему набора данных. Также в результате работы на базе программного комплекса Lumicept были сформированы и настроены тестовые интерьерные сцены. Были визуализированы различные изображения как с естественным освещением, так и некорректным для ряда объектов в сцене. Были выявлены проблемы и особенности построения таких сцен. Была предложена методика и построена
система тестов, показывающая зависимость зрительного восприятия от условий освещения сцены и отклонения этих условий от естественных. Полученные результаты экспертной оценки дали возможность сформулировать базовые характеристики для построения метрики для анализа «хорошо/плохо» с точки зрения естественности восприятия.
По результатам исследования, представленного в этой главе были выполнены задачи автоматического формирования данных и были сформулированы основные факторы, влияющие на зрительное восприятие при добавлении виртуальных объектов в системы смешанной реальности.
Результаты, представленные в данной главе подтверждены публикациями [1], [4], [11], [7], [9].
В третьей главе диссертационного исследования поставлена цель реализовать такую архитектуру нейронной сети, которая на вход принимает изображение сцены и ее карту глубины, а на выходе восстанавливает координаты источников освещения. Данная архитектура нейронной сети использует наборы данных, полученные в предыдущей главе для проверки результатов работы и должна обучаться без учителя, поскольку способ обучения без учителя на данных момент наиболее перспективен и продуктивен.
Вычисление карт глубин является важным компонентом понимания геометрии сцены. На данный момент представлены работы [25], [54, 55], которые решает эту задачу, используя два глубоких сетевых стека: один, который делает грубое глобальное предсказание на основе всего изображения, а другой, который уточняет это предсказание локально. В качестве обучающих данных используются такие большие датасеты как KITTI или NYU Depth. Пример семантической сегментации интерьерного помещения представлен на Рисунке 4, который включает в себя оригинальное изображение, карту глубины и сегментированное изображение.
Рисунок 4 - Семантическая сегментация интерьерной сцены (Рисунок
заимствован из работы [42])
За основу взята реализация нейронной сети "RedNet" [42], архитектура которой представлена на Рисунке 5. В задачу нейронной сети RedNet входит сегментация объектов помещения, что можно использовать для определения источников освещения сцены методом без учителя, добавлением нескольких дополнительных слоев. Данный метод анализирует и берет в расчет те участки сцены, где может быть освещение, например: стены, потолок, и отбрасывает те участки, где источника освещения точно быть не может, что позволяет работать с любыми изображениями помещений. Другими словами, дополнительный слой обработки изображений восстанавливает все яркие участки на изображении, вычитая блики и диффузные отражения, т. е. те места, где источника освещения быть не может (классифицированные объекты) и использует полученную маску с источниками освещения для обучения нейронной сети на обычных изображениях с комнатным освещением.
Рисунок 5 - Архитектура нейронной сети RedNet (Рисунок заимствован
из работы [63])
Архитектура нейронной сети имеет две сверточные ветви, то есть ветвь RGB и ветвь глубины. Первые четыре слоя нейронной сети являются кодировщиками. Структуры обеих ветвей энкодера могут быть заимствованы из одной из пять архитектур ResNet, предложенных в [94], в которых удаляются последние два уровня ResNet, то есть уровень глобального среднего пула и полносверточный уровень. Ветвь RGB и ветвь глубины в модели имеют одинаковую конфигурацию сети, за исключением того, что ядро свертки Conv1_d на ветви глубины имеет только один канал функции, поскольку вход глубины представлен как один канал "grayscale". Энкодер начинается с двух операций субдискретизации: сверточного слоя 7 х 7 с шагом два и слоя максимального объединения 3 х 3 с шагом два. Этот максимальный пул - единственный уровень пула во всей архитектуре, все другие операции субдискретизации и повышения дискретизации в сети реализуются с помощью двухшаговой свертки и транспонирования свертки. Выход нейронной сети реализован в виде бинарной классификации, где выделены координаты предсказанных источников освещения и их карта глубины.
Данный метод с предобученными весами RedNet представлен на Рисунке 6.
Рисунок 6 - Архитектура нейронной сети для определения координат источников освещения с предобученными весами RedNet
Выбор функции потерь, или функции ошибки чрезвычайно важно при проектировании сложных архитектур глубокого обучения, поскольку они инициируют процесс обучения. Эти функции потерь можно разделить на 4 категории: на основе распределения, на основе регионов, на основе границ и составные. Алгоритмы глубокого обучения используют метод стохастического градиентного спуску для оптимизации цели. В данной главе используется "binary crossentropy" функция потерь, которая используется в задачах двоичной классификации. Сигмоид - единственная функция активации, совместимая с бинарной функцией потерь кроссэнтропии. Точность классификации на проверочных данных составила 98%, а значение ошибки - 0.03%. Пример результатов работы нейронной сети представлен на Рисунке 7. Слева направо представлены оригинальное изображение, предсказанное нейронной сетью изображение и эталонное изображение.
Рисунок 7 - Результаты работы нейронной сети
После восстановления координат источника освещения можно выполнить процесс визуализации виртуальных объектов на основе новой полученной информации об освещении. На Рисунке 8 представлена визуализация виртуального объекта (стола) с естественных освещением.
Рисунок 8 - Естественное освещение виртуального объекта
Метод, предложенный в этой главе, позволяет работать с различными типами источников света. Сравнительный эксперимент показывает, что предлагаемая архитектура позволяет достичь корректных результатов на различных наборах данных и позволяет получить координаты источников освещения, не зависимо от того, как много их в сцене. Полученные координаты источников освещения в дальнейшем используются для рендеринга реалистичного освещения виртуальных объектов сцены.
По результатам исследования, представленного в этой главе, было установлено, что метод восстановления источников освещения с использованием сверточных нейронных сетей способом обучения без учителя, основанный на алгоритмах сегментации и восстановлении карт глубин помещений позволяет определять координаты источников освещения и обеспечить естественные условия освещения.
Результаты, представленные в данной главе подтверждены публикациями [1], [2], [5], [15], [16], [17].
Четвертая глава диссертационного исследования заключается в создании методов определения источников освещения сцены, базируясь на информации о координатах теней и координатах объектов, отбрасывающих эти тени. Данный метод основывается на нахождении области каустики, полученной при формировании лучей, проходящих через координаты теней и объектов. Использование сканеров или лидаров [19], [52], [105] позволит восстанавливать глубину изображений, что можно использовать при восстановлении координат объектов, теней и источников освещения. На Рисунке 9 представлено наглядное изображение метода восстановления источников света по координатам объектов и их теней.
Са<л»га
Рисунок 9 - Наглядное изображение метода восстановления источников
света по тени объектов
Данный метод состоит из двух основных этапов. Первый этап заключается в обучении нейронной сети восстановлению границ объектов и теней ЯОВБ изображений, второй этап заключается в использовании алгоритмов машинного зрения для восстановления положения источников освещения.
Предложенный алгоритм можно описать следующими шагами:
• Получение информации с датчика ЯОВБ устройства (изображение и карта глубин).
• Формирование облака точек, для получения информации о состоянии и ориентации устройства смешанной реальности.
• Восстановление теневых областей изображения.
• Идентификация объектов на изображении. Определение физических и световых границ объектов.
• Сохранение координат всех точек объектов и теней.
• Формирование лучей, исходящих из разных точек тени и объекта. Образуются пары несопряженных лучей и выполняется поиск точки на отрезке с минимальным расстоянием, соединяющие эти лучи.
• Формируется пространственная структура для определения плотности облака точек.
• Анализ областей плотности. Для каждой плотности берется средняя точка за положение источника света.
• Проверяется правильность определения точек. Для этого от источника света на границе тени формируются лучи и оценивается отклонение координат. Если отклонение оказывается в пределах допуска, то найденная точка принимается за точку источника освещения, в другом случае, источник света считается ложным и не берется в расчет.
Набор данных для обучения нейронной сети состоит из 4089 пар изображений теней и их масок, а тестовый из 638. На Рисунке 10 представлены результаты работы нейронной сети. Слева оригинальные изображения, подающиеся на вход, далее предсказанные нейросетью, и эталонные изображения.
ORIGINAL PREDICTED TRUE_CLASS
Рисунок 10 - Результаты работы нейронной сети
Полученные изображения могут содержать большой шум. Для восстановления первоначальных контуров использовался алгоритм "Canny
Edge Detection". Однако после данного алгоритма, границы объекта все еще остаются грубыми, поэтому также использовались алгоритмы «Gaussian Smoothing» и морфологическая операция «Dilation».
После определения контуров объектов и теней необходимо сопоставить их друг другу. Строятся рамки ROI (Region of Interest) и вычисляются «моменты» контуров. Моменты - это средневзвешенные значения интенсивности пикселей, рассчитанные суммированием всех пикселей контура.
На Рисунке 11 представлены результаты определения контуров с цветными границами ROI.
Рисунок 11 - Определение контуров объектов
В рамках данного диссертационного исследования был реализован метод формирования лучей с разных точек контуров объекта и тени, с вычислением кратчайшего расстояния между лучами в пространстве. Данный подход позволяет повысить производительность и снизить скорость вычисления. Метод вычисления кратчайшего расстояния между лучами в пространстве представлен на Рисунке 12.
Рисунок 12 - Метод вычисления кратчайшего расстояния между лучами
На Рисунке 13 представлен процесс теневой трассировки лучей через точки с кратчайшим расстоянием и выделением максимальной плотности облака точек. Участки с большой плотностью возле самих контуров объекта и тени не учитываются, потому что из-за формирования лучей там всегда возникает каустика.
Рисунок 13 - Теневая трассировка с вычислением кратчайшего расстояния для сцены с двумя объектами
На Рисунке 14 представлены результаты нахождения максимальной плотности точек и визуализация пространственных структур с
использованием библиотеки "Ма1р1оШЬ" для сцены с двумя объектами. Чем точки ярче на фоне остальных, тем ближе они находятся к наблюдателю. По найденным облакам точек наибольшей плотности вычисляется средняя точка, которая и принимается за координаты источника освещения.
Рисунок 14 - Визуализация пространственных структур и выделение максимальной плотности точек По результатам исследования, представленного в этой главе было установлено, что метод использования сверточных нейронных в алгоритме восстановления координат источников освещения RGBD изображений методом теневой трассировки лучей позволяет определять источники освещения, даже те, которые находятся за пределами видимости камер системы смешанной реальности.
Результаты, представленные в данной главе подтверждены публикациями [2], [3], [5], [6], [8], [10], [13], [15].
Пятая глава диссертационного исследования посвящена проблеме формирования комфортных условий пребывания человека в среде смешанной реальности, использующего оптико-прозрачные и видеопрозрачные системы смешанной реальности [18], [69], [99], [103].
Для обеспечения комфортного пребывания в системе смешанной реальности, необходимо соблюдение естественных условий освещения виртуальных объектов, накладываемых на изображение реального мира. Для
восстановления оптических параметров наблюдаемой сцены, было решено использовать архитектуры сверточных нейронных сетей для классификации кластеров пикселей изображения к разным группам.
За основу архитектуры нейронной сети взята архитектура VGG16 [84], [93], которая представлена на Рисунке 15. Это одна из самых известных моделей, представленных на ILSVRC-2014. Данная архитектура обеспечивает лучшие результаты, по сравнению с AlexNet за счет замены фильтров большого размера ядра (11 и 5 в первом и втором сверточном слое соответственно) несколькими фильтрами размерности 3 х 3 один за другим.
Данная архитектура состоит из пяти слоёв свертки. Вход в первый сверточный слой convl представляет собой RGB изображение фиксированного размера 224 x 224. Изображение проходит через все слои, в которых используются фильтры размерности: 3 х 3. Все скрытые слои используют функцию активации ReLU.
Рисунок 15 - Архитектура свёрточной нейронной сети (изображение заимствовано из работы [53])
Используя наборы данных, полученные в главе два диссертационного исследования и программное средство "Ьиш1еер1", имеется возможность обучить нейронную сеть восстанавливать оптические параметры на реалистичных сценах, а также вычислять яркость глобального освещения, вызванную вторичным и каустическим освещением. Ьиш1еер1 позволяет строить изображения в картах освещенности, что существенно упрощает процесс формирования датасетов.
На Рисунке 16 представлен пример тестового набора данных.
|тд012.рпд 1тд025.рпд 1тд026.рпд 1гпд027.рпд 1тд028.рг>д
Рисунок 16 - Тестовый набор синтезированных данных для обучения
На Рисунке 17 представлен результат работы нейронной сети. Оригинальные изображения, изображения с классами освещенности, предсказанные нейросетью, и эталонные изображения.
Рисунок 17 - Результаты работы нейронный сети для восстановления световых характеристик HDR камеры
Использование люксметра, измеряющего освещенность Е, создаваемую сценой в области наблюдения совместно с камерами высокого динамического диапазона (HDR) и известной калибровочной кривой позволяет выполнить калибровку изображения, т. е. перевести RGB значения пикселей в линейное представление яркости L, а затем провести нормировку RGB значений пикселей в соответствующую яркость изображения сцены:
Е = М • JnL(x,y) • cosy • dw (1), где:
Е - освещенность, зафиксированная люксметром, П - полное поле зрения камеры, у - угол поля зрения на точку сцены, dw - телесный угол пикселя изображения, М - масштабный множитель между яркостью пикселей и освещенностью изображения.
Если у камеры с фокусным расстоянием f и размером пикселя ds отсутствует дисторсия, то выражение (1) приобретает вид:
£ = (2)
Процесс преобразования значений RGB значений пикселей в их физическое значение яркости показан на Рисунке 18.
Рисунок 18 - Переход к реальным значениям яркости сцены После того как были восстановлены источники света в прямой видимости, была проведена оценка их интенсивности, определено их положение, выполнена классификация (грубо оценили оптические свойства материалов сцены), можно сформировать освещение виртуальных объектов от источников освещения, находящихся в прямой видимости.
Необходимо отметить, что имеются два типа систем смешанной реальности - оптически прозрачные и видео прозрачные. Если для видео прозрачных мы можем восстановить естественные условия освещения и сформировать тени, то для оптически прозрачных систем мы можем восстановить только направление освещения. Для оптически прозрачных систем мы освещаем виртуальные объекты с нужной стороны, но их яркость поднимаем в 10 раз по отношению к фону (Рисунок 19). Это объясняется тем, что виртуальные объекты физически не могут затенять реальные объекты
(они физически прозрачные) и для их видимости на фоне реальной сцены надо значительно поднять их яркость, складывая с яркостью реальной сцены.
Рисунок 19 - Формирование правильного освещения и повышение яркости виртуального объекта для видео и оптико-прозрачных систем смешанной реальности (слева направо)
В рамках данной главы диссертационного исследования был разработан метод определения световых характеристик наблюдаемой сцены и восстановление положений параметров источников света, находящихся в области прямой видимости ИВЯ камеры системы смешанной реальности. Для оценки интенсивности света использовались алгоритмы нейронных сетей и данные, полученные с люксметра. Данный метод позволяет определять первичное и вторичное освещение наблюдаемой сцены, нормали объектов и сами объекты, находящиеся в помещении.
По результатам исследования, представленного в этой главе было установлено, что метод использования полносверточных нейронных сетей для восстановления оптических параметров сцены, находящихся в прямой видимости системы смешанной реальности, позволяет определять положение источников освещения и их оптические параметры.
Все полученные результаты, представленные в данной главе диссертационного исследования подтверждены публикациями [1, 2], [4, 5, 6], [14], [18], [15, 16, 17].
В заключении диссертационного исследования перечислены полученные результаты. Была проведена оценка существующих методов и алгоритмов, используемых для обеспечения естественных условий освещения виртуальных объектов с целью устранения визуального дискомфорта в различного рода устройствах смешанной реальности.
Было проведено исследование возможности применения сверточных нейронных сетей для восстановления координат источников освещения в системах смешанной реальности с целью повышения качества и скорости по сравнению с традиционными алгоритмами машинного зрения. Было проведено исследование возможности использования сверточных нейронных сетей для определения координат источников света на основе анализа RGBD изображений объекта и их теней для повышения точности определения источников освещения вне наблюдаемой сцены. Было проведено исследование возможности использования полносверточных нейронных сетей для восстановления оптических параметров сцены реального мира, обеспечивающего естественные условия освещения и визуального восприятия виртуальных объектов сцены.
Задачи диссертационного исследования выполнены. Цель достигнута.
Результаты исследования:
• Установлено, что метод восстановления источников освещения с использованием сверточных нейронных сетей способом обучения без учителя, основанных на алгоритмах сегментации и восстановлении карт глубин помещений с большой точностью позволяет определять координаты источников освещения.
• Установлено, что метод использования сверточных нейронных в алгоритме восстановления координат источника света на основе анализа RGBD изображений объекта и их теней позволяет определять источники освещения, включая те, которые находятся вне видимости системы смешанной реальности.
• Установлено, что метод использования полносверточных
нейронных сетей для восстановления оптических параметров сцены, находящихся в прямой видимости системы смешанной реальности, позволяет определять положение источников освещения, оценить их оптические параметры и восстановить естественные условия освещения.
Перспективным направлением дальнейшего исследования является возможность дополнительного повышения эффективности разработанных методов и алгоритмов, за счет использования инструментов автоматической маркировки данных для обучения без учителя, и исследование возможности реализации разработанных методов и алгоритмов с использованием только графических процессоров и CUDA-вычислений.
Список публикаций по теме диссертации
Научные издания, входящие в международные реферативные базы данных и системы цитирования:
1. Sorokin М., Zhdanov D., Zhdanov A. Restoration of lighting sources for virtual reality systems using convolutional neural networks, computer vision algorithms, and disparity maps//Proceedings of SPIE, 2020, Vol. 11550, pp. 115500L
2. Sorokin М.1., Zhdanov D.D., Zhdanov A.D. Light source restoration methods for augmented reality systcms//CEUR Workshop Proceedings, 2020, Vol. 2590, pp. 1-12
3. Sorokin M.I., Zhdanov D.D., Zhdanov A.D., Potemin I., Bogdanov N.N. Restoration of Lighting Parameters in Mixed Reality Systems Using Convolutional Neural Network Technology Based on RGBD Images//Programming and Computer Software, 2020, Vol. 46, No. 3, pp. 207-216
4. Sorokin M.I., Zhdanov D.D., Zhdanov A.D. Segmentation of Illuminated Areas of Light Using CNN and Large-Scale RGB+D Dataset for Augmented and Mixed Reality Systems//CEUR Workshop Proceedings, 2020, Vol. 2744
5. Sorokin M.I., Zhdanov A.D., Zhdanov D.D., Potemin I.S., Bogdanov N.N. Segmentation of illuminated areas of light using fully-convolutional neural networks and computer vision algorithms for augmented reality systems//Proceedings of SPIE, 2019, Vol. 11062, pp. 110621N
Sorokin М.1., Zhdanov D.D., Zhdanov A.D. Recovery of optical parameters of a scene using fully-convolutional neural networks//CEUR Workshop Proceedings, 2019, Vol. 2344
Zhdanov A.D., Zhdanov D.D., Bogdanov N.N., Potemin I.S., Galaktionov V.A., Sorokin M.I. Discomfort of Visual Perception in Virtual and Mixed Reality Systems//Programming and Computer Software, 2019, Vol. 45, No. 4, pp. 147-155
Сорокин М.И., Жданов Д.Д. Использование свёрточных нейронных сетей для классификации видов искусственного освещения [Using convolutional neural networks to classify types of artificial lighting] // Труды международной конференции по компьютерной графики и зрению "ГрафиКон" [International Conference on Computer Graphics and Vision, GraphiCon] -2018. - No 28. - C. 61-64 Научные издания, входящие в перечень российских рецензируемых журналов:
9. Сорокин М.И., Жданов Д.Д., Валиев И.В. Восстановление положения источников освещения сцены в системах смешанной реальности с использованием свёрточных нейронных сетей и трассировки теневых лучей // Препринты ИПМ им. М.В.Келдыша -2021,- No67. -С. 1-18
10.Сорокин М.И., Жданов Д.Д., Жданов А.Д., Потемин И.С., Богданов Н.Н. Восстановление параметров освещения в системах смешанной реальности с помощью технологии сверточных нейронных сетей по RGBD-изображениям // Программирование -2020. - No 3. - С, 24-34
11.Жданов А.Д., Жданов Д.Д., Богданов Н.Н., Потемин И.С., Галактионов В.А., Сорокин М.И. Проблемы дискомфорта зрительного восприятия в
7.
системах виртуальной и смешанной реальностей // Программирование -2019. - No 4. - С. 9-18 4. Ershov S.V., Zhdanov D.D., Voloboy A.G.,
12.Sorokin M.I. Treating diffuse elements as quasi-specular to reduce noise in bi-directional ray tracing [Обработка диффузных элементов как квази -зеркальных для снижения шума в двунаправленной трассировке лучей]//Препринты ИПМ им. М.В.Келдыша, 2018, No. 122, рр. 1-30 Публикации в иных изданиях:
13.Богданов Н.Н., Потемин И.С., Жданов Д.Д., Жданов А.Д., Сорокин М.И. Эффективный метод восстановления освещения в системах смешанной реальности с использованием HDR-изображения трехмерной сцены [The efficient method of illumination restoration in mixed reality systems with use of HDR image of 3D scene] // Труды международной конференции по компьютерной графике и зрению "ГрафиКон" [International Conference on Computer Graphics and Vision, GraphiCon] -2019. - No 29. - C. 26-31
14.Сорокин М.И., Жданов Д.Д., Потемин И.С., Барладян Б.Х., Богданов Н. Н., Жданов А. Д. Сегментация освещенных участков сцены с использованием полносверточных нейронных сетей и алгоритмов компьютерного зрения для систем дополненной реальности [Segmentation of illuminated areas of scene using fully-convolutional neural networks and computer vision algorithms for augmented reality systems] // Труды международной конференции по компьютерной графики и зрению "ГрафиКон" [International Conference on Computer Graphics and Vision, GraphiCon] -2019. - No 29. - C. 42-46
15.Zhdanov A., Zhdanov D., Potemin 1., Sorokin M., Bogdanov N. Reconstruction of light sources in mixed reality environment//EVA 2019 Saint Petersburg: Electronic Imaging and the Visual Arts, 2019, No. 2, pp. 63-71
16. Сорокин М.И. Полносверточные нейронные сети в задачах сегментации освещения // Сборник трудов IX научно -практической
конференции молодых ученых «Вычислительные системы и сети (Майоровские чтения)» -2018. - С. 36-38 17. Сорокин М.И. Использование свёрточных нейронных сетей для
классификации видов искусственного освещения // Аллея науки -2018. - N0 6(22). - С. 1008-1011
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Программные технологии синтеза реалистичных изображений2006 год, доктор физико-математических наук Галактионов, Владимир Александрович
Математическое и алгоритмическое обеспечение для системы визуализации в САПР2011 год, кандидат технических наук Котов, Дмитрий Сергеевич
Разработка и модернизация методов генерации физически аккуратных изображений на ЭВМ2002 год, кандидат физико-математических наук Дмитриев, Кирилл Александрович
Автоматизация проектирования компонентов расширенной реальности2013 год, кандидат технических наук Четвергова, Мария Владимировна
Исследование и разработка алгоритмов синтеза фотореалистических изображений2002 год, кандидат технических наук Севастьянов, Игорь Михайлович
Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Сорокин Максим Игоревич
5. Заключение
Разработанный метод анализа теней подходит для работы с системами смешанной реальности, в состав которых входят датчики RGBD, и решает задачу восстановления координат центров источников света в системе координат наблюдателя. В рассматриваемом методе после обучения использовалась сверточная нейронная сеть с архитектурой точность классификации
которой составила почти 94 процента. Архитектура этой сети отлично подходит для классификации двоичных данных и может распознавать даже сложные тени на изображениях, а скорость работы позволяет использовать ее в системах реального времени. Для большинства интерьерных сцен алгоритм восстановления координат источника света обеспечивает достаточную точность для моделирования правильного (визуально неотличимого от естественного) освещения виртуальных объектов, встроенных в сцену реального мира.
Список литературы диссертационного исследования кандидат наук Сорокин Максим Игоревич, 2021 год
Литература
[1] Mandl, D., Yi, K. M., Mohr, P., Roth, P. M., Fua, P., Lepetit, V., Schmalstieg, D.
and Kalkofen D., "Learning lightprobes for mixed reality illumination," 2017 IEEE International Symposium on Mixed and Augmented Reality (ISMAR). IEEE, pages 82-89, 2017.
[2] Supan, P., Stuppacher, I. and Haller, M., "Image Based Shadowing in Real-Time Augmented Reality," IJVR 5.(3), pages 1-7, 2006.
[3] Richter-Trummer, T., "Instant mixed reality lighting from casual scanning," 2016
IEEE International Symposium on Mixed and Augmented Reality (ISMAR). IEEE, pages 27-36, 2016.
[4] Волобой А.Г., Галактионов В.А., Копылов Э.А., Шапиро Л.З. Расчет солнечного освещения, заданного изображением с большим динамическим диапазоном // Труды16-ой международной конференции по компьютерной графике и ее приложениям - ГрафиКон'2006, Россия, Новосибирск, июль 1-5, 2006, с. 467-472.
[5] Волобой А.Г., Галактионов В.А., Копылов Э.А., Шапиро Л.З. Моделирование
естественного дневного освещения, задаваемого изображением с большим динамическим диапазоном // "Программирование", № 5, 2006, с. 62-80.
[6] Валиев И.В., Волобой А.Г., Галактионов В.А. Физически корректная модель
солнечного освещения, задаваемая изображением с большим динамическим диапазоном// "Вестник компьютерных и информационных технологий", № 9, 2009, с. 10-17.
[7] Salma Jiddi, Philippe Robert, Eric Marchand. Illumination Estimation using Cast
Shadows for Re- alistic Augmented Reality Applications. IEEE Int. Symposium on Mixed and Augmented Reality (ISMAR-Adjunct), Oct 2017, Nantes, France. 2017. hal-01668701
[8] Wang, X., Zhdanov, D. D., Potemin, I. S., Wang, Y. and Cheng, H., "The efficient
model to define a single light source position by use of high dynamic range image of 3D scene, " Proc. SPIE 10020, Optoelectronic Imaging and Multimedia Technology IV, 100200I
[9] "Lumicept | Integra Inc.," Integra Inc., 2019,
<https://integra.jp/en/products/lumicept> (Last accessed 19 Oct 2019).
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.