Обучение на неразмеченных данных с использованием генеративных моделей тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Григорьев Тимофей Андреевич
- Специальность ВАК РФ00.00.00
- Количество страниц 132
Оглавление диссертации кандидат наук Григорьев Тимофей Андреевич
Введение
Глава 1. Распутывание внутренних представлений
автокодировщика
1.1 Внутренние представления данных и их свойства
1.2 Биологическая аналогия
1.3 Существующие подходы
1.3.1 Факториальные коды
1.3.2 в-^ЛБ
1.3.3 Мультимодальная глубокая кластеризация
1.3.4 Максимизация взаимной информации между представлениями
1.3.5 Простая структура для контрастного обучения (81шОЬК)
1.4 Базовые сведения из теории категорий
1.5 Вариационный вывод
1.6 Эксперименты
1.6.1 Детали практической реализации
1.6.2 Результаты экспериментов
1.7 Выводы
Глава 2. Трансфер обучения генеративно-состязательных сетей
2.1 Важность трансфера обучения для генерации изображений
2.2 Сложности трансфера обучения генеративно-состязательных сетей
2.2.1 Описание проблемы на уровне интуиции
2.2.2 Эксперимент на синтетических данных
2.2.3 Разделение вкладов генератора и дискриминатора
2.3 Эксперименты с моделью 81у1еСЛШ
2.3.1 Детали практической реализации
2.3.2 Результаты экспериментов
2.4 Анализ эффектов предобучения
2.4.1 Плотное покрытие мод распределения реальных данных
2.4.2 Равномерная эволюция генерируемых изображений
2.4.3 Преимущество при использовании в последующих задачах
2.5 Выбор лучшей контрольной точки для трансфера обучения
2.6 Выводы
Глава 3. Прогнозирование ледовой обстановки с помощью обучения на временных рядах спутниковых
изображений
3.1 Прогнозирование ледовой обстановки в новых реалиях
3.1.1 Актуальность задачи
3.1.2 Недостатки классических решений
3.1.3 Перспективы и сложности методов, основанных на данных
3.1.4 Существующие подходы
3.1.5 Особенности разработанного метода
3.2 Обзор используемых данных
3.2.1 Данные о морском льде
3.2.2 Погодные данные
3.2.3 Географические регионы
3.3 Детали практической реализации
3.3.1 Разделение данных на подвыборки
3.3.2 Предобработка данных
3.3.3 Безлайны для сравнения
3.3.4 Модели машинного обучения
3.3.5 Мертики и лосс-функции
3.3.6 Аугментация данных
3.3.7 Режимы работы
3.3.8 Библиотеки и вычислительные устройства
3.4 Эксперименты с моделью
3.4.1 Конфигурации входных каналов
3.4.2 Предсказание ошибок бейзлайна
3.4.3 Предобучение в Я-режиме
3.4.4 Прогноз на три дня
3.4.5 Прогноз на десять дней
3.4.6 Абляционные исследования
3.5 Апробация разработанных техник глубокого обучения
3.5.1 Постановка задачи
3.5.2 Адаптация модели
3.5.3 Трансфер обучения
3.5.4 Результаты экспериментов
3.6 Выводы
Заключение
Список литературы
Список рисунков
Список таблиц
Приложение А. Трансфер обучения
генеративно-состязательных сетей
А.1 Датасеты
А.2 Кривые обучения
А.3 Детали синтетических данных
А.4 Более продолжительное обучение
А.5 Трансфер с более ранней эпохи
А.6 Детали экспериментов с инверсией GAN
Введение
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Методы контекстуальной генерации изображений в высоком разрешении в условиях ограниченности вычислительных мощностей и недостатка обучающих данных2023 год, кандидат наук Ефимова Валерия Александровна
Вариационное моделирование правдоподобия с триплетными ограничениями в задачах информационного поиска2021 год, кандидат наук Кузнецова Маргарита Валерьевна
Интеллектуальная поддержка принятия решений для предупреждения поллинозов на основе автоматического распознавания изображений пыльцы2021 год, кандидат наук Ханжина Наталья Евгеньевна
Алгоритмы классификации данных дистанционного зондирования Земли для интерпретации спутниковых и аэрофотоснимков2023 год, кандидат наук Ньян Линн Тун
Нейросетевые модели на основе механизма внимания с памятью для решения задач обработки естественного языка2024 год, кандидат наук Сагирова Алсу Рафаэлевна
Введение диссертации (часть автореферата) на тему «Обучение на неразмеченных данных с использованием генеративных моделей»
Актуальность темы.
Машинное обучение (МО) — это наука о разработке алгоритмов и статистических моделей, которые компьютерные системы используют для выполнения задач без явных инструкций, полагаясь вместо этого на шаблоны и логические выводы [1]. Кроме того, это важный инструмент для использования технологий искусственного интеллекта (ИИ) в современных исследовательских и бизнес-задачах. Из-за быстро растущих возможностей в сфере решения проблем, связанных с обучением на данных и принятием решений машинное обучение часто и называют искусственным интеллектом, хотя на самом деле это лишь один из подходов к его реализации.
Сегодня машинное обучение является необходимым элементом современного бизнеса и исследований для многих организаций. В нем часто используются нейросетевые модели и алгоритмы и их обучения. Алгоритмы машинного обучения могут настраивать параметры математической модели или даже ее архитектуру, используя выборки данных, которые часто называют обучающими, валидационными и тестовыми, для принятия решений без формального написания человеком алгоритма принятия этих решений.
Класс нейросетевых алгоритмов, который часто имеют в виду, когда говорят о машинном обучении, частично был вдохновлен моделью взаимодействия клеток мозга, предложенной в 1949 году Дональдом Хеббом в его книге "Организация поведения" [2]. Им были представлены теории о возбуждении нейронов и связи между нейронами в головном мозге животного.
В 1950-х годах Артур Самуэл из IBM разработал компьютерную программу для игры в шашки [3]. Поскольку у программы был очень небольшой объем доступной компьютерной памяти, Самуэл инициировал так называемые альфа-бета-отсечения. Его алгоритм включал функцию подсчета очков с использованием положения шашек на доске. Функция подсчета очков пыталась измерить шансы на победу каждой стороны. Программа выбирала свой следующий ход, используя минимаксную стратегию, которая в конечном итоге превратилась в минимаксный алгоритм. Самуэл также разработал ряд механизмов, позволяющих улучшить его программу. Его программа запоминала все позиции, которые она уже видела, и объединяла это со значениями функции
вознаграждения. Артур Самуэл впервые предложил термин "машинное обучение" в 1952 году [3].
В 1957 году Фрэнк Розенблатт из Cornell Aeronautical Laboratory объединил модель взаимодействия клеток мозга Дональда Хебба с усилиями Артура Самуэля по машинному обучению и создал персептрон [4]. Изначально персеп-трон планировался как машина, а не как программа. Программное обеспечение, первоначально разработанное для IBM 704, было установлено на специально изготовленной машине под названием персептрон Mark 1, которая была создана для распознавания изображений.
В 1960-х открытие и использование многослойности открыло новый путь в исследованиях нейронных сетей. Было обнаружено, что совместная работа двух или более слоев в персептроне обеспечивает значительно большую вычислительную мощность, чем лишь одного слоя. Использование нескольких слоев привело к созданию нейронным сетям прямого распространения и появлению в 1970-х годах алгоритма обратного распространения ошибки для их обучения [5]. Обратное распространение и сейчас используется для обучения современных глубоких нейронных сетей.
В конце 1970-х и начале 1980-х исследования искусственного интеллекта были сосредоточены на использовании логических, основанных на знаниях подходов, а не адаптивных алгоритмов. Из-за завышенных ожиданий, которые не имели возможности оправдаться с текущим уровнем развития вычислительной техники, исследователи компьютерных наук и искусственного интеллекта отказались от продолжения разработок в области искусственных нейронных сетей.
Однако, в начале 2000-х, с ростом доступных вычислительных мощностей и накоплением большого объема данных (в том числе благодаря широкому распространению Интернета) ситуация начала меняться. Например, в 2006 году в рамках программы Face Recognition Grand Challenge [6], проводимой Национальным институтом стандартов и технологий, оценивались популярные алгоритмы распознавания лиц того времени. Были собраны 3Э-сканы лица, изображения радужной оболочки и изображения лица с высоким разрешением. Результаты соревнования показали [7], что новые алгоритмы были в десять раз более точными, чем алгоритмы распознавания лиц 2002 года, и в 100 раз более точными, чем алгоритмы 1995 года. Некоторые из алгоритмов смогли превзойти участников-людей в распознавании лиц и могли однозначно идентифицировать однояйцевых близнецов. А в 2014 году Facebook разработал DeepFace [8] —
алгоритм, способный распознавать и реидентифицировать людей лишь по фотографии с той же точностью, что и человек.
Машинное обучение в настоящее время ответственно за некоторые из наиболее значительных достижений в области технологий. Оно используется для новой индустрии беспилотных транспортных средств и для исследования космоса, где, например, помогает идентифицировать экзопланеты [9]. Машинное обучение привело к появлению нового набора концепций и технологий, таких как обучение с учителем и обучение без учителя, к созданию новых алгоритмов локализации и планирования траектории движения для роботов, инструментов аналитики, повседневных чат-ботов и многого другого.
Обучение без учителя — это подобласть машинного обучения, алгоритмы из которой применяются для поиска базовых закономерностей в данных и часто используются в исследовательском анализе данных [1]. При обучении без учителя не используется разметка данных, как это делается при обучении с учителем. Обычно под разметкой данных подразумевается наличие выходных данных для соответствующих входных данных. В обучении без учителя задача алгоритма состоит в том, чтобы найти скрытые отношения в данных или сгруппировать примеры данных только на основе имеющейся входной информации. Способность алгоритмов, обучающихся без учителя, обнаруживать сходства и различия в данных делает их идеальными для построения сжатого представления данных (уменьшения размерности) [10], задания интеллектуальных метрик [11], решения задач восстановления распределения данных [12] и заполнения пропусков в данных [13].
Некоторые из наиболее распространенных сегодня реальных приложений обучения без учителя включают в себя:
— Верстку новостей: новости Google используют обучение без учителя для категоризации статей об одной и той же истории из различных новостных онлайн-изданий [14].
— Компьютерное зрение: алгоритмы обучения без учителя используются для предобучения в задачах визуального восприятия, таких как распознавание объектов [15].
— Медицинскую визуализацию: машинное обучение без учителя обеспечивает выделение необходимых признаков из медицинских данных радиологии и гистологии для их визуализации и последующей детекции
аномалий, классификации и сегментация изображений, что необходимо для быстрой и точной диагностики пациентов [16].
— Обнаружение аномалий: модели обучения без учителя могут просматривать большие объемы данных и обнаруживать нетипичные точки данных в них [17].
— Создание профилей клиентов: определение моделей клиентов любого бизнеса упрощает понимание их общих черт и покупательских привычек. Обучение без учителя позволяет компаниям создавать более качественные профили покупателей [13].
— Механизмы рекомендаций: используя данные о прошлом покупательском поведении, обучение без учителя может помочь обнаружить тенденции в данных, которые можно использовать для разработки более эффективных стратегий продаж, включая рекомендации в интернет-магазинах [13].
Хотя обучение без учителя имеет много преимуществ, при его использовании без хотя бы минимального участия специалиста могут возникать и некоторые проблемы:
— Часто алгоритмы обучения без учителя имеют высокую вычислительная сложность, при этом объем неразмеченных обучающих данных может быть также довольно большим.
— Алгоритмы обучения без учителя часто более чувствительны к настройке гиперпараметров, чем алгоритмы, обучающиеся на размеченных данных.
— Из-за сложности настройки таких алгоритмов высок риск получения неточных результатов, даже на хороших несмещенных данных.
— Несмотря на отсутствие необходимости разметки данных, входные данные, тем не менее, должны проверяться специалистами на наличие смещений, дисбаланса классов или присутствие неприемлемого содержания, которое потом может быть воспроизведено обученным алгоритмом.
— Отсутствие прозрачности в принципе работы алгоритма (как правило, это "черные ящики", особенно, если речь о нейросетевых алгоритмах).
Степень разработанности темы.
Кластеризация [18] — самый простой и один из самых распространенных примеров алгоритмов, обучающихся без учителя. Кластеризация направлена
на обнаружение "кластеров" или подгрупп в неразмеченных данных. Кластеры должны содержать точки данных, максимально похожие друг на друга и максимально отличающиеся от точек в других кластерах. Кластеризация помогает найти основные закономерности в данных, которые могут быть незаметны для человека-наблюдателя. Примером алгоритма обучения без учителя в случае кластеризации является алгоритм к-средних [18].
Зачастую, в алгоритмах обучения без учителя используется вероятностная модель данных, которая позволяет их эффективно описывать. В случае задачи кластеризации [18] она помогает решать задачи оценки плотности распределения данных при выполнении "мягкой" или вероятностной кластеризации. При вероятностной кластеризации точки данных группируются на основе вероятности их принадлежности к определенному распределению. Модель смеси гауссиан (СММ) [19] является одним из наиболее часто используемых вероятностных методов кластеризации. При этом для обучения такой модели без учителя используется ЕМ-алгоритм максимизации правдоподобия.
Хотя большее количество используемых данных, как правило, дает более точные результаты работы алгоритмов машинного обучения (уменьшая вероятность переобучения), оно также может повлиять на производительность этих алгоритмов или затруднить визуализацию датасетов. Уменьшение размерности данных, которое также можно отнести к задачам, решаемым обучением без учителя — это подход, используемый, для уменьшения количества признаков или примеров в заданном наборе данных. Он обычно используется на этапе предварительной обработки данных. Есть несколько различных методов уменьшения размерности, которые можно использовать, например: анализ главных компонентов (РСА) [20], разложение по сингулярным числам (БУБ) [21], а также методы, основанные на глубоких нейронных сетях — автокодировщиках [10].
Современные автокодировщики [10] используют нейронные сети для сжатия данных, а затем заново воссоздают исходные входные данные. В самом простом случае скрытый слой действует как узкое место ("бутылочное горлышко") для сжатия входных данных перед их реконструкцией в выходном слое. Процесс распространения сигнала от входного слоя к скрытому слою называется кодированием, а от скрытого слоя к выходному слою — декодированием.
В области машинного обучения нас часто интересует изучение вероятностных моделей различных природных и искусственных явлений на основе данных. Вероятностные модели представляют собой математические описания таких яв-
лений. Они формализуют понятие знаний и навыков и являются центральными конструкциями в области машинного обучения и искусственного интеллекта. Модели могут состоять как из переменных с непрерывными значениями, так и из переменных с дискретными значениями. В некотором смысле наиболее полные формы вероятностных моделей определяют все корреляции и зависимости более высокого порядка между переменными модели в форме совместного распределения вероятностей по этим переменным.
Обозначим за х вектор, представляющий набор всех наблюдаемых переменных, совместное распределение которых мы хотели бы смоделировать. Мы предполагаем, что наблюдаемая переменная х является случайным примером из неизвестного генеративного процесса, истинное вероятностное распределение которого р*(х) нам неизвестно. Мы пытаемся аппроксимировать этот основной процесс с помощью выбранной модели рв(х) с параметрами 6:
х ~ ре(х) (1)
Тогда в этих терминах обучение — это, чаще всего, процесс поиска значения параметров 6, при котором функция распределения вероятностей, заданная моделью, Pq(x), приближает истинное распределение данных наиболее точно:
Рв(х) « р*(х) (2)
Естественно, мы хотим, чтобы семейство распределений рв(х) было достаточно гибким, чтобы у нас была возможность получить достаточно точную модель. В то же время, часто мы хотим иметь возможность включить знания об априорном распределении данных в модель. Добиться этого, а также получить более интерпретируемый вариант атокодировщика — вариационный автокодировщик [22] — позволяет алгоритм вариационного вывода.
В его основе лежит тождество [23]
Ez^q(z\x)[logp(x\z)] - VKL[q(z\x) ||p(z)] = C(x), (3)
справедливое для любого распределения q(z\х) с тем же носителем Z, что и p(z\x). Здесь
С(х) = logр(х) - VKh[q(z\х) \\ p(z\ж)] (4)
нижняя оценка правдоподобия (ELBO) и
Pi (z)
VkL[Pi{z) \\ P2(Z)] = Ez^Pl(z) log (5)
дивергенция Кульбака-Лейблера двух распределений. Поскольку последняя всегда неотрицательна, можно получить следующую нижнюю границу правдоподобия из определения 4:
logр(х) ^ С(х). (6)
Более того, согласно формуле 3, чтобы максимизировать правдоподобие данных (относительно некоторых обучаемых параметров 6, скрытых в кодировщике q(z|ж) и декодировщике p(xlz)) необходимо максимизировать целевую функцию С(х), что приведет также к минимизации KL-дивергенции между q(zIx) и p(z|ж). Если предположить, что рассматриваемая модель кодировщика q(zIx) достаточно сложна, чтобы обнулить член дивергенции, то для максимизации правдоподобия р(х) достаточно просто максимизировать член С(х) по параметрам p(xIz) и q(z|ж). Этот член и будет оптимизируемым функционалом (лосс-функцией) в случае вариационного автокодировщика.
Известно, что эффективность алгоритмов машинного обучения в решающей степени зависит от представления данных, с которыми они работают. Релевантное для конкретной задачи представление данных может значительно повысить качество работы моделей машинного обучения на этой задаче. Как было показано в [24—26], распутанные (или статистически независимые) представления особенно ценны, потому что они релевантны для широкого спектра прикладных задач, в частности, в области компьютерного зрения. Именно поэтому в главе 1 данной диссертации мы фокусируемся на модификации классической схемы обучения вариационного автокодировщика с целью получить более "распутанные" и семантически значимые внутренние представления данных этой моделью.
Не менее многообещающим подходом к задаче восстановления распределения данных являются и генеративно-состязательные сети [12]. За последнее десятилетие резкое увеличение объема доступных данных (больших данных), совершенствование алгоритмов и постоянное развитие вычислительных мощностей позволили искусственному интеллекту выполнять все больше "человеческих" задач. В 2017 году Эндрю Ын, выступая на мероприятии MSx Future Forum в Стэнфорде, предсказал, что ИИ окажет такое же сильное влияние на текущее развитие общества и технологий, как и электричество в свое время.
Если допустить, что целью ИИ является имитация человеческого интеллекта, основная трудность на этом пути будет заключаться в задачах,
традиционно относимых к творческим. Подход к решению таких задач обычно ищут с использованием генеративных моделей, и одной из самых популярных архитектур в настоящее время являются генеративно-состязательные сети (GAN) [12]. Выступая на докладе на конференции NIPS в 2016 году один из пионеров машинного обучения Янн ЛеКун назвал GAN "самой крутой идеей в области глубокого обучения за последние 20 лет".
Генеративно-состязательная сеть представляет собой генеративную модель с неявной оценкой плотности распределения реальных данных, которая обучается без учителя и состоит из двух нейронных сетей: генератора и дискриминатора [1]. Принцип ее работы представляет собой взаимодействие ("состязание") двух этих "игроков". Генератор пытается обмануть дискриминатор, генерируя реально выглядящие изображения, в то время как дискриминатор пытается отличить настоящие изображения от сгенерированных. Во время обучения генератор постепенно становится лучше в создании изображений, которые выглядят реальными, в то время как дискриминатор лучше различает их. В теории процесс достигает равновесия, когда дискриминатор больше не может отличить реальные изображения от поддельных, хотя на практике дискриминатор часто оказывается переучен.
Генератор G и дискриминатор D совместно обучаются в формулировке минимаксной игры для двух игроков. Минимаксная целевая функция в самой простой классической постановке имеет вид:
£(9^ Qd) = Ex^data(x) log DQd(x) + Ez^p{z) log (1 - DQd (GQg(z))), (7)
где 9g — параметры G, а 9^ — параметры D. Задача оптимизации при этом выглядит следующим образом:
9^, 9*D = arg min arg max C(9q, 9d), (8)
0G ®D
и решается путем итеративной градиентной оптимизации поочередно по обеим группам параметров.
Здесь x ~ Pdata(^) — это реальные данные, G(z) — это сгенерированные данные. Таким образом, D(x) является выходом дискриминатора для реальных входных данных х, а D(G(z)) является выходом дискриминатора для "фальшивых" сгенерированных данных G(z). Так как задача ставится как задача
обучения без учителя, изначально у нас нет разметки данных, но далее мы выбираем, что данные, сгенерированные G, имеют метку 0 для дискриминатора, а реальные данные имеют метку 1. Это помогает лучше понять определение функции потерь 7 для GAN.
В работе [12] доказывается, что такая постановка имеет глобальный (и единственный) оптимум для рс = Pdata, где рс — порождающее распределение, а Pdata — реальное распределение данных. Однако на практике заставить Рс сходиться к Pdata непросто — для этого используется большое количество различных эмпирик при обучении GAN.
В наши дни генеративно-состязательные сети [12] могут успешно аппроксимировать многомерные распределения реальных изображений. Исключительное качество современных GAN [27; 28] делает их ключевым компонентом различных приложений, включая семантическое редактирование [29—32], обработку изображений [33—35], генерацию видео [36], производство качественной синтетики [37; 38].
Чтобы распространить успех GAN на режим ограниченных данных, обычно используется предобучение, то есть инициализация процесса оптимизации контрольной точкой GAN, предварительно обученной на некотором большом наборе данных. В ряде работ [39—44] исследуются различные методы трансфера обучения GAN на новые наборы данных и сообщается о значительных преимуществах по сравнению с обучением их с нуля как с точки зрения качества генерации, так и скорости сходимости. Однако до этого момента эмпирический успех предобучения GAN не был достаточно глубоко изучен, и его причины были не совсем ясны. С практической точки зрения оставалось неясным, как выбрать правильную предобученную контрольную точку и следует ли инициализировать и генератор, и дискриминатор, или только одного из них. Мы восполняем этот пробел и стремимся ответить на эти вопросы в главе 2 настоящей диссертации. Насколько нам известно, единственной работой, систематически изучающей преимущества предобучения GAN ранее, является [39]. Однако эксперименты в [39] проводились с устаревшими на данный момент моделями, и мы заметили, что некоторые выводы [39] не подтверждаются для современных архитектур, таких как StyleGAN2 [27]. В частности, в противоречие полученным там результатам, мы демонстрируем, что для современных генеративно-состязательных сетей выгоднее производить трансфер обучения с источника с разреженными и разнообразными данными, а не плотными и од-
нородными. В целом, представленные в главе 2 результаты позволяют более полно взглянуть на процесс трансфера обучения для современных генеративно-состязательных сетей.
Алгоритмы глубокого обучения изменили расстановку сил в различных областях, где доступны большие объемы данных, не только там, где есть существенная доля творческой составляющей, как при генерации реалистичных изображений [45]. Существует также большой интерес к применению глубокого обучения в науках о Земле [46], особенно при обработке спутниковых данных [47]. Данные спутниковых и климатических моделей обычно представлены в виде координатной сетки; определенный временной и высотный срез климатической переменной размещается на двумерной сетке, аналогичной изображению, и может использоваться в качестве входных данных для сверточных нейронных сетей (CNN) [48]. Спутниковые наблюдения за морским льдом также представлены в виде изображений: пассивные измерения температуры в микроволновом диапазоне преобразуются в оценки концентрации морского льда (SIC) в каждой ячейке сетки, в диапазоне от 0 до 100%. Прошлые исследования использовали глубокое обучение для предсказания SIC лишь с некоторым успехом, например нейронную сеть, применявшуюся независимо к каждой ячейке сетки [49] или скользящее окно CNN [50]. Но оба таких подхода ограничивают входное рецептивное поле сети и, следовательно, масштаб пространственных взаимодействий, которые можно смоделировать. Кроме того, они слабо учитывают специфику задачи и ее генеративную природу (построение прогноза ледовой обстановки), что крайне важно в данном случае, как будет отмечено далее.
Ледовая обстановка в Арктике сейчас стремительно меняется, так как рост глобальной температуры в Арктике [51] в два раза выше, чем в среднем по миру [52—54]. Согласно данным реанализа ERA5, годовой тренд увеличения температуры в Арктике с 1979 по 2020 год оценивается в 0,72 °C в десятилетие [55]. Такое быстрое потепление в Арктике тесно связано с беспрецедентным сокращением площади морского льда более чем на 30% за последние четыре десятилетия [56; 57] и уменьшением толщины морского льда [58]. Эти изменения позволяют использовать более быстрые и дешевые морские маршруты, такие как Северный морской путь [59]. Но в этом случае заторы из морских льдов представляют одну из наиболее острых проблем обеспечения безопасности морского судоходства. Точные оперативные прогнозы свойств и динамики морского льда могут частично решить эту проблему, позволив судам коррек-
тировать свои маршруты, чтобы избежать областей скопления льда. Однако в то же время новые маршруты через Арктику вызовут рост рисков загрязнения океана и атмосферы, в первую очередь за счет рыболовства, добычи нефти и газа и их транспортировки, что также увеличит потребность в надежной оперативной системе прогнозирования ледовой обстановки. Ведь для доставки природного газа и нефти на дальние расстояния транспортировка глубоководными судами более экономически целесообразна, чем морские трубопроводы [60]. Таким образом, чтобы уменьшить загрязнение океана и углеродный след [61; 62], вызванный транспортировкой, газовые и нефтяные компании должны оптимизировать маршруты, [63], с целью сделать их более быстрыми и снизить связанные экологические риски (например, сократить использование атомных ледоколов).
Совместное численное моделирование океана и льда является очевидным источником надежного прогноза ледовой обстановки. Новейшие модели морского льда, такие как Кех181ш [59; 64], демонстрируют впечатляющие результаты по представлению сплоченности, толщины и векторов дрейфа морского льда по сравнению с данными наблюдений (081 БАР 88М1-8 [65], АМ8И,2 [66], набор данных С1оЬ11СЕ). Кех181ш — это полностью лагранжева конечно-разностная модель, поэтому ее сложно сочетать с моделями океана, основанными на методе Эйлера. Эйлеровы модели морского льда развивались в течение последних двух десятилетий и могут воспроизводить некоторые аспекты морского льда и его актуальные изменения. Однако детальное сравнение данных спутникового дистанционного зондирования с результатами эйлеровой модели выявляет большие различия в некоторых аспектах морского ледяного покрова, например, в зонах разломов и в мелкомасштабных динамических процессах [67; 68]. Становится все более очевидным, что современная физика моделей (упруго-вязко-пластическая реология) не подходит для воспроизведения этих наблюдаемых особенностей деформации морского льда [69—73] и не может обеспечить надежный прогноз. Кроме того, совместное численное моделирование океана и льда требует значительных вычислительных ресурсов.
С другой стороны, современные статистические или основанные на данных подходы машинного обучения являются более гибкими и вычислительно легкими. Это делает их популярными в различных исследовательских приложениях, даже далеких от явного компьютерного моделирования [74—76]. В то же время при моделировании погоды и морского льда им не требуется для ра-
боты знание сложной физической природы процессов, происходящих в океане и атмосфере. После обучения такой модели, ей нужны только соответствующие недавние наблюдения и сравнительно небольшие вычислительные ресурсы для составления прогноза. Однако обучение в этом случае достаточно сложное по ряду причин. Во-первых, большая часть входных данных, используемых для обучения модели (включая концентрацию морского льда), представлена в виде трехмерных или даже четырехмерных пространственно-временных карт с огромным количеством высококоррелированных входных каналов. Известно, что использование современных сверточных архитектур [77—81], рекуррентных архитектур [82; 83] или архитектур на основе внимания [84; 85] позволяет преодолеть трудности, связанные с взрывным ростом числа обучаемых параметров и переобучения. Во-вторых, ожидается, что на выходе у модели будет согласованный прогноз концентрации морского льда (SIC), сохраняющий ту же пространственно-временную природу, что трудно гарантировать при обучении на ограниченном количестве данных. Чтобы преодолеть эти трудности генерации прогнозных данных, в главе 3 данной диссертации мы описываем обучение модели не предсказанию сырых данных, а компенсации ошибок простых бейзлайнов, таких как климатологическое среднее, persistence или линейный тренд по ячейкам. Наконец, оперативные данные о климате и характеристиках морского льда имеют свои особенности. Обычно такие данные мозаичны, т.е. состоят из нескольких полос, получаемых в разное время каждый день, поэтому их следует ежедневно комбинировать и усреднять. Кроме того, SIC можно измерить только в море, и ячейки с данными для суши будут пропущены. Измерения могут быть основаны на разных источниках, наследующих разные смещения, что делает отношение сигнал/шум достаточно низким. Кроме того, фактические изменения состояния морского льда происходят в ограниченные периоды осенью и весной, что делает практически непригодными более половины данных. Учитывая все вышесказанное, в главе 3 диссертации большое внимание уделяется описанию и проектированию протоколов обучения и тестирования модели в задаче прогнозирования ледовой обстановки, упрощающих генеративную постановку этой задачи, и выбору правильных метрик для адекватной оценки получаемых решений.
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Исследование переносимости нейросетевых моделей между различными распределениями данных в задаче детектирования объектов2022 год, кандидат наук Никитин Андрей Дмитриевич
Многозадачный перенос знаний для диалоговых задач2023 год, кандидат наук Карпов Дмитрий Александрович
Параметрические методы вычисления оптимальных транспортных отображений, расстояний и барицентров2023 год, кандидат наук Коротин Александр Андреевич
Оптимизация помехоустойчивости и точности нейросетевого распознавания изображений2024 год, кандидат наук Зиядинов Вадим Валерьевич
Распознавание редких дорожных знаков с использованием синтетических обучающих выборок2021 год, кандидат наук Шахуро Владислав Игоревич
Список литературы диссертационного исследования кандидат наук Григорьев Тимофей Андреевич, 2023 год
Список литературы
1. Goodfellow, I. Deep Learning [Текст] / I. Goodfellow, Y. Bengio, A. Courville. — MIT Press, 2016. — http://www.deeplearningbook.org.
2. Hebb, D. The Organization of Behavior [Текст] / D. Hebb. — Psychology Press, 04.2005. — URL: https://doi.org/10.4324/9781410612403.
3. Samuel, A. L. Some Studies in Machine Learning Using the Game of Checkers [Текст] / A. L. Samuel // IBM Journal of Research and Development. — 1959. — Июль. — Т. 3, № 3. — С. 210—229. — URL: https://doi.org/10. 1147/rd.33.0210.
4. Rosenblatt, F. The perceptron: A probabilistic model for information storage and organization in the brain. [Текст] / F. Rosenblatt // Psychological Review. — 1958. — Т. 65, № 6. — С. 386—408. — URL: https://doi.org/ 10.1037/h0042519.
5. Kelley, H. J. Gradient theory of optimal flight paths [Текст] / H. J. Kelley // Ars Journal. — 1960. — Т. 30, № 10. — С. 947—954.
6. Overview of the Face Recognition Grand Challenge [Текст] / P. Phillips [и др.] // 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). — Ieee. — URL: https://doi.org/10.1109/ cvpr.2005.268.
7. Preliminary Face Recognition Grand Challenge Results [Текст] / P. Phillips [и др.] // 7th International Conference on Automatic Face and Gesture Recognition (FGR06). — 2006. — С. 15—24.
8. DeepFace: Closing the Gap to Human-Level Performance in Face Verification [Текст] / Y. Taigman [и др.] // 2014 IEEE Conference on Computer Vision and Pattern Recognition. — 2014. — С. 1701—1708.
9. Deep learning exoplanets detection by combining real and synthet ic data [Текст] / S. Cuellar [и др.] // Plos One / под ред. S. V. E. — 2022. — Май. — Т. 17, № 5. — e0268199. — URL: https://doi.org/10.1371/journal. pone.0268199.
10. Autoencoder for words [Текст] / C.-Y. Liou [и др.] // Neurocomputing. — 2014. — Т. 139. — С. 84—96.
11. The Unreasonable Effectiveness of Deep Features as a Perceptual Metric [Текст] / R. Zhang [и др.] // 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. — Ieee, 06.2018. — URL: https://doi.org/ 10.1109/cvpr.2018.00068.
12. Generative adversarial nets [Текст] / I. Goodfellow [и др.] // Advances in neural information processing systems. — 2014.
13. Bell, R. M. Lessons from the Netflix prize challenge [Текст] / R. M. Bell, Y. Koren // ACM SIGKDD Explorations Newsletter. — 2007. — Дек. — Т. 9, № 2. — С. 75—79. — URL: https://doi.org/10.1145/1345448.1345465.
14. The PageRank Citation Ranking : Bringing Order to the Web [Текст] / L. Page [и др.] // The Web Conference. — 1999.
15. DeepUSPS: Deep Robust Unsupervised Saliency Prediction With Self-Supervision [Текст] / D. T. Nguyen [и др.] // Neural Information Processing Systems. — 2019.
16. Unsupervised Medical Image Segmentation Based on the Local Center of Mass [Текст] / I. Aganj [и др.] // Scientific Reports. — 2018. — Авг. — Т. 8, № 1. — URL: https://doi.org/10.1038/s41598-018-31333-5.
17. Berg, A. Unsupervised Learning of Anomaly Detection from Contaminated Image Data using Simultaneous Encoder Training [Текст] / A. Berg, J. Ahlberg, M. Felsberg // ArXiv. — 2019. — Т. abs/1905.11034.
18. MacQueen, J. Some methods for classification and analysis of multivariate observations [Текст] / J. MacQueen //. — 1967.
19. Reynolds, D. Gaussian Mixture Models [Текст] / D. Reynolds // Encyclopedia of Biometrics. — Springer US, 2009. — С. 659—663. — URL: https://doi.org/ 10.1007/978-0-387-73003-5_196.
20. F.R.S., K. P. LIII. On lines and planes of closest fit to systems of points in space [Текст] / K. P. F.R.S. // The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science. — 1901. — Т. 2, № 11. — С. 559—572.
21. Klema, V. The singular value decomposition: Its computation and some applications [Текст] / V. Klema, A. Laub // IEEE Transactions on Automatic Control. — 1980. — Апр. — Т. 25, № 2. — С. 164—176. — URL: https: //doi.org/10.1109/tac.1980.1102314.
22. Kingma, D. P. Auto-Encoding Variational Bayes [Текст] / D. P. Kingma, M. Welling. — 2013. — URL: https://arxiv.org/abs/1312.6114.
23. Doersch, C. Tutorial on Variational Autoencoders [Текст] / C. Doersch. — 2016. — URL: https://arxiv.org/abs/1606.05908.
24. Schmidhuber, J. Learning Factorial Codes by Predictability Minimization [Текст] / J. Schmidhuber // Neural Computation. — 1992. — Нояб. — Т. 4, № 6. — С. 863—879. — URL: https://doi.org/10.1162/neco.1992.4.6.863.
25. Bengio, Y. Representation Learning: A Review and New Perspectives [Текст] / Y. Bengio, A. Courville, P. Vincent // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2013. — Авг. — Т. 35, № 8. — С. 1798—1828. — URL: https://doi.org/10.1109/tpami.2013.50.
26. beta-VAE: Learning Basic Visual Concepts with a Constrained Variational Framework [Текст] / I. Higgins [и др.] // 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. — OpenReview.net, 2017. — URL: https:// openreview.net/forum?id=Sy2fzU9gl.
27. Analyzing and improving the image quality of stylegan [Текст] / T. Karras [и др.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2020. — С. 8110—8119.
28. Brock, A. Large Scale GAN Training for High Fidelity Natural Image Synthesis [Текст] / A. Brock, J. Donahue, K. Simonyan // International Conference on Learning Representations. — 2019.
29. Image-to-image translation with conditional adversarial networks [Текст] / P. Isola [и др.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2017.
30. Unpaired image-to-image translation using cycle-consistent adversarial networks [Текст] / J.-Y. Zhu [и др.] // Proceedings of the IEEE international conference on computer vision. — 2018.
31. Interpreting the latent space of gans for semantic face editing [Текст] / Y. Shen [и др.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2020. — С. 9243—9252.
32. Voynov, A. Unsupervised discovery of interpretable directions in the gan latent space [Текст] / A. Voynov, A. Babenko // International Conference on Machine Learning. — Pmlr. 2020. — С. 9786—9796.
33. Exploiting deep generative prior for versatile image restoration and manipulation [Текст] / X. Pan [и др.] // European Conference on Computer Vision. — Springer. 2020. — С. 262—277.
34. Photo-realistic single image super-resolution using a generative adversarial network [Текст] / C. Ledig [и др.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2017.
35. PULSE: Self-supervised photo upsampling via latent space exploration of generative models [Текст] / S. Menon [и др.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2020. — С. 2437—2445.
36. Video-to-Video Synthesis [Текст] / T.-C. Wang [и др.] // Advances in Neural Information Processing Systems. — 2018.
37. Datasetgan: Efficient labeled data factory with minimal human effort [Текст] / Y. Zhang [и др.] // arXiv preprint arXiv:2104.06490. — 2021.
38. Voynov, A. Big gans are watching you: Towards unsupervised object segmentation with off-the-shelf generative models [Текст] / A. Voynov, S. Morozov, A. Babenko // arXiv preprint arXiv:2006.04988. — 2020.
39. Transferring gans: generating images from limited data [Текст] / Y. Wang [и др.] // Proceedings of the European Conference on Computer Vision (ECCV). — 2018. — С. 218—234.
40. Noguchi, A. Image generation from small datasets via batch statistics adaptation [Текст] / A. Noguchi, T. Harada // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2019. — С. 2750—2758.
41. Zhao, M. On leveraging pretrained gans for limited-data generation [Текст] / M. Zhao, Y. Cong, L. Carin // Icml. — 2020.
42. Mo, S. Freeze Discriminator: A Simple Baseline for Fine-tuning GANs [Текст] / S. Mo, M. Cho, J. Shin // arXiv preprint arXiv:2002.10964. — 2020.
43. Minegan: effective knowledge transfer from gans to target domains with few images [Текст] / Y. Wang [и др.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2020. — С. 9332—9341.
44. Few-shot Image Generation with Elastic Weight Consolidation [Текст] / Y. Li [и др.] // arXiv preprint arXiv:2012.02780. — 2020.
45. LeCun, Y. Deep learning [Текст] / Y. LeCun, Y. Bengio, G. Hinton // Nature. — 2015. — Май. — Т. 521, № 7553. — С. 436—444. — URL: https: //doi.org/10.1038/nature14539.
46. Deep learning and process understanding for data-driven Earth system science [Текст] / M. Reichstein [и др.] // Nature. — 2019. — Февр. — Т. 566, № 7743. — С. 195—204. — URL: https://doi.org/10.1038/s41586-019-0912-1.
47. Deep learning in remote sensing applications: A meta-analysis and review [Текст] / L. Ma [и др.] // ISPRS Journal of Photogrammetry and Remote Sensing. — 2019. — Июнь. — Т. 152. — С. 166—177. — URL: https://doi. org/10.1016/j.isprsjprs.2019.04.015.
48. Krizhevsky, A. ImageNet classification with deep convolutional neural networks [Текст] / A. Krizhevsky, I. Sutskever, G. E. Hinton // Communications of the ACM. — 2017. — Май. — Т. 60, № 6. — С. 84—90. — URL: https://doi.org/10.1145/3065386.
49. Choi, M. Artificial Neural Network for the Short-Term Prediction of Arctic Sea Ice Concentration [Текст] / M. Choi, L. W. A. D. Silva, H. Yamaguchi // Remote Sensing. — 2019. — Май. — Т. 11, № 9. — С. 1071. — URL: https: //doi.org/10.3390/rs11091071.
50. Prediction of monthly Arctic sea ice concentrations using satellite and reanalysis data based on convolutional neural networks [Текст] / Y. J. Kim [и др.] // The Cryosphere. — 2020. — Март. — Т. 14, № 3. — С. 1083—1104. — URL: https://doi.org/10.5194/tc-14-1083-2020.
51. Screen, J. A. The central role of diminishing sea ice in recent Arctic temperature amplification [Текст] / J. A. Screen, I. Simmonds // Nature. — 2010. — Т. 464, № 7293. — С. 1334—1337.
52. State of the climate in 2014 [Текст] / D. Arndt [и др.]. — 2015.
53. Blunden, J. State of the Climate in 2016 [Текст] / J. Blunden, D. S. Arndt // Bulletin of the American Meteorological Society. — 2016. — Т. 98, № 8. — Si—S280.
54. Assessing recent warming using instrumentally homogeneous sea surface temperature records [Текст] / Z. Hausfather [и др.] // Science advances. — 2017. — Т. 3, № 1. — e1601207.
55. Warming amplification over the Arctic Pole and Third Pole: Trends, mechanisms and consequences [Текст] / Q. You [и др.] // Earth-Science Reviews. — 2021. — Т. 217. — С. 103625.
56. Kwok, R. Arctic sea ice thickness, volume, and multiyear ice coverage: losses and coupled variability (1958-2018) [Текст] / R. Kwok // Environmental Research Letters. — 2018. — Т. 13, № 10. — С. 105005.
57. Meltwater sources and sinks for multiyear Arctic sea ice in summer [Текст] / D. Perovich [и др.] // The Cryosphere. — 2021. — Т. 15, № 9. — С. 4517—4525.
58. Evidence of Arctic sea ice thinning from direct observations [Текст] / A. H. Renner [и др.] // Geophysical Research Letters. — 2014. — Т. 41, № 14. — С. 5029—5036.
59. Presentation and evaluation of the Arctic sea ice forecasting system neXtSIM-F [Текст] / T. Williams [и др.] // The Cryosphere. — 2021. — Т. 15, № 7. — С. 3207—3227.
60. A model for estimating the carbon footprint of maritime transportation of Liquefied Natural Gas under uncertainty [Текст] / S. Aseel [и др.] // Sustainable Production and Consumption. — 2021. — Т. 27. — С. 1602—1613.
61. Greene, S. Well-to-tank carbon emissions from crude oil maritime transportation [Текст] / S. Greene, H. Jia, G. Rubio-Domingo // Transportation Research Part D: Transport and Environment. — 2020. — Т. 88. — С. 102587.
62. Greenhouse gas emissions from the global transportation of crude oil: Current status and mitigation potential [Текст] / S. Ankathi [и др.] // Journal of Industrial Ecology. — 2022.
63. SMOS sea ice product: Operational application and validation in the Barents Sea marginal ice zone [Текст] / L. Kaleschke [и др.] // Remote sensing of environment. — 2016. — Т. 180. — С. 264—273.
64. neXtSIM: a new Lagrangian sea ice model [Текст] / P. Rampal [и др.] // The Cryosphere. — 2016. — Т. 10, № 3. — С. 1055—1073.
65. Rasmus Tonboe, J. L. R.-H. P. Product User Manual for OSI SAF Global Sea Ice Concentration [Текст] / J. L. R.-H. P. Rasmus Tonboe, E. Howe // Product OSI-401-b. Copenhagen, Denmark: Danish Meteorological Institute. — 2017.
66. Product user manual for the OSI SAF AMSR-2 global sea ice concentration [Текст] / J. Lavelle [и др.] // Product OSI-408. Copenhagen, Denmark: Danish Meteorological Institute. — 2016.
67. Kwok, R. ICESat over Arctic sea ice: Estimation of snow depth and ice thickness [Текст] / R. Kwok, G. Cunningham // Journal of Geophysical Research: Oceans. — 2008. — Т. 113, № C8.
68. Evaluation of high-resolution sea ice models on the basis of statistical and scaling properties of Arctic sea ice drift and deformation [Текст] / L. Girard [и др.] // Journal of Geophysical Research: Oceans. — 2009. — Т. 114, № C8.
69. Bouillon, S. Presentation of the dynamical core of neXtSIM, a new sea ice model [Текст] / S. Bouillon, P. Rampal // Ocean Modelling. — 2015. — Т. 91. — С. 23—37.
70. A new modeling framework for sea-ice mechanics based on elasto-brittle rheology [Текст] / L. Girard [и др.] // Annals of Glaciology. — 2011. — Т. 52, № 57. — С. 123—132.
71. Using the material-point method to model sea ice dynamics [Текст] / D. Sulsky [и др.] // Journal of Geophysical Research: Oceans. — 2007. — Т. 112, № C2.
72. Impact of assimilating sea ice concentration, sea ice thickness and snow depth in a coupled ocean-sea ice modelling system [Текст] / S. Fritzner [и др.] // The Cryosphere. — 2019. — Т. 13, № 2. — С. 491—509.
73. Fritzner, S. Assessment of High-Resolution Dynamical and Machine Learning Models for Prediction of Sea Ice Concentration in a Regional Application [Текст] / S. Fritzner, R. Graversen, K. Christensen // Journal of Geophysical Research: Oceans. — 2020. — Нояб. — Т. 125.
74. Large-scale forecasting of Heracleum sosnowskyi habitat suitability under the climate change on publicly available data [Текст] / D. Koldasbayeva [и др.] // Scientific Reports. — 2022. — Апр. — Т. 12.
75. Estimation of the Canopy Height Model From Multispectral Satellite Imagery With Convolutional Neural Networks [Текст] / S. Illarionova [и др.] // IEEE Access. — 2022. — Т. 10. — С. 34116—34132.
76. Augmentation-Based Methodology for Enhancement of Trees Map Detalization on a Large Scale [Текст] / S. Illarionova [и др.] // Remote Sensing. — 2022. — Т. 14, № 9. — URL: https://www.mdpi.com/2072-4292/14/9/2281.
77. Backpropagation Applied to Handwritten Zip Code Recognition [Текст] / Y. LeCun [и др.] // Neural Computation. — 1989. — Т. 1, № 4. — С. 541—551.
78. Handwritten Digit Recognition with a Back-Propagation Network [Текст] / Y. LeCun [и др.] // Advances in Neural Information Processing Systems. Т. 2 / под ред. D. Touretzky. — Morgan-Kaufmann, 1989. — URL: https:// proceedings.neurips.cc/paper/1989/file/53c3bce66e43be4f209556518c2fcb54-Paper.pdf.
79. Gradient-based learning applied to document recognition [Текст] / Y. Lecun [и др.] // Proceedings of the IEEE. — 1998. — Т. 86, № 11. — С. 2278—2324.
80. Ronneberger, O. U-Net: Convolutional Networks for Biomedical Image Segmentation [Текст] / O. Ronneberger, P. Fischer, T. Brox. — 2015. — URL: https://arxiv.org/abs/1505.04597.
81. Deep Residual Learning for Image Recognition [Текст] / K. He [и др.] //. — 06.2016. — С. 770—778.
82. Hochreiter, S. Long short-term memory [Текст] / S. Hochreiter, J. Schmidhuber // Neural computation. — 1997. — Т. 9, № 8. — С. 1735—1780.
83. Learning phrase representations using RNN encoder-decoder for statistical machine translation [Текст] / K. Cho [и др.] / / arXiv preprint arXiv:1406.1078. — 2014.
84. Attention is All you Need [Текст] / A. Vaswani [и др.] // Advances in Neural Information Processing Systems. Т. 30 / под ред. I. Guyon [и др.]. — Curran Associates, Inc., 2017. — URL: https://proceedings.neurips.cc/paper/2017/ file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf.
85. Spatial Transformer Networks [Текст] / M. Jaderberg [и др.] // Advances in Neural Information Processing Systems. Т. 28 / под ред. C. Cortes [и др.]. — Curran Associates, Inc., 2015. —URL: https://proceedings.neurips.cc/paper/ 2015/file/33ceb07bf4eeb3da587e268d663aba1a-Paper.pdf.
86. Category-Learning with Context-Augmented Autoencoder [Текст] / D. Kuzminykh [и др.] // Информационные технологии и вычислительные системы. — 2020. — Сент. — URL: https : / / doi. org / 10 . 14357 / 20718632200303.
87. Data-Driven Short-Term Daily Operational Sea Ice Regional Forecasting [Текст] / T. Grigoryev [и др.] // Remote Sensing. — 2022. — Нояб. — Т. 14, № 22. — С. 5837. — URL: https://doi.org/10.3390/rs14225837.
88. Григорьев, Т. Применение автокодировщика с дополненным контекстом в задаче прогнозирования льдов в Арктике [Текст] / Т. Григорьев // Труды МФТИ. — 2023. — Июнь. — Т. 15, № 2. — С. 34—42.
89. Grigoryev, T. When, Why, and Which Pretrained GANs Are Useful? [Текст] / T. Grigoryev, A. Voynov, A. Babenko // International Conference on Learning Representations. — 2022. — URL: https://openreview.net/forum? id=4Ycr8oeCoIh.
90. Григорьев, Т. Моделирование категорий при помощи автокодировщика с дополненным контекстом [Текст] / Т. Григорьев, Д. Кузьминых, Л. Кушнарева // Материалы 63-й Всероссийской научной конференции МФТИ. — 2020.
91. Kuzminykh, D. Extracting Invariant Features From Images Using An Equivariant Autoencoder [Текст] / D. Kuzminykh, D. Polykovskiy, A. Zhebrak // Proceedings of The 10th Asian Conference on Machine Learning. Т. 95 / под ред. J. Zhu, I. Takeuchi. — Pmlr, 11.2018. — С. 438—453. — (Proceedings of Machine Learning Research). — URL: https://proceedings.mlr.press/v95/kuzminykh18a.html.
92. Held, R. Movement-produced stimulation in the development of visually guided behavior. [Текст] / R. Held, A. Hein // Journal of Comparative and Physiological Psychology. — 1963. — Окт. — Т. 56, № 5. — С. 872—876. — URL: https://doi.org/10.1037/h0040546.
93. Shiran, G. Multi-Modal Deep Clustering: Unsupervised Partitioning of Images [Текст] / G. Shiran, D. Weinshall // 2020 25th International Conference on Pattern Recognition (ICPR). — Ieee, 01.2021. — URL: https://doi.org/10. 1109/icpr48806.2021.9411916.
94. Bachman, P. Learning Representations by Maximizing Mutual Information across Views [Текст] / P. Bachman, R. D. Hjelm, W. Buchwalter // Proceedings of the 33rd International Conference on Neural Information Processing Systems. — Red Hook, NY, USA : Curran Associates Inc., 2019.
95. A Simple Framework for Contrastive Learning of Visual Representations [Текст] / T. Chen [и др.] // Proceedings of the 37th International Conference on Machine Learning. — JMLR.org, 2020. — (Icml'20).
96. Lane, S. M. Categories for the Working Mathematician [Текст] / S. M. Lane. — Springer New York, 1978. — URL: https://doi.org/10. 1007/978-1-4757-4721-8.
97. McInnes, L. UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction [Текст] / L. McInnes, J. Healy, J. Melville. — 2018. — URL: https://arxiv.org/abs/1802.03426.
98. Improved precision and recall metric for assessing generative models [Текст] / T. Kynkaanniemi [и др.] // Advances in Neural Information Processing Systems. — 2019. — С. 3929—3938.
99. Top-k Training of GANs: Improving GAN Performance by Throwing Away Bad Samples [Текст] / S. Sinha [и др.] // Advances in Neural Information Processing Systems. Т. 33 / под ред. H. Larochelle [и др.]. — Curran Associates, Inc., 2020. — С. 14638—14649. — URL: https://proceedings. neurips.cc/paper/2020/file/a851bd0d418b13310dd1e5e3ac7318ab-Paper.pdf.
100. Gans trained by a two time-scale update rule converge to a local nash equilibrium [Текст] / M. Heusel [и др.] // Advances in Neural Information Processing Systems. — 2017. — С. 6626—6637.
101. Training generative adversarial networks with limited data [Текст] / T. Karras [и др.] // NeurIPS. — 2020.
102. The Unreasonable Effectiveness of Deep Features as a Perceptual Metric [Текст] / R. Zhang [и др.] // Cvpr. — 2018.
103. Designing an Encoder for StyleGAN Image Manipulation [Текст] / O. Tov [и др.] // arXiv preprint arXiv:2102.02766. — 2021.
104. Demystifying MMD GANs [Текст] / M. Binkowski [и др.] // International Conference on Learning Representations. — 2018. — URL: https : / / openreview.net/forum?id=r1lUOzWCW.
105. Satellite-Based Prediction of Arctic Sea Ice Concentration Using a Deep Neural Network with Multi-Model Ensemble [Текст] / J. Kim [и др.] // Remote Sensing. — 2019. — Т. 11, № 1. — URL: https://www.mdpi.com/2072-4292/11/1/19.
106. Chi, J. Prediction of Arctic Sea Ice Concentration Using a Fully Data Driven Deep Neural Network [Текст] / J. Chi, H.-c. Kim // Remote Sensing. — 2017. — Т. 9, № 12. — URL: https://www.mdpi.com/2072-4292/9/12/1305.
107. Wang, L. Sea Ice Concentration Estimation during Freeze-Up from SAR Imagery Using a Convolutional Neural Network [Текст] / L. Wang, K. A. Scott, D. A. Clausi // Remote Sensing. — 2017. — Т. 9, № 5. — URL: https://www.mdpi.com/2072-4292/9/5/408.
108. Prediction of monthly Arctic sea ice concentrations using satellite and reanalysis data based on convolutional neural networks [Текст] / Y. J. Kim [и др.] // The Cryosphere. — 2020. — Т. 14, № 3. — С. 1083—1104. — URL: https://tc.copernicus.org/articles/14/1083/2020/.
109. Extended Range Arctic Sea Ice Forecast with Convolutional Long-Short Term Memory Networks [Текст] / Y. Liu [и др.] // Monthly Weather Review. — 2021. — Март. — Т. 149.
110. Seasonal Arctic sea ice forecasting with probabilistic deep learning [Текст] / T. R. Andersson [и др.] // Nature Communications. — 2021. — URL: https: / / www. amazon. science / publications / seasonal- arctic- sea- ice- forecasting -with-probabilistic-deep-learning.
111. Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting [Текст] / X. Shi [и др.] // Proceedings of the 28th International Conference on Neural Information Processing Systems - Volume 1. — Montreal, Canada : MIT Press, 2015. — С. 802—810. — (Nips'15).
112. Choi, M. Artificial Neural Network for the Short-Term Prediction of Arctic Sea Ice Concentration [Текст] / M. Choi, L. W. A. De Silva, H. Yamaguchi // Remote Sensing. — 2019. — Т. 11, № 9. — URL: https://www.mdpi.com/2072-4292/11/9/1071.
113. Daily Prediction of the Arctic Sea Ice Concentration Using Reanalysis Data Based on a Convolutional LSTM Network [Текст] / Q. Liu [и др.] // Journal of Marine Science and Engineering. — 2021. — Т. 9, № 3. — URL: https: //www.mdpi.com/2077-1312/9/3/330.
114. Short-Term Daily Prediction of Sea Ice Concentration Based on Deep Learning of Gradient Loss Function [Текст] / Q. Liu [и др.]. — 2021. — Сент.
115. PredRNN++: Towards A Resolution of the Deep-in-Time Dilemma in Spatiotemporal Predictive Learning [Текст] / Y. Wang [и др.] // Proceedings of the 35th International Conference on Machine Learning. Т. 80 / под ред. J. Dy, A. Krause. — Pmlr, 07.2018. — С. 5123—5132. — (Proceedings of Machine Learning Research). — URL: https://proceedings.mlr.press/v80/ wang18b.html.
116. Satellite passive microwave sea-ice concentration data set inter-comparison for Arctic summer conditions [Текст] / S. Kern [и др.] // The Cryosphere. — 2020. — Т. 14, № 7. — С. 2469—2493.
117. Satellite passive microwave sea-ice concentration data set intercomparison: closed ice and ship-based observations [Текст] / S. Kern [и др.] // The Cryosphere. — 2019. — Т. 13, № 12. — С. 3261—3307.
118. Cavalieri, D. 30-Year satellite record reveals contrasting Arctic and Antarctic decadal sea ice variability [Текст] / D. Cavalieri, C. Parkinson, K. Y. Vinnikov // Geophysical Research Letters. — 2003. — Т. 30, № 18.
119. Sea-ice information and forecast needs for industry maritime stakeholders [Текст] / P. M. Wagner [и др.] // Polar Geography. — 2020. — Т. 43, № 2/ 3. — С. 160—187.
120. Should sea-ice modeling tools designed for climate research be used for short-term forecasting? [Текст] / E. Hunke [и др.] // Current Climate Change Reports. — 2020. — Т. 6, № 4. — С. 121—136.
121. The future of sea ice modeling: where do we go from here? [Текст] / E. Blockley [и др.] // Bulletin of the American Meteorological Society. — 2020. — Т. 101, № 8. — E1304—e1311.
122. Lu, J. Atmospheric correction of sea ice concentration retrieval for 89 GHz AMSR-E observations [Текст] / J. Lu, G. Heygster, G. Spreen // IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing. — 2018. — Т. 11, № 5. — С. 1442—1457.
123. National Centers for Environmental Prediction, National Weather Service, NOAA, U.S. Department of Commerce. NCEP GFS 0.25 Degree Global Forecast Grids Historical Archive [Текст] / National Centers for Environmental Prediction, National Weather Service, NOAA, U.S. Department of Commerce. — Boulder CO, 2015. — URL: https : / / doi. org/10.5065/D65D8PWK.
124. Ioffe, S. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift [Текст] / S. Ioffe, C. Szegedy // Proceedings of the 32nd International Conference on International Conference on Machine Learning - Volume 37. — Lille, France : JMLR.org, 2015. — С. 448—456. — (Icml'15).
125. Predictability of the Arctic sea ice edge [Текст] / H. F. Goessling [и др.] // Geophysical Research Letters. — 2016. — Т. 43, № 4. — С. 1642—1650. — eprint: https : / / agupubs . onlinelibrary. wiley. com / doi / pdf / 10 . 1002 / 2015GL067232. — URL: https://agupubs.onlinelibrary.wiley.com/doi/abs/ 10.1002/2015GL067232.
126. Shorten, C. A survey on Image Data Augmentation for Deep Learning [Текст] / C. Shorten, T. M. Khoshgoftaar //J. Big Data. — 2019. — Т. 6. — С. 60. — URL: https://doi.org/10.1186/s40537-019-0197-0.
127. Hochreiter, S. The Vanishing Gradient Problem During Learning Recurrent Neural Nets and Problem Solutions [Текст] / S. Hochreiter // International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems. — 1998. — Апр. — Т. 6. — С. 107—116.
128. Curriculum Learning [Текст] / Y. Bengio [и др.] // Proceedings of the 26th Annual International Conference on Machine Learning. — Montreal, Quebec,
Canada : Association for Computing Machinery, 2009. — С. 41—48. — (Icml '09). — URL: https://doi.org/10.1145/1553374.1553380.
129. Kumar, S. On weight initialization in deep neural networks [Текст] / S. Kumar. — 2017. — Апр.
130. An assessment of ten ocean reanalyses in the polar regions [Текст] / P. Uotila [и др.] // Climate Dynamics. — 2019. — Т. 52, № 3. — С. 1613—1650. — URL: https://doi.org/10.1007/s00382-018-4242-z.
131. Le, Y. Tiny ImageNet Visual Recognition Challenge [Текст] / Y. Le, X. S. Yang //. — 2015.
132. PredRNN: Recurrent Neural Networks for Predictive Learning using Spatiotemporal LSTMs [Текст] / Y. Wang [и др.] // Advances in Neural Information Processing Systems. Т. 30 / под ред. I. Guyon [и др.]. — Curran Associates, Inc., 2017. — URL: https://proceedings.neurips.cc/paper/2017/ file/e5f6ad6ce374177eef023bf5d0c018b6-Paper.pdf.
133. PredRNN++: Towards A Resolution of the Deep-in-Time Dilemma in Spatiotemporal Predictive Learning [Текст] / Y. Wang [и др.]. — 2018. — Апр.
134. PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive Learning [Текст] / u. Wang [и др.]. — 2021. — Март.
135. Eidetic 3D LSTM: A Model for Video Prediction and Beyond [Текст] / Y. Wang [и др.] // Iclr. — 2019.
136. Efficient and Information-Preserving Future Frame Prediction and Beyond [Текст] / W. Yu [и др.] // Iclr. — 2020.
137. Neural Ordinary Differential Equations [Текст] / R. T. Q. Chen [и др.] // Advances in Neural Information Processing Systems. Т. 31 / под ред. S. Bengio [и др.]. — Curran Associates, Inc., 2018. — URL: https : / / proceedings . neurips . cc / paper / 2018 / file / 69386f6bb1dfed68692a24c8686939b9-Paper.pdf.
138. Puy, G. FLOT: Scene Flow on Point Clouds Guided by Optimal Transport [Текст] / G. Puy, A. Boulch, R. Marlet // European Conference on Computer Vision. — 2020.
139. Rout, L. Generative Modeling with Optimal Transport Maps [Текст] / L. Rout, A. Korotin, E. Burnaev // International Conference on Learning Representations. — 2022. — URL: https:/ / openreview . net / forum ? id = 5JdLZg346Lw.
140. Improved Baselines with Momentum Contrastive Learning [Текст] / X. Chen [и др.] // arXiv preprint arXiv:2003.04297. — 2020.
Список рисунков
1.1 Аппарат для уравнивания движения и последующей визуальной обратной связи для активного субъекта (А) и пассивного субъекта
(P). Взято из [92, с. 873]....................................................24
1.2 Множество и категория....................................................29
1.3 Диаграмма, которую мы хотим сделать коммутативной................30
1.4 Графовая модель вариационного автокодировщика с дополненным контекстом ..................................................................31
1.5 Представление PCA (первые две компоненты)..........................35
1.6 Представление UMAP (с гиперпараметрами по умолчанию, см. [97]) 35
1.7 Представление VAE........................................................36
1.8 Наше вложение (с гиперпараметрами ß = 0.01, у = 5.0)................36
1.9 Проекция первых двух главных компонент 64-мерного вложения VAE 37
1.10 Проекция первых двух главных компонент нашего 64-мерного вложения ....................................................................38
2.1 Различные примеры инициализации G/D: красные точки обозначают примеры из предобученного генератора, стрелки обозначают поле градиента предобученного дискриминатора, синее распределение является целевым. Слева направо: плохой дискриминатор выведет хорошие исходные примеры из целевого распределения; плохой генератор пропустит часть мод, даже руководствуясь хорошим дискриминатором; правильные G/D служат оптимальной инициализацией для трансфера на новую
задачу.................................... 43
2.2 Влияние предобучения GAN на синтетических данных. 1) исходное и целевое распределения. 2-3) Синтетика GAN, предобученных на двух исходных распределениях. 4-6): GAN, обученные на целевом распределении, инициализированные двумя исходными контрольными точками и случайным образом. На каждом рисунке также представлено расстояние Васерштейна-1 между сгенерированным и целевым распределениями (меньше — лучше). . 44
2.3 Диаграммы качества предобученного генератора (recall) и качества предобученного дискриминатора (VD сходство) в зависимости от качества дообученного GAN (W^-расстояние). Каждая точка представляет собой результат трансфера обучения GAN, которое началось с определенной пары предобученных дискриминатора и генератора. Цвет указывает на ^-расстояние между конечным распределением синтетики генератора и целевым распределением данных. Корреляция Пирсона конечного Ж1-расстояния равна
-0,84 для recall и -0,73 для подобия полей градиентов........ 45
2.4 Стандартные отклонения значений precision/recall для каждого целевого датасета, рассчитанные по разным исходным датасетам. . . 52
2.5 Слева: количество мод, покрытых контрольными точками генератора в процессе обучения, при трех разных инициализациях. Справа: примеры 65-го класса датасета Flowers, который хорошо покрывается GAN, обученным на инициализации Imagenet, и плохо покрывается GAN, обученным на инициализации FFHQ: верхний ряд: реальные изображения, средний ряд: инициализация FFHQ, нижний ряд: инициализация Imagenet.................. 54
2.6 Эволюция сгенерированных примеров с различными начальными инициализациями. Слева: среднее LPIPS-расстояние между изображениями, сгенерированными последовательными контрольными точками генератора из одного того же скрытого кода z. Справа: эволюция изображения, сгенерированного из одного и того же скрытого кода z, в процессе обучения для различных инициализаций: верхний ряд: предобученной на FFHQ, средний
ряд: предобученной на Imagenet, нижний ряд: случайной....... 55
2.7 Слева: распределение длин траекторий примеров при различных инициализациях GAN для целевого датасета Flowers. Справа: вероятность смены класса генерируемого изображения для отдельных латентных кодов в процессе обучения............ 55
3.1 Диаграмма "ящик с усами" распределения данных SIC в JAXA за разные месяцы 2021 года, агрегированных для всех ячеек в каждом регионе. Ящик простирается от 25-го процентиля до 75-го процентиля; усы удлиняют ящик в 1,5 раза. Оранжевая линия — это медиана (50-й процентиль); выбросы опущены, чтобы не загромождать диаграмму.......................... 66
3.2 Диаграмма "ящик с усами" распределения климатологических аномалий SIC в JAXA для разных месяцев 2021 года, агрегированных для всех ячеек в каждом регионе. Климатологическая аномалия — это разница между данными и климатологией соответствующего канала (см. подраздел 3.3.2). Ящик простирается от 25-го процентиля до 75-го процентиля; усы удлиняют коробку в 1,5 раза. Оранжевая линия — это медиана (50-й процентиль); выбросы опущены, чтобы не загромождать диаграмму. 67
3.3 Выбранные регионы. (а) Арктика с границами трех рассматриваемых регионов: (б) Баренц (Баренцево и Карское моря), (в) Лабрадор (море Лабрадор) и (г) Лаптев (море Лаптевых). В регионах Баренц и Лабрадор сплоченность морского льда изображена на 01.04.2021, а в регионе Лаптев на 01.04.2021, так как на 01.04.2021 регион практически полностью покрыт льдом. Область между зеленой (15%) и красной (80%) изолиниями
является зоной маргинального льда (MIZ) на эти даты......... 69
3.4 Схематическое изображение основных принципов двух режимов работы U-Net. Синие прямоугольники представляют собой блоки данных предыстории (SIC и/или карты погоды), по одному на каждый день в прошлом. Крайний левый — 6 дней назад, а крайний правый — на сегодняшний день (для 7-дневной предыстории). Красные, оранжевые и желтые прямоугольники представляют прогнозы карт SIC на первый, второй и третий дни в будущем соответственно (для 3-дневного прогноза), выдаваемые моделью. Все прогнозы делаются одновременно в S-режиме, а в R-режиме — рекуррентно по одному, и входы модели обновляются
на каждом шаге как изображено на рисунке............... 74
3.5 Зависимость JAXA SIC MAE (чем меньше, тем лучше) для разных заблаговременностей прогноза (в днях) для всех трех регионов. MAE усредняется в течение всего 2021 года. Линейный тренд вычисляется попиксельно за 3 предыдущих дня; U-Net (S) и U-Net (R) обучаются на всех трех объединенных и перемешанных регионах с 7-дневной предысторией и наилучшей конфигурацией входных каналов, представленной в таблице 9.............. 80
3.6 Примеры прогнозов лучшей конфигурации U-Net (R) для фиксированных дат и разной заблаговременности прогноза. Для регионов Баренц и Лабрадор выбрана дата 1 апреля 2021 года, для региона Лаптев 1 октября 2021 года, так как 1 апреля 2021 года регион практически полностью покрыт льдом. Черно-белый градиентный слой показывает значения JAXA SIC, а полупрозрачная красно-синий градиентный слой показывает разность между предсказаниями модели и фактическими значениями SIC. MIZ не показана для удобства чтения карт, но расположена преимущественно вдоль кромки морского льда и занимает примерно 10% соответствующей площади моря в выбранные даты............................... 81
3.7 Улучшение JAXA SIC MAE (в процентных пунктах; чем выше, тем лучше) для разных моделей по сравнению с другими моделями или бейзлайнами для разных месяцев 2021 года и заблаговременностей прогноза. Все три области имеют независимую цветовую схему. Улучшение рассчитывается в абсолютных процентных пунктах и, как правило, выше для месяцев с активными изменениями
морского льда................................ 82
3.8 Общая U-Net (R) с GFS: распределение JAXA SIC MAE (чем меньше, тем лучше) для разных месяцев 2021 года и заблаговременностей прогноза. Оранжевой кривой показана площадь зоны маргинального льда по отношению к площади моря региона.................................... 82
3.9 Величина JAXA SIC MAE, усредненная за 3 дня прогноза и за весь 2021 год (чем меньше, тем лучше) для бейзлайнов и различных конфигураций U-Net. Цвета обозначают типы моделей (бейзлайны, U-Net (S) и U-Net (R)), конфигурация модели в группе указана под каждым столбцом диаграммы. Для U-Net региональные и общие конфигурации были обучены с данными GFS или без них. Лучшие конфигурации из каждой группы представлены отдельно справа на диаграмме каждого региона для сравнения............... 84
3.10 Улучшение JAXA SIC MAE (в процентных пунктах, чем выше, тем лучше) для общей U-Net (R) с GFS по сравнению с региональной U-Net (R) с GFS для разных месяцев 2021 года и разных заблаговременностей прогноза. Все три области имеют независимую цветовую схему. Улучшение рассчитано в абсолютных процентных пунктах и, как правило, выше для месяцев с
активными изменениями морского льда................. 84
3.11 Величина JAXA SIC MAE, усредненная за 3 дня прогноза и за весь 2021 год (чем меньше, тем лучше) для различных пар регионов обучения и тестирования. Ожидается, что модели, обученные на любом регионе, будут работать лучше всего в этом регионе, а общая модель (обученная на всех трех регионах) будет хорошо работать на всех регионах. Каждый столбец (тестовый регион) имеет независимую цветовую схему, так что в целом выделяется верхняя темно-синяя диагональная матрица и нижняя темно-синяя строка. . 85
3.12 Зависимость JAXA SIC MAE (чем меньше, тем лучше) от заблаговременности прогноза для всех трех регионов. MAE усредняется за весь 2021 год. U-Net (S) и U-Net (R) обучаются на всех трех объединенных и перемешанных регионах с 7-дневной предысторией и наилучшей конфигурацией входов, представленной
в таблице 9.................................. 86
3.13 Зависимость улучшения JAXA SIC MAE относительно persistence (чем больше, тем лучше) от заблаговременности прогноза для всех трех регионов. MAE усредняется за весь 2021 год. U-Net (S) и U-Net (R) обучаются на всех трех объединенных и перемешанных регионах с 7-дневной предысторией и наилучшей конфигурацией входов, представленной в таблице 9.................... 86
3.14 Величина JAXA SIC MAE, усредненная в течение 3 дней прогноза всего 2021 года для различных абляций общей конфигурации U-Net (R) с GFS. Слева направо на каждой диаграмме мы сначала включаем аугментации, а затем добавляем persistence-бейзлайн к прогнозам в качестве базы (согласно уравнению 3.5) и приводим качество работы каждой версии модели................. 87
3.15 Улучшение JAXA SIC MAE (в процентных пунктах, чем выше, тем лучше) для общей U-Net (R) с GFS по сравнению с общей U-Net (R) без GFS для разных месяцев 2021 года и разных заблаговременностей прогноза. Все три области имеют независимые цветовые схемы. Улучшение рассчитывается в абсолютных
процентных пунктах и, как правило, выше для месяцев с
активными изменениями морского льда................. 87
3.16 Кривые обучения моделей для а) первой и третьей серий экспериментов (обучение на 50 эпохах) и б) второй серии экспериментов (обучение на 100 эпохах)................. 92
3.17 Примеры прогноза ледовых карт лучшими конфигурациями моделей в сравнении с реальными данными. Черным цветом изображен лед, белым — вода. Видно, что Са1е§огу-УАЕ улавливает
больше тонких деталей, таких как разрывы внутри основного массива льда, чем обычный VAE..................... 92
А.1 Примеры изображений для каждого из целевых и исходных
датасетов..................................125
А.2 Кривые обучения для различных целевых и исходных датасетов,
часть 1....................................128
А.3 Кривые обучения для различных целевых и исходных датасетов,
часть 2....................................129
Список таблиц
1 Точность линейного классификатора на двумерном скрытом пространстве для различных алгоритмов................ 35
2 Точность линейного классификатора на 64-мерном скрытом пространстве для различных алгоритмов................ 37
3 Датасеты, используемые в наших экспериментах. Все изображения приведены к разрешению 256 х 256. В последнем столбце представлены значения FID исходных контрольных точек, обученных со случайной инициализацией весов сетей (с нуля). ... 47
4 Метрики, рассчитанные для контрольной точки с наилучшим FID для различных исходных и целевых датасетов. Каждая строка таблицы соответствует определенному целевому датасету, а каждый столбец таблицы соответствует определенной исходной модели, используемой для инициализации обучения. Для каждого целевого датасета мы выделяем (оранжевым цветом) исходные датасеты, которые обеспечивают наилучший FID или тот, FID которого отличается от лучшего не более чем на 5%. В каждой ячейке мы сообщаем снизу вверх: FID (|), precision (t), recall (|) и скорость сходимости Ц), измеренную в миллионах изображений, показанных дискриминатору. Типичные значения стандартного отклонения измерений варьируются в пределах 1% и опущены для
читаемости таблицы. ........................... 51
5 Ошибки реконструкции для моделей GAN для разных исходных и целевых датасетов............................. 57
6 Количество целевых датасетов, для которых метрикам не удалось определить лучшую инициализацию (с отклонением наилучшего
FID до 5%)................................. 57
7 Параметры сетки одинаковы для всех регионов............. 68
8 Центральные точки проекций. Процент наличия представляет собой долю спутниковых данных, присутствующих в каждом регионе, по отношению к размеру региона (в ячейках). Отсутствие данных связано с ошибками распознавания и наличием суши (где величина SIC не имеет смысла)...................... 68
9 Выбранная конфигурация входов для экспериментов. "Данные" в предобработке означает, что никакой предварительной обработки, кроме стандартизации, не проводилось. Интервал "прошлое" означает конкатенацию всех указанных карт за все дни в прошлом, включая последний наблюдаемый день ("сегодня"). "Будущее" — конкатенация всех прогнозов для выходных дней (3 для S-режима и 1 для R-режима). В R-режиме соответствующие прогнозы последнего наблюдаемого дня заменяют данные и прогнозы ближайших дней, поэтому в модель не протекают еще не наблюдаемые данные и прогнозы из будущего.............. 77
10 Метрики SIC, усредненные в течение 3 дней прогноза и всего 2021 года для бейзлайнов и наших лучших конфигураций U-Net (общих с GFS). IIEE вычисляется для классов SIC с порогом бинаризации 15%. Для моделей мы сообщаем среднее и несмещенное стандартное отклонение для 3 независимых запусков со случайными сидами 0, 1 и 2. Жирным шрифтом выделены лучшие значения метрик в
каждой строке таблицы........................... 79
11 Первая серия экспериментов. Сравнение среднеквадратичной ошибки восстановления ледовых карт (исходн. MSE) и прогноза ледовых карт (прогнозн. MSE) обычного вариационного автокодировщика и автокодировщика с дополненным контекстом при обучении в течение 50 эпох без аугментаций исходного набора данных.................................... 90
12 Вторая серия экспериментов. Сравнение среднеквадратичной ошибки восстановления ледовых карт (исходн. MSE) и прогноза ледовых карт (прогнозн. MSE) обычного вариационного автокодировщика и автокодировщика с дополненным контекстом при обучении в течение 100 эпох с аугментациями исходного набора данных.................................... 91
13 Третья серия экспериментов. Сравнение среднеквадратичной ошибки восстановления ледовых карт (исходн. MSE) и прогноза ледовых карт (прогнозн. MSE) обычного вариационного автокодировщика и автокодировщика с дополненным контекстом, предобученных на датасете Tiny ImageNet, при обучении в течение
50 эпох без аугментаций исходного набора данных........... 91
14 Информация об используемых датасетах.................123
15 FID-расстояния между исходными и целевыми датасетами. Выделенная ячейка в каждой строке соответствует исходному домену, ближайшему к фиксированному целевому. Названия датасетов сокращены следующим образом: L.Bdr (LSUN Bedroom), L.Cat (LSUN Cat), L.Chr (LSUN Church), L.Dog (LSUN Dog), S.Bld (Satellite Buildings), S.Lnd (Satellite Landscapes), Imgn (Imagenet),
C-10 (CIFAR-10), Flw (Flowers), GC (Grumpy Cat), S (Simpsons). ... 124
16 KID-расстояния между исходными и целевыми датасетами. Выделенная ячейка в каждой строке соответствует исходному
домену, ближайшему к фиксированному целевому...........126
17 Значения précision, вычисленные для целевых датасетов относительно исходных...........................126
18 Значения recall, вычисленные для целевых датасетов относительно исходных...................................127
19 Количество реальных изображений, показанных дискриминатору, (шаг, в миллионах) для контрольной точки с лучшим значением FID, это значение и соответствующие значения précision и recall для более продолжительного обучения для двух вариантов инициализации GAN............................130
20 Показатели дообучения на датасете Flowers с инициализацией сошедшейся контрольной точкой и контрольной точкой, взятой в середине ее обучения............................131
Приложение А Трансфер обучения генеративно-состязательных сетей
А.1 Датасеты
Здесь мы указываем подробную информацию об используемых датасетах. В таблице 14 для каждого датасета приведены его размер, исходное разрешение изображений (которое в наших экспериментах всегда приводилось к 256 х 256), количество изображений, использованных для обучения, и ИНЬ-адрес, по которому его можно скачать. В таблицах 15, 16, 17, 18 мы приводим информацию о попарных расстояниях между исходными и целевыми датасетами в терминах различных показателей. На коллаже А.1 отображены примеры изображений из каждого из датасетов.
^aTaceT Размер Исходн. разреш. Взято изобр.
CIFAR-101 50 000 32 x 32 50 000
FFHQ2 70 000 1024 x 1024 70 000
Flowers3 8189 разное 8189
Grumpy-Cat4 100 256 x 256 100
Imagenet5 1281137 разное 1281137
LSUN Bedroom6 3 033 042 256 x 256 1000 000
LSUN Cat6 1657 266 256 x 256 1000 000
LSUN Church6 126227 256 x 256 126 227
LSUN Dog6 5 054 817 256 x 256 1000 000
Satellite-Buildings7 280 741 300 x 300 280 741
Satellite-Landscapes8 2 608 1800 x 1200 2 608
Simpsons9 41866 разное 41866
Таблица 14 — Информация об используемых датасетах.
FFHQ L.Bdr L.Cat L.Chr L.Dog S.Bld S.Lnd Imgn
FFHQ 0 244.0 194.8 240.5 178.8 256.1 233.3 150.8
L.Bdr 244.0 0 165.0 182.8 162.4 233.3 236.7 143.4
L.Cat 194.8 165.0 0 200.8 97.6 206.9 185.9 104.1
L.Chr 240.5 182.8 200.8 0 167.0 199.8 232.5 140.4
L.Dog 178.8 162.4 97.6 167.0 0 200.0 182.3 63.9
S.Bld 256.1 233.3 206.9 199.8 200.0 0 172.2 177.5
S.Lnd 233.3 236.7 185.9 232.5 182.3 172.2 0 145.3
C-10 197.2 188.1 120.9 192.3 102.2 202.1 185.3 85.4
Flw 257.7 254.7 235.4 243.8 215.9 285.4 261.4 192.8
GC 293.1 260.8 188.4 259.2 259.3 341.4 334.5 264.4
S 252.5 225.2 199.4 218.8 195.9 217.7 244.3 167.6
Таблица 15 — FID-расстояния между исходными и целевыми датасетами. Выделенная ячейка в каждой строке соответствует исходному домену, ближайшему к фиксированному целевому. Названия датасетов сокращены следующим образом: L.Bdr (LSUN Bedroom), L.Cat (LSUN Cat), L.Chr (LSUN Church), L.Dog (LSUN Dog), S.Bld (Satellite Buildings), S.Lnd (Satellite Landscapes), Imgn (Imagenet), C-10 (CIFAR-10), Flw (Flowers), GC (Grumpy Cat), S (Simpsons).
А.2 Кривые обучения
На графиках А.2 и А.3 мы приводим кривые обучения для запусков из таблицы 4 в основном тексте. Чтобы сделать графики более читаемыми, для каждого целевого набора данных мы сообщаем только кривые, соответствую-
1https://www.cs.toronto.edu/~kriz/cifar.html
2https://github.com/NVlabs/ffhq-dataset
3https://www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html
4https://hanlab.mit.edu/projects/data-efficient-gans/datasets/
5https://image-net.org/index.php
6https://www.yf.io/p/lsun
7https://www.aicrowd.com/challenges/mapping-challenge-old
8https://earthview.withgoogle.com
9https://www.kaggle.com/c/cmx-simpsons/data
Рисунок А.1 — Примеры изображений для каждого из целевых и исходных
датасетов.
FFHQ L.Bdr L.Cat L.Chr L.Dog S.Bld S.Lnd Imgn
FFHQ 0 0.237 0.169 0.213 0.116 0.230 0.165 0.116
L.Bdr 0.237 0 0.161 0.193 0.124 0.249 0.200 0.126
L.Cat 0.168 0.161 0 0.185 0.080 0.189 0.129 0.105
L.Chr 0.213 0.193 0.185 0 0.114 0.202 0.185 0.096
L.Dog 0.116 0.125 0.079 0.113 0 0.155 0.095 0.027
S.Bld 0.229 0.248 0.189 0.202 0.156 0 0.129 0.179
S.Lnd 0.165 0.200 0.130 0.185 0.095 0.129 0 0.109
C-10 0.137 0.149 0.092 0.144 0.048 0.170 0.117 0.060
Flw 0.227 0.260 0.211 0.230 0.157 0.277 0.212 0.153
GC 0.260 0.283 0.113 0.276 0.196 0.332 0.249 0.195
S 0.265 0.276 0.215 0.244 0.178 0.247 0.227 0.179
Таблица 16 — KID-расстояния между исходными и целевыми датасетами. Выделенная ячейка в каждой строке соответствует исходному домену, ближайшему к фиксированному целевому.
FFHQ L.Bdr L.Cat L.Chr L.Dog S.Bld S.Lnd Imgn
FFHQ 1 0.000 0.014 0.000 0.057 0.001 0.000 0.005
L.Bdr 0.333 1 0.333 0.235 0.337 0.307 0.058 0.021
L.Cat 0.448 0.598 1 0.253 0.384 0.619 0.229 0.094
L.Chr 0.027 0.050 0.007 1 0.058 0.208 0.016 0.003
L.Dog 0.539 0.679 0.591 0.350 1 0.726 0.265 0.144
S.Bld 0.000 0.000 0.000 0.000 0.000 1 0.000 0.000
S.Lnd 0.007 0.014 0.007 0.042 0.002 0.705 1 0.016
C-10 0.000 0.000 0.000 0.000 0.000 0.001 0.000 0.000
Flw 0.006 0.000 0.001 0.000 0.000 0.002 0.012 0.003
GC 0.000 0.000 0.001 0.000 0.000 0.000 0.000 0.000
S 0.000 0.000 0.000 0.012 0.000 0.046 0.000 0.000
Таблица 17 — Значения precision, вычисленные для целевых датасетов относительно исходных.
FFHQ L.Bdr L.Cat L.Chr L.Dog S.Bld S.Lnd Imgn
FFHQ 1 0.333 0.448 0.027 0.539 0.000 0.007 0.737
L.Bdr 0.000 1 0.598 0.050 0.679 0.000 0.014 0.124
L.Cat 0.014 0.333 1 0.007 0.591 0.000 0.007 0.218
L.Chr 0.000 0.235 0.253 1 0.350 0.000 0.042 0.303
L.Dog 0.057 0.337 0.384 0.058 1 0.000 0.002 0.325
S.Bld 0.001 0.307 0.619 0.208 0.726 1 0.705 0.533
S.Lnd 0.000 0.058 0.229 0.016 0.265 0.000 1 0.378
C-10 0.001 0.053 0.240 0.006 0.340 0.000 0.003 0.718
Flw 0.001 0.183 0.249 0.010 0.410 0.000 0.017 0.708
GC 0.000 0.020 0.790 0.000 0.970 0.000 0.000 0.000
S 0.013 0.324 0.328 0.060 0.379 0.000 0.045 0.294
Таблица 18 — Значения recall, вычисленные для целевых датасетов относительно исходных.
щие обучению с нуля, с инициализации Imagenet и с двух других контрольных точек, которые работают лучше всего среди остальных, в качестве репрезентативного подмножества исходных инициализаций.
А.3 Детали синтетических данных
Здесь мы приводим подробности эксперимента, описанного в разделе 2.2.2. Синтетические целевые данные формируются 10 гауссианами с центрами на окружности радиусом 20 и а = 0,25. Источник-I (синий) представляет собой распределение, сформированное как сумма равномерного распределения на окружности с нулевым центром радиуса 20 и гауссианы с нулевым центром с а = 4. Источник-II (зеленый) образован 3 гауссианами с центрами, совпадающими с соответствующими центрами трех гауссиан исходных данных и а = 0,5. Мы используем стандартную функцию потерь GAN [12] и выполняем 5000 шагов обучения генератора с 4 шагами дискриминатора для каждого шага генератора. Мы используем батч размером 64 и оптимизатор Adam со скоростью обучения 0,0002 и ßi, ß2 = 0,5,0,999. Генератор имеет
СШАЯ-Ю
10 15 20 млн. изображ.
10 15 20 млн. изображ.
БРНО
10 15 20 млн. изображ.
10 15 20 млн. изображ.
Р1о\уегБ
0 5 10 15 20 25 млн. изображ.
/
0 5 10 15 20 25 млн. изображ.
10 15 20 млн. изображ.
10 15 20 млн. изображ.
Сгшпоу-Са{
10 15 20 млн. изображ.
10 15 20 млн. изображ.
10 15 20 млн. изображ.
ЬБиЫ-Веагоош
10 15 20 млн. изображ.
10 15 20 млн. изображ.
10 15 20 млн. изображ.
10 15 20 млн. изображ.
10 15 20 млн. изображ.
ЬБиЫ-Ос^ ББИО
10 15 20 млн. изображ.
25
1.0 0.8 о.б
(о
о
О)
& 0.4 0.2 0.0
Случ. иниц. 1гг^епе1
Ьзиы-Веагоош
10 15 20 млн. изображ.
Эа1еШ1е-Ьапс18саре5
25
Рисунок А.2 — Кривые обучения для различных целевых и исходных датасетов,
часть 1.
- ЬБиЫ-Веагоош - Случ. иниц. - ББИО - ЬБиЫ-СЬигсЬ
LSUN-Dog --- LSUN-Cat
Рисунок А.З — Кривые обучения для различных целевых и исходных датасетов,
часть 2.
Датасет Шаг Сл FID уч. иниц. Precision Recall Шаг Imag FID enet иниц. Precision Recall
L.Bedroom 50 2.50 0.663 0.485 50 2.33 0.691 0.483
L.Cat 42 6.87 0.686 0.394 48 6.35 0.712 0.385
L.Church 36 3.01 0.705 0.547 12 3.00 0.693 0.523
L.Dog 40 12.7 0.751 0.384 45 12.8 0.753 0.382
S.Buildings 35 11.9 0.363 0.498 14 10.9 0.304 0.591
S.Landscapes 25 27.4 0.737 0.214 1 21.1 0.721 0.393
Таблица 19 — Количество реальных изображений, показанных дискриминатору, (шаг, в миллионах) для контрольной точки с лучшим значением FID, это значение и соответствующие значения precision и recall для более продолжительного обучения для двух вариантов инициализации GAN.
64-мерное скрытое пространство и состоит из шести последовательных линейных слоев. За всеми ними, кроме последнего, следуют батч-нормализации и ReLU-активации. Размеры промежуточных слоев: 64,128,128,128,64. Дискриминатор образован последовательностью из пяти линейных слоев, за каждым из которых, кроме последнего, следует ReLU-активация. Размеры промежуточных слоев: 64,128,128,64.
Начальные контрольные точки для экспериментов берутся из промежуточных контрольных точек обучения GAN для Источника-I. Мы берем каждый 50-ую контрольную точку, набрав всего 100. Выполняем дообучение до целевого распределения с теми же параметрами, что и выше, за исключением количества шагов, которое равно 1000.
А.4 Более продолжительное обучение
В этой серии экспериментов мы запускаем обучение GAN с исходной контрольной точки, которая предварительно обучена на Imagenet или случайно инициализирована на вдвое большем количестве шагов (50 миллионов реальных изображений, показанных дискриминатору). Результаты представлены в таблице 19. Как правило, предобучение Imagenet почти всегда либо улучшает качество GAN, либо работает так же, как и случайная инициализация, но при этом значительно ускоряет сходимость процесса обучения.
Исходн. контр. точка FID Precision Recall Шагов до сход.
Imagenet 8.31 0.77 0.28 9
Imagenet (половина) 8.54 0.81 0.22 25
FFHQ 9.47 0.79 0.25 22
FFHQ (половина) 9.5 0.77 0.27 25
Таблица 20 — Показатели дообучения на датасете Flowers с инициализацией сошедшейся контрольной точкой и контрольной точкой, взятой в середине ее обучения.
А.5 Трансфер с более ранней эпохи
В этом эксперименте проверяется, важно ли выполнять трансфер обучения с оптимальной исходной контрольной точки, дождавшись сходимости процесса ее оптимизации, или можно начать и с контрольной точки на промежуточном этапе процесса оптимизации. Чтобы ответить на этот вопрос, мы провели серию дополнительных экспериментов с Imagenet и FFHQ в качестве исходных датасетов и Flowers в качестве целевого датасета. В качестве исходных контрольных точек мы рассматриваем контрольную точку с лучшим FID и контрольную точку, подвергшуюся в два раза меньшему числу шагов оптимизации. Результаты этих запусков представлены в таблице 20. В целом, выбор между двумя этими вариантами оказывает лишь незначительное влияние на качество трансфера обучения, и можно с минимальными потерями качества результата использовать исходную контрольную точку в середине ее обучения для инициализации процесса дообучения GAN.
А.6 Детали экспериментов с инверсией GAN
Мы используем подход e4e к инверсии генератора, предложенный в [103], и обучаем кодировщик, который отображает реальные данные в скрытое пространство GAN. Известно, что эта схема способна отображать реальные изображения в скрытое пространство GAN, сохраняя все свойства генератора, такие как возможность манипуляции семантикой изображения. Мы следуем
оригинальной авторской реализации и обучаем независимую модель кодировщика для каждого генератора. Для генератора G мы получаем кодировщик Е, приближенно удовлетворяющий равенству G(E(ж))=ж для каждого реального изображения х. Мы оцениваем кодировщики с помощью среднего LPIPS-расстояния [102] между реальными примерами тестового датасета и их инверсиями: Ex^testLPIPS(^, G(E(ж))). Мы также приводим среднее расстояние между признаками исходного изображения и признаками реконструированного изображения с помощью предварительно обученного экстрактора признаков F: Ex^ptest||F(ж) — F(G(E(ж)))||2. Чем меньше эти две величины — тем лучше качество реконструкции. Следуя [103], для генераторов с целевым датасетом FFHQ мы обучаем кодировщик на наборе данных FFHQ и оцениваем его как на самом FFHQ, так и на независимом наборе данных Celeba-HQ. Что касается LSUN-Bedroom, мы разбиваем исходные данные на обучающую и тестовую под-выборки в пропорции 9 к 1 и обучаем e4e на первой, а оцениваем на второй. В качестве экстрактора признаков F для FFHQ мы используем предварительно обученную модель Face-ID, такую же, как и в [103]. Для LSUN-Bedroom мы используем модель MoCo-v2 [140].
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.