Методы оптимального транспорта на основе нейронных сетей для задач переноса стиля и предметной адаптации тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Асадулаев Арип Амирханович
- Специальность ВАК РФ00.00.00
- Количество страниц 222
Оглавление диссертации кандидат наук Асадулаев Арип Амирханович
Реферат
Synopsis
Введение
Глава 1. Обзор области
1.1 Оптимальный транспорт
1.1.1 Определения
1.1.2 Дискретные методы решения
1.1.3 Непрерывные методы
1.2 Предметная адаптация
1.2.1 Методы на основе оптимального транспорта
1.3 Перенос стиля голоса
1.3.1 Основные подходы на нейронных сетях
1.3.2 Методы, основанные на латентном пространстве
Выводы по главе
Глава 2. Увеличение точности дискретного оптимального
транспорта с помощью свойства циклической монотонности
2.1 Формулировка проблемы
2.2 Основные понятия
2.2.1 Состязательные атаки
2.2.2 Оптимальный транспорт для адаптации домена
2.3 Циклическая монотонность
2.4 Состязательные атаки являются циклическими монотонными преобразованиями
2.5 Метод эксплуатации циклически монотонных преобразования
для предметной адаптации
2.5.1 Мотивация
2.5.2 Алгоритм
2.6 Эксперименты
2.6.1 Данные
2.6.2 Сравнения
2.6.3 Настройки
2.7 Результаты
Выводы по главе
Глава 3. Непрерывный оптимальный транспорт для решения задачи предметной адаптации
3.1 Формулировка задачи
3.2 Основные понятия
3.3 Maximin реформулировка общей постановки оптимального
транспорта
3.3.1 Общая формулировка оптимального транспорта через
стохастические преобразования
3.4 Доказательства существования двойственной формулировки оптимального транспорта с общими функционалами стоимости . 79 3.4.1 Границы ошибки для приближенных решений для общей
формулировки оптимального транспорта
3.5 Обучение оптимального транспорта с произвольными(общими) функционалами стоимости
3.5.1 По-классовый функционал стоимости
3.5.2 Парный функционал стоимости
3.6 Эксперименты и анализ с по-классовым функционалом стоимости
3.6.1 Сравнение
3.6.2 Метрики
3.6.3 Результаты
3.7 Эксперименты и анализ с парным функционалом стоимости
3.7.1 Наборы данных и метрики
3.7.2 Гиперпараметры
3.7.3 Сравнение
3.7.4 Алгоритм
3.7.5 Результаты
3.8 Неминимаксная формулировка задачи оптимального транспорта
3.8.1 Постановка задачи
3.8.2 Алгоритм
3.8.3 Свойства аппроксимации
3.8.4 Эксперименты: Перевод домена с изображения на изображение
Выводы по главе
Глава 4. Оптимальный транспорт для задачи преобразования
голосового домена
4.1 Формулировка задачи
4.1.1 Предыдущие работы
4.2 Преобразование голоса с оптимальным переносом
4.2.1 Условный нейронный оптимальный транспорт
4.2.2 Анализ восстановленного транспортного преобразования
4.2.3 Экстремальный условно-оптимальный транспорт
4.2.4 Оптимальный транспорт, соответствующий потоку
4.3 Эксперименты в аудио домене мел-спектограмм
4.3.1 Набор данных и базовые линии
4.3.2 Настройки
4.3.3 Результаты
4.4 Мел-спектрограмма оптимального транспорта: Метод и детали оценки
4.4.1 Алгоритм
4.4.2 Обработка данных
4.4.3 Метрики
4.4.4 Обучение
4.4.5 Тестирование
4.5 Дополнительные эксперименты в рамках представления латентного пространства аудио
4.5.1 Набор данных и базовые показатели
4.5.2 Использованные параметры
4.5.3 Результаты
4.5.4 Дополнительные примеры работы
Выводы по главе
Заключение
Список литературы
Список иллюстраций
Список таблиц
Приложение. Тексты публикаций
Реферат
Актуальность темы. Разработка методов машинного обучения способных эффективно обучаться на небольшом объеме данных, является одной из основных проблематик искусственного интеллекта (ИИ). Потребность в больших объемах качественно размеченных данных существует как в теории, так и на практике. Эта проблема исследуется в ряде областей машинного обучения, таких как методы предметной адаптации и методы переноса знаний. В контексте современного развития методов искусственного интеллекта, эта задача становится решающей для успешного и надежного внедрения ИИ в различные сферы жизни.
Довольно частым сценарием является и полное отсутствие размеченных данных для определенной задачи. Это создает существенное препятствие как и во время разработки, так и для внедрения систем искусственного интеллекта в новые области. Для того чтобы обучать модели машинного обучения на специфичных задачах, необходимо привлекать большое количество специалистов, что требует много времени и ресурсов. Возникает потребность в специалистах для ручной разметки и сбора данных. Более того, в узких областях разметка данных требует специализированных знаний и навыков, что еще больше усложняет процесс. Все это делает традиционный подход адаптации к каждой новой задаче неэффективным и неустойчивым.
Эти факторы подчеркивают важность разработки инструментов для автоматизированной предметной адаптации. Цель этих методов - эффективно адаптировать предварительно обученные модели к новым, неразмеченным или частично размеченным данным. Такой подход позволяет сократить ресурсы необходимые для использования систем ИИ в новых задачах. Помимо использования знаний собранных существующей моделью, методы доменной адаптации избегают необходимости построения новой архитектуры ИИ под новую задачу. Вместо этого можно использовать уже готовую, немного подкорректированную обученную модель. Это открывает возможности для быстрого внедрения технологий искусственного интеллекта в различные отрасли экономики и сферы жизни.
Также, стоит подчеркнуть важность построения методов предметной адаптации с точки зрения сохранения конфиденциальности данных. В ситуациях, когда данные доступны, они зачастую распределены между различными устройствами или организациями. Это может создавать дополнительные сложности, связанные с объединением этих данных. Зачастую данные содержат конфиденциальную или личную информацию, что делает их прямую передачу и объединение небезопасным с точки зрения нарушения приватности и законодательства о защите персональных данных. В этом контексте методы предметной адаптации, позволяющие переносить знания между доменами без необходимости прямой передачи исходных данных, приобретают особую ценность. Один из разработанных подходов в настоящей диссертации, может применяться непосредственно в
таком сценарии. Исходя из вышесказанного, методы предметной адаптации является стратегически важной задачей для дальнейшего развития искусственного интеллекта и его широкого применения.
В данной работе, предлагается решение проблемы предметной адаптации, на основе методов оптимального транспорта. Оптимальный транспорт предоставляет собой инструментарий для преобразования вероятностных распределений и их анализа. Это делает его особенно подходящим для построения теоретически обоснованных и интерпретируемых подходов предметной адаптации. При этом, важно подчеркнуть, что оптимальный транспорт в тандеме с глубокими нейронными сетями обеспечивает эффективный перенос знаний между распределениями данных на практике.
В разрезе современного развития искусственного интеллекта, методы оптимального транспорта можно отнести к подходам генеративного моделирования. Оптимальный транспорт успешно применяется в математике, экономике и машинном обучении. Методы на основе оптимального транспорта которое стали одним из самых динамично развивающихся направлений в азадче предметной адаптации в последнее время.
Методы оптимального транспорта в предментной адаптации открывают новые возможности для создания более гибких и эффективных подходов. В контексте постоянно растущего разнообразия задач, которые необходимо решать с использованием систем ИИ, методы оптимального транспорта позволяют находить быстрое и оптимальное решение. При комбинировании методов оптимального транспорта с глубокими нейронными сетями, данный подход позволяет не только эффективно переносить знания, но и учитывать сложную структуру данных в высокой размерности, сохраняя при этом важные статистические свойства. Предлагаемый подход более универсален по сравнению с традиционными методами доменной адаптации, что приводит к значительному улучшению производительности и обобщающей способности.
Таким образом, методы предлагаемые в данной диссертации не только решают актуальную проблему в области машинного обучения, но и предлагает решение, превосходящие по эффективности лучшие из существующих подходов для предметной адаптации и переноса знаний. Результаты этой работы могут иметь широкое практическое применение в различных областях, от медицинской диагностики до автоматизированного принятия решений в бизнесе.
Степень разработанности темы. Решение задач оптимального транспорта обычно подразумевает либо нахождение оптимального преобразования (плана ОТ), либо стоимости оптимального преобразования (ОТ стоимость). В случае квадратичной стоимости транспортировки с(х,у) = , значение оптималь-
ной стоимости транспортировки известно как квадрат расстояния Вассерштейна. Оно обладает многими полезными свойствами, которые мы более подробно обсуждаем в настоящей диссертации. Оптимальное отображение для квадратичной стоимости является циклически монотонным. И в данной диссертации мы будем использовать данное свойства для построения метода предложенного в Главе
Разработку методов предметной адаптации на основе оптимального транспорта можно рассматривать в двух основных направлениях: дискретном и непрерывном. Каждое из этих направлений включает в себя разные преимущества и ограничения. Это делает их анализ и сравнение критически важным для понимания текущего состояния области.
По аналогии с методами оптимального транспорта в задаче предметной адаптации рассматриваются два домена: полностью маркированный исходный домен, обозначаемый Q, и немаркированный или частично маркированный целевой домен, обозначаемый P. Задача состоит в том, чтобы делать правильные предсказания на образцах целевого домена без меток, будучи обученным на образцах исходного домена. В этой задаче обычно используются оптимальные транспортные алгоритмы для сопоставления помеченных исходных образцов с непомеченными или частично помеченными образцами в целевом домене.
Дискретные оптимальные транспортные методы очень быстры, имеют низкую вычислительную сложность и обеспечивают теоретические гарантии в предметной адаптации. Однако на практике простые методы на основе оптимального трапспорта обеспечивают более низкую точность адаптации.
Основным недостатком дискретных методов оптимального трапспорта является то, что они выполняют только (стохастическое) сопоставление между заданными эмпирическими выборками и обычно не дают вневыборочных оценок. Это ограничивает их применение в реальных сценариях, где часто появляются новые (тестовые) образцы. Несмотря на проработанные теоретические свойства, эффективность таких методов в высоких размерностях вызывает сомнения. Дискретные методы предметной адаптации на принципах оптимального транспорта, как и дискретный оптимальный транспорт рассматривают конечное множество данных и предлагают решения, оптимизированные непосредственно для этого подмножества.
В рамках этого подхода были разработаны различные алгоритмы, среди которых особое место занимают методы, на основе подсчета дистанции Синхор-на. Эти методы позволяют эффективно адаптировать модели когда необходима адаптация к похожим, но не идентичным доменам. Синхорн основан на операциях матрично-векторного умножения и может комбинироваться с различными регуляризациями, такими как регуляризация группы Лассо (L1L2) и регуляризация лапласиана (L1LP). Чтобы сделать оптимальный транспорт применимым к вневыборочному отображению, был предложен линейный оптимальный оценщик отображения транспорта (OTLin). OTLin совместно вычисляет отображение Канторовича y и отображения T, связанные с исходной задачей Монжа (Глава 1). Оптимальный транспорт может быть простым решением проблемы адаптации домена. Обычно оптимальный транспорт используется для отображения помеченных исходных образцов в Q на немеченые или частично помеченные образцы в целевой P. Мы можем назвать этот процесс labels transfer. В этом случае оптимальный перенос обеспечивает соответствие между мечеными исходными образцами и немечеными целевыми образцами. После совпадения мы устанав-
ливаем метки целевых образцов равными соответствующим меткам исходных образцов.
Стоит отметить что методы на основе дистанции Синхорна основаны на вычислении оптимального транспорта с энтропийной регуляризацией. Применение данных подходов в задачах с большей размерностью было затем исследовано в контексте использования различных функций стоимости. Эти работы заложили основу для дальнейших исследований в области дискретных методов оптимального транспорта для предметной адаптации. Однако, как уже было сказано, дискретные методы имеют ряд ограничений. Главным недостатком является их ограниченная способность к обобщению на новые типы данных. Поскольку данные решатели сосредоточены на фиксированном подмножестве данных они не применимы к новым примерам, даже из того же распределения. Однако жти методы часто сталкиваются с трудностями при работе с высокоразмерными данными, такими как изображения высокого разрешения или сложные многомерные временные ряды. Кроме того, обеспечение устойчивости методов предметной адаптации к шуму и выбросам в данных, а также их способность эффективно работать в условиях ограниченных вычислительных ресурсов, остаются важными направлениями для дальнейших исследований.
Для обхода данных ограничений, может быть использована непрерывная постановка оптимального трапспорта. Данная формулировка обычно предполагает, что заданные дискретные распределения аналогичны базовым распределений. То есть, целью непрерывной оптимального трапспорта является восстановление плана оптимального трапспорта между распредениями которые доступны только по их (конечным) эмпирическим выборкам. В этом случае для представления плана приходится использовать параметрические аппроксимации оптимального трапспорта или двойственные потенциалы, которые, в свою очередь, дают прямые вневыборочные оценки.Более детально про двойственные потенциалы рассказно в Главе 2. Эти методы непрерывны и способны к обобщению. Методы нейронного оптимального транспорта предлагают инструменты для непрерывной адаптации моделей.
Существует несколько алгоритмов для нахождения этого отображения. Недавний подход использует градиентно-сходящийся алгоритм для вычисления оптимального транспорта. Основная идея заключается в аппроксимации оптимального потенциала ф* с помощью ГС№Ы, и извлечении оптимального генератора д* из его градиента Уф*. Метод непрактичен из-за высокой вычислительной сложности: во время основного цикла оптимизации он решает дополнительную оптимизационную подпроблему. Внутренняя задача является выпуклой, но требует больших вычислительных затрат. Это было отмечено в оригинальной статье и де-факто подтверждено отсутствием экспериментов со сложными распределениями. Внутренняя оптимизационная подпроблема удаляется, а для аппроксимации ее решения используется сеть. Это ускоряет вычисления, но задача все равно остается минимаксной.
Для того чтобы решить проблему адаптации домена с сохранением структуры классов при отображении с оптимальной транспортировкой, мы можем использовать функцию стоимости с, подходящую для этой задачи. Проблема в том, что стоимость часто неизвестна. В качестве решения этой проблемы были предложены алгоритмы обратного оптимального транспорта. Было показано, что функция стоимости, которая сохраняет базовую структуру данных при отображении, может быть восстановлена с помощью заданного отображения между распределениями данных. Например, было показано, что функция затрат может быть аппроксимирована нейронной сетью. Чтобы обучить функцию стоимости, необходимо решать транспортную задачу с помощью алгоритма Синхорна на каждом шаге оптимизации. Такие методы "обратного"оптимального транспорта плохо масштабируются и пока не применялись для решения задач предметной адаптации.
Важным замечанием является что обычно в доменной адаптации необходимо изменять архитектуру классификатора и обучать его отдельно для каждого целевого домена. Оптимальный транспорт может решить проблему адаптации к домену без модификации или тонкой настройки исходного классификатора. Мы предлагаем новую постановку задачи адаптации домена с использованием оптимального транспорта в отличие от всех описанных выше подходов. В общем случае к нашему методу могут быть подключены все разновидности решателей оптимального транспорта. В наших оценках мы продемонстрировали, что наш метод улучшает производительность ряда транспортных решателей.
Так же, стоит подметить родственне методы к методам непрерывного оптимального транспорта, являются работы на основе Методы доменной адаптации на основе генеративно-состязательных сетей (GAN), так называемые методы доменно-состязательного обучения (Domain-Adversarial Neural Networks). Значительный прогресс в области непрерывных методов был достигнут благодаря работе Domain-Adversarial Neural Networks, разработавших архитектуру Deep Adaptation Networks. Основная идея этих методов заключается в том, чтобы использовать генеративные модели для создания синтетических данных, которые могут помочь улучшить производительность модели на целевом домене. В процессе доменной адаптации GAN обучаются на данных из исходного домена и целевого домена одновременно. Генератор создает образцы, которые должны быть похожи на данные целевого домена, в то время как дискриминатор пытается отличить реальные данные целевого домена от синтетических. Этот процесс создает более обобщенные представления, которые помогают модели лучше справляться с различиями между доменами. Одним из ключевых преимуществ использования GAN для доменной адаптации является возможность генерации разнообразных образцов, что позволяет модели лучше захватывать распределение данных целевого домена. Это особенно полезно в ситуациях, когда доступ к данным целевого домена ограничен или когда они имеют другую структуру по сравнению с данными исходного домена.
Но данные подходы обладают и рядом недостатков. Во-первых, для успешной адаптации необходимо наличие большого объема данных из исходного домена. Если данные ограничены, это может негативно сказаться на качестве генерируемых семплов, что в итоге приведет к снижению производительности модели. Настройка параметров таких подходов также представляет собой сложную задачу, так как существует множество гиперпараметров, которые необходимо настроить для достижения успешных результатов. Это включает в себя такие параметры, как скорость обучения для генератора и дискриминатора, а также различные коэффициенты регуляризации. Каждый из этих параметров может оказывать значительное влияние на процесс обучения и конечные результаты. Сам процесс обучения данных моделей очень нестабилен и взаимодействие между гиперпараметрами может быть сложным и непредсказуемым. Изменение одного гиперпараметра может потребовать пересмотра других, чтобы сохранить баланс между генератором и дискриминатором. Более того усложняет задачу и факт от-сутсвия универсальных рекомендаций по настройке гиперпараметров для различных задач и доменов делает эту проблему еще более сложной. Это создает дополнительные трудности, особенно для новичков в области, которые могут не иметь достаточного опыта для эффективной настройки гиперпараметров. В главе 4 данной диссертации показано, как предлагаемый метод непрерывного оптимального транспорта способен упростить задачу поиска гипертпаратемров при состязательном обучении.
Несмотря на значительный прогресс направлении дискретных и непрерывных решателей, существует ряд нерешенных проблем. Например, разработка методов переноса знаний для данных большой размерности остается актуальной задачей. Во вторых, разработка методов оптимального транспорта для решения доменной адаптации с сохранением конфиденциальности данных, так же остается нерешенной. К тому же, методы нейронного оптимально транспорта основываются на состязательном тМтах обучении, что значительно увеличивает скорость и стабильность обучения. На решение данных проблем и направлена данная диссертация.
Таким образом, несмотря на значительные достижения в области предметной адаптации, разработка эффективных и универсальных методов переноса знаний, особенно для данных большой размерности, остается критически важной задачей. Решение этой задачи необходимо для обеспечения устойчивого и эффективного подхода к предметной адаптации в различных областях применения машинного обучения и искусственного интеллекта.
Цель: разработать методы оптимального транспорта на основе нейронных сетей для эффективного переноса знаний между распределениями большой размерности.
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Параметрические методы вычисления оптимальных транспортных отображений, расстояний и барицентров2023 год, кандидат наук Коротин Александр Андреевич
Исследование переносимости нейросетевых моделей между различными распределениями данных в задаче детектирования объектов2022 год, кандидат наук Никитин Андрей Дмитриевич
Интеллектуальная поддержка принятия решений для предупреждения поллинозов на основе автоматического распознавания изображений пыльцы2021 год, кандидат наук Ханжина Наталья Евгеньевна
Оптимизация помехоустойчивости и точности нейросетевого распознавания изображений2024 год, кандидат наук Зиядинов Вадим Валерьевич
Методы и алгоритмы обработки мультимодальных медицинских данных на основе переноса знаний в системах поддержки принятия клинических решений2020 год, кандидат наук Лобанцев Артём Андреевич
Введение диссертации (часть автореферата) на тему «Методы оптимального транспорта на основе нейронных сетей для задач переноса стиля и предметной адаптации»
Задачами данной работы является
1. Разработка алгоритмов улучшения точности дискретных методов оптимального транспорта: целью данной задачи является создание новых алгоритмов, направленных на повышение точности и эффективности дис-
кретных методов оптимального транспорта. Эта задача включает в себя разработку новых подходов к расчету стоимости переноса информации между доменами, улучшение методов адаптации весов или параметров модели для лучшего соответствия конкретному набору данных. В рамках этой задачи также происходит исследование и внедрение различных техник оптимизации, таких как методы стохастического градиентного спуска или методы вариационного вывода, для улучшения сходимости алгоритмов.
2. Разработка новых подходов непрерывного оптимального транспорта для решения задач предметной адаптации: В данном случае цель состоит в создании инновационных методов непрерывного оптимального транспорта, которые могут эффективно решать задачи доменной адаптации в условиях непрерывно изменяющихся данных. Это может включать в себя разработку новых архитектур нейронных сетей, способных адаптироваться к новым данным в режиме реального времени, а также исследование методов обучения с подкреплением или мета-обучения для обучения моделей, способных быстро адаптироваться к новым средам.
3. Алгоритмы оптимального транспорта для задач преобразования голоса: В этом случае основной целью является разработка алгоритмов оптимального транспорта, специализированных для задач преобразования голоса. Это может включать в себя создание методов, позволяющих эффективно адаптировать модели распознавания речи или синтеза речи к новым дикторам или акцентам, а также методов, способных улучшить качество преобразования речи при передаче через различные каналы связи или при записи в различных условиях окружающей среды.
4. Разработка методов непрерывного оптимального транспорта с общими функционалами стоимости для решения задач адаптации в несвязанных доменах: Цель заключается в создании методов непрерывного оптимального транспорта, способных решать задачи адаптации между несвязанными доменами. Это могут быть методы, позволяющие эффективно передавать информацию и знания между различными типами данных или областями знаний, несмотря на их различия. Такие методы могут включать в себя разработку общих функционалов стоимости, учитывающих различия между доменами и способствующих эффективной адаптации моделей к новым данным в различных контекстах.
Основные положения, выносимые на защиту:
1. Метод дискретного оптимального транспорта для решения задачи предметной адаптации, отличающийся от существующих решений тем, что с целью повышения точности решения генерирует специальное представление исходных данных (source fiction), обладающее теоретическими свойствами, удобными для применения оптимального транспорта.
2. Метод непрерывного оптимального транспорта для решения задачи предметной адаптации, отличающийся тем, что с целью решения задачи в больших размерностях основывается на двойственной формулировке оптимального транспорта с произвольными функционалами стоимости.
3. Метод непрерывного оптимального транспорта для решения задачи переноса стиля, отличающийся тем, что с целью увеличения эффективности решения использует парный функционал стоимости на двойственной формулировке оптимального транспорта с произвольными функционалами стоимости.
Научная новизна заключается в следующем:
1. Впервые предложен метод улучшения качества доменной адаптации с использованием методов дискретного оптимального транспорта на основе теории состязательных атак. Уникальность этого подхода заключается в интеграции теоретических особенностей методов состязательных атак и подходов на основе оптимального транспорта. Этот новый метод позволяет эффективно адаптировать модели к новым данным, учитывая потенциальные атаки на модель, что повышает ее устойчивость и обобщающую способность.
2. Впервые рассмотрен метод подсчета оптимальных транспортных преобразований на основе выпуклых по входу нейронных сетей. Применение теоремы о градиенте выпуклых функций в контексте нейронных сетей и оптимального транспорта является новаторским подходом, который не был ранее рассмотрен в литературе. Этот подход не только имеет высокую научную новизну, но также обладает практической значимостью благодаря уникальным алгоритмам и преимуществам.
3. Предложен новый метод непрерывного оптимального транспорта для решения задачи трансфера голоса. Помимо теоретического доказательства актуальности этого подхода, была также доказана его практическая эффективность. Этот новый метод позволяет эффективно преобразовывать голос между различными доменами, что имеет большое значение в области распознавания и синтеза речи.
4. Исследован и разработан метод непрерывного оптимального транспорта на основе нейронных сетей с использованием общих функционалов стоимости. Этот подход теоретически и практически обоснован, а исследуемые теоремы позволяют выявить новые свойства методов оптимального транспорта. Этот метод представляет собой важный шаг в развитии методов адаптации моделей к различным типам данных и доменам.
Методология и методы исследования.
Данная работа выполнена преимущественно в рамках методологии машинного обучения, которая служит основным фундаментом для исследования проблемы предметной адаптации. Однако, учитывая междисциплинарный ха-
рактер исследуемой проблемы, работа включает в себя широкий спектр подходов и методологий из различных областей математики и компьютерных наук.
В частности, в работе активно используются следующие методы и подхо-
- Теория оптимизации: Применяется для разработки и анализа алгоритмов предметной адаптации. Используются как классические методы оптимизации (градиентный спуск, метод Ньютона), так и современные подходы (стохастическая оптимизация, адаптивные методы оптимизации).
- Теория оптимального транспорта: Играет ключевую роль в разработке предлагаемых методов предметной адаптации. Используются как классические результаты теории (задача Монжа-Канторовича), так и современные разработки (энтропийно-регуляризованный оптимальный транспорт).
- Методы математического анализа: Применяются для теоретического обоснования предлагаемых алгоритмов, анализа их сходимости и оценки ошибок. Используются методы функционального анализа, теории меры и интегрирования.
- Математическая статистика: Используется для анализа статистических свойств данных и оценки эффективности предлагаемых методов. Применяются методы оценивания параметров, проверки статистических гипотез, анализа многомерных данных.
- Дискретная математика: Методы из этой области применяются при разработке алгоритмов обработки дискретных структур данных, оптимизации вычислительных процедур и анализе сложности алгоритмов.
- Методология проведения вычислительных экспериментов: Используется для эмпирической оценки эффективности разработанных алгоритмов. Включает в себя планирование экспериментов, сбор и обработку результатов, статистический анализ полученных данных.
- Вычислительная алгебра: Применяется для эффективной реализации алгоритмов, особенно в контексте работы с большими объемами данных и высокоразмерными пространствами.
- Численный анализ: Используется для разработки и реализации численных методов решения оптимизационных задач, возникающих в контексте предметной адаптации.
- Статистический анализ: Применяется для оценки статистической значимости полученных результатов, сравнения эффективности различных методов и валидации предлагаемых подходов.
Кроме того, в работе используются современные инструменты и технологии машинного обучения, включая: Фреймворки глубокого обучения (например, PyTorch, Jax) для реализации и обучения нейронных сетей. Библиотеки для обработки и анализа данных (например, NumPy, Pandas, SciPy) для эффективной работы с большими объемами данных. Инструменты визуализации (например, Matplotlib, Seaborn) для наглядного представления результатов экспериментов.
Интеграция этих разнообразных методологий и инструментов позволяет провести комплексное исследование проблемы предметной адаптации, охватывающее как теоретические аспекты, так и практическую реализацию и экспериментальную валидацию предлагаемых методов.
Проведение экспериментов, их подтверждение и анализ основываются на строгих научных принципах, включая воспроизводимость результатов, статистическую значимость и сравнение с существующими методами. Это обеспечивает надежность и обоснованность полученных выводов, а также позволяет оценить практическую применимость разработанных методов в реальных сценариях предметной адаптации.
Достоверность полученных результатов обеспечивается комплексным подходом к исследованию и подтверждается несколькими ключевыми фактора- Теоретическое обоснование: Корректное математическое обоснование постановок задач, опирающееся на строгие определения и формализацию проблемы предметной адаптации. Точная формулировка критериев оценки эффективности предложенных методов, учитывающая специфику задачи и современные стандарты в области машинного обучения. Строгие математические доказательства теоретических оценок производительности и сходимости разработанных алгоритмов, основанные на методах математического анализа и теории оптимизации.
- Экспериментальная валидация: Проведение обширных вычислительных экспериментов для эмпирической проверки эффективности предложенных подходов и методов. Использование разнообразных наборов данных, включая как общедоступные бенчмарки, так и специально подготовленные датасеты, отражающие различные сценарии предметной адаптации. Применение статистических методов для анализа результатов экспериментов, включая оценку статистической значимости полученных улучшений.
- Сравнительный анализ: Сопоставление результатов с существующими state-of-the-art методами в области предметной адаптации. Проведение ablation studies для оценки вклада отдельных компонентов предложенных методов в общую эффективность. Анализ производительности методов в различных условиях и на различных типах данных для оценки их обобщающей способности.
- Воспроизводимость результатов: Детальное описание экспериментальных установок, включая параметры алгоритмов и конфигурации вычислительной среды. Публикация исходного кода и используемых наборов данных для обеспечения возможности независимой проверки результатов.
- Согласованность с существующими исследованиями: Полученные результаты согласуются с результатами, полученными другими авторами в смежных областях исследования. Проведение сравнительного анали-
за с существующими методами показывает преемственность и развитие идей в области предметной адаптации.
- Экспертная оценка и публикации: Результаты исследования прошли рецензирование и были опубликованы в ведущих международных журналах и материалах конференций по машинному обучению и искусственному интеллекту. Обширный список публикаций на основе данной работы, включающий статьи в высокорейтинговых журналах и доклады на престижных конференциях, подтверждает признание научным сообществом значимости и достоверности полученных результатов.
- Независимая верификация: Использование предложенных методов другими исследователями и практиками в их работах, что подтверждается цитированием публикаций по теме диссертации.
Таким образом, достоверность результатов диссертационного исследования обеспечивается комплексным подходом, сочетающим строгое теоретическое обоснование, тщательную экспериментальную валидацию, сравнительный анализ с существующими методами, а также признание научным сообществом через публикации и цитирования. Это создает прочную основу для уверенности в корректности и значимости полученных результатов в области предметной адаптации и переноса знаний.
Теоретическая значимость работы заключается в получении ряда новых фундаментальных результатов в области предметной адаптации и оптимального транспорта, которые вносят существенный вклад в развитие теоретических основ машинного обучения и искусственного интеллекта. Ключевые теоретические достижения включают:
- Установление связи между методами состязательных атак и оптимального транспорта: Новая теорема, устанавливающая математическую связь между этими двумя, казалось бы, различными областями машинного обучения.Этот результат открывает новые перспективы для взаимного обогащения методов предметной адаптации.
- Минимизация дистанции Фреше в задачах генерации аудио: Новая теорема, доказывающая, что методы нейронного оптимального транспорта в задачах генерации аудио минимизируют дистанцию Фреше. Этот результат обеспечивает теоретическое обоснование эффективности применения методов оптимального транспорта в области обработки и генерации аудиосигналов.Теорема открывает новые возможности для разработки более эффективных алгоритмов генерации и трансформации аудио, основанных на принципах оптимального транспорта.
- Вывод двойственной формы для оптимального транспорта с общими функционалами стоимости: Новый теоретический результат, расширяющий классическую теорию оптимального транспорта на случай общих функционалов стоимости. Этот вывод позволяет применять методы оптимального транспорта к более широкому классу задач предметной адаптации, где традиционные метрики расстояния могут быть неэффек-
тивны. Результат открывает новые направления исследований в области теории оптимизации и ее приложений к задачам машинного обучения.
- Оценка ошибки между восстановленным решением и реальным оптимальным преобразованием: Новый научный теоретический результат, предоставляющий количественную оценку точности предложенных методов предметной адаптации. Эта оценка позволяет лучше понять ограничения и возможности разработанных алгоритмов, что критически важно для их практического применения. Результат создает основу для дальнейших исследований в области повышения точности и надежности методов предметной адаптации.
- Междисциплинарный характер исследования: Полученные результаты находятся на стыке нескольких областей: теории оптимального транспорта, машинного обучения, теории оптимизации. Это способствует развитию междисциплинарных подходов в науке о данных и искусственном интеллекте.
- Потенциал для дальнейших исследований: Каждый из полученных теоретических результатов открывает новые направления для дальнейших исследований и разработок в области предметной адаптации и смежных областях. Несмотря на свою теоретическую природу, полученные результаты имеют прямое отношение к практическим задачам, что повышает их значимость для развития прикладных аспектов машинного обучения.
- Вклад в фундаментальную теорию:Полученные результаты вносят вклад в развитие фундаментальной теории оптимального транспорта и ее приложений, расширяя границы понимания этой области математики.
Все вышеперечисленные теоремы и результаты не только представляют собой новые научные достижения, но и позволяют провести детальный теоретический анализ предлагаемых методов предметной адаптации. Это создает прочную математическую основу для разработки более эффективных и надежных алгоритмов в области машинного обучения и искусственного интеллекта, способных решать сложные задачи переноса знаний и адаптации моделей к новым доменам.
Практическая значимость работы заключается в повышении эффективности доменной адаптации, нейронный оптимальный транспорт и алгоритмы на базе предложенного подхода позволяют значительно ускорить и улучшить решения для различных задач доменной адаптации. Это обеспечивает более эффективное применение моделей машинного обучения в новых доменах без необходимости полного переобучения. Разработанные методы актуальны во многих практических областях, включая компьютерное зрение, обработку естественного языка, анализ временных рядов и другие. Методы переноса стиля для изображений большой размерности особенно актуальны для индустрии создания цифрового контента, позволяя автоматизировать и ускорить процессы художественной обработки изображений. Предложенные подходы открывают новые возможности для анализа и классификации цифрового контента, что важно для систем
рекомендаций, модерации контента и маркетинговых исследований. Ускорение процессов доменной адаптации позволяет сократить вычислительные затраты и время, необходимые для адаптации моделей к новым задачам.
Апробация результатов работы.
Основные результаты работы докладывались на следующих конференциях и семинарах:
1. Neural optimal transport with general cost junctionals. A Asadulaev, A Korotin, V Egiazarian, P Mokrov, E Burnaev. The 12th International Conference on Learning Representations (ICLR 2024) Vienna, Austria. Scopus, A*.
2. A Minimalist Approach for Domain Adaptation with Optimal Transport. A Asadulaev, V Shutov, A Korotin, A Panfilov, V Kontsevaya, A Filchenkov. Second Conference on Lifelong Learning Agents, 1009-1024. McGill University, Montréal, Québec, Canada. Scopus.
3. Wasserstein-2 Generative Networks. A Korotin, V Egiazarian, A Asadulaev, A Safin, E Burnaev. The 9th International Conference on Learning Representations (ICLR 2021). Scopus, A*.
Личный вклад автора. Личный вклад автора охватывает все ключевые аспекты исследования, включая генерацию идей, теоретическую разработку методов, их формализацию, практическую реализацию алгоритмов и проведение экспериментальных исследований. Идея метода улучшения оптимального транспорта на основе состязательных атак принадлежит лично автору диссертации. Формализация метода разработана совместно автором диссертации и А. Филь-ченковым. Реализация алгоритма и проведение вычислительных экспериментов выполнены лично автором диссертации.Методы двойственной задачи оптимального транспорта с общими функционалами стоимости: Идея методов разработана совместно автором диссертации и А. Коротиным. Формализация методов выполнена совместно автором диссертации и А. Коротиным. Алгоритмы инкрементального оптимального транспорта:Реализация алгоритмов и проведение вычислительных экспериментов выполнены лично автором диссертации. Метод непрерывного оптимального транспорта и его приложение для задачи трансфера голоса:Идея метода принадлежит лично автору диссертации. Формализация метода разработана лично автором диссертации. Реализация алгоритма и проведение вычислительных экспериментов выполнены совместно автором диссертации и Р. Корстом.
Содержание работы. Глава 1 представляет собой всесторонний обзор области исследования, закладывая теоретический фундамент для последующих глав. Она начинается с детального рассмотрения оптимального транспорта, включая его основные определения и концепции. Далее глава переходит к обсуждению как дискретных, так и непрерывных методов решения задач оптимально-
го транспорта, что обеспечивает читателя полным пониманием существующих подходов. Затем внимание переключается на предметную адаптацию, с особым акцентом на методы, основанные на оптимальном транспорте. Это создает мост между теорией оптимального транспорта и ее практическим применением в задачах машинного обучения. Завершается глава рассмотрением проблемы переноса стиля голоса, где обсуждаются основные подходы, использующие нейронные сети, а также методы, основанные на латентном пространстве. Таким образом, первая глава обеспечивает читателя всесторонним пониманием ключевых концепций и методов, необходимых для восприятия оригинальных исследований, представленных в последующих главах.
Глава 2 фокусируется на инновационном подходе к увеличению точности дискретного оптимального транспорта, используя свойство циклической монотонности. Она начинается с четкой формулировки проблемы и введения основных понятий, включая состязательные атаки и применение оптимального транспорта для адаптации домена. Ключевым вкладом этой главы является установление связи между состязательными атаками и циклически монотонными преобразованиями, что открывает новые возможности для улучшения методов предметной адаптации. На основе этого теоретического результата в главе предлагается новый метод, эксплуатирующий циклически монотонные преобразования для повышения эффективности предметной адаптации. Глава завершается подробным описанием экспериментов, включая используемые данные, методы сравнения и настройки, а также анализом полученных результатов, демонстрирующих эффективность предложенного подхода.
Глава 3 посвящена разработке и анализу методов оптимального транспорта с общими функционалами стоимости. Она начинается с формулировки задачи и введения основных понятий, необходимых для понимания предлагаемых методов. Ключевым вкладом этой главы является разработка maximinреформулиров-ки общей постановки оптимального транспорта и доказательство существования двойственной формулировки для оптимального транспорта с общими функционалами стоимости. Глава также предлагает методы обучения оптимального транспорта с произвольными функционалами стоимости, включая по-классовый и парный функционалы. Значительная часть главы посвящена экспериментальной валидации предложенных методов, включая сравнение с существующими подходами, анализ результатов и обсуждение практических аспектов применения разработанных алгоритмов. Завершается глава рассмотрением неминимаксной формулировки задачи оптимального транспорта, что открывает новые перспективы для дальнейших исследований в этой области.
Глава 4 фокусируется на применении методов оптимального транспорта к задаче преобразования голосового домена. Она начинается с обзора предыдущих работ в этой области и формулировки конкретной задачи исследования. Основной вклад этой главы заключается в разработке новых методов преобразования голоса с использованием оптимального транспорта, включая условный нейронный оптимальный транспорт и экстремальный условно-оптимальный транспорт.
Глава предоставляет детальный анализ восстановленного транспортного преобразования и вводит концепцию оптимального транспорта, соответствующего потоку. Значительная часть главы посвящена экспериментальной валидации предложенных методов, включая эксперименты с мел-спектрограммами и в рамках представления латентного пространства аудио. Глава завершается подробным описанием используемых наборов данных, метрик оценки, процессов обучения и тестирования, а также анализом полученных результатов, демонстрирующих эффективность предложенных подходов в задаче преобразования голосового домена.
Диссертация завершается разделом "Заключение который представлен на странице 76. В этом разделе, вероятно, обобщаются основные результаты исследования, подводятся итоги проделанной работы и формулируются ключевые выводы по каждой из глав. Заключение также может содержать обсуждение практической значимости полученных результатов и перспектив дальнейших исследований в области оптимального транспорта и предметной адаптации. После заключения следует "Список литературы". Этот раздел содержит библиографические ссылки на все источники, использованные в ходе исследования. Далее представлены "Список иллюстраций"и "Список таблиц которые обеспечивают удобную навигацию по визуальным материалам, использованным в диссертации. Завершает структуру диссертации раздел "Publications". Этот раздел, содержит список публикаций автора по теме диссертации.
Публикации автора диссертации по теме
- Neural optimal transport with general cost Junctionals. A Asadulaev, A Korotin, V Egiazarian, P Mokrov, E Burnaev. The 12th International Conference on Learning Representations (ICLR 2024) Vienna, Austria. Scopus, A*.
- A Minimalist Approach for Domain Adaptation with Optimal Transport. A Asadulaev, V Shutov, A Korotin, A Panfilov, V Kontsevaya, A Filchenkov. Second Conference on Lifelong Learning Agents, 1009-1024. McGill University, Montréal, Québec, Canada, Scopus.
- Wasserstein-2 Generative Networks. A Korotin, V Egiazarian, A Asadulaev, A Safin, E Burnaev. The 9th International Conference on Learning Representations (ICLR 2021). Scopus, A*.
Synopsis
Relevance
Solving the problem of domain adaptation and data transformation is one of the fundamental tasks of machine learning, gaining increasing relevance in the modern world of digital technologies. This problem lies at the intersection of several key areas of artificial intelligence (AI), including generative modeling, semi-supervised learning, and adaptive machine learning methods. In the era of big data and the widespread introduction of artificial intelligence into various spheres of life, the ability to effectively adapt machine learning models to new domains and data types becomes critical for further progress in the field of AI.
In real-world applications of machine learning methods, there is a strict need for large volumes of high-quality, labeled data. Both theoretically and practically, it has been repeatedly shown that increasing the volume of the training set is key to building effective and reliable machine learning models. This fact is confirmed by numerous studies and practical results in various fields of AI application, from computer vision to natural language processing. However, in reality, data may be limited or completely absent for a specific task or domain. This creates a significant obstacle to the development and implementation of artificial intelligence systems in new areas or for solving specific tasks.
The lack of sufficient labeled data for training machine learning algorithms requires the involvement of a large number of specialists for manual labeling. This process is not only labor-intensive but also extremely costly in terms of time and financial resources. Data labeling often requires special knowledge and skills, which further complicates and increases the cost of the process. Moreover, manual labeling can introduce subjectivity and errors, which negatively affects the quality of model training. All this makes the traditional approach to collecting and labeling data for each new task or domain extremely inefficient and unsustainable in the long term.
These factors underscore the critical importance of developing methodological, algorithmic, and software tools for domain adaptation. The goal of these methods is to effectively adapt pre-trained models to new, unlabeled or partially labeled datasets related to other domains or tasks. This approach allows for significantly reducing the time and resources required for deploying AI systems in new areas, avoiding the need to train a new architecture from scratch and solving the problem of processing unlabeled data. This opens up wide opportunities for the rapid introduction of artificial intelligence technologies into various sectors of the economy and spheres of society.
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Байесовский выбор субоптимальной структуры модели глубокого обучения2020 год, кандидат наук Бахтеев Олег Юрьевич
Генерация наборов данных для задачи классификации с заданными свойствами для повышения качества систем мета-обучения2020 год, кандидат наук Забашта Алексей Сергеевич
Доказуемая устойчивость нейронных сетей2024 год, кандидат наук Паутов Михаил Александрович
Исследование универсальности моделей статистической механики методами машинного обучения2024 год, кандидат наук Чертенков Владислав Игоревич
Высоконадежная биометрическая аутентификация на основе защищенного исполнения нейросетевых моделей и алгоритмов искусственного интеллекта2023 год, доктор наук Сулавко Алексей Евгеньевич
Список литературы диссертационного исследования кандидат наук Асадулаев Арип Амирханович, 2024 год
Список литературы
1. Ferradans, S., Papadakis, N., Peyré, G., Aujol, J.-F. Regularized discrete optimal transport // SIAM Journal on Imaging Sciences. — 2014. — Т. 7, №3. —С. 1853-1882.
2. Reich, S. A nonparametric ensemble transform method for Bayesian inference// SIAM Journal on Scientific Computing. — 2013. — Т. 35, № 4. — A2013-A2024.
3. Arjovsky, M., Chintala, S., Bottou, L. Wasserstein generative adversarial networks // International conference on machine learning. — PMLR. 2017. — С. 214-223.
4. Mroueh, Y. Wasserstein style transfer // arXiv preprint arXiv:1905.12828. — 2019.
5. Solomon, j., De Goes, F., Peyré, g., Cuturi, m., Butscher, a., Nguyen, a., Du, T., Guibas, L. Convolutional wasserstein distances: Efficient optimal transportation on geometric domains // ACM Transactions on Graphics (TOG). — 2015. — Т. 34, № 4. — С. 1-11.
6. Colombo, p, Staerman, G., Clavel, C., Piantanida, P. Automatic Text Evaluation through the Lens of Wasserstein Barycenters // arXiv preprint arXiv:2108.12463. —2021.
7. Courty, N., Flamary, R., Tuia, D., Rakotomamonjy, A. Optimal Transport for Domain Adaptation // CoRR. — 2015. — Т. abs/1507.00504. — arXiv: 1507. 00504. — URL: http://arxiv.org/abs/1507.00504.
8. Perrot, M., Courty, N., Flamary, R., Habrard, A. Mapping Estimation for Discrete Optimal Transport // Advances in Neural Information Processing Systems 29: Annual Conference on Neural Information Processing Systems 2016, December 5-10, 2016, Barcelona, Spain / под ред. D. D. Lee, M. Sugiyama, U. von Luxburg, I. Guyon, R. Garnett. — 2016. — С. 41974205. — URL: https : / / proceedings . neurips . cc / paper / 2016 / hash / 26f5bd4aa64fdadf96152ca6e6408068-Abstract.html.
9. Rakotomamonjy, A., Flamary, R., Gasso, G., Alaya, M.Z., Berar,M., Courty, N. Optimal Transport for Conditional Domain Matching and Label Shift // arXiv preprint arXiv:2006.08161. — 2020.
10. Ganin, Y., Lempitsky, V. S. Unsupervised Domain Adaptation by Backpropagation // Proceedings of the 32nd International Conference on Machine Learning, ICML 2015, Lille, France, 6-11 July 2015. Т. 37 / под ред. F. R. Bach, D. M. Blei. — JMLR.org, 2015. — С. 1180-1189. — (JMLR Workshop and Conference Proceedings). — URL: http://proceedings.mlr. press/v37/ganin15.html.
11. Long, M., Cao, Z., Wang, J., Jordan, M. I. Conditional Adversarial Domain Adaptation // Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018, NeurIPS 2018, December 3-8, 2018, Montréal, Canada / под ред. S. Bengio, H. M. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, R. Garnett. — 2018. — С. 16471657. — URL: https : / / proceedings . neurips . cc / paper / 2018 / hash / ab88b15733f543179858600245108dd8-Abstract.html.
12. Gretton, A., Borgwardt, K. M., Rasch, M.J., Schölkopf, B., Smola, A. J. A Kernel Two-Sample Test // J. Mach. Learn. Res. — 2012. — Т. 13. — С. 723-773. — URL: http://dl.acm.org/citation.cfm?id=2188410.
13. Long, M., Cao, Y., Wang, J., Jordan, M. I. Learning Transferable Features with Deep Adaptation Networks // Proceedings of the 32nd International Conference on Machine Learning, ICML 2015, Lille, France, 6-11 July 2015. Т. 37 / под ред. F. R. Bach, D. M. Blei. — JMLR.org, 2015. — С. 97-105. — (JMLR Workshop and Conference Proceedings). —URL: http://proceedings.mlr.press/ v37/long15.html.
14. Long, M., Zhu, H., Wang, J., Jordan, M. I. Deep Transfer Learning with Joint Adaptation Networks // Proceedings of the 34th International Conference on Machine Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017. Т. 70 / под ред. D. Precup, Y. W. Teh. — PMLR, 2017. — С. 2208-2217. — (Proceedings of Machine Learning Research). — URL: http://proceedings.mlr. press/v70/long17a.html.
15. Redko, I., Habrard, A., Sebban, M. Theoretical analysis of domain adaptation with optimal transport // Joint European Conference on Machine Learning and Knowledge Discovery in Databases. — Springer. 2017. — С. 737-753.
16. Villani, C. Optimal Transport: Old and New. — Springer Berlin Heidelberg, 2008. — (Grundlehren der mathematischen Wissenschaften). — URL: https: //books.google.ru/books?id=hV8o5R7%5C_5tkC.
17. Amos, B., Xu, L., Kolter, J. Z. Input Convex Neural Networks // Proceedings of the 34th International Conference on Machine Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017. Т. 70 / под ред. D. Precup, Y. W. Teh. — PMLR, 2017. — С. 146-155. — (Proceedings of Machine Learning Research). —URL: http://proceedings.mlr.press/v70/amos17b.html.
18. Rockafellar, R. Characterization of the subdifferentials of convex functions // Pacific Journal of Mathematics. — 1966. — Т. 17, № 3. — С. 497-510.
19. Santambrogio, F. Optimal Transport for Applied Mathematicians. Calculus of Variations, PDEs and Modeling. — 2015. — URL: https://www.math.u-psud.fr/~filippo/OTAM-cvgmt.pdf.
20. Taghvaei, A., Jalali, A. 2-Wasserstein Approximation via Restricted Convex Potentials with Application to Improved Training for GANs // CoRR. — 2019. — T. abs/1902.07197. — arXiv: 1902.07197. — URL: http://arxiv. org/abs/1902.07197.
21. Makkuva, A. V., Taghvaei, A., Oh, S., Lee, J. D. Optimal transport mapping via input convex neural networks // Proceedings of the 37th International Conference on Machine Learning, ICML 2020,13-18 July 2020, Virtual Event. T. 119. — PMLR, 2020. — C. 6672-6681. — (Proceedings of Machine Learning Research). — URL: http://proceedings.mlr.press/v119/makkuva20a. html.
22. S0nderby, C. K., Caballero, J., Theis, L., Shi, W., Huszar, F. Amortised map inference for image super-resolution // arXiv preprint arXiv:1610.04490. — 2016.
23. Villani, C. Topics in optimal transportation. — American Mathematical Soc., 2003.
24. Fenchel, W. On conjugate convex functions // Canadian Journal of Mathematics. — 1949. — T. 1, № 1. — C. 73-77.
25. McCann, R. J.Existence and uniqueness of monotone measure-preserving maps // Duke Mathematical Journal. — 1995. — T. 80, № 2. — C. 309-323.
26. Taghvaei, A., Jalali, A. 2-Wasserstein Approximation via Restricted Convex Potentials with Application to Improved Training for GANs // arXiv preprint arXiv:1902.07197. — 2019.
27. Chartrand, R., Wohlberg, B., Vixie, K., Bollt, E. A gradient descent solution to the Monge-Kantorovich problem // Applied Mathematical Sciences. — 2009. — T. 3, № 22. — C. 1071-1080.
28. Korotin, A., Egiazarian, V., Asadulaev, A., Burnaev, E. Wasserstein-2 Generative Networks // CoRR. — 2019. — T. abs/1909.13082. — arXiv: 1909.13082. — URL: http://arxiv.org/abs/1909.13082.
29. Fan, J., Taghvaei, A., Chen, Y. Scalable Computations of Wasserstein Barycenter via Input Convex Neural Networks // CoRR. — 2020. — T. abs/2007.04462. — arXiv: 2007 . 04462. — URL: https : / /arxiv . org/ abs/2007.04462.
30. Korotin, A., Li, L., Solomon, J., Burnaev, E. Continuous Wasserstein-2 Barycenter Estimation without Minimax Optimization // CoRR. — 2021. — T. abs/2102.01752. — arXiv: 2102.01752. — URL: https://arxiv.org/abs/2102. 01752.
31. Nash, J.C. The (Dantzig) simplex method for linear programming // Computing in Science & Engineering. — 2000. — T. 2, № 1. — C. 29-31.
32. Flamary, R., Courty, N., Gramfort, A, Alaya, M. ZBoisbunon, A., Chambon, S., Chapel, L., Corenflos, A., Fatras, K., Fournier, N.[h др.]. Pot: Python optimal transport // Journal of Machine Learning Research. — 2021. — Т. 22, № 78. — С. 1-8.
33. Ben-David, S., Blitzer, J., Crammer, K., Kulesza, A., Pereira, F., Vaughan, J.W. A theory of learning from different domains // Mach. Learn. — 2010. — Т. 79, № 1/2. — С. 151-175. —URL: https://doi.org/10.1007/s10994-009-5152-4.
34. Ben-David, S., Lu, T., Luu, T., Pal, D. Impossibility Theorems for Domain Adaptation // Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, AISTATS 2010, Chia Laguna Resort, Sardinia, Italy, May 13-15, 2010. Т. 9 / под ред. Y. W. Teh, D. M. Titterington. — JMLR.org, 2010. — С. 129-136. — (JMLR Proceedings). —URL: http://proceedings.mlr.press/v9/david10a.html.
35. Germain, P, Habrard, A., Laviolette, F., Morvant, E. A PAC-Bayesian Approach for Domain Adaptation with Specialization to Linear Classifiers // Proceedings of the 30th International Conference on Machine Learning, ICML 2013, Atlanta, GA, USA, 16-21 June 2013. Т. 28. — JMLR.org, 2013. — С. 738-746. — (JMLR Workshop and Conference Proceedings). — URL: http://proceedings.mlr.press/v28/germain13.html.
36. Arjovsky, M., Bottou, L. Towards principled methods for training generative adversarial networks // arXiv preprint arXiv:1701.04862. — 2017.
37. Petzka, H., Fischer, A., Lukovnikov, D. On the regularization of Wasserstein GANs // International Conference on Learning Representations. — 2018.
38. Liu, H., Gu, X., Samaras, D. Wasserstein GAN with quadratic transport cost // Proceedings of the IEEE International Conference on Computer Vision. — 2019. — С. 4832-4841.
39. Korotin, A., Kolesov, A., Burnaev, E. Kantorovich Strikes Back! Wasserstein GANs are not Optimal Transport? // arXiv preprint arXiv:2206.07767. — 2022.
40. Peyré, G., Cuturi, M. [и др.]. Computational optimal transport // Foundations and Trends® in Machine Learning. — 2019. — Т. 11, № 5/6. — С. 355-607.
41. Cuturi, M.Sinkhorn distances: Lightspeed computation of optimal transport // Advances in neural information processing systems. —2013. — С. 2292-2300.
42. Courty, N., Flamary, R., Tuia, D., Rakotomamonjy, A. Optimal transport for domain adaptation // IEEE transactions on pattern analysis and machine intelligence. — 2016. — Т. 39, № 9. — С. 1853-1865.
43. Rakotomamonjy, A., Flamary, R., Courty, N. Generalized conditional gradient: analysis of convergence and applications // arXiv preprint arXiv:1510.06567. — 2015.
44. Stuart, A. M., Wolfram, M.-T. Inverse optimal transport // SIAM Journal on Applied Mathematics. — 2020. — Т. 80, № 1. — С. 599-619.
45. Liu, R., Balsubramani, A., Zou, ./.Learning transport cost from subset correspondence // International Conference on Learning Representations. — 2020. — URL: https://openreview.net/forum?id=SJlRUkrFPS.
46. Li, R., Ye, X., Zhou, H., Zha, H. Learning to match via inverse optimal transport// Journal of machine learning research. — 2019. — Т. 20.
47. Hutter, /.-C., Rigollet, P. Minimax estimation of smooth optimal transport maps. —2021.
48. Pooladian, A.-A., Niles-Weed, /. Entropic estimation of optimal transport maps // arXiv preprint arXiv:2109.12004. — 2021.
49. Manole, T., Balakrishnan, S., Niles-Weed, /., Wasserman, L. Plugin estimation of smooth optimal transport maps // arXiv preprint arXiv:2107.12364. — 2021.
50. Deb, N., Ghosal, P, Sen, B. Rates of estimation of optimal transport maps using plug-in estimators via barycentric projections // Advances in Neural Information Processing Systems. — 2021. — Т. 34. — С. 29736-29753.
51. Cuturi, M.Sinkhorn Distances: Lightspeed Computation of Optimal Transport // Advances in Neural Information Processing Systems 26: 27th Annual Conference on Neural Information Processing Systems 2013. Proceedings of a meeting held December 5-8, 2013, Lake Tahoe, Nevada, United States / под ред. C. J. C. Burges, L. Bottou, Z. Ghahramani, K. Q. Weinberger. — 2013. — С. 2292-2300. — URL: https://proceedings. neurips.cc/paper/2013/hash/af21d0c97db2e27e13572cbf59eb343d-Abstract. html.
52. Goodfellow, I., Pouget-Abadie, /., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., Bengio, Y. Generative adversarial nets // Advances in neural information processing systems. — 2014. — С. 2672-2680.
53. Nowozin, S., Cseke, B., Tomioka, R. f-gan: Training generative neural samplers using variational divergence minimization // Advances in neural information processing systems. — 2016. — С. 271-279.
54. Karras, T, Aila, T., Laine, S., Lehtinen, /.Progressive growing of gans for improved quality, stability, and variation//arXiv preprint arXiv:1710.10196. — 2017.
55. Mirza,M., Osindero, S. Conditional generative adversarial nets//arXiv preprint arXiv:1411.1784. — 2014.
56. Seguy, V., Damodaran, B. B., Flamary, R., Courty, N., Rolet, A., Blondel, M. Large-scale optimal transport and mapping estimation // arXiv preprint arXiv:1711.02283. —2017.
57. Brenier, Y. Polar factorization and monotone rearrangement of vector-valued functions // Communications on pure and applied mathematics. — 1991. — Т. 44, № 4. — С. 375-417.
58. Lei, N., Su, K., Cui, L., Yau, S.-T., Gu, X. D. A geometric view of optimal transportation and generative model // Computer Aided Geometric Design. — 2019. — T. 68. — C. 1-21.
59. Makkuva, A. V., Taghvaei, A., Oh, S., Lee, J.D. Optimal transport mapping via input convex neural networks // arXiv preprint arXiv:1908.10962. — 2019.
60. Amos, B., Xu, L., Kolter, J. Z. Input convex neural networks // Proceedings of the 34th International Conference on Machine Learning-Volume 70. — JMLR. org. 2017. —C. 146-155.
61. Korotin, A., Selikhanovych, D., Burnaev, E. Neural Optimal Transport // International Conference on Learning Representations. — 2023. —URL: https: //openreview.net/forum?id=d8CBRlWNkqH.
62. Korotin, A., Egiazarian, V., Li, L., Burnaev, E. Wasserstein Iterative Networks for Barycenter Estimation// arXiv preprint arXiv:2201.12245. — 2022.
63. Korotin, A., Li, L., Genevay, A., Solomon, J., Filippov, A., Burnaev, E. Do Neural Optimal Transport Solvers Work? A Continuous Wasserstein-2 Benchmark // arXiv preprint arXiv:2106.01954. — 2021.
64. Rout, L., Korotin, A., Burnaev, E. Generative Modeling with Optimal Transport Maps // International Conference on Learning Representations. — 2022. — URL: https://openreview.net/forum?id=5JdLZg346Lw.
65. Fan, J., Liu, S., Ma, S., Zhou, H.-M., Chen, Y. Neural Monge Map estimation and its applications // Transactions on Machine Learning Research. — 2023. — URL: https://openreview.net/forum?id=2mZSlQscj3 ; Featured Certification.
66. Henry-Labordere, P. (Martingale) Optimal Transport And Anomaly Detection With Neural Networks: A Primal-dual Algorithm // Available at SSRN 3370910. —2019.
67. Makkuva, A., Taghvaei, A., Oh, S., Lee, J. Optimal transport mapping via input convex neural networks // International Conference on Machine Learning. — PMLR. 2020. — C. 6672-6681.
68. Korotin, A., Egiazarian, V., Asadulaev, A., Safin, A., Burnaev, E. Wasserstein-2 Generative Networks // International Conference on Learning Representations. — 2021. — URL: https : / / openreview . net / forum ? id = bEoxzW_EXsa.
69. Korotin, A., Li, L., Solomon, J., Burnaev, E. Continuous Wasserstein-2 Barycenter Estimation without Minimax Optimization // International Conference on Learning Representations. — 2021. — URL: https : / / openreview.net/forum?id=3tFAs5E-Pe.
70. Mokrov, P, Korotin, A., Li, L., Genevay, A., Solomon, J., Burnaev, E. Large-Scale Wasserstein Gradient Flows // arXiv preprint arXiv:2106.00736. — 2021.
71. Bunne, C., Meng-Papaxanthos, L., Krause, A., Cuturi, M. JKOnet: Proximal Optimal Transport Modeling of Population Dynamics. — 2021. —arXiv: 2106. 06345 [cs.LG] .
72. Alvarez-Melis, D., Schiff, Y., Mroueh, Y. Optimizing Functionals on the Space of Probabilities with Input Convex Neural Networks // Transactions on Machine Learning Research. — 2022.
73. Fan, J., Zhang, Q., Taghvaei, A., Chen, Y. Variational Wasserstein gradient flow // International Conference on Machine Learning. — PMLR. 2022. — C. 6185-6215.
74. Genevay, A., Cuturi, M., Peyré, G., Bach, F. Stochastic optimization for large-scale optimal transport // Advances in neural information processing systems. — 2016. — C. 3440-3448.
75. Seguy, V., Damodaran, B. B., Flamary, R., Courty, N., Rolet, A., Blondel, M. Large Scale Optimal Transport and Mapping Estimation // International Conference on Learning Representations. — 2018.
76. Daniels, G., Maunu, T., Hand, P. Score-based Generative Neural Networks for Large-Scale Optimal Transport // Advances in Neural Information Processing Systems.—2021.—T. 34.
77. Liu, R., Balsubramani, A., Zou, J.Learning transport cost from subset correspondence // arXiv preprint arXiv:1909.13203. — 2019.
78. Damodaran, B. B., Kellenberger, B., Flamary, R., Tuia, D., Courty, N. Deepjdot: Deep joint distribution optimal transport for unsupervised domain adaptation // Proceedings of the European Conference on Computer Vision (ECCV). — 2018. — C. 447-463.
79. Li, X., Grandvalet, Y., Flamary, R., Courty, N., Dou, D. Representation Transfer by Optimal Transport // arXiv preprint arXiv:2007.06737. — 2020.
80. Redko, I., Courty, N., Flamary, R., Tuia, D. Optimal transport for multi-source domain adaptation under target shift // The 22nd International Conference on Artificial Intelligence and Statistics. — PMLR. 2019. — C. 849-858.
81. Walczyna, T., Piotrowski, Z. Overview of Voice Conversion Methods Based on Deep Learning // Applied Sciences. — 2023. — T. 13, № 5. — C. 3100.
82. Popov, V., Vovk, I., Gogoryan, V., Sadekova, T., Kudinov, M., Wei, J. Diffusion-based voice conversion with fast maximum likelihood sampling scheme // arXiv preprint arXiv:2109.13821. —2021.
83. Li, Y. A., Zare, A., Mesgarani, N. StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for Natural-Sounding Voice Conversion. — 2021. — arXiv:2107.10394.
84. Baas, M., Niekerk, B. van, Kamper, H. Voice Conversion With Just Nearest Neighbors // arXiv preprint arXiv:2305.18975. — 2023.
85. Goodfellow, I. J., Shlens, J., Szegedy, C. Explaining and harnessing adversarial examples // arXiv preprint arXiv:1412.6572. — 2014.
86. Huang, H., Ma, X., Erfani, S. M., Bailey, J., Wang, Y. Unlearnable examples: Making personal data unexploitable // arXiv preprint arXiv:2101.04898. — 2021.
87. Mao, C., Chiquier, M., Wang, H., Yang, J., Vondrick, C. Adversarial attacks are reversible with natural supervision // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2021. — С. 661-671.
88. Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I. J., Fergus, R. Intriguing properties of neural networks // 2nd International Conference on Learning Representations, ICLR 2014, Banff, AB, Canada, April 14-16, 2014, Conference Track Proceedings / под ред. Y. Bengio, Y. LeCun. — 2014. — URL: http://arxiv.org/abs/1312.6199.
89. Papernot, N.,McDaniel, P. D., Goodfellow, I. J., Jha, S., Celik, Z. B., Swami, A. Practical Black-Box Attacks against Machine Learning // Proceedings of the 2017 ACM on Asia Conference on Computer and Communications Security, AsiaCCS 2017, AbuDhabi, United Arab Emirates, April 2-6,2017. — 2017. — С. 506-519. —URL: https://doi.org/10.1145/3052973.3053009.
90. Yuan,X., He, P, Zhu, Q., Li,X. Adversarial Examples: Attacks and Defenses for Deep Learning // IEEE Trans. Neural Netw. Learning Syst. — 2019. — Т. 30, № 9. — С. 2805-2824. — URL: https://doi.org/10.1109/TNNLS.2018. 2886017.
91. Schott, L., Rauber, J., Bethge, M., Brendel, W. Towards the first adversarially robust neural network model on MNIST // 7th International Conference on Learning Representations, ICLR 2019, New Orleans, LA, USA, May 6-9, 2019. —2019. — URL: https://openreview.net/forum?id=S1EHOsC9tX.
92. Xie, C., Wang, J., Zhang, Z., Zhou, Y., Xie, L., Yuille, A. Adversarial examples for semantic segmentation and object detection // Proceedings of the IEEE International Conference on Computer Vision. — 2017. — С. 1369-1378.
93. Petrov, D., Hospedales, T. M.Measuring the Transferability of Adversarial Examples // CoRR. — 2019. — Т. abs/1907.06291. — arXiv: 1907.06291. — URL: http://arxiv.org/abs/1907.06291.
94. Papernot, N., McDaniel, P. D., Goodfellow, I. J. Transferability in Machine Learning: from Phenomena to Black-Box Attacks using Adversarial Samples // CoRR. — 2016. — Т. abs/1605.07277. — arXiv: 1605.07277. — URL: http: //arxiv.org/abs/1605.07277.
95. Ilyas, A., Santurkar, S., Tsipras, D., Engstrom, L., Tran, B., Madry, A. Adversarial Examples Are Not Bugs, They Are Features // CoRR. — 2019. — Т. abs/1905.02175. — arXiv: 1905.02175. — URL: http://arxiv.org/abs/1905. 02175.
96. Xie, C., Tan, M., Gong, B., Wang, J., Yuille, A. L., Le, Q. V. Adversarial Examples Improve Image Recognition// CoRR. — 2019. — T. abs/1911.09665. — arXiv: 1911.09665. —URL: http://arxiv.org/abs/1911.09665.
97. Yang, J., Xu, R., Li, R., Qi, X., Shen, X., Li, G., Lin, L. An Adversarial Perturbation Oriented Domain Adaptation Approach for Semantic Segmentation // The Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI 2020, The Thirty-Second Innovative Applications of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2020, New York, NY, USA, February 7-12, 2020. — AAAI Press, 2020. — C. 12613-12620. — URL: https://aaai.org/ojs/index.php/AAAI/article/view/6952.
98. Pydi, M. S., Jog, V. Adversarial risk via optimal transport and optimal couplings // International Conference on Machine Learning. — PMLR. 2020. —C. 7814-7823.
99. Bouniot, Q., Audigier, R., Loesch, A. Optimal transport as a defense against adversarial attacks // 2020 25th International Conference on Pattern Recognition (ICPR). — IEEE. 2021. — C. 5044-5051.
100. Song, C., He, K., Wang, L., Hopcroft, J. E. Improving the generalization of adversarial training with domain adaptation // arXiv preprint arXiv:1810.00740. — 2018.
101. Wong, E., Schmidt, F. R., Kolter, J. Z. Wasserstein Adversarial Examples via Projected Sinkhorn Iterations // Proceedings of the 36th International Conference on Machine Learning, ICML 2019, 9-15 June 2019, Long Beach, California, USA. — 2019. — C. 6808-6817. — URL: http://proceedings.mlr. press/v97/wong19a.html.
102. Griessler, C. cyclical monotonicity as a sufficient criterion for optimality in the multimarginal Monge-Kantorovich problem // Proceedings of the American Mathematical Society. — 2018. — T. 146, № 11. — C. 4735-4740.
103. Asadulaev, A., Korotin, A., Egiazarian, V, Burnaev, E. Neural Optimal Transport with General Cost Functionals // arXiv preprint arXiv:2205.15403. — 2022.
104. Lee, J., Dabagia, M., Dyer, E. L., Rozell, C. J. Hierarchical optimal transport for multimodal distribution alignment // arXiv preprint arXiv:1906.11768. — 2019.
105. LeCun, Y., Cortes, C. MNIST handwritten digit database. — 2010. — URL: http://yann.lecun.com/exdb/mnist/.
106. Hull, J. J. A database for handwritten text recognition research // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 1994. — T. 16, № 5. — C. 550-554.
107.
108.
109.
110.
111
112.
113.
114.
115.
116.
117
118
119
120
Netzer, Y, Wang, T., Coates, A., Bissacco, A., Wu, B., Ng, A. Y. Reading digits in natural images with unsupervised feature learning. — 2011.
Ringwald, T., Stiefelhagen, R. Adaptiope: A modern benchmark for unsupervised domain adaptation // Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. — 2021. — C. 101-110.
Saenko, K., Kulis, B., Fritz, M., Darrell, T. Adapting visual category models to new domains // European conference on computer vision. — Springer. 2010. — C. 213-226.
He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2016. — C. 770-778.
Ruder, S. An overview of gradient descent optimization algorithms // CoRR. — 2016. — T. abs/1609.04747. — arXiv: 1609.04747. — URL: http://arxiv.org/ abs/1609.04747.
Yan, Y, Li, W., Wu, H., Min, H., Tan, M., Wu, Q. Semi-Supervised Optimal Transport for Heterogeneous Domain Adaptation. // IJCAI. T. 7. — 2018. — C. 2969-2975.
Dessein, A., Papadakis, N., Rouas, J.-L. Regularized optimal transport and the rot mover's distance // The Journal of Machine Learning Research. — 2018. — T. 19, № 1. — C. 590-642.
Paty, F.-P., Cuturi, M.Regularized optimal transport is ground cost adversarial // International Conference on Machine Learning. — PMLR. 2020. — C. 7532-7542.
Meng, C., Ke, Y., Zhang, J., Zhang, M., Zhong, W., Ma, P. Large-scale optimal transport map estimation using projection pursuit // arXiv preprint arXiv:2106.05838. — 2021.
Zhu, J.-Y., Park, T., Isola, P, Efros, A. A. Unpaired image-to-image translation using cycle-consistent adversarial networks // Proceedings of the IEEE international conference on computer vision. — 2017. — C. 2223-2232.
Gazdieva, M., Rout, L., Korotin, A., Filippov, A., Burnaev, E. Unpaired Image Super-Resolution with Optimal Transport Maps // arXiv preprint arXiv:2202.01116. — 2022.
Su, X., Song, J., Meng, C., Ermon, S. Dual diffusion implicit bridges for image-to-image translation // The Eleventh International Conference on Learning Representations. — 2022.
Alvarez-Melis, D., Fusi, N. Dataset Dynamics via Gradient Flows in Probability Space // International Conference on Machine Learning. — PMLR. 2021. — C. 219-230.
Santambrogio, F. Optimal transport for applied mathematicians // Birkâuser, NY.—2015. —T. 55, № 58-63. —C. 94.
121
122
123
124
125
126
127
128
129
130
131
132
133
134
Gozlan, N., Roberto, C., Samson, P.-M., Tetali, P. Kantorovich duality for general transport costs and applications // Journal of Functional Analysis. — 2017. — Т. 273, № 11. — С. 3327-3405.
Backhoff-Veraguas, J., Beiglbock, M., Pammer, G. Existence, duality, and cyclical monotonicity for weak transport costs // Calculus of Variations and Partial Differential Equations. — 2019. — Т. 58, № 6. — С. 1-28.
Alibert, J.-J., Bouchitté, G., Champion, T. A new class of costs for optimal transport planning // European Journal of Applied Mathematics. — 2019. — Т. 30, № 6. — С. 1229-1263.
Gozlan, N., Juillet, N. On a mixture of Brenier and Strassen theorems // Proceedings of the London Mathematical Society. — 2020. — Т. 120, № 3. — С. 434-463.
Genevay, A. Entropy-regularized optimal transport for machine learning : дис. ... канд. / Genevay Aude. — Paris Sciences et Lettres (ComUE), 2019.
Mena, G., Niles-Weed, J.Statistical bounds for entropic optimal transport: sample complexity and the central limit theorem // Advances in Neural Information Processing Systems. — 2019. — Т. 32.
Genevay, A., Chizat, L., Bach, F., Cuturi, M., Peyré, G. Sample complexity of sinkhorn divergences // The 22nd international conference on artificial intelligence and statistics. — PMLR. 2019. — С. 1574-1583.
Essid, M., Solomon, J. Quadratically regularized optimal transport on graphs // SIAM Journal on Scientific Computing. — 2018. — Т. 40, № 4. — A1961-A1986.
Terkelsen, F. SOME MINIMAX THEOREMS // Mathematica Scandinavica. — 1972. — Т. 31, № 2. — С. 405-413. — URL: http://www.jstor.org/stable/ 24490558 (дата обр. 05.12.2023).
Korotin, A., Selikhanovych, D., Burnaev, E. Kernel Neural Optimal Transport // International Conference on Learning Representations. — 2023. —URL: https: //openreview.net/forum?id=Zuc_MHtUma4.
Kouw, W. M., Loog, M. An introduction to domain adaptation and transfer learning // arXiv preprint arXiv:1812.11806. — 2018.
Rizzo, M. L., Székely, G. J.Energy distance // wiley interdisciplinary reviews: Computational statistics. — 2016. — Т. 8, № 1. — С. 27-38.
Sejdinovic, D., Sriperumbudur, B., Gretton, A., Fukumizu, K. Equivalence of distance-based and RKHS-based statistics in hypothesis testing // The Annals of Statistics. — 2013. — С. 2263-2291.
Xiao, H., Rasul, K., Vollgraf, R. Fashion-mnist: a novel image dataset for benchmarking machine learning algorithms // arXiv preprint arXiv:1708.07747. — 2017.
135. Almahairi, A., Rajeshwar, S., Sordoni, A., Bachman, P, Courville, A. Augmented cyclegan: Learning many-to-many mappings from unpaired data // International Conference on Machine Learning. — PMLR. 2018. — С. 195204.
136. Hoffman, J., Tzeng, E., Park, T., Zhu, J., Isola, P, Saenko, K., Efros, A. A., Darrell, T. CyCADA: Cycle-Consistent Adversarial Domain Adaptation // Proceedings of the 35th International Conference on Machine Learning, ICML 2018, Stockholmsmassan, Stockholm, Sweden, July 10-15, 2018. Т. 80 / под ред. J. G. Dy, A. Krause. — PMLR, 2018. — С. 1994-2003. — (Proceedings of Machine Learning Research). — URL: http://proceedings. mlr.press/v80/hoffman18a.html.
137. Huang, X., Liu, M.-Y., Belongie, S., Kautz, J. Multimodal unsupervised image-to-image translation // Proceedings of the European conference on computer vision (ECCV). — 2018. — С. 172-189.
138. Liu, M.-Y., Breuel, T., Kautz, J. Unsupervised image-to-image translation networks // Advances in neural information processing systems. — 2017. — С. 700-708.
139. Alvarez-Melis, D., Fusi, N. Geometric dataset distances via optimal transport // Advances in Neural Information Processing Systems. — 2020. — Т. 33. — С. 21428-21439.
140. Perrot, M., Courty, N., Flamary, R., Habrard, A. Mapping estimation for discrete optimal transport // Advances in Neural Information Processing Systems. — 2016. — Т. 29.
141. Heusel, M., Ramsauer, H., Unterthiner, T., Nessler, B., Hochreiter, S. Gans trained by a two time-scale update rule converge to a local nash equilibrium // Advances in neural information processing systems. — 2017. — С. 6626-6637.
142. Isola, P, Zhu, J.-Y., Zhou, T., Efros, A. A. Image-to-image translation with conditional adversarial networks // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2017. — С. 1125-1134.
143. Lee, C.-H., Liu, Z., Wu, L., Luo, P. MaskGAN: Towards Diverse and Interactive Facial Image Manipulation // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 2020.
144. Ronneberger, O., Fischer, P, Brox, T. U-net: Convolutional networks for biomedical image segmentation // International Conference on Medical image computing and computer-assisted intervention. — Springer. 2015. — С. 234241.
145. Kingma, D. P, Ba, J. Adam: A method for stochastic optimization // arXiv preprint arXiv:1412.6980. — 2014.
146. Yadav, A., Shah, S.,Xu, Z., Jacobs, D., Goldstein, T. Stabilizing adversarial nets with prediction methods // arXiv preprint arXiv:1705.07364. — 2017.
147
148
149
150
151
152
153
154
155
156
157
158
159
160
Li, C.-L., Chang, W-C., Cheng, Y., Yang, Y., Poczos, B. Mmd gan: Towards deeper understanding of moment matching network // Advances in Neural Information Processing Systems. — 2017. — C. 2203-2213.
Mroueh, Y., Sercu, T. Fisher gan // Advances in Neural Information Processing Systems. — 2017. — C. 2513-2523.
Peyre, G. Mathematical Foundations of Data Sciences // def. — 2018. — T. 1, 2n. — 2n.
Chen, Y., Shi, Y., Zhang, B. Optimal control via neural networks: A convex approach// arXiv preprint arXiv:1805.11835. — 2018.
Burt, P., Adelson, E. The Laplacian pyramid as a compact image code // IEEE Transactions on communications. — 1983. — T. 31, № 4. — C. 532-540.
Johnson, J., Alahi, A., Fei-Fei, L. Perceptual losses for real-time style transfer and super-resolution // European conference on computer vision. — Springer. 2016. —C. 694-711.
Eskimez, S. E., Yoshioka, T., Wang, H., Wang, X., Chen, Z., Huang, X. Personalized speech enhancement: New models and comprehensive evaluation// ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — IEEE. 2022. — C. 356-360.
Huang, W.-C., Violeta, L. P., Liu, S., Shi, J., Yasuda, Y., Toda, T. The Singing Voice Conversion Challenge 2023 // arXiv preprint arXiv:2306.14422. — 2023.
Qian, K., Zhang, Y., Chang, S., Yang, X, Hasegawa-Johnson, M.AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss. — 2019. — arXiv:1905.05879.
Kilgour, K., Zuluaga, M., Roblek, D., Sharifi, M.Fr\'echet Audio Distance: A Metric for Evaluating Music Enhancement Algorithms // arXiv preprint arXiv:1812.08466. — 2018.
Gazdieva, M., Korotin, A., Selikhanovych, D., Burnaev, E. Extremal Domain Translation with Neural Optimal Transport // arXiv preprint arXiv:2301.12874. — 2023.
Chen, S., Wang, C., Chen, Z., Wu, Y., Liu, S., Chen, Z., Li, J., Kanda, N., Yoshioka, T., Xiao, X.[ngp.]. Wavlm: Large-scale self-supervised pre-training for full stack speech processing // IEEE Journal of Selected Topics in Signal Processing. — 2022. — T. 16, № 6. — C. 1505-1518.
Lipman, Y., Chen, R. T., Ben-Hamu, H., Nickel, M., Le, M.Flow matching for generative modeling // arXiv preprint arXiv:2210.02747. — 2022.
Tong, A., Malkin, N., Huguet, G., Zhang, Y., Rector-Brooks, J., Fatras, K., Wolf, G., Bengio, Y. Improving and generalizing flow-based generative models with minibatch optimal transport // arXiv preprint arXiv:2302.00482. — 2023.
161. Oord, A. v. d., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., Kalchbrenner, N., Senior, A., Kavukcuoglu, K. Wavenet: A generative model for raw audio // arXiv preprint arXiv:1609.03499. — 2016.
162. Kong, J., Kim, J., Bae, J.Hifi-gan: Generative adversarial networks for efficient and high fidelity speech synthesis // Advances in Neural Information Processing Systems. — 2020. — T. 33. — C. 17022-17033.
163. Malik, M., Malik, M. K., Mehmood, K., Makhdoom, I. Automatic speech recognition: a survey // Multimedia Tools and Applications. — 2021. — T. 80. —C. 9411-9457.
164. Yamamoto, R., Song, E., Kim, J.-M.Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multiresolution spectrogram // ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — IEEE. 2020. — C. 6199-6203.
165. Peyre, G. Course notes on Computational Optimal Transport // /mathematical-tours.github.io/. —2021. —URL: https://mathematical-tours.github.io/book-sources/optimal-transport/CourseOT.pdf.
166. Pooladian, A.-A., Ben-Hamu, H., Domingo-Enrich, C., Amos, B., Lipman, Y., Chen, R. Multisample flow matching: Straightening flows with minibatch couplings // arXiv preprint arXiv:2304.14772. — 2023.
167. Veaux, C., Yamagishi, J., MacDonald, K. [h gp.]. Superseded-cstr vctk corpus: English multi-speaker corpus for cstr voice cloning toolkit. — 2016.
168. Loshchilov, I., Hutter, F. Decoupled Weight Decay Regularization. — 2019. — arXiv:1711.05101.
169. Kum, S., Nam, J. Joint Detection and Classification of Singing Voice Melody Using Convolutional Recurrent Neural Networks // Applied Sciences. — 2019.
170. Yamamoto, R., Song, E., Kim, J.-M.Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multiresolution spectrogram. — 2020. — arXiv:1910.11480.
171. Lo, C.-C., Fu, S.-W., Huang, W.-C., Wang, X, Yamagishi, J., Tsao, Y., Wang, H.-M. MOSNet: Deep Learning-Based Objective Assessment for Voice Conversion//Proc. Interspeech 2019. — 2019. — C. 1541-1545.
172. Chen, S., Wang, C., Chen, Z., Wu, Y, Liu, S., Chen, Z., Li, J., Kanda, N., Yoshioka, T., Xiao, X., Wu, J., Zhou, L., Ren, S., Qian, Y, Qian, Y., Wu, J., Zeng, M., Wei, F. WavLM: Large-Scale Self-Supervised Pre-training for Full Stack Speech Processing. — 2021. — arXiv: 2110.13900 [cs.CL].
173. Wang, D., Deng, L., Yeung, Y T., Chen, X., Liu, X., Meng, H. Vqmivc: Vector quantization and mutual information-based unsupervised speech representation disentanglement for one-shot voice conversion // arXiv preprint arXiv:2106.10132. — 2021.
174. Li, J., Tu, W., Xiao, L. Freevc: Towards high-quality text-free one-shot voice conversion // ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — IEEE. 2023. — C. 1-5.
175. Casanova, E., Weber, J., Shulby, C. D., Junior, A. C., Golge, E., Ponti, M. A. Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone // International Conference on Machine Learning. —PMLR. 2022. — C. 2709-2720.
176. Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., Sutskever, I. Robust speech recognition via large-scale weak supervision // International Conference onMachine Learning. —PMLR. 2023. — C. 28492-28518.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Список иллюстраций
Иллюстрация предлагаемого метода. Наш метод состоит из трех шагов: (А) Предварительное обучение исходного классификатора /в на исходных данных <Ц>. (В) Атакуем исходный классификатор помеченными целевыми образцами Р, чтобы сгенерировать примеры, которые классифицируются правильно с высокой уверенностью Р'. (С) Используем оптимальный транспорт Т1 для выравнивания немаркированных целевых образцов и маркируем их
с помощью fe................................ 69
FMNIST to MNIST............................. 88
MNIST to KMNIST ............................ 89
MNIST to USPS .............................. 89
MNIST to MNIST-M............................ 90
Результаты нашего метода с функционалом pair-guided cost functional в сравнении с другими методами, примененные к задаче контролируемого перевода с изображения на изображение
(Comic-Faces-V1, 256 х 256)........................ 90
Результаты для Edges-to-Shoes с парой, направляемой стоимостью,
разрешение изображений is 256 х 256.................. 93
Результаты для CelebAMask с перцептивной стоимостью, основанной на VGG и ориентированной на пары, разрешение
изображений составляет 256 х 256.................... 93
Результаты для Comic-Faces-V1 с затратами на парное управление,
разрешение изображений 512 х 512.................... 94
Сначала mel-спектрограмма диктора-источника подается на преобразованийу T, а эталонная подается на кодер диктора и также используется как вход для T и f (во время обучения). преобразование T выдает преобразованную спектрограмму,
которую вокодер снова преобразует в сырой звук ............ 109
Wav-аудио поступает в WavLM. Одновременно с этим в WavLM подается ссылка. Затем OT-сопоставление LOTM (SinkVC или FMVC) преобразует голос в заданные латентные представления. После вывода результаты преобразуются обратно в сырой звук с
помощью вокодера.............................113
FAD scores for the many-to-many conversion problem, during training
of our proposed XNOT-VC method. Steps are in 10e4 scale........117
На рисунке показана оценка WER в зависимости от размера речи
целевого диктора..............................121
pMOS баллы в зависимости от предоставленной целевой длины . . . 122
15 Оценки EER в зависимости от предоставленной целевой длины. Оценка EER ниже для FMVC, в то время как этот метод генерирует новую оценку, которая может статистически отличаться от данных,
на которых обучалась модель EER ASR.................122
16 WER оценивает в зависимости от предоставленной целевой длины . 122
Список таблиц
1 Digits dataset. Точность^ различных оптимальных алгоритмов адаптации домена на основе транспорта в латентном пространстве модели ResNet50 .............................. 70
2 Modern Office-31 dataset. Точность^ различных оптимальных алгоритмов адаптации домена на основе транспорта в латентном пространстве модели ResNet50 ...................... 71
3 FID I of the maps learned by the translation methods in view....... 92
4 Результаты преобразования "многие-ко-многим"на наборе данных VCTK. Символ t указывает на то, что более высокий результат
лучше, а I - на то, что более низкий результат лучше..........114
5 Результаты преобразования "любой ко многим"на наборе данных VCTK. Символ t указывает на то, что более высокая оценка лучше,
а I - на то, что более низкая оценка лучше ...............114
6 Время генерации выводов в течение 5 секунд на GPU Tesla V100-SXM3-32GB ............................ 116
7 Результаты преобразования "любой в любой"на наборе данных Librispeech. Символ t указывает на то, что более высокая оценка лучше, а I - на то, что более низкая оценка лучше............120
Приложение. Тексты публикаций
Wasserstein-2 Generative Networks
Alexander Korotin
Skolkovo Institute of Science and Technology
Moscow, Russia a.korotin@skoltech.ru
Vage Egiazarian
Skolkovo Institute of Science and Technology
Moscow, Russia
vage.egiazarian@skoltech.ru
Arip Asadulaev
ITMO University
Saint Petersburg, Russia aripasadulaev@itmo.ru
Aleksandr Safin
Skolkovo Institute of Science and Technology
Moscow, Russia
aleksandr.safin@skoltech.ru
Evgeny Burnaev
Skolkovo Institute of Science and Technology
Moscow, Russia e.burnaev@skoltech.ru
Abstract
We propose a novel end-to-end non-minimax algorithm for training optimal transport mappings for the quadratic cost (Wasserstein-2 distance). The algorithm uses input convex neural networks and a cycle-consistency regularization to approximate Wasserstein-2 distance. In contrast to popular entropic and quadratic regulariz-ers, cycle-consistency does not introduce bias and scales well to high dimensions. From the theoretical side, we estimate the properties of the generative mapping fitted by our algorithm. From the practical side, we evaluate our algorithm on a wide range of tasks: image-to-image color transfer, latent space optimal transport, image-to-image style transfer, and domain adaptation.
1 Introduction
Generative learning framework has become widespread over the last couple of years tentatively starting with the introduction of generative adversarial networks (GANs) by Goodfellow et al. (2014). The framework aims to define a stochastic procedure to sample from a given complex probability distribution Q on a space Y c e.g. a space of images. The usual generative pipeline includes sampling from tractable distribution P on space X and applying a generative mapping g : X — Y that transforms P into the desired Q.
In many cases for probability distributions P, Q, there may exist several different generative mappings. For example, the mapping in Figure 1b seems to be better than the one in Figure 1a and should be preferred: the mapping in Figure 1b is straightforward, well-structured and invertible.
Existing generative learning approaches mainly do not focus on the structural properties of the generative mapping. For example, GAN-based approaches, such as f -GAN by Nowozin et al. (2016); Yadav et al. (2017), W-GAN by Arjovsky et al. (2017) and others Li et al. (2017); Mroueh & Sercu (2017), approximate generative mapping by a neural network with a problem-specific architecture.
(a) An Arbitrary Mapping. (b) The Monotone Mapping.
Figure 1: Two possible generative mappings that transform distribution P to distribution Q.
The reasonable question is how to find a generative mapping g o P = Q that is well-structured. Typically, the better the structure of the mapping is, the easier it is to find such a mapping. There are many ways to define what the well-structured mapping is. But usually, such a mapping is expected to be continuous and, if possible, invertible. One may note that when P and Q are both one-dimensional (X, Y C R1), the only class of mappings g : X — Y satisfying these properties are monotone mappings1, i.e. Vx, x' € X (x = x') satisfying (g(x) — g(x')) • (x — x') > 0. The intuition of 1-dimensional spaces can be easily extended to X, Y C RD. We can require the similar condition to hold true: Vx, x' € X (x = x')
<g(x) — g(x'),x — x'} > 0. (1)
The condition (1) is called monotonicity, and every surjective function satisfying this condition is invertible. In one-dimensional case, for any pair of continuous P, Q with non-zero density there exists a unique monotone generative map given by g(x) = FQ-1(FP(x)f McCann et al. (1995), where F0 is the cumulative distribution function of P or Q. However, for D > 1 there might exist more than one generative monotone mapping. For example, when P = Q are standard 2-dimensional Gaussian distributions, all rotations by angles — < a < are monotone and preserve the distribution.
One may impose uniqueness by considering only maximal Peyre (2018) monotone mappings g : X — Y satisfying VN = 2,3... and N distinct points xi,..., xN € X (N + 1 = 1):
N
^{g(xn),xn — xn+i} > 0. (2)
n=1
The condition (2) is called cycle monotonicity and also implies "usual" monotonicity (1).
Importantly, for almost every two continuous probability distributions P, Q on X = Y = RD there exists a unique cycle monotone mapping g : X — Y satisfying g o P = Q, see McCann et al. (1995). Thus, instead of searching for arbitrary generative mapping, one may significantly reduce the considered approximating class of mappings by using only cycle monotone ones.
According to Rockafellar (1966), every cycle monotone mapping g is contained in a sub-gradient of some convex function ^ : X — R. Thus, every convex class of functions may produce cycle monotone mappings (by considering sub-gradients of these functions). In practice, deep input convex neural networks (ICNNs, see Amos et al. (2017)) can be used as a class of convex functions.
Formally, to fit a cycle monotone generative mapping, one may apply any existing approach, such as GANs Goodfellow et al. (2014), with the set of generators restricted to gradients of ICNN. However, GANs typically require solving a minimax optimization problem.
It turns out that the cycle monotone generators are strongly related to Wasserstein-2 distance (W2). The approaches by Taghvaei & Jalali (2019); Makkuva et al. (2019) use dual form of W2 to find the optimal generative mapping which is cycle monotone. The predecessor of both approaches is the gradient-descent algorithm for computing W2 distance by Chartrand et al. (2009). The drawback of all these methods is similar to the one of GANs - their optimization objectives are minimax.
Cyclically monotone generators require that both spaces X and Y have the same dimension, which poses no practical limitation. Indeed, it is possible to combine a generative mapping with a decoder of a pre-trained autoencoder, i.e. train a generative mapping into a latent space. It should be also noted that the cases with equal dimensions of X and Y are common in computer vision. The typical example is image-to-image style transfer when both the input and the output images have the same size and number of channels. Other examples include image-to-image color transfer, domain adaptation, etc.
In this paper, we develop the concept of cyclically monotone generative learning. The main contributions of the paper are as follows:
1. Developing an end-to-end non-minimax algorithm for training cyclically monotone generative maps, i.e. optimal maps for quadratic transport cost (Wasserstein-2 distance).
2. Proving theoretical bound on the approximation properties of the transport mapping fitted by the developed approach.
3. Developing a class of Input Convex Neural Networks whose gradients are used to approximate cyclically monotone mappings.
1We consider only monotone increasing mappings. Decreasing mappings have analogous properties.
4. Demonstrating the performance of the method in practical problems of image-to-image color transfer, mass transport in latent spaces, image-to-image style translation and domain adaptation.
Our algorithm extends the approach of Makkuva et al. (2019), eliminates minimax optimization imposing cyclic regularization and solves non-minimax optimization problem. At the result, the algorithm scales well to high dimensions and converges up to 10x times faster than its predecessors.
The paper is structured as follows. Section 2 is devoted to Related Work. In Section 3, we give the necessary mathematical tools on Wasserstein-2 optimal transport. In Section 4, we derive our algorithm and state our main theoretical results. In Section 5, we provide the results of computational experiments. In Appendix A, we prove our theoretical results. In Appendix B, we describe the particular architectures of ICNN that we use for experiments. In Appendix C, additional experiments and training details are provided.
2 Related Work
Modern generative learning is mainly associated with Generative Adversarial Networks (GANs) Goodfellow et al. (2014); Arjovsky et al. (2017). Basic GAN model consists of two competing networks: generator g and discriminator d. Generator g takes as input samples x from given distribution P and tries to produce realistic samples from real data distribution Q. Discriminator d attempts to distinguish between generated and real distributions g o P and Q respectively. Formally, it approximates a dissimilarity measure between g o P and Q (e.g. f-divergence Nowozin et al. (2016) or Wasserstein-1 distance Arjovsky et al. (2017)). Although superior performance is reported for many applications of GANs Karras et al. (2017); Mirza & Osindero (2014), training such models is always hard due to the minimax nature of the optimization objective.
Another important branch of generative learning is related to the theory of Optimal Transport (OT) Villani (2008); Peyre et al. (2019). OT methods seek generative mapping2 g : X — Y, optimal in the sense of the given transport cost c : Xx Y — R:
Equation (3) is also known as Monge's formulation of optimal transportation Villani (2008).
The principal OT generative method Seguy et al. (2017) is based on optimizing the regularized dual form of the transport cost (3). It fits two potentials ^ (primal and conjugate) and then uses the barycentric projection to establish the desired (third) generative network g. Although the method uses non-minimax optimization objective, it is not end-to-end (consists of two sequential steps).
In the case of quadratic transport cost c(x, y) = , the value (3) is known as the square of
Wasserstein-2 distance:
It has been well studied in literature Brenier (1991); McCann et al. (1995); Villani (2003; 2008) and has many useful properties which we discuss in Section 3 in more detail. The optimal mapping for the quadratic cost is cyclically monotone. Several algorithms exist Lei et al. (2019); Taghvaei & Jalali (2019); Makkuva et al. (2019) for finding this mapping.
The recent approach by Taghvaei & Jalali (2019) uses the gradient-descent-based algorithm by Chartrand et al. (2009) for computing W2. The key idea is to approximate the optimal potential by an ICNN Amos et al. (2017), and extract the optimal generator g* from its gradient V^*. The method is impractical due to high computational complexity: during the main optimization cycle, it solves an additional optimization sub-problem. The inner problem is convex but computationally costly. This was noted in the original paper and de-facto confirmed by the lack of experiments with complex distributions. A refinement of this approach is proposed by Makkuva et al. (2019). The inner optimization sub-problem is removed, and a network is used to approximate its solution. This speeds up the computation, but the problem is still minimax.
2Commonly, in OT it is assumed that dim X = dim Y.
(3)
(4)
3 Preliminaries
In the section, we recall the properties of W2 distance (4) and its relation to cycle monotone mappings.
Throughout the paper, we assume that P and Q are continuous distributions on X = Y = RD with finite second moments.3 This condition guarantees that (3) is well-defined in the sense that the optimal mapping g* always exists. It follows from (Villani, 2003, Brenier's Theorem 2.12) that its restriction to the support of P is unique (up to the values on the small sets) and invertible. The symmetric characteristics apply to its inverse (g*)-1, which induces symmetry to definition (4) for quadratic cost. According to Villani (2003), the dual form of (4) is given by
W2(P, Q) = i ^dP(x) + i ^dQ(y) - min [ i V(x)dP(x) + / V(y)dQ(y)l , (5)
JX 2 J y 2 ^Stanrox [ Jx Jy \
Const(P,Q) Corr(P,Q)
where the minimum is taken over all the convex functions (potentials) V : X — R U {^}, and V(y) = maxx^x ({x, y} — V(x)) is the convex conjugate Fenchel (1949) to V, which is also a convex function, V : Y — R U {^}.
We call the value of the minimum in (5) cyclically monotone correlations and denote it by Corr(P, Q). By equating (5) with (4), one may derive the formula
Corr(P, Q) = max / {x, g(x)}dP(x). (6)
9°p=QJ x
Note that ( — Corr(P, Q)) can be viewed as an optimal transport cost for bilinear cost function c(x, y) = —{x, y}, see McCann et al. (1995). Thus, searching for optimal transport map g* for W2 is equivalent to finding the mapping which maximizes correlations (6).
It is known for W2 distance that the gradient g* = VV* of optimal potential V* readily gives the minimizer of (4), see Villani (2003). Being a gradient of a convex function, it is necessarily cycle monotone. In particular, the inverse mapping can be obtained by taking the gradient w.r.t. input of the conjugate of optimal potential V* (y) McCann et al. (1995). Thus, we have
(g*)-1(y) = (W)-1(y)= W*(y). (7)
In fact, one may approximate the primal potential V by a parametric class © of input convex functions V0 and optimize correlations
min Corr(P, Q | V0) = min i V*(x)dP(x) + / V0(y)dQ(y) (8)
0e© [ Jx Jy \
in order to extract the approximate optimal generator g*t : X — Y from the approximate potential V*t. Note that in general it is not true that g*t ◦ P will be equal to Q. However, we prove that if Corr(P, Q | V*t) is close to Corr(P, Q), then g*t ◦ P ~ Q, see our Theorem A.3 in Appendix A.2.
The optimization of (8) can be performed via stochastic gradient descent. It is possible to get rid of conjugate V0 and extract an analytic formula for the gradient of (8) w.r.t. parameters 9 by using V0 only, see the derivations in Taghvaei & Jalali (2019); Chartrand et al. (2009):
tQ^ = Jx ^dP(x) — Jy MdQ(y),
where in the second integral is computed at x = (VV*)-1(y), i.e. inverse value of y for VV*.
In practice, both integrals are replaced by their Monte Carlo estimates over random mini-batches from P and Q. Yet to compute the second integral, one needs to recover the inverse values of the current mapping VV0 for all y ~ Q in the mini batch. To do this, the following optimization sub-problem has to be solved
x = (VV0)-1(y) ^ £ = argmax ({x,y} — V*(x)) (9)
x£X
3In practice, the continuity condition can be assumed to hold true. Indeed, widely used heuristics, such as adding small Gaussian noise to data S0nderby et al. (2016), make considered distributions to be continuous.
for each y ~ Q in the mini batch. The optimization problem (9) is convex but complex because it requires computing the gradient of ^ multiple times. It is computationally costly since ^ is in general a large neural network. Besides, during iterations over 0, each time a new independent batch of samples arrives. This makes it hard to use the information on the solution of (9) from the previous gradient descent step over 0 in (8).
4 An End-to-end Non-Minimax Algorithm
In Subsection 4.1, we describe our novel end-to-end algorithm with non-minimax optimization objective for fitting cyclically monotone generative mappings. In Subsection 4.2, we state our main theoretical results on approximation properties of the proposed algorithm.
4.1 Algorithm
To simplify the inner optimization procedure for inverting the values of current V^e, one may consider the following variational approximation of the main objective:
min Corr(P, Q|^) = min I / ^(x)dP(x) + / max Rx,y} -
^£Convex ^ £ Convex [ J x Jy x£X j
min [ f V(x)dP(x) + maj [<T(y),y> - ^(T(y))]dQ(y)l, (10)
^ £ Convex [ Jx T J y \
where by considering arbitrary measurable functions T, we obtain a variational lower bound which matches the entire value for T = (V^) (y) = V^(y). Thus, a possible approach is to approximate both primal and dual potentials by two different networks ^e and and solve the optimization problem w.r.t. parameters 0, w, e.g. by stochastic gradient descent/ascent Makkuva et al. (2019). Yet such a problem is still minimax. Thus, it suffers from typical problems such as convergence to local saddle points, instabilities during training and usually requires non-trivial hyperparameters choice.
We propose a method to get rid of the minimax objective by imposing additional regularization. Our key idea is to add regularization term Ry (0, w) which stimulates cycle consistency Zhu et al. (2017), i.e. optimized generative mappings ge = V^e and g-1 = should be mutually inverse:
Ry(0,w)= / ||ge ◦ g-1(y) - y||2dQ(y)= / ||V^ o V^W(y) - y||2dQ(y). (11)
yy
From the previous discussion and equation (7), we see that cycle consistency is a quite natural condition for W2 distance. More precisely, if V^e and are exactly inverse to each other (assuming V^e is injective), then is a convex conjugate to ^e up to a constant.
In contrast to regularization used in Seguy et al. (2017), the proposed penalties use not the values of the potentials ^e, itself but the values of their gradients (generators). This helps to stabilize the value of the regularization term which in the case of Seguy et al. (2017) may take extremely high values due to the fact that convex potentials grow fast in absolute value.4
Our proposed regularization leads to the following non-minimax optimization objective (A > 0):
^e(x)dP(x) + / [<WW(y),y) - ^(V^W(y))]dQ(y)) + A Ry (0,w)j . (12)
y
Corr(P,Q|^,^;A)
The practical optimization procedure is given in Algorithm 1. We replace all the integrals by Monte Carlo estimates over random mini-batches from P and Q. To perform optimization, we use the stochastic gradient descent over parameters 0, w of primal ^e and dual potentials.
We use the automatic differentiation to evaluate V^e and the gradients of (12) w.r.t. parameters 0, w. The time required to compute the gradient of (12) w.r.t. 0, w is comparable by a constant factor
4For example, in the case of identity map g(x) = V^(x) = x, we have quadratic growth: ^ = X--—+ c.
Algorithm 1: Numerical Procedure for Optimizing Regularized Correlations (12)
Input: Distributions P, Q with sample access; cycle-consistency regularizer coefficient A > 0;
a pair of input-convex neural networks V* and V^; batch size K > 0;
for t = 1,2,... do
1. Sample batches X - P and Y - Q;
2. Compute the Monte-Carlo estimate of the correlations:
Lcorr = K \ E V* (x) + E (y) ,y} - V* (VVJ(y))] ];
K Lx€X y<=Y J
3. Compute the Monte-Carlo estimate of the cycle-consistency regularizer:
LCycle := K E II^V* ◦ VV^(y) - y||2;
K y€Y
4. Compute the total loss Liotal := LCorr + I - LCycle; c n.-^rm a gradient step over {0, w} by using dir*1^};
end
to the time required to compute the value of V* (x). We empirically measured that this factor roughly equals 8-12, depending on the particular architecture of ICNN V*(x). We discuss the time complexity of a gradient step of our method in a more detail in Appendix C.2.
In Subsection 5.1, we show that our non-minimax approach converges up to 10x times faster than minimax alternatives by Makkuva et al. (2019) and Taghvaei & Jalali (2019).
4.2 Approximation Properties
Our gradient-descent-based approach described in Subsection 4.1 computes Corr(P, Q) by approximating it with a restricted sets of convex potentials. Let (Vf, V*) be a pair of potentials obtained by the optimization of correlations. Formally, the fitted generators gf = VVf and (g*)-1 = VV* are byproducts of optimization (12). We provide guarantees that the generated distribution gf o P is indeed close to Q as well as the inverse mapping (g*)-1 pushes Q close to P. Theorem 4.1 (Generative Property for Approximators of Regularized Correlations). Let P, Q be two continuous probability distributions on X = Y = RD with finite second moments. Let V* : X — R be the optimal convex potential:
V* = argmin Corr(P,Q|V) = argmin I V(x)dP(x) + V(y)dQ(y) |. (13) Convex ^ e Convex L -j X Jy J
Let two differentiable convex functions Vf : X — R and V* : Y — R satisfy for some e € R:
Corr(P, Q | Vt,V*; A) < V*(x)dP(x) +J V*(y)dQ(y)J + e = Corr(P, Q)+e. (14)
y Equals (6)
Assume that Vf is -strongly convex > | > 0) and Bf-smooth (Bf > ¡f). Assume that V* has bijective gradient VV*. Then the following inequalities hold true:
1. Correlation Upper Bound (regularized correlations dominate over the true ones)
Corr(P, Q | Vt,V*; A) > Corr(P, Q) (i.e. e > 0);
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.