Методы контекстуальной генерации изображений в высоком разрешении в условиях ограниченности вычислительных мощностей и недостатка обучающих данных тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Ефимова Валерия Александровна

  • Ефимова Валерия Александровна
  • кандидат науккандидат наук
  • 2023, ФГАОУ ВО «Национальный исследовательский университет ИТМО»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 239
Ефимова Валерия Александровна. Методы контекстуальной генерации изображений в высоком разрешении в условиях ограниченности вычислительных мощностей и недостатка обучающих данных: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Национальный исследовательский университет ИТМО». 2023. 239 с.

Оглавление диссертации кандидат наук Ефимова Валерия Александровна

Реферат

Synopsis

Введение

Глава 1. Обзор предметной области

1.1. Процесс сопровождения текстов графическим материалом

1.2. Методы создания графических материалов для сопровождения художественного текста на естественном языке

1.3. Синтез изображений

1.3.1. Генеративно-состязательные сети и проблемы сходимости

1.3.2. Метрики для оценки синтезированных изображений

1.3.3. Модель StyleGAN и ее семейство

1.3.4. Условный синтез изображений

1.3.5. Синтез изображений по тексту

1.3.6. Модели, решающие задачу синтеза объектов на основе сегментации

1.4. Обработка естественного языка

1.4.1. Векторное представление слов

1.4.2. Модель BERT

1.4.3. Частеречная разметка

1.4.4. Извлечение ключевых слов

1.4.5. Модели синтеза текста

1.5. Постановка цели и задач

Выводы по главе

Глава 2. Многоступенчатый синтез изображения по длинному художественному тексту

2.1. Описание метода многоступенчатого синтеза изображения по длинному художественному тексту

2.2. Алгоритмы синтеза иллюстраций и обложек к художественному тексту

2.2.1. Алгоритм синтеза иллюстраций к художественному тексту

2.2.2. Алгоритм синтеза обложек к художественному тексту

2.3. Сравнение метода многоступенчатой синтеза изображений по

длинному художественному тексту с аналогами

2.3.1. Оценка алгоритма многоступенчатой синтеза иллюстраций по длинному художественному тексту

2.3.2. Оценка синтезированных обложек

2.4. Анализ требуемых вычислительных мощностей и обучающих

данных

Выводы по главе

Глава 3. Алгоритм оценки сходства длинных текстов

3.1. Задача перефразирования

3.1.1. Существующие методы оценки сходства текстов

3.2. Свойства текста

3.3. Модификация существующих мер оценки текстов и алгоритм подсчета предложенной меры

3.4. Набор длинных текстов

3.5. Тематическая модель текста

3.6. Сравнение меры оценки качества перефразирования текста с аналогами

Выводы по главе

Глава 4. Метод определения места действия по тексту и обработка текстовых спецификаций для последующего синтеза

изображений

4.1. Реферирование длинного текста

4.1.1. Существующие методы реферирования текстов

4.1.2. Оценка методов реферирования

4.2. Определение места, в котором происходят события, описанные в тексте

4.2.1. Существующие методы, подходящие для определения

места действия по тексту

4.2.2. Наборы данных для определения локации

4.2.3. Модель для выделения локации, упомянутой в тексте

4.2.4. Модель для вывода локации

4.2.5. Сравнение метода определения места действия по тексту с аналогами

4.3. Определение ключевых действующих объектов

Выводы по главе

Глава 5. Наложение изображения текста на фон

5.1. Методы наложения текста на изображения

5.2. Обнаружение текста на изображении

5.2.1. Детекция и распознавание текста на изображении

5.2.2. Недостатки существующих методов наложения текста

на изображение

5.3. Метод наложения изображения текста на фон

5.3.1. Описание метода

5.3.2. Архитектура модели реалистичного наложения текстов на изображения

5.4. Сравнение метода реалистичного наложения текстов на изображения с аналогом

Выводы по главе

Заключение

Список литературы

Список иллюстраций

Список таблиц

Список листингов

Приложение А. Расширение базы изображений

Приложение Б. Акты об использовании и внедрении результатов

диссертационного исследования

Приложение В. Публикации автора по теме диссертации

Реферат

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы контекстуальной генерации изображений в высоком разрешении в условиях ограниченности вычислительных мощностей и недостатка обучающих данных»

Общая характеристика работы

Актуальность темы. Ключевой частью восприятия человеком текстовой информации является её визуальное сопровождение. Проиллюстрированные тексты привлекают больше внимания читателей, как и обложки длинных художественных произведений, позволяющие сразу представить действующих персонажей.

Для коммерческой книги обложка чрезвычайно важна — она отражает суть содержания книги, представляя художественное воплощение смысла. Хорошая обложка не только привлекает внимание читателей, но и напрямую влияет на продажи произведения как в интернет-магазине, так и в печатной версии.

Создание графического сопровождения в современном издательском деле является сложноорганизованным процессом, предполагающим делегирование создания иллюстраций и обложки художникам-иллюстраторам или художникам-оформителям. Это создает входной порог для публикации иллюстрированных произведений, ограничивающий такую возможность для подавляющего большинства непрофессиональных или начинающих авторов.

Осознавая ситуацию, издательские дома и цифровые библиотеки предлагают решения, упрощающие создание обложек для книг, которые используют неуникальные изображения или перекладывают груз ответственности за создание таких изображений на авторов. Авторы, в свою очередь, используют поиск изображений в интернете, что также сохраняет проблему с уникальностью, но дополнительно создает риски нарушения авторских прав.

Все это порождает потребность в автоматизации процесса создания графического сопровождения для художественных текстов. Автоматический синтез изображений в высоком разрешении на основе текста позволит существенно снизить временные затраты, поэтому данная задача является особо актуальной. Кроме того, синтезируемые изображения не защищены авторскими правами.

Было предложено множество подходов к синтезу изображений на основе порождающих моделей, но все они позволяют автоматически создать только изображение низкого разрешения с расплывчатыми силуэтами действующих персонажей и артефактами, соответствующие тексту определенного формата с ограниченным словарём и недостаточно детализированным фоном.

Исходя из изложенного выше, автоматический синтез изображений высокого разрешения, удовлетворяющих различным условиям, является актуальной задачей.

Степень разработанности темы. Автоматическое создание реалистичных высококачественных изображений применяется во многих областях, но

современные системы искусственного интеллекта все еще далеки от качественного решения этой сложной задачи. Между тем, глубокие генеративно-состязательные сети (англ. Generative Adversarial Nets, GANs) начали синтезировать реалистичные изображения определенных категорий, таких как лица, цветы, птицы и интерьеры комнат [10]. Изображения, синтезируемые существующими методами по тексту, могут приблизительно отражать смысл данных описаний, но такие изображения недостаточно детализированы и содержат артефакты и неопределенности [71; 74].

Тем не менее в 2019-2022 годах предложено множество моделей для синтеза изображений, но все они для обучения синтезу высококачественного изображения разрешением более 512 х 512 пикселей требуют колоссальных объемов данных и огромного количества вычислительных ресурсов. Наиболее успешные модели представлены в таблице Р.1.

Таблица Р.1 - Современные модели для синтеза изображений, время, в течение которого они обучались, и размер обучающей выборки.

Модель Год Категория Пара- Раз- Время обуче- Дан-

изображений метры мер ния ные

StyleGAN 2019- Изображение 30М 1024 2248 GPU >70К

1 [91], 2021 определенной х часов, 92 GPU

2 [6], категории 1024 лет на проект

3 [5]

GauGAN 2019- Пейзаж по сег- >100M 1024 NVIDIA DGX 10М

1 [57] и 2 2022 ментации x 1024 SuperPOD, до 640 GB памяти, >30 дней пей- за-жей

VQ- 2020 Природный 405M 1280 4 GPU с 12GB 30К

GAN [44] пейзаж или по сегментации x 832 памяти, 11, 4 дней для ImageNet

OASIS 2020 Объект по сег- 94M 512 х 4 GPU, 10 дней >22К

[175] ментации 512

DALL- 2021 Изображение 12B 512 x GPU c 16 GB 253М

E [177] по тексту 512 памяти, 430К эпох пар

DALL-E 2022 Изображение ? + 1024 ? 650М

2 [72] по тексту, манипуляции 3.5B x 1024 пар

На рисунке Р.1 представлена диаграмма существующих методов синтеза изображений (из таблицы) Р.1. На оси х отмечены логарифмы времени обучения, на у — логарифмы средних размеров генерируемых моделями файлов в ко-

дировке jpg без сжатия. Размер круга соответствует логарифму от количества данных, использованных для обучения. По рисунку видно, что предлагаемое решение (отмеченное как «ours») позволяет генерировать изображения большого размера и практически не требует обучения.

Lif ■ [■ Ну, -лл-гр itniikH iil[[t |j Hi"

! - -«-♦ ф

Рисунок Р.1 - Обучение современных моделей синтеза изображений.

Целью работы является автоматизация создания графического материала в высоком разрешении для художественного текста методами машинного обучения в условиях ограниченности вычислительных мощностей и недостатка обучающих данных. Для достижения указанной цели определены следующие задачи исследования:

а) Разработать метод многоступенчатого синтеза изображений по длинному художественному тексту на основе машинного обучения.

б) Разработать методы предобработки текстовых спецификаций для последующего синтеза изображения.

в) Разработать метод реалистичного наложения текстов на изображения на основе сверточных нейронных сетей.

г) Экспериментально проверить разработанные методы контекстуального синтеза изображений.

Объект исследования — задача условного синтеза изображений по тексту.

Предмет исследования — методы автоматического синтеза изображений по тексту.

Положения, выносимые на защиту, обладающие научной новизной:

1. Метод многоступенчатого синтеза изображений по длинному художественному тексту на основе машинного обучения, отличающийся тем, что с целью автоматического синтеза обложек и иллюстраций к тексту использует шаги его обработки и шаги манипуляции визуальными элементами, не требующие применения индустриальных вычислительных кластеров.

2. Алгоритм оценки сходства длинных текстов (более пятисот слов), отличающийся тем, что с целью повышения качества сравнения длинных текстов вводится новая мера, использующая похожесть тем, характеризующих тексты.

3. Метод определения места действия по художественному тексту, отличающийся тем, что с целью автоматизации выбора фона для синтеза иллюстраций к тексту использует предобученные векторные представления слов.

4. Метод наложения изображения текста на фон на основе сверточных нейронных сетей, отличающийся тем, что с целью создания синтетических данных для улучшения выделения текста использует состязательное обучение и новую функцию ошибки распознавания текста.

Научная новизна. В работе получены следующие новые научные результаты:

а) Впервые предложен метод многоступенчатого синтеза изображений по длинному художественному тексту на основе машинного обучения, отличающийся тем, что с целью автоматического синтеза обложек и иллюстраций к художественному тексту использует шаги обработки текста и шаги манипуляции с визуальными элементами, не требующие использования индустриальных вычислительных кластеров, а также основанные на нем алгоритмы синтеза иллюстрации по фрагменту текста и синтеза обложки для книги.

б) Впервые предложен алгоритм оценки сходства длинных текстов (более пятисот слов), отличающийся тем, что с целью повышения качества сравнения длинных текстов вводится новая мера, использующая похожесть тем, характеризующих тексты.

в) Впервые предложен метод определения места действия по художественному тексту, отличающийся тем, что с целью автоматизации выбора фона для синтеза иллюстраций к тексту использует предобучен-ные векторные представления слов.

г) Впервые предложен метод наложения изображения текста на фон на основе сверточных нейронных сетей, отличающийся тем, что с целью создания синтетических данных для улучшения выделения текста использует состязательное обучение и новую функцию ошибки распознавания текста.

Методология и методы исследований. Работа выполнена в методологии машинного обучения, а именно с использованием глубоких нейронных сетей. В работе используются методы глубокого обучения и компьютерного зрения, в частности, генеративно-состязательное обучение, авторегрессионное обучение и обучение с учителем, а также методы обработка естественного языка. Используется методология проведения вычислительных экспериментов и опросов асессоров для оценки работы алгоритмов.

Достоверность научных положений, выводов и практических рекомендаций, полученных в диссертации, обеспечивается корректным обоснованием постановок задач, точной формулировкой критериев оценки, а также результатами экспериментов по использованию предложенных в диссертации методов и их анализом.

Соответствие паспорту специальности. В соответствии с паспортом специальности 2.3.8 — «Информатика и информационные процессы» диссертация относится к области исследований «4. Разработка методов и технологий цифровой обработки аудиовизуальной информации с целью обнаружения закономерностей в данных, включая обработку текстовых и иных изображений, видео контента. Разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения требуемой информации из текстов» и «13. Разработка и применение методов распознавания образов, кластерного анализа, нейро-сетевых и нечетких технологий, решающих правил, мягких вычислений при анализе разнородной информации в базах данных».

Теоретическое значение работы состоит в том, что предложенный в работе метод комбинирует два направления получения изображения по спецификации: синтез и поиск, что позволяет отнести его к категории гибридных методов искусственного интеллекта, в развитие которых вносит вклад. В частности, метод вносит вклад в разработку интеллектуальных систем со встроенными генеративными методами (embedded generative models).

Практическое значение работы состоит в решении задачи автоматизации иллюстрирования текстов. Изображения генерируются в высоком качестве, что позволяет печатать их на бумаге и размещать на обложках книг. Кроме того, сгенерированные по тексту изображения могут использоваться для визуального сопровождения публикаций в сети Интернет.

Внедрение предложенного алгоритма синтеза изображения позволяет в течение нескольких секунд автоматически проиллюстрировать любой художественный текст, при этом создав оригинальную иллюстрацию высокого разрешения, не защищенную авторским правом. Это позволяет людям иллюстрировать свои художественные произведения без существенных затрат и получать законченные культурные артефакты.

Предложена мера качества перефразирования, которая применима в любых задачах, связанных с построением парафраза длинного текста, например, в вопросно-ответных системах, чат-ботах, расширении и обогащении набора данных, стилизации текста, в копирайтинге, поисковой оптимизации, извлечении информации, реферировании текста и других.

Метод определения места действия по тексту может быть полезен для анализа текстов книг, блогов и сообщений пользователей в социальных сетях.

Предложен метод добавления текста на изображения, который позволяет синтезировать данные с текстами, обогащая обучающие выборки для нейронных сетей, решающих задачу распознавания символов в естественных условиях (optical character recognition in the wild).

Также предложенная работа вносит вклад в направления, сформулированные в Дорожной карте развития «сквозной» цифровой технологии «нейротех-нологии и искусственный интеллект»1, в направлениях компьютерного зрения в части «Синтез/генерация 3D, 2D изображений и видео объектов», обработки естественного языка в части «Интеллектуальный поиск ответов в тексте и "понимание-запросов пользователя» и перспективные методы и технологии в ИИ в части «Применение ИИ методов в плохо формализуемых приложениях».

Внедрение результатов диссертационного исследования имеет существенный социальный эффект, который подтвержден актами о внедрении.

Внедрение результатов работы. Реализация алгоритма синтеза иллюстраций по тексту внедрена в проект ООО «Статанли технолоджис», что подтверждается актом о внедрении.

Реализация алгоритма синтеза обложек художественных произведений внедрена в компании Deflamel Corp., что подтверждается актом о внедрении.

Апробация результатов работы. Основные результаты докладывались на следующих конференциях:

а) Всероссийский конгресс молодых ученых Университета ИТМО, 2019 г., Университет ИТМО, Санкт-Петербург.

б) The 12th International Conference on Machine Vision (ICMV 2019), 2019 г., Амстердам, Нидерланды.

в) XLIX Научная и учебно-методическая конференция Университета ИТ-МО, 2020 г., Университет ИТМО, Санкт-Петербург.

г) Всероссийский конгресс молодых ученых Университета ИТМО, 2020 г., Университет ИТМО, Санкт-Петербург.

д) The 13th International Conference on Machine Vision (ICMV 2020), 2020 г., онлайн.

е) Всероссийский конгресс молодых ученых Университета ИТМО, 2021 г., Университет ИТМО, Санкт-Петербург.

ж) L Научная и учебно-методическая конференция Университета ИТМО,

2021 г., Университет ИТМО, Санкт-Петербург.

и) Ivannikov ISPRAS Open Conference, 2021 г., Москва, Россия.

к) The 14th International Conference on Machine Vision (ICMV 2021), 2021 г., онлайн.

л) Artificial Intelligence and Natural Language Conference (AINL 2022), 2022 г., онлайн.

м) Conference on Computer Vision and Pattern Recognition (CVPR 2022),

2022 г., онлайн

н) Летняя конференция AIRI по искусственному интеллекту, 2022 г., Университет «Сириус», Сочи.

Личный вклад автора. Идея метода многоступенчатого синтеза изображения по художественному тексту и всех его этапов и шагов принадлежит лично автору диссертации. Реализация данного метода принадлежит лично автору

1https://digital.gov.ru/uploaded/files/07102 019ii.pdf

диссертации за исключением метода определения места действия по тексту, где реализация проводилась автором диссертации совместно с Д.А. Чижиковым.

В публикации [40] идея метода последовательного синтеза изображения по художественному тексту и всех его частей принадлежит лично автору диссертации, проведение экспериментов осуществлялось лично автором, А.А. Фильчен-ков выступал научным консультантом.

В публикации [141] идея метрики оценки качества перефразирования принадлежит лично автору диссертации, реализация алгоритмов на базе предложенного метода и проведение вычислительных экспериментов принадлежит автору диссертации совместно с В.В. Шаламовым, А.А. Фильченков выступал научным консультантом.

В публикации [92] идея принадлежит лично автору диссертации. Реализация алгоритмов и проведение вычислительных экспериментов принадлежит автору диссертации совместно с А. Волковым. А.А. Фильченков выступал научным консультантом.

В публикации [41] идея принадлежит лично автору диссертации. Реализация алгоритмов и проведение вычислительных экспериментов принадлежит лично автору диссертации. А.А. Фильченков и В.В. Шаламов выступали научными консультантами.

Публикации. Основные результаты по теме диссертации изложены в шести публикациях, в том числе четырех, входящих в базы Scopus и Web of Science, одной, входящей в рецензируемое научное изданиям из списка рекомендованных ВАК и одной, которая приравнивается ним.

Регистрация программ. Автором по теме диссертации были получены свидетельство о регистрации программы для ЭВМ: Программа для интеллектуального поиска и генерации изображений по текстовому описанию / Ефимова В. А. [и др.] -№2021681470, опубл. 22.12.2021.

Объем и структура работы. Диссертация состоит из введения, четырех глав, заключения и двух приложений. Объем диссертации - 172 страницы с 40 рисунками, 23 таблицами и 2 листингами. Список литературы содержит 183 наименования.

Содержание работы

Во введении обосновывается актуальность исследований, проводимых в рамках данной диссертационной работы, представлен краткий обзор существующих научных работ по теме условной генерации изображений, формулируется цель исследования, ставятся задачи работы, приводится научная новизна, описывается теоретическая и практическая значимость представляемой работы, указывается апробация и внедрение полученных результатов.

В первой главе приводится обзор предметной области, описывается методология исследования.

В разделе 1.1 обосновывается необходимость иллюстрирования текстов и сопровождения их графическими материалами. Обложки и иллюстрации имеют большое значение для художественных произведений, они раскрывают суть текста, визуализируют героев, а кроме того повышают эмоциональное воздействие на читателей и способствуют коммерческому успеху книги.

Современный пользователь сети Интернет едва ли прочитает текст без картинок, поэтому любой текст стараются сопровождать изображением. В сети множество картинок из открытых баз изображений (фотостоков), поэтому просто найти картинку в базе недостаточно, надо сделать ее оригинальной, особенной.

Автор книги может самостоятельно создать иллюстрации, а может обратиться к профессиональному иллюстратору. Но труд иллюстратора стоит денег, а процесс рисования иллюстраций занимает определенное время (от нескольких дней до нескольких недель), зато в результате автор получает оригинальные иллюстрации, которые принадлежат ему.

В разделе 1.2 описываются методы создания графических материалов для художественных текстов, их достоинства и недостатки. Иллюстрацию или обложку к художественной книге может нарисовать человек, но его труд занимает определенное время и должен быть оплачен. В то же время можно найти готовую иллюстрацию, но она не будет оригинальной. Кроме того, иллюстрацию можно синтезировать автоматически, что намного быстрее и дешевле. Рассмотрим способы автоматического и полуавтоматического создания иллюстрации:

- В онлайн-конструкторе по шаблону, например Canva2 и многих других сервисах, можно создать иллюстрацию или обложку книги. Процесс может занять незначительное время, но такие обложки не будут оригинальными, так как шаблонов ограниченное число (максимум 300-1000 штук, и не все шаблоны подходят для книг). Также есть довольно примитивные, но нацеленные именно на создание обложек онлайн-сервисы3.

- При работе в графическом редакторе, например в Adobe Photoshop4 и других, требуется исходный графический материал и навыки работы с самим редактором, которыми авторы произведений не всегда обладают. В этом случае автор так же использует фотографию из открытой базы, но ее изменение займет существенное время.

- С помощью генеративных моделей машинного обучения, существовавших до 2022 года можно было синтезировать только изображение разрешением до 512 х 512 пикселей, в 2022 году созданы модели, позволяющие синтезировать изображения до 1024 х 1024 пикселей. Такие изображения будут созданы быстро и под конкретный запрос, то есть будут оригинальными, но их качество недостаточно для печати, хотя с 2022 года достаточно для публикации в Интернете. Стоит также отметить, что публичный доступ к таким моделям закрыт или ограничен,

2https://www.canva.com/ не работает в России

3https://selfpub.omnidesk.ru/knowledge base/item/184733

4https://www.adobe.com/products/photoshop.html

в открытом доступе находятся модели, синтезирующие только изображения разрешением до 512 х 512 пикселей. Также, такие модели имеют непрогнозируемое смещение в том, что будут изображать для входного запроса, что де-факто создает область управления такими моделями, требующую специальных навыков5.

В разделе 1.3 описываются методы синтеза изображений на основе машинного обучения и методы оценки их качества, в том числе генеративно-состязательные сети, метрики для оценки синтезированных изображений, условный синтез изображений, синтез изображений по тексту и синтез объектов на основе сегментации.

Генеративно-состязательные сети (англ. Generative Adversarial Nets, GAN) разработаны в 2014 году [60], но за последнее время стали применяться для решения многих задач. Задача обучения такой модели — обучить параметры генератора и дискриминатора, чтобы распределение pgen как можно лучше описывало бы pdata. Определим функцию ошибки для получившейся модели. Цель дискриминатора D — распознавать образцы из X как правильные, в сторону единицы, и образцы из G как неправильные, в сторону нуля, таким образом нужно максимизировать следующую величину:

Lgan(G, D) = Ey[logD(y)] + Ex,z[log(1 - D(G(x, z)))].

То есть G и D играют в минимаксную игру, решая следующую задачу оптимизации:

G* — arg min max Lgan (G, D).

Модель GAN была модифицирована множеством способов, один из них — добавление входного условия x [115], почуем условную генеративно-состязательную сеть (англ. Conditional Generative Adversarial Network, cGAN). То есть входные данные генератора и дискриминатора расширятся, требуется обучить отображение из наблюдаемого изображения x и случайного вектора z в y, G : {x, z} ^ y. Тогда общая задача обучения остается прежней, но немного меняется определение потерь:

LcGAN(G, D) — Ex,y [logD(x, y)] + Ex,z[log(1 - D(x, G(x, z)))].

Для оценки качества работы генеративной модели, синтезированные ей изображения сравниваются с исходными на основе какой-либо меры. Выделяют меры для оценки распознаваемости синтезированного изображения (человек ли на нем или другой определяемый объект) [55]: Frechet Inception Distance (FID), Inception Score (IS), Contrastive Language-Image Pre-Training Score (CLIP score) и меры качества изображений [22]: пиковое отношение сигнал-шум, Peak Signal To Noise Ratio, (PSNR) и индекс структурного сходства, Structural Similarity Index (SSIM). Формулы вычисления мер приводятся в тексте диссертации.

5https://www.udemy.com/course/midjourney-mastery/

Современные системы искусственного интеллекта и нейронные сети все еще не способны синтезировать изображения достаточно высокого качества с высокой детализацией объектов на фоне [91]. Для синтеза изображений по тексту применяются в основном генеративно-состязательные сети (Generative Adversarial Nets, GANs) [60]. Были созданы модели DALL-E [177] и DALL-E 2 [72].

Далее в разделе описано семейство моделей StyleGAN, способных синтезировать изображения людей, и модели pix2pix, pix2pixHD, SPADE, OASIS, GauGAN, способные на основе сегментации генерировать изображение.

В разделе 1.4 описываются методы обработки естественного языка: векторное представление слов, модель BERT, методы извлечения ключевых слов и модели синтеза текста.

Модели синтеза изображений по тексту получают на вход векторное представление текста. Существует ряд методов для обучения таких представлений, наиболее современным является языковая модель Bidirectional Encoder Representations from Transformers, BERT [13], основанная на архитектуре транс-формер [9]. Она позволяет представить слово в виде вектора с учетом контекста, в котором оно употребляется, даже если слово имеет несколько значений. Модель BERT применяется во многих задачах обработки естественного языка, например, она способна классифицировать фрагмент текста, анализировать тональность текста и предсказывать пропущенное слово.

Смысл текста может быть кратко передан через последовательность ключевых слов или фраз. EmbedRank [146] — алгоритм для извлечения ключевых фраз на основе сходства их векторных представлений.

В разделе 1.5 формулируются цель и задачи диссертации, а также объект и предмет исследования.

Систематизированы основные проблемы существующих исследований в области автоматизации синтеза изображений и их синтеза с условием, выраженным в виде текста или сегментации:

- Синтез изображения осуществляется только по короткому тексту (до 500 символов).

- Синтезированные изображения не подходят для печати обложек и иллюстраций, так как их разрешение не более 1024 х 1024 (при качественной печати в типографии с разрешением 300 dpi размер на бумаге не более 8,7 х 8, 7 см2).

- На изображениях есть артефакты и визуальная неопределенность [71].

- Современные методы не могут синтезировать детализированный фон [6; 91].

- Обучение синтезу изображений по тексту в разрешении 512 х 512 ресурсоёмко (более 40 GPU-дней и 400 миллионов изображений с текстом).

Вторая глава

В разделе 2.1 описывается метод многоступенчатого синтеза изображения по длинному художественному тексу. Вместо развития моделей, реализующих

Рисунок Р.2 - Схема метода синтеза иллюстрации по тексту.

сквозной подход, приводящий к росту необходимых для обучения вычислительных мощностей и данных, в главе предлагается декомпозировать задачу синтеза графического материала на несколько подзадач, совокупная сложность решения которых будет значительно меньше, чем сложность решения общей задачи.

Предложенный метод состоит из пяти этапов. В тексте приводится описание этих шагов и обоснование их выбора. Его схема представлена на рисунке Р.2: I. Этап реферирования.

Данный этап необходим только в задаче синтеза обложки. Шаг 1. Реферирование длинного текста. позволяет сжать художественную книгу до ее краткого содержания, таким образом сократив длину текста. Выбор метода реферирования производится посредством сравнения результатов методов. Для сравнения длинных текстов разра-

ботана метрика ITS, описанная в главе 3, оценка методов реферирования с ее помощью представлена в разделе 4.1.2.

II. Этап выделения элементов текста.

В рамках настоящего метода предполагается отдельное выделение терминов, характеризующих изображаемый объект, а также терминов, характеризующих место, в котором происходит действие текста. Шаг 2. Определение места, в котором происходят события, описанные в тексте, позволяет понять, на каком фоне следует разместить выделяемые далее объекты. Новый алгоритм определения места действия по художественному тексту представлен в разделе 4.2. Шаг 3. Определение ключевых действующих объектов по тексту позволяет понять, действия каких объектов и персонажей в нем описываются.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Ефимова Валерия Александровна, 2023 год

Список литературы

1. @ Phillies tweeting from Philly? Predicting Twitter user locations with spatial word usage / H.-w. Chang [и др.] // 2012 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. — IEEE. 2012. — С. 111-118.

2. A deep generative framework for paraphrase generation / A. Gupta [и др.] // Thirty-Second AAAI Conference on Artificial Intelligence. — 2018.

3. A replicable comparison study of NER software: StanfordNLP, NLTK, OpenNLP, SpaCy, Gate / X. Schmitt [и др.] // 2019 Sixth International Conference on Social Networks Analysis, Management and Security (SNAMS). — IEEE. 2019. — С. 338-343.

4. Ajao, O., Hong, J., Liu, W. A survey of location inference techniques on Twitter // Journal of Information Science. — 2015. — Т. 41, № 6. — С. 855-864.

5. Alias-free generative adversarial networks / T. Karras [и др.] // Advances in Neural Information Processing Systems. — 2021. — Т. 34.

6. Analyzing and improving the image quality of stylegan / T. Karras [и др.] // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. — 2020. — С. 8110-8119.

7. Arbitrary-oriented scene text detection via rotation proposals / J. Ma [и др.] // IEEE Transactions on Multimedia. — 2018. — Т. 20, № 11. — С. 3111-3122.

8. Arjovsky, M., Chintala, S., Bottou, L. Wasserstein Generative Adversarial Networks // International conference on machine learning. — PMLR. 2017. — P. 214-223.

9. Attention is all you need / A. Vaswani [и др.] // Advances in neural information processing systems. — 2017. — С. 5998-6008.

10. Attngan: Fine-grained text to image generation with attentional generative adversarial networks / T. Xu [et al.] // Proceedings of the IEEE conference on computer vision and pattern recognition. —2018. —P. 1316-1324.

11. Automatic keyword extraction from individual documents / S. Rose [и др.] // Text mining: applications and theory. — 2010. — С. 1-20.

12. Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension / M. Lewis [и др.] // arXiv preprint arXiv:1910.13461. — 2019.

13. Bert: Pre-training of deep bidirectional transformers for language understanding / J. Devlin [и др.] // arXiv preprint arXiv:1810.04805. — 2018.

14. Bird, S., Klein, E., Loper, E. Natural language processing with Python: analyzing text with the natural language toolkit. — "O'Reilly Media, Inc.", 2009.

15. BLEU: a method for automatic evaluation of machine translation / K. Papineni [h gp.] // Proceedings of the 40th annual meeting on association for computational linguistics. — Association for Computational Linguistics. 2002. — C. 311-318.

16. Bochkovskiy, A., Wang, C.-Y., Liao, H.-Y. M. Yolov4: Optimal speed and accuracy of object detection// arXiv preprint arXiv:2004.10934. — 2020.

17. Bosch, A., Zisserman, A., Munoz, X. Image classification using random forests and ferns // 2007 IEEE 11th international conference on computer vision. — Ieee. 2007. — C. 1-8.

18. Busta, M., Neumann, L., Matas, J.Deep textspotter: An end-to-end trainable scene text localization and recognition framework // Proceedings of the IEEE International Conference on Computer Vision. — 2017. — C. 2204-2212.

19. Busta, M., Patel, Y., Matas, J.E2e-mlt-an unconstrained end-to-end method for multi-language scene text // Asian conference on computer vision. — Springer. 2018. — C. 127-143.

20. Character recognition in natural images. / T. E. De Campos, B. R. Babu, M. Varma [h gp.] // VISAPP (2). — 2009. — T. 7.

21. Codebert: A pre-trained model for programming and natural languages / Z. Feng [h gp.] // arXiv preprint arXiv:2002.08155. — 2020.

22. Comparison of image quality assessment: PSNR, HVS, SSIM, UIQI / Y. A. Al-Najjar, D. C. Soong [h gp.] // Int. J. Sci. Eng. Res. — 2012. — T. 3, № 8. — C. 1-5.

23. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks / A. Graves [h gp.] // Proceedings of the 23rd international conference on Machine learning. — 2006. — C. 369-376.

24. Context encoders: Feature learning by inpainting / D. Pathak [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. —2016. — C. 2536-2544.

25. Criminisi, A., Pérez, P., Toyama, K. Region filling and object removal by exemplar-based image inpainting // IEEE Transactions on image processing. — 2004. — T. 13, № 9. — C. 1200-1212.

26. Cross-Region Domain Adaptation for Class-level Alignment / Z. Wang [h gp.] // arXiv preprint arXiv:2109.06422. — 2021.

27. Dai, A. M., Le, Q. KSemi-supervised sequence learning // Advances in neural information processing systems. — 2015. — T. 28.

28. Decomposable neural paraphrase generation / Z. Li [h gp.] // arXiv preprint arXiv:1906.09741. — 2019.

29. Deep generative image models using a laplacian pyramid of adversarial networks / E. L. Denton, S. Chintala, R. Fergus [h gp.] // Advances in neural information processing systems. — 2015. — C. 1486-1494.

30. Deep residual learning for image recognition / K. He [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2016. — C. 770-778.

31. Deepfashion: Powering robust clothes recognition and retrieval with rich annotations / Z. Liu [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2016. — C. 1096-1104.

32. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs / L.-C. Chen [h gp.] // IEEE transactions on pattern analysis and machine intelligence. — 2017. — T. 40, № 4. — C. 834-848.

33. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification / K. He [h gp.] // Proceedings of the IEEE international conference on computer vision. —2015. — C. 1026-1034.

34. Detecting text in natural image with connectionist text proposal network / Z. Tian [h gp.] // European conference on computer vision. — Springer. 2016. — C. 56-72.

35. Detection, C., Arbelaez, H. I. S. P. M. Maire, C. Fowlkes and J. Malik // IEEE TPAMI. — 2011.—T. 33, № 5. —C. 898-916.

36. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter / V. Sanh [h gp.] // arXiv preprint arXiv:1910.01108v4. — 2020.

37. Distributed representations of words and phrases and their compositionality / T. Mikolov [h gp.] //arXiv preprint arXiv:1310.4546. — 2013.

38. EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning / K. Nazeri [h gp.] // arXiv preprint arXiv:1901.00212. — 2019.

39. Efficient estimation of word representations in vector space / T. Mikolov [h gp.] // arXiv preprint arXiv:1301.3781. — 2013.

40. Efimova, V., Filchenkov, A. Text-based sequential image generation // Fourteenth International Conference on Machine Vision (ICMV 2021). T. 12084. — SPIE. 2022. — C. 125-132.

41. Efimova, V., Shalamov, V., Filchenkov, A. Synthetic dataset generation for text recognition with generative adversarial networks // Twelfth International Conference on Machine Vision (ICMV 2019). T. 11433. — International Society for Optics, Photonics. 2020. — C. 1143315.

42. Eitz, M, Hays, J., Alexa, M.How do humans sketch objects? // ACM Trans. Graph. — 2012. — T. 31, № 4. — C. 44-1.

43. Epshtein, B., Ofek, E., Wexler, Y. Detecting text in natural scenes with stroke width transform // 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. — IEEE. 2010. — C. 2963-2970.

44. Esser, P., Rombach, R., Ommer, B. Taming transformers for high-resolution image synthesis // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2021. — C. 12873-12883.

45. Ethayarajh, K. How contextual are contextualized word representations? comparing the geometry of BERT, ELMo, and GPT-2 embeddings // arXiv preprint arXiv:1909.00512. —2019.

46. Evaluation metrics for conditional image generation / Y. Benny [h gp.] // International Journal of Computer Vision. —2021.—T. 129. —C. 1712-1731.

47. Exactitudes: a contraction of exact and attitude. — 2022. — Accessed: 202219-03. https://exactitudes.com/collectie/.

48. Exploring the limits of transfer learning with a unified text-to-text transformer. / C. Raffel [h gp.] // J. Mach. Learn. Res. — 2020. — T. 21, № 140. — C. 1-67.

49. Fast feature pyramids for object detection / P. Dollar [h gp.] // IEEE transactions on pattern analysis and machine intelligence. — 2014. — T. 36, № 8. — C. 1532-1545.

50. Feature pyramid networks for object detection/T.-Y. Lin [ugp.] //Proceedings ofthe IEEE conference on computer vision and pattern recognition. —2017. — C. 2117-2125.

51. Fischler, M. A., Bolles, R. C. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography // Communications ofthe ACM. — 1981. — T. 24, № 6. — C. 381-395.

52. Fots: Fast oriented text spotting with a unified network / X. Liu [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. —2018. — C. 5676-5685.

53. G2D: from GTA to Data / A.-D. Doan [h gp.] // arXiv preprint arXiv:1806.07381. —2018.

54. Gan inversion: A survey / W. Xia [h gp.] // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2022.

55. Gans trained by a two time-scale update rule converge to a local nash equilibrium / M. Heusel [h gp.] // Advances in neural information processing systems. —2017. — T. 30.

56. Gatys, L. A., Ecker, A. S., Bethge, M. Image style transfer using convolutional neural networks // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2016. — C. 2414-2423.

57. GauGAN: semantic image synthesis with spatially adaptive normalization / T. Park [h gp.] // ACM SIGGRAPH 2019 Real-Time Live! — 2019. — C. 1-1.

58. Gauthier, J. Conditional generative adversarial nets for convolutional face generation // Class Project for Stanford CS231N: Convolutional Neural Networks for Visual Recognition, Winter semester. — 2014. — T. 2014, № 5. — C. 2.

59. Generating text summaries through the relative importance of topics / J. L. Neto [h gp.] // Advances in Artificial Intelligence. — Springer, 2000. — C. 300-309.

60. Generative adversarial nets / I. Goodfellow [h gp.] // Advances in neural information processing systems. — 2014. — T. 27.

61. Generative adversarial text to image synthesis / S. Reed [et al.] // International Conference on Machine Learning. — PMLR. 2016. — P. 1060-1069.

62. Generative image inpainting with contextual attention / J. Yu [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2018. — C. 5505-5514.

63. Gillotte, J. L. Copyright Infringement in AI-Generated Artworks // UC Davis L. Rev. — 2019. — Vol. 53. — P. 2655.

64. Girshick, R. Fast r-cnn // Proceedings of the IEEE international conference on computer vision. — 2015. — C. 1440-1448.

65. GLUE: A multi-task benchmark and analysis platform for natural language understanding / A. Wang [h gp.] // arXiv preprint arXiv:1804.07461. — 2018.

66. Going deeper with convolutions / C. Szegedy [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2015. — C. 1-9.

67. Gondal, M. W., Scholkopf B., Hirsch, M. The unreasonable effectiveness of texture transfer for single image super-resolution // European Conference on Computer Vision. — Springer. 2018. — C. 80-97.

68. Google's neural machine translation system: Bridging the gap between human and machine translation / Y. Wu [h gp.] // arXiv preprint arXiv:1609.08144. — 2016.

69. Gradient-based learning applied to document recognition / Y. LeCun [h gp.] // Proceedings of the IEEE. — 1998. — T. 86, № 11. — C. 2278-2324.

70. Gupta, A., Vedaldi, A., Zisserman, A. Synthetic data for text localisation in natural images // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2016. — C. 2315-2324.

71. Hertzmann, A. Visual Indeterminacy in GAN Art // Leonardo. — 2020. — Vol. 53, no. 4. — P. 424-428.

72. Hierarchical text-conditional image generation with clip latents / A. Ramesh [h gp.] // arXiv preprint arXiv:2204.06125. — 2022.

73. High-resolution image synthesis and semantic manipulation with conditional gans / T.-C. Wang [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2018. — C. 8798-8807.

74. Hinz, T., Heinrich, S., Wermter, S. Semantic object accuracy for generative text-to-image synthesis // IEEE transactions on pattern analysis and machine intelligence. — 2020.

75. Honnibal, M., Montani, I. spaCy 2: Natural language understanding with Bloom embeddings, convolutional neural networks and incremental parsing. — 2017. — To appear.

76. Hoyer, L., Dai, D., Van Gool, L. Daformer: Improving network architectures and training strategies for domain-adaptive semantic segmentation // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2022. — C. 9924-9935.

77. Hoyer, L., Dai, D., Van Gool, L. HRDA: Context-Aware HighResolution Domain-Adaptive Semantic Segmentation // arXiv preprint arXiv:2204.13132. — 2022.

78. Huang, X., Belongie, S. Arbitrary style transfer in real-time with adaptive instance normalization // Proceedings of the IEEE international conference on computer vision. — 2017. — C. 1501-1510.

79. Huang, Y. Conceptually categorizing geographic features from text based on latent semantic analysis and ontologies // Annals of GIS. — 2016. — T. 22, №2. — C. 113-127.

80. ICDAR 2003 robust reading competitions / S. M. Lucas [h gp.] // null. — IEEE. 2003.—C. 682.

81. Icdar2017 robust reading challenge on multi-lingual scene text detection and script identification-rrc-mlt / N. Nayef [h gp.] // 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). T. 1. — IEEE. 2017. — C. 1454-1459.

82. Image inpainting / M. Bertalmio [h gp.] // Proceedings of the 27th annual conference on Computer graphics and interactive techniques. — 2000. — C. 417-424.

83. Image-to-image translation with conditional adversarial networks / P. Isola [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. —2017. — C. 1125-1134.

84. Imagenet large scale visual recognition challenge / O. Russakovsky [h gp.] // International journal of computer vision. — 2015. — T. 115, № 3. — C. 211-252.

85. Improved techniques for training gans / T. Salimans [h gp.] // Advances in neural information processing systems. — 2016. — T. 29.

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

Improving language understanding by generative pre-training / A. Radford [ugp.]. —2018.

Inferring Image Background from Text Description / D. Chizhikov [h gp.] // Artificial Intelligence and Natural Language: 11th Conference, AINL 2022, Saint Petersburg, Russia, April 14-15, 2022, Revised Selected Papers. — Springer. 2023. —C. 1-13.

Jaderberg, M., Vedaldi, A., Zisserman, A. Deep features for text spotting // European conference on computer vision. — Springer. 2014. — C. 512-528.

Johnson, J., Alahi, A., Fei-Fei, L. Perceptual losses for real-time style transfer and super-resolution // European conference on computer vision. — Springer. 2016. — C. 694-711.

Jones, K. S. A statistical interpretation of term specificity and its application in retrieval // Journal of documentation. — 1972.

Karras, T., Laine, S., Aila, T. A style-based generator architecture for generative adversarial networks // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. — 2019. — C. 4401-4410.

Keypoint-based static object removal from photographs / A. Volkov [h gp.] // Thirteenth International Conference on Machine Vision. T. 11605. — International Society for Optics, Photonics. 2021. — 1160500.

Knapsack pruning with inner distillation / Y. Aflalo [h gp.] // arXiv preprint arXiv:2002.08258. — 2020.

Krishnan, V., Ganapathy, V.Named entity recognition // Stanford Lecture CS229. — 2005.

Language models are few-shot learners / T. Brown [h gp.] // Advances in neural information processing systems. — 2020. — T. 33. — C. 1877-1901.

Language models are unsupervised multitask learners / A. Radford [h gp.] // OpenAI blog. — 2019. — T. 1, № 8. — C. 9.

Language-agnostic BERT Sentence Embedding / F. Feng [h gp.] // arXiv preprint arXiv:2007.01852. — 2020.

Lavie, A., Denkowski, M. J. The METEOR metric for automatic evaluation of machine translation // Machine translation. — 2009. — T. 23, № 2/3. — C. 105-115.

Layout generation and completion with self-attention / K. Gupta [h gp.] // arXiv preprint arXiv:2006.14615. — 2020. — T. 4.

Le, Q., Mikolov, T. Distributed representations of sentences and documents // International conference on machine learning. — PMLR. 2014. — C. 1188-1196.

Learning to generate images of outdoor scenes from attributes and semantic layouts /L. Karacan [h gp.] // arXiv preprint arXiv:1612.00215. — 2016.

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

Learning transferable visual models from natural language supervision A. Radford [h gp.] // International Conference on Machine Learning. — PMLR. 2021. — C. 8748-8763.

Lee, J.-S., Hsiang, J.Patent claim generation by fine-tuning OpenAI GPT-2 // World Patent Information. — 2020. — T. 62. — C. 101983.

Li, C., Wand, M.Precomputed real-time texture synthesis with markovian generative adversarial networks // European Conference on Computer Vision. — Springer. 2016. — C. 702-716.

Liao, M., Shi, B., Bai, X. Textboxes++: A single-shot oriented scene text detector // IEEE transactions on image processing. — 2018. — T. 27, № 8. — C. 3676-3690.

Lin, C.-Y. Looking for a few good metrics: Automatic summarization evaluation-how many samples are enough? // NTCIR. — 2004.

Lingad, J., Karimi, S., Yin, J.Location extraction from disaster-related microblogs // Proceedings of the 22nd international conference on world wide web. — 2013. — C. 1017-1020.

Liu, F., Shen, C., Lin, G. Deep convolutional neural fields for depth estimation from a single image // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. —2015. —C. 5162-5170.

Longt5: Efficient text-to-text transformer for long sequences / M. Guo [h gp.] // arXiv preprint arXiv:2112.07916. — 2021.

Loria, S. textblob Documentation//Release 0.15. — 2018. — T. 2.

Mask r-cnn / K. He [h gp.] // Proceedings of the IEEE international conference on computer vision. — 2017. — C. 2961-2969.

Microsoft coco: Common objects in context / T.-Y. Lin [h gp.] // European conference on computer vision. — Springer. 2014. — C. 740-755.

Mihalcea, R., Tarau, P. Textrank: Bringing order into text // Proceedings of the 2004 conference on empirical methods in natural language processing. — 2004. — C. 404-411.

Milletari, F., Navab, N., Ahmadi, S.-A. V-net: Fully convolutional neural networks for volumetric medical image segmentation // 2016 fourth international conference on 3D vision (3DV). — IEEE. 2016. — C. 565-571.

Mirza, M., Osindero, S. Conditional Generative Adversarial Nets // arXiv preprint arXiv:1411.1784. —2014.

Multi-digit number recognition from street view imagery using deep convolutional neural networks / I. J. Goodfellow [h gp.] // arXiv preprint arXiv:1312.6082. — 2013.

Multi-task deep neural networks for natural language understanding / X. Liu [h gp.] //arXiv preprint arXiv:1901.11504. —2019.

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

Multispectral pedestrian detection: Benchmark dataset and baseline / S. Hwang [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2015. — C. 1037-1045.

Nallapati, R., Zhai, F., Zhou, B. Summarunner: A recurrent neural network based sequence model for extractive summarization of documents // Thirty-first AAAI conference on artificial intelligence. — 2017.

Neumann, L., Matas, J. A method for text localization and recognition in real-world images // Asian conference on computer vision. — Springer. 2010. — C. 770-783.

Neumann, L., Matas, J.Real-time scene text localization and recognition // Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. — IEEE. 2012. — C. 3538-3545.

Neural discrete representation learning / A. Van Den Oord, O. Vinyals [h gp.] // Advances in neural information processing systems. — 2017. — T. 30. None Ghosting Artifacts Stitching Based on Depth Map for Light Field Image / W. Zhang [h gp.] // Pacific Rim Conference on Multimedia. — Springer. 2018. — C. 567-578.

On convergence and stability of gans / N. Kodali [h gp.] // arXiv preprint arXiv:1705.07215. — 2017.

Paik, J. H. A novel TF-IDF weighting scheme for effective ranking // Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval. — 2013. — C. 343-352.

Parameter-efficient transfer learning for NLP / N. Houlsby [h gp.] // International Conference on Machine Learning. — PMLR. 2019. — C. 2790-2799.

Pegasus: Pre-training with extracted gap-sentences for abstractive summarization / J. Zhang [h gp.] // International Conference on Machine Learning. — PMLR. 2020. —C. 11328-11339.

Pérez, P., Gangnet, M., Blake, A. Poisson image editing // ACM Transactions on graphics (TOG). — 2003. — T. 22, № 3. — C. 313-318.

Playing for data: Ground truth from computer games / S. R. Richter [h gp.] // European conference on computer vision. — Springer. 2016. — C. 102-118. Ramachandran, P., Liu, P. J., Le, Q. KUnsupervised pretraining for sequence to sequence learning // arXiv preprint arXiv:1611.02683. — 2016.

Reading text in the wild with convolutional neural networks / M. Jaderberg [ugp.]//International Journal of Computer Vision—2016.—T. 116,№ 1.— C. 1-20.

Real-esrgan: Training real-world blind super-resolution with pure synthetic data / X. Wang [h gp.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2021. — C. 1905-1914.

133

134

135

136

137

138

139

140

141

142

143

144

145

146

Residual enhanced visual vectors for on-device image matching D. Chen [h gp.] // 2011 Conference Record of the Forty Fifth Asilomar Conference on Signals, Systems and Computers (ASILOMAR). — IEEE. 2011. — C. 850-854.

Resnest: Split-attention networks / H. Zhang [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2022. — C. 2736-2746.

RoBERTa: A Robustly Optimized BERT Pretraining Approach / Y. Liu [h gp.] //arXiv preprint arXiv:1907.11692. —2019.

Ronneberger, O., Fischer, P., Brox, T. U-net: Convolutional networks for biomedical image segmentation // International Conference on Medical image computing and computer-assisted intervention. — Springer. 2015. — C. 234-241.

Rush, A. M., Chopra, S., Weston, J. A neural attention model for abstractive sentence summarization// arXiv preprint arXiv:1509.00685. — 2015.

Sajjadi, M. S., Scholkopf, B., Hirsch, M.Enhancenet: Single image superresolution through automated texture synthesis // Proceedings of the IEEE international conference on computer vision. — 2017. — C. 4491-4500.

Scikit-learn: Machine Learning in Python / F. Pedregosa [h gp.] // Journal of Machine Learning Research. — 2011. — T. 12. — C. 2825-2830.

Semantic image synthesis with spatially-adaptive normalization / T. Park [h gp.] // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. — 2019. — C. 2337-2346.

Shalamov, V., Efimova, V., Filchenkov, A. Paraphrase Quality Assessment Metric and Russian Paraphrase Dataset Collection // 2021 Ivannikov Ispras Open Conference (ISPRAS). — IEEE. 2021. — C. 140-146.

Shi, B., Bai, X., Belongie, S. Detecting oriented text in natural images by linking segments // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2017. — C. 2550-2558.

Shi, B., Bai, X., Yao, C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition // IEEE transactions on pattern analysis and machine intelligence. — 2017. — T. 39, № 11. —C. 2298-2304.

Show and Tell: A Neural Image Caption Generator / V. Oriol [h gp.] // arXiv preprint arXiv:1411.4555v2. — 2015.

Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition // arXiv preprint arXiv:1409.1556. — 2014.

Simple unsupervised keyphrase extraction using sentence embeddings / K. Bennani-Smires [h gp.] // arXiv preprint arXiv:1801.04470. — 2018.

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

Squad: 100,000+ questions for machine comprehension of text / P. Rajpurkar [h gp.] // arXiv preprint arXiv:1606.05250. — 2016.

Ssd: Single shot multibox detector / W. Liu [h gp.] // European conference on computer vision. — Springer. 2016. — C. 21-37.

SSIM image quality metric for denoised images / P. Ndajah [h gp.] // Proc. 3rd WSEAS Int. Conf. on Visualization, Imaging and Simulation. — 2010. — C. 53-58.

Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial networks / H. Zhang [h gp.] // Proceedings of the IEEE international conference on computer vision. — 2017. — C. 5907-5915.

Stackgan++: Realistic image synthesis with stacked generative adversarial networks / H. Zhang [h gp.] // IEEE transactions on pattern analysis and machine intelligence. — 2018. — T. 41, № 8. — C. 1947-1962.

Styleclip: Text-driven manipulation of stylegan imagery / O. Patashnik [h gp.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2021. — C. 2085-2094.

Stylegan-human: A data-centric odyssey of human generation / J. Fu [h gp.] // Computer Vision-ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23-27, 2022, Proceedings, Part XVI. — Springer. 2022. — C. 1-19.

Synthetic data and artificial neural networks for natural scene text recognition / M. Jaderberg [h gp.] // arXiv preprint arXiv:1406.2227. — 2014.

Teaching machines to read and comprehend / K. M. Hermann [h gp.] // Advances in neural information processing systems. — 2015. — T. 28.

Text classification from labeled and unlabeled documents using EM / K. Nigam [h gp.] // Machine learning. — 2000. — T. 39, № 2/3. — C. 103-134.

Textboxes: A fast text detector with a single deep neural network / M. Liao [h gp.] // Thirty-First AAAI Conference on Artificial Intelligence. — 2017.

Textsnake: A flexible representation for detecting text of arbitrary shapes / S. Long [h gp.] // Proceedings of the European Conference on Computer Vision (ECCV). — 2018. — C. 20-36.

Tezuka, T., Tanaka, K. Landmark extraction: A web mining approach // International conference on spatial information theory. — Springer. 2005. — C. 379-396.

The cityscapes dataset for semantic urban scene understanding / M. Cordts [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2016. — C. 3213-3223.

The distribution of information content in English sentences / S. Yu [h gp.] // arXiv preprint arXiv:1609.07681. — 2016.

Top 1000 phrases that customers use to buy images (market research). — 2020.

163

164

165

166

167

168

169

170

171

172

173

174

175

176

Top 1000 phrases that customers use to buy images (market research). — 2020. — URL: https://www.microstockgroup.com/general-stock-discussion/ top-phrases-that-customers-use-to-buy-images-(market-research).

Towards social user profiling: unified and discriminative influence model for inferring home locations / R. Li [h gp.] // Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. — 2012. — C. 1023-1031.

Transfer learning in natural language processing / S. Ruder [h gp.] // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Tutorials. — 2019. — C. 15-18.

Transient attributes for high-level understanding and editing of outdoor scenes / P.-Y. Laffont [h gp.] // ACM Transactions on Graphics (TOG). — 2014. — T. 33, № 4. — C. 149.

Ulyanov, D., Vedaldi, A., Lempitsky, V. Deep image prior // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2018. — C. 9446-9454.

Unifying text, metadata, and user network representations with a neural network for geolocation prediction / Y. Miura [h gp.] // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — 2017. — C. 1260-1272.

Universal sentence encoder / D. Cer [h gp.] // arXiv preprint arXiv:1803.11175. — 2018.

Unpaired image-to-image translation using cycle-consistent adversarial networks / J.-Y. Zhu [h gp.] // Proceedings of the IEEE international conference on computer vision. — 2017. — C. 2223-2232.

Veegan: Reducing mode collapse in gans using implicit variational learning / A. Srivastava [h gp.] // Advances in neural information processing systems. — 2017. — T. 30.

Wang, A., Cho, K. Bert has a mouth, and it must speak: Bert as a markov random field language model // arXiv preprint arXiv:1902.04094. — 2019.

Wang, K., Babenko, B., Belongie, S. End-to-end scene text recognition // Computer Vision (ICCV), 2011 IEEE International Conference on. — IEEE. 2011.—C. 1457-1464.

What makes paris look like paris? / C. Doersch [h gp.] // ACM Transactions on Graphics. — 2012. — T. 31, № 4.

You only need adversarial supervision for semantic image synthesis / V. Sushko [h gp.] // arXiv preprint arXiv:2012.04781. — 2020.

Zero-Shot Text-to-Image Generation / A. Ramesh [h gp.] // CoRR. — 2021. — T. abs/2102.12092. — arXiv: 2102.12092. —URL: https://arxiv.org/abs/2102. 12092.

177. Zero-shot text-to-image generation / A. Ramesh [и др.] // International Conference on Machine Learning. — PMLR. 2021. — С. 8821-8831.

178. Zitnick, C. L., Dollar, P. Edge boxes: Locating object proposals from edges // European conference on computer vision. — Springer. 2014. — С. 391-405.

179. Ефимова, В. Автоматическое определение места действия текста // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и технические науки. — 2022. — № 10. — С. 76-79.

180. Зейналова, М. С. К. О принципе золотого сечения // European research. — 2016.—6(17).— С. 52-53.

181. Лунькова, Л.Специфика и типологические свойства художественного текста // Известия Волгоградского государственного педагогического университета. — 2009. — Т. 44, № 10. — С. 47-51.

182. Макарова, М.Авторское право и Интернет // Наука и жизнь. — 2017. — № 4. — С. 34-37.

183. Хао, В. X В. Особенности структуры русских газетных текстов. // Известия Российского государственного педагогического университета им. АИ Герцена. — 2008. — № 74-1. — С. 97-103.

Список иллюстраций

Р.1 Обучение современных моделей синтеза изображений..............10

Р.2 Схема метода синтеза иллюстрации по тексту........................18

Р.3 Сгенерированные изображения людей................................22

Р.4 Пример расположения объектов с помощью золотого сечения. . . 23 Р.5 Примеры синтезированных обложек для опроса — с помощью метода 2 (слева) и метода 1 (справа)......................................26

Р.6 Обучение современных моделей синтеза изображений..............27

Р.7 Пример изображений после размещения на них сгенерированного

текста из тестовой части собранного набора данных. ..............35

Р.8 Пример изображений синтезированных по маске, созданной с помощью SynthText........................................................35

5.1 Training modern image generation models..............................43

5.2 Scheme of the method of text-to-illustration synthesis..................50

5.3 Human image generation examples......................................54

5.4 The example of layout generation using golden section................55

5.5 Examples of synthesized covers from the survey using method 2 (left)

and method 1 (right). ....................................................58

5.6 Training modern image synthesis models................................59

5.7 Example of images after placing generated text from the test part of

the collected dataset on them..............................................66

5.8 An example of images generated from a mask created with SynthText. 66

1 Обучение современных моделей синтеза изображений..............73

2 Схема архитектуры генератора StyleGAN из статьи [91]............83

3 Примеры изображений, синтезируемых моделями семейства StyleGAN ................................................................84

4 Прогресс в синтезе изображений по тексту с 2016 по 2022 год . . 85

5 Примеры изображений, синтезированных моделью Pix2Pix для разных задач ............................................................89

6 Схема архитектуры модели GauGAN с блоком SPADE, представленная в статье [140] ..................................................90

7 Примеры изображений, синтезируемых моделями семейства GauGAN ................................................................90

8 Схема архитектуры модели VQ-GAN, представленная в статье [44] 91

9 Пример пейзажей, синтезируемых моделью VQ-GAN ..............92

11 Схема архитектуры трансформера BERT из статьи [13]............94

12 Схема метода синтеза иллюстрации по тексту........................101

13 Результаты синтеза изображений для одинаковой сегментации, найденной по локации field. ..........................................105

14 Примеры изображений, собранных в видеоигре GTA5..............110

15 Синтезированные изображения людей. ..............................115

16 Примеры изображений из опроса ....................................118

17 Пример расположения объектов по правилу золотого сечения. . . 119

18 Распределение объектов на фоне по x координате (сверху) и по y (снизу).................................. 120

19 Схематичное представление разработанной архитектуры для гармонизации объекта на фоне...................... 122

20 Пример работы алгоритма гармонизации объекта на фоне .... 123

21 Примеры обложек, синтезированных с помощью художественного метода................................ 125

22 Примеры обложек, синтезированных с помощью составного метода 126

23 Примеры синтезированных обложек для опроса—с помощью метода 2 (слева) и метода 1 (справа)................... 128

24 Обучение современных моделей синтеза изображений....... 131

25 Визуализация обученной тематической модели LDA ....... 140

26 Схема предложенной модели архитектуры трансформер для выделения локации ............................ 151

27 Получение выходного вектора, соответствующего токену CLS. . 152

28 Схема предложенной модели архитектуры трансформер для вывода локации.............................. 153

29 Сравнение алгоритмов по метрикам семейства ROUGE. Предложенный метод извлечения ключевых объектов отмечен как RuleBased................................ 156

30 Пример работы метода размещения текста на изображении, описанного в работе [70].......................... 159

31 Нереалистичное размещение текста с помощью метода из [70]. . 159

32 Пример локализации текста с помощью модели SegLink [142]. . . 162

33 Нереалистичное размещение текста с помощью метода из [70]. . 163

34 Примеры надписей, которые соответствуют фону.......... 163

35 Схема архитектуры модели E2E-MLT из статьи [19]........ 165

36 Примеры изображений, восстановленных моделью EdgeConnect. Сначала по закрытому маской изображению (слева) восстанавливаются края изображения (в центре), а затем исходное изображение (справа) .............................. 167

37 Схема синтеза изображения с текстом по маске и изображению. . 167

38 Пример изображений после размещения на них сгенерированного текста из тестовой части собранного набора данных. ....... 168

39 Пример изображений синтезированных по маске, созданной с помощью SynthText............................ 168

А.1 Пример работы алгоритма удаления объектов............ 194

Список таблиц

Р.1 Современные модели для синтеза изображений, время, в течение

которого они обучались, и размер обучающей выборки..............9

Р.2 Примеры изображений сгенерированных VQ-GAN по сегментации оригинального изображения и с изменениями.......... 22

Р.3 Примеры сгенерированных изображений городских пейзажей. . . 23 Р.4 Примеры синтезированных изображений. *Текст, введенный

пользователем, слишком длинный................... 25

Р.5 Асессорская оценка синтезированных обложек........... 26

Р.6 Сравнение оригинальных и модифицированных метрик BLEU, ROUGE, METEOR и ITS на текстах разных типов, входящих в

корпус. ................................. 29

Р.7 Сравнение существующих методов реферирования по мере ITS . 30 Р.8 Точность результатов методов на тестовых наборах данных в процентах. Максимальное значение в столбце выделено жирным

шрифтом................................. 32

Р.9 Результаты детекции текста при обучении моделей на сгенерированных наборах данных. ....................... 36

Р.10 Асессорская оценка изображений из наборов SynthText и MGD2. 36

5.1 Modern image generation models, the time they were trained, and the

size of the training dataset........................ 42

5.2 Examples of images generated by VQ-GAN by segmenting the original image and with changes. ...................... 53

5.3 Examples of generated images of urban landscapes........... 54

5.4 Examples of synthesized images. *The text entered by the user is too

long.................................... 57

5.5 Assessor evaluation of synthesized covers................ 57

5.6 Comparison of original and modified metrics BLEU, ROUGE, METEOR, and ITS on texts of different types included in the corpus. ... 60

5.7 Comparison of existing summarization methods by ITS measure ... 61

5.8 The accuracy of the results of methods on test datasets in percent. The maximum value in the column is in bold................. 64

5.9 Results of text detection when training models on generated datasets. 67

5.10 Assessor evaluation of images from the SynthText and MGD2 sets. . 67

1 Современные модели для синтеза изображений, время, в течение которого они обучались, и размер обучающей выборки....... 72

2 Примеры изображений, синтезированных VQ-GAN по сегментации оригинального изображения и с изменениями.......... 107

3 Оценки по метрикам FID, IS, SSIM синтезированных изображений природных локаций. VQ - модель VQ-GAN, LG - синтез локации предложенным способом.................... 108

4 Примеры синтезированных изображений городских пейзажей. . . 111

5 Оценки по метрикам FID, IS, CLIP score синтезированных изображений городских локаций...................... 111

6 Результаты асессорской оценки синтезированных изображений городских локаций........................... 112

7 Результаты классификации объектов по авторству......... 113

8 Результаты асессорской оценки синтезированных по текстовому запросу изображений людей...................... 118

9 Сравнение синтеза шаблонов..................... 119

10 Примеры синтезированных изображений. *Текст, введенный пользователем, слишком длинный................... 127

11 Асессорская оценка синтезированных обложек........... 129

12 Статистики собранного корпуса парафразов............. 139

13 Сравнение оригинальных и модифицированных мер BLEU, ROUGE, METEOR и ITS на текстах разных типов, входящих

в корпус................................. 142

14 Сравнение существующих методов реферирования по мере ITS . 145

15 Пример текстов из реального набора данных. Каждая запись содержит текст и метки локаций..................... 148

16 Пример текстов из синтетического набора данных. Каждая запись содержит идентификатор изображения в исходном наборе данных (MS COCO), заголовок изображения и список извлеченных локаций................................. 148

17 Статистики синтетических наборов данных COCO-info, COCO-locations и COCO-locations-NS..................... 149

18 Точность результатов методов на тестовых наборах данных в процентах. Максимальное значение в столбце выделено жирным шрифтом................................. 154

19 Результаты детекции текста моделями, обученными на наборе данных SynthText............................ 163

20 Результаты детекции текста при обучении моделей на сгенерированных наборах данных. Жирным шрифтом выделено максимальное значение в столбце для языка. .................. 169

21 Асессорская оценка изображений из SynthText и из MGD2..... 170

А.1 Число изображений в тестовом наборе данных........... 194

А.2 Оценка удаления объектов. Жирным выделено максимальное значение в строке............................. 195

Список листингов

1 Синтез иллюстрации по тексту .................. 104

2 Вычисление меры ITS ....................... 137

Приложение А. Расширение базы изображений

В общедоступных базах изображений не всегда можно найти необходимые фотографии и тем более редко там присутствуют фотографии уникальных исторических зданий, которые хотелось бы использовать в иллюстрации без изменений. Но фотографию исторического здания не всегда можно сделать и добавить в базу без изменений - часто современные, инородные объекты (столбы, провода, дорожные знаки) блокируют обзор. Требуется запечатлеть оригинальный вид исторического здания, не потеряв при генеративной обработке изображения уникальных деталей объекта.

Для восстановления закрытых деталей изображения можно использовать вписывание (англ. image inpainting) [82]. Этот метод позволяет автоматически ретушировать небольшие области на фотографиях, удаляя нежелательные объекты. Существующие алгоритмы вписывания хорошо восстанавливают небольшие и узкие участки изображения, но не способны качественно удалить с фотографии крупный объект, такой как автомобиль или близко расположенный дорожный знак.

Исторические здания и другие архитектурные объекты, представляющие интерес для фотографов и явно упоминающиеся в художественных произведениях, обычно обладают уникальными деталями, которые не могут быть «угаданы» алгоритмами без фотографии оригинального объекта. Большинство методов вписывания основано на использовании внутренних закономерностей изображения, глубокие методы для вписывания обучаются на большом наборе изображений и добавляют средние по уведенным фотографиям, а не уникальные детали. Таким образом, результаты восстановления исторических зданий этими алгоритмами получаются низкого качества и не оригинальны по существу.

Предложенный алгоритм принимает на вход две фотографии одной сцены, сделанные с разных ракурсов, а также обладающие одинаковым разрешением, и удаляет объекты следующих категорий: люди, дорожные знаки, велосипеды, автомобили, мотоциклы, автобусы, светофоры.

Шаги алгоритма, которые будут более подробно рассмотрены ниже:

- обнаружение объектов на фото (используется дообученная нейронная сеть Mask R-CNN);

- подготовка маски для удаления объектов;

- вычисление ключевых точек и дескрипторов SIFT;

- сопоставление ключевых точек с двух фотографий (метод ближайших соседей с заданным отношением расстояний (NNDR), с порогом t = 0.8 и нормой L2);

- вычисление матриц томографии на основе карты глубины (алгоритм RANSAC);

- применение полученных матриц к фронтовому изображению;

- удаление эффекта параллакса с помощью подхода Non Ghosting Artifacts, NGA [123];

- компенсация ошибок вычисления томографии для длинных объектов;

- вставка перекрываемой области в исходное изображение с использованием блендинга.

В качестве модели детекции была выбрана Mask R-CNN [111] с бэкбоуном ResNet 101 [30]. Данная модель умеет детектировать людей, машины, светофоры, но из дорожных знаков только знак СТОП, поэтому потребовалось дообучение на российских дорожных знаках восьми форм.

Метод описания дескрипторов ключевых точек и метод построения матрицы гомографии выбраны в результате серии экспериментов как гиперпараметры.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.