Генерация мимики и жестов по речи тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Корзун Владислав Андреевич

  • Корзун Владислав Андреевич
  • кандидат науккандидат наук
  • 2022, ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 88
Корзун Владислав Андреевич. Генерация мимики и жестов по речи: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2022. 88 с.

Оглавление диссертации кандидат наук Корзун Владислав Андреевич

Введение

Глава 1. Основные подходы генерации анимации

1.1 Взаимодействие жестов и речи

1.2 Задача генерации анимации

1.3 Представление аудио

1.3.1 Классические представления

1.3.2 Нейросетевое представление аудио

1.3.3 Преобразование голоса

1.4 Основные подходы генерации скелетной анимации

1.4.1 Скелетная анимация

1.4.2 Деформация модели

1.4.3 Покадровая генерация жестов

1.4.4 Seq2seq

1.4.5 Генеративно-состязательная сеть

1.5 Основные подходы генерации лицевой анимации

1.5.1 Лицевая анимация

1.5.2 Блендшейпы

1.5.3 Процедурная генерация мимики

1.5.4 Генерация последовательности мешей

1.5.5 Использование морфов для генерации 2D анимации

1.5.6 Параметрические модели лица

1.6 Выводы по главе

Глава 2. Генерация жестов

2.1 Постановка задачи

2.2 GENEA Challenge

2.2.1 Данные

2.2.2 Способы оценки

2.3 Предлагаемое решение

2.3.1 Обработка данных

Стр.

2.3.2 Формулировка задачи

2.3.3 8ед2эед

2.3.4 Контекстуальный кодировщик

2.3.5 Состязательное обучение

2.4 Результаты

2.5 Выводы по главе

Глава 3. Генерация мимики

3.1 Постановка задачи

3.2 Основной подход

3.3 Сбор данных

3.4 Представление аудио

3.4.1 Wav2Vec

3.4.2 Ли^О

3.5 Модели

3.5.1 FeedForward

3.5.2 Эед28ед

3.6 Оценка качества

3.6.1 ЬМЭ

3.6.2 Ь^ЗЭ

3.7 Эксперименты

3.7.1 Начальные условия

3.7.2 Результаты на реальном голосе

3.7.3 Результаты на синтетическом голосе

3.7.4 Оценка людьми

3.8 Добавление движений головы и других мимических движений

3.9 Описание системы генерации мимики

3.10 Выводы по главе

Заключение

Список сокращений и условных обозначений

Словарь терминов

Стр.

Список литературы

Список рисунков

Список таблиц

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Генерация мимики и жестов по речи»

Введение

Трехмерная анимация уже давно используется для создания мультфильмов - первым трехмерным мультсериалом является «Полная перезагрузка» (Reboot) 1994 года. А первая трехмерная игра «Maze War» появилась еще раньше - в 1973 году, однако полигональное представление моделей появилось чуть позже - в 1983 году в игре «I, Robot». Современная же компьютерная графика и вычислительные машины ушли далеко вперед и изображения трехмерных моделей человека уже сложно отличить от фотографий реальных людей, а современные инструменты, такие как MetaHuman1, позволяют создавать гиперреалистичные модели человека. Для «оживления» подобных моделей требуется создание трехмерной анимации, производство которой требует существенных усилий.

Существует несколько способов создания трехмерной анимации. Например, в мультипликации анимация часто создается вручную по ключевым кадрам с помощью манипуляций над управляющими элементами модели. В компьютерных играх, а также кино, использующем компьютерную графику, анимация записывается с помощью системы захвата движений с живых актеров. Точный захват движений требует дорогостоящего оборудования, а также его настройки и позиционирования. Однако в последнее время начали появляться более дешевые способы захвата движений, хоть и их качество все равно уступает профессиональному оборудованию. Но даже имея доступные средства захвата движений, все еще требуется человек, движения которого и будут переноситься на трехмерную модель.

Автоматизация создании анимации могла бы серьезно упростить генерацию контента, в том числе разработку видеоигр. С одной стороны, не всегда требуется полное воспроизведение реальных движений человека, например, во многих больших играх в открытом мире можно заметить повторяющиеся движения различных персонажей, а движение их губ может не полностью соответствовать произносимой речи. Однако подобное поведение не мешает погружению в виртуальный мир, хотя более разнообразные движения могли бы только улучшить это погружение.

1https://www.unrealengine.com/en-US/metahuman

С другой стороны, качественная генерация движений губ персонажей, соответствующих речи, имеет множество возможных применений. Например, при локализации: обычно в срежиссированных сценах разработчики используют захват движений и мимики с актеров на оригинальном языке игры, а при локализации возникает множество трудностей: переведенные фразы должны не только укладываться по времени сцены, но и примерно соответствовать движению губ оригинала. Генерация движений губ по речи актера локализации позволило бы решить хотя бы одну проблему.

Также из-за развития диалоговых агентов и систем синтеза речи появляется все больше виртуальных ассистентов, например, помощники в банковских приложениях или же универсальные помощники «Алиса»2 от Яндекса или «Ма-руся»3 от VK. У некоторых подобных помощников, например у «КерНка»4, уже появился визуальный образ, хотя его движения еще недостаточно реалистичны и возникает эффект «зловещей долины». Поэтому задача генерации мимики для трехмерных персонажей на основе речи начинает быть все более востребованной.

На сегодняшний день уже существует несколько подходов для генерации реалистичной мимики и жестов с помощью нейронных сетей, используя звуковой сигнал речи на входе. Однако до сих пор эти подходы не получили широкого применения, что открывает простор для дальнейших исследований.

В данной работе рассматриваются задача генерации мимики и жестов по речи и предлагаются подходы для её решения. Целью данной работы является разработка системы, которая по входной аудио дорожке возвращает скелетную и лицевую анимацию, соответствующую данной дорожке, а также исследование различных подходов и факторов, влияющий на восприятие движений.

Создание лицевой и скелетной анимации концептуально отличаются друг от друга и представляют отдельные задачи и их стоит рассматривать по-отдель-ности. Поэтому для достижения поставленной цели необходимо было решить следующие задачи:

1. Исследовать существующие методы автоматической генерации мимики и жестов.

2. Разработать модель генерации жестов.

2Ь«рБ://уа^ех.ги/а11се

3Ь«рБ://таги81а.та11.ги

4Ь«рБ://гер11ка.сот

3. Собрать данные на русском языке для обучения генератора мимики.

4. Разработать метод оценки качества лицевой анимации.

5. Разработать и оценить различные модели генерации мимики.

6. Разработать программный комплекс автоматической генерации анимации по аудио.

Научная новизна:

1. Впервые для генерации жестов использовался подход, основанный на использовании как аудио, так и текстовых признаков.

2. Собран первый набор данных, содержащий параллельные дорожки с лицевой анимацией и аудио речи на русском языке.

3. Впервые нейросетевой подход к оценке синхронизации речи и движения губ в видео был использован для оценки качества лицевой анимации трехмерной модели.

Теоретическая и практическая значимость. Разработанная модель генерации жестов доказала практическую значимость, показав один из лучших результатов оценки людьми на соревновании GENEA2020. Разработанный генератор мимики был использован в сервисе оживления визуальных ассистентов - «Tinkoff Thara API». Также был сделан подробный разбор существующих подходов генерации мимики и жестов на русском языке, что представляет теоретическую значимость для дальнейших исследований.

Методология и методы исследования. В ходе работы были применены методы машинного обучения, теории нейронных сетей и трехмерного моделирования. Также были применены методы разработки приложений на языках программирования Python, Bash и JavaScript, программной библиотеке для машинного обучения PyTorch, системе развертывания и обслуживания ней-росетевых моделей TorchServe, средством контейнерезации приложений Docker, программного комплекса трехмерного моделирования Blender и программной библиотеки для создания видеоигр Babylon.js.

Основные положения, выносимые на защиту:

1. Предложена модель генерации жестов по речи, использующая как аудио, так и текстовые признаки. Предложенная модель позволяет генерировать реалистичные жесты, согласующиеся с речью, что подтверждается одним из лучших результатов участия в соревновании GENEA2020.

2. Собран первый набор данных для генерации мимики на русском языке, на основе которого были обучены различные модели генерации движения губ по речи.

3. Предложен метод оценки качества лицевой анимации, согласующийся с оценкой людьми, с помощью которого были сравнены модели генерации движения губ по речи и выбрана из них лучшая.

4. Разработана система генерации лицевой анимации, которая обладает временем работы меньшим реального и не требует серьезных вычислительных ресурсов. Разработанная система также внедрена в сервис оживления виртуальных ассистентов «Tinkoff Thara API».

Соответствие специальности. Диссертационное исследование соответствует пункту 4 паспорта специальности 2.3.8 («Информатика и информационные процессы»). А именно, "Разработка методов и технологий цифровой обработки аудиовизуальной информации с целью обнаружения закономерностей в данных, включая обработку текстовых и иных изображений, видео контента. Разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения требуемой информации из текстов."

Достоверность полученных результатов обеспечивается успешным участием в соревновании GENEA2020, эксперименты в котором проводились на открытых данных, а программный код и обученные модели находятся в открытом доступе, что позволяет полностью воспроизвести эксперименты. Сервис оживления визуальных ассистентов планируется к публикации в будущем, что позволит оценить качество генерируемой мимики.

Апробация работы. Основные результаты работы докладывались на международных конференциях:

— XXVII Международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог», 2021

— XXVIII Международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог», 2022

Публикации. Основные результаты по теме диссертации изложены в 3 печатных изданиях, 2 из которых — в периодических научных журналах, индексируемых Web of Science и Scopus, и одна — в научном журнале, рекомендованном ВАК.

Объем и структура работы. Диссертация состоит из введения, трех глав и заключения. Полный объём диссертации составляет 88 страниц, включая 23 рисунка и 11 таблиц. Список литературы содержит 71 наименование.

Глава 1. Основные подходы генерации анимации

Данная глава посвящена общей задаче генерации анимации и описанию различных подходов к её решению. Цель данной главы - рассказать в общем о задаче, какие основные постановки и способы ее решения существуют, а также дать необходимый базис, на который будет опираться дальнейшая работа.

В разделе 1.1 приводятся основные положения о связи жестов и речи. В разделе 1.2 опишем решаемую задачу и рассматриваемый домен. Далее в разделе 1.3 будет рассказано об основных способах кодирования аудиоинформации. В разделах 1.4 и 1.5 будут подробнее рассмотрены анимации тела и лица соответственно, а также способы представления такой анимации и способы решения задач автоматической генерации такой анимации по речи. Выводы по главе будут в разделе 1.6.

1.1 Взаимодействие жестов и речи

Перед тем как перейти к самой задаче генерации мимики и жестов по речи, стоит разобраться с наличием связи между ними. Если с синхронизацией движения губ все просто: существует явная связь между произносимыми фонемами и соответствующими им формой губ [1]. С жестами и другими мимическими движениями все намного сложнее - исследователи давно спорят о степени связи между речью и жестами.

В [2] описываются основные представления различных исследователей о взаимодействии речи и жестов. Для начала, определяется что такое разговорные жесты. Согласно [3], жест - это видимое действие любой части тела, когда оно используется как высказывание или его часть. Такое определение исключает такие движения как прикосновения к себе, почесывания или массаж шеи. Разговорные жесты или жесты, сопровождающие речь (co-speech gestures), происходят во время речевого акта.

Также отдельно выделяются жесты рук и головы. Жесты головы, в основном, параметризуют интенсивностью: амплитудой и частотой движения, и

связывают с просодией или ритмом и тоном речи. Жесты рук же дополнительно разделяют на различные фазы [4]:

1. Положение покоя - некоторое стабильное положение, из которого инициализируется жестикуляция.

2. Фаза подготовки, во время которой начинается движение от положения покоя для подготовки к следующей фазе.

3. Выпад (gesture stroke) - основная фаза жеста, содержащая пик жеста (gesture apex).

4. Удержание - фаза без движения, проявляющаяся до и после выпада.

5. Фаза восстановления или ретракция - возвращение в положение покоя.

Также выделяют различные классификации жестов, например по тому, какую функцию они выполняют [5]:

— символические жесты, связанные с некоторой абстракцией (например большой палец вверх).

— изобразительные жесты, показывают размер или форму того, о чем идет речь.

— указательные жесты, которые указывают некоторое направление, в котором может находиться нужный объект.

— ритмические жесты связаны с ритмом речи. И вместо того, чтобы нести прямой смысл, они подчеркивают просодические явления в речи: логическое ударение, замедление и ускорение, интонацию.

Помимо функционального значения жестов, важным считается их семантические качества, дополняющие речь. Во-первых, жесты могут нести информацию, не упоминаемую в текущей речи, например, когда ребенок показывает на живот со словами «Я голоден». Во-вторых, они могут дополнять информацию передаваемую речью, например, когда говорят «мяч вот такой большой» и одновременно изображают его размер руками. Следуя различным функциям и качествам разговорных жестов, исследователи задались вопросом об их источнике. Согласно одной из теорий [6], жесты имеют тенденцию отражать то, что одновременно производится вербально. Другая же точка зрения утверждает [7], что речь и жесты дополняют друг друга в передаче информации, при этом менее затратный производственный канал является более доминирующим. Имея множество подобных теорий, нельзя точно утверждать о глубокой связи между речью и жестами.

Также поднимаются вопросы о синхронизации речи и жестов. Согласно некоторым наблюдениям, жесты головы воспринимаются слушателями, как соответствующие речи вплоть до временного сдвига в 200 миллисекунд. Для других жестов было выявлено, что они воспринимаются с еще большими сдвигами, главное - чтобы жест происходил, до соответствующего вербального выражения. Хотя в некоторых наблюдениях воспринимались сдвиги в обе стороны до 600 миллисекунд.

Приведенные выше доводы о неоднозначности связи речи и жестов, ставят нетривиальную задачу в предсказании жестов по речи. Однако ритмичные движения и жесты головы, призванные поддерживать просодию речи, теоретически могут быть предсказаны.

1.2 Задача генерации анимации

Под задачей генерации анимации человека в широком смысле подразумевается генерация видео с движениями его тела и лица. Генерация видео может происходить покадрово с использованием нейронных сетей, как например в [8] и [9], так и используя трехмерную анимацию.

Данная же работа сконцентрирована, в основном, на генерации трехмерной анимации. По сути задача генерации трехмерной анимации состоит в генерации последовательности состояний трехмерного объекта. О самих состояниях будет подробнее рассказано в разделах 1.4 и 1.5, посвященных скелетной и лицевой анимации соответственно. Скелетная и лицевая анимации существенно отличаются способом представления, поэтому они рассматриваются по-отдель-ности.

По итогу наша задача состоит в том, чтобы генерировать скелетную и лицевую анимацию по входящей речи. При этом получаемые движения должны соответствовать этой речи: губы должны двигаться в соответствии с произносимыми фонемами, а движение тела должно также сочетаться с речью. Вообще, если с движениями губ все более или менее однозначно: существует соответствие между фонемами и виземами [1], то с жестикуляцией все намного сложнее: в главе 2 будет показано, что субъективная оценка качества жестикуляции не

соответствует объективным метрикам. И даже жесты, подставленные с другой дорожки воспринимаются людьми лучше, чем любые сгенерированне по речи.

1.3 Представление аудио

Для решения задачи генерации анимации по речи, во-первых, необходимо соответствующее представление аудио сигнала. В подразделе 1.3.1 представлены классические способы представления аудио, а в подразделах 1.3.2 и 1.3.3 более современные, основанные на нейросетевых моделях, которые также будут использоваться в данной работе.

1.3.1 Классические представления

Звук представляет собой механическую волну и может быть выражен в виде одномерной вещественной функции $(£), где ¿-время, а значение функции - амплитуда волны.

Для хранения и обработки вещественнозначного непрерывного сигнала используется аналого-цифровое преобразование. Такое преобразование обычно выделяет два основных этапа:

— Квантование - разбиение диапазона отсчётных значений сигнала на конечное число уровней и округление этих значений до одного из двух ближайших к ним уровней.

— Дискретизация - представление непрерывной функции дискретной совокупностью её значений при разных наборах аргументов, т.е. значений, взятых в моменты времени ¿о, ¿ъ ...,£«,.

Эти два процесса имеют две важные характеристики:

— Разрешение - число бит, используемое для кодирования значений сигнала, от которых число уровней разбиения диапазона значений.

— Частота дискретизации - обратное расстояние между соседними точками, т.е. 1 /{Ъ{ — £¿-1).

Итого полученный цифровой сигнал X (п) можно использовать при работе на компьютере, однако такой сигнал не содержит в явном виде информации о частотном распределении.

Чтобы получить частотную характеристику из цифрового сигнала к нему применяют дискретное преобразование Фурье:

Х(к) = ^ X (п)

и)- е-г2пп £

Однако при применении к исходному сигналу возникает всплеск высоких частот из-за не-периодичности сигнала на краях. Поэтому к исходному сигналу сперва применяется оконный фильтр Ханна:

^(к) = 1(1 - сов(

Таким образом, мы получаем частотную характеристику всего сигнала, однако нас интересует её изменение во времени, поэтому преобразование Фурье применяется к скользящему окну по исходному сигналу:

N-1

5(т, к) = ^ X(п + тН) • ■ы(п) • е-г2пп*,

п=0

где т - номер окна, к - частотный уровень, X - исходный цифровой сигнал, Н -шаг между соседними окнами, N - ширина окна. Шаг между соседними окнами обычно выбирается как половина ширины окна, чтобы извлечь информацию с окон, затронутых оконным фильтром. $(т, к) называют спектрограммой. Спектрограмма описывает сигнал с точки зрения изменения частотной характеристики со временем и довольно часто используется для решения многих задач обработки сигналов.

Человеческое восприятия звука отличается от его частотного представления и имеет логарифмическую шкалу, так называемую мел-шкалу (мел от мелодия). Эмпирическим путем выявлено следующее соответствие частотных и мел шкал:

т = 2595 • 1од(1 + ^

Перевод спектрограммы к мел-шкале проводится следующим образом:

1. Вычисляются соответствующие мел значения для минимальной и максимальной частоты.

2. Между этими значениями на одинаковом расстоянии откладываются точки по числу искомых отрезков.

3. Находятся значения этих точек в исходной шкале.

4. Найденные значения округляются до ближайших отрезков.

5. Создаются треугольные фильтры между этими значениями и применяются к исходному сигналу.

Полученный результат называют мел-спектрограммой, которую также часто используют при извлечении аудио признаков с логарифмированием амплитуд.

Следующий способ получения признаков - мел-кепстральные коэффициенты (MFCC) [10], получаемый из мел-спектрограмм путем применения к ним дискретного косинусного преобразования. MFCC очень часто используют при работе именно с речью, т.к. позволяют отделять частотную характеристику голосового тракта от гортанного пульса. Также данное представление мы будем использовать в своей модели генерации жестов 2.3.

1.3.2 Нейросетевое представление аудио

Многие современные подходы распознавания речи используют нейросете-вые модели для представления аудио сигнала. Одними из самых популярных являются модели DeepSpeech [11], Wav2vec [12] и его развитие - Wav2vec 2.0 [13]. Далее опишем основные идеи приведенных моделей.

DeepSpeech [11]. Данная модель представляет собой рекуррентную нейронную сеть (RNN), отображающую входную последовательность окон спектрограмм в символы (буквы) некоторого языка. Для того, чтобы модель учитывала слова с похожим произношением, но разным написанием, к CTC loss [14], добавляется дополнительная функция ошибки обученной языковой модели, которая учитывает совместное появление N-грамм. Дополнительной мотивацией использования языковой модели является тот факт, что её можно обучить на неразмеченных данных огромных размеров. Авторы приводят примеры, изображенные в таблице 1, когда выходы рекуррентной сети исправляются с помощью языковой модели.

Таблица 1 — Пример исправления языковой моделью выходов RNN

Выходы RNN Исправление языковой моделью

what is the weather like in bostin prime miniter nerenr modi arther n tickets for the game what is the weather like in boston prime minister narendra modi are there any tickets for the game

В качестве признаков аудио для нашей задачи можно использовать последний скрытый слой ИКК, до получения распределения по словарю символов.

^гау2Уес [12]. Данная модель основывается на обучении без учителя для представления аудио. Сама модель представляет собой многослойную сверточ-ную нейронную сеть, состоящую из двух основных модулей. На рисунке 1.1 представлена схема данной модели.

£>\ £>2 Сг

С

г х

Рисунок 1.1 — Схема модели шау2уее. Рисунок взят из [12]

В качестве входа модель использует исходный аудио сигнал X без дополнительной обработки, как это было у БеерБреесЬ, где на вход модели подаются спектрограммы. Затем скользящее окно € X по 30 миллисекунд с шагом в 10 миллисекунд сворачивается сетью кодировщика / : X ^ 2 в вектор признаков € 2,. Наконец, также сверточная контекстная сеть д : 2 ^ С смешивает несколько векторов признаков в один а = ... ,г{—у), где V -ширина контекста.

Модель обучается с помощью контрастной функции потерь, пытаясь отличить вектор г+к, стоящий на к шагов в будущем, от вектора 5, взятого из

случайного места дорожки с распределением рп. Итоговая функция потерь вы-

глядит следующим образом: С = 1 С,

т-к

Ск = - (1о9®(г1+к Ьк (сг)) + [1ода(-гт Нк (сг))])

%=1

где а - функция сигмойды, а (с¿)) - вероятность того, что - дей-

ствительно стоит в будущем на (г + к)-ом месте. (сг) = WkС{ + - аффинное преобразование на каждом шаге к, Л - число негативных примеров г.

После обучения контекстуальные представления ^ используются в качестве признаков для систем распознавания речи.

^гау2Уес 2.0 [13]. Развитием модели wav2vec является его вторая версия, точнее не простого wav2vec, а его дискретизованной версии [15], в которой между % и С добавляется дополнительное дискретное пространство ¿. Во второй версии для получения контекстуальных представлений уже использовался трансформер [16], а также некоторые другие модификации. Схема новой модели изображена на рисунке 1.2.

raw waveform PC

Рисунок 1.2 — Схема модели Wav2vec 2.0. Рисунок взят из [13]

Модели, используемые для распознавания речи, часто получают признаки, независимые от голоса. Это будет показано в разделе 3.4.1 при рассмотрении выходов 2.0 в качестве признаков для обучения генератора мимики.

Такое поведение может иметь как свои плюсы, так и свои минусы.

1.3.3 Преобразование голоса

Для выделения признаков из речи, независимых от голоса, также можно использовать преобразование речи в целевой голос, используя, например, А^оУС [17], схема которого изображена на рисунке 1.3

Рисунок 1.3 — Схема AutoVC. Рисунок взят из [17]

AutoVC представляет собой специфический автокодировщик с двумя кодировщиками и решает задачу преобразования голоса (voice conversion). Основная идея модели - разделить входящую речь на две компоненты. Первая отвечает за стиль речи и содержит информацию о голосе говорящего, а вторая отвечает за содержание речи, т.е. за содержащиеся в ней слова.

Подобное разделение аудио на содержательную и стилевую части достигается с помощью подбора размерности промежуточного представления. Для этого используются два кодировщика аудио: стилевой (b) и содержательный (a). Стилевой кодировщик предобучается на идентификации дикторов и фиксируется при обучении остальной модели. Получая на вход спектрограмму речи, этот кодировщик возвращает вектор представления диктора или эмбеддинг диктора.

В кодировщике содержания (a) используется исходная спектрограмма вместе с эмбеддингом диктора, получаемом из стилевого кодировщика. Затем его выход объединяется с эмбеддингом диктора (С1 + S2). Далее из полученных признаков генерируется итоговая спектрограмма (с). При правильном подборе размерности выхода содержательного кодировщика, вся информация о дикторе должна браться из эмбеддингов, а в этом представлении должно остаться только содержание записи.

При использовании содержательной части, извлеченной из дорожки одного диктора, и стилевой части другого диктора, генерируется новая дорожка (с), соответствующая по содержанию исходной, но сказанной другим голосом. В качестве признаков для обучения модели генерации мимики можно использовать выход содержательного кодировщика (отмечено красным) или же приведенную к одному голосу спектрограмму (отмечено синим), как это было сделано в [8]. Более подробно эксперименты с данными представлениями будут описываться в 3.4.2.

1.4 Основные подходы генерации скелетной анимации

В данном разделе более подробно рассмотрим, что собой представляет скелетная анимация, а также способы её генерации по речи. В подразделе 1.4.1 опишем трехмерный скелет человека и его анимацию, а в подразделе 1.4.2 -изменение трехмерной модели по изменению положения скелета. В подразделах 1.4.3, 1.4.4 и 1.4.5 приведем основные подходы генерации скелетной анимации.

1.4.1 Скелетная анимация

Под скелетной анимацией подразумевается последовательность состояний трехмерного скелета. Скелет в трехмерной графике представляет собой древовидную структуру, элементами которой являются кости. У каждой кости есть три основных элемента: голова (head), тело (body) и хвост (tail). Обычно дочерние кости прикрепляются головой к родительскому хвосту. Это сочленение мы будем в дальнейшем называть суставом. На рисунке 1.4 изображен базовый скелет человека с именами его костей.

Собственно, различные положения скелета задаются с помощью углов поворота дочерних костей относительно родительских. Например, чтобы согнуть левую руку в локте на базовом скелете, можно выставить составляющую Z у угла поворота на 0.8 у кости (forearm.L). В интерфейсе Blender углы задаются с помощью кватернионов, однако их также можно задать, например, с

spine.006

ft) rearm. R

tfand.R

spine.005 spine.004

я

--^houl^er.ft-Ider.L spine.0031"

upperarm.R

breast.fi g breast. L . spine. 002

T

spine.001

Hipperarm.L

forearm.L

hand.L

pel\apiftelvis.L

thigh.R . thigh.L

шк шк

ihin.R

Shin.L

pbot.R s, /foot.L

Рисунок 1.4 — Базовый скелет человека

помощью трехмерных углов Эйлера. Таким образом, трехмерную анимацию можно задать последовательностью трехмерных углов для каждой кости, т.е. {'Шг Е К3т\Ъ Е [1,Т]}, где т - число костей (или суставов) в скелете, а Т -длина анимации в кадрах. Сама же трехмерная модель персонажа изменяется под действием скелета с помощью деформаций.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Корзун Владислав Андреевич, 2022 год

Список литературы

1. Тампель, И. Автоматическое распознавание речи [Текст] / И. Тампель, А. А. Карпов // Учебное пособие.- СПб: Университет ИТМО. — 2016.

2. Wagner, P. Gesture and speech in interaction: An overview [Текст] / P. Wagner, Z. Malisz, S. Kopp. — 2014.

3. Kendon, A. Gesture: Visible action as utterance [Текст] / A. Kendon. — Cambridge University Press, 2004.

4. Bressem, J. Rethinking gesture phases: Articulatory features of gestural movement? [Текст] / J. Bressem, S. H. Ladewig. — 2011.

5. Studdert-Kennedy, M. Hand and Mind: What Gestures Reveal About Thought. [Текст] / M. Studdert-Kennedy // Language and Speech. — 1994. — Т. 37, № 2. — С. 203—209.

6. So, W. C. Using the hands to identify who does what to whom: Gesture and speech go hand-in-hand [Текст] / W. C. So, S. Kita, S. Goldin-Meadow // Cognitive science. — 2009. — Т. 33, № 1. — С. 115—125.

7. De Ruiter, J. P. The interplay between gesture and speech in the production of referring expressions: Investigating the tradeoff hypothesis [Текст] / J. P. De Ruiter, A. Bangerter, P. Dings // Topics in cognitive science. — 2012. — Т. 4, № 2. — С. 232—248.

8. MakeltTalk: Speaker-Aware Talking-Head Animation [Текст] / Y. Zhou [и др.] // ACM Transactions on Graphics. — 2020. — Т. 39, № 6.

9. Learning individual styles of conversational gesture [Текст] / S. Ginosar [и др.] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2019. — С. 3497—3506.

10. Chakroborty, S. Some studies on acoustic feature extraction, feature selection and multi-level fusion strategies for robust text-independent speaker identification [Текст] / S. Chakroborty // submitted to electronics and electrical communication engineering department. — 2008.

11. Deep speech: Scaling up end-to-end speech recognition [Текст] / A. Hannun [и др.] // arXiv preprint arXiv:1412.5567. — 2014.

12. wav2vec: Unsupervised pre-training for speech recognition [Текст] / S. Schneider [и др.] // arXiv preprint arXiv:1904.05862. — 2019.

13. wav2vec 2.0: A framework for self-supervised learning of speech representations [Текст] / A. Baevski [и др.] // Advances in Neural Information Processing Systems. — 2020. — Т. 33. — С. 12449—12460.

14. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks [Текст] / A. Graves [и др.] // Proceedings of the 23rd international conference on Machine learning. — 2006. — С. 369—376.

15. Baevski, A. vq-wav2vec: Self-supervised learning of discrete speech representations [Текст] / A. Baevski, S. Schneider, M. Auli // arXiv preprint arXiv:1910.05453. — 2019.

16. Attention is all you need [Текст] / A. Vaswani [и др.] // Advances in neural information processing systems. — 2017. — Т. 30.

17. Autovc: Zero-shot voice style transfer with only autoencoder loss [Текст] / K. Qian [и др.] // International Conference on Machine Learning. — PMLR. 2019. — С. 5210—5219.

18. Skinning: Real-time shape deformation (full text not available) [Текст] / A. Jacobson [и др.] // ACM SIGGRAPH 2014 Courses. — 2014. — С. 1—1.

19. Wang, X. C. Multi-weight enveloping: least-squares approximation techniques for skin animation [Текст] / X. C. Wang, C. Phillips // Proceedings of the 2002 ACM SIGGRAPH/Eurographics symposium on Computer animation. — 2002. — С. 129—138.

20. Merry, B. Animation space: A truly linear framework for character animation [Текст] / B. Merry, P. Marais, J. Gain // ACM Transactions on Graphics (TOG). — 2006. — Т. 25, № 4. — С. 1400—1423.

21. Analyzing input and output representations for speech-driven gesture generation [Текст] / T. Kucherenko [и др.] // Proceedings of the ACM International Conference on Intelligent Virtual Agents. — 2019. — С. 97—104. — (IVA '19).

22. Savitzky, A. Smoothing and differentiation of data by simplified least squares procedures. [Текст] / A. Savitzky, M. J. Golay // Analytical chemistry. — 1964. — Т. 36, № 8. — С. 1627—1639.

23. Robots learn social skills: End-to-end learning of co-speech gesture generation for humanoid robots [Текст] / Y. Yoon [и др.] // Proceedings of the IEEE International Conference on Robotics and Automation. — 2019. — С. 4303—4309. — (ICRA '19).

24. Sutskever, I. Sequence to sequence learning with neural networks [Текст] / I. Sutskever, O. Vinyals, Q. V. Le // Advances in neural information processing systems. — 2014. — С. 3104—3112.

25. Pennington, J. Glove: Global vectors for word representation [Текст] / J. Pennington, R. Socher, C. D. Manning // Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). — 2014. — С. 1532—1543.

26. Realtime multi-person 2d pose estimation using part affinity fields [Текст] / Z. Cao [и др.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2017. — С. 7291—7299.

27. Jolliffe, I. T. Principal component analysis: a beginner's guide—I. Introduction and application [Текст] / I. T. Jolliffe // Weather. — 1990. — Т. 45, № 10. — С. 375—382.

28. Generative adversarial networks [Текст] / I. Goodfellow [и др.] // Communications of the ACM. — 2020. — Т. 63, № 11. — С. 139—144.

29. Ronneberger, O. U-net: Convolutional networks for biomedical image segmentation [Текст] / O. Ronneberger, P. Fischer, T. Brox // International Conference on Medical image computing and computer-assisted intervention. — Springer. 2015. — С. 234—241.

30. Ekman, P. Facial action coding system [Текст] / P. Ekman, W. V. Friesen // Environmental Psychology & Nonverbal Behavior. — 1978.

31. Learning a model of facial shape and expression from 4D scans [Текст] / T. Li [и др.] //ACM Transactions on Graphics, (Proc. SIGGRAPH Asia). — 2017. — Т. 36, № 6. — 194:1—194:17. — URL: https://doi.org/10.1145/3130800. 3130813.

32. Practice and theory of blendshape facial models. [Текст] / J. P. Lewis [и др.] // Eurographics (State of the Art Reports). — 2014. — Т. 1, № 8. — С. 2.

33. Sumner, R. W. Deformation transfer for triangle meshes [Текст] / R. W. Sumner, J. Popovic // ACM Transactions on graphics (TOG). — 2004. — Т. 23, № 3. — С. 399—405.

34. Dynamic units of visual speech [Текст] / S. L. Taylor [и др.] // Proceedings of the 11th ACM SIGGRAPH/Eurographics conference on Computer Animation. — 2012. — С. 275—284.

35. Animated speech: research progress and applications [Текст] / D. Massaro [и др.]. — 2012.

36. Jali: an animator-centric viseme model for expressive lip synchronization [Текст] / P. Edwards [и др.] // ACM Transactions on graphics (TOG). —

2016. — Т. 35, № 4. — С. 1—11.

37. Audio-driven facial animation by joint end-to-end learning of pose and emotion [Текст] / T. Karras [и др.] // ACM Transactions on Graphics (TOG). —

2017. — Т. 36, № 4. — С. 1—12.

38. Neural voice puppetry: Audio-driven facial reenactment [Текст] / J. Thies [и др.] // European conference on computer vision. — Springer. 2020. — С. 716—731.

39. Self-attention generative adversarial networks [Текст] / H. Zhang [и др.] // International conference on machine learning. — PMLR. 2019. — С. 7354—7363.

40. Thies, J. Deferred neural rendering: Image synthesis using neural textures [Текст] / J. Thies, M. Zollhofer, M. NieBner // ACM Transactions on Graphics (TOG). — 2019. — Т. 38, № 4. — С. 1—12.

41. Johnson, J. Perceptual losses for real-time style transfer and super-resolution [Текст] / J. Johnson, A. Alahi, L. Fei-Fei // European conference on computer vision. — Springer. 2016. — С. 694—711.

42. Blanz, V. Face recognition based on fitting a 3D morphable model [Текст] / V. Blanz, T. Vetter // IEEE Transactions on pattern analysis and machine intelligence. — 2003. — Т. 25, № 9. — С. 1063—1074.

43. Facewarehouse: A 3d facial expression database for visual computing [Текст] / C. Cao [и др.] // IEEE Transactions on Visualization and Computer Graphics. — 2013. — Т. 20, № 3. — С. 413—425.

44. Vetter, T. Linear object classes and image synthesis from a single example image [Текст] / T. Vetter, T. Poggio // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 1997. — Т. 19, № 7. — С. 733—742.

45. Tucker, L. R. Some mathematical notes on three-mode factor analysis [Текст] / L. R. Tucker // Psychometrika. — 1966. — Т. 31, № 3. — С. 279—311.

46. Pham, H. X. Speech-driven 3D facial animation with implicit emotional awareness: a deep learning approach [Текст] / H. X. Pham, S. Cheung, V. Pavlovic // Proceedings of the IEEE conference on computer vision and pattern recognition workshops. — 2017. — С. 80—88.

47. Hochreiter, S. Long short-term memory [Текст] / S. Hochreiter, J. Schmidhuber // Neural computation. — 1997. — Т. 9, № 8. — С. 1735—1780.

48. Chroma feature extraction [Текст] / M. Kattel [и др.] // Conference: chroma feature extraction using fourier transform. — 2019.

49. Livingstone, S. R. Ravdess: The ryerson audio-visual database of emotional speech and song [Текст] / S. R. Livingstone, K. Peck, F. A. Russo // Annual meeting of the canadian society for brain, behaviour and cognitive science. — 2012. — С. 205—211.

50. Robust real-time performance-driven 3D face tracking [Текст] / H. X. Pham [и др.] // 2016 23rd International Conference on Pattern Recognition (ICPR). — IEEE. 2016. — С. 1851—1856.

51. Capture, Learning, and Synthesis of 3D Speaking Styles [Текст] / D. Cudeiro [и др.] // Proceedings IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). — 2019. — С. 10101—10111. — URL: http://voca. is.tue.mpg.de/.

52. Avriel, M. Nonlinear programming: analysis and methods [Текст] / M. Avriel. — Courier Corporation, 2003.

53. Knapp, M. L. Nonverbal communication in human interaction [Текст] / M. L. Knapp, J. A. Hall, T. G. Horgan. — Cengage Learning, 2013.

54. Matsumoto, D. Nonverbal communication: Science and applications [Текст] / D. Matsumoto, M. G. Frank, H. S. Hwang. — Sage Publications, 2012.

55. To err is human (-like): Effects of robot gesture on perceived anthropomorphism and likability [Текст] / M. Salem [и др.] // International Journal of Social Robotics. — 2013. — Т. 5, № 3. — С. 313—323.

56. A large, crowdsourced evaluation of gesture generation systems on common data: The GENEA Challenge 2020 [Текст] / T. Kucherenko [и др.] // 26th International Conference on Intelligent User Interfaces. — 2021. — С. 11—21.

57. Luong, M.-T. Effective approaches to attention-based neural machine translation [Текст] / M.-T. Luong, H. Pham, C. D. Manning // arXiv preprint arXiv:1508.04025. — 2015.

58. Kingma, D. P. Adam: A method for stochastic optimization [Текст] / D. P. Kingma, J. Ba // arXiv preprint arXiv:1412.6980. — 2014.

59. Learning phrase representations using RNN encoder-decoder for statistical machine translation [Текст] / K. Cho [и др.] // arXiv preprint arXiv:1406.1078. — 2014.

60. Scheduled sampling for sequence prediction with recurrent neural networks [Текст] / S. Bengio [и др.] // Advances in Neural Information Processing Systems. — 2015. — С. 1171—1179.

61. Williams, R. J. A learning algorithm for continually running fully recurrent neural networks [Текст] / R. J. Williams, D. Zipser // Neural computation. — 1989. — Т. 1, № 2. — С. 270—280.

62. Korzun, V. Audio and Text-Driven approach for Conversational Gestures Generation [Текст] / V. Korzun, I. Dimov, A. Zharkov // Computational Linguistics and Intellectual Technologies. — 2021. — Т. 20. — С. 425—432.

63. A corpus of audio-visual Lombard speech with frontal and profile views [Текст] / N. Alghamdi [и др.] // The Journal of the Acoustical Society of America. — 2018. — Т. 143, № 6. — EL523—EL529.

64. Van der Maaten, L. Visualizing data using t-SNE. [Текст] / L. Van der Maaten, G. Hinton // Journal of machine learning research. — 2008. — Т. 9, № 11.

65. Lip movements generation at a glance [Текст] / L. Chen [и др.] // Proceedings of the European Conference on Computer Vision (ECCV). — 2018. — С. 520—535.

66. Chung, J. S. Out of time: automated lip sync in the wild [Текст] / J. S. Chung,

A. Zisserman // Asian conference on computer vision. — Springer. 2016. — С. 251—263.

67. Chopra, S. Learning a similarity metric discriminatively, with application to face verification [Текст] / S. Chopra, R. Hadsell, Y. LeCun // 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Т. 1. — IEEE. 2005. — С. 539—546.

68. Audio2head: Audio-driven one-shot talking-head generation with natural head motion [Текст] / S. Wang [и др.] // arXiv preprint arXiv:2107.09293. — 2021.

69. Gegenfurtner, K. R. The interaction between vision and eye movements [Текст] / K. R. Gegenfurtner // Perception. — 2016. — Т. 45, № 12. — С. 1333—1357.

70. Speaker-agnostic mouth blendshape prediction from speech [Текст] / V. Korzun [и др.] // Computational Linguistics and Intellectual Technologies. — 2022. — Т. 21. — С. 323—332.

71. Корзун, В. А. Генерация мимики для виртуальных ассистентов [Текст] /

B. А. Корзун // Труды МФТИ. — 2022. — Т. 14, № 3. — С. 57—62.

Список рисунков

1.1 Схема модели wav2vec. Рисунок взят из [12] ............................16

1.2 Схема модели Wav2vec 2.0. Рисунок взят из [13]........................17

1.3 Схема AutoVC. Рисунок взят из [17]......................................18

1.4 Базовый скелет человека..................................................20

1.5 Схема FeedForward модели генерации жестов. Рисунок взят из [21] . 22

1.6 Схема Seq2seq модели генерации жестов. Рисунок взят из [23] . . . . 25

1.7 Схема переноса жестов на робота. Рисунок взят из [23] ................26

1.8 Схема модели. Рисунок взят из [9]........................................27

1.9 Пример разложения выражения лица по базису ........................29

1.10 Схема Neural Voice Puppetry. Рисунок взят из [38]......................33

1.11 BFGS ........................................................................37

1.12 L-BFGS......................................................................37

2.1 Схема seq2seq модели с опциональным кодировщиком текста..........45

2.2 Контекстуальный кодировщик ............................................48

3.1 t-SNE проекции эмбеддингов wav2vec и коэффициентов блендшейпов 57

3.2 Сравнение выходов кодировщика содержания AutoVC с спектрограммой исходной дорожки ......................................58

3.3 Наложение оригинального и преобразованного AutoVC аудио .... 59

3.4 Схема модели FeedForward................................................60

3.5 Схема модели Seq2seq......................................................61

3.6 Расстояния между эмбеддингами аудио и видео в различных ситуациях. Рисунок взят из [66]............................................64

3.7 Пример генерации лицевой мимики......................................67

3.8 Схема опроса................................................................70

3.9 Схема сервиса генерации мимики........................................73

Список таблиц

1 Пример исправления языковой моделью выходов RNN................16

2 Итоговая статистика оценки людьми ....................................49

3 Объективные метрики......................................................50

4 L2 distance, 1e-3 ............................................................65

5 LMD..........................................................................66

6 LRSD: уверенность (мин. расстояние)....................................66

7 LRSD метрики на исходных данных ......................................67

8 LRSD: уверенность (и мин. расстояние) на синтетических голосах . . 69

9 Результаты опроса..........................................................71

10 Сравнение облегченной и оригинальной моделей генерации поз

головы ........................................................................72

11 Время обработки дорожек различной длины............................74

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.