Многомодальный контекстный анализ динамики аффективных состояний в коллаборативных группах пользователей тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Дресвянский Денис Владиславович

  • Дресвянский Денис Владиславович
  • кандидат науккандидат наук
  • 2024, ФГАОУ ВО «Национальный исследовательский университет ИТМО»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 368
Дресвянский Денис Владиславович. Многомодальный контекстный анализ динамики аффективных состояний в коллаборативных группах пользователей: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Национальный исследовательский университет ИТМО». 2024. 368 с.

Оглавление диссертации кандидат наук Дресвянский Денис Владиславович

Table of contents

Реферат

Synopsis

1 Introduction

1.1 Affective Dynamics Analysis

1.2 Motivation

1.3 Application areas

1.4 Main goals of thesis

1.5 Contributions

1.6 Outline

2 Background and Related Work

2.1 Affective Dynamics Analysis

2.1.1 Emotion Recognition

2.1.2 Engagement Recognition

2.1.3 Dominance Evaluation

2.2 Background in Deep Learning

2.2.1 Feed-Forward Neural Networks

2.2.2 Convolutional Neural Networks

2.2.3 Recurrent Neural Networks

2.2.4 Transformers

2.3 Summary

3 Software Framework for Analysis of Affective Dynamics in

Group Interactions

3.1 General Concept

3.2 The Pipeline of the GRADA Framework

3.3 The Software Organization and Hardware Constrains of the

GRADA Framework

3.4 Dynamic Conversations Dataset

3.4.1 Experimental Procedure

3.4.2 Acquired Data

3.4.3 Qualitative Data Analysis

3.5 Summary

4 Optimized Deep Learning Approaches for Individual Short-Term Affect Analysis

4.1 Static Emotion Recognition Approach

4.1.1 General Concept

4.1.2 Face Recognition

4.1.3 Data Preprocessing Techniques

4.1.4 Neural Network Architectures

4.1.5 Training Strategies

4.1.6 Experimental setup

4.1.7 Results

4.1.8 Discussion

4.2 Temporal-Dynamic Emotion Recognition Approach

4.2.1 General Concept

4.2.2 Data Preprocessing Techniques

4.2.3 Temporal Aggregation Approaches

4.2.4 Inference Regime

4.2.5 Experimental setup

4.2.6 Results

4.2.7 Discussion

4.3 Summary

5 Integrating Facial, Kinesics, and Affective Modalities for Engagement Recognition with Extended Temporal Context

5.1 Facial-based Engagement Recognition System

5.1.1 General concept

5.1.2 Neural Network Architectures

5.2 Kinesics-based Engagement Recognition System

5.2.1 General concept

5.2.2 Neural Network Architectures

5.3 Multi-modal Data Fusion

5.3.1 General Concept

5.3.2 Bi-modal Data Fusion Approaches

5.3.3 A Cross-multi-modal Fusion Approach for Enhanced

Engagement Recognition

5.4 Experimental Design

5.4.1 Used data

5.4.2 Data preprocessing

5.4.3 Experimental setup

5.5 Results

5.5.1 Uni-modal Engagement Recognition Systems

5.5.2 Multi-Modal Engagement Recognition Systems

5.5.3 Discussion

5.6 Summary

6 Novel Multi-Modal Approach to Dominance Evaluation Leveraging Long-Term Group Dynamics

6.1 Uni-Modal Feature Extractors

6.1.1 General Concept

6.1.2 Audio-based Feature Extractors

6.1.3 Video-based Feature Extractors

6.2 Multi-Modal Dominance Evaluation Approach

6.2.1 General Concept

6.2.2 Temporal Aggregation Technique

6.2.3 Naive Approach

6.2.4 Contextual Interpersonal Approach

6.3 Experimental Design

6.3.1 Utilized Data

6.3.2 Data Preprocessing

6.3.3 Experimental Setup

6.4 Results and Discussion

6.5 Summary

7 Conclusions

7.1 Overall Summary

7.2 Thesis Contributions

7.2.1 Theoretical

7.2.2 Practical

7.2.3 Experimental

7.3 Future Directions

References

List of abbreviations

List of figures

List of tables

Appendix A Dominance Evaluation Results

Appendix B Acts on the use and implementation of the results of

dissertation research

Appendix C Texts of author's key publications

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Многомодальный контекстный анализ динамики аффективных состояний в коллаборативных группах пользователей»

Реферат

Актуальность. За последнее десятилетие интеллектуальные

информационные технологии, особенно системы человеко-машинного взаимодействия, достигли колоссального прогресса, способствуя появлению большого количества диалоговых систем на основе искусственного интеллекта (ИИ-агентов), таких, как Amazon Alexa, Google Gemini и ChatGPT. Следующий этап развития предполагает эволюцию ИИ-агентов за рамки текстовых и голосовых интерфейсов, обеспечивая обработку визуальных сигналов и позволяя тем самым достигнуть еще более естественного и контекстно-зависимого взаимодействия с пользователями.

По мере того как ИИ-агенты все глубже и глубже интегрируются в различные сферы человеческой деятельности, возрастают и ожидания, возлагаемые на них. Теперь, будучи воплощенными в роботизированные системы или компьютерные интерфейсы, они должны не только понимать логические аспекты взаимодействия, но и уметь правильно интерпретировать ключевые невербальные сигналы, которые люди постоянно используют в общении друг с другом. Более того, на сегодняшний день, ИИ-агентов все чаще внедряют в различные области приложений с социальным контекстом, где анализ аффективных состояний и их динамики становится критически важным. Среди множества аффективных состояний человека, одними из ярко выраженных в группе являются эмоциональные состояния, вовлеченность (заинтересованность) и уровень доминантности индивида в рассматриваемой группе. Три упомянутых выше аспекта особенно важны при совместной работе, так как они представляют собой ключевые уровни аффективного контекста в группах и значительно влияют на ход и качество группового взаимодействия. Таким образом, оснащение любого ИИ-агента, предназначенного для взаимодействия с людьми, системой анализа динамики аффективных состояний становится неотъемлемым для обеспечения эффективного сотрудничества машин и людей.

Помимо упомянутых ИИ-управляемых диалоговых агентов, применение систем автоматического анализа динамики аффективных состояний охватывает такие сферы, как образование (мониторинг и улучшение учебного процесса), здравоохранение (обеспечение персонализированного ухода за

пациентами), сфера развлечений (мониторинг аффективного состояния игроков для адаптации игровой сложности и задач) и промышленность (социально-ореинтированное управление командами, улучшение продуктов и услуг на основе реакций клиентов).

Кроме того, значимость систем анализа динамики аффективных состояний подтверждается множеством исследований в данной области, что демонстрируется многочисленными организующимися соревнованиями (ISCA Interspeech ComParE, ACM MM Audio-Visual Emotion Challenge, ACM ICMI EmotiW, ACM MultiMediate challenge и многие другие), специальными сессиями и семинарами конференций (ACM ICMI), а также отдельными конференциями (ACII) и высокорейтинговыми международными журналами (IEEE Transactions on Affective Computing).

Несмотря на уже существующие разработки в этой области, все еще существует множество нерешенных проблемы. Хотя текущие методы демонстрируют достойные результаты с точки зрения точности распознавания, этого все еще недостаточно для их полноценной интеграции в ИИ-управляемые диалоговые системы. Многие методы рассматривают эмоции, вовлеченность и доминантность как отдельные, независимые явления, не используя их взаимосвязь, которая потенциально может повысить точность их распознавания при разработке более сложной, всеобъемлющей системы. Кроме того, хотя существуют исследования, посвященные влиянию длительности временного контекста на системы распознавания эмоций, четкого консенсуса относительно оптимального временного окна для различных аффективных состояний не существует. Помимо этого, многие передовые системы анализа динамики аффективных состояний основаны на крупных нейросетевых архитектурах глубокого обучения, которые требуют значительных вычислительных ресурсов. Такая вычислительная нагрузка представляет собой серьезное препятствие для интеграции этих систем в приложения, работающие в режиме реального времени (такие как диалоговые или интерактивные роботизированные системы), где эффективный и оперативный анализ динамики аффективных состояний необходим для более естественного и эффективного взаимодействия.

В данной диссертации предлагаются методы, модели и программные средства для решения вышеупомянутых проблем автоматического анализа

динамики аффективных состояний в целом, а также в конкретном сценарии группового сотрудничества.

Целью данного исследования является повышение точности анализа динамики аффективных состояний пользователей за счет использования многомодальной контекстной информации и взаимосвязи состояний.

Для достижения данной цели в рамках диссертации были поставлены и решены следующие задачи:

1. Анализ и исследование современных подходов к динамическому распознаванию эмоциональных состояний, вовлеченности и доминантности, а также необходимых этапов предварительной обработки данных.

2. Разработка компактных, но эффективных статических и динамических моделей распознавания эмоциональных состояний на основе методов глубокого обучения.

3. Разработка методов объединения многомодальных и контекстных (аффективных и относящихся к вовлеченности) признаков для динамических моделей распознавания состояний вовлеченности и доминантности.

4. Разработка контекстного межличностного подхода для оценки доминантности в коллаборативных группах пользователей.

5. Исследование влияния длительности временного контекста на точность анализа динамики аффективных состояний группы пользователей с определением оптимальной длины временного окна.

6. Проектирование и разработка вычислительно эффективной программной системы анализа динамики аффективных состояний в коллаборативных группах пользователей, использующей взаимосвязь аффективных состояний для улучшения их распознавания.

Объектом исследования является динамика аффективных состояний членов коллаборативной группы пользователей.

Предметом исследования являются многомодальные контекстные системы автоматического анализа динамики аффективных состояний в коллаборативных группах пользователей.

Методы исследования. В диссертации применялись методы распознавания образов, машинного обучения, глубокого обучения,

статистического анализа данных, объединения признаков и обработки аудиовизуальных сигналов.

Основные положения, выносимые на защиту.

1. Архитектура программной системы многомодального контекстного анализа динамики аффективных состояний группы пользователей при кооперативном взаимодействии и режиме реального времени. Данное положение раскрыто в третьей главе диссертации и соответствует пункту номер 4 специальности 2.3.8 «Разработка методов и технологий цифровой обработки аудиовизуальной информации с целью обнаружения закономерностей в данных, включая обработку текстовых и иных изображений, видео контента. Разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения требуемой информации из текстов».

2. Нейросетевой метод временного объединения информации на основе кросс-модального механизма внимания с использованием взаимосвязи аффективных состояний для повышения точности распознавания вовлеченности пользователей. Данное положение раскрыто в пятой главе диссертации и соответствует пункту номер 13 специальности 2.3.8 «Разработка и применение методов распознавания образов, кластерного анализа, нейросетевых и нечетких технологий, решающих правил, мягких вычислений при анализе разнородной информации в базах данных».

3. Нейросетевой метод оценки доминантности индивидов в группах на основе межличностного контекста с использованием многомодальных агрегированных по времени признаков и аффективной информации. Данное положение раскрыто в шестой главе диссертации и соответствует пункту номер 13 специальности 2.3.8 «Разработка и применение методов распознавания образов, кластерного анализа, нейросетевых и нечетких технологий, решающих правил, мягких вычислений при анализе разнородной информации в базах данных».

Научная новизна. Научная новизна диссертации отражена в следующих пунктах:

1. Разработана архитектура программной системы многомодального анализа динамики аффективных состояний группы пользователей, предназначенная для анализа взаимодействия в коллаборативных группах в режиме реального времени, отличающаяся использованием взаимосвязи эмоциональных состояний, вовлеченности и доминантности, а также компактных детекторов и нейросетевых моделей извлечения признаков.

2. Предложен нейросетевой метод временного объединения нескольких модальностей на основе кросс-модального механизма внимания с использованием взаимосвязи аффективных состояний пользователей, отличающийся использованием объединения контекстных аффективных и связанных с вовлеченностью признаков.

3. Предложен нейросетевой метод оценки доминантности в группах пользователей с использованием многомодальных агрегированных по времени признаков, отличающийся включением аффективной информации и межличностного контекста в вектора признаков.

Теоретическая значимость диссертационной работы заключается в исследовании и разработке новых и усовершенствованных методов, алгоритмов и моделей для автоматического анализа динамики аффективных состояний группы пользователей при коллаборативном взаимодействии, включая задачи распознавания эмоциональных состояний, вовлеченности и доминантности.

Практическая значимость диссертационной работы заключается в реализации разработанных методов, алгоритмов и моделей в виде программной системы для автоматического многомодального анализа динамики аффективных состояний группы пользователей при коллаборативном взаимодействии. Данная система имеет широкий спектр применения в различных сферах деятельности человека. Например, в области образования она может быть использована для мониторинга и улучшения учебного процесса, позволяя преподавателям адаптировать свои методики на основе анализа вовлеченности и эмоционального состояния студентов, особенно в ходе дистанционного обучения. В сфере здравоохранения разработанная система может применяться для обеспечения персонализированного ухода за пациентами, помогая медицинскому персоналу лучше понимать эмоциональное состояние пациентов и корректировать подходы к лечению на основе полученных данных. В промышленности разработанная система может

найти широкое применение для оптимизации производственных процессов и управления персоналом. Она может использоваться для анализа взаимодействий в рабочих группах, выявления потенциальных конфликтов и улучшения коммуникации между сотрудниками. Также, в сфере разработки новых программных продуктов разработанная система может применяться для оценки реакций потребителей на прототипы, помогая компаниям лучше понимать потребности рынка и оптимизировать разрабатываемую продукцию. Кроме того, данная система может быть интегрирована в системы контроля качества для анализа удовлетворенности клиентов и быстрого реагирования на негативные отзывы, что позволит повысить уровень обслуживания. В области развлечений разработанная система поспособствует адаптации контента и игрового процесса к аффективному состоянию пользователей, повышая их вовлеченность и удовлетворенность. Наконец, данная система может быть интегрирована в современные диалоговые ассистенты на основе искусственного интеллекта для улучшения пользовательского опыта за счет адаптивных ответов, учитывающих аффективное состояние пользователя. Таким образом, практическая значимость работы охватывает широкий спектр приложений, способствуя повышению качества жизни граждан, эффективности различных секторов экономики и дальнейшему развитию области человеко-машинного взаимодействия.

Достоверность научных положений, выводов и практических рекомендаций, полученных в рамках данной диссертационной работы, подтверждается корректным обоснованием постановок задач, точной формулировкой критериев, обзором современных подходов и методов, компьютерным моделированием, результатами экспериментальных исследований, нашедших отражение в 9 публикациях в научных журналах и изданиях, индексируемых в Scopus и Web of Science, а также представлением основных положений на ведущих международных конференциях.

Апробация результатов исследования. Результаты исследования были представлены для обсуждения на следующих международных научных конференциях: the 23rd, 24th и 26th International Conference on Speech and Computer (SPECOM 2021, 2022 и 2024); 15th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020); Annual Conference of the International Speech Communication Association (INTERSPEECH 2020 и 2021); 9th International Audio/Visual Emotion Challenge and Workshop, при ACM MM 2019;

13th International Workshop on Spoken Dialogue Systems Technology (IWSDS

2023); б^ Workshop and Competition on Affective Behavior Analysis in-the-wild, при IEEE/CVF Computer Vision and Pattern Recognition Conference (CVPR

2024).

Внедрение результатов работы. Результаты диссертационной работы использованы при проведении следующих прикладных научных исследований:

1. НИР Научная школа: № НШ-17.2022.1.б «Математическое и программное обеспечение многомодального анализа поведения участников виртуальной коммуникации».

2. НИР «Методы, модели и технологии искусственного интеллекта в биоинформатике, социальных медиа, киберфизических, биометрических и речевых системах» (проект 5-100) № 718574.

3. Грант DAAD по программе «Годовые гранты для аспирантов и молодых ученых» в 2020-2021 гг.

4. Проект немецкого Федерального министерства образования и исследований (BMBF): «Kooperative Interaktion und Zielverhandlung mit lernenden autonomen Robotern» (Кооперативное взаимодействие и согласование целей с обучаемыми автономными роботами)

Личный вклад автора состоит в выполнении представленных в диссертационной работе теоретических и экспериментальных исследований по разработке многомодальных систем анализа динамики аффективных состояний в коллаборативных группах пользователей. Автором проведен анализ современных подходов к решению проблем распознавания эмоциональных состояний, вовлеченности и доминантности, а также методов предварительной обработки данных и извлечения признаков. На основе проведенного анализа предложен и исследован подход к автоматическому анализу групповой динамики аффективных состояний, использующий несколько модальностей и взаимосвязь аффективных состояний для повышения точности их распознавания, а также новый контекстно-ориентированный межличностный подход для оценки доминантности в группах. Кроме того, исследована и определена оптимальная длина временного контекста для рассматриваемых аффективных состояний. Личный вклад автора в работах, выполненных в соавторстве (Scopus и Web of Science) следующий:

— [1]: Дресвянский Д. В. — разработка систем для межкорпусного распознавания эмоций, проведение экспериментов (20%). Федотов Д.

В. - разработка систем для межкорпусного распознавания эмоций, проведение экспериментов, анализ результатов (20%). Кая Х. — анализ данных, проведение экспериментов, анализ результатов, формализация задачи межкультурного распознавания эмоций, формализация задачи распознавания депрессии (30%). Дойран М. — разработка систем распознавания депрессии, проведение экспериментов (10%). Мамонтов Д. Ю., Маркитантов М. В. — проведение экспериментов (10%). Салах А., Кавчар Е., Карпов А. А., Салах А. — формализация проблемы межкультурного и межкорпусного распознавания эмоций, а также проблемы распознавания депрессии (10%).

— [2]: Дресвянский Д. В. - извлечение признаков, разработка системы анализа дыхания, проведение экспериментов, анализ результатов (40%). Маркитантов М. В. - извлечение признаков, разработка системы обнаружения масок, проведение экспериментов, анализ результатов (40%). Мамонтов Д. Ю. - разработка системы анализа дыхания, проведение экспериментов (15%). Кая Х., Карпов А. А., Минкер В. - формализация проблем обнаружения дыхания и масок (5%).

— [3]: Дресвянский Д. В. - извлечение признаков, разработка системы распознавания вовлеченности, проведение экспериментов, анализ результатов (80%). Карпов А. А., Минкер В. - формализация проблемы распознавания вовлеченности (20%).

— [4]: Дресвянский Д. В. - извлечение признаков, разработка модели прогнозирования эскалации, проведение экспериментов (20%). Верхоляк О. - извлечение признаков, разработка модели прогнозирования эскалации, проведение экспериментов, анализ результатов (50%). Двойникова А., Котов Д., Рюмина Е. В., Величко А., Мамонтов Д. Ю. - извлечение признаков, разработка модели прогнозирования эскалации, проведение экспериментов (20%). Карпов А. А., Минкер В. - формализация проблемы прогнозирования эскалации (10%).

— [5]: Дресвянский Д. В. - анализ данных, извлечение признаков, разработка модели распознавания мимики, проведение экспериментов, анализ результатов (35%). Рюмина Е. В. - извлечение признаков, разработка модели распознавания мимики, проведение экспериментов (35%). Кая Х., Маркитантов М. В. - разработка модели распознавания

эмоций по звуку, анализ результатов (20%). Карпов А. А., Минкер В. - формализация проблемы распознавания мимики в условиях вне лаборатории (10%).

— [6]: Дресвянский Д. В. - разработка методологии сбора данных, сбор данных, извлечение признаков (70%). Синха Я., Буш М., Зигерт И. - сбор данных (20%). Зигерт И., Карпов А. А., Минкер В.

- формализация проблемы аффективной динамики в настройках коллаборативной группы (10%).

— [7]: Дресвянский Д. В. - анализ данных, извлечение признаков, разработка модели распознавания эмоций, межкорпусные эксперименты, анализ результатов (45%). Рюмина Е. В. - анализ данных, извлечение признаков, разработка модели распознавания эмоций, межкорпусные эксперименты, анализ результатов (45%). Карпов А. А.

- формализация проблемы межкорпусного распознавания эмоций.

— [8]: Дресвянский Д. В. - анализ данных, извлечение признаков, разработка модели распознавания эмоций, проведение экспериментов, анализ результатов (40%). Маркитантов М. В. - анализ данных, извлечение признаков, разработка модели распознавания эмоций, проведение экспериментов, анализ результатов (40%). Ю Дж., Кая Х.

- разработка модели распознавания эмоций, проведение экспериментов (15%). Карпов А. А. - формализация проблемы распознавания эмоций в условиях вне лаборатории.

— [9]: Дресвянский Д. В. - извлечение признаков, разработка многомодальной системы распознавания вовлеченности, проведение экспериментов, анализ результатов (80%). Карпов А. А., Минкер В. -формализация проблемы распознавания вовлеченности (20%).

Объём и структура работы. Диссертация состоит из 7 глав (включая введение и заключение), и 3 приложений. Полный объём диссертации составляет 368 страниц, включая 52 рисунка и 23 таблицы. Список литературы содержит 229 наименований.

Заключение диссертации по теме «Другие cпециальности», Дресвянский Денис Владиславович

Заключение

Основным результатом диссертационной работы является разработка программной системы и ее составляющих методов для автоматического

контекстного анализа динамики аффективных состояний в коллаборативных группах пользователей.

В рамках данной диссертационной работы получены следующие основные теоретические и практические результаты:

1. Предложена архитектура и разработан прототип многомодальной программной системы анализа динамики аффективных состояний на нескольких уровнях контекста (эмоциональные состояния, вовлеченность, доминантность) в коллаборативных группах пользователей. Разработанная система функционирует в режиме реального времени, что делает ее подходящей для множества приложений в реальном мире.

2. Предложен метод временного объединения нескольких модальностей на основе кросс-модального механизма внимания и нейросетевой архитектуры трансформер. Предложенный метод использует взаимосвязь эмоциональных состояний и вовлеченности, а также дополнительные преимущества многомодальности, превосходя другие представленные модели распознавания состояний вовлеченности.

3. Предложен метод контекстно-ориентированной межличностной оценки доминантности в группе пользователей. Предложенный метод использует агрегированные по времени многомодальные признаки (аффективные, связанные с вовлеченностью, лицевые и акустические), трансформируя их для внедрения информации об отклонении поведения индивида от центральных тенденций группы и демонстрируя передовые результаты для задач распознавания наиболее и наименее доминантных членов группы.

Разработана программная система многомодального анализа динамики аффективных состояний, использующая предложенные в работе нейросетевые модели и методы распознавания динамики аффективных состояний. Программная система использована в рамках научно-исследовательской работы, выполненной СПб ФИЦ РАН по договору с Минобрнауки России в 2022-2023 гг., что подтверждается актом об использовании результатов (Приложение В). Внедрение этой программной системы позволило повысить качество автоматического анализа поведения участников виртуальной коммуникации (телеконференции) за счет улучшения моделирования и распознавания их эмоциональных состояний, вовлеченности и доминантности.

Перспективы дальнейшей разработки темы исследования включают несколько ключевых направлений. Во-первых, это расширение возможностей разработанной системы GRADA для обеспечения анализа динамики дополнительных аффективных состояний, таких как стресс, усталость, тревожность и другие. Это позволит создать более комплексную и детальную картину аффективного состояния участников коллаборативных групп, что, в свою очередь, может привести к углубленному пониманию групповой динамики и оптимизации процессов взаимодействия в различных сферах, от образовательной до промышленной. Во-вторых, интеграция дополнительных модальностей (таких как физиологические данные, данные о движении глаз, а также лингвистическая информация) может повысить точность распознавания различных аффективных состояний, особенно в условиях, близких к реальным.

Кроме того, перспективным направлением является адаптация разработанной системы для различных культур и сообществ, а также специфических областей применения, таких как здравоохранение или бизнес-коммуникации. Это может потребовать сбора и анализа дополнительных данных, а также применения усовершенствованных методик переноса обучения (Transfer learning) для эффективной адаптации моделей к новым условиям. Наконец, исследование долгосрочной динамики аффективных состояний в группах и ее влияния на результаты коллаборативной работы может открыть новые возможности для оптимизации взаимодействий в группе и повышения эффективности совместной деятельности.

Публикации автора по теме диссертации

Основные результаты по теме диссертации изложены в 7 публикациях. Из них 7 опубликовано в изданиях, индексируемых в базе цитирования Scopus и Web of Science.

В международных изданиях, индексируемых в базе данных Scopus и Web of Science:

1. Kaya H, Fedotov D., Dresvyanskiy D., [et al.]. Predicting Depression and Emotions in the Cross-roads of Cultures, Para-linguistics, and Non-linguistics // Proceedings of the 9th International on Audio/Visual Emotion

Challenge and Workshop. — Nice, France : Association for Computing Machinery, 2019. — P. 27-35. — (AVEC '19).

2. Markitantov M., Dresvyanskiy D., Mamontov D., [et al.]. Ensembling End-to-End Deep Models for Computational Paralinguistics Tasks: ComParE 2020 Mask and Breathing Sub-Challenges // Proc. Interspeech 2020. — 2020. — P. 2072-2076.

3. Dresvyanskiy D., Minker W, Karpov A. Deep Learning Based Engagement Recognition in Highly Imbalanced Data // Speech and Computer / ed. by A. Karpov, R. Potapova. — Cham : Springer International Publishing, 2021. — P. 166-178.

4. Verkholyak O, Dresvyanskiy D., Dvoynikova A., [et al.]. Ensemble-With-in-Ensemble Classification for Escalation Prediction from Speech // Proc. Interspeech 2021. — 2021. — P. 481-485.

5. Dresvyanskiy D., Ryumina E., Kaya H., [et al.]. End-to-End Modeling and Transfer Learning for Audiovisual Emotion Recognition in-the-Wild // Multimodal Technologies and Interaction. — 2022. — Vol. 6, no. 2.

6. Dresvyanskiy D., Sinha Y, Busch M, [et al.]. DyCoDa: A Multi-modal Data Collection of Multi-user Remote Survival Game Recordings // Speech and Computer / ed. by S. R. M. Prasanna, A. Karpov, K. Samudravijaya, [et al.]. — Cham : Springer International Publishing, 2022. — P. 163-177.

7. Ryumina E., Dresvyanskiy D., Karpov A. In search of a robust facial expressions recognition model: A large-scale visual cross-corpus study // Neurocomputing. — 2022. — Vol. 514. — P. 435-450.

Synopsis

This Synopsis summarizes the key findings of the dissertation and is a requisite document for the dissertation's defense process in the Russian Federation.

Relevance of the chosen topic. Over the past two decade, intelligent information technologies, particularly in the human-machine interaction area, have achieved tremendous progress, leading to the emergence of numerous conversational systems powered by artificial intelligence (AI agents) such as Amazon Alexa, Google Gemini, and ChatGPT. The next paradigm shift envisions these AI agents evolving beyond text- and speech-based interfaces to encompass the visual cues, promoting even more natural and context-aware interactions with humans.

As AI agents permeate various human areas, the expectations placed upon them are also increasing. Now, whether embodied in robotic systems or computer interfaces, they must not only understand the logical aspects of interaction but also correctly interpret key nonverbal cues that humans constantly use in any interaction with each other. Moreover, nowadays AI agents are increasingly being integrated into various group settings with large social contexts, where the analysis of affective states and their dynamics becomes critically important. Among the many various affective states of humans, some of the most defining in a group setting are emotional states, engagement, and the level of dominance. These three aspects are particularly important in collaborative work, as they represent key levels of affective dynamics in groups and significantly influence the course and quality of group interaction. Thus, equipping any AI agent designed to interact with humans with a system for analysis of affective dynamics becomes essential for ensuring effective collaboration between machines and humans.

In addition to the aforementioned AI-powered conversational agents, the application of systems of automatic affective dynamics analysis includes education (monitoring and enhancing the learning process), health care (providing personalized handling of patients with empathy), entertainment (monitoring players' affective dynamics to adapt game difficulty and tasks), and enterprise (socially-oriented team management, improving products and services based on customer reactions).

Furthermore, the relevance of systems for analysis of affective dynamics is confirmed by many studies done in this direction, represented by numerous orga-

nized competitions (ISCA Interspeech ComParE, ACM MM Audio-Visual Emotion Challenge, ACM ICMI EmotiW, ACM MultiMediate challenge, and many others), special sessions of conferences and workshops (ACM ICMI workshops) as well as individual conferences (ACII) and top-rated international journals (IEEE Transactions on Affective Computing).

Despite existing developments in this field, several challenges remain unresolved. Although current approaches demonstrate decent recognition performance, it still seems to be not enough for the integration of them into AI-powered conversational systems. Many methods consider emotions, engagement, and dominance as independent phenomena, failing to leverage their inherent interconnection and the potential mutual enhancement that can be obtained by constructing a more complex, comprehensive system. Furthermore, although there are some studies devoted to the influence of temporal context length on emotion recognition systems, there is no clear consensus on the optimal temporal window for those affective dynamics. Additionally, many state-of-the-art systems for analysis of affective dynamics are based on large, resource-intensive deep learning architectures. This computational burden poses significant obstacles to integrating these systems into real-time applications such as conversational agents or interactive robotic systems, where efficient and responsive affective analysis is essential for natural collaborative interactions.

This dissertation proposes methods, models, and software tools for solving the aforementioned problems of automatic affective dynamics analysis in general, as well as in a specific collaborative group scenario.

The aim of this work is to increase the performance of the automatic system for analysis of affective dynamics by utilizing multi-modal contextual information and the interconnection of affective dynamics.

To achieve this goal, the following tasks were set and solved:

1. Analysis of modern approaches to the recognition of emotions, engagement, and dominance recognition, as well as necessary data preprocessing stages.

2. Development of compact yet efficient static and dynamic deep learning-based models for emotion recognition.

3. Development of methods for integrating multi-modal and contextual (affective and engagement-related) embeddings into dynamic models for recognizing engagement and dominance states.

4. Development of a contextual interpersonal approach for dominance evaluation in collaborative groups.

5. Investigation of the influence of temporal context length on the performance of affective dynamics recognition, with the identification of optimal temporal window.

6. Design and development of computationally efficient software framework for analysis of group affective dynamics in collaborative groups that utilizes interconnection of affective dynamics to improve their recognition performance.

The object of the study is the affective dynamics of the collaborative group members.

The subject of the study is multi-modal contextual systems of automatic analysis of affective dynamics in collaborative groups.

Research methods. The dissertation applied methods of pattern recognition, machine learning, deep learning, statistical data analysis, feature fusion, and audiovisual signal processing.

Assertions that are presented for defense.

1. A software framework GRADA for multi-modal contextual analysis of affective dynamics in a collaborative group with real-time inference speed. This assertion is elaborated in the third chapter and corresponds to paragraph 4 of the ITMO University specialty 2.3.8 "Development of methods and technologies for digital processing of audiovisual information in order to detect patterns in data, including the processing of text and other images, and video content. Development of methods and models for recognition, understanding, and synthesis of speech, principles and methods for extracting the required information from texts''.

2. A neural network method for the temporal fusion of multiple modalities based on a cross-modal attention mechanism that leverages the interconnection of affective dynamics to boost engagement recognition performance. This assertion is elaborated in the fifth chapter and corresponds to paragraph 13 of the ITMO University specialty 2.3.8 "Development and application of methods for pattern recognition, cluster analysis, neural network and fuzzy technologies, decision rules, soft computing in the analysis of heterogeneous information in databases".

3. A neural network method for dominance evaluation in a group based on the interpersonal context that utilizes multi-modal temporally aggregated

features and affective information. This assertion is elaborated in the sixth chapter and corresponds to paragraph 13 of the ITMO University specialty 2.3.8 "Development and application of methods for pattern recognition, cluster analysis, neural network and fuzzy technologies, decision rules, soft computing in the analysis of heterogeneous information in databases".

The novelty of research. The scientific novelty of the dissertation can be summarized in the following points:

1. A software framework for multi-modal analysis of affective dynamics in collaborative groups has been developed. It is designed to perform the analysis of collaborative interactions in real time and is distinguished by the usage of the interconnection of emotions, engagement, and dominance, as well as compact detectors and neural network models for feature extraction.

2. A neural network method has been developed for the temporal fusion of multiple modalities based on the cross-modal attention mechanism using the interconnection of the user's affective dynamics. It is distinguished by the integration of contextual affective and engagement-related features, significantly improving the accuracy of engagement recognition.

3. A neural network method has been proposed for dominance evaluation in collaborative groups using multi-modal temporally aggregated features. It is distinguished by the inclusion of affective information and the interpersonal context in the features, increasing the recognition accuracy and outperforming state-of-the-art models.

The theoretical significance of the dissertation lies in the research and development of novel and improved methods, algorithms, and models for automatic analysis of affective dynamics in groups during collaborative interactions, including tasks of recognizing emotions, engagement, and dominance evaluation.

The practical relevance of the dissertation lies in the implementation of the developed methods, algorithms, and models in the form of a software system for automatic multi-modal analysis of the affective dynamics in collaborative groups. This system has a wide range of applications in various spheres of human activity. For instance, in education, it can be utilized to monitor and improve the learning process, encouraging teachers to adapt their teaching methods based on the analysis of student engagement and emotional states. In healthcare, the developed system may be applied to provide personalized patient care, helping medical staff better

understand patients' affective states and adjust treatment approaches based on the obtained data. In industry, the developed system can find a wide range of applications for optimizing production processes and personnel management. It may be used to analyze interactions in work groups, identify potential conflicts, and improve communication between employees. Additionally, in the field of software product development, the system can be used to assess consumer reactions to product prototypes, helping companies better understand market needs and optimize product design. Furthermore, this system may be integrated into quality control systems to analyze customers' satisfaction and quickly respond to negative feedback, improving the quality of service. In the entertainment industry, the developed system may contribute to the adaptation of the gameplay to the users' affective states, increasing their engagement and satisfaction. Finally, this system can be integrated into modern Al-based conversational assistants to improve user experience through adaptive responses that take into account the user's affective state. Thus, the practical significance of the work covers a wide range of applications, contributing to improving the quality of life of citizens, the efficiency of various sectors of the economy, and further development in the field of human-computer interaction.

The accuracy of the obtained results within the framework of this dissertation is confirmed by correct problem statements, the exact formulation criteria, computer modeling, and results of experimental research, reflected in nine publications in scientific journals and publications indexed by Scopus and Web of Science as well as presenting the main points at leading international conferences.

Approbation of research results. The research results were presented for discussion at the following international scientific conferences: the 23rd, 24th, and 26th International Conference on Speech and Computer (SPECOM 2021, 2022, and 2024); 15th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020); Annual Conference of the International Speech Communication Association (INTERSPEECH 2020 and 2021); 9th International Audio/Visual Emotion Challenge and Workshop, at ACM MM 2019; 13th International Workshop on Spoken Dialogue Systems Technology (IWSDS 2023); 6th Workshop and Competition on Affective Behavior Analysis in-the-wild, at IEEE/CVF Computer Vision and Pattern Recognition Conference (CVPR 2024).

Implementation of research results. The results of the dissertation work were used in the following applied scientific research:

1. Research project "Methods, models and technologies of artificial intelligence in bioinformatics, social media, cyberphysical, biometric and speech systems", project No. 718574

2. Research project "Scientific school: No. H0-17.2022.1.6 Mathematical and software for multimodal analysis of the behavior of participants in virtual communication".

3. DAAD grant under the program "Annual grants for graduate students and young scientists" in 2020-2021.

4. Research project of German Federal Ministry of Education and Research (BMBF): "Kooperative Interaktion und Zielverhandlung mit lernenden autonomen Robotern" (Cooperative interaction and goal negotiation with trainable autonomous robots)

The personal contribution of the author is the implementation of theoretical and experimental studies in the dissertation work on the development of automatic system for multi-modal analysis of affective dynamics in collaborative group setting. The author analyzes modern methods for solving the problems of emotions, engagement, and dominance recognition, data preprocessing, and feature extraction techniques. Based on the findings, an approach for group affective dynamics analysis that fuses multiple modalities and integrates interconnected affective dynamics was proposed. Additionally, a novel contextual interpersonal approach (CIA) for dominance evaluation was designed and presented. Furthermore, the optimal length of the temporal context for considered affective dynamics has been explored and identified. The personal contribution of the author in co-authored publications (Scopus and Web of Science) is as follows:

- [1]: Dresvyanskiy D. — development of systems for cross-cultural recognition of emotions, conducting experiments (20%). Fedotov D. - development of systems for cross-corpus recognition of emotions, conducting experiments, analyzing the results (20%). Kaya H. — data analysis, experiments, analysis of results, formalization of the task of cross-cultural recognition of emotions, formalization of the task of recognizing depression (30%). Doyran M. — development of depression recognition systems, conducting experiments (10%). Mamontov D., Markitantov M. — conducting experiments (10%). Salah A., Kavcar E., Karpov A., Salah A. — formalization of the problem of cross-cultural cross-corpus recognition of emotions, as well as the problem of recognizing depression (10%).

- [2]: Dresvyanskiy D. - feature extraction, development of breathing detection system, conducting the experiments, analysis of the results (40%). Markitantov M. - feature extraction, development of mask detection system, experiments, analysis of the results (40%). Mamontov D. - development of breathing detection system, conducting the experiments (15%). Kaya H., Karpov A., Minker W. - formalization of the breathing and mask detection problems (5%).

- [3]: Dresvyanskiy D. - feature extraction, development of engagement recognition system, conducting the experiments, analysis of the results (80%). Karpov A., Minker W. - formalization of the engagement recognition problem (20%).

- [4]: Dresvyanskiy D. - feature extraction, development of escalation prediction model, experiments (20%). Verkholyak O. - feature extraction, development of escalation prediction model, experiments, analysis of the results (50%). Dvoynikova A., Kotov D., Ryumina E., Velichko A., Mamontov D. - feature extraction, development of escalation prediction model, experiments (20%). Karpov A., Minker W. - formalization of the escalation prediction problem (10%).

- [5]: Dresvyanskiy D. - data analysis, feature extraction, development of the facial expressions recognition model, experiments, analysis of results (35%). Ryumina E. - feature extraction, development of the facial expressions recognition model, experiments (35%). Kaya H., Markitantov H. - development of the audio emotion recognition model, analysis of results (20%). Karpov A., Minker W. - formalization of the facial expressions recognition problem in-the-wild (10%).

- [6]: Dresvyanskiy D. - development of the data collection methodology, data collection, feature extraction (70%). Sinha Y., Busch M., Siegert I. - data collection (20%). Siegert I., Karpov A., Minker W. - formalization of the affective dynamics problem in a collaborative group setting (10%).

- [7]: Dresvyanskiy D. - data analysis, feature extraction, development of the emotion recognition model, cross-corpus experiments, analysis of results (45%). Ryumina E. - data analysis, feature extraction, development of the emotion recognition model, cross-corpus experiments, analysis of results (45%). Karpov A. - formalization of the cross-corpus emotion recognition problem.

- [8]: Dresvyanskiy D. - data analysis, feature extraction, development of the emotion recognition model, experiments, analysis of results (40%). Marki-tantov M. - data analysis, feature extraction, development of the emotion recognition model, experiments, analysis of results (40%). Yu J., Kaya H. -development of the emotion recognition model, experiments (15%). Karpov A. - formalization of the emotion recognition problem in-the-wild.

— [9]: Dresvyanskiy D. - feature extraction, development of multi-modal engagement recognition system, conducting the experiments, analysis of the results (80%). Karpov A., Minker W. - formalization of the engagement recognition problem (20%).

Thesis structure and scope of the thesis. The thesis consists of 7 chapters (including introduction and conclusions), and 3 appendixes. Thesis is 368 page long, including 52 figuress and 23 tabless. Bibliography consists of 229 items.

The content of the work

In the introduction, we describe the rapidly developing field of computer science - affective computing, which aims to develop systems capable of recognizing, interpreting, processing, and modeling human affective states. An affective state is defined in a broad sense as a complex psychophysiological phenomenon that includes non-verbally expressed emotional, mood-related, and behavioral manifestations of an individual. This phenomenon encompasses concepts such as emotions, mood, engagement (level of interest), dominance, and many others. In the context of affective computing, we consider its subfield - analysis of affective dynamics during collaborative interactions. Dynamics in this context refers to affective states changing over time, which involves processing sequences of frames (video) or audio data, opening up new possibilities for in-depth analysis and understanding of behavioral patterns in group work. We also explain why, among all possible affective states, emotions, engagement, and dominance are chosen as the main affective characteristics from the perspective of a collaborative group interaction.

Next, the motivation for developing a system for automatic analysis of affective dynamics is presented, and its main areas of application are described. We

also list the main goals and objectives of the dissertation. The chapter is finalized with the outline of the dissertation work, briefly describing the content of all subsequent chapters.

The second chapter provides an overview of the current state-of-the-art of the affective dynamics analysis domain. The main approaches to the development of automatic systems for analysis of such affective dynamics as emotion, engagement, and dominance are presented. For the emotion recognition domain, the main emotional models are described: Ekman's categorical model and the Circumplex of Affect. Furthermore, the usage of hand-crafted-based methods as well as the deep learning-based models is reported to highlight the efficacy and necessity of leveraging deep neural networks. Several approaches to the temporal modeling of emotions are overviewed: statistical functionals-based, 1D convolution neural networks, recurrent neural network-based, and recently introduced Transformer-based architectures. The affective component of engagement (in the case of engagement recognition systems) is investigated and specified. We show the state of the art for the engagement recognition domain in human-robot and human-computer interaction scenarios, highlighting the most utilized modalities and features (including many hand-crafted features). Moreover, several datasets devoted to the engagement recognition task are observed, showing the scarcity of the data, especially for conversational engagement recognition. In the case of dominance recognition, we first overview the most utilized hand-crafted features to build automatic dominance evaluation systems. The obstacles of those features are demonstrated, as they limit the generalization ability of the models, especially for the in-the-wild data. Additionally, the state-of-the-art approaches that are based on hand-crafted features are described with the notion of group accuracy scores on ELEA and DOME datasets. We also highlight the importance of the usage of affective features for dominance evaluation as only a few works have incorporated them, however, using solely the output class probabilities and not the affective features themselves. Finally, various deep learning models used in this dissertation are described: fully connected, convolutional, recurrent neural networks, and the Transformer neural network architecture.

Список литературы диссертационного исследования кандидат наук Дресвянский Денис Владиславович, 2024 год

References

[1] J. Yang, R. Wang, X. Guan, M.M. Hassan, A. Almogren, A. Alsanad, Al-enabled emotion-aware robot: The fusion of smart clothing, edge clouds and robotics, Future Generation Computer Systems 102 (2020) 701-709, https://doi.org/ 10.1016/j.future.2019.09.029.

[2] Z. Liu, M. Wu, W. Cao, L. Chen, J. Xu, R. Zhang, M. Zhou, J. Mao, A facial expression emotion recognition based human-robot interaction system, IEEE/ CAA Journal of Automatica Sinica 4 (4) (2017) 668-676, https://doi.org/ 10.1109/JAS.2017.7510622.

[3] A. Shukla, S.S. Gullapuram, H. Katti, K. Yadati, M. Kankanhalli, R. Subramanian, Affect recognition in ads with application to computational advertising, in: 25th ACM International Conference on Multimedia, 2017, pp. 1148-1156, https://doi.org/10.1145/3123266.3123444.

[4] S. Cosentino, E.I. Randria, J.-Y. Lin, T. Pellegrini, S. Sessa, A. Takanishi, Group emotion recognition strategies for entertainment robots, in: IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2018, pp. 813-818, https://doi.org/10.1109/IR0S.2018.8593503.

[5] Z. Fei, E. Yang, D.D.-U. Li, S. Butler, W. Ijomah, X. Li, H. Zhou, Deep convolution network based emotion analysis towards mental health care, Neurocomputing 388 (2020) 212-227, https://doi.org/10.1016/j.neucom.2020.01.034.

[6] M.S. Hossain, G. Muhammad, Emotion-aware connected healthcare big data towards 5G, IEEE Internet of Things Journal 5 (4) (2017) 2399-2406, https:// doi.org/10.1109/JIOT.2017.2772959.

[7] D. Yang, A. Alsadoon, P.C. Prasad, A.K. Singh, A. Elchouemi, An emotion recognition model based on facial recognition in virtual learning environment, Procedia Computer Science 125 (2018) 2-10, https://doi.org/10.1016/j. procs.2017.12.003.

[8] P. Ekman, W. Friesen, Nonverbal leakage and clues to deception, Psychiatry 32 (1) (1969) 88-106, https://doi.org/10.1080/00332747.1969.11023575.

[9] J.A. Russell, A circumplex model of affect, Journal of Personality and Social Psychology 39 (6) (1980) 1161-1178, https://doi.org/10.1037/h0077714.

[10] J. Parry, D. Palaz, G. Clarke, P. Lecomte, R. Mead, M. Berger, G. Hofer, Analysis of deep learning architectures for cross-corpus speech emotion recognition, Interspeech (2019) 1656-1660, https://doi.org/10.21437/Interspeech.2019-2753.

[11] S. Zhang, S. Zhang, T. Huang, W. Gao, Q. Tian, Learning affective features with a hybrid deep model for audio-visual emotion recognition, IEEE Transactions on Circuits and Systems for Video Technology 28 (10) (2018) 3030-3043, https:// doi.org/10.1109/TCSVT.2017.2719043.

[12] E. Friesen, P. Ekman, Facial action coding system: a technique for the measurement of facial movement, Palo Alto 3 (2) (1978) 5.

[13] C. Shu, X. Ding, C. Fang, Histogram of the oriented gradient for face recognition, Tsinghua Science and Technology 16 (2) (2011) 216-224, https://doi.org/ 10.1016/S1007-0214(11)70032-3.

[14] K. Simonyan, A. Zisserman, Very deep convolutional networks for large-scale image recognition, in: 3rd International Conference on Learning Representations (ICLR), 2015, pp. 1-14.

[15] K. He, X. Zhang, S. Ren, J. Sun, Deep residual learning for image recognition, in: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778, https://doi.org/10.1109/CVPR.2016.90.

[16] H.-W. Ng, V.D. Nguyen, V. Vonikakis, S. Winkler, Deep learning for emotion recognition on small datasets using transfer learning, in: 17th ACM on International Conference on Multimodal Interaction, 2015, pp. 443-449, https://doi.org/10.1145/2818346.2830593.

[17] I.J. Goodfellow, D. Erhan, P.L. Carrier, A. Courville, M. Mirza, B. Hamner, W. Cukierski, Y. Tang, D. Thaler, D.H. Lee, et al., Challenges in representation learning: A report on three machine learning contests, in: International Conference on Neural Information Processing, 2013, pp. 117-124, https://doi. org/10.1007/978-3-642-42051-1_16.

[18] G. Levi, T. Hassner, Emotion recognition in the wild via convolutional neural networks and mapped binary patterns, in: 17th ACM on International Conference on Multimodal Interaction, 2015, pp. 503-510, https://doi.org/ 10.1145/2818346.2830587.

[19] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, A. Rabinovich, Going deeper with convolutions, in: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, pp. 1-9, https://doi.org/10.1109/CVPR.2015.7298594.

[20] S.A. Bargal, E. Barsoum, C.C. Ferrer, C. Zhang, Emotion recognition in the wild from videos using images, in: 18th ACM International Conference on Multimodal Interaction, 2016, pp. 433-436, https://doi.org/10.1145/ 2993148.2997627.

[21] P. Balouchian, H. Foroosh, Context-sensitive single-modality image emotion analysis: A unified architecture from dataset construction to cnn classification, in: 25th IEEE International Conference on Image Processing (ICIP), 2018, pp. 1932-1936, https://doi.org/10.1109/ICIP.2018.8451048.

[22] M.-C. Sun, S.-H. Hsu, M.-C. Yang, J.-H. Chien, Context-aware cascade attention-based RNN for video emotion recognition, in: First Asian Conference on

Neurocomputing 514 (2022) 435-450

Affective Computing and Intelligent Interaction (ACII Asia), 2018, pp. 1-6. doi:10.1109/ACIIAsia.2018.8470372.

[23] J. Lee, S. Kim, S. Kim, J. Park, K. Sohn, Context-aware emotion recognition networks, IEEE/CVF International Conference on Computer Vision (2019) 10143-10152, https://doi.org/10.1109/ICCV.2019.01024.

[24] D. Nguyen, K. Nguyen, S. Sridharan, A. Ghasemi, D. Dean, C. Fookes, Deep spatio-temporal features for multimodal emotion recognition, in: IEEE Winter Conference on Applications of Computer Vision (WACV), 2017, pp. 1215-1223, https://doi.org/10.1109/WACV.2017.140.

[25] S. Zhang, S. Zhang, T. Huang, W. Gao, Q. Tian, Learning affective features with a hybrid deep model for audio-visual emotion recognition, IEEE Transactions on Circuits and Systems for Video Technology 28 (10) (2017) 3030-3043, https:// doi.org/10.1109/TCSVT.2017.2719043.

[26] T. Mittal, U. Bhattacharya, R. Chandra, A. Bera, D. Manocha, M3er: Multiplicative multimodal emotion recognition using facial, textual, and speech cues, in: AAAI Conference on Artificial Intelligence, Vol. 34, 2020, pp. 1359-1367. doi:10.1609/aaai.v34i02.5492.

[27] J. Huang, J. Tao, B. Liu, Z. Lian, M. Niu, Multimodal transformer fusion for continuous emotion recognition, in: IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 3507-3511, https://doi.org/10.1109/ICASSP40776.2020.9053762.

[28] H. Kaya, F. Gurpinar, A.A. Salah, Video-based emotion recognition in the wild using deep transfer learning and score fusion, Image and Vision Computing 65

(2017) 66-75, https://doi.org/10.1016/j.imavis.2017.01.012.

[29] E. Avots, T. Sapinski, M. Bachmann, D. Kaminska, Audiovisual emotion recognition in wild, Machine Vision and Applications 30 (2019) 975-985, https://doi.org/10.1007/s00138-018-0960-9.

[30] F. Noroozi, M. Marjanovic, A. Njegus, S. Escalera, G. Anbarjafari, Audio-visual emotion recognition in video clips, IEEE Transactions on Affective Computing 10 (1) (2017) 60-75, https://doi.org/10.1109/TAFFC.2017.2713783.

[31] M. Wu, W. Su, L. Chen, W. Pedrycz, K. Hirota, Two-stage fuzzy fusion based-convolution neural network for dynamic emotion recognition, IEEE Transactions on Affective Computing 1 (2020) 1-13, https://doi.org/10.1109/ TAFFC.2020.2966440.

[32] H. Kaya, A.A. Karpov, Efficient and effective strategies for cross-corpus acoustic emotion recognition, Neurocomputing 275 (2018) 1028-1034, https://doi.org/ 10.1016/j.neucom.2017.09.049.

[33] B. Zhang, E.M. Provost, G. Essl, Cross-corpus acoustic emotion recognition with multi-task learning: Seeking common ground while preserving differences, IEEE Transactions on Affective Computing 10 (1) (2017) 85-99, https://doi.org/ 10.1109/TAFFC.2017.2684799.

[34] H. Kaya, D. Fedotov, A. Yesilkanat, O. Verkholyak, Y. Zhang, A. Karpov, LSTM based cross-corpus and cross-task acoustic emotion recognition, Interspeech

(2018) 521-525, https://doi.org/10.21437/Interspeech.2018-2298.

[35] J. Parry, D. Palaz, G. Clarke, P. Lecomte, R. Mead, M. Berger, G. Hofer, Analysis of deep learning architectures for cross-corpus speech emotion recognition, Interspeech (2019) 1656-1660, https://doi.org/10.21437/Interspeech.2019-2753.

[36] H. Meng, T. Yan, F. Yuan, H. Wei, Speech emotion recognition from 3D log-mel spectrograms with deep learning network, IEEE Access 7 (2019) 125868125881, https://doi.org/10.1109/ACCESS.2019.2938007.

[37] A. Mollahosseini, D. Chan, M.H. Mahoor, Going deeper in facial expression recognition using deep neural networks, in: IEEE Winter Conference on Applications of Computer Vision (WACV), 2016, pp. 1-10, https://doi.org/ 10.1109/WACV.2016.7477450.

[38] W. Xie, X. Jia, L. Shen, M. Yang, Sparse deep feature learning for facial expression recognition, Pattern Recognition 96 (2019), https://doi.org/ 10.1016/j.patcog.2019.106966.

[39] M.V. Zavarez, R.F. Berriel, T. Oliveira-Santos, Cross-database facial expression recognition based on fine-tuned deep convolutional network, in: 30th IEEE Conference on Graphics, Patterns and Images (SIBGRAPI), 2017, pp. 405-412, https://doi.org/10.1109/SIBGRAPI.2017.60.

[40] Q. Cao, L. Shen, W. Xie, O. Parkhi, A. Zisserman, Vggface2: A dataset for recognising faces across pose and age, in: 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG), 2018, pp. 67-74, https://doi. org/10.1109/FG.2018.00020.

[41] G. Wen, Z. Hou, H. Li, D. Li, L.Jiang, E. Xun, Ensemble of deep neural networks with probability-based fusion for facial expression recognition, Cognitive Computation 9 (2017) 597-610, https://doi.org/10.1007/s12559-017-9472-6.

[42] Z. Meng, P. Liu, J. Cai, S. Han, Y. Tong, Identity-aware convolutional neural network for facial expression recognition, in: 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG), 2017, pp. 558565, https://doi.org/10.1109/FG.2017.140.

[43] B. Hasani, M.H. Mahoor, Facial expression recognition using enhanced deep 3D convolutional neural networks, in: IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2017, pp. 30-40, https://doi.org/ 10.1109/CVPRW.2017.282.

[44] E. Ryumina, A. Karpov, Facial expression recognition using distance importance scores between facial landmarks, CEUR Workshop Proceedings 2744 (2020) 1-10, https://doi.org/10.51130/graphicon-2020-2-3-32.

[45] O. Perepelkina, E. Kazimirova, M. Konstantinova, RAMAS: Russian multimodal corpus of dyadic interaction for affective computing, in: 20th International Conference on Speech and Computer, 2018, pp. 501-510, https://doi.org/ 10.1007/978-3-319-99579-3_52.

[46] C. Busso, M. Bulut, C.C. Lee, A. Kazemzadeh, E. Mower, S. Kim, J.N. Chang, S. Lee, S.S. Narayanan, IEMOCAP: Interactive emotional dyadic motion capture

E. Ryumina, D. Dresvyanskiy and A. Karpov

database, Language Resources and Evaluation 42 (2008) 335-359, https://doi. org/10.1007/s10579-008-9076-6.

[47] H. Cao, D.G. Cooper, M.K. Keutmann, R.C. Gur, A. Nenkova, R. Verma, CREMA-D: Crowd-sourced emotional multimodal actors dataset, IEEE Transactions on Affective Computing 5 (4) (2014) 377-390, https://doi.org/10.1109/ TAFFC.2014.2336244.

[48] S.R. Livingstone, F.A. Russo, The ryerson audio-visual database of emotional speech and song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in north american english, PLoS One 13 (5) (2018), https://doi.org/ 10.1371/journal.pone.0196391.

[49] S. Haq, P. Jackson, J.R. Edge, Audio-visual feature selection and reduction for emotion classification, in: International Conference on Auditory-Visual Speech Processing, 2008, pp. 185-190.

[50] D. Kollias, S. Zafeiriou, Expression, affect, action unit recognition: Aff-Wild2, multi-task learning and ArcFace, ArXiv abs/1910.04855 (2019) 1-15.

[51] A. Mollahosseini, B. Hasani, M.H. Mahoor, Affectnet: A database for facial expression, valence, and arousal computing in the wild, IEEE Transactions on Affective Computing 10 (1) (2017) 18-31, https://doi.org/10.1109/ TAFFC.2017.2740923.

[52] D. Kollias, A. Schulc, E. Hajiyev, S. Zafeiriou, Analysing affective behavior in the first ABAW 2020 competition, in: 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG), 2020, pp. 794-800, https://doi. org/10.1109/FG47880.2020.00126.

[53] D. Kollias, S. Zafeiriou, A multi-task learning & generation framework: Valence-arousal, action units & primary expressions, ArXiv abs/1811.07771 (2018) 1-9.

[54] D. Kollias, S. Zafeiriou, Aff-Wild2: Extending the Aff-Wild database for affect recognition, ArXiv abs/1811.07770 (2018) 1-8.

[55] D. Kollias, P. Tzirakis, M.A. Nicolaou, A. Papaioannou, G. Zhao, B. Schuller, I. Kotsia, S. Zafeiriou, Deep affect prediction in-the-wild: Aff-Wild database and challenge, deep architectures, and beyond, International Journal of Computer Vision127 (2019)907-929, https://doi.org/10.1007/s11263-019-01158-4.

[56] S. Zafeiriou, D. Kollias, M.A. Nicolaou, A. Papaioannou, G. Zhao, B. Schuller, I. Kotsia, Aff-wild: Valence and arousal 'in-the-wild' challenge, in: IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2017, pp. 1980-1987, https://doi.org/10.1109/CVPRW.2017.248.

[57] D. Kollias, M.A. Nicolaou, I. Kotsia, G. Zhao, S. Zafeiriou, Recognition of affect in the wild using deep neural networks, in: IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2017, pp. 1972-1979, https:// doi.org/10.1109/CVPRW.2017.247.

[58] D. Dresvyanskiy, E. Ryumina, H. Kaya, M. Markitantov, A. Karpov, W. Minker, End-to-end modeling and transfer learning for audiovisual emotion recognition in-the-wild, Multimodal Technologies and Interaction 6 (2) (2022) 1-23, https://doi.org/10.3390/mti6020011.

[59] G. Winata, O. Kampman, in: F. P, Attention-based LSTM, for psychological stress detection from spoken language using distant supervision, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),

2018, pp. 6204-6208, https://doi.org/10.1109/ICASSP.2018.8461990.

[60] Z. Yang, D. Yang, C. Dyer, X. He, A. Smola, H.E., Hierarchical attention networks for document classification, in: Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016, pp. 1480-1489. doi:10.18653/v1/N16-1174.

[61] I. Loshchilov, F. Hutter, SGDR: Stochastic gradient descent with warm restarts, ArXiv abs/1608.03983 (2016) 1-16.

[62] K. He, X. Zhang, S. Ren, J. Sun, Deep residual learning for image recognition, in: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778, https://doi.org/10.1109/CVPR.2016.90.

[63] J. Hu, L. Shen, G. Sun, Squeeze-and-excitation networks, in: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 7132-7141.

[64] M. Tan, Q.V. Le, EfficientNet: Rethinking model scaling for convolutional neural networks, in: International Conference on Machine Learning (ICML),

2019, pp. 6105-6114.

[65] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, L. Chen, Mobilenetv 2: Inverted residuals and linear bottlenecks, in: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 4510-4520, https://doi.org/10.1109/ CVPR.2018.00474.

[66] J. Deng, W. Dong, R. Socher, L.J. Li, K. Li, L. Fei-Fei, Imagenet: A large-scale hierarchical image database, in: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2009, pp. 248-255, https://doi.org/10.1109/ CVPR.2009.5206848.

[67] H. Zhang, M. Cisse, Y.N. Dauphin, D. Lopez-Paz, Mixup: Beyond empirical risk minimization, in: 3rd International Conference on Learning Representations (ICLR), 2018.

[68] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.Y. Fu, A.C. Berg, SSD: Single shot multibox detector, in: European Conference on Computer Vision, Amsterdam, 2016, pp. 21-37. doi:10.1007/978-3-319-46448-0_2.

[69] J. Deng, J. Guo, E. Ververas, I. Kotsia, S. Zafeiriou, RetinaFace: Single-shot multilevel face localisation in the wild, in: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 5203-5212, https://doi.org/10.1109/ CVPR42600.2020.00525.

[70] K. Zhang, Z. Zhang, Z. Li, Y. Qiao, Joint face detection and alignment using multitask cascaded convolutional networks, IEEE Signal Processing Letters 23 (10)(2016)1499-1503, https://doi.org/10.1109/LSP.2016.2603342.

[71] E. Ryumina, D. Ryumin, D. Ivanko, A. Karpov, A novel method for protective face mask detection using convolutional neural networks and image histograms, in: International Archives of the Photogrammetry Remote

Neurocomputing 514 (2022) 435-450

Sensing and Spatial Information Sciences XLIV-2/W1-2021, 2021, pp. 177182, https://doi.org/10.5194/isprs-archives-XLIV-2-W1-2021-177-2021.

[72] E. Ryumina, O. Verkholyak, A. Karpov, Annotation confidence vs. training sample size: Trade-off solution for partially-continuous categorical emotion recognition, Interspeech (2021) 3690-3694, https://doi.org/10.21437/ Interspeech.2021-1636.

[73] S. Poria, N. Majumder, D. Hazarika, E. Cambria, A. Gelbukh, A. Hussain, Multimodal sentiment analysis: Addressing key issues and setting up the baselines, IEEE Intelligent Systems 33 (6) (2018) 17-25, https://doi.org/ 10.1109/MIS.2018.2882362.

[74] L. Wang, Y. Xiong, Z. Wang, Y. Qiao, D. Lin, X. Tang, L.V. Gool, Temporal segment networks: Towards good practices for deep action recognition, in: European conference on computer vision, Springer, 2016, pp. 20-36.

[75] E. Ryumina, A. Karpov, Comparative analysis of methods for imbalance elimination of emotion classes in video data of facial expressions, Scientific and Technical Journal of Information Technologies, Mechanics and Optics 20 (5 (129)) (2020) 683-691, https://doi.org/10.17586/2226-1494-2020-20-5-683-691.

[76] K. Wang, X. Peng, J. Yang, S. Lu, Y. Qiao, Suppressing uncertainties for large-scale facial expression recognition, in: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 6897-6906.

[77] C. Kervadec, V. Vielzeuf, S. Pateux, A. Lechervy, F. Jurie, CAKE: a compact and accurate k-dimensional representation of emotion, British Machine Vision Association (2018) 1-12.

[78] J. She, Y. Hu, H. Shi, J. Wang, Q. Shen, T. Mei, Dive into ambiguity: latent distribution mining and pairwise uncertainty estimation for facial expression recognition, in: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 6248-6257.

[79] M.-I. Georgescu, R.T. Ionescu, M. Popescu, Local learning with deep and handcrafted features for facial expression recognition, IEEE Access (2019) 64827-64836, https://doi.org/10.1109/ACCESS.2019.2917266.

[80] D. Kollias, V. Sharmanska, S. Zafeiriou, Distribution matching for heterogeneous Multi-Task learning: a Large-Scale face study, ArXiv abs/ 2105.03790 (2021) 1-15.

[81] A.V. Savchenko, Facial expression and attributes recognition based on MultiTask learning of lightweight neural networks, in: 2021 IEEE 19th International Symposium on Intelligent Systems and Informatics (SISY), 2021, pp. 119-124, https://doi.org/10.1109/SISY52375.2021.9582508.

[82] E. Ghaleb, M. Popa, S. Asteriadis, Multimodal and temporal perception of audio-visual cues for emotion recognition, in: 8th IEEE International Conference on Affective Computing and Intelligent Interaction (ACII), 2019, pp. 552-558, https://doi.org/10.1109/ACII.2019.8925444.

[83] L.N. Do, H.J. Yang, H.D. Nguyen, S.H. Kim, G.S. Lee, I.S. Na, Deep neural network-based fusion model for emotion recognition using visual data, J Supercomputing 77 (2021) 10773-10790, https://doi.org/10.1007/s11227-021-03690-y.

[84] D. Gera, S. Balasubramanian, Affect expression behaviour analysis in the wild using spatio-channel attention and complementary context information, ArXiv abs/2009.14440 (2020) 1-8.

[85] R.R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh, D. Batra, GradCAM: Visual explanations from deep networks via gradient-based localization, in: IEEE International Conference on Computer Vision, 2017, pp. 618-626, https://doi.org/10.1109/ICCV.2017.74.

[86] M. Gogate, A. Adeel, A. Hussain, A novel brain-inspired compression-based optimised multimodal fusion for emotion recognition, in: IEEE Symposium Series on Computational Intelligence (SSCI), 2017, pp. 1-7, https://doi.org/ 10.1109/SSCI.2017.8285377.

[87] S. Yoon, S. Dey, H. Lee, K. Jung, Attentive modality hopping mechanism for speech emotion recognition, in: IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 3362-3366, https://doi.org/ 10.1109/ICASSP40776.2020.9054229.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.