Методы и алгоритмы аудиовизуального распознавания эмоционального состояния типично и атипично развивающихся детей тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Матвеев Антон Юрьевич

  • Матвеев Антон Юрьевич
  • кандидат науккандидат наук
  • 2023, ФГАОУ ВО «Национальный исследовательский университет ИТМО»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 395
Матвеев Антон Юрьевич. Методы и алгоритмы аудиовизуального распознавания эмоционального состояния типично и атипично развивающихся детей: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Национальный исследовательский университет ИТМО». 2023. 395 с.

Оглавление диссертации кандидат наук Матвеев Антон Юрьевич

Содержание

Реферат

Synopsis

Введение

Глава 1 Анализ современного состояния исследований в предметной области

1.1 Актуальность распознавания эмоций

1.2 Многомодальность при распознавании эмоций

1.3 Основные классы эмоциональных состояний детей

1.4 Особенности проявления эмоций типично и атипично развивающихся детей

1.4.1 Особенности голоса, речи и изображений лиц типично развивающихся детей

1.4.2 Особенности проявления эмоций атипично развивающихся детей

1.4.2.1 Эмоциональные состояния детей с расстройством аутистического спектра

1.4.2.2 Эмоциональные состояния детей с синдромом Дауна

1.5 Исследование доступных корпусов эмоциональной детской речи

1.5.1 Корпуса и наборы данных эмоциональной речи детей на иностранных языках

1.5.2 Корпуса и наборы данных эмоциональной речи детей на русском языке

1.5.3 Выводы по разделу

1.6 Современные подходы к распознаванию эмоциональных состояний детей

1.6.1 Распознавание эмоций у типично развивающихся детей

1.6.2 Распознавание эмоций у детей с синдромом Дауна

1.6.3 Распознавание эмоций у детей с расстройством аутистического

спектра

1.7 Постановка цели и задач диссертации

Глава 2 Методика валидации корпусов аудиовизуальной эмоциональной детской речи

2.1 Общая методика валидации корпусов аудиовизуальной эмоциональной детской речи

2.2 Методика валидации корпуса эмоциональной детской речи

2.2.1 Подготовка корпуса речевых данных

2.2.2 Предобработка исходных речевых данных

2.2.3 Выбор наборов признаков голосовой модальности

2.2.4 Выбор классификаторов по голосовой модальности

2.2.5 Проведение обучения и тестирования классификаторов по голосовой модальности

2.2.5.1 Выбор схемы обучения

2.2.5.2 Подготовка обучающих и тестовых наборов данных

2.2.6 Выбор метрик качества классификации

2.2.7 Проведение экспериментов по автоматическому внутриязыковому/внутри-культурному распознаванию эмоционального состояния детей одной культуры/говорящих на одном языке

2.2.8 Проведение экспериментов по автоматическому кросс-языковому/кросс-культурному распознаванию эмоционального состояния детей из разных культур / говорящих на разных языках

2.3 Валидация корпуса речи, автоматическое распознавание эмоциональных состояний детей, говорящих на русском языке, внутри-

культурное распознавание

2.3.1 Валидация корпуса речи, автоматическое распознавание психоневрологического статуса детей

2.3.2 Валидация корпуса эмоциональной детской речи типично развивающихся детей

2.3.3 Результаты валидации корпуса эмоциональной детской речи атипично развивающихся детей

2.4 Валидация корпуса речи, автоматическое распознавание эмоциональных состояний детей из разных культур, говорящих на разных языках

2.5 Обнаружение закономерностей в наборах данных детской речи

2.5.1 Зависимость точности распознавания эмоциональных состояний от различий между культурами

2.5.2 Распознавание возрастной группы детей с различными психоневрологическими статусами

2.6 Выводы по разделу

Глава 3 Методы и алгоритмы глубокого машинного обучения для

аудиовизуального распознавания эмоций

3.1 Обзор методов и алгоритмов глубокого машинного обучения для аудиовизуального распознавания эмоций

3.1.1 Основные концепции машинного обучения

3.1.2 Неглубокие нейронные сети

3.1.3 Глубокие нейронные сети для анализа и распознавания аудиовизуальной информации

3.1.4 Механизмы внимания, используемые при анализе и распознавании аудиовизуальной информации

3.2 Описание алгоритма объединения модальностей

3.3 Описание алгоритма классификации

3.4 Результаты экспериментов по аудиовизуальному распознаванию эмоциональных состояний детей

3.5 Выводы по разделу

Глава 4 Архитектура и программные средства распознавания

эмоциональных состояний детей по их аудиовизуальной речи

4.1 Описание архитектуры и программных средств аудиовизуального распознавания эмоциональных состояний типично и атипично развивающихся детей

4.2 Выводы по разделу

Заключение

Список используемых сокращений

Список литературы

Список рисунков

Список таблиц

Приложение 1 Акты об использовании и внедрении результатов

диссертационного исследования

Приложение 2 Тексты публикаций по теме диссертации

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы и алгоритмы аудиовизуального распознавания эмоционального состояния типично и атипично развивающихся детей»

Реферат Общая характеристика работы Актуальность темы исследования. В настоящее время в России и мире активно развивается искусственный интеллект, в том числе эмоциональный. Эмоциональный искусственный интеллект (англ. Emotion AI) - это искусственный интеллект, который позволяет компьютеру распознавать и интерпретировать человеческие эмоции и реагировать на них.

Интеграция распознавания эмоций в системы человеко-машинного взаимодействия (англ. Human-Computer Interaction, HCI) позволит сделать это взаимодействие более простым, интеллектуальным и естественным, привести к созданию полностью интерактивных систем, способных воспринимать эмоции и эмоционально реагировать, что приблизит взаимодействие человека и машины на шаг к естественному взаимодействию между людьми. Необходимость внедрения новейших технологий, учитывающих эмоции людей, теперь является решающим фактором повышения удобства использования и максимальной удовлетворенности пользователей в приложениях онлайн-образования, мониторинга здоровья. Еще одним очевидным применением систем распознавания эмоций является индустрия игр и развлечений с интерактивными играми, которые создают ощущение естественного взаимодействия с человеком.

Однако подавляющее число современных систем автоматического распознавания эмоций разработано для взрослых людей. Следующее поколение образовательно-развлекательных приложений должно учитывать эмоциональное состояние ребенка во время взаимодействия. Такие приложения могут быть использованы для поддержки обучения в собственном темпе ребенка, интерактивно корректируя содержание урока и скорость его подачи, для обеспечения индивидуального подхода к выбору задач при возникновении трудностей в выполнении заданий или при смене эмоционального состояния ребенка.

Несмотря на большой научный и практический потенциал, проблема эффективного автоматического распознавания эмоциональных состояний детей до сих пор не решена. Во-первых, это связано с тем, что точность автоматического распознавания эмоций системами, разработанными для взрослых, значительно падает при распознавании эмоций детей. Во-вторых, собрано очень малое число наборов эмоциональных данных детей, и они практически отсутствуют в свободном доступе, что препятствует созданию эффективных методов и алгоритмов автоматического распознавания эмоциональных состояний детей на основе методов машинного и глубокого машинного обучения.

Были предприняты некоторые попытки решить проблему нехватки данных, например, за счет применения трансферного обучения для получения разметки на основе уже размеченных данных, аугментации данных на основе генеративных противоборствующих сетей, полуавтоматического обучения (обучения с частичным привлечением учителя, полу-контролируемого обучения) для объединения во время обучения небольшого объема размеченных данных с большим объемом неразмеченных данных. Однако все они обеспечивают незначительное улучшение точности распознавания.

Точность распознавания эмоций улучшается при объединении нескольких модальностей. Учитывая развитие и широкое распространение средств аудиовизуальной коммуникации, ряд исследователей отмечает, что для надежного распознавания эмоций наиболее востребованным способом является автоматическое распознавание эмоций на основе видео- (мимика лица) и аудио- (голос и речь) записей. Однако проблема определения того, какие методы объединения следует использовать для повышения точности до сих пор не имеет окончательного решения.

К настоящему времени достигнут значительный прогресс в автоматическом аудиовизуальном распознавании эмоций у взрослых, основанный на использовании современных алгоритмов машинного и

глубокого машинного обучения, нейронных сетях. Наиболее весомый вклад в развитие данной области внесли работы таких ученых, как Schuller B.W., Batliner A., Huang T.S., Nakamura S., Minker W., Карпов А.А. и др. Также следует отметить ряд других исследовательских групп за рубежом, в частности Centre for Vision Speech and Signal Processing (The University of Surrey, UK), Tsinghua-Berkeley Shenzhen Institute (Tsinghua University, Shenzhen, China) и др.

В России изучением и анализом детской речи, созданием методов, алгоритмов и автоматизированных информационных систем аудиовизуального распознавания эмоциональных состояний детей активно занимаются немногочисленные исследовательские группы, в частности, группа детской речи кафедры высшей нервной деятельности биологического факультета СПб ГУ под руководством д.б.н., профессора Ляксо Е.Е., лаборатория речевых и многомодальных интерфейсов ФИЦ РАН под руководством д.т.н., профессора Карпова А.А., группа детской речи Центра языка и мозга Национального исследовательского университета «Высшая школа экономики» под руководством д.ф.н. Драгой О.В.

Научные публикации в России и за рубежом по аудиовизуальному распознаванию эмоциональных состояний детей единичны, что связано с трудностью доступа к корпусам аудиовизуальной речи детей на иностранных языках и отсутствием таких корпусов на русском языке. Следует отметить публикации таких ученых как Schuller B.W., Safavi S., Kurimo M., Ляксо Е.Е., Карпов А.А. и др.

Таким образом можно утверждать, что задача аудиовизуального распознавания эмоциональных состояний типично и атипично развивающихся детей на данный момент в общем виде не решена и разработка математического, программного и информационного обеспечения для ее решения является актуальной задачей, требующей разработки соответствующих методов, алгоритмов и программных средств, а также их

апробации на реальных данных. Для апробации на реальных данных, в первую очередь, необходимо собрать аудиовизуальный корпус эмоциональной речи типично и атипично развивающихся детей, говорящих на русском языке, а затем разработать методику валидации и собственно выполнить валидацию собранного корпуса, с целью подтверждения его пригодности для автоматического распознавания психоневрологического статуса и эмоциональных состояний типично и атипично развивающихся детей.

Целью диссертационной работы является разработка методов и алгоритмов, позволяющих повысить точность аудиовизуального распознавания эмоциональных состояний типично и атипично развивающихся детей.

Для достижения данной цели в рамках диссертации были поставлены и решены следующие задачи:

1. Анализ особенности проявления эмоций в аудиовизуальной речи типично и атипично развивающихся детей.

2. Анализ доступных корпусов эмоциональной детской речи.

3. Разработка методики валидации корпусов эмоциональной детской речи для различения психоневрологического статуса и эмоционального состояния.

4. Выполнение валидации собранного корпуса эмоциональной речи типично и атипично развивающихся детей, говорящих на русском языке, и обнаружение закономерностей в этих данных.

5. Исследование современных методов и алгоритмов распознавания эмоциональных состояний типично и атипично развивающихся детей.

6. Разработка и усовершенствование методов и алгоритмов аудиовизуального распознавания эмоциональных состояний типично и атипично развивающихся детей.

7. Разработка программных средств аудиовизуального распознавания эмоциональных состояний типично и атипично развивающихся детей.

8. Проведение экспериментальных исследований для оценки качества аудиовизуального распознавания эмоциональных состояний типично и атипично развивающихся детей.

9. Апробация и внедрение результатов работы с использованием данных, собранных и размеченных экспертами предметной области, и с подтверждением результатов экспертами предметной области.

Объектом исследования является аудиовизуальная речь, проявление эмоциональных состояний в голосе и выражении лица типично и атипично развивающихся детей.

Предметом исследования являются методы и алгоритмы автоматического аудиовизуального распознавания эмоциональных состояний типично и атипично развивающихся детей.

Методология и методы исследования включают в себя подходы и методы цифровой обработки сигналов, распознавания образов, компьютерной паралингвистики, теории вероятностей и статистического анализа, машинного обучения, корпусных исследований, теории нейронных сетей, объектно-ориентированного проектирования и программирования.

Научная новизна диссертации обусловлена тем, что впервые обнаружены закономерности в речи детей по возрастным группам и используемому языку/культурному окружению, предложена архитектура нейронной сети для аудиовизуального распознавания эмоциональных состояний типично и атипично развивающихся детей, отличающаяся использованием механизма внимания для объединения модальностей с целью более эффективного извлечения временных связей между модальностями, и нового подхода к классификации за счет трансформации карт признаков в карты классов.

Теоретическая значимость результатов диссертационной работы состоит в исследовании и разработке новых и усовершенствованных методов и алгоритмов цифровой обработки аудиовизуальной речи с целью

обнаружения закономерностей в этих данных, а также моделей, методов и алгоритмов глубокого машинного обучения для задач автоматического аудиовизуального распознавания психоневрологического статуса и эмоциональных состояний типично и атипично развивающихся детей.

Практическая значимость результатов диссертационной работы заключается в возможности использования разработанных методов и алгоритмов для создания систем человеко-машинного взаимодействия с детьми в различных эмоциональных состояниях и автоматизированных экспертных систем экспресс-диагностики различного неврологического статуса и различных эмоциональных состояний. Практическая значимость подтверждается тем, что разработанные методы и алгоритмы машинного обучения были применены для обучения моделей с использованием данных аудиовизуальной детской речи, собранных и размеченных экспертами предметной области, и внедрением этих результатов работы в образовательную деятельность ИМО ФГБУ «НМИЦ им. В.А. Алмазова» Минздрава России с экспертным подтверждением эффекта от внедрения: получение новых данных о применении методов искусственного интеллекта в комплексной диагностике психоневрологического статуса и эмоциональных состояний детей для прогнозирования и диагностики рисков развития детей, а также дополнения уже существующих систем альтернативной коммуникации.

Положения, выносимые на защиту:

1. Методика валидации корпусов эмоциональной детской речи, отличающаяся использованием данных как одного языка/культуры, так и разных языков/культур для различения психоневрологического статуса и эмоционального состояния, а также обнаружением закономерностей в речи типично и атипично развивающихся детей.

2. Нейросетевой метод автоматического аудиовизуального распознавания эмоциональных состояний типично и атипично развивающихся детей, отличающийся использованием механизма внимания для объединения

модальностей с целью более эффективного извлечения временных связей между модальностями, и нового подхода к классификации за счет трансформации карт признаков в карты классов.

3. Программные средства распознавания психоэмоционального статуса и эмоциональных состояний типично и атипично развивающихся детей, отличающиеся автоматическим анализом аудиовизуальной речи и эффективной реализацией программных интерфейсов для интеграции с информационными системами автоматической экспресс-диагностики и системами человеко-машинного взаимодействия с детьми различного неврологического статуса и в различных эмоциональных состояниях.

Соответствие паспорту специальности 2.3.8:

п. 4. «Разработка методов и технологий цифровой обработки аудиовизуальной информации с целью обнаружения закономерностей в данных, включая обработку текстовых и иных изображений, видео контента. Разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения требуемой информации из текстов» - в части разработки методики валидации корпусов эмоциональной детской речи с целью подтверждения их пригодности для автоматического распознавания психоневрологического статуса и эмоциональных состояний, обнаружения закономерностей в эмоциональной речи типично и атипично развивающихся детей.

п. 13. «Разработка и применение методов распознавания образов, кластерного анализа, нейросетевых и нечетких технологий, решающих правил, мягких вычислений при анализе разнородной информации в базах данных» - в части разработки нейросетевого метода автоматического аудиовизуального распознавания эмоциональных состояний типично и атипично развивающихся детей, отличающегося использованием механизма внимания для объединения модальностей с целью более эффективного извлечения временных связей

между модальностями, и нового подхода к классификации за счет трансформации карт признаков в карты классов.

п. 16. «Автоматизированные информационные системы, ресурсы и технологии по областям применения (научные, технические, экономические, образовательные, гуманитарные сферы деятельности), форматам обрабатываемой, хранимой информации. Системы принятия групповых решений, системы проектирования объектов и процессов, экспертные системы и др.» - в части разработки программных средств распознавания психоэмоционального статуса и эмоциональных состояний типично и атипично развивающихся детей, отличающихся автоматическим анализом аудиовизуальной речи и эффективной реализацией программных интерфейсов для интеграции с информационными системами автоматической экспресс-диагностики и системами человеко-машинного взаимодействия с детьми различного неврологического статуса и в различных эмоциональных состояниях.

Достоверность и обоснованность научных положений и выводов, полученных в рамках диссертационной работы, подтверждается обзором значимых и актуальных работ в области исследования, результатами экспериментальных исследований и успешным представлением основных положений в докладах на ведущих международных конференциях. Также предлагаемые алгоритмы прошли валидацию предметными экспертами.

Внедрение результатов работы. Результаты диссертационной работы использовались при проведении:

- Международного исследовательского проекта НИР-ФУНД «Разработка междисциплинарного подхода к диагностике и коррекции нарушений эмоциональной сферы детей с использованием методов искусственного интеллекта: кросс-культурное исследование», грант РНФ-DST № 22-45-02007 (международный с Индией), 2022-2024 гг.;

- НИР-ФУНД «Методы, модели и технологии искусственного интеллекта в биоинформатике, социальных медиа, киберфизических, биометрических и речевых системах», 2018-2020 гг.;

- НИР-ПРИКЛ «Создание гибридной системы диалогового взаимодействия на естественном языке, способной к самообучению, самостоятельному принятию решений и прогнозированию, на основе обработки больших данных, глубоких нейронных сетей и искусственного интеллекта», соглашение №14.575.21.0178 от 26.11.2018 г.

Результаты диссертационной работы также внедрены в учебный процесс Университета ИТМО по дисциплинам «Основы речевых технологий», «Многомодальные биометрические системы» магистерской программы «Речевые технологии и машинное обучение».

Получен акт о внедрении результатов работы в ИМО ФГБУ «НМИЦ им. В.А. Алмазова» Минздрава России, в образовательную программу специалитета 31.05.01 "Лечебное дело" по дисциплине «Искусственный интеллект в биомедицинских системах», реализуемую для студентов 4 курса при проведении лекционных занятий по темам «ИИ в диагностике и лечении заболеваний» и «Компьютерное зрение в медицине».

Апробация результатов работы. Основные результаты работы докладывались и обсуждались на следующих конференциях и конгрессах, в частности: XLIX, LI и ЬП научно и учебно-методических конференциях Университета ИТМО (Санкт-Петербург, Российская Федерация (РФ), 20212023); IX, X и XI Всероссийских конгрессах молодых ученых (Санкт-Петербург, РФ, 2021-2023); XXVII научной школы-конференции молодых ученых по физиологии высшей нервной деятельности и нейрофизиологии (Москва, 2023); X Всероссийской (с международным участием) научно-практической конференции «Центральные механизмы речи» им. проф. Н.Н. Трауготт (Санкт-Петербург, РФ, 2022); 50-й Международной научной филологической конференции имени Людмилы Алексеевны Вербицкой

(Санкт-Петербург, РФ, 2022); Первом Национальном конгрессе по когнитивным исследованиям, искусственному интеллекту и нейроинформатике. Девятой международной конференции по когнитивной науке (Москва, РФ 2021); 23-й Международной конференции «Речь и Компьютер» SPECOM-2021 «International Conference on Speech and Computer» (Санкт-Петербург, РФ, 2021); 24-й Международной конференции «Речь и Компьютер» SPECOM-2022 «International Conference on Speech and Computer» (Гуруграм, Индия, 2022); 24-й международном конгрессе по акустике «International Congress of Acoustics» (Кенджу, Южная Корея, 2022); 28-й международной конференции по искусственным нейронным сетям «International Conference on Artificial Neural Networks» (Мюнхен, Германия, 2019); 26-й конференции ассоциации открытых инноваций «IEEE Conference of Open Innovation Association (FRUCT)» (Ярославль, РФ, 2020); 29-й конференции ассоциации открытых инноваций «IEEE Conference of Open Innovation Association (FRUCT)» (Тампере, Финляндия, 2021).

Публикации. Основные результаты по теме диссертации изложены в 15 публикациях, включая 7 публикаций в изданиях, индексируемых в базах цитирования Scopus, Web of Science, из них три статьи в журнале квартиля Q1. Также получено одно свидетельство о регистрации программ для ЭВМ.

Личный вклад автора. Автором лично проведен анализ существующих подходов к автоматической классификации методов и алгоритмов для автоматической классификации психоневрологических и эмоциональных состояний типично и атипично развивающихся детей [3, 5, 7, 9, 10, 11, 100, 102, 107, 108, 109, 110], разработана методика валидации корпусов детской речи [3, 5, 7, 100, 102, 107, 108, 110], разработаны методы и алгоритмы для автоматической классификации эмоциональной детской речи [9, 109], разработаны методы и алгоритмы для повышения качества работы информационных систем, использующих методы машинного обучения, и интеграции таких информационных систем с другими системами человеко-

машинного взаимодействия [17, 105, 106, 109]. Подготовка публикаций проводилась с соавторами, при этом вклад автора был основным в публикациях с первым авторством. Соавторы публикаций [3, 5, 7, 100, 102, 107, 108, 109, 110] собирали и размечали исходные данные, проводили перцептивные эксперименты и сравнивали их результаты с результатами автоматического распознавания эмоциональных и психоневрологических статусов детей. Соавторы публикаций [105] и [106] разрабатывали методы и алгоритмы для автоматической генерации вопросов и проверки качества ответов на русском языке. Соавторы публикации [17] разрабатывали метод повышения производительности модели ResNet.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, списка сокращений и списка литературы. Полный объем диссертации составляет 170 страниц, включая 34 рисунка и 24 таблиц. Список литературы содержит 171 наименований.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Заключение диссертации по теме «Другие cпециальности», Матвеев Антон Юрьевич

Заключение

Значимость полученных в диссертационной работе результатов подчеркивается возможностью интеграции разработанных методов и алгоритмов автоматического распознавания психоневрологического статуса и эмоциональных состояний типично и атипично развивающихся детей в системы человеко-машинного взаимодействия с целью создания нового поколения образовательных и развлекательных приложений для детей, а также в экспертные системы для автоматического диагностирования психоневрологического статуса и эмоционального состояния детей, коррекции нарушений эмоциональной сферы детей.

В ходе исследования получены следующие основные теоретические и практические результаты:

1) Предложена методика валидации корпусов эмоциональной детской речи, отличающаяся использованием данных как одного языка/культуры, так и разных языков/культур, для различения психоневрологического статуса и эмоционального состояния, а также обнаружения закономерностей в речи типично и атипично развивающихся детей. Результаты валидации корпуса эмоциональной детской речи детей, говорящих на русском языке, подтвердили, что валидируемый корпус содержит надежные образцы детской эмоциональной речи, которые могут быть использованы для разработки автоматических систем распознавания психоневрологического статуса и эмоциональных состояний типично и атипично развивающихся детей. Были обнаружены следующие закономерности в данных: снижение точности распознавания эмоций в речи детей младшего школьного возраста, также, как и во взрослой речи, имеет корреляцию с расстоянием Хофстеде между культурами; с высокой точностью можно распознавать возрастные группы детей 7-8 лет и 9-10 лет, в том числе раздельно по психоневрологическим статусам (типовое развитие, синдром Дауна, расстройство аутистического

спектра), причем обе возрастные группы распознаются примерно с одинаковой точностью.

2) Предложен нейросетевой метод автоматического аудиовизуального распознавания эмоциональных состояний типично и атипично развивающихся детей, отличающийся использованием механизма внимания для объединения модальностей с целью более эффективного извлечения временных связей между модальностями, и нового подхода к классификации за счет трансформации карт признаков в карты классов, которые позволили увеличить точность распознавания на 2-5% по отношению к лучшим известным решениям.

3) Разработаны программные средства распознавания психоэмоционального статуса и эмоциональных состояний типично и атипично развивающихся детей, отличающиеся автоматическим анализом аудиовизуальной речи и эффективной реализацией программных интерфейсов для интеграции с информационными системами автоматической экспресс-диагностики и системами человеко-машинного взаимодействия с детьми различного неврологического статуса и в различных эмоциональных состояниях.

4) Результаты экспериментальных исследований, полученные в рамках диссертационной работы, достоверны и обоснованы, докладывались на ведущих международных и всероссийских конференциях. Результаты также валидировались предметными экспертами, о чем свидетельствует внедрение результатов диссертационной работы в ИМО ФГБУ «НМИЦ им. В.А. Алмазова» Минздрава России и использование в международном исследовательском проекте «Разработка междисциплинарного подхода к диагностике и коррекции нарушений эмоциональной сферы детей с использованием методов искусственного интеллекта: кросс-культурное исследование», грант РНФ-DST № 22-45-02007 (международный с Индией), 2022-2024 гг.

Таким образом, на основании полученных результатов, можно сделать вывод, что цель данного диссертационного исследования по разработке методов и алгоритмов, позволяющих повысить точность аудиовизуального распознавания эмоциональных состояний типично и атипично развивающихся детей, достигнута.

В качестве дальнейшего развития систем автоматической классификации эмоциональных и психоневрологических статусов типично и атипично развивающихся детей можно выделить следующие приоритетные направления:

- детекция более широкого спектра психоневрологических статусов, позволяющая расширить аудиторию пользователей предложенных решений;

- детекция эмоциональных состояний в двумерном пространстве Valence (валентность) и Arousal (возбуждение), обеспечивающая более гибкую интерпретацию результатов детекции;

- использование дополнительных модальностей, таких как текст или физиологические признаки (частота сердечных сокращений, электрическая активность мозга, глотограмма и т.п.), для создания более эффективных представлений и повышения точности классификации;

- применение разработанных методов и алгоритмов для автоматической разметки новых данных, позволяющих увеличить объем данных для обучения с целью дальнейшего повышения качества работы моделей.

Полученные в диссертационной работе результаты соответствуют следующим пунктам паспорта специальности 2.3.8 - «Информатика и информационные процессы».

п. 4. «Разработка методов и технологий цифровой обработки аудиовизуальной информации с целью обнаружения закономерностей в данных, включая обработку текстовых и иных изображений, видео контента.

Разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения требуемой информации из текстов» - в части разработки методики валидации корпусов эмоциональной детской речи с целью подтверждения их пригодности для автоматического распознавания психоневрологического статуса и эмоциональных состояний, обнаружения закономерностей в эмоциональной речи типично и атипично развивающихся детей.

п. 13. «Разработка и применение методов распознавания образов, кластерного анализа, нейросетевых и нечетких технологий, решающих правил, мягких вычислений при анализе разнородной информации в базах данных» - в части разработки нейросетевого метода автоматического аудиовизуального распознавания эмоциональных состояний типично и атипично развивающихся детей, отличающегося использованием механизма внимания для объединения модальностей с целью более эффективного извлечения временных связей между модальностями, и нового подхода к классификации за счет трансформации карт признаков в карты классов.

п. 16. «Автоматизированные информационные системы, ресурсы и технологии по областям применения (научные, технические, экономические, образовательные, гуманитарные сферы деятельности), форматам обрабатываемой, хранимой информации. Системы принятия групповых решений, системы проектирования объектов и процессов, экспертные системы и др.» - в части разработки программных средств распознавания психоэмоционального статуса и эмоциональных состояний типично и атипично развивающихся детей, отличающихся автоматическим анализом аудиовизуальной речи и эффективной реализацией программных интерфейсов для интеграции с информационными системами автоматической экспресс-диагностики и системами человеко-машинного взаимодействия с детьми различного неврологического статуса и в различных эмоциональных состояниях.

Список литературы диссертационного исследования кандидат наук Матвеев Антон Юрьевич, 2023 год

REFERENCES

1. Akfay MB, Oguz K. Speech emotion recognition: Emotional models, databases, features, preprocessing methods, supporting modalities, and classifiers. Speech Commun. 2020:166:56-76.

2. Schuller DM, Schuller BW. A Review on five recent and near-future developments in computational processing of emotion in the human voice. Emotion Review. 2021;13( I ):44-50.

3. Rouast Ph, Marc A. Raymond Cli, Deep learning for human affcct recognition: Insights and new developments. IEEE Transactions on Affective Computing. 2021,12:524-543.

4. Swain M. Routray A. Kabisatpathy P. Databases, features and classifiers for spccch emotion recognition: A review. Int. J. Speech Tcchnol. 2018;21:93-120.

5. Onwujekwe D. Using Deep Leaning-Based Framework for Child Speech Emotion Recognition. PhD Thesis, Virginia Commonwealth University, Richmond, VA. LTSA, 2021.

6. Palo HK, Mohpntv MN, Chandra M. Emotion analysis from speech of different age groups. Proc Second International Conference on Research in Intelligent and Computing in Engineering; Vol. 10; 24-26 March 2017; Gopcshwar. Uttrakhand, India 2017. p, 283-287.

7. Kaya H, All Salalt A, Karpov A. Frolova O. Grigorcv A, Lyakso E. Emotion, age, and gender classification in children's speech by humans and machines. Computer Specch & Language. 2017;46:268-283.

8. Kennedy J, Lemaignan S, Montassier C, Lavalade P, Irfan B, Papadopoulos F, Senft E, Belpaeme T. Child speech recognition hi human-robot interaction: Evaluations and recommendations. Proc 12th ACM/IEEE International Conference on Human-Robot Interaction (HRT17); 06-09 March 2017; Vienna. Austria 2017. p. 82-90.

9. Perez-Esphiosa H, Reyes-Garcia C, Villasenor-Phieda L. EmoWisconsin: An Emotional Children Spccch Database in Mexican Spanish, Proc 4th International Conference on Affcctivc Computing and Intelligent Interaction (AC11); 9-12 October 2011; Memphis, TN, USA 2011. p. 62-71.

lO.Steidl S. Automatic Classification of Emotion Relaled User States in Spontaneous Children's Speech. Berlin, Germany: Logos Vcrlag, 2009.

11.Balliner A, Blomberg M. D'Arcv S, Elenius D, Giuliani D, Gerosa M, Hacker C. Russell MJ. Steidl S. Wong M. The PF STAR children's speech corpus. Proc INTERSPEECH 2005: 4-8 September 2005: Lisbon. Portugal 2005. p. 2761-2764.

12.Balliner A. Steidl S. Nolh E. Releasing a thoroughly annotated and processed spontaneous emotional database: the FAU Aibo Emotion Corpus. Proc LREC-2008 Workshop of on Corpora for Research on Emotion and Affcct; 26 May 2008; Marrakech, Morocco 2008. p. 28-31,

13. Gerosa M, Giuliani D, Brugnara F. Acoustic variability and automatic recognition of children's speech.

Speech Commun. 2007:49(10-11); 847-860.

14.Bell L, Boye J, Guslafson J. Heldner M, Lindslroin A, Wiren M. The Swedish NICE Corpus-spoken dialogues between children and embodied characters in a computer game scenario. Proc 1NTERSPEECH 2005; 4-8 September 2005; Lisbon, Portugal 2005. p. 2765-2768.

li.Mohanty MN. Palo HK. Child emotion recognition using probabilistic neural network with effective features' Measurement. 2020;152(3):107369.

16.Lyakso E. Ruban N, Frolova O. Gorodnyi V, Matveev Yu. Approbation of a method for studying die reflection of emotional stale in children's speech and pilot psychophysiological experimental data. International Journal of Advanced Trends in Computer Science and Engineenng. 2020;9(l):649-656.

17.Lyakso E, Frolova O. Ruban N. Mekala AM. The Child's emotional speech classification by human across two languages: Russian & Tamil. Lecture Notes in Computer Science. 2021;12997:384-396

18. Carrol L. Through the Looking-Glass and What Alice Found There. London, UK: Macmillan and Co; 1872.

19.GLOKAYA KUZDRA [cited 2022 July 09]. Available from: http://laneuagehat.com/elokava-kuzdra

20. Hcyman M, Satpatliy S, Ravishankar A. The Tenth Rasa: An Anthology of Indian Nonsense. New Delhi, India: Penguin Books; 2007.

2LDisvoice's documentation [cited 2022 July 09] Available from: https://disvoicc.rcadthcdocs.io/cn/latcst/iiidcx.html

22.openSMILE Python [cited 2022 July 09]. Available from:

littps://Kithtib.com/audccrinij/opensirnlc-pvtIion

23.Eybcn F, Sclicrcr KR, Scliullcr BW. Sundbcrg J, Andre E, Busso C,, Dcvillcrs. LY, Epps J, Laukka P, Narayanan SS. Tmong K. The Geneva Minimalistic Acoustic Parameter Set (GeMAPS) for voice research and affcctivc computing. IEEE Trans. Affect. Cornput. 2016;7:190-202.

24.Support Vcctor Machines |citcd 2022 July 09]. Available from; httns://scikit-leam_org/stable/modules/svm.html#svm

25. Multi-layer Pcrccptroti classificr [cited 2022 July 09]. Available from: https://scikit-lcarn.orii/stablc/iiiodulcs/ecncratod/sklcarii.ncural network,MLPClassificr.html

26.Javaheri B. Speech & song emotion recognition using multilayer perceptron and standard vector machine. ArXiv. Preprints 2021; 2021050441. httris://doi.ore/l 0.20944/prcprints202105.0441 ,vl

27.Farooq M, Hussam F, Baloch NK, Raja FR, Yu H, Zikria YB. Impact of feature selection algorithm on speech emotion recognition using deep convolutional neural network Sensors. 2020;2(1(21):6008.

28. Stratified K-Folds cross-validator |citcd 2022 July 09]. Available from: https://scikit-learn.ore./stable/niodules/aenerated/skleam.model selection.StratifiedKFold.html

29. Leave-One-Out cross-validator Lcited 2022 July 09]. Available from: httDs://5cikit-lcarn.ore/stablc/iiiodulcs/acncratod/sklcarii.model selection. LcavcOncOut httnl

30.Neiberg D, Laukka P. Elfenbein HA. Intra-, inter-, and cross-cultural classification of vocal affect. Proc INTERSPEECH 2011; 27-31 August 2011; Florence. Italy 2011. p. 1581-1584.

31. Sun J, Ahn H, Park CliY, Tsvctkov Y, Mortcnscn DR. Cross-cultural similarity features for cross-lingual transfer learning of pragmatically motivated tasks. Proc 16th Conference of the European Chapter of the Association for Computational Linguistics: Mam Volume; 19-23 April 2021; online 2021. p. 24032414.

32. Neumann M. Vu NT. Cross-lingual and multilingual speech emolioii recogniliou on English and French. Proc IEEE International Conference on Acoustics. Speech and Signal Processing (ICASSP); 15-20 April 2018; Calgary, AB, Canada 2018. p. 5769-5773.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.