Методы и алгоритмы повышения эффективности автоматического интонационного анализа речевых сигналов тема диссертации и автореферата по ВАК РФ 05.12.04, кандидат технических наук Марьев, Александр Александрович
- Специальность ВАК РФ05.12.04
- Количество страниц 141
Оглавление диссертации кандидат технических наук Марьев, Александр Александрович
Введение.
Глава 1. Аналитический обзор методов интонационного анализа человеческой речи.
1.1 Постановка задачи. Математическая модель сигналов. Представление параметров сигнала.
1.2 Основные этапы разработки метода. интонационного анализа речи.
1.2.1 Измерение характеристик сигнала.
1.2.2 Снижение размерности вектора параметров.
1.2.3 Построение классификатора.
Выводы.
Глава 2. Информационный подход к решению задачи классификации.
2.1 Необходимость предложения новых подходов к решению задачи классификации при интонационном анализе.
2.2 Принцип максимума информации. Классификатор, оптимальный в смысле принципа максимума информации.
2.3 Особенности представления объектов. Состав классификатора.
2.4 Обучение классификатора.
2.5 Классификация интонаций.
Выводы.
Глава 3. Система интонационного анализа речи, использующая классификатор, оптимальный в смысле принципа максимума информации.
3.1 Состав системы.
3.2 Измерение параметров речевого сигнала.
3.2.1 Определение границ вокализованных участков речевого сигнала.
3.2.2 Динамический диапазон и коэффициент пиковости.
3.2.3 Средняя частота следования и относительная длительность вокализованных звуков
3.2.4 Характеристики мгновенного спектра.
3.2.5 Характеристики частоты основного тона.
3.2.6 Характеристики огибающих вокализованных участков.
3.2.7 Параметры модели линейного предсказания.
3.2.8 Мел-частотные кепстральные коэффициенты и логарифмические частотные коэффициенты мощности.
3.3 Снижение размерности пространства признаков.
3.3.1 Снижение размерности вектора признаков методом главных компонент.
3.3.2 Использование критерия средней взаимной информации с вектором номеров классов
3.3.3 Группировка признаков с использованием критерия средней взаимной информации между признаками.
3.3.4 Адаптивное квантование значений признаков.
3.4 Обучение классификатора.
Выводы.
Глава 4. Исследование эффективности метода распознавания эмоционального состояния оператора по его речи с применением классификатора, оптимального в смысле ПМИ.
4.1 Задача распознавания эмоционального состояния оператора по его речи.
4.2 Обучение системы.
4.3 Оценка надежности распознавания.
Выводы.
Рекомендованный список диссертаций по специальности «Радиотехника, в том числе системы и устройства телевидения», 05.12.04 шифр ВАК
Разработка и исследование методов повышения эффективности программно-аппаратных вычислительных средств обработки речевых сигналов1999 год, кандидат технических наук Федоренко, Олег Григорьевич
Оценка параметров дикторонезависимых признаков фонем с применением адаптивного частотно-временного анализа2005 год, кандидат технических наук Киселев, Алексей Николаевич
Восприятие невербальных признаков эмоций больными с локальными поражениями мозга1984 год, кандидат биологических наук Сидорова, Ольга Александровна
Исследование и разработка методов формирования решающих правил при классификации сигналов изображений2005 год, кандидат технических наук Дударов, Денис Александрович
Исследование приемного тракта системы связи командного типа2004 год, кандидат технических наук Клименко, Владимир Викторович
Введение диссертации (часть автореферата) на тему «Методы и алгоритмы повышения эффективности автоматического интонационного анализа речевых сигналов»
Актуальность работы
Автоматический интонационный анализ речевых сигналов в настоящее время представляет собой обширную область научных исследований и инженерных разработок на стыке таких направлений, как акустика и психоакустика, радиотехника, системы искусственного интеллекта и распознавание образов, прикладная статистика, фонетика, лингвистика, психология, физиология.
Традиционно в задачах распознавания речи ставилась задача выделения и интерпретации семантической информации - т.е. смысла сказанного. В то же время, за несколько последних десятилетий существенно усилился интерес к интонационному анализу речи. Интонация является носителем просодической информации, сообщающей о том, в какой манере речь была произнесена.
Среди приложений автоматического интонационного анализа стоит отметить такие, как:
- разработка усовершенствованных методов взаимодействия (интерфейсов) человека с компьютером, использующих интонацию как один из способов передачи информации;
- повышение надежности распознавания речи;
- диагностика психоэмоционального состояния человека по голосу;
- совершенствование профессиональных речевых навыков дикторов, работников контакт-центров и представителей иных профессий, в которых особую роль играет общение по речевым каналам связи;
- разработка систем, обучающих правильному интонированию при обучении иностранных языков;
- коррекционная педагогика, обучение детей правильному выражению эмоций с помощью голоса;
- идентификация человека по голосу: установление личности 4 говорящего, либо распознавание его пола, возраста, акцента и т.п.
В нашей стране интонационным анализом занимались и занимаются такие известные ученые, как JI.A. Чистович, В.П. Морозов, И.А. Алдошина, И.Б. Старченко и другие. Среди зарубежных ученых можно отметить имена Г. Фанта, У. Ли. Одной из крупнейших в мире научных школ, разрабатывающих в настоящее время вопросы автоматического интонационного анализа, является немецкая (Felix Burkhardt, Björn Schuller, Anton Batliner, Marc Schroeder и др.).
Решение задачи автоматического интонационного анализа сопряжено с существенными трудностями, многие из которых до сих пор в полной мере не преодолены. Первой из таких трудностей является субъективность интонационных характеристик, таких например, как состояние человека, эмоции, тип произношения. Под субъективностью понимается как изменчивость произношения у различных дикторов и у одного и того же диктора с течением времени, так и трудности формализации интонационных параметров и их объективного измерения.
Указанные сложности являются причиной того, что ни в одном из направлений интонационного анализа речи в настоящий момент не существует общепринятых моделей сигналов и интонаций, не стандартизованы способы измерений и алгоритмы обработки сигналов. И, хотя в ряде приложений достигнуты значительные успехи (например, в распознавании двух состояний оператора, идентификации пола диктора и др.), они в большинстве своем не имеют фундаментальной значимости. В результате исследователи и разработчики систем автоматического интонационного анализа часто вынуждены в своей работе исходить из эвристических соображений, не имея достаточного количества априорной информации.
Существенным недостатком многих существующих методов обработки речевых сигналов, используемых в интонационном анализе, является формальность их подхода к задаче, недостаточный учет особенностей восприятия и обработки информации человеком. Таковы, к примеру, методы выделения частоты основного тона, основанные на полигармонической модели речевого сигнала, или методы распознавания, предполагающие линейную статистическую связь между интонацией и объективными характеристиками речевого сигнала.
В сложившейся ситуации возрастающего спроса на системы автоматического интонационного анализа для разнообразных приложений существует необходимость поиска новых подходов к решению данной задачи, которые бы обладали достаточной надежностью и универсальностью. Очевидно, для построения подобных систем необходимо более полно учитывать научные знания о человеке.
Объектом исследования являются речевые сигналы, содержащие интонационную (просодическую) информацию.
Предметом исследования являются методы обработки речевых сигналов, позволяющие извлекать интонационную информацию из речевого сигнала и интерпретировать ее.
Целью диссертационной работы является повышение эффективности выделения и интерпретации интонационной информации, содержащейся в речевом сигнале.
Основными задачами, которые требуется решить для достижения поставленной цели, являются:
1. Разработка метода определения минимального набора информативных признаков (характеристик) речевого сигнала, при котором возможно достижение приемлемого качества интонационного анализа.
2. Разработка методов измерения набора информативных характеристик речевого сигнала.
3. Разработка метода классификации интонаций, учитывающего особенности восприятия и обработки информации человеком.
4. Построение структуры и алгоритмов функционирования системы автоматического интонационного анализа, исследование эффективности автоматического интонационного анализа.
Научная новизна
В рамках диссертационной работы получены следующие новые научные результаты:
1. Предложен метод оценки траектории частоты основного тона (ЧОТ) речи с использованием первичных оценок, полученных несколькими методами, и процедуры постобработки методом динамического программирования.
2. Разработан метод адаптивного квантования значений признаков, представляющий собой кусочно-постоянное отображение области значений признаков, использующее оценки их статистических характеристик, полученные по обучающей выборке.
3. Предложен трехэтапный метод снижения размерности пространства признаков речевого сигнала (отбора наиболее информативных признаков), основанный на информационной мере близости признаков, с выделением главных компонент на заключительном этапе.
4. Разработан метод классификации интонаций, основанный на информационном подходе к задаче распознавания, оптимальный в смысле принципа максимума информации.
5. Разработана структура системы автоматического интонационного анализа и алгоритмы ее функционирования, в том числе: а) алгоритм одновременного измерения параметров речевого сигнала в трех масштабах времени (фрагменты длительностью в десятки мс, отдельные вокализованные звуки, участки длительностью в единицы секунд); б) алгоритм адаптивного квантования значений признаков, позволяющий минимизировать потерю информативности признаков при их квантовании; в) алгоритм выделения полносвязных групп признаков максимального размера по критерию средней взаимной информации между ними; г) алгоритм обучения классификатора, оптимального в смысле принципа максимума информации.
Практическая ценность работы
1. Разработано программное обеспечение, в котором реализован метод оценки траектории частоты основного тона (ЧОТ) речи с использованием первичных оценок, полученных несколькими методами, и процедуры постобработки методом динамического программирования. Показано, что применение данного метода позволяет снизить вероятность появления на оценке траектории ЧОТ грубых случайных ошибок величиной более 20% в 2 и более раз, ошибок более 50% - в 3 и более раз по сравнению с семью популярными методами оценки траектории ЧОТ.
2. Разработано программное обеспечение для автоматизированного решения задачи снижения размерности пространства признаков речевых сигналов в три этапа: а) отбор из первоначального множества признаков подмножества по критерию средней взаимной информации с вектором номеров классов (на основе заданного порога); б) объединение признаков из выбранного на первом этапе подмножества в группы максимального размера по критерию, в каждой из которых количество средней взаимной информации между каждыми двумя признаками превышает заданный порог; отбор одного признака из каждой группы; в) преобразование отобранных на втором этапе признаков по методу главных компонент, отбор N первых главных компонент по критерию совокупной дисперсии.
Для выполнения первых двух этапов выполнялось адаптивное квантование значений признаков по разработанному методу. Показана высокая эффективность разработанного программного обеспечения при решении задачи снижения размерности признакового пространства в задаче автоматического распознавания семи эмоциональных состояний по речевому сигналу: наибольшая средняя вероятность правильного распознавания 0,82 была достигнута при использовании 60-ти признаков из первоначального множества 550-ти признаков. В эксперименте с использованием только метода главных компонент для отбора признаков наибольшая средняя вероятность верного распознавания 0,55 была достигнута при использовании 350 признаков из того же первоначального множества.
3. Создана программная реализация системы автоматического интонационного анализа, использующей 16 признаков речевого сигнала классификатор, оптимальный в смысле принципа максимума информации либо классификатор типа кЫИ (распознавание по методу к ближайших соседей). Экспериментально показано, что относительно невысокая вычислительная сложность разработанных алгоритмов допускает распознавание интонаций в режиме реального времени при вычислениях на настольном ПК. Установлено, что средняя вероятность правильного распознавания семи эмоциональных состояний диктора по речи составила 0,71 при отсутствии зависимости от диктора. В эксперименте использовалась Берлинская база записей эмоциональной речи. Ряд известных систем-аналогов при сопоставимых результатах различали меньшее число эмоциональных состояний (шесть). Средняя вероятность верного распознавания семи состояний в аналогичном исследовании составила 0,55 при использовании другого типа классификатора.
Методы исследования основаны на использовании аппарата математической статистики, теории информации, элементов теории графов и теории множеств. Использовались методы статистической радиотехники, акустики, цифровой обработки сигналов, прикладной статистики, теории эвристических решений, а также некоторые данные психоакустики и физиологии. Проверка теоретических выводов производилась путем постановки и проведения эксперимента по распознаванию семи эмоциональных состояний на материале Берлинской базы записей эмоциональной речи.
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на следующих научных конференциях и научных школах: международной научной конференции «Системы и модели в информационном мире», г. Таганрог, 2009; международной научной конференции «Методы и алгоритмы принятия эффективных решений», г. Таганрог, 2009; научной школе для молодежи «Нейробиология и новые подходы к искусственному интеллекту и науке о мозге», г. Таганрог, 2010; Всероссийской научной конференции «Современные исследовательские и образовательные технологии», г. Таганрог, 2010; Всероссийской научной конференции «Актуальные вопросы исследования общественных и технических систем», г. Таганрог, 2011; VII Ежегодной научной конференции студентов и аспирантов базовых кафедр Южного научного центра РАН, г. Ростов-на-Дону, 2011; Всероссийской научной школе для молодежи «Фундаментальные, клинические и гигиенические основы и аппаратно-методическое обеспечение системы медико-психологической реабилитации пациентов, подверженных высокому уровню напряженности труда и профессионального стресса», г. Ростов-на-Дону, 2011; Всероссийской научной конференции «Перспективы развития гуманитарных и технических систем», г. Таганрог, 2011; VIII Ежегодной научной конференции студентов и аспирантов базовых кафедр Южного научного центра РАН, г. Ростов-на-Дону, 2012; Всероссийской научной конференции «Актуальные проблемы современности: человек, общество, техника» г. Таганрог, 2012.
Внедрение результатов работы
Результаты диссертационной работы внедрены в госбюджетной работе № 11056/1 и учебном процессе кафедры теоретических основ радиотехники, а также при выполнении НИР по гранту Российского фонда фундаментальных исследований (проект №10-06-00110а).
Публикации
По результатам выполненных исследований опубликовано 12 работ, в том числе 2 статьи в рецензируемых журналах из списка ВАК РФ, одна статья, депонированная в ВИНИТИ РАН, и 9 статей и тезисов докладов в материалах Всероссийских и международных научных конференций и научных школ.
Основные положения, выносимые на защиту:
1) в качестве объективных характеристик речевых сигналов предложено использовать временные, спектральные, статистические характеристики, параметры модели линейного предсказания и мел-частотные кепстральные коэффициенты а также производные от них статистические характеристики;
2) для отбора признаков целесообразно использование методов, основанных на средней взаимной информации как мере статистической связи между признаками и номерами классов, а также между различными признаками;
3) адекватным поставленной задаче автоматического интонационного анализа является критерий максимума средней взаимной информации, который использовался в качестве целевой функции при обучении классификатора;
4) для верификации разработанных методов и алгоритмов предложеноа методика эксперимента по распознаванию эмоционального состояния человека по речи с применением одной из общедоступных баз записей эмоциональной речи.
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и списка использованных литературных источников, содержащего 100 наименований. Общий объем работы составляет 137 страниц машинописного текста, включая 16 рисунков и 11 таблиц.
Во введении обоснована актуальность темы, обозначено современное состояние исследований в области автоматического интонационного анализа, сформулированы цели исследования, отражены научная новизна и практическая значимость полученных результатов, сформулированы основные положения, выносимые на защиту.
В первой главе произведена формальная постановка задачи автоматического интонационного анализа речи в классификационной форме. Приведены широко используемые математические модели речевых сигналов, обсуждена сущность процедуры отображения речевого сигнала в многомерное пространство параметров в виде точки или множества точек. Параметры в этом случае играют роль признаков речевого сигнала, на основании которых производится классификация.
Отмечено, что одним из главных факторов, сдерживающих в настоящее время развитие систем автоматического интонационного анализа, является существенный недостаток априорной информации о характере связи субъективных интонационных характеристик с объективными характеристиками речевых сигналов.
Приведена наиболее употребимая на сегодня методика разработки систем автоматического интонационного анализа, в которой используется метод последовательных приближений, и которая позволяет при помощи эвристических предположений и специальных процедур свести задачу автоматического интонационного анализа к задаче обучения с учителем, несмотря на существенный недостаток априорной информации.
Эвристические предположения используются на этапе определения множества признаков речевого сигнала, содержащего подмножество признаков, информативных в конкретной задаче интонационного анализа.
После определения первоначального множества параметров производится выбор или разработка методов их измерения с точностью, достаточной в рамках конкретной задачи.
Специальные процедуры снижения размерности пространства признаков используются для выделения минимального и достаточного набора информативных признаков из первоначально определенного множества.
После решения задачи отбора минимального и достаточного набора признаков производится обучение классификатора на заранее сформированной обучающей выборке, содержащей множество речевых сигналов, в которых представлены типы интонаций, которые требуется различать.
Для проверки качества работы системы с данным набором признаков производится эксперимент по оценке качества распознавания интонаций обученным классификатором. Критерий качества определяется спецификой задачи (средняя вероятность верного распознавания, максимальная вероятность неправильного распознавания и т.д.).
В случае достижения приемлемых результатов задача разработки метода интонационного анализа считается решенной, в случае неудовлетворительных результатов возвращаются к этапу отбора признаков из первоначального множества.
Отмечено, что на каждом из перечисленных этапов существуют проблемы требующие решения. На этапе измерения параметров это сложность оценки одного из важных параметров речевого сигнала - частоты основного тона - вследствие отсутствия достаточно надежных и быстрых методов. Среди методов снижения размерности пространства признаков также сложно в общем случае найти адекватный поставленной задаче. Наконец, популярные сегодня методы классификации не учитывают особенностей восприятия и обработки информации человеком, что сказывается качестве распознавания интонаций.
На основании приведенных рассуждений сделан вывод о необходимости поиска новых подходов, разработки новых методов и алгоритмов для повышения эффективности автоматического интонационного анализа речевых сигналов.
Во второй главе предложен информационный подход к задаче классификации, основанный на работах Г.А. Голицына, который предложил информационную модель живого организма и принцип максимума (средней взаимной) информации. В соответствии с этим принципом универсальным мотивом при адаптации биологических систем к условиям среды является стремление к максимизации количества средней взаимной информации между разнообразием стимулов среды и разнообразием реакций организма.
В данном подходе используется расширенная трактовка понятия вероятности, предложенная А.Н. Колмогоровым (вероятность как относительная частота, доля, концентрация и т.п.). Суть обучения заключается в подстройке совместных вероятностей реакций системы и стимулов среды, хранящихся в памяти классификатора таким образом, чтобы максимизировалось количество средней взаимной информации между стимулами среды и реакциями системы.
Понятие средней взаимной информации, строго говоря, применимо лишь к случаю двух случайных величин. Р. Фано предложил способ обобщения на многомерный случай, но полученная величина не обладает всеми свойствами средней взаимной информации, а предложенные выражения обладают неприемлемой вычислительной сложностью. Поэтому была использована аппроксимация средней взаимной информации многих случайных величин через сумму количеств средней взаимной информации для всех возможных пар случайных величин.
Была предложена модель обучения для случая предъявления векторов вероятностей признаков с одним ненулевым (а значит, единичным) значением - т.е. для случая, когда каждый параметр каждого объекта в обучающей выборке принимает одно фиксированное значение Задача обучения при этом была сведена к оптимизационной задаче, которая решалась численным методом.
Задача классификации в рамках данного подхода также может быть представлена в виде оптимизационной задачи, однако к классификации, как правило, предъявляются более строгие требования в плане быстродействия. В связи с этим было решено заменить решение оптимизационной задачи процедурой расчетов вероятностей принадлежности к каждому классу методом максимального правдоподобия.
В третьей главе представлены результаты разработки структуры системы автоматического интонационного анализа и алгоритмов ее функционирования, а также вопросы выбора первоначального множества параметров и разработки методов их измерений.
В данном случае решалась задача распознавания эмоционального состояния человека по его речи, однако полученные выводы применимы и для других приложений интонационного анализа.
Отобранное первоначальное множество признаков речевого сигнала содержало как мгновенные, так и интегральные характеристики сигнала, что потребовало организации измерений в трех масштабах времени. На отрезках длиной 50 мс (названных фреймами), в пределах которых речевой сигнал обладает достаточной стационарностью, измерялись мгновенные характеристики (параметры мгновенного спектра, параметры модели линейного предсказания, мел-частотные кепстральные коэффициенты, логарифмические частотные коэффициенты мощности). Также речевой сигнал сегментировался по признаку «тон/не тон», и для вокализованных звуков оценивались соответствующие характеристики (параметры траектории частоты основного тона и огибающих вокализованных звуков). Наконец, из речевой сигнала с исключенными невокализованными фрагментами с перекрытием 50% выделялись фрагменты длиной 1 с (названные блоками), для каждого из которых оценивались параметры: динамический диапазон, коэффициент пиковости, средняя частота следования вокализованных звуков, относительная длительность вокализованных звуков. Также в масштабе блоков вычислялись статистические характеристики параметров, измеренных в масштабе вокализованных звуков и в масштабе фреймов
В качестве статистических параметров были выбраны: среднее значение, относительный размах вариации, коэффициент вариации. Всего для каждого блока первоначально измерялись 550 признаков.
Особую сложность представляло получение траектории частоты основного тона, свободной от грубых случайных ошибок. Для решения этой задачи был разработан метод оценки траектории частоты основного тона (ЧОТ) речи с использованием первичных оценок, полученных несколькими методами, и процедуры постобработки методом динамического программирования с последующим дополнительным сглаживанием оценок.
Эксперименты по оценке точности разработанного метода выделения траектории ЧОТ показали снижение вероятности грубых случайных ошибок величиной более 20% в 2 и более раз, ошибок более 50% - в 3 и более раз по сравнению с семью методами оценки ЧОТ, использованными для получения первичных оценок.
Поскольку полное число первоначально отобранных признаков составило 550, проблема снижения размерности пространства признаков стояла весьма остро. Попытка применения метода главных компонент для решения этой задачи не дала положительных результатов (лучшая средняя вероятность верного распознавания составила 0,55 при 350 признаках). Поэтому, учитывая применение информационного подхода в задаче классификации, было решено использовать среднюю взаимную информацию в качестве меры статистической взаимосвязи признаков и вектора номеров классов (т.е. вектора, составленного из классов, к которым принадлежат объекты из обучающей выборки).
Отобранные таким образом признаки было решено объединить в группы сильно взаимосвязанных признаков, выделяемые по критерию средней взаимной информации между признаками в каждой группе. Впоследствии из каждой группы отбиралось по одному признаку.
Для вычисления средней взаимной информации использовалось адаптивное квантование значений признаков.
Полученный набор признаков преобразовывался методом главных компонент для того, чтобы дополнительно уменьшить количество признаков.
Выбор набора признаков, оптимального с точки зрения его размера и средней вероятности верного распознавания классов по этим признакам проводился при использовании классификатора типа (классификация методом к ближайших соседей). При распознавании отдельных блоков (окон длиной 1с) наилучшие результаты (средняя вероятность верного распознавания при семи классах 0,82) были получены при использовании 60-ти признаков.
При использовании набора из 60-ти признаков остро встает проблема быстродействия классификатора, оптимального в смысле принципа максимума информации. Для сокращения количества необходимых вычислений и требуемого объема памяти классификатора использовалась процедура укрупнения гипотез, при которой практически совпадающие условные распределения признаков для гипотез Н„ , Н. заменялись одним распределением для укрупненной гипотезы Н, ИЛИ //, ИЛИ Нк ИЛИ.
Дополнительно была реализована процедура сокращения числа областей принятия укрупненных гипотез за счет уменьшения числа порогов. Области, где вероятность ошибки в достаточной мере приближалась к вероятности правильного распознавания, объединялись с соседними областями.
В результате произведенных действий среднее геометрическое число областей принятия укрупненных гипотез составило 2,35. Таким образом, необходимое число ячеек в памяти классификатора составило около 8-105.
Было выяснено, что результат обучения классификатора существенно зависит от стратегии обучения. Наилучшие результаты продемонстрировал признаков между классами. Классификатору предъявляется объект /ь ближайший к центру класса представленного наименьшим числом объектов. Затем предъявляется объект /ь ближайший к центру класса у, ближайшего к г. После этого предъявляется объект к\, ближайший к центру класса к, ближайшего к у, не считая /', и т. д. После предъявления одного представителя от каждого класса классификатору предъявляется объект 12, ближайший к центру класса /, не считая /] и т.д.
Таким образом, в третьей главе был использован предложенный во второй главе подход к решению задачи классификации, а также предложены новые методы оценки параметров сигнала и снижения размерности пространства признаков. Названные методы в совокупности были использованы при разработке структуры системы автоматического интонационного анализа и алгоритмов ее функционирования.
В четвертой главе представлены результаты эксперимента по оценке эффективности автоматического интонационного анализа при помощи разработанной системы.
Для оценки эффективности был проведен эксперимент по распознаванию семи эмоциональных состояний по речи. Для эксперимента использовалась Берлинская база записей эмоциональной речи, содержащая 495 записей речи нескольких дикторов (мужчин и женщин), демонстрировавших семь эмоциональных состояний: злость, отвращение, скуку, страх, радость, нейтральное состояние, огорчение.
Методика эксперимента заключалась в последовательном исключении одной записи из базы, обучении классификатора на 494-х речевых фрагментах и классификации исключенного фрагмента. Затем исключался следующий фрагмент и т.п.
Поскольку в общем случае фрагменты содержали более одной секунды вокализованной речи, и на каждом фрагменте могли быть получены различные оценки, для выбора наилучшей гипотезы использовался метод максимального правдоподобия.
Полученный результат был сопоставлен с результатами аналогичных исследований, где была использована Берлинская база записей эмоциональной речи. По средней вероятности верного распознавания разработанная система превосходит аналогичную систему, распознающую семь эмоций, на 16% (71% против 55%). В одном из недавних исследований при распознавании семи эмоций была достигнута средняя вероятность верного распознавания в 82%, однако в них использовалось 1430 признаков сигнала, что не может не сказаться на быстродействии системы. Также известны системы, распознающие меньшее число (шесть) эмоциональных состояний, близкие и превосходящие по эффективности данную на 4%.
В заключении сформулированы основные выводы по диссертационной работе.
Похожие диссертационные работы по специальности «Радиотехника, в том числе системы и устройства телевидения», 05.12.04 шифр ВАК
Разработка концепции выделения основного тона речи в информационно-измерительных системах реального времени2000 год, доктор технических наук Гитлин, Валерий Борисович
Разработка и исследование системы автоматического выделения основного тона речи2009 год, кандидат технических наук Лузин, Дмитрий Александрович
Исследование и разработка методов формирования решающих правил при классификации фрагментов на полутоновых изображениях2011 год, кандидат технических наук Поцыкайло, Александр Анатольевич
Сегментация речевых сигналов для задач автоматической обработки речи2017 год, кандидат наук Томчук, Кирилл Константинович
Выявление голосовых признаков индивидуальной информативности для использования в речевых системах управления доступом2001 год, кандидат технических наук Во Ван Кханг
Заключение диссертации по теме «Радиотехника, в том числе системы и устройства телевидения», Марьев, Александр Александрович
Выводы
В четвертой главе описан частный случай задачи интонационного анализа - распознавание эмоций по голосу - и приведены результаты экспериментов по распознаванию семи эмоциональных состояний с применением разработанной системы интонационного анализа. Для экспериментов использовалась база речевых записей, называемая Берлинским корпусом эмоциональной речи, материалы которой свободно доступны в сети Интернет. Достигнутая средняя вероятность верного распознавания семи эмоций по 16-ти признакам составила 71%. Данный результат существенно (на 16%) превосходит результаты аналогичного исследования, в котором распознавались 7 эмоциональных состояний, и находится примерно на одном уровне с результатами ряда исследований, в которых использовался Берлинский корпус эмоциональной речи и распознавались 6 состояний.
Заключение
В ходе выполнения диссертационной работы был выявлен недостаток существующих подходов к решению задачи автоматического интонационного анализа, заключающийся в неполном использовании знаний об особенностях восприятия и обработки информации человеком. По-видимому, это обстоятельство является одной из причин неудовлетворительной эффективности существующих систем автоматического интонационного анализа. Недостаточное использование знаний о восприятии и обработке информации человеком проявляется, прежде всего, в формальном подходе к выбору классификатора для интонационного анализа, что наблюдается повсеместно. Этим же обстоятельством могут быть объяснены недостаток априорной информации при формировании первичного набора признаков речевого сигнала и выборе метода снижения размерности данных.
В результате проведения настоящего исследования был предложен метод классификации интонаций, основанный на информационном подходе к распознаванию и учитывающий знания об особенностях восприятия и обработки информации человеком. На основе предложенного метода был разработан классификатор, оптимальный в смысле принципа максимума информации и разработана система автоматического интонационного анализа на его основе.
Был разработан метод оценки траектории частоты основного тона, использующий первичные оценки, полученные несколькими методами, и постобработку методом динамического программирования. Применение нового метода позволило существенно снизить частоту грубых ошибок при малых вычислительных затратах.
Был разработан метод отбора наиболее информативных признаков речи, предполагающий три этапа обработки:
1) отбор признаков по критерию средней взаимной информации с вектором номеров классов;
2) объединение отобранных признаков в группы максимального размера по критерию средней взаимной информации между признаками, отбор по одному признаку из каждой группы;
3) преобразование отобранных признаков методом главных компонент с отсеиванием малоинформативных.
Метод отбора наиболее информативных признаков сигнала показал высокую эффективность и позволил существенно снизить количество признаков при существенном повышении средней вероятности верного распознавания интонации.
Таким образом, можно утверждать, что все заявленные цели исследования были достигнуты.
Дополнительно в ходе исследования были получены следующие результаты:
- Предложен метод кусочно-линейного отображения области значений признаков (метод адаптивного квантования), основанный на априорной статистической информации, который позволил минимизировать потерю информативности при квантовании значений признаков.
- Для обучения классификатора, оптимального в смысле принципа максимума информации, был предложен ряд стратегий, из которых была определена наиболее эффективная.
- Для оценки эффективности предложенной системы интонационного анализа с ее помощью была решена задача распознавания эмоционального состояния диктора по речи. Обучение классификатора и оценка надежности распознавания проводились на материале Берлинского корпуса эмоциональной речи, распознавались семь эмоций.
- Наряду с классификатором, оптимальным в смысле принципе максимума информации, для сравнения использовал классификатор типа к ближайших соседей). Также было проведено сравнение результатов эксперимента по распознаванию с результатами похожих исследований, в которых использовался Берлинский корпус эмоциональной речи. - Сравнение с классификацией методом к ближайших соседей показало несколько меньшую эффективность последнего в сравнении с предложенным методом (средняя вероятность верного распознавания 69% против 71%).
Сравнение с результатами похожих исследований показало существенное (на 16%) улучшение эффективности по сравнению с одним из исследований. При этом средние вероятности верного распознавания шести состояний, приведенные в опубликованных работах, лишь на 4% превышали достигнутую в настоящем исследовании для семи эмоциональных состояний.
Список литературы диссертационного исследования кандидат технических наук Марьев, Александр Александрович, 2012 год
1. Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ. / Под ред. У.Ли. М.: Мир, 1983. - Кн. 1. 328 е., ил.
2. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи. -М.: Радио и связь, 2000 456 е.: ил.
3. O.A. Вишнякова, Д.Н. Лавров, Применение преобразования Гильберта-Хуанга к задаче сегментации речи // Математические структуры и моделирование 2011, вып. 24, с. 12-18
4. Кодзасов С. В., Кривнова О. Ф. Общая фонетика. М.: Изд-во РГГУ, 2001. - 592с.
5. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964. 284 с.
6. Голубинский А.Н., Булгаков О.М. Метод оценки формантных частот, основанный на полигармонической математической модели речевого сигнала // Речевые технологии №3, 2010. С. 29-34
7. Lawrence R. Rabiner and Biing-Hwang Juang Fundamentals of Speech Recognition. Prentice Hall, 1993. - 496 p.
8. Физиология речи. Восприятие речи человеком. Чистович Л.А., Венцов A.B., Гранстрем М.П. и др. Л.: "Наука", 1976. - 388 с.
9. Т. Sobol Shikler, "Analysis of Affective Expression in Speech," PhD dissertation, Cambridge Univ., 2007
10. Автоматическое определение изменений эмоционального состояния по речевому сигналу, Лукьяница A.A., Шишкин А.Г. //Речевые технологии, 2009 №3 С.60-76
11. Peeters, G. "A large set of audio features for sound description (similarity and classification) in the cuidado project," IRCAM, Paris, Tech. Rep., 2004.
12. Ying Sun, Jiemin Yin, Xueying Zhang, Study for Classification of Emotional Speech by using Optimized Frame Zero Crossing with Peak Amplitudes Feature Extraction Algorithm // Journal of Computational Information Systems 2011 Vol. 7 (10): 3508- 3515
13. Алдошина И. Основы психоакустики, часть 17. // Звукорежиссер 2004, № 4.
14. Bjorn Schuller, Ronald Muller, Manfred К. Lang, Gerhard Rigoll: Speaker independent emotion recognition by early fusion of acoustic and linguistic features within ensembles. INTERSPEECH 2005: 805-808
15. Jankowski Jr., C. R., Quatieri, T. F., Reynolds, D. A., Measuring Fine Structure in Speech: Application to Speaker Identification, Proc. ICASSP '95, pp. 325-328, 1995.
16. L. R. Rabiner, M. Cheng, A. Rosemberg, C. McGoegal. A Comparative Performance Study of Several Pitch Detection Algorithms. IEEE Trans, on Acoustics, Speech, and Signal Processing, vol. ASSP-24, №5, 399-418, October 1976.
17. D. Gerhard. Pitch Extraction and Fundamental Frequency: History and Current Techniques, technical report, Dept. of Computer Science, University of Regina, 2003
18. A de Chevigne and H. Kawahara, "Comparative evaluation of F0 estimation algorithms," in Proc. of EUROSPEECH, 2001, pp. 2451-2454.
19. Применение цифровой обработки сигналов. Под ред. Э. Оппенгейма М.: Мир, 1980. - 552 с.
20. Huang X., Acero A., Hon H-W. Spoken Language Processing: a guide totheory, algorithms, and system development, Prentice Hall, NJ, 2001. 965 p.
21. T.L. Nwe, F.S. Wei, L.C. De Silva, Speech Emotion Recognition Using Hidden Markov Models // Elsevier Speech Communications Journal Vol. 41, Issue 4, pp. 603-623, November 2003
22. Прикладная статистика: Классификации и снижение размерности: Справ, изд. / С. А. Айвазян, В. М. Бухштабер, И. С. Енюков, JI. Д. Мешалкин. Под ред. С. А. Айвазяна.- М.: Финансы и статистика, 1989.- 607 с: ил.
23. Эсбенсен К. Анализ многомерных данных. Избранные главы / Пер. с англ. С.В. Кучерявского; Под ред. О.Е. Родионовой. Черноголовка: Изд-во ИПХФ РАН, 2005. - 160 с.
24. Френке JI. Теория сигналов. Нью-Джерси, 1969 г. Пер. с англ., под ред. Д.Е. Вакмана. М.: "Сов. радио", 1974, 344 с.
25. Imola К. Fodor A survey of dimension reduction techniques, Center for Applied Scientific Computing, Lawrence Livermore National Laboratory, Livermore. Tech. Rep., 2002.
26. Факторный, дискриминантный и кластерный анализ: Пер. с англ./Дж.-О. Ким, Ч.У. Мьюллер, У.Р. Клекка и др.; Под ред. И.С. Енюкова. М.: Финансы и статистика, 1989. - 215 е.: ил.
27. Лепский А.Е., Броневич А.Г. Математические методы распознавания образов: Курс лекций. Таганрог: Изд-во ТТИ ЮФУ, 2009. - 155 с.
28. Iliev, Alexander Iliev, "Emotion Recognition Using Glottal and Prosodic Features" (2009). Open Access Dissertations. Paper 515. http://scholarlyrepository.miami.edU/oadissertations/515
29. Дуда P., Харт П. Распозавание образов и анализ сцен. М.: Мир, 1976. -507 с.
30. Theodoros Iliou, Christos-Nikolaos Anagnostopoulos, Classification on Speech Emotion Recognition-A Comparative Study, International Journal on Advances in Life Sciences, vol. 2 no 1 & 2, 2010. pp. 18-28.
31. T.L.Nwe,Analysis and Detection of Human Emotion and Stress from Speech Signals, PhD thesis, Department of Electrical and Computer Engineering, National University of Singapore, 2003
32. Dellaert, F., Polzin, T.,Waibel, A., 1996. Recognizing emotion in speech. In: Proc. Int. Conf. Spoken Language Processing (ICSLP '96). Vol. 3. pp. 19701973.
33. Rahurkar MA, Hansen JHL (2003) Towards affect recognition: an ICA approach. In: Proceedings of 4th international symposium on independent component analysis and blind signal separation (ICA2003), Nara, April 1-4, pp 1017-1022
34. Bagshaw P., "Automatic Prosodic Analysis for Computer Aided Pronunciation Teaching", Unpublished PhD. Dissertation, Univ. of Edinburgh, UK, 1994
35. Н.Э. Хейдоров, Янь Цзинбинь, У Ши, A.M. Сорока, А.А. Трус Классификация эмоционально окрашенной речи с использованием метода опорных векторов //Речевые технологии № 3 2008 С. 63-71
36. Ромашкин Ю.Н., Петров Ю.О. Распознавание пола диктора на основе GMM-модели голоса //Речевые технологии №2 2009 С. 31-38
37. Gudnason, J.: Voice Source Cepstrum Processing for Speaker Identification.1.ndon, Imperial College, Diss., March 2007
38. Марьев А.А. Исследование обнаружения и распознавания акустических сигналов в шумах человеком //Дипломная работа. — Таганрог, 2009
39. Марьев А.А. Исследование процессов обнаружения и распознавания человеком сложных акустических сигналов в шумах // Материалы международной научной конференции "Системы и модели в информационном мире", часть 2, 2009. С. 30-36 Таганрог, изд-во ТТИ ЮФУ
40. Голицын Г.А. Информация и творчество: на пути к интегральной культуре М.: «Русский мир», 1997. - 304 с.
41. Р. Фано Передача информации. Статистическая теория связи. Пер. с англ. -М.: «Мир», 1965.-438 с.
42. Бертсекас Д. Условная оптимизация и методы множителей Лагранжа: Пер. с англ. М.: Радио и связь, 1987. - 400 е.: ил.
43. Nocedal J., Wright S., Numerical Optimization 2nd ed. Springer, 2006, XXII, 664 p.
44. Марьев А.А. Метод интерпретации результатов измерений параметров речевого сигнала в задачах диагностики психоэмоционального состояния человека по его речи // Инженерный Вестник Дона, №4 2011 г. http://ivdon.ru/magazine/archive/n4y2011/538/ 6с.
45. Зайцев В.Ф., Полянин А.Д. Справочник по обыкновенным дифференциальным уравнениям. — М.: Физматлит, 2001. — 576 с.
46. Харкевич, А. А. Борьба с помехами. — 2-е изд., доп. и перераб. — М.: Наука, 1965. —276 с.
47. Chung-Hsien Wu, Ze-Jing Chuang, Emotion Recognition from Speech Using IG-Based Feature Compensation // Computational Linguistics and Chinese Language Processing, Vol. 12, No. 1, March 2007, pp. 65-78
48. M. Kotti, F. Paterno, and C. Kotropoulos, "Speaker-independent negative emotion recognition", in Proc. 2nd Int. Workshop Cognitive Information Processing, Elba Island, Italy, June 2010
49. Метод оценки частоты основного тона речи. Марьев А.А. Технологический институт Южного федерального университета, Таганрог, 2012. — 36 е.—:12 ил. — Деп. в ВИНИТИ 18.04.12, №159 — В2012
50. Рабинер Л., Гоулд Б., Теория и применение цифровой обработки сигналов. Пер. с англ., — М.: Мир, 1978. — 848 с.
51. Сергиенко А.Б., Цифровая обработка сигналов. — СПб.: Питер, 2002. — 608 с.
52. Kenney, J. F. and Keeping, Е. S. "The k-Statistics." §7.9 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 99-100, 1962.
53. Фельдкеллер P., Цвикер Э. Ухо как приёмник информации М.: Связь, 1965. - 104 е.: ил.
54. A new algorithm for instantaneous FO speech extraction based on Ensemble Empirical Mode Decomposition G. Schlotthauer, M. E. Torres, H. L. Rufiner Proc. of the 17th European Signal Processing Conference (EUSIPCO 2009), page 2347—2351 August 24—28 2009
55. Hagmuller, M.,and Kubin, G.: Poincare pitch marks. Speech Communication,. Vol. 48 (2006) 1650-1665.
56. Марьев A.A. Комбинированный метод выделения контура частоты основного тона речи // Материалы Всероссийской научной конференции «Перспективы развития гуманитарных и технических систем» — часть 2 — Таганрог: Изд-во ТТИ ЮФУ, 2011. — С. 46—52
57. Баронин С.П. Автокорреляционный метод выделения основного тона речи. Пятьдесят лет спустя // Речевые технологии 2008. № 2. С. 3-12
58. К. Abdullah-Al-Mamun, F. Sarker, G. Muhammad, A High Resolution Pitch Detection Algorithm Based on AMDF and ACF Journal of Scientific Research; Vol 1, No 3 (2009): Journal of Scientific Research; 508-515
59. Shimamura Т., Kobayashi H. Weighted autocorrelation for pitch extraction of noisy speech // IEEE Trans. Speech Audio Process, 2001, V. 9(7), P. 727-730
60. L.R. Rabiner, M.J. Cheng, A.E. Rosenberg, C.A. McGonegal, A comparative perfomance study of several pitch detection algorithms // IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-24, No.5, Oct. 1976
61. Sylvain Marchand, An Efficient Pitch-Tracking Algorithm Using a Combination of Fourier Transforms Proceedings of the COST G-6 Conference on Digital Audio Effects (DAFX-01), Limerick, Ireland, December 6-8, 2001
62. Рабинер JI.P., Шафер P.B., Цифровая обработка речевых сигналов: Пер. сангл./Под ред. М.В. Назарова и Ю.Н. Прохорова. М.: Радио и связь, 1981.-496 с.
63. Питербарг JI. И. Медианная фильтрация случайных процессов. // Проблемы передачи информации. — 1984. Т. 20, вып. 1. С. 65 - 73.
64. Wendland, H., Piecewise polynomial, positive definite and compactly supported radial functions of minimal degree, Advances in Сотр. Math. 4, 1995, p. 389-396.
65. Levinson N., "The Wiener RMS (root mean square) error criterion in filter design and prediction," J. Mathematical Phys., v. 25, 1947, pp. 261-278.
66. J. Durbin, "The fitting of time series models," Rev. Int. Statist. Inst., 28 (1960), 233-. 243.
67. Пиконе Дж. Методы моделирования сигнала в распознавании речи / Пер. с англ. Р. Попов. Кемерово, 2000. 79 с.
68. Н. Risvik, "Principal Component Analysis (PCA) & NIPALS algorithm", http://folk.uio.no/henninri/pcamodule/pcanipals.pdf, 2007
69. Bron C., Kerbosh J. (1973), Algorithm 457 — Finding all cliques of an undirected graph, Comm. of ACM, 16, p. 575—577
70. Etsuji Tomita, Akira Tanaka, Haruhisa Takahashi (2006), The worst-case time complexity for generating all maximal cliques and computational experiments, Theoretical Computer Science, Vol 363, Issue 1, ISSN:0304-3975, p. 28-42
71. Таблицы математической статистики. Болыиев JI.H., Смирнов Н.В. —
72. М.: Наука. Главная редакция физико-математической литературы, 1983. — 416с.
73. Математические методы и модели в расчетах на ЭВМ: применение в лесоуправлении и экологии. Ю.Ю. Герасимов, В.К. Хлюстов. М.: Изд-во МГУЛ, 2001. 260 с.
74. Р 50.1.037-2002. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. М.: Изд-во стандартов. 2002. - 64 с.
75. Лемешко Б.Ю., Постовалов С.Н. Непараметрические критерии при проверке сложных гипотез о согласии с распределениями Джонсона // Доклады СО АН ВШ. 2002. № 1(5). - С.65-74.
76. Wheeler, Robert Е. (1980): "Quantile estimators of Johnson curve parameters", Biometrika, 67, 3: 725-728
77. Мартынов Г.В. Критерии омега-квадрат. M.: Наука, 1978. - 80 с.
78. Никифоров С.Н., Никифоров Д.С., Виторский И.И., Танюкевич М.С., Практический алгоритм определения темпа речи для использования в контакт-центрах /'/Речевые технологии № 1, 2010. С.5—12
79. Киселев В.В., Об автоматическом определении эмоций по речи //Речевые технологии №1,2010. С.48—52
80. Berlin Database of Emotional Speech, http://pascal.kgw.tu-berlin.de/emodb/
81. Sendlmeier, W. Stimmliche und phonetische Manifestation emotionaler Sprechweise In: H. GeiBner (Hrsg.): Stimmkulturen, Rohrig Universitatsverlag, St. Ingbert, S. 39-49
82. Marc Escalona Mena, Emotion recognition from speech. Erasmus exchange project work. Ljubljana, 2012, http://upcommons.upc.edU/pfc/bitstream/2099.l/15362/l/THESISEMOTION1. SPEECH RECOGNITION.pdf
83. Moataz M. H. El Ayadi, Mohamed S. Kamel, Fakhri Karray, " Speech Emotion Recognition using Gaussian Mixture Vector Autoregressive Models", IEEE International Conference on Acoustics, Speech and Signal Processing, 2007, vol. 4, pp. IV-957-IV-960
84. Марьев A.A. Информационная модель эстетического восприятия // Материалы Всероссийской научной конференции «Актуальные вопросы исследования общественных и технических систем» — часть 1 — Таганрог: Изд-во ТТИ ЮФУ, 2011. С. 51—55
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.