Моделирование эмоциональных реакций пользователя при речевом взаимодействии с автоматизированной системой тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Розалиев, Владимир Леонидович
- Специальность ВАК РФ05.13.01
- Количество страниц 163
Оглавление диссертации кандидат технических наук Розалиев, Владимир Леонидович
Введение.
1 Эмоциональная реакция как иммунный ответ на всякое событие.
1.1 Эмоциональное реагирование.
1.1.1 Анализ психологических, нейрофизиологических, эволюционных, когнитивистких и системных теорий эмоций.
1.1.2 Классификация эмоционального реагирования.
1.1.3 Эмоциональный тон - реакция на ощущение и впечатление. Функции эмоционального тона.
1.1.4 Эмоция - реакция на ситуацию и событие. Функции эмоций.
1.1.5 Чувства как особые эмоции.
1.1.6 Выводы.
1.2 Формализация эмоциональных реакций.
1.2.1 Психологическая формула эмоций.
1.2.2 Эмоции - локальный критерий управления поведением.
1.2.3 Алгебра эмоций.
1.2.4 Дерево эмоций.
1.2.5 Другие формальные модели эмоций.
1.2.6 Выводы.
1.3 Современные технологии определения эмоций.
1.4 Иммунная система как регулятор целостности.
1.4.1 Основные положения теории иммунных систем.:.
1.4.2 Место иммунных систем в искусственном интеллекте и сферы применения.
1.4.3 Преимущества использования иммунной системы.
1.4.4 Модели и алгоритмы, основанные на принципах функционирования иммунных систем.
1.4.5 Выводы.
1.6 Эмоции и иммунный ответ - выявление аналогии.
1.7 Анализ современных технологий распознавания речи.
1.7.1 Процесс восприятия речи.
1.7.2 Анализ современных направлений в исследовании слухового восприятия речевых сигналов человеком.
1.7.3 Анализ программных средств распознавания речи.
1.7.4 Вывод.
1.8 Вывод по главе.
2 Иммунологический подход к моделированию эмоциональных реакций.
2.1 Акустические параметры для определения знака эмоционального тона.
2.1.1 Признаки, характеризующие речевой поток.
2.1.2 Признаки, характеризующие отдельные фразы и слова.
2.1.3 Признаки, характеризующие отдельные звуки.
2.2 Лингвистические параметры.
2.3 Выходные параметры.
2.4 Множество слов русского языка соответствующих эмоциональным состояниям. Методика соотнесения слов с эмоциональными состояниями.
2.5 Функциональные зависимости входов и выходов модели.
2.6 Математическая модель эмоционального тона в виде неспецифического ответа.
2.7 Модель эмоционального тона в виде специфического ответа.
2.8 Модель эмоций.
2.9 Выводы.
3 Алгоритмическое обеспечение для определения и моделирования эмоциональных реакций.
3.1 Основной алгоритм распознавания речи.
3.2 Общий алгоритм определения эмоциональных реакций.
3.2 Алгоритм определения знака эмоционального- тона по акустическим параметрам.
3.3 Алгоритм отбраковки полос.
3.4 Алгоритм нечеткого вывода знака эмоционального тона по фонемам.
3.5 Вывод.
4 Программные средства моделирования эмоциональных реакций.
4.1 Архитектура система автоматизированного распознавания эмоциональности речи.
4.2 Внедрение результатов в экспертно-криминалистическом центре.
4.3 Внедрение результатов в ЗАО «Волгоград-GSM».
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Методы и модели распознавания русской речи в информационных системах2014 год, кандидат наук Гусев, Михаил Николаевич
Разработка и исследование методов повышения эффективности программно-аппаратных вычислительных средств обработки речевых сигналов1999 год, кандидат технических наук Федоренко, Олег Григорьевич
Исследование психофизиологического состояния человека на основе эмоциональных признаков речи2005 год, кандидат технических наук Хроматиди, Александра Феодосиевна
Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов2006 год, кандидат технических наук Юрков, Павел Юрьевич
Разработка и исследование алгоритмов распознавания речи для голосового управления через телефонную сеть2001 год, кандидат технических наук Кисельман, Бронеслав Арнольдович
Введение диссертации (часть автореферата) на тему «Моделирование эмоциональных реакций пользователя при речевом взаимодействии с автоматизированной системой»
В последние годы пристальное внимание уделяется вопросам обработки информации и принятия решений при человеко-компьютерном взаимодействии. Эффективность данного процесса во многом зависит от качества распознавания информации, поступающей от пользователя автоматизированной системы и целенаправленности воздействия человека на объекты исследования. Достижение цели диалогового взаимодействия ЭВМ и пользователя возможно при учете большинства аспектов, характеризующих речевые потоки, возникающие в процессе общения.
Одним из направлений повышения качества обработки информации является определение эмоциональных реакций человека. Компании Nokia, Siemens, Philips, понимая особую важность передачи эмоциональных реакций, включили такую возможность в опытные образцы своих решений. На современном этапе развития информационных технологий разработка методов автоматического определения эмоциональных реакций человека по голосу является актуальной задачей, позволяющей решить ряд экономических, социальных, бытовых проблем и играющей важную, роль в вопросах безопасности.
Эмоциональный речевой сканер необходим в транспортных компаниях и диспетчерских службах для автоматизированного введения ограничений или полного запрета доступа к выполнению служебных обязанностей лиц, находящихся в неустойчивом или неадекватном эмоциональном состоянии. Подобные системы контроля позволят проводить дополнительную проверку пассажиров авиарейсов в рамках мероприятий по противодействию терроризму.
В применении компьютерного распознавания речи и определении ее эмоциональности в первую очередь заинтересованы, компании, внедряющие роботизированные системы в повседневную жизнь людей; а также компании, работающие с большим числом клиентов и желающие перейти на новый уровень общения с ними. Эффективное общение на естественном языке должно сыграть важную роль в мультимедийном обществе будущего с лёгкими в обращении интерфейсами «человек-машина». Применение таких интерфейсов, оставляющих у клиентов ощущение удобства и удовлетворенности при получении информации или услуг в режиме самообслуживания, позволит уже сейчас, при достигнутом качестве работы распознавателей, создать социально значимые системы, внедрение которых сделает доступ населения к услугам и данным более дешевым, удобным и круглосуточным.
Одним из источников определения эмоциональных реакций является речь. Русский язык содержит около 40% эмоционально окрашенных слов. Кроме того, эмоции кодируются определенными акустическими параметрами в речевом сигнале. Понимание этих особенностей акустического кодирования эмоций позволит понять сам механизм восприятия эмоций и их выражения. Основной вклад в изучение эмоций внесли: 3. Фрейд, Ч. Дарвин, Г. Спенсер, Т. Рибо, У. Джеймс, К. Ланге, У. Кэннон, Ф. Бард, JI. Фестингер, К. Изард, Р. Лазарус, А.Н. Леонтьеву П.В. Симонов, Е.П. Ильин, И.Б. Фоминых. В работах Е.Ю. Мягковой, А. Вежбицкой описаны теоретическая и практическая значимость изучения' эмоций как феноменов человеческого сознания в рамках современной когнитивной лингвистики. В работах Ю.С. Степанова, Н.Ф. Дорофеевой рассмотрены основные эмоциональные концепты. Ю.Д. Апресяном проанализированы семантические типы «эмоциональных» метафор (физиологические, когнитивные, культурные) в аспекте выявления, характера соответствия между объектом (эмоции) и источником метафоризации (физические состояния). П.К. Анохиным и его I учениками рассмотрена физиология эмоций. е
Изучение речевых сигналов проводились, многими исследователями. Наибольший, вклад в теорию внесли Г. Фант, Н.В. Витт, В.К. Вилюнас, Л.А. Чистович, А.А. Пирогов, Н.Н. Акинфиев, Ю.Н. Плотников, В.Н. Сорокин и др. Экспериментальные исследования были выполнены Н.А. Дубровским, Н.Г. Бибиковым, Г.С. Ромишвили, Н.Г. Загоруйко, М.В. Фроловым,
В.И. Морозовым, В.Р. Женило и др. Однако, несмотря на большое число работ и проведенных исследований в области распознавания эмоциональных реакций по речи, ряд проблем все еще остаются нерешенными и многие идеи требуют дальнейшего развития. Так, программы, работающие с изолированными словами, достигли высокой точности в командных системах, в то же время задача распознавания слитной речи, несмотря на множество работ посвященных этому вопросу (ИПУ РАН, «Истра-Софт», IBM), в достаточной степени не решена. Хотя для случая ограниченного словаря системы такого типа существуют (VoxReports на ядре ViaVoice, Verbmobil) и показывают высокие результаты по точности. Одним из ограничений создания системы, способной со 100% точностью распознать слитную речь является наличие эмоциональности.
Таким образом, в результате практического рассмотрения и анализа существующих моделей определения эмоциональных реакций по речи выявляется необходимость их модификации и создания новых методов. Данное исследование важно для повышения эффективности распознавания речи, а повсеместное внедрение роботов делает результаты данной работы важными для повышения эффективности взаимодействия человека и машины.
Цель и задачи исследования. Цель диссертационной работы заключается в повышении эффективности обработки информации и принятия решений при человеко-компьютерном взаимодействии за счет автоматизации определения эмоциональных реакций по речевому потоку.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Определить понятия «эмоциональное реагирование», «эмоциональныйтон», «эмоция» на основе анализа существующих теорий эмоций. Проанализировать современные методы определения эмоционального реагирования и методы формального представления1 эмоциональных реакций. Выделить недостатки современных систем распознавания речи в части определения эмоциональных реакций. Проанализировать возможность существования аналогии между эмоциональным реагированием и иммунным ответом организма. Провести анализ иммунологических методов и алгоритмов.
2. Разработать методику определения эмоционального реагирования по речи человека, позволяющую повысить эффективность обработки информации и принятия решений при человеко-компьютерном взаимодействии.
3. Разработать и исследовать модель эмоционального реагирования, основанную на применении иммунологического подхода и нечеткого вывода.
4. Разработать алгоритмическое обеспечение определения эмоционального реагирования по речи человека. Реализовать разработанные формализмы, методику и алгоритмы в виде отдельных модулей, автоматизирующих определение эмоциональных реакций.
5. Провести исследование эффективности разработанного алгоритмического и программного обеспечения при определении различных эмоциональных реакций пользователя автоматизированного са11-центра.
Объектом исследования является речевой поток при различных эмоциональных реакциях.
Предметом исследования являются эмоциональные реакции человека.
Методы исследования. В диссертации использованы методы системного анализа, математического моделирования, иммунных систем, теории алгоритмов, цифровой обработки сигналов, теории нечетких множеств и нечетких продукционных моделей, речеобразования, языков программирования и реляционных баз данных. Разработка программных и информационных средств произведена на основе современных принципов построения программных систем.
Научная новизна состоит в следующем:
Разработаны модели и методы оценки эмоциональных реакций человека по речевому потоку, позволяющие повысить эффективность обработки информации и принятия решений при человеко-компьютерном взаимодействии:
1) Предложена и разработана методика определения знака эмоционального тона по речи: на первом уровне выделяются акустические параметры и по экспериментально полученной функциональной зависимости определяется знак эмоциональной реакции; на втором уровне выделяются слова, характеризующие эмоциональные реакции; на третьем уровне выделяются характеристики фонем четырех гласных звуков и лингвистические переменные, затем на основе нечеткого вывода определяется эмоциональная реакция.
2) Впервые модель эмоционального тона представлена в виде гибридной модели, основанной на применении иммунологического подхода и системы нечетких продукций.
3) Разработана модель построения эмоции человека на основе применения алгебры и дерева эмоций Фоминых И.Б. к описанию эмоциональных тонов.
Положения, выносимые на защиту:
1. Методика определения знака эмоционального тона по речи.
2. Гибридная модель эмоционального тона, построенная,с применением иммунного подхода и нечеткого вывода.
3. Функциональная зависимость между акустическими параметрами речи и эмоциональным тоном.
4. Алгоритм построения нечетких продукций по акустическим параметрам и лингвистическим переменным и вывода по ним значения эмоционального тона.
5. Модель эмоций человека, построенная с применением алгебры и дерева эмоций Фоминых И.Б.
Практическая ценность работы заключается в следующем:
1. Разработанная методика определения эмоциональных реакций по речи позволяет получить знак эмоционального тона, что помогает отслеживать изменения отношения людей к происходящим событиям. Это дает возможность автоматизированной системе эффективно и своевременно реагировать на изменения в состоянии человека, устраняя негативные последствия взаимодействия.
2. Предложенные функциональные зависимости между акустическими параметрами и эмоциональными реакциями важны для повышения эффективности распознавания речи.
3. В результате внедрения методики определения знака эмоциональных реакций и модели эмоционального тона, основанной на гибридизации иммунологического подхода и нечетких продукций, повышается эффективность обработки информации при человеко-компьютерном взаимодействии. Это дает возможность компьютеризированным системам гибко подстраиваться под эмоциональные реакции человека, увеличивая тем самым свои конкурентные преимущества.
4. Разработанная модель построения эмоции человека на основе применения алгебры и дерева эмоций Фоминых И.Б. позволяет находить и описывать эмоции, образованные различными эмоциональными тонами, для которых не существует литературного описания.
Достоверность полученных результатов подтверждается теоретическим обоснованием разработанных подходов, а также результатами исследований созданного программного обеспечения.
Алгоритмическое обеспечение определения и моделирования эмоциональных реакций внедрено в ЭКЦ при ГУВД Волгоградской области, ЗАО «Волгоград-GSM» ТМ СМАРТС, ВолгГТУ.
Апробация работы. Основные положения^ и результаты работы докладывались и обсуждались на: V-ой и VI-ой международных научно-методических конференциях: "Дистанционное обучение - образовательная среда XXI века" (Белоруссия, г. Минск, 10-11 ноября 2005-2007г.); XVIII и XIX международных Интернет-ориентированных конференциях молодых ученых и студентов-по современным проблемам машиноведения (МИКМУС-2006, -2007) (г. Москва, 27-29 декабря 2006 г., 5-7 декабря 2007 г.); VI-ой, VII, VIII, IX международных научно-технических конференциях "Интеллектуальные системы (AIS'06'07'08'09). Интеллектуальные САПР (CAD-2006'07'08'09)" (Россия, Черноморское побережье, Дивноморское, 3-10 сентября 2006-2009 г.); XI-ой региональной конференции молодых исследователей Волгоградской области (г. Волгоград, 8-11 ноября 2006 г.); IX международной научно-практической конференции "Interactive Systems and Technologies: The Problems of Human-Computer Interaction" (г. Ульяновск, 24-28 сентября 2007 г.); 8th International Conference "Pattern Recognition and Image Analysis: New Information Technologies" (PRIA-8-2007) (г. Йошкар-Ола, 8-12 октября 2007 г.); XXXIV международной конференции и дискуссионном научном клубе "Информационные технологии в науке, образовании, телекоммуникациях и бизнесе (IT+SE'07)" (Украина, г. Ялта, 2007 г.); VII-ой международной конференции "Информационные технологии в образовании, медицине и технике" (г. Волгоград, 2007 г.); "Научной сессии МИФИ-2007-2008: Технологии разработки программных систем. Информационные технологии" (г. Москва, 2007-2008 гг.); V-ой международной научно-практической конференции "Интегрированные модели и мягкие вычисления в искусственном интеллекте" (г. Коломна, 28-30 мая 2009 г.); Научно-практической конференции студентов, аспирантов, молодых ученых и специалистов "Интегрированные модели, мягкие вычисления, вероятностные системы и комплексы программ в искусственном интеллекте" (ИММВИИ-2009) (г. Коломна, 26-27 мая 2009 г.), Третьей всероссийской научной конференции «Нечеткие системы и мягкие вычисления» (НСМВ-2009) (г. Волгоград, 2009).
Работа "Модель пользователя и его эмоции" удостоена поощрительной премии на XI-ой Региональной конференции молодых исследователей Волгоградской области (2006 г.).
По теме диссертации опубликовано 25 работ, в том числе: 3 статьи опубликованы в. изданиях, входящих в перечень ВАК; 1 статья в международном журнале; 11 статей в сборниках трудов; 10 материалов конференций.
Структура и содержание диссертационной работы.
Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложений.
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд2010 год, кандидат технических наук Гладышев, Константин Константинович
Разработка адаптивного метода робастного понимания слитной речи на основе интегральной обработки данных2003 год, кандидат технических наук Ронжин, Андрей Леонидович
Методы и алгоритмы аудиовизуального распознавания эмоционального состояния типично и атипично развивающихся детей2023 год, кандидат наук Матвеев Антон Юрьевич
Математические модели и комплекс программ для автоматической оценки качества речевого сигнала2002 год, кандидат технических наук Николаев, Алексей Николаевич
Разработка и исследование метода распознавания фонем русского языка на основе аппарата линейного предсказания2004 год, кандидат технических наук Кисляков, Сергей Викторович
Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Розалиев, Владимир Леонидович
3.5 Вывод
Таким образом, предлагаемое алгоритмическое обеспечение позволяет реализовать модели и методики, предлагаемые в главе 2.
Общий алгоритм определения эмоциональных реакций по речи получает на вход акустический сигнал и происходит квантование сигнала. На блок фильтрации, состоящий из 24 фильтров со значениями фильтруемых частот, подобранными таким образом, что они соответствуют частотам базилярной мембраны, подается оцифрованный сигнал, который разбивается на 24 полосы. Далее каждая из полос просматривается на соотношение сигнал/шум и на уровень энергии спектра. При отношении сигнал/шум меньше 15 децибел или при уровне энергии меньшем, чем медианное значение энергии полосы, полоса отбраковывается. После этого, вычисляются акустические параметры. По вычисленным значениям осуществляется расчет выходных значений, соответствующих эмоциональному тону. При значениях, выходящих за пределы [-3;3], выделяем в речевом потоке слова, характеризующие эмоциональные реакции. Найдя эти слова, рассчитываем на них акустические параметры и определяем знак эмоционального тона. Если же таких слов не было найдено, выделяем из потока речи фонемы звуков [А], [О], [Е], [И]. По каждой из фонем вычисляются определенные нами параметры. По ним, а так же по лингвистическим параметрам, строится база нечетких правил, по которым принимается решение о том, какой эмоциональный тон переживается человеком. В каждый момент времени записывается найденный эмоциональный тон и вычисленные параметры акустических и лингвистических переменных, осуществляя накопление базы знаний эмоциональных тонов. Далее по полученным значениям эмоциональных тонов и их знаков находится эмоция.
4 Программные средства моделирования эмоциональных реакций
4.1 Архитектура система автоматизированного распознавания эмоциональности речи
Архитектура системы приведена на рисунке 4. вп
Подсистема работы с интерфейсом
1 Пццснсчема нцедобпяГинкн снгналаТ О
1 Подсис1см"а определения" эмоции I
ЗПа
Блок Блок Блок выборки квантования фильтрации полос
База iMomiit
Блок определения эмоций
Блок Блок нес псцнфнчес кого специфического ответа ответа Ф 5 j Подсистема определения така jmинициального тона I
Блок нахождении слов
3.
База слов
Блок вычисления акустических параметров -»
Блик нахождения фонем
CZ J
База фонт
Блок определения знака эмоционального тона -?
Клок вычисления параметров фонем
1 эмоциональных тонов—
Ба за нечетких правил
Рисунок 23 - Архитектура системы определения эмоциональных реакций
Система определения эмоциональных реакций состоит из следующих подсистем: подсистема работы с интерфейсом, осуществляет вывод графической и текстовой информации пользователю; подсистема предобработки сигнала, состоит из блока квантования, блока фильтрации, блока выборки полос; подсистема определения знака эмоционального тона, состоит из блока вычисления акустических параметров, блока нахождения фонем, блока нахождения слов, блока определения знака эмоционального тона, блока вычисления параметров фонем и связанных с этим блоками базами слов, фонем, нечетких правил и эмоциональных тонов; подсистема определения эмоций, состоящая из блока неспецифического и специфического ответа, блока определения эмоций и базы эмоций.
4.2 Внедрение результатов в экспертно-криминалистическом центре
Экспертами криминалистического центра при ГУВД Волгоградской области выполнено тестирование разработанного программного обеспечения на серии фонограмм, которое показало эффективность предлагаемой методики определения эмоциональных реакций по речи человека (рис. 24). Автоматизация процесса определения эмоциональности речи позволила существенно повысить производительность труда.
В ходе тестирования одинаковые по сложности фонограммы исследовались с использованием предлагаемой методики и без нее. За 150 минут при ручной обработке было исследовано 6 фонограмм, при этом совершена 1 ошибка.
При автоматизированном способе было исследовано 12 фонограмм, в 2-х случаях определить эмоциональность речи не удалось, что было связано с сильной зашумленностью записи.
160
Время, vim
О О Ручная обработка
9-в Автоматизированная обработка
Рис. 24 Рост количества обработанных фонограм
Нетрудно отметить, что глядя на представленные образцы различных записей эмоциональных состояний, даже визуально можно определить разницу между ними.
Рисунок 25 - Фраза сказанная при эмоциональной реакции 1
Рисунок 25 - Фраза сказанная при эмоциональной реакции 2
4.3 Внедрение результатов в ЗАО «Волгоград-GSM»
Проведенные испытания в ЗАО «Волгоград-GSM» показали повышение эффективности взаимодействия клиентов с автоматизированной системой обработки вызовов (рис. 26). Эффективность тем выше, чем больше звонков обработано и чем меньше времени было потрачено на ожидание. Повышение
127 эффективности было связано с тем, что сильно взволнованные клиенты с отрицательным настроем помещались в начало списка обслуживаемых. Таким образом, удалось решить конфликтные, сложные ситуации еще на стадии их возникновения. Кроме того, были отмечены положительные отзывы операторов еще до приема звонка, проинформированных об эмоциональном состоянии клиента, и пользователей, получивших более качественное обслуживание. о ^ 2 С П п
X в та av о
§
Время, мин О11© Без оценки эмоциональности речи В-В с оценкой эмоциональности речи
Рисунок 26 Рост количества обработанных вызовов о с о
X н к г я: г
9- О О u av о В-В v к о
Время, мин О G Без оценки эмоциональности речи □ О С оценкой эмоциональности речи
Рисунок 27 Рост количества необработанных вызовов
Таким образом, внедрение результатов диссертации позволяет повысить эффективность обработки информации и принятия решений при человеко-компьютерном взаимодействии за счет автоматизации определения эмоциональных реакций по речевому потоку.
Заключение
Обработка информации и принятие решений при человеко-компьютерном взаимодействии является актуальными задачами требующими пристального внимания. Эффективность обработки во многом зависит от качества распознавания информации, поступающей от пользователя автоматизированной системы и целенаправленности воздействия человека на объекты исследования. Одним из направлений повышения качества обработки информации является определение эмоциональных реакций человека. На современном этапе развития информационных технологий разработка методов автоматического определения эмоциональных реакций человека по голосу является актуальной задачей, позволяющей решить ряд экономических, социальных, бытовых проблем и играющей важную роль в вопросах безопасности.
Эмоциональный речевой сканер необходим в транспортных компаниях и диспетчерских службах для автоматизированного введения ограничений или полного запрета доступа к выполнению служебных обязанностей лиц, находящихся в неустойчивом или неадекватном эмоциональном состоянии. Подобные системы контроля позволят проводить дополнительную проверку пассажиров авиарейсов в рамках мероприятий по противодействию терроризму.
Эффективное общение на естественном языке должно сыграть важную роль в мультимедийном обществе будущего с лёгкими в обращении интерфейсами «человек-машина».
Одним из источников определения эмоциональных реакций является речь. Изучение речевых сигналов проводились многими исследователями. Однако, несмотря на большое число работ и проведенных исследований в области распознавания эмоциональных реакций по речи, ряд проблем все еще остаются нерешенными и многие идеи требуют дальнейшего развития. Одним из ограничений создания системы, способной со 100% точностью распознать слитную речь является наличие эмоциональности.
Не смотря на очевидные успехи в области распознавания речи, и многообразия программных и аппаратных продуктов, можно сказать, что у современной науки весьма неясные представления о глубинных процессах, отвечающих за распознавание речи в нашем мозге, так что делать какие-то выводы о качестве систем распознавания мы можем лишь потому, что есть задачи, которые им совсем не под силу. Они не умеют автоматически распознавать язык диктора. Любой человек, хоть раз слышавший итальянскую речь, скорее всего, узнает ее, услышав снова (при этом он может не иметь ни малейшего представления о самом языке). Машина так не умеет, она применяет заложенную в нее языковую модель, независимо от того, на каком языке с ней говорит человек. Они не умеют выделять речь по-настоящему. Качество распознавания в шумном окружении падает чуть ли не вдвое. Главным средством борьбы с шумами являются механизмы подавления, которые эффективны далеко не всегда. Распознавание хоть и проводится с точностью 98%, однако существует оговорка, что результаты будут сильно отличаться для различных пользователей. И, наконец, самое главное. Хотя при распознавании используются элементы синтаксического и семантического анализа, нужно признать, что машины из того, что мы им говорим, ничего не понимают. Именно, поэтому созрела необходимость в создании системы способной распознавать эмоциональность речи. Создание такой системы важно как для роботостроения, где возможность определения эмоционального состояния человека-хозяина, является важной частью коммуникации робота и человека. Так и для людей с ограниченными способностями, позволяя им решить ряд недостижимых сейчас задач, а именно снятию ограничений их коммуникации с другими людьми. Система распознавания эмоциональности речи так, же может получить свое применение в СМИ, где определение того с каким эмоциями выражаются дикторы, является ключом к повышению рейтинга, а, следовательно, повышения конкурентоспособности таких СМИ. Использование такой системы в местах заключения, поможет повысить скорость реакции на возникновение конфликтов, тем самым, повышая эффективность работы охраны. А применение в магазинах, могло бы существенно сократить конфликты между продавцами и покупателями, за счет своевременной реакции старших менеджеров. Использование такой системы в организациях поможет топ-менеджерам понять проблемы своего коллектива, и соответственно своевременно предотвратить межличностные и иные проблемы в коммуникации работников, поможет предотвратить неудачи при проведении переговоров и совещаний. Использование такой системы на телефонах доверия и са11-центрах, могло бы поднять на новый уровень общение операторов и клиентов.
Основным результатом диссертации является создание гибридной модели эмоционального тона, построенной с применением иммунного подхода и нечеткого вывода, методики определения знака эмоционального тона, алгоритмического и программного обеспечения определения эмоциональных реакций пользователя, обеспечивающих повышение эффективности обработки информации и принятия решений при речевом взаимодействии с автоматизированной системой.
Решены следующие задачи:
1. Рассмотрены современные методы определения эмоционального реагирования и методы формального представления эмоциональных реакций. Исследованы системные связи и закономерности функционирования эмоциональных реакций, включающие эмоциональные тона и эмоции. Предложены решения, усовершенствовавшие существующие методы распознавания речи в части определения эмоциональных реакций. Выделены аналогии между эмоциональным реагированием и иммунным ответом организма. Проанализированы методы и алгоритмы теории иммунных систем.
2. Предложена и реализована методика определения эмоционального реагирования по речи человека, позволяющая повысить эффективность распознавания эмоциональных реакций за счет автоматизации процесса.
3. Разработана и исследована модель эмоционального реагирования, впервые использующая иммунологический подход и нечеткий вывод, ориентированная на повышение эффективности управления эмоциональными реакциями за счет применения гибридного подхода.
4. Разработано алгоритмическое обеспечение определения эмоционального реагирования по речи человека. Разработанные формализмы, методики и алгоритмы реализованы в виде программных модулей, автоматизирующих определение эмоциональных реакций. Показано, что разработанные методики и алгоритмы обеспечивают повышение эффективности определения эмоциональных реакций.
5. Показано, что разработанная модель построения эмоции человека на основе применения алгебры и дерева эмоций Фоминых И.Б. позволяет определять и описывать эмоции, образованные различными эмоциональными тонами, для которых не существует литературного описания.
Список литературы диссертационного исследования кандидат технических наук Розалиев, Владимир Леонидович, 2009 год
1. Аграновский А.В., Леднов Д.А. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов. М.: Изд-во «Радио и связь», 2004.- 164 с.
2. Алефиренко Н.Ф. Поэтическая энергия слова: Синергетика языка, сознания и культуры. М.: Academia, 2002. 394 с.
3. Анохин, П.К. Узловые вопросы теории функциональной системы / П.К. Анохин. М.: Наука, 1980. - 290 с.
4. Апресян В.Ю., Апресян Ю.Д. Метафора в семантическом представлении эмоций // Вопр. языкознания. 1993. №3. С. 27-35.
5. Апресян Ю.Д. Лексикографическая концепция Нового Большого англо-русского словаря // Новый Большой англо-русский словарь: В 3 т. 4-е изд., стереотип. М.: Рус. яз., 1999. Т. 1. С. 6-17.
6. Апресян Ю.Д. Образ человека по данным языка: попытка системного описания //Вопр. языкознания. 1995. №1. С. 37-67.
7. Астел. Компьютерные системы. Речевые технологии. Электронный ресурс. [2007].-Режим доступа: http://www.stel.ru/speech/frame.html
8. Ахманова О.С. Словарь лингвистических терминов. М.: Едиториал УРСС, 2004. 576 с.
9. Бабенко Л.Г. Лексические средства обозначения эмоций в русском языке. Свердловск: Изд-во Урал, ун-та, 1989.189 с.
10. Белянин В.П. Введение в психолингвистику. М.: ЧеРо, 1999. 128 с.
11. Борисов В.В., Круглов В.В., Федулов А.С. Нечеткие модели и сети. М.: Горячая линия - Телеком, 2007. - 284с.:ил.
12. Бреслав Г.М. Психология эмоций. М.: Смысл; Издательский центр «Академия», 2004. 544 с.
13. Бусленко, Н.П. Моделирование сложных систем / Н.П. Бусленко. -М.: Наука, 1978.-395 с.
14. Вагин В.Н. Достоверный и правдоподобный вывод в интеллектуальных системах. -М.: ФИЗМАТЛИН, 2004. 704 с.
15. Вежбицкая А. Толкование эмоциональных концептов // Язык. Культура. Познание. М.: Русские словари, 1996. С. 326-375.
16. Величко В.М., Загоруйко Н.Г. Автоматическое распознавание ограниченного набора устных команд // Вычисл. Системы. — 1969. Вып. 36. -С. 101-110
17. Винцюк Т.К. Распознавание слов устной речи методами динамического программирования // Кибернетика. 1968. - №1. - С.81-88.
18. Все о речевых технологиях Электронный ресурс. [2007]. — Режим доступа: http://art.bdk.com.ru/govor/.
19. Дарвин Ч. Сочинения в 12-ти тт. Т.5: Происхождение человека и половой отбор. Выражение эмоций у человека и животных / Под ред. Е.Н. Павловского. M.-JL: Гос. изд-во биолог, и мед. лит-ры, 1940
20. Женило В.Р. Компьютерная фоноскопия. М.: Академия МВД России, 2001.207 с.
21. Жожикашвили В.А. Компьютерные системы массового обслуживания и речевые технологии / В.А. Жожикашвили, Н.В. Петухова, М.П. Фархадов // Проблемы управления. 2006. - №2. - С. 3-7.
22. Зависимость динамики эмоциональной напряженности от индивидуальных свойств личности Электронный ресурс. [1987]. - Режим доступа: http://www.voppsy.ru/issues/1988/886/886130.htm
23. Залевская А.А. Введение в психолингвистику. М.: Рос. гос. гуман. ун-т, 2000. 382 с.
24. Иванов А.И. Биометрическая идентификация личности по динамике подсознательных движений. Электронный ресурс. - [2000]. - Режим доступа: http://beda.stup. ac.ru/biometry/BioMon/TITL.html
25. Изард К. Психология эмоций. СПб.: Питер, 2003. 464 с:
26. Измайлов Ч.А., Черноризов А.М; Психофизиологические основы эмоций. М.: Москов. псих.-соц. ин-т, 2004. 72 с.
27. Изобретена комплексная система распознавания эмоций человека. -Электронный ресурс. [2006]. — Режим доступа:http://wwwjTiobiledevice.m/Facial-recognition-Technology-Christian-Peter-CeBIT-2006.aspx
28. Ильин, 2008 Ильин Е.П. Эмоции и чувства. «Питер», СПб , 2008
29. Искусственные иммунные системы и их применение / Под ред. Д. Дасгупты. Пер. с англ. под ред. А. А. Романюха. М.: ФИЗМАТ ЛИТ, 2006. - 344 с.
30. К классификации эмоций Электронный ресурс. [1990]. - Режим доступа: http://www.voppsy.ru/issues/!991/914/914096.htm
31. Калашников, В.В. Организация моделирования сложных систем / В.В. Калашников. М.: Знание, 1982. - 64 с.
32. Коберник J1.H. Чувства и эмоции в интерпретации русской диалектной метафоры / Диссертация на соискание ученой степени кандидата филологических наук. Томск, 2007
33. Когнитивное моделирование мыслительного процесса и роль эмоций. Электронный ресурс. - [2003]. - Режим доступа: http://fccl.ksu.ru/conf2003/cogmod/sl7.rar
34. Комарцова Л.Г., Максимов А.В. Нейрокомпьютеры. М.: Изд-во МГТУ им. Н. Э. Баумана, 2002
35. Кормен, Т. Алгоритмы: построение и анализ / Т. Кормен, Ч. Лейзерсон, Р. Ривест. М.: МЦНМО, 2001. - 960 с.
36. Кубрякова Е.С. Ономасиология // Лингвистический энциклопедический словарь. М: Сов. энциклопедия, 1990. С. 345-346.
37. Лазарус Р. Теория стресса и психофизиологические исследования // Эмоциональный стресс. Л.: Медицина, 1970. С. 178-207.
38. Леонтьев А.А. Основы психолингвистики. 3-е изд. М: Смысл; СПб.: Лань, 2003.287 с.
39. Леонтьев, А.Н. Деятельность, сознание, личность / А.Н. Леонтьев. — М.: Политиздат, 1975. 90 с.
40. Лурия А.Р. Язык и сознание. Ростов-на-Дону: Феникс, 1998. 416 с.
41. Люблинская В.В. От восприятия отдельных звуков к восприятию речи. // Сборник трудов Второй международной конфернции по когнитивной науке. 2006. - СП-б. - 352-353
42. Мазуренко И.Л. О сокращении перебора в словаре речевых команд в составе систем распознавания речи. В сб.: Интелектуальные системы, т.2, Москва, 1997 г.
43. Марчук Г.И. Математические модели в иммунологии // Вычислительные методы и эксперименты. 3-е изд., перераб. и доп. М.: Наука, 1991.-300 с.
44. Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ./Под ред. У. Ли. -М.: Мир, 1983. Кн. 1. 328 е., ил.
45. Михайлов Д. Что и как мы слышим Электронный ресурс. [2006]. - Режим доступа: http://websound.ru/articles/theory/ear.htm
46. Непрерывное распознавание речи Электронный ресурс. [2004]. -Режим доступа: http://www.agentura.ru/equipment/radio/nepr/
47. Новые идеи молодых ученых в науке XXI века. Интернет-форум магистрантов ВУЗов России. Сборник статей магистрантов. Выпуск IV. -Тамбов: ТОГУП «Тамбовполиграфиздат», 2006. 204 с.
48. Норенков И. П. Основы автоматизированного проектирования/ И. П.Норенков.- М.: МГТУ им. Н.Э. БАУМАНА, 2006.- 450 с.
49. О речевых технология на Cebit и не только Электронный ресурс. -[2004].- Режим доступа: http://kis.pcweek.ru/Year2005/N19/CP1251/Opinions/chaptl .htm
50. Обработка речевых сигналов Электронный ресурс. [2005]. -Режим доступа: http://impb.psn.ru/~sychyov/html/soundOO.shtml
51. Ожегов С.И. и Шведова Н.Ю. Толковый словарь русского языка. М.: АЗЪ, 1994. 928 с.
52. Павлов, И.П. Двадцатилетний опыт объективного изучения высшей нервной деятельности / И.П. Павлов. М., 1951
53. Поспелов, Д.А. Интеллектуальные интерфейсы для ЭВМ новых поколений.- Электронный ресурс. / Д.А. Поспелов. Режим доступа: http://www.raai.org/about/persons/pospelov/pages/interf.doc
54. Прикладные нечеткие системы: Перевод с япон./ К. Асаи, Д. Ватада, С. Иваи и др.; под ред. Т. Тэрано, К. Асаи, М. Сугено. М.: Мир, 2006.
55. Рабинер JI.P., Шафер Р.В. Цифровая обработка речевых сигналов: пер. с англ. М.: Радио и связь. 1981 г.
56. Радзишевский, А.Ю. Основы аналогового и цифрового звука. М.: Издательский дом «Вильяме», 2006. - 288 с.я
57. Рамашвили Г.С. Речевой сигнал и индивидуальность голоса. Тбилиси, 1976; Рамашвили Г.С. Автоматическое опознавание говорящего по голосу. М.: 1981
58. Распознавание речи сегодня и завтра Электронный ресурс. -[2007]. Режим доступа: http://www.speechpro.rn
59. Ратанова, Т.А. Субъективное шкалирование и объективные физиологические реакции человека / Т.А. Ратанова; Науч.-исслед. ин-т общей и педагогической психологии Акад. Пед. Наук СССР. М.: Педагогика, 1990. -216 с.
60. Розалиев, B.JI: Иммунологический подход к моделированиюг эмоций / B.JI. Розалиев // Нечёткие системы и мягкие вычисления (НСМВ-2009): сб. ст. 3-й всерос. науч. конф., 21-24 сент. 2009 г. / ВолгГТУ и др.. -Волгоград, 2009. Т. 2. - С. 233-244.
61. Русский семантический словарь. Толковый. словарь, систематизированный по классам слов и значений. М.: Азбуковник, 1998. Т. I. 807 с.
62. Рутковская Д., Пилиньский М., Рутковский JI. Нейронные сети, генетические алгоритмы и нечеткие системы: Пер. с польск. И.Д. Рудинского. -М.: Горячая линия Телеком, 2007. - 452 е.: ил.
63. Связь акустических параметров с эмоциональной выразительностью речи и пения. Электронный ресурс. - [2003]. - Режим доступа: http://rus.625-net.ru/audioproducer/2003/02/aldo.htm
64. Симонов, П.В. Эмоциональный мозг. Физиология. Нейроанатомия. Психология эмоций / П.В. Симонов. М., 1981.
65. Симонов П.В. Что такое эмоция? Мозговые механизмы эмоций // Лекции о работе головного мозга. М.: ИПРАН, 1998. С. 5-26.
66. Слобин Д., Грин Дж. Психолингвистика. 2 изд. М.: Едиториал УРСС, 2003. 352 с.
67. Смолин Д.В. Введение в искусственный интеллект. 2-е изд., перераб. - М.: ФИЗМАТЛИТ, 2007. - 264 с.
68. Современные технологии распознавания речи Электронный ресурс. [2005]. — Режим доступа: http://www.dialog-21 .ru/Archive/2005/Leonovich%20A/Leonovich%20 A.htm
69. Степанов Ю.С. В мире семиотики // Семиотика: Антология. Изд. 2-е. М.: Академический Проект; Екатеринбург: Деловая книга, 2001. С. 5-42.
70. Таран О., Мирошниченко С., Гуриев В. Ничего никому не скажу//Компьютерра-2005.- №36.-С&С Computer Publishing Limited.-78 с.
71. Тарасов, В.Б. Моделирование психических образов: как совместить дискретное и непрерывное? Электронный ресурс. / В.Б. Тарасов. [1998]. -Режим доступа: http://www.raai.Org/library/ainews/1998/3/TARASOV.ZIP
72. Тихомиров, O.K. Психология мышления / O.K. Тихомиров. — М.: Изд-во МГУ, 1984.
73. Фестингер Л. Теория когнитивного диссонанса. СПб.:. Ювента,1999.
74. Фоминых И.Б. Интеграция логических и образных методов отражения информации в системах искусственного интеллекта Электронныйресурс. / И.Б. Фоминых. 1998]. - Режим доступа: http://www.raai.Org/library/ainews/1998/3/fominyh.doc
75. Фоминых И.Б. Эмоции как аппарат оценок поведения интеллектуальных систем. Десятая национальная конференция по искусственному интеллекту с международным участием КИИ-2006. Труды конференции.
76. Фрумкина P.M. Психолингвистика. М.: Издательский центр «Академия», 2001. 320 с.
77. Хайкин С. Нейронные сети: полный курс, 2-е издание. : Пер. с англ.- М.: Издательский дом «Вильяме», 2006. — 1104 е.: ил.
78. Чекмарев А. Речевые технологии проблемы и перспективы. // Компьютерра, №49 с. 26-43, 1997 г.
79. Шварц, Э. Авторские права на пути Voice XML. / Э. Шварц // Computerworld. 2001. - №36. - С. 17 - 25
80. Эмоции Электронный ресурс. [2005]. - Режим доступа: http://www.inftech.webservis.ru/it/ii/books/book001/07g.htm
81. Эмоции человека Электронный ресурс.: [1980]. - Режим доступа: http://www.psychology-online.net/docs/izard.html
82. Эмоции, как процесс организующий поведение Электронный ресурс. [1999]. - Режим доступа: http://flogiston.ru/library/reic3
83. A Cultural-Psychological Analysis of Emotions Электронный ресурс.- 2000. Режим доступа: http://www.humboldtl.coni/~cr2/emotion.htm
84. A tutorial on hidden Markov models and selected applications in speech recognition Электронный ресурс. [2000]. — Режим доступа: http://www.cs.berkeley.edu/~murphyk/Bayes/rabiner.pdf
85. Adaptive Systems: from intelligent tutoring to autonomous agents Электронный ресурс. [1993]. - Режим доступа: http://www.dcs.napier.ac.uk/~dbenyon/IITpaper.pdf
86. Affect in Interactions: Towards a New Generation of Interfaces Электронный ресурс. [1999]. - Режим доступа: http://gaiva.inesc.pt/i3ws/i3workshop.html
87. Affective Computing Group. Электронный ресурс. - [2007]. -Режим доступа: http://affect.media.mit.edu/projects.php
88. Affective Computing: техника не разделяет наши чувства. -Электронный ресурс. [2003]. - Режим доступа: http://kainsk.tomsk.ru/g2003/other22/texnika.htm
89. Bridle J.S., and Brown M.D. Connected word recognition using whole word templates // Proc. Inst. Acoust. Autumn Conf. 1979. - P. 25-28
90. Broersma M. Speech recognition begins to makes itself heard. // news.zdnet.co.uk, October 2003
91. Call-центры, распознающие эмоции Itnews. — Электронный ресурс. — [2006]. - Режим доступа: http://itnews.com.ua/27702.html
92. Cocer M.J. An improved isolation word recognition system based upon the linear prediction residual // IEEE Trans / Acoustics, Speech, Signal Proc. 1976. - Vol. ASSP-24. - P.206 - 209.
93. Dagupta, D. Immunological computation: theory and applications / Dipancar Dasgupta and Luis Fernando Nino, Auerbach Publications 2009
94. Emotive Alert распознает эмоциональное состояние говорящего. -Электронный ресурс. [2005]. - Режим доступа: http://www.cnews.ru/newsline/index.shtml72005/01/13/172581
95. Fant G. Speech acoustics and phonetics / G. Fant, Kluwer Academic Pulishers 2004
96. Golitsyn and other, 1995 Golitsyn G. A., Petrov V. M. Information and Creation. — Basel :Birkhauser Verlag, 1995.
97. Hawkins, S., House, J., Huckvale M., Local J., Ogden R. "ProSynth: An Integrated Prosodic Approach to Device-Independent, Natural sounding Speech Synthesis", International Conference Speech and Language Processing, 1998
98. Hebb D.O. Emotional Disturbance // The Nature of Emotion. Harmondsworth: Penguin Books, 1969. P. 141-154
99. Hozjan V., Zdravko K. "Improved Emotion recognition with Large Set of Statistical Features", Eurospeech 2003, 2003.
100. J.P. Hosom, R. Cole, and M. Fanty. Speech Recognition Using Neural Networks at the Center for Spoken Language Understanding. //Center for Spoken Language Understanding, Oregon Graduate Institute of Science and Technology, July 1999.
101. J.-J.Ch. Meyer, 'Reasoning about emotional agents', in Proceedings of ECAI'04, pp. 129—133. IOS Press, (2004).
102. J.-J.Ch. Meyer,W. v.d. Hoelc, and B. v. Linder, 'A logical approach to the dynamics of commitments', Artificial Intelligence, 113, 1-40, (1999).
103. J. Gratch and S. Marsella, 'A domain-independent framework for modeling emotions', J. of Cognitive Systems Research, 5(4), 269—306, (2004)
104. Microsoft Speech Электронный ресурс. [2007]. - Режим доступа: http://www.microsoft.com/speech/
105. Morozov V.P. Emotional expressiveness of the Singing Voice: the role of macrostructural and micro structural modifications of spectra // Scand Journ. Log. Phon. MS. — № 150, 1996. —P. 1-11.
106. Noguerias A., Moreno A., Bonafonte A., Marino J. В., "Speech emotion Recognition Using Hidden Markov Models", Eurospeech 2001, 2001.
107. Nuance The Leading Supplier of Speech Recognition Электронный ресурс. - [2007].-Режимдоступа: http://www.dragonsys.com116.0'Rorke, P. & Ortony, A. (1994). Explaining emotions. Cognitive Science, 18,283-323.
108. Philips. Speech SDK Электронный ресурс. [2007]. - Режим доступа: http://www.philips.com/speechrecognition/
109. Plutchik R. Emotions, Evolution, and Adaptive Processes // Feelings and Emotions. New York: Academic Press, 1970. P. 3-24.
110. Quinlan J. R. C4.5: programs for machine learning. Morgan Kaufmann,1993.
111. Recognition of Emotional and Cognitive States Using Physiological Data. Электронный ресурс. - [2007]. - Режим доступа: http://citeseer.ist.psu.edu/367826.html
112. Sakakibara Y., "Recent advances of grammatical inference", Theoretical Computer Science 185, pp 15-45, 1997.
113. Sakoe H., and Chiba S. Dynamic programming algorithm optimization for spoken word recognition // Ibid. 1978. - Vol. ASSP-26 (1). - P. 43-49
114. Schachter S., Singer J.E. Cognitive, social, and physiological determinants of emotional state // Physiological Review. 1962. №69. P. 379-399
115. Sempere J. M., Lopez D. "Learning decision trees and tree automata for a syntactic pattern recognition task", 1st Iberian Conference on Pattern recognition and Image Analysis, 2003.
116. Sensory, Inc. Embedded Speech Technologies including Recognition, Synthesis, Verification, and Music Электронный ресурс. [2007]. - Режим доступа: http://www.sensoryinc.com
117. Siemens снабдила мобильный телефон эмоциями. Электронный ресурс. - [2005]. - Режим доступа: http://www.cnews.ru/newsline/index.shtml72005/04/ll/177070/
118. Speech recognition chips Электронный ресурс. [2007]. - Режим доступа: http://www.ptmc.com.tw
119. Spirit DSP. Embedded voice experience Электронный ресурс. -[2007]. Режим доступа: http://www.spiritdsp.com
120. Steunebrink, B.R., Dastani, М.М. & Meyer, J-J.Ch. (2008). A Formal Model of Emotions: Integrating Qualitative and Quantitative Aspects. In G. Mali,
121. C.D. Spyropoulos, N. Fakotakis & N. Avouris (Eds.), Proc. 18th European Conference on Artificial Intelligence (ECAI'08) (pp. 256—260). Greece/Amsterdam: Patras / IOS Press
122. Toivanen J., Seppanen Т., Vayrynen E. Automatic recognition of emotions in spoken Finnish : preliminary results and applications, http://www.mediateam.oulu.fi/publications/pdf/404.pdf
123. Voice Extensible Markup Language (VoiceXML) Version 2.0 Электронный ресурс. [2007]. - Режим доступа: http://www.w3 ,org/TR/voicexml20/
124. Workshop on Grounding Emotions in Adaptive Systems Электронный ресурс. [1998]. - Режим доступа: http://www.ai.univie.ac.at/;paolo/conf/sab98/
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.