Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи тема диссертации и автореферата по ВАК РФ 05.11.17, кандидат технических наук Калюжный, Михаил Васильевич
- Специальность ВАК РФ05.11.17
- Количество страниц 179
Оглавление диссертации кандидат технических наук Калюжный, Михаил Васильевич
ВВЕДЕНИЕ.
ГЛАВА 1. ТЕХНИЧЕСКИЕ СРЕДСТВА РЕАБИЛИТАЦИИ ЛЮДЕЙ
С НАРУШЕНИЯМИ ЗРЕНИЯ.
1.1. Проблема реабилитации слепых и слабовидящих.
1.2. Пути "решения проблемы реабилитации слепых и слабовидящих
1.3. Электронные компенсационные TCP слепых и слабовидящих.
1.3.1. Аппаратные средства реабилитации.
1.3.2. Программные средства реабилитации.
1.3.3. Автономные средства реабилитации.
1.4. Оценка эффективности TCP.
1.5. Качество синтезируемой речи как фактор эффективности средств реабилитации.
1.6. Постановка задач диссертации.
Выводы по главе 1.
ГЛАВА 2. МОДЕЛИ ПРОСОДИИ РЕЧЕВОГО СИГНАЛА.
2.1. Классификация речевых сигналов.
2.2. Влияние строения голосового аппарата на характеристики естественной речи.
2.3. Элементы речевого сигнала.
2.4. Частотная характеристика источника возбуждения PC.
2.5. Характеристики речевого тракта. Форманты.
2.6. Распределение пауз в речевом сигнале.
2.7. Методы синтеза речи.
2.8. Просодическая параметризация в системах синтеза речи.
2.9. Общая характеристика слуха как аппарата восприятия PC.
2.10. Эмоции и их проявления в речи.
2.11. Методика получения образцов эмоционально окрашенного PC.
2.12. Методика пофонемной оценки эмоциональности образцов PC
2.13. Локализация эмоциональной компоненты в PC.
2.14. Эмоциональная разборчивость зашумлённого речевого сигнала
Выводы по главе 2.
ГЛАВА 3. РАЗРАБОТКА И ИССЛЕДОВАНИЕ МОДЕЛИ
ЭМОЦИОНАЛЬНЫХ ПРОЯВЛЕНИЙ В РЕЧЕВОМ СИГНАЛЕ
3.1. Параметрическое описание PC.
3.2. Выделение периодов основного тона.
3.3. Определение сегментов и их границ.
3.4. Выбор функции аппроксимации.
3.5. Дополнение модели просодии параметрами сегментов.
3.6. Шаблонное представление сегментируемых участков.
3.7. Средние значения параметров сегментов как признак эмоциональности.
3.8. Карта принадлежности сегментов.
3.9. Изменение параметров шаблонных сегментов.
3.10. Кластеризация параметров шаблонных сегментов в соответствии с эмоциональностью фонем.
3.11. Коррекция просодических характеристик PC изменением отношений параметров шаблонных сегментов.
3.12. Кластеризация параметров шаблонных сегментов в скорректированных образцах.
Выводы по главе
ГЛАВА 4. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ МЕТОДА КОРРЕКЦИИ
ПРОСОДИИ РЕЧЕВОГО СИГНАЛА
4.1. Система реабилитации незрячих и слабовидящих с коррекцией параметров синтезируемого речевого сигнала.
4.2. Форматы представления данных при анализе и коррекции ЭОР
4.3. Звуковой редактор "Sound".
4.4. Функции сегментации вокализованного участка.
4.5. Алгоритм сегментации.
4.6. Алгоритм вычисления шаблона.
Выводы по главе 4.
Рекомендованный список диссертаций по специальности «Приборы, системы и изделия медицинского назначения», 05.11.17 шифр ВАК
Управление просодией при синтезе речи по печатному тексту2000 год, кандидат технических наук Мещеряков, Роман Валерьевич
Разработка и исследование методов повышения эффективности программно-аппаратных вычислительных средств обработки речевых сигналов1999 год, кандидат технических наук Федоренко, Олег Григорьевич
Просодия фразы в корейской региональной разновидности английского языка2011 год, кандидат филологических наук Шевчук, Нелли Михайловна
Просодическая организация ораторской речи: на материале литургической проповеди2009 год, кандидат филологических наук Рослова, Екатерина Юрьевна
Модель и алгоритмы анализа и сегментации речевого сигнала2007 год, кандидат технических наук Конев, Антон Александрович
Введение диссертации (часть автореферата) на тему «Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи»
Современное общество, следуя в своём развитии принципам гуманизма, должно обеспечивать равные права и возможности каждому человеку. Поэтому актуальной проблемой является реабилитация инвалидов и просто людей с ослабленным здоровьем. Согласно определению ВОЗ, «реабилитация — это координированное применение медицинских, социальных, педагогических и профессиональных мероприятий в целях подготовки (переподготовки) индивидуума на оптимум активной жизнедеятельности и трудоспособности» [1]. Современная медицина рассматривает реабилитацию людей с ограниченными возможностями как комплексный процесс, состоящий из нескольких этапов и включающий в себя множество аспектов.
Актуальность темы. Весьма распространённой патологией являются нарушения зрения различного генеза. Для людей с нарушениями зрения приI менение различных технических средств' является традиционным, распространённым и наиболее эффективным способом реабилитации. В тоже время возможность и эффективность использования того или иного технического средства реабилитации (TCP) зависит от множества факторов, среди которых основными являются характер и степень патологии, а также степень важности задач, решаемых в процессе реабилитации.
Реабилитация людей с нарушениями зрения обычно направлена на решение таких задач, как обеспечение возможности ориентироваться в пространстве и самостоятельно передвигаться, обслуживать себя в быту, заниматься профессиональной деятельностью, общаться с другими людьми, получать информацию из внешних источников и передавать информацию вовне. Таким образом, основной задачей реабилитации слепых и слабовидящих является восстановление информационного обмена между реабилитируемым лицом и внешним миром, нарушенного вследствие зрительной патологии.
Анализ средств реабилитации позволяет выделить два основных подхода к проблеме:
1. Коррекцгюнный подход — восстановление, коррекция или поддержание на приемлемом уровне функций, утраченных либо ослабленных ввиду патологии.
2. Компенсационный подход — использование возможностей других функциональных систем организма для компенсации функциональной недостаточности поражённой системы.
Так, при реабилитации людей с нарушением зрения первый подход реализован в применении TCP, позволяющих увеличить резкость, размер или контраст изображения и тем самым дать возможность человеку воспринимать информацию визуально. К таким средствам относятся очки, контактные линзы, оптические увеличители и проч. Второй-подход в данном случае подразумевает использование других каналов восприятия - осязания и слуха, и построен на применении рельефных изображений, специальных рельефных шрифтов, а также звуковых сигналов, главным образом речи.
В последние годы происходит интенсивное развитие речевых технологий, ставшее возможным благодаря развитию вычислительной техники, появлению технологий Multimedia, распространению мобильной связи, появлению новых классов мобильных устройств. Синтез и распознавание речи перестают быть экзотикой, становясь базовыми функциями операционных сис- ■ тем современных компьютеров и других электронных устройств.
В условиях всё возрастающего объёма информации, с которым приходится иметь дело современному человеку, одной из важнейших проблем является оптимальная организация взаимодействия между человеком и информационной средой. В свете этого выглядит перспективным использование речевого интерфейса в качестве дополнительного канала обмена информацией. Однако более важным направлением является применение речевого интерфейса людьми с ограниченными возможностями, например с заболеваниями органов зрения или опорно-двигательного аппарата.
Научно-техническая революция и развитие информационных технологий, повсеместное распространение персональных компьютеров и других классов цифровых вычислительных и коммуникационных устройств отчасти способствовали решению проблемы реабилитации, предоставив людям с различными физическими ограничениями новые возможности для работы, образования, получения информации, общения и отдыха, но вместе с тем породили и новые проблемы.
Так, для людей с ослабленным зрением работа на компьютере, использующим для вывода информации алфавитно-цифровой или графический дисплей, сопряжена с большими трудностями, а иногда и просто невозможна. Поэтому весьма актуальной представляется разработка и внедрение специальных средств реабилитации, позволяющих людям с ослабленным зрением пользоваться (компьютером, не испытывая неудобств.
Проблемная ситуация заключается^ том, что существующие системы синтеза речи не пригодны для длительного использования, поскольку синтезируемый ими речевой сигнал звучит несколько неестественно, что при продолжительном прослушивании негативно' влияет на человека. Проведённые исследования показали, что при длительном прослушивании синтезированной речи у человека значительно ослабевает внимание, появляется ощущение усталости и дискомфорта. Всё это говорит о низкой эргономичности современных речевых интерфейсов.
Разрешение противоречия между требованиями, предъявляемыми к системам синтеза речи и существующими технологиями возможно путём создания качественно новых моделей, позволяющих более полно описывать речевой сигнал, учитывая его характеристики, влияющие на восприятие его слушателями.
Проведённый анализ показывает, что одним из важнейших факторов, влияющих на восприятие речи слушателем и несущим немалую информационную нагрузку, является эмоциональный окрас речи. В то же время моделей, описывающих проявление эмоций в речи* до сих пор не создано. Попытки моделирования эмоционально окрашенной речи (ЭОР) активизировались в последние годы. Это можно объяснить изменившимся взглядом на перспективы применения речевых технологий, а также значительным ростом доступных вычислительных ресурсов.
Целью работы является создание моделей, алгоритмов и программного обеспечения, позволяющего синтезировать естественно звучащий речевой . сигнал, и разработка на их основе системы реабилитации слабовидящих.
Задачи исследования. Для достижения поставленной цели в диссертации необходимо решить следующие задачи:
1. Выполнить функционально-структурный анализ существующих подходов к решению задачи реабилитации незрячих и слабовидящих, а также способов их реализации в современных TCP.
2. Выполнить анализ роли и места средств речевого вывода в TCP, способов формирования PC и методов оценки качества PC.
3. Определить параметры, позволяющие количественно описывать характеристики, влияющие на качество сигнала. Разработать алгоритмы, оценки и модификации^ параметров, определяющих различие естественного и искусственного речевых сигналов.
4. Разработать методику и провести экспериментальные исследования с целью получения образцов PC с заданными характеристиками; а также с целью оценки характеристик естественных и модифицированных PC.
5. Разработать алгоритмическое и программное обеспечение для анализа и коррекции просодических характеристик PC, обеспечивающее синтез естественно звучащей эмоционально окрашенной речи.
6. Разработать архитектуру программной системы реабилитации слабовидящих на основе созданных моделей и алгоритмов синтеза естественно звучащей речи, выполнить экспериментальную проверку новых моделей и алгоритмов.
Методы исследования. Для решения' поставленных задач в качестве базовой методологии, являющейся основой исследования, в работе использовались методы структурного системного анализа. Также в работе использовались методы обработки сигналов, теории вероятностей и математической статистики, теории нечётких множеств, методы кластерного анализа, теории биотехнических систем и элементы психологии эмоций. Новые научные результаты:
1. Информационная модель просодии, описывающая взаимосвязи между факторами, характеристиками и параметрами для естественного и для синтезируемого речевого сигнала.
2. Экспериментальная методика получения образцов PC, различающихся по эмоциональному окрасу.
3. Методика пофонемной оценки эмоциональности речевого сигнала.
4. Экспериментально • подтверждённая гипотеза о локализации эмоциональной компоненты на гласных и вокализованных звуках PC.
5. Сегментарная модель представления вокализованных участков PC. Практическая ценность работы:
1. Алгоритм коррекции эмоционального окраса речи путём изменения, па-раметров^сегментарной модели PC.
2. Программное обеспечение для коррекции просодических, в т.ч. эмоциональных характеристик PC на основе сегментарной модели, позволяющее проводить сегментацию PC, вычислять параметры шаблона, их приращения и отношения, редактировать значения параметров, работать с файлами параметров, синтезировать PC по заданным параметрам.
3. Компоненты ПО для речевых движков, реализующие коррекцию эмоциональных характеристик присинтезе речи.
4. Результаты экспериментальных исследований, подтверждающие достоверность предложенных методик, моделей и алгоритмов.
5. Архитектура программной системы реабилитации слабовидящих на базе приложения типа «Голосовой менеджер» и речевого движка, реализую» щего синтез речи на основе настраиваемой сегментарной модели. Внедрение результатов. Результаты диссертационной работы внедрены в ОАО НПП "ЭРГОЦЕНТР" (г. Тверь) ; внедрены в НПО «Вымпел» (г. Тверь); создан учебный стенд, используемый в учебном процессе Тверского государственного технического университета.
Апробация результатов работы. Научные и практические результаты диссертационной работы докладывались и обсуждались в 2005-2008 годах на V Международной научно-технической конференции «Электроника и ин-форматика-2005» (МИЭТ, Зеленоград, 2005), на «Научной сессии МИФИ-2008» (МИФИ (ГУ), Москва, 2008) и на XXI Международной НТК «Математические методы в технике и технологиях (ММТТ-21)» (СГТУ, Саратов, 2008).
Основные положения, выносимые на защиту:
1. Возможно управление эмоциональной характеристикой синтезируемой речи путём изменения параметров гласных фонем.
2. Сегментарная модель позволяет описывать гласные участки речевого сигнала без потери качества.
3. Методика коррекции параметров шаблонных сегментов позволяет изменять эмоциональный окрас речи, сохраняя индивидуальные особенности голоса.
Публикации. Основные теоретические и практические результаты диссертации опубликованы в 7 работах, среди которых 1 публикация в ведущих рецензируемых изданиях, рекомендованных в действующем перечне ВАК, а также 2 статьи в других журналах и изданиях, 3 публикации в трудах международных научно-технических конференций, Основные положения защищены 1 свидетельством на программу для ЭВМ.
Структура и объем работы. Диссертация состоит из введения, 4 глав с выводами, заключения, списка литературы и приложений. Основное содержание работы изложено на 137 страницах машинописного текста, 32 рисунках, 29 таблицах, 2 приложениях. Список использованной литературы включает 69 наименований, среди которых 38 отечественных и 31 иностранных авторов.
Похожие диссертационные работы по специальности «Приборы, системы и изделия медицинского назначения», 05.11.17 шифр ВАК
Просодия английской фразы в речи носителей китайского языка2011 год, кандидат филологических наук Полянская, Марина Александровна
Оценка параметров дикторонезависимых признаков фонем с применением адаптивного частотно-временного анализа2005 год, кандидат технических наук Киселев, Алексей Николаевич
Актуализация общекоммуникативного смысла высказывания в устном неподготовленном дискурсе2002 год, кандидат филологических наук Климова, Валентина Николаевна
Просодические средства защиты смысловой информации: экспериментально-фонетическое исследование в области стеганографии2011 год, кандидат филологических наук Салагай, Марина Олеговна
Модели речевых сигналов для аутентификации личности по голосу2010 год, доктор технических наук Голубинский, Андрей Николаевич
Заключение диссертации по теме «Приборы, системы и изделия медицинского назначения», Калюжный, Михаил Васильевич
Выводы по главе 4:
1. Разработана структура программной системы реабилитации, включающая приложение типа «Голосовой менеджер» и речевой движок оригинальной архитектуры. Система позволит незрячим и слабовидящим пользователям работать на персональном компьютере с любыми приложениями, имеющими стандартный программный интерфейс, не требуя специальных дорогостоящих устройств. Это делает работу с компьютером доступной для широкого круга пользователей с патологиями зрения.
2. Разработана структура речевого движка, позволяющая синтезировать естественно звучащую речь, используя модель эмоционального настроя диктора и алгоритм MSH-коррекции просодических характеристик PC.
3. Создано ПО, позволяющее анализировать и модифицировать PC путём вычисления и редактирования параметров сегментов.
4. Разработаны форматы файлов для хранения результатов сегментации, параметров шаблонов, их приращений и отношений.
5. Созданы свободно распространяемые классы функций для преобразования PC из WAV-формата в форматы SEG, SHA, ASH, MSH и обратно. Классы предназначены для включения поддержки сегментарной модели в ПО сторонних разработчиков.
ЗАКЛЮЧЕНИЕ
1. Выполнен анализ технических средств реабилитации незрячих и слабовидящих, определена роль речевого синтеза. Установлено, что применение синтеза речи в TCP сдерживается недостаточным качеством получаемого сигнала. Синтезированный сигнал, имея хорошую разборчивость, звучит недостаточно естественно, что обусловлено его неадекватной просодией.
2. Разработана информационная модель просодии PC, включающая факторы, характеристики, параметры и связи между ними. Основными факторами просодии являются смысл, вкладываемый в высказывание говорящим, его дикция и эмоциональное состояние. Установлено, что в большинстве систем синтеза речи по тексту при формировании просодических параметров в той или иной мере учитываются факторы дикции и смысла, а эмоциональный фактор игнорируется ввиду сложности и малой изученности. Поэтому для повышения качества синтезируемой речи путём улучшения её естественности требуется исследование влияния эмоций на характеристики речи и разработка модели, описывающей эмоциональные проявления в PC.
3. Проведены исследования эмоциональных проявлений в PC. Разработана и реализована методики получения и экспертной оценки образцов-PC, обладающих различной эмоциональной характеристикой. Выдвинута и экспериментально подтверждена гипотеза о локализации эмоциональной компоненты на гласных и отчасти на вокализованных звуках PC. Разработана методика пофонемной оценки образцов PC.
4. Разработана сегментарная модель представления вокализованных участков PC, позволяющая компактно и адекватно описывать гласные и вокализованные согласные во временной области. Параметры сегментарной модели интегрированы в модель просодии, что позволяет, изменяя параметры сегментов, управлять просодией PC, в том числе его эмоциональным окрасом.
5. Предложен способ шаблонного представления, позволяющий описывать динамику параметров сегментов в последовательности периодов основного тона, составляющих гласный или вокализованный участок PC. Установлена зависимость между средними значениями параметров шаблонных сегментов-и эмоциональным состоянием диктора, позволяющая использовать средние значения в качестве признака эмоциональности PC.
6. Разработан и опробован алгоритм коррекции просодических характеристик PC (прежде всего, эмоционального окраса и интонации) на основе изменения отношений параметров шаблонных сегментов (MSH-коррекция). Найдены наилучшие для выполнения MSH-коррекции размеры шаблонов большинства гласных фонем. Достоверность алгоритма MSH-коррекции подтверждена результатами кластерного анализа выборки, включающей исходные (нейтральные), эталонные (эмоциональные) скорректированные (с возросшей в результате эмоциональностью) образцы речевого сигнала.
7. Создано.ПО для анализа и модификации PC путём вычисления и редактирования параметров сегментов. Разработаны форматы файлов» для,хранения результатов сегментации, параметров шаблонов, их приращений и отношений. Созданы свободно распространяемые классы функций для преобразования PC из WAV-формата в форматы SEG, SHA, ASH, MSH и обратно.
8. Разработана архитектура программной системы реабилитации слабовидящих, включающая модуль "Голосовой менеджер" и речевой движок, позволяющий синтезировать естественно звучащую речь, используя модель эмоционального настроя диктора и алгоритм MSH-коррекции просодических характеристик PC. Система позволяет незрячим и слабовидящим пользователям работать на персональном компьютере с любыми приложениями, имеющими стандартный программный интерфейс, не требуя специальных дорогостоящих устройств. Это делает работу с компьютером доступной для широкого круга пользователей с различными патологиями зрения.
Список литературы диссертационного исследования кандидат технических наук Калюжный, Михаил Васильевич, 2009 год
1. Community-Based Rehabilitation and the Health Care Referral Services: A Guide for Programme Managershttp://www.who.int/gb/ebwha/pdffiles/WHA5 8/WHA5 823 -en.pdf
2. Дорничев B.M и др. Реабилитация в здравоохранении. Обоснование и структурная концепция./ Журнал «Мир медицины» №11-12 2001 г.
3. ГОСТ P 50840-95. Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости.
4. Вахитов ЯШ. Слух и речь. Л.: ЛИКИ, 1973.
5. Секунов Н. Обработка звука на PC. СПб.: БХВ-Петербург, 2001%.
6. Калинцев Ю. К. Разборчивость речи в цифровых вокодерах. М.: Радио и связь, 1991.
7. Михайлов В.Г., Златоустова Л. В. Измерение параметров речи. / Под ред. М.А. Сапожникова. -М.: Радио и связь, 1987.
8. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964.
9. Маркел Дж., Грей А. Линейное предсказание речи. — М.: Связь, 1980.
10. Деркач М.Ф. и др. Динамические спектры речевых сигналов.- Львов: Вища школа, Изд-во при Львовском ун-те, 1983.
11. Физиология человека. Под ред. Покровского В.М., Коротько Г.Ф. М.: Медицина, 1997;
12. Крейчи С. Синтез речи, или история говорящих машин./Журнал «Компьютерра» №15(293), 1999.
13. Кузнецов В. И., Скрелин П. А. Естественность синтезированной речи// Бюллетень Фонетического фонда русского языка. Л.: Бохум, № 5, 1994, с. 72-81.
14. Глоссарий русской фонетики. http://www.philol.msu.ru/rus/galya-1/glossar.htm
15. Кривнова О.Ф. Генерация тонального контура фразы в системах автоматического синтеза речи. // Труды Международного семинара Диа-лог'2003 по компьютерной лингвистике и её приложениям, 2003.
16. Калюжный М.В. Исследование проявлений эмоций в речевом сигнале. Вестник Тверского государственного технического университета: Научный журнал Тверь: ТГТУ, 2005. Вып. 7. 196 е.; стр. 102-106.47. http://www.genius.ru/Product.aspx?ProductID=2543&archive=0
17. Фельдкеллер Р., Цвикер Э. Ухо как приёмник информации. Пер. с нем. В.И. Кули и Е.Г. Семёнова. М.: Связь, 1965.
18. Fletcher Н. Auditory patterns. // Reviews of Modern Physics, vol. 12, 1940, p.p. 47-65.
19. ISO 226:2003 Acoustics Normal equal-loudness-level contours. http://www.iso.org/iso/en/CatalogueDetailPage.CatalogueDetail7CSNTJMBE R=34222
20. Алдошина И. Основы психоакустики. Громкость.// Журнал «Звукорежиссёр» №8, 2000.
21. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963.
22. Егоров А.И., Дубровский В.В. О высоте гласных в речевом сигнале. -Труды Международного семинара Диалог'2000 по компьютерной лингвистике и её приложениям, том 2, Протвино, 2000.
23. Вартанян Г.А., Петров Е.С. Эмоции и поведение. Л.: Наука , 1989.
24. Анохин П.К. Эмоции // Психология эмоций: Тексты. М., 1984.
25. Вилюнас В.К. Основные проблемы психологической теории эмоций.57
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.