Методы и модели распознавания русской речи в информационных системах тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Гусев, Михаил Николаевич
- Специальность ВАК РФ05.13.01
- Количество страниц 378
Оглавление диссертации кандидат наук Гусев, Михаил Николаевич
Введение 6
Глава I. Основные методы, модели и алгоритмы распознавания речи 21
1.1 Классификация систем распознавания речи 21
1.2 Этапы распознавания речи 23
1.2.1 Членение речевого потока 24
1.2.2 Вычисление акустических признаков 24
1.2.3 Сравнение со звуковыми моделями 25
1.2.4 Способы определения произнесения слов не из словаря системы 47
1.2.5 Языковые модели 49
1.3 Выбор структуры системы 53
1.4 Выводы 55 Глава 2. Построение моделей звуков речи и подготовка речевых баз 56
2.1 Модели звуков речи 56
2.1.1 Классификация звуков речи 57
2.1.2 Именование звуков речи 61
2.1.3 Структура скрытых Марковских моделей звуков речи 62
2.1.4 Оптимизация структур моделей звуков речи 68
2.1.5 Результаты моделирования 75
2.2 Аннотирование речевой базы 76
2.2.1 Основные этапы формирования аннотации 76
2.2.2 Подготовительный этап 77
2.2.3 Формирование идеальных транскрипций 77
2.2.4 Предварительное обучение системы распознавания 84
2.2.5 Транскрипционное моделирование 85
2.2.6 Циклический этап 90
2.2.7 Коррекция границ звуков 91
2.2.8 Завершающий этап 94
2.2.9 Особенности предложекнного способа 95
2.3 Экспериментальная проверка 96
2.4 Выводы 97
Глава 3. Статистическая модель речи 99
3.1 Альтернативы 100
3.2 Сущность статистической модели 104
3.2.1 Общие положения 104
3.2.2 Общая структура статистической модели 104
3.3 Реализация статистической модели речи 110
3.3.1 Генерация последовательностей 110
3.3.2 Статистика о составе населения и ТД 112
3.3.3 Генерация выборки звуков 113
3.3.4 Определение длительностей звуков 114
3.3.5 Наложение интонационных контуров 116
3.4 Звуковые базы 119
3.4.1 Аллофонная звуковая база 120
3.4.2 Базы слитной речи 130
3.5 Особенности статистической модели 137
3.6 Области применения 138
3.6.1 Синтез речи 138
3.6.2 Оценка качества речевых сигналов 139
3.6.3 Исследование свойств речевых сигналов 140
3.7 Выводы 141 Глава 4. Моделирование длительности звуков речи 142
4.1 Основные причины вариативности длительности звуков 142
4.2 Зависимость вероятности появления фонем от их длительности 145 4.3. Учет длительностей в алгоритме распознавания 152
4.4 Оптимизация процесса распознавания 157
4.5 Результаты экспериментов 159
4.6 Развитие модели 160
4.7 Результаты экспериментов на расширенной модели 167
4.8 Выводы 167 Глава 5. Психоакустическая модель 169
5.1 Свойства звуковых сигналов и особенности их восприятия 169
5.1.1 Чувствительность слухового анализатора 170
5.1.2 Амплитудное распределение 180
5.1.3 Временные свойства слухового анализатора 181
5.1.4 Эффекты маскировки и критические полосы слуха 186
5.1.5 Временные характеристики речевого сигнала 189
5.2 Реализация психоакустической модели 191
5.3 Применение психоакустической модели в распознавании речи 201
5.4 Выводы 203 Глава 6. Речевая аналитика 205
6.1 Возможные подходы к построению системы 205
6.2 Основные элементы разработанной системы поиска ключевых слов 209
6.3 Минимизация фонетической сети 210
6.4 Режимы работы системы 215
6.5 Критерии оценки качества системы 220
6.6 Результаты тестирования 221
6.7 Выводы 222 Глава 7. Оценка, качества передачи речевых сигналов 224
7.1 Классификация методов оценки качества звука 227
7.2 Обоснование необходимости разработки новых методов 228
7.3 Метод AQuA 230
7.4 Метод NIQA 251
7.5 Метод RecQual 260
7.6 Выводы 266 Заключение 267 Основные сокращения 273 Основные термины 275 Использованная литература 280
Приложения 298
Приложение 1. Дополнения к главе 1 298
Способы вычисления признаков 298
Алгоритм обратного распространения ошибки 306
Оценивание параметров НММ 311
Алгоритмы определения произнесения слов не из словаря 317
Приложение 2. Дополнения к главе 3 322
Примеры таблиц контекстов 322
Алгоритмы предварительной обработки 326
Алгоритмы изменения длительности и ЧОТ 335
Приложение 3. Дополнения к главе 5 347
Восприятие речевых сигналов 348
Речевой сигнал 352
Процессы образования и восприятия речи 353
Эксперименты по восприятию 356
Критические полосы 358
Приложение 4. Дополнения к главе 6. Списки филлеров 362
Приложение 5. Акты о внедрении 371
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Разработка и исследование алгоритмов распознавания речи для голосового управления через телефонную сеть2001 год, кандидат технических наук Кисельман, Бронеслав Арнольдович
Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи2006 год, кандидат технических наук Кушнир, Дмитрий Алексеевич
Модель и алгоритмы анализа и сегментации речевого сигнала2007 год, кандидат технических наук Конев, Антон Александрович
Сегментация речевых сигналов для задач автоматической обработки речи2017 год, кандидат наук Томчук, Кирилл Константинович
Разработка алгоритмов анализа и распознавания речи на основе адаптивной кластерной модели и критерия минимального информационного рассогласования2011 год, кандидат технических наук Губочкин, Иван Вадимович
Введение диссертации (часть автореферата) на тему «Методы и модели распознавания русской речи в информационных системах»
Введение
Десятилетиями ученые и инженеры искали способы, которые позволили бы общаться человеку с компьютером на естественном языке. Но до 50-х годов XX века термин "диалог" относился только к разговору двух людей.
В июне 2006 г. в Санкт-Петербурге прошла XI Международная конференция SPECOM'2006. На ее официальном открытии «профессор Лоуренс Рабинер отметил, что исследователи речевых технологий прошли долгий путь, но, несмотря на успехи, достигнутые в этой области, проблему автоматического распознавания речи еще нельзя считать решенной» [70].
В начале 1920-х стали появляться машины распознания. Первая машина для распознания речи, представлявшая собой игрушку, была разработана в 1920 г. По коммерческим соображениям она была названа «Радио-Король» [185].
Первые попытки серьезных исследований в области распознавания речи относятся к 40-м годам прошлого века. Связаны они с появлением спектральных анализаторов - электрических устройств, способных анализировать спектральные характеристики звуков речи. В СССР было создано первое техническое устройство, позволявшее распознавать гласные русского языка на основе спектрального анализа [108, 109].
Распознавание ограниченного подмножества фонем продолжилось в 50-е годы. Одной из наиболее успешных работ была работа Форджи [174], создавшего установку для распознавания 10 английских гласных, произносимых различными голосами. Установка содержала 35-полосный спектральный анализатор, выполняла двухступенчатый формантный аиализ и обеспечивала точность распознавания до 93%.
Установка, разработанная Динессом [164], была способна распознавать подмножества нескольких гласных и согласных в словах, составленных из этих звуков. В установке использовался формантный анализ и учитывалась длительность звуков. При классификации (точность которой для конкретного
голоса составляла 72%) учитывались вероятности следования фонем друг за другом.
К концу 50-х годов был накоплен большой исследовательский материал, свидетельствовавший о сложной природе соответствия между структурой речевого потока и последовательностью воспринимаемых звуков. Стало ясно, что в общем случае фонемы (аллофоны) не являются стационарными участками речи, а представляют собой последовательности более коротких, возможно неоднородных, участков.
Основной вывод, сделанный на этом этапе исследований, заключался в том, что распознавание речи не может быть построено на основе небольшого набора эталонов, соответствующих отдельным фонемам данного языка.
В 60-х годах стало ясно, что попытка моделирования естественной способности человека к восприятию и пониманию речевых сообщений представляет собой сложную задачу, решение которой требует новых знаний. В результате исследования в области распознавания речи разделились на два направления:
• распознавание ограниченного набора команд;
• распознавание слитной речи.
Разработчики систем распознавания команд использовали две основных стратегии. В рамках первой стратегии слова распознавались как единый слуховой образ, во второй - разделись на последовательность временных сегментов.
В качестве примера реализации первой стратегии приведем установку Хирамацу [145], распознававшую названия цифр. В качестве признаков использовались: наличие смычки, средняя частота первой форманты первой гласной и ее производная, средняя частота второй форманты второй гласной и ее производная, количество слогов в слове и др. На основе статистической обработки множество векторов признаков было разбито на 10 групп, соответствующих командам. Средняя точность распознавания с голосов 100 дикторов составила более 98%.
Разработка систем, работающих на основе первой стратегии, не требует глубоких знаний о структуре речи. Основные проблемы это количество различаемых слов, выбор системы признаков и меры сходства распознаваемых слов с эталонами.
При разделении слов на последовательность векторов параметров основную трудность представляет описание речи во временной области. Для сравнения слова с эталоном необходимо с помощью всевозможных растяжений/сжатий совместить его с эталоном. На начальном этапе наблюдалось большое разнообразие подходов к решению этой проблемы.
Так в работе Девиса [125] классификация осуществлялась на основе оценки корреляции формантных траекторий на плоскости формантпых частот, Дадли [129] использовал сравнение с эталонными векторами, а в работах Трунина-Донского [83] использовались комбинированные методы классификации.
В конце 60-х годов для решения проблемы временной деформации был применен метод динамического программирования [30]. Применение динамического программирования оказалось весьма успешным. Оно избавило разработчиков от создания сложных логических правил классификации и позволило увеличить словарь командных систем распознавания до сотен слов.
В результате анализа накопленного материала, исследователи распознавания слитной речи пришли к ряду важных выводов о необходимости:
• отказа от распознавания слов как целостных звуковых образов. Стало ясно, что необходимо распознавать звуковые единицы, меньше слов (например, фонем или слогов);
• учета фонетических, синтаксических и семантических ограничений, определяющих возможные структуры речевых сообщений;
• наличия соответствующего уровня развития компьютерной техники и математического обеспечения.
Значительный вклад в исследования в области распознавания слитной речи были сделаны в 1971-1976 гг. в результате выполнения государственной
программы США ARPA (Advanced Research Projects Agency), объявленной министерством обороны [5]. Перед исследователями ведущих научных центров США была поставлена задача разработки дикторонезависимой системы распознавания слитной речи на основе словаря не менее тысячи слов. Распознаваемые высказывания должны были принадлежать к ограниченному набору синтаксических конструкций, типичных для некоторых конкретных областей практической деятельности (например, при поиске документов в базах данных).
Исследователи пошли по пути увеличения влияния лингвистической составляющей на процесс распознавания речи. В результате в 1976 г. на тестирование было представлено несколько прототипов систем. Лучшей из них была признана система HARPY, разработанная Университетом Карнеги-Меллона, правильно распознававшая 95% предложений произносимых пятью операторами, использовавшая словарь объемом 1011 слов и строго ограниченную грамматику.
Прототипом для HARPY стала небезызвестная разработка компании Dragon Systems [92]. В HARPY была усовершенствована сетевая структура представления лингвистических знаний, использовавшаяся в предшественнице. Сеть слов, узлами которой являлись слова словаря, определяла все допустимые способы построения фраз. Узлы-слова расширялись фонетическими транскрипциями и образовывали последовательности звуковых моделей, участвующих в распознавании.
Система HARPY экспериментально подтвердила возможность использования лингвистических ограничений в распознавании слитной речи [153]. Также было отмечено, что низкий процент звукового распознавания не может в полной мере компенсироваться моделированием языковых структур. Другим значимым результатом программы стало создание больших речевых баз, успешно применяемых в последующих разработках.
Исследования, активно проводившиеся в 70-е годы, заложили основы методов, применяемых в современных системах распознавания.
Одна из первых систем распознавания русской речи была разработана компанией IBM в 1996 году [148]. Лингвистическая модель системы основывалась на триграммах и фонетических подгруппах. В состав системы также входил фонетический транскриптор. Испытания системы прошли успешно, но дальнейшего развития система не получила из-за отсутствия в то время спроса на системы распознавание русской речи.
В рамках совместного проекта Intel Corporation и ВНИИЭФ-СТЛ (Нижний Новгород) в 2001 году была разработана система распознавания слитной речи SDT (Speech Developer Toolkit) [25]. Система была ориентирована на работу с большим словарем и позволяла проводить адаптацию к диктору. На базе SDT были созданы системы распознавания английской, китайской и русской речи. Но и эта разработка оказалась невостребованной.
В результате совместного проекта компаний Forcc-IT и CompTek на базе системы распознавания речи SpeechPearl компании Philips (теперь Nuance Communication) в июне 2004 был создан голосовой портал VPost.ru [3, 4]. Портал предоставлял информационные и развлекательные услуги в голосовом режиме. Данный сервис стал первой в России коммерческой системой массового обслуживания, в которой поддерживается функция распознавания речи.
Вопросами общения человека с компьютером (или человека с человеком посредством компьютера) на естественном языке в звуковой форме занимается одно из направлений информационных технологий - речевые технологии.
Бурное развитие речевых технологий вызвано насущными потребностями современного общества в решении практических задач от создания голосовых интерфейсов к информационным системам до инструментов, используемых службами безопасности.
Речевые технологии сегодня - это целый комплекс направлений компьютерной обработки речи человека (синтез и распознавание речи, идентификация диктора по голосу, изменение тембра голоса и т.п.).
и
Практические задачи решаются на основе исследований и разработок программных (и аппаратных) систем синтеза, анализа и распознавания речи. Живая человеческая речь значительно отличается от всех технических звуковых сигналов. Для ее автоматической обработки недостаточно традиционных способов обработки сигналов - необходимо учитывать свойства восприятия и образования речи человеком.
На сегодняшний день российский рынок программных средств распознавания речи представлен единичиыми разработками. В России было создано лишь несколько коммерческих систем распознавания русской речи. В основном они обеспечивают распознавание небольшого словаря (до 200 слов) и рассчитаны на организацию речевых запросов к базам данных и для голосового управления оборудованием. В таблице приведены наиболее известные из этих систем [69].
Таблица - Коммерческие системы распознавания русской речи
Система Разработчик Страна Характеристика системы
Горыныч VoiceLock, White Computers Россия Дикторонезависимое распознавание до 10000 слов, точность распознавания 70%
VoiceCom ЦРТ Россия Дикторозависимое распознавание 100-200 команд (точность до 98%), дикторонезави-симое распознавание 30-50 команд
IstraSoft Voice Commander ИстраСофт Россия Дикторозависимое распознавание 45 команд. Па малом словаре точность 98%
Sakrament ASR Engine Сакрамент Белоруссия Дикторозависимый и дикторонезависимый режимы. В зависимости от словаря точность 95-98%
SpeechPearl Nuance США Дикторозависимый и дикторонезависимый режимы. В дикторонезависимом режиме до 1.5 миллионов слов.
NSC Natural ASR NSC Израиль Поиск слов по их фонемной записи. Дикторонезависимый поик ключевых слов. Данные о качестве работы продуктов NSC отсутствуют.
Google Translate и Google Voice Google США Дикторонезависимое преобразование речи в текст.
Составить объективную картину по существующим промышленным
продуктам в области распознавания речи не представляется возможным. Коммерческие организации, как правило, либо не указывают параметры на-
дежности работы или же предоставляют данные, которые носят не объективный, а рекламный характер.
Следует признать, что представленные на сегодняшний день на российском рынке системы распознавания русской речи либо не позволяют в полной мере решать все задачи организации интерактивных голосовых сервисов, либо не позволяют делать этого с должным качеством.
Необходимо также отметить существование ряда некоммерческих проектов с открытым исходным, предоставляющих набор базовых инструментов для построения систем распознавания речи. К ним относятся: НТК - система, разработанная в Кембриджском университете (Англия); система Sphinx, созданная в университете Карнеги-Меллона (США); и система Kaldi, начатая в университете Джона Хопкинса (США) и продолженная в Технологическом университете Брно (Чехия). Однако все они не ориентированы на распознавание русской речи.
Это объясняется отсутствием необходимой теоретической базы, позволяющей решать задачи организации интерактивных голосовых сервисов с должным качеством.
На современном этапе развития информатизации страны в связи с отсутствием теоретических основ распознавания русской речи с учетом особенностей строения и восприятия речевого сигнала возникает сложная научная проблема разработки и обоснования обобщенного описания методов и моделей распознавания русской речи.
Таким образом, тема исследования является актуальной.
Теоретические и практические предпосылки к проведению данного исследования развиты в работах ученых H.A. Алдошиной, П.А. Скрелина, В.Н. Сорокина, A.J1. Ронжииа, В.И. Галупова, A.B. Аграновского и других исследователей.
Цель работы: Целью диссертационной работы является повышение качества распознавания русской речи в информационных системах путем
создания новых методов, моделей и алгоритмов, основанных на углубленных знаниях о свойствах русской речи.
Для достижения цели в диссертационной работе поставлены и решены следующие задачи:
1. Разработка моделей звуков речи на основе структуры звуковой волны.
2. Разработка модели длительности звуков речи.
3. Создание звуковых баз данных.
4. Исследование вариативности произнесения слов русской речи.
5. Исследование особенностей восприятия звуковых сигналов человеком.
6. Разработка модели усредненной речи для распознавания.
7. Создание методов оценки качества передачи речи.
8. Экспериментальная проверка предложенных методов, моделей и алгоритмов их реализаций на комплексе программных средств распознавания речи.
Объект исследования. Русская речь.
Предмет исследования. Методы, алгоритмы и методики распознавания русской речи.
Методы исследования. В диссертационной работе использованы методы: теории информации; теории множеств; теории вероятности, экспертного и статистического анализа; теории графов; распознавания образов; интеллектуального анализа данных, обработки текстовой информации; распознавания человеческой речи; цифровой обработки сигналов; психоакустики; объектно-ориентированного программирования. На защиту выносятся:
1. Модель длительности звуков речи; классификация и модели звуков русской речи, учитывающие структуру звуковой волны, их применение для распознавания речи.
2. Концепция статистической модели речи и метод транскрипционного моделирования вариативности произнесения слов русской речи; их применение для построения универсальных речевых баз.
3. Психоакустическая модель восприятия звуковых сигналов человеком и ее применение в распознавании речи и оценке качества передачи речи.
4. Модель усредненной речи и средства минимизации фонетической сети для поиска ключевых слов и распознавания речи.
5. Методы и программные средства оценки качества передачи речи.
Научная новизна. В работе исследована новая предметная область:
применение методов и моделей распознавания речи, основанных на знаниях
свойств речевого сигнала и особенностей его восприятия. Наиболее важные
результаты, составляющие научную новизну:
1. Разработана, экспериментально обоснована и исследована статистическая модель длительностей звуков русской речи, дающая дополнительные возможности повышения качества распознавания речи; а также разработаны модели звуков русской речи, учитывающие структуру звуковой волны и открывающие широкие возможности повышения точности описания звуков в системах распознавания речи;
2. Разработана концепция статистической модели речи, представляющей собой универсальную речевую базу данных и знаний современного состояния языка, позволяющая проводить фундаментальные исследования и решать прикладные задачи.
3. Предложен метод транскрипционного моделирования, основанный на комплексном использовании теоретических предпосылок и экспериментальных данных, позволяющий с высокой степенью достоверностью определять звуковой состав произносимых высказываний;
4. Разработаны метод и программные средства автоматизации аннотирования речевых баз данных, позволяющие существенно повысить эффективность процесса разработки;
5. Предложена психоакустическая модель, основанная на теории восприятия звука человеком, расширяющая возможности предварительной обработки звукового сигнала для исключения из него компонент, несущественных для восприятия;
6. Разработаны модель усредненной речи и методика ее построения, основанная на автоматизированном обучении по речевой базе, позволяющие унифицировать построение антимоделей в системах поиска ключевых слов и снизить количество ложных срабатываний; предложены средства минимизации фонетической сети, позволяющие повысить скорость работы систем распознавания и поиска ключевых слов;
7. Разработаны методы и программные средства оценки качества передачи речи, позволяющие контролировать качество речевого сигнала;
8. В результате экспериментальных исследований с применением разработанных программных средств доказана эффективность предложенных методов, моделей и алгоритмов.
Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет всестороннего анализа состояния исследований в данной области, подтверждается корректностью предложенных моделей, результатами тестов, апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях, результатами опытной эксплуатации и внедрения разработанных программных средств.
Практическая ценность работы. Разработанные и предложенные в данной работе методы и алгоритмы дают возможность:
- проводить анализ речевых данных;
- создавать системы распознавания речи и поиска ключевых слов с высокой точностью;
- повысить эффективность служб безопасности и аналитики бизнеса;
- повысить уровень автоматизации и качества обслуживания пользователей информационных систем;
- понизить нагрузку на операторов экстренных служб;
- автоматизировать классификацию звуковых архивов;
- ускорить работу операторов колл-центров;
- развивать смежные области, например, определение качества передачи
речи и определение языка диктора.
Реализация результатов работы. Результаты работы были использованы при реализации проекта по созданию программного обеспечения голосовых ресурсов в ООО НПФ «Беркут» - на основе упрощенной статистической модели речи был создан компактный синтезатор речи по тексту, работающий в микроконтроллере.
Разработанные программные средства внедрены: в ООО «Новавокс» в системе повышения качества обслуживания звонков Novavox Smartphone Spccch Attendant, позволяющей вести диалог с абонентом, распознавая и синтезируя человеческую речь; в ООО «Сарапульские системы» при создании программного обеспечения «Словоискатель», выполняющего поиск ключевых слов, при создании модулей предварительной обработки, параметризации и распознавания звуковых данных; в программном обеспечении автоматизированной системы самообслуживания лаборатории 17 ИПУ РАН, представляющим собой электронного секретаря, направляющего входящий звонок на нужного сотрудника по его фамилии имени и отчеству.
Исследования, отраженные в диссертации, реализованы при создании комплекса обработки мультимедийной информации «Буква-2» во ФГУП «НИИ «Квант». В компонентах системы, отвечающих за распознавание слитной речи, использованы модели звуков речи, учитывающие структуру звуковой волны, и модель длительности звуков речи.
Результаты исследований внедрены в учебном процессе на кафедре информатики и компьютерного дизайна СПбГУТ.
Имеющиеся акты о внедрении приведены в приложении 5.
Апробация работы. Результаты работы докладывались на: 57 юбилейной НТК профессорско-преподавательского состава научных сотрудников и аспирантов ГУТ; на 11 международной конференции SPECOM'2006 в 2006; на 58 НТК профессорско-преподавательского состава научных сотрудников и аспирантов ГУТ в 2006; на 12 международной конференции SPECOM'2007 в 2007; на IV международном конгрессе "Нейробиотелеком-2010" в 2010 году;
на II Международной научно-технической и научно-методической конференции «Актуальные проблемы инфотелекоммуникаций в образовании и науке» в 2013; на 3-й Международной научно-практической конференции «Современное машиностроение» в 2013; на VIII Международной научно-практической конференции «Перспективные вопросы мировой науки -2013» в 2013; на X Международной научно-практической конференции «Наука и образование - 2013/2014» в 2014; на III Международной научно-технической и научно-методической конференции «Актуальные проблемы инфотелекоммуникаций в образовании и науке» в 2014.
В 2006 году проекты «Разработка развивающей игры «говорящие кубики»» и «Разработка статистической модели русского языка» вышли в финал конкурса Русских Инноваций 2006.
Публикации. По теме диссертации опубликовано 39 научных работ, из них: 2 монографии и 16 работ в изданиях, находящемся в перечне ВАК (4 патента па изобретения, 2 патента на полезные модели, 3 свидетельства о регистрации программы для ЭВМ и 7 статей).
Структура и объем диссертации. Диссертация состоит из введения, семи глав, заключения, списка литературы, включающего 189 наименования и пяти приложений. Работа изложена на 297 страницах, содержит 118 рисунков, 54 таблицы, объем приложений составляет 80 страниц.
В главе 1 «Основные методы, модели и алгоритмы распознавания речи» проведен анализ основных методов, моделей и алгоритмов распознавания, применяемых в наиболее распространенных системах распознавания, и выявлена необходимость их усовершенствования для повышения адекватности описания реального речевого сигнала. Предложена классификация систем распознавания речи, позволяющая упростить последующий выбор структуры создаваемого программного обеспечения.
В главе 2 «Построение моделей звуков речи и подготовка речевых баз» рассматриваются вопросы классификации звуков речи, и предлагается их классификация по артикуляционным признакам и особенностям строения ре-
чевого сигнала. Для выделенных классов звуков разработаны структуры моделей. Предложен способ автоматизации аннотирования речевых баз данных, позволяющий учитывать вариативность произнесения слов дикторами.
В главе 3 «Статистическая модель речи» предложена концепция универсальной речевой базы данных - статистической модели речи, рассматривается реализация упрощенного варианта модели и возможные варианты ее практического применения.
В главе 4 «Моделирование длительности звуков речи» исследованы основные причины вариативности длительности звуков речи, предложена модель длительностей звуков речи и алгоритм учета длительности звуков в процессе распознавания речи. Представлены результаты экспериментов, подтверждающие эффективность предложенной модели длительностей звуков речи и алгоритма учета длительности звуков в процессе распознавания речи.
В главе 5 «Психоакустическая модель» исследованы свойства звуковых сигналов и особенности их восприятия человеком. Предложена психоакустическая модель, учитывающая особенности восприятия звуковых сигналов человеком. Приведены результаты экспериментов по распознаванию, подтверждающие эффективность психоакустической модели и разработанного психоакустического фильтра.
В главе 6 «Поиск ключевых слов» изучены различные подходы к построению систем поиска, проанализированы их особенности, определены основные компоненты разработанной системы поиска ключевых слов. Создан общий алгоритм работы системы, предложены способы формирования, оптимизации внутренних структур данных. Введены основные критерии оценки качества системы поиска ключевых слов и приведены результаты тестирования системы.
В главе 7 «Оценка качества передачи речевых сигналов» проведен анализ основных стандартных методов оценки качества передачи речевых сигналов. Предложены методы (АС>иА, №С)А и КесС)иа1), представляющие собой альтернативу стандартным методам оценки качества, зафиксирован-
ным в рекомендациях ITU-T Р.861, Р.862 и Р.863. Приведены результаты экспериментов и сравнение предложенных методов со стандартными. Показана эффективность предложенных методов.
В приложении 1 приведены сведения дополняющие главу 1.
В приложении 2 приведены сведения дополняющие главу 3.
В приложении 3 приведены сведения дополняющие главу 5.
В приложении 4 приведены сведения дополняющие главу 6.
В приложении 5 приведены копии полученных актов о внедрении.
Заключение по результатам проведенных исследований и разработок
В диссертации содержится постановка и решение крупной научной проблемы - создание теоретических основ распознавания русской речи с учетом особенностей строения и восприятия речевого сигнала и на этой основе разработка методов и моделей распознавания русской речи в информационных системах, имеющей важное хозяйственное и культурное значение.
Получены следующие основные результаты, обеспечивающие достижение цели диссертационного исследования:
1. Разработана, экспериментально обоснована и исследована статистическая модель длительностей звуков русской речи; разработаны классификация и модели звуков русской речи, учитывающие структуру звуковой волны, использованные в разработанных программных средствах распознавания речи и поиска ключевых слов.
2. Разработана концепция статистической модели речи, представляющей собой универсальную речевую базу данных и знаний современного состояния языка, позволяющая проводить фундаментальные исследования и решать прикладные задачи.
3. Предложен метод транскрипционного моделирования, позволяющий учитывать вариативность звукового состава произносимых высказываний в системах распознавания речи и при подготовке речевых баз данных.
4. Разработаны метод и программные средства автоматизации аннотирования речевых баз данных, сокращающие долю ручного труда по обработке и анализу исходных звуковых данных.
5. Предложена психоакустическая модель и программные средства предварительной обработки звукового сигнала, позволяющие исключить из его дальнейшего анализа компоненты, несущественные для восприятия.
6. Разработаны модель усредненной речи и методика ее построения, основанная на автоматизированном обучении по речевой базе, экспериментально подтверждена эффективность их применения для поиска ключевых слов.
7. Разработаны методы и программные средства оценки качества передачи речи, позволяющие контролировать качество речевого сигнала, в том числе и с использованием средств распознавания речи.
8. В результате экспериментальных исследований с применением разработанных программных средств подтверждена эффективность предложенных методов, моделей и алгоритмов распознавания, анализа и обработки речевых сигналов.
Полученные результаты соответствуют паспорту специальности
05.13.01 «Системный анализ, управление и обработка информации (связь и
информатизация)».
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Акустические характеристики гласных звуков "говорящих" птиц2007 год, кандидат биологических наук Уплисова, Ксения Олеговна
Математические модели и комплекс программ для автоматической оценки качества речевого сигнала2002 год, кандидат технических наук Николаев, Алексей Николаевич
Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи2010 год, кандидат технических наук Нгуен Ван Хунг
Автоматическая интерпретация звуков речи2008 год, кандидат филологических наук Кочаров, Даниил Александрович
Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд2010 год, кандидат технических наук Гладышев, Константин Константинович
Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Гусев, Михаил Николаевич
6.7 Выводы
Изучены возможные подходы к созданию систем поиска ключевых слов и фраз, определены основные компоненты разрабатываемой системы поиска.
Предложен алгоритм оптимизации фонетической сети, позволяющий ускорить работу компонент системы, отвечающих за распознавание речи. Приведены данные по сокращению количества узлов сети при применении предложенного алгоритма, подтверждающие его эффективность. Среднее сокращение узлов сети составляет 37%.
Предложены различные способы построения моделей усредненной речи и выбора параметров поиска, реализуемые различными режимами работы разработанных программных средств.
Введены критерии оценки точности работы системы поиска ключевых
слов.
Проведено тестирование работы системы в различных режимах. Па основе результатов тестирования по введенным критериям оценки выполнен сравнительный анализ предложенных моделей усредненной речи, и выбрана
оптимальная модель, получившая название «Смарт-авто» с показателями качества ЭК/БА = 90,83/9,12.
Глава 7 Оценка качества передачи речевых сигналов
Качество передачи и приема речи один из основных показателей качества телекоммуникационных систем. При определении качества связи необходимо учитывать не только изменения сигнала, вызванные передачей по сетям связи, но и свойства речи диктора, свойства слуха аудитора и изменение этих свойств со временем.
Исторически первым критерием, по которому оценивалось качество передачи речи, была громкость. Именно громкость была положена в основу метода определения эквивалента затухания, рекомендованного Международным Консультационным Комитетом по Телефонии (МККФ) в 1928 году.
Наиболее распространенные методы оценки качества систем передачи речи были разработаны сектором по стандартизации телекоммуникаций Международного союза электросвязи (МСЭ-Т) в середине 90-х годов. Результаты представлены в документе Рекомендация Р.800 (Р.830) [102, 107]: "Методы субъективной оценки качества речевой связи". В нем рассмотрены условия проведения тестовых испытаний, содержание тестовых звуковых сигналов, системы оценок и методы анализа полученных результатов. Чаще всего "Методы субъективной оценки качества речевой связи" используют для получения средней субъективной оценки качества речи пятибалльную шкалу (Mean Opinion Score - MOS).
К сожалению, тесты рекомендации Р.800 могут приводить к получению неоднозначных результатов. Авторы рекомендации сами предупреждают о некорректности сравнения оценок MOS, полученных в разных условиях. Кроме того, тестирование в соответствии с рекомендацией Р.800 занимает много времени и требует участия в тестировании большого количества аудиторов.
Для того чтобы перейти от субъективных оценок (MOS) к объективным и автоматизировать измерительный процесс, МСЭ-Т разработал рекомендацию Р.861 [103], основанную на низкоуровневых количественных измерениях. Рекомендация Р.861 представляет собой развитие метода PSQM
(Perceptual Speech Quality Measurement), разработанного компанией KPN Research и предназначенного для объективного анализа работы речевых кодеков, характеризуемых малыми искажениями.
Однако использование алгоритма PSQM для оценки работы реальной системы связи невозможно, т.к. в нем не учтены некоторые важные факторы, оказывающие негативное влияние на восприятие речи. К ним относятся: задержки, их флуктуации (джиттер), потеря пакетов, а также клиппирование сигнала по уровню.
В феврале 2001 года вышла новая рекомендация ITU-T Р.862 [105], описывающая более совершенный алгоритм тестирования - PESQ (Perceptual Evaluation of Speech Quality). Алгоритм PESQ включает в себя такие операции как: выравнивание уровней, временное выравнивание, моделирование восприятия человеком и когнитивное моделирование. В результате этих дополнительных операций в алгоритме учитываются: усиление/затухание сигнала в системе связи, временные задержки и джиттер, наиболее значимые для восприятия человеком области спектра. Кроме того, по результатам когнитивного моделирования объективная оценка переводится в субъективное значение MOS.
Недостатком PESQ и других подобных алгоритмов является то, что они основываются на сравнении двух сигналов: исходного и прошедшего через систему связи. Такой подход к тестированию создает целый ряд сложностей, связанных с его организацией и проведением. Требуется организовать запись сигнала на обеих сторонах системы связи и передачу записей на систему тестирования. Кроме того, мониторинг качества связи в режиме реального времени становится весьма затруднительным.
Для решения этой проблемы была разработана новая рекомендация. В мае 2004 года ITU-T утвердил рекомендацию Р.563 [106], определяющую алгоритм мониторинга для оценки качества речевой связи путем прослушивания сеансов связи. Он учитывает односторонние искажения, параметры речевого тракта, естественность и уровень шума в речи. Разработчики Р.563 об-
ращают внимание пользователей на то, что алгоритм Р.563 не обеспечивает всестороннюю оценку качества передачи речи. Искажения, вызванные потерей громкости, задержками, эхом и всем связанным с двухсторонним взаимодействием, не могу быть учтены алгоритмом.
Существует целый ряд компаний, занимающихся разработкой систем оценки качества звука. Основная масса этих разработок приходится на телефонию, как обычную, так и IP телефонию. Так, журнал «Сети» [50] «выделяет» несколько «игроков» в сегменте рынка объективной оценки качества голоса в сетях VoIP.
Среди них компания Agilent Technologies, предлагающая несколько продуктов для тестирования качества голоса в сетях VoIP, в которых реализованы различные методики тестирования. Также отмечается разработка израильской фирмы RADCOM - система интерактивной диагностики QPro, позволяющая не только оценить качество голоса в сетях VoIP, но и измерить такие параметры как задержки передачи, коэффициенты искажений, точность функционирования средств распознавания и заполнения пауз.
Различные тестеры, измеряющие качество голоса, сегодня выпускают американские компании Empirix, GL Communications, Microtronix Systems, Telchemy и английская Maiden.
IIo не только зарубежные компании занимаются решением задачи оценки качества речевых сигналов. Отметим разработку компании «Опатов» [2] - анализатор качественных показателей передачи речи DSLA II - (Digital Speech Level Analyser).
Однако наибольших успехов достигла немецкая компания OPTICOM [104], выпустившая программный пакет OPERA™ Voice/Audio Quality Analyzer, поддерживающий методики PSQM, PSQM+ и ряд других, в которых, по утверждению представителей OPTICOM, сняты некоторые ограничения, присущие стандартным методам.
7.1 Классификация методов оценки качества звука
Существует два принципа разделения методов оценки качества на субъективные и объективные [68]. При первом подходе субъективные методы определяются как методы, допускающие возможность субъективных отклонений в оценке при проведении испытаний аудиторами. При этом качество измеряется не в абсолютных числовых единицах, а оценивается условным баллом.
К объективным относят методы, основанные на получении в результате испытаний определенной числовой величины, не зависящей от того, кем и где проводились испытания. Исключение влияния случайных особенностей аудиторов достигается за счет усреднения достаточно большого числа субъективных оценок и выявления объективно существующих зависимостей.
В данной работе используется другой подход к классификации (рисунок 7.1), в котором объективность определяется участием слухового анализатора человека в процессе оценки [42, 181]. Методы являются субъективными, если слух человека является составляющей частью измерительной аппаратуры. Соответственно, объективные методы - методы, в которых слух человека не участвует в процессе получения оценки.
Рисунок 7.1 - Классификация методов оценки качества звука
Субъективные методы оценки качества звука делятся на интегральные и дифференциальные методы. Первыми оценивают общее качество звучания, вторыми - отдельные составляющие.
Для оценки разборчивости требуется высокий уровень отношения полезного сигнала к уровню шума, малое время реверберации, отсутствие интенсивного дальнего эха.
Существующие методы объективной оценки в той или иной степени связаны с перечисленными выше акустическими характеристиками. Объективные методы оценки разборчивости можно разделить на три группы: аддитивные, МПФ и параметрические методы.
Первая группа. Аддитивные методы основаны на предположении, что результирующее качество звучания определяется суммой вкладов в отдельных частотных полосах, а величина вклада зависит от отношения сигнал/шум в каждой полосе. По способу определения частотных полос аддитивные методы разделяются на сигнальные и акцепторные. В сигнальных методах частотные полосы определяются исходя из свойств сигнала, а в акцепторных -из свойств приемника сигнала (человеческого уха). Дополнительно можно выделить комбинированные методы, в которых одновременно используются различные наборы частотных полос.
Вторая группа. Методы второй группы основаны на оценке модуляционной передаточной функции (МПФ) системы.
Третья группа. Параметрические методы, позволяющие оценить качество звука па основе характеристик аппаратуры.
7.2 Обоснование необходимости разработки новых методов
Занимаясь обработкой речевых сигналов - передачей, сжатием, синтезом и распознаванием - постоянно приходится сталкиваться с необходимостью давать различные оценки ее качества [42, 181]. Экспертные (субъективные) оценки, конечно, хороши, но они крайне трудоемки и дороги, что делает
их практически непригодными для целей оптимизации параметров системы, когда требуется сравнивать результаты для десятков, а то и сотен наборов параметров. Применение субъективных методов оценки на этапе разработки оказывается нецелесообразным и используется для оценки качества завершенной системы.
Наиболее точно качество передачи речи, по ее основному критерию -разборчивости, характеризуется методом артикуляции, что и обуславливает его частое применение на практике. Однако, метод артикуляции не является универсальным, т.к. не позволяет учитывать все факторы, влияющие на оценку качества аппаратуры.
Естественность речи, воспроизводимой аппаратурой, является одним из таких факторов. Трудность задачи измерения естественности заключается во внутреннем противоречии: с одной стороны мера естественности должна отражать наиболее общие свойства аппаратуры и аудиторов, с другой - необходимо измерять сохранение индивидуальных характеристик голоса диктора.
Еще одна проблема субъективных методов заключается в различии подходов к оценке производителя и потребителя аппаратуры. Производители оборудования, стремятся тестировать свои системы в идеальных лабораторных условиях, обеспечивающих наивысшие показатели качества. Но реальные условия работы зачастую мало похожи на лабораторные, и оценки качества потребителя оказываются много ниже.
Существующие объективные методы не позволяют провести оценку качества системы в целом, так как большей частью они направлены на измерение разборчивости, как меры качества. Разборчивость, конечно, важный параметр качества, но не единственный (и не всегда основной).
Известные объективные методы не учитывают (или учитывают не в полной мере) некоторые важные факторы, которые могут иметь критически важное влияние на восприятие речи. К ним относятся потери блоков звуковых данных, потеря начальных и конечных звуков. Применяемые методы об-
наружепия звуковой активности либо несовершенны, либо не применяются вовсе. Большинство объективных методов ориентировано на свойства речевых сигналов и не могут дать реальных оценок произвольных звуковых сигналов.
Следовательно, есть актуальная задача разработки объективных методов оценки качества речевых сигналов. Необходимость разработки новых методов и улучшения существующих вызвана желанием повысить близости объективных и субъективных оценок качества, необходимостью наиболее полно учесть свойства слуха и речеобразования, оценивать качество не только речевых, но и произвольных звуковых сигналов.
Далее в работе предлагаются три метода оценки качества передачи звуковых сигналов:
• Метод AQuA (Audio Quality Analyzer) - представляет собой альтернативу стандартным методам оценки качества, зафиксированным в рекомендациях ITU-T Р.861и Р.862.
• Методы NIQA (Non-Intrusive Quality Analyzer) и RecQual (Recognition + Quality) разработаны как альтернатива рекомендации Р.563 [106].
Методы AQuA и NIQA нашли широкое практическое применение и зафиксированы в патентах РФ (№2312405 [9] и №2435232 [11]). RecQual находится в стадии апробации и проработки деталей. 7.3 Метод AQuA
Метод AQuA (Audio Quality Analyzer) представляет собой альтернативу стандартным методам оценки качества, зафиксированным в рекомендациях ITU-T Р.861и Р.862.
Идея заключается в том, что на вход системы оценки качества [33] подаются два звуковых сигнала: исходный и тестируемый. Тестируемый сигнал получен из исходного в результате какой-либо обработки (сжатие/восстановление, передача по каналам связи, фильтрация). Качество исходного сигнала принимается равным 100%. Воспринимаемые на слух раз-
линия исходного и тестируемого сигнала снижают его качество: чем больше различий, тем ниже качество тестируемого сигнала [42, 181].
Тип сигнала, используемого в качестве исходного, произвольного или специализированного, зависит от цели оценки (определение разборчивости речи; качества воспроизведения звука; оценки качества речи, получаемой по трактам переговорных устройств, и т.п.), что позволяет повысить ее объективность.
На рисунке 7.2 представлена общая схема системы оценки качества звуковых сигналов.
Рисунок 7.2 - Общая схема системы оценки качества звуковых сигналов
Генератор тестовых сигналов позволяет формировать звуковой сигнал в соответствии с одной из моделей звукового потока. Это может быть либо специализированный набор шумовых сигналов, либо сигнал, полученный па выходе статистической модели речи [39], описанной в главе 3. Сигнал генератора может либо сохраняться в банке сигналов для последующего использования, либо подвергаться обработке и оценке. Банк сигналов хранит звуковые данные, полученные в результате работы генератора сигналов или из каких-либо внешних источников. В качестве предзаписанных сигналов используются записи фонетически представительных и фонетически сбалансированных текстов, музыкальные произведения, различные шумы и т.д.
Соответственно, на вход блока оценки поступает сигнал либо непосредственно с генератора, либо из банка сигналов. Тестовый сигнал поступает на синхронизатор и тестируемое устройство, в качестве которого может использоваться, например, вокодер или канал связи. Выходной сигнал тестируемого устройства также поступает на вход синхронизатора.
Синхронизатор совмещает во времени исходный сигнал и сигнал, прошедший обработку. Синхронизированные сигналы порциями выдаются на аналитический модуль, определяющий степень похожести сигналов и выдающий оценку качества, как меру подобия исходного и обработанного сигналов.
Рассмотрим подробнее работу модулей системы.
Генератор тестовых сигналов
Генератор тестовых сигналов состоит из генератора шумовых сигналов и упрощенной статистической модели речи. Оба генератора моделируют процесс «говорения», однако, подходы к моделированию речеобразования разные. Статистическая модель формирует звуковой поток на основании образцов речи людей, а генератор шумовых сигналов - исходя из знаний о зву-ковосприятии и речеобразовании. Статистическая модель речи представляет собой сложную систему, описанную в главе 3. В данной главе рассматривается только генератор шумовых тестовых сигналов. Генератор шумовых сигналов
Генератор шумовых сигналов работает на модели речевого потока, аналогичной той, что используется в методе STI. Идея заключается в том, что речевой сигнал можно приближенно рассматривать как широкополосный сигнал, модулированный низкочастотным сигналом. Частота модуляции определяется скоростью артикуляции и находится в диапазоне от 0.63 до 13.44 Гц, а длительность модулированного сигнала определяется количеством периодов модулирующей частоты (таблица 7.1).
В качестве модулируемого сигнала используется шумовой сигнал, получаемый из белого шума путем вырезания из его спектра частотных полос, соответствующих критическим полосам слуха и речеобразования. В первом случае формируется сигнал, позволяющий оценивать передачу звуковых сигналов в общем, а во втором - речевых. Подробнее критические полосы рассматриваются в описании аналитического модуля.
Таблица 7.1 - Частоты модуляции и длительности модулированных сигналов
№ Частота, Гц Длительность, сек. № Частота, Гц Длительность, сек.
1 0,63 5,00 8 3,36 2,50
2 0,84 5,00 9 4,20 2,50
3 1,05 5,00 10 5,04 2,50
4 1,26 5,00 11 6,72 1,25
5 1,68 5,00 12 8,40 1,25
6 2,10 2,50 13 10,08 1,25
7 2,52 2,50 14 13,44 1,25
Определение голосовой активности
Практически любой звуковой сигнал можно разделить на активную и неактивную фазы. Первая - соответствует активным звуковым процессам, вторая - низкоуровневому фоновому шуму.
Для определения наличия звуковой активности в сигнале могут использоваться классификаторы входного сигнала, на базе которых создаются кодеки речи с переменной скоростью. Классификатор определяет степень информативности сигнала и задает метод кодирования передачи звуковых (речевых) данных. Одним из таких классификаторов речевого сигнала является Voice Activity Detector (VAD), выделяющий во входном речевом сигнале активную речь и паузы. При этом фрагменты сигнала, классифицируемые как активная речь, кодируются каким-либо из известных алгоритмов с низкой степенью сжатия, а фрагменты, классифицированные как паузы, кодируются с высокой степенью сжатия.
Однако, использование сложных алгоритмов не всегда оправдано (так, например, VAD настроен на работу с речевыми сигналами). Ниже предлагается простой алгоритм определения звуковой активности в сигнале, на основе его уровня энергии.
Отсчеты сигнала БтрЦ]
Уменьшение остатка задержки
Признак паузы
Уменьшить время замера; запомнить уровень сигнала
Уменьшить Расчет базового и
время замера рабочего порогов
Вычисление Е Пересчет базового и рабочего порогов
у<0
Признак паузы
Признак паузы
Рисунок 7.3 - Алгоритм определения звуковой активности
Работу алгоритма можно условно разделить на три этапа (рисунок 7.3): задержка, расчет базовых порогов и этап детектирования звуковой активности.
Начальная задержка позволяет исключить из обработки случайные переходные процессы, которые могут иметь место, например, при включении звукового оборудования или при обработке звуковых файлов без учета наличия заголовков.
Расчет базовых порогов позволяет отказаться от использования фиксированных значений и использовать свои значения для каждого входящего сигнала. Однако за использование расчетных порогов приходится платить невозможностью полноценного анализа нескольких первых фреймов сигнала.
Для каждого фрейма входящего сигнала определяется уровень энергии сигнала е:
е —
(7.1)
где X позволяет исключить влияние постоянной составляющей. Однако, введение такой «поправки» к значению энергии приводит к тому, что величина е в ряде случаев оказывается отрицательной.
Для фреймов, относящихся ко времени накопления, рассчитывается среднее значение энергии и по нему определяется средняя громкость Е паузы:
Исходя из значения Е, определяются значения порогов (рисунок 7.4) с использованием ряда констант (таблица 7.2), определенных экспериментально:
(7.2)
I
< нижняя
Рабочий порог:=
граница
нижняя граница
> верхняя
граница
Рабочий порог :=
базовый порог
/
Значения порогов
7
все остальные Рабочий порог :=
——-^
значения (базовый порог + верхняя граница) / 2
Рисунок 7.4 - Определение значений порогов
На этапе детектирования звуковой активности (в рабочем режиме) пороги пересчитываются на каждом шаге. Для пересчета порогов используется текущее значение уровня громкости Е (7.2). Алгоритм расчетов представлен на рисунке 7.5.
Рисунок 7.5 - Пересчет порогов в процессе детектирования
Если энергия (е) сигнала меньше нуля, то значения порога сохраняются. Кроме того, осуществляется проверка на попадание рабочего порога в разумный диапазон значений, и, если этого не происходит, то производится корректировка рабочего порога. В таблице 7.2 представлены рабочие значения граничных значений и коэффициентов.
Как и прочие известные алгоритмы УАЭ, предлагаемый простой алгоритм обладает некоторой нестабильностью детектирования и требует использования специального постпроцессора, называемого алгоритмом фильтрации выбросов УАЭ.
Таблица 1.2 - Константы детектора активности сигнала по энергии
Константа Значение
Время начальной задержки 4
Время изменения базового уровня 20
Коэффициент базы 1.65
Нижняя граница базового порога 26
Верхняя граница базового порога 40
Коэффициент памяти 0.99
Минимальное допустимое значение рабочего порога 22
Максимальное допустимое значение рабочего порога 80
В системе оценки качества для разделения сигнала на активную и неактивную фазы предусмотрена возможность использования различных алгоритмов УАО. Это и представленный выше алгоритм детектирования по уровню сигнала, и известные алгоритмы УАО, зафиксированные в рекомендациях 0.723 и в.729 (в качестве элементов одноименных вокодеров).
Синхронизатор сигналов
Синхронизатор совмещает во времени исходный сигнал и сигнал, прошедший обработку. Общая схема работы синхронизатора представлена на рисунке 7.6.
На вход синхронизатора сигналов поступают отрезки сигнала (рОАТА), равные по длительности фрейму УАО, для которых определяются признаки активности УАО на отрезках рЭАТА.
Перед синхронизацией проводится фильтрация выбросов признаков активности УАО, заключающаяся в том, что признак активности на коротких участках (с длительностью менее пороговой) приравнивается к признакам активности окружающего сигнала. Алгоритм фильтрации представлен ниже.
После фильтра признаки состояний и фреймы сигнала поступают на синхронизаторные блоки, совмещающие фрагменты активного сигнала и паузы. Модули используют общие данные: буфер активного эталонного сигнала (ЕВиИег1), буфер активного тестируемого сигнала (ТВиГГег1), буфер паузы эталонного сигнала (ЕВиГГегО), буфер паузы тестируемого сигнала (ТВиГГегО), признак готовности буферов активного сигнала и пауз
(сШ.еас1у[0..1]). Предусмотрен также счетчик ошибок синхронизации (с1ЕггогСоигиег).
Исходный сигнал: ёУАО, рОАТА
Оцениваемый сигнал dVAD, рЭАТА
3 " 4 г
Фильтр выбросов УАИ Фильтр выбросов УАО
г г
Рисунок 7.6 - Общий алгоритм синхронизации сигналов
На выходе синхронизатора получается пара буферов с активным сигналом или пара буферов с паузами. Оба синхронизаторных блока могут инициировать появление пары синхронизированных буферов.
Синхронизированные буфера и признак активности поступают на вход аналитического модуля.
На рисунке 7.7 представлен алгоритм фильтрации выбросов УАЭ. В качестве исходных данных выступают отрезки сигнала рБАТА и признаки активности УАЭ - ёУАБ.
Ое1ауЦпе[(ШЬ51 ¿е 1] рЭАТА =
рОАТА
Ве1ауЬте[сЮЬ5ие пауло =
<1УАО
Рисунок 7.7 - Алгоритм фильтрации выбросов УАБ
В таблице 7.3 приведены названия переменных, их назначение и начальные значения. Кроме переменных в алгоритме использованы три константы: порог выправления пауз в активное состояние (с!Воипс1[0] = 6), порог выправления активного состояния в паузу (с!Воипс1[1] = 4) и длина линии задержки (сЮЬ81ге = шах(ёВоипс![])+1).
Используемые значения констант определены экспериментально (для случая оценки качества сигналов, прошедших процедуру ежа-
тия/восстановления) и могут изменяться при реализации для лучшей синхронизации конкретных сигналов.
Работа алгоритма завершается после получения признака окончания сигнала. При этом на вход синхронизаторного блока отдается весь накопленный сигнал, если, конечно, таковой имеется, и только потом - признак окончания сигнала.
Алгоритм проверяет признак активности текущего блока сигнала. Если признак активности совпадает с текущим принимаемым состоянием, то пришедший фрейм просто добавляется в линию задержки, а первый элемент линии задержки выдается на вход синхронизаторного блока.
Таблица 7.3 - Переменные фильтра выбросов УАР
Переменная Назначение н/з 22
с1УАБ Значение признака активности, поступающее на вход алгоритма -
рЭАТА Массив отсчетов сигнала с длиной, равный фрейму УАЭ -
Признак активности участка (предшествующее значение признака активности) -1
сЮЬеп Количество последовательных фреймов с одинаковым признаком активности 0
сШОЬРгатев Общее количество фреймов, поступивших на вход алгоритма 0
Ве1ауЬте[] Линия задержки. Сохраняет признаки активности и массивы отсчетов -
Если признак активности не совпадает с текущим принимаемым состоянием, то осуществляется проверка на приход первого фрейма сигнала. Первый фрейм просто помещается в линию задержки, а его признак активности принимается за текущее состояние.
Если происходит смена активности принимаемого сигнала в процессе фильтрации, то проверяется количество фреймов сигнала, принятых в предыдущем состоянии. Если количество фреймов меньше установленного порога, то производится смена их признака активности на противоположный, если нет, то просто изменяется текущее состояние и сбрасывается счетчик фреймов, принятых в текущем состоянии. После всех операций по смене состояния фрейм помещается в линию задержки.
22 н/з - начальное значение
Для синхронизации сигналов используется пара синхронизаторных блоков, работающих с несколькими общими переменными, описанными выше. Алгоритм работы синхронизаторного блока представлен на рисунках 7.8 -7.11.
Рисунок 7.8 - Алгоритм синхронизаторного блока (начало)
Синхронизаторный блок 0 - обрабатывает эталонный сигнал, а блок 1 -тестируемый. Алгоритмы блоков идентичны, блоки используют перекрест-
ные ссылки на буфера. Т.е. в блоке 0 ХВи//егО- это буфер пауз эталонного сигнала, а ХВ1фгО - тестируемого, и наоборот: в блоке 1 ХВи$егО - буфер пауз тестируемого сигнала, а ХВи//егО - эталонного.
Рисунок 7.9 - Алгоритм синхронизаторного блока (продолжение)
Аналогично, в блоке 0 ХВи//ег\- это буфер активного эталонного сигнала, а ХВ1$ег 1 - тестируемого, и наоборот: в блоке 1 ХВг^егХ- буфер активного тестируемого сигнала, а ХВ1фг\ - эталонного.
По получению признака конца сигнала алгоритм завершает свою работу. Ветка останова представлена на рисунке 7.11.
В зависимости от признака активности УАО, сигнал помещается либо в буфер пауз, либо в буфер активного сигнала. Если размер буфера превышает пороговое значение, то производится выдача синхронизированных буферов на модуль сравнения. Ветки, выдающие синхронизацию по размеру буфера, представлены на рисунке 7.10.
После помещения сигнала в буфер проверяется текущее состояние активности сигнала. Если оно прежнее, то выполняется возврат к началу и ожидание новых данных. При изменении состояния проверяется, не была ли это первая порция данных? Если «да», то принимается ее состояние и выполняется переход на начало. Если «нет», то увеличивается признак готовности сигнала в данном состоянии, после чего проверяется, не готовы ли оба сигнала, т.е. участки активного сигнала или паузы синхронизированы. Если есть
синхронизированные фрагменты сигнала, выполняется переход к ветке, представленной на рисунке 7.9. Если нет, то изменяется состояние и выполняется переход на начало алгоритма.
Рисунок 7.10 - Алгоритм синхронизаторного блока (продолжение)
Рисунок 7.11 - Алгоритм синхронизаторного блока (окончание)
По текущему состоянию определяется, была ли найдена синхронизация для пауз или для активного сигнала. Проверяется результат синхронизации на ошибку путем сравнения с нулем размеров буферов (своего и буфера из параллельного блока) сигнала. Если хоть один из них равен нулю, то произошла ошибка синхронизации.
Если все в порядке, на вход модуля сравнения выдаются синхронизированные буфера. Если нет - то увеличивается счетчик ошибок, сбрасываются
буфера, изменяется состояние активности и выполняется возврат к ожиданию новой порции данных.
Прежде чем отдать буфера по превышению размера сегмента, производится проверка размера параллельного буфера. Если буфер параллельного блока пуст, сбрасываются буфера и увеличивается счетчик ошибок синхронизации. Если данные присутствуют в обоих буферах, синхронизированные данные передаются модулю сравнения сигналов.
Перед окончанием работы проверяется: есть ли данные в буферах пауз и буферах активного сигнала. Если есть, то соответствующие синхронизированные пары (или пара) сигналов передаются модулю сравнения. После чего модулю сравнения передается признак окончания сигнала.
Аналитический модуль
Аналитический модуль (рисунок 7.12) осуществляет раздельное сравнение совмещенных пар фрагментов активной и неактивной фазы сигнала, что позволяет повысить точность получаемой оценки.
Т]
Для каждого фрагмента определяется интегральный спектр" с использованием дискретного косинус- преобразования (ДКП). Интегрирование спектра проводится по формуле (7.3):
+ = 5/?07, где (7.3)
} = 0..]Ч/2-1 - индексы значения спектральной энергии; I - номер шага интегрирования;
N - количество отсчетов сигнала, используемых при расчете спектра; Бр1 у - получаемое усредненное значение спектра;
- усредненное значение спектра на прошлом шаге;
- значение спектра, полученное с помощью ДКП.
23 Интегральным, называется спектр, усредненный на некотором отрезке времени.
При расчете интегрального спектра перекрытие окон составляет N/2 отсчетов, на каждое окно накладывается известная оконная функция Хэм-минга (Hamming) или Блэкмана-Харриса (Blackmann-Harris).
Для всех выбранных наборов полос определяются уровни спектральной энергии на полосах. Известны группы критических полос, определенные разными авторами, исходя из различных моделей восприятия звука и речеобра-зования. О критических полосах подробно рассказывалось выше. Значения полос приведены в приложении 3.
Учет того, что полосы, определенные Покровским и Сапожковым, лучше подходят для речевых сигналов, а не для звуковых сигналов вообще, позволяет повысить точность оценки в зависимости от ее цели.
Дополнительно предлагается использовать логарифмические полосы (приложение 3), или полосы равной громкости. Идея проста: громкость про-
порциональна 10 логарифмам энергии. Для определения границ логарифмических полос используется запись фонетически представительного текста (известный текст, разработанный на кафедре фонетики СПбГУ), начитанного дикторами разного пола и возраста.
определены Сорокиным В.Н. (приложение 3). Учет резонаторных полос полезен при определении качества речевых звуковых (особенно речевых) сигналов. Резонаторные полосы могут быть использованы для определения качества воспроизведения отдельных звуков.
Дополнительно могут определяться «коэффициенты важности» полос, исходя из предположения о том, что чем меньше интегральная энергия на полосе, тем выше важность полосы для восприятия речи (приложение 3). Соответственно, для оценки качества звуковых сигналов вообще целесообразно считать полосы равно важными, а при оценке качества речевых сигналов, передаваемых по трактам переговорных устройств, учитывать коэффициенты важности.
Границы полос (начальный и конечный индексы) определяются по следующим формулам:
Резонаторные полосы24, характерные для различных звуков речи, были
БатрЬеЛсНе
, где
(7-4)
пБресЬеп - количество точек в спектре (N/2); 8атр1еКа1е - частота дискретизации сигнала; п - номер полосы.
Энергии на полосах определяются как
24 Резонаторные полосы, это частотные полосы, в которых на тех или иных звуках речи происходит усиление энергии сигнала.
=' ^ , где (7.5)
}=}-1°п
ЯРиы.г значения интегрального спектра (Бр^ равно !, полученному на последнем окне фрагмента).
Рисунок 7.13 - Алгоритм сравнения по полосам
Алгоритм сравнения по полосам (для одного набора) представлен на рисунке 7.13. Исходная оценка качества полагается равной 100%. Далее она уменьшается пропорционально различию энергий на полосах. Определяются оценки качества по каждому набору полос. Оценка качества по всем наборам полос определяется как среднее значение отдельных оценок (7.6):
м
<1(2=+—где (7.6)
№
N1: - количество используемых таблиц полос; к - номер текущей таблицы;
с1£)к - оценка, полученная для к-той таблицы полос; с1(2 - интегральная оценка по всем таблицам.
Оценка качества для каждой фазы определяется как среднее по всем парам фрагментов:
dQ,=dQ_l + ^Ql tdQ'~\ dQx = dQ{, где (7.7)
dQt- получаемое интегральное значение коэффициента потери качества; dQ,_! - интегральное значение коэффициента качества на предыдущем шаге; dQt - значение коэффициента качества на паре фрагментов с номером t; dQx - значение коэффициента качества на первой паре фрагментов; t - номер пары фрагментов.
Результирующая оценка качества по всему сигналу (dQGlobal) определяется как сумма взвешенных оценок качества активной (dQ,(Active)) и неактивной (dQt(Pause)) фаз:
dQGlobal = 0,9 • dQ, (Active) + 0,1 • dQt {Pause) (7.8)
Для определения звуковой (D) и словесной разборчивости (W) можно использовать следующие формулы:
D(S) = j-2 + j4 + 5-S , где (7.9)
S = 0,8 D2 +0,2 D4 - известная формула Покровского Н. Б. [68]:
С -6.15-5 Л
Щ5) = 1.05 1-е 1+5 . (7.10)
V
Для перехода от коэффициента потери качества к величине звуковой разборчивости используется таблица 7.4.
Таблица 7.4 - Зависимость звуковой разборчивости от оценки качества _
№ Б № сК2 Б № ВО Б
1 0,00 0 8 0,37 40 15 0,70 89
2 0,10 4 9 0,40 46 16 0,75 93
3 0,18 10 10 0,44 52 17 0,80 95
4 0,22 15 11 0,50 62 18 0,90 98
5 0,25 20 12 0,56 71 19 1,00 100
6 0,30 28 13 0,60 77
7 0,33 34 14 0,65 83
При определении значений в промежуточных точках используется интерполяция (например, интерполяционный полином Лагранжа). График зависимости (8(с1С))) представлен на рисунке 7.14.
э
Рисунок 7.14 - Зависимость слоговой разборчивости от значения оценки качества
Аналогичным образом оценки качества могут быть пересчитаны в значения оценок МОБ.
Реализация
Описанные алгоритмы реализованы в виде программы для оценки качества вокодеров и сравнения внешних исходных и тестируемых сигналов.
В качестве внешних сигналов могут использоваться произвольные сигналы, записанные с частотой дискретизации 8 кГц и разрядностью отсчетов 16 бит. Предполагается, что тестируемый сигнал получен из исходного сигнала в результате каких-либо преобразований (например, ежа-
тие/восстановление, передача по каналам связи, фильтрация). Дополнительно в качестве исходного внешнего сигнала может использоваться запись фонетически представительного текста, начитанного несколькими дикторами разного пола и возраста.
В качестве внутренних исходных сигналов (сигналов, к которым пользователь программы не имеет доступа) используются сигналы, генерируемые в соответствии с шумовой моделью (описание генератора приведено выше) и сигналы, генерируемые на основе статистической модели.
Внутренние сигналы подаются на вход реализации системы сжатия / восстановления звуковых данных, реализуемой в виде DLL с оговоренным интерфейсом. Сигнал, прошедший обработку методами содержащимися в DLL, считается тестируемым и подвергается процедуре оценки качества, описанной выше.
Предлагаемый способ оценки звуковых сигналов имеет ряд преимуществ перед известными методами измерения качества, а именно:
обладает универсальностью, т. к. позволяет судить о качестве сигналов, имеющих различное происхождение, прошедших различные процедуры обработки;
процесс оценки качества может быть оптимизирован в зависимости от целей получения оценки:
по скорости (например, возможно быстро получить грубую оценку); по типу сигнала (использование различных полос для речевых сигналов и звуковых сигналов вообще); - полученная оценка хорошо коррелирует с оценками MOS;
оценки качества, полученные для речевых сигналов, могут быть пересчитаны в значения различных видов разборчивости.
Для сравнения метода AQUA с рекомендацией ITU-T Р.562 [105] была использована речевая база данных ITU-T для тестов кодеков [97]. В таблице 7.5 приводятся суммы ошибок (модуль разности экспертного и вычисленного
значения MOS) полученные в результате работы стандартного ПО и предложенного метода.
Таблица 7.5 - Сравнение алгоритмов ITU-T Р.562 и AQUA
Язык Сумма ошибок
PESQ-MOS MOS-LQO MOS-WB-LQO AQUA
Японский 105,75 92,40 59,31 103,63
Французский 66,32 59,20 80,03 74,12
Английский 51,02 50,74 135,92 75,58
Видно, что предложенный метод дает лучшую точность оценок лишь в нескольких случаях. В данный момент ведутся работы по совершенствованию метода.
Известны результаты исследования [115], показывающего, что точность оценок алгоритмов PESQ и AQUA для GSM сетей связи совпадает, а в случае CDMA сетей точность оценок AQUA оказывается выше.
7.4 Метод NIQA
Метод NIQA (Non-Intrusive Quality Analyzer) разработан как альтернатива рекомендации Р.563 [106]. Считается, что алгоритм Р.563 обеспечивает высокий уровень корреляции автоматических оценок с экспертными. Однако простейшие тесты на речевой базе данных ITU-T для тестов кодеков [97] заставляют сомневаться в состоятельности распространяемой вместе с описанием реализации алгоритма (таблица 7.6).
Таблица 7.6 - Сравнение результатов алгоритма Р.563 с экспертными оценками_
Диапазон MOS Средняя оценка Средняя ошибка
по MOS по Р.563
4-5 4,25 2,45 1,79
3-4 3,42 1,70 1,69
2-3 2,56 1,71 0,97
1 -2 1,68 1,49 0,55
Проблема с работой распространяемой реализации алгоритма Р.563 вскрыла необходимость создания альтернативного решения.
Общая структура
№С)А [34] работает на основе базы обучаемых эталонов, названных ассоциациями. Каждая ассоциация соответствует группе файлов, имеющих близкие значения экспертных оценок и общий набор причин снижения качества звука. Для каждой ассоциации вычисляется и сохраняется в базе некоторый набор распределений значений параметров.
Работа №С)А на получение оценки качества звучания представлена на следующей схеме (рисунок 7.15).
Рисунок 7.15- Общая схема работы N10 А в режиме определения оценки качества
При загрузке звукового сигнала из него исключаются фрагменты с очень низким уровнем энергии (по пороговому значению). Исключаемые фрагменты соответствуют «абсолютной» тишине и считаются не влияющими на значение оценки качества звучания.
Далее сигнал разбивается на фреймы, используемые в алгоритме определения речевой активности (У АО). Для каждого фрейма вычисляются значения энергий, используемые для увеличения точности настройки параметров УАЭ. С помощь алгоритма УАЭ сигнал разделяется на активную/неактивную составляющие, обрабатываемые отдельно. Для активной и пассивной составляющих сигнала строятся гистограммы уровней.
С помощью дискретного косинус- преобразования (ДКП) формируется спектр сигнала. Для фреймов активной составляющей выполняется проверка на наличие тонального набора. Фреймы, похожие на тональный набор, исключаются из обработки.
К спектру применяется первый уровень психоакустической модели, отвечающей за различные виды маскировки (включая пре- и постмаскирование), после чего сигнал разделяется на тональную и шумовую составляющие по явным пикам спектральной энергии.
Второй уровень психоакустической модели выполняет нормализацию энергий сигнала - уровни энергий переводятся в значения в фонах.
Третий уровень психоакустической модели переводит уровни громкости в количества различимых градаций громкости, что позволяет игнорировать незаметные на слух изменения.
Подробное описание психоакустической модели приведено в главе 5.
Далее выполняется разбиение спектра сигнала на критические полосы слуха и вычисление значений параметров как на полосах, так и вне полос. По полученным наборам параметров сигнала из базы выбираются ассоциации, наиболее похожие на оцениваемый сигнал - выполняется ассоциирование. Для выбранных ассоциаций определяются степени их влияния на результирующую оценку и сами значения оценок. Результирующая оценка определя-
ется как комбинация оценок для выбранных ассоциаций с соответствующими весами.
Рассмотрим подробнее элементы системы №(2А.
Расчет пороговых энергий для УАО
Исходный сигнал обрабатывается окном в 240 отсчетов, шаг обработки составляет 80 отсчетов. Для каждого фрейма рассчитывается значение энергии по формуле (7.11):
ек=Ю\ё
240
, где
(7.11)
у
ек - энергия для фрейма с номером к; У\ - отсчет с номером во фрейме;
- весовой коэффициент оконной функции.
Все вычисленные значения энергий ек сохраняются в массиве, и сортируются. Центральный элемент массива является значением медианы. Теперь пороговое значение энергии Е может быть определено по формуле (7.12):
£ = 1
2
V + ЛГ /2 N
1 "
ЛГ
N Л
, где
(7.12)
¿=1 у
N - количество фреймов в сигнале; епу2 - значение медианы.
Параметры сигнала во временной области
Параметры сигнала во временной области определяются в несколько приемов. Так на этапе настройки порогового значения энергии для УАЭ, определяются:
- среднее значение и медиана энергии исходного сигнала;
- средние значения первой и второй производных по энергии.
В процессе обработки сигнала алгоритмом УАО определяются следующие параметры:
- количество смен состояний признака активности УАО;
- количество смен состояний признака активности УАО, без учета одинарных и двойных выбросов;
- количество одинарных выбросов УАО в плюс и в минус;
- количество двойных выбросов УАО в плюс и в минус.
Для различных длительностей окон (12мс, 15мс, 20мс и ЗОмс) обработки определяются:
- средние значения и дисперсии энергий;
- количество одинарных и двойных переходов через среднее значение в плюс и в минус.
После разделения сигнала на активную/пассивную составляющие для каждой из них и для всего исходного сигнала формируются гистограммы уровней. При построении гистограммы вычисляются три вида признаков:
- обычная гистограмма уровней, считающая частотности попадания отсчетов в диапазоны значений;
- первая и вторая производные по гистограмме уровней.
Определение тонального набора
В спектре сигнала выделяются и маркируются максимумы. Если максимумов менее двух, то фрейм признается не содержащим ОТМР-набор. Иначе - анализ продолжается. Вычисляется средняя энергия максимумов. Из списка максимумов исключаются максимуму с уровнем ниже среднего. Если после проверки на энергию в списке осталось не два максимума, принимается решение о прекращении проверки.
Индексы максимумов пересчитываются в значения частот и проверяются на принадлежность к частотам, образующим ОТМИ-набор. Нижняя частота сравнивается со значениями: 697 Гц, 770 Гц, 852 Гц и 941 Гц; верхняя -1209 Гц, 1336 Гц, 1477 Гц и 1633 Гц. Точность сравнения определяется размерностью спектра. Если оба максимума совпали, проверяется соотношение энергий максимумов. Если оно попадает в допустимый диапазон значений, то фрейм считается относящимся к ОТМЕ-набору.
Следующие подряд и отнесенные к ОТМЕ-набору фреймы исключаются из обработки.
Спектральные параметры сигнала
Значения спектральных параметров рассчитываются внутри критических полос. Формируются две группы параметров: энергетические и соотношения сигнал-шум. К энергетическим параметрам относятся следующие:
- среднее на полосе;
- средняя производная в полосе;
- средняя вторая производная в полосе;
- средний хаос энергии в полосе;
- средний хаос производной в полосе;
- средний хаос второй производной в полосе.
Под «хаосом» понимается дисперсия значений в полосе. Все шесть энергетических параметров рассчитываются по трем массивам спектров: тональных компонент, шумовых компонент и без разделения. Полный комплект энергетических параметров рассчитывается и для активной, и для пассивной составляющих сигнала.
Соотношения сигнал-шум вычисляются на основании средних значений энергий активной и пассивной составляющих сигнала. Всего определяется семь значений:
- разность между средними уровнями тональных и шумовых компонент в активной части сигнала;
- разность между средними уровнями тональных и шумовых компонент в пассивной части сигнала;
- разность между средними уровнями тональных компонент активной и пассивной частей сигнала;
- разность между средними уровнями тональных компонент активной и шумовых компонент пассивной частей сигнала;
- разность между средними уровнями шумовых компонент активной и тональных компонент пассивной частей сигнала;
- разность между средними уровнями шумовых компонент активной и пассивной частей сигнала;
- разность между средними уровнями активной и пассивной частей сигнала.
Обучение параметров и расчет подобий
В базе ассоциаций для каждого параметра хранится три значения: среднее значение, дисперсия и количество переобучений. Поскольку количество обучающих данных заранее неизвестно, и предусматривается возможность дообучения системы, для вычисления среднего и дисперсии используются следующие рекуррентные формулы (7.13):
к
/-1
, где
(7.13)
к
7-1
к - номер шага обучения; Сиг - текущее значение параметра; Avg - среднее значение параметра; 01зр - дисперсия значений параметра.
Для того чтобы значение дисперсии параметра можно было использовать для вычисления подобий и оценок качества, необходимо выполнить «финализацию» вычисления дисперсии (7.14):
чтобы начать дообучение параметра, необходимо соответствующим образом модифицировать значение дисперсии (7.15):
Для определения степени подобия текущего значения параметра обученному распределению значений (Like) используется выражение (7.16):
Для определения значения подобия на соотношениях сигнал-шум выражение (7.16) непригодно, т.к. оно работает только на «убывание» с увеличением отклонения текущего значения параметра от среднего значения распределения. Однако увеличение соотношения сигнал-шум должно увеличивать подобие между двумя сигналами, поэтому вместо выражения (7.16) используется условное выражение (7.17):
Disp = Disp - Avg2 ;
(7.14)
Disp = Disp + Avg2.
(7.15)
(7.16)
Disp
(7.17)
Значения подобия по всем признакам суммируются с учетом весов. Дополнительно веса навешиваются на группы признаков: параметры во вре-
менной области, спектральные энергетические параметры и соотношения сигнал-шум.
Значения подобия рассчитываются для всех ассоциаций базы, после чего по значениям подобия выбираются N лучших ассоциаций. Значения подобия приводятся к одному порядку и определяют вклад ассоциации в результирующую оценку качества.
Для выбранных N ассоциаций рассчитываются оценки качества. При этом используются полученные значения подобий (7.16 - 7.17), но суммирование по признакам осуществляется с другим набором весов. Значение оценки качества для ассоциации определяется как (7.18):
Qual, = MinQ, + (BaseQ, - MinQ, )e0 5 wUkei , где (7.18)
1 - индекс ассоциации, для которой вычисляется оценка; wLikei - взвешенное среднее подобий по всем признакам для ассоциации 1; MinQ] - минимальное значение оценки качества при соотнесении с ассоциацией 1;
BaseQi - базовая (максимально возможная) для ассоциации 1 оценка качества; Qual] - значение оценки качества для ассоциации 1.
Результирующая оценка качества определяется как сумма взвешенных оценок качества по N лучшим ассоциациям.
Тестирование NIQA
Для испытания NIQA была использована та же речевая база 1TU-T, что использовалась для испытания реализации алгоритма Р.563. Для тестирования были использованы записи фраз на английском языке (всего 376 файлов). Все записи были разделены на 4 группы в зависимости от полученных экспертных оценок MOS. По всем группам записей были определены средние
экспертные оценки и средние оценки и ошибки №(2А (таблица 7.7). Для сравнения в таблице 7.7 также приведены средние значения ошибок, полученные при испытании алгоритма Р.563.
Таблица 7.7 - Сравнение результатов алгоритма NIQA с экспертными оценками_
Диапазон MOS Средняя оценка Средняя ошибка
по по по по
MOS NIQA NIQA Р.563
4-5 4,25 3,44 0,83 1,79
3-4 3,42 3,06 0,51 1,69
2-3 2,56 2,61 0,43 0,97
1-2 1,68 2,36 0,68 0,55
Из таблицы видно, что алгоритм NIQA позволяет получить значительно большую точность совпадения вычисляемых оценок с экспертными, чем алгоритм рекомендации Р.563. Точность алгоритма NIQA уступает точности алгоритма Р.563 только на записях с очень низкими значениями экспертных оценок (в диапазоне от 1 до 2). Во всех остальных случаях точность оценок NIQA оказывается в 2 - 3 раза выше. 7.5 Метод RecQual
Метод RecQual (Recognition + Quality), также как и NIQA, предложен в качестве решения альтернативного рекомендации Р.563. Кроме того, предлагаемый метод является примером применения системы распознавания речи для решения практических задач.
Общая схема метода
Метод RecQual позволяет решить задачу оценки качества передачи речи имея лишь сигнал на выходе системы. Более того, в некоторых случаях с его помощью можно определить причины ухудшения качества связи. Предлагаемая схема обработки представлена на рисунке 7.16.
Рисунок 7.16 - Схема обработки по методу КесС)иа1
Звуковой поток с выхода оцениваемой системы передачи речи поступает на вход системы оценки качества передачи, выполняющей следующие действия:
1) Распознавание входящего речевого потока в терминах произвольной звуковой последовательности, доступной в языке. В качестве базовых алгоритмов распознавания целесообразно использовать хорошо разработанный инструментарий скрытых Марковских цепей. Модели звуков речи обучаются по телефонным записям с высоким качеством. Для «обучения» грамматики используются транскрипции большого количества диалогов.
2) Статистический анализ потока распознанных фонем: определяются относительные частотности фонем. Полученная статистическая информация оформляется в вектор признаков и передается классификатору по качеству.
3) Определяется степень соответствия полученного вектора статистических параметров набору классов качества сигнала.
4) Выполняется анализ возможных причин ухудшения качества передачи речи на основе экспертных правил и классификаторов, учитывающих характер искажений отдельных звуков и их групп.
Основу предлагаемого метода составляет гипотеза о зависимости распознаваемости отдельных звуков речи от качества передачи речевого сигнала.
Для проверки состоятельности предлагаемого метода был проведен пилотный эксперимент.
Пилотный эксперимент
Для обучения классов качества сигнала использовалась выборка из речевой базы данных ITU-T для тестов кодеков [97]. Все файлы были разделены на обучающую и тестовую выборку. В тестовую выборку было включено 20 файлов (с различными оценками качества), остальные составили обучающую выборку. Файлы обучающей выборки были разделены на 4 класса (таблица 7.8).
Таблица 7.8 - Обучаемые классы качества сигнала
Номер Диапазон Кол-во фай-
класса оценок лов
1 1,0-2,0 54
2 2,0-3,0 151
3 3,0-4,0 114
4 4,0-4,5 45
Далее все обучающие файлы были распознаны в терминах звуков речи и специальных звуков. Для проведения эксперимента было использовано инженерное ПО, разработанное в компании ООО "Вокатив", позволяющее распознавать звуковые последовательности в терминах звуков речи. При распознавании использовалась простейшая грамматика, описывающая произвольную последовательность звуков (без ограничений на порядок следования и количество реализаций).
При распознавании использовались акустические модели на основе НММ. Декодирование выполнялось по модифицированному алгоритму Ви-терби [36, 40, 41, 48]. Описание декодера и моделей выходит за рамки данной работы.
Для каждого звука было вычислено среднее значение (Avg) и дисперсия (01зр) количества вхождений. Результаты по классам приведены в таблице 7.9.
Таблица 7.9 - Статистические параметры классов звуков
Класс № 1 2 3 4
Звук Avg 01яр Avg 01БР Avg 015р Avg Б15р
¡1 3,400000 1,466667 5,400000 1,733333 5,766667 1,966667 5,933333 2,066667
и 1 56,366667 6,700000 50,000000 6,533333 34,866667 5,400000 36,266667 5,400000
а1 35,233333 5,366667 19,400000 4,133333 40,000000 5,666667 38,566667 5,566667
1 2,633333 1,166667 4,433333 1,433333 6,533333 1,533333 6,266667 2,000000
Ь' 1,033333 0,633333 0,600000 0,466667 0,533333 0,400000 1,166667 0,700000
Г 3,433333 1,233333 3,900000 1,300000 7,166667 1,566667 4,566667 1,500000
2? 6,700000 1,833333 4,000000 1,533333 2,700000 1,100000 1,233333 0,766667
Ь' 0,900000 0,500000 0,766667 0,566667 0,666667 0,466667 0,333333 0,266667
У: 0,600000 0,266667 0,233333 0,166667 0,033333 0,033333 0,233333 0,166667
$ 0,300000 0,233333 0,033333 0,033333 0,533333 0,333333 0,466667 0,400000
р' 4,500000 1,700000 5,100000 1,766667 4,766667 1,700000 5,500000 2,033333
к' 2,466667 1,200000 2,966667 1,300000 2,400000 1,200000 3,000000 1,266667
\У 2,266667 1,133333 2,133333 1,000000 3,533333 1,400000 2,666667 1,066667
X 0,433333 0,233333 0,733333 0,400000 0,766667 0,500000 1,500000 0,700000
Ь 26,066667 4,333333 18,666667 3,866667 15,266667 3,333333 12,333333 3,066667
т' 1,100000 0,700000 2,900000 1,100000 3,666667 1,200000 2,200000 1,066667
V' 0,100000 0,100000 0,466667 0,333333 0,100000 0,100000 0,633333 0,433333
8 7,033333 1,966667 6,700000 1,966667 3,166667 1,166667 3,200000 1,333333
Ь 2,866667 1,266667 1,033333 0,700000 0,933333 0,600000 1,566667 0,833333
Г 6,933333 2,000000 3,200000 1,133333 4,500000 1,700000 6,866667 2,200000
сГ 0,200000 0,133333 0,233333 0,166667 0,700000 0,433333 0,433333 0,366667
сЬ 1,566667 0,700000 1,600000 0,666667 1,833333 0,766667 0,633333 0,433333
г 0,866667 0,600000 1,333333 0,800000 1,166667 0,700000 2,233333 1,100000
с 0,833333 0,366667 0,300000 0,166667 0,200000 0,200000 0,466667 0,333333
У 2,900000 1,166667 2,233333 0,966667 4,300000 1,366667 1,866667 1,000000
Б' 0,000000 0,000000 0,100000 0,100000 0,133333 0,133333 0,233333 0,233333
] 10,600000 2,266667 6,966667 2,033333 8,433333 2,166667 4,066667 1,466667
г' 3,300000 1,166667 3,466667 1,200000 1,966667 0,966667 4,966667 1,833333
с1 1,133333 0,600000 0,833333 0,633333 0,733333 0,533333 1,266667 0,733333
1' 0,833333 0,500000 0,366667 0,233333 0,533333 0,400000 0,366667 0,300000
III 32,966667 3,966667 18,333333 2,600000 6,566667 1,766667 3,633333 1,500000
п' 0,566667 0,366667 0,566667 0,366667 0,566667 0,366667 0,200000 0,200000
1' 0,666667 0,466667 0,800000 0,533333 0,666667 0,466667 1,866667 0,866667
р 9,433333 2,500000 5,700000 1,833333 6,866667 2,066667 9,533333 2,400000
к 27,600000 4,200000 21,733333 3,866667 22,000000 3,800000 10,433333 2,900000
с 1,533333 0,733333 0,600000 0,466667 1,433333 0,833333 1,633333 0,766667
V 7,733333 2,333333 5,333333 1,800000 7,400000 2,000000 4,333333 1,800000
0 7,100000 2,233333 5,700000 1,900000 5,700000 2,033333 9,966667 2,766667
и 2,600000 0,866667 2,666667 1,200000 2,166667 1,100000 5,600000 1,933333
@ 9,200000 2,466667 13,033333 2,900000 7,666667 2,533333 12,266667 3,066667
Б 0,800000 0,400000 0,866667 0,400000 0,533333 0,400000 0,766667 0,566667
а 8,300000 1,900000 7,500000 2,100000 9,233333 2,500000 13,366667 3,300000
г 3,466667 1,466667 5,200000 1,466667 4,366667 1,300000 5,533333 1,800000
1 7,933333 2,000000 3,933333 1,400000 4,300000 1,633333 6,866667 2,066667
п 2,000000 0,800000 2,100000 0,833333 1,333333 0,666667 2,600000 1,133333
> 7,000000 2,000000 4,066667 1,400000 3,300000 1,366667 5,166667 1,766667
Для расчета средних и дисперсий использовались рекурентные формулы 7.13.
Далее были распознаны тестовые файлы и для них определены количества звуков (в пилотном эксперименте использованы абсолютные значения, т.к. звуковые файлы имеют одинаковую длительность). По полученным значениям были вычислены коэффициенты подобия тестируемых файлов классам качества звука.
Для определения коэффициента подобия для одного звука используется выражение (7.16).
Таблица 7.10 - Результаты эксперимента
Файл МОБ КО Ошибка Р.563 Ошибка
ОЕ1Р6412 3,75 4,04 -0,29 1,302724 2,45
ОЕ1Р6Е22 2,833333 2,30 0,53 1,749148 1,08
ОЕ1Р7С36 2,041667 1,88 0,16 1,000000 1,04
ОЕ1Р8Р11 3,708333 2,97 0,74 1,520921 2,19
ОЕ1Р9214 3,041667 2,97 0,07 1,402547 1,64
ОЕШООВ 3,083333 2,32 0,77 1,000000 2,08
ОЕ1М1622 2,208334 1,88 0,33 1,000000 1,21
ОЕ1М2335 1,708333 1,88 -0,17 1,000000 0,71
ОЕ1М2739 3,208333 2,32 0,89 1,317142 1,89
ОЕ1М3509 4,166668 3,60 0,56 2,125988 2,04
ОЕ1РА735 1,375000 1,88 -0,51 1,188159 0,19
ОЕЗР6905 2,875000 2,11 0,77 1,951889 0,92
0ЕЗР7025 1,958333 2Д1 -0,15 1,251614 0,71
ОЕЗР9246 4,375000 2,32 2,06 2,745754 1,63
ОЕЗР9701 3,750000 2,95 0,80 1,566980 2,18
ОЕЗМ2840 2,666667 3,60 -0,94 1,860689 0,81
ОЕЗМ2С44 4,166667 4,04 0,13 2,454759 1,71
ОЕЗМ4115 1,708333 1,88 -0,17 3,035212 -1,33
ОЕЗМ4519 2,500000 2,97 -0,47 2,278475 0,22
ОЕЗМ5434 3,541667 2,11 1,44 1,416380 2,13
Среднее 0,60 1,41
Значение подобия по файлу определяется как сумма значений подобий по всем звукам. Для каждого тестового файла определяются два класса имеющих максимальные подобия С1 и С2. Оценка качества для тестового файла 11С) определяется как (7.19):
= 0,75 • Ау£М<95(С1)+0,25 • /^МОБ{С2), где
(7.19)
AvgMOS(X) средняя оценка MOS для группы X.
В таблице 7.10 представлены оценки, полученные для выбранных тестовых файлов.
Результаты сравнения со стандартом Р.563
Сравнение метода RecQual со стандартом измерения Р.563 по таблице 7.11 показывает, что среднее отличие RQ оценки от экспертной в два раза меньше, чем у принятой рекомендации Р.563, которая обеспечивает высокий уровень корреляции автоматических оценок с экспертными. Следовательно основная гипотеза метода верна, а предложенный метод адекватен и применим. Однако требуются дополнительные исследования и учет дополнительных параметров сигнала для повышения точности и осмысленности оценок.
Таблица 7.11 - Сравнение результатов алгоритмов RecQual и Р.563 с экспертными оценками_
Диапазон MOS Средняя оценка Средняя ошибка
MOS RQ RQ Р.563
4-5 4,24 3,32 0,92 1,79
3-4 3,44 2,81 0,71 2,08
2-3 2,52 2,56 0,53 0,88
1-2 1,69 1,94 0,25 0,74
В качестве дополнительных параметров могут использоваться распределения длительностей и энергий отдельных звуков, а также встречаемость звукосочетаний.
Дополнительно необходимо сформировать набор экспертных правил, позволяющих определять причины искажений и выдавать более информативные отчеты по оценке качества звукового сигнала.
В базовой модификации метод RecQual рассчитан на работу с речевыми данными, однако возможно его расширение и на весь спектр звуковых сигналов, и это еще одно возможное направление дальнейших исследований.
7.6 Выводы
Проведен анализ основных особенностей стандартных методов оценки качества передачи речевых сигналов, предложена классификация методов. Обоснована необходимость разработки новых методов оценки качества, позволяющих получать оценки с большей точностью.
Предложен метод оценки качества AQuA (Audio Quality Analyzer) -представляющий собой альтернативу стандартным методам оценки качества, зафиксированным в рекомендациях ITU-T Р.861и Р.862. Метод AQuA можно рекомендовать для оценки качества связи в CDMA сетях, т.к. согласно исследованию [115] в этом случае точность оценок AQUA превосходит точность оценок PESQ.
Предложен метод NIQA (Non-Intrusive Quality Analyzer) в качестве альтернативы стандарту Р.563. Проведенные эксперименты показали, что точность метода NIQA уступает точности алгоритма Р.563 только на записях с очень низкими значениями экспертных оценок (в диапазоне от 1 до 2). Во всех остальных случаях точность оценок NIQA оказывается в 2 - 3 раза выше.
Предложен метод оценки качества RecQual (Recognition + Quality). Сравнение результатов работы предложенного метода со стандартом измерения Р.563 показывает, что среднее отличие RQ оценки от экспертной в два раза меньше, чем у принятой рекомендации Р.563, которая обеспечивает высокий уровень корреляции автоматических оценок с экспертными. Следовательно, основная гипотеза метода верна, а предложенный метод адекватен и применим. Однако требуются дополнительные исследования и учет дополнительных параметров сигнала для повышения точности и осмысленности оценок.
Заключение
Анализ существующих разработок показал, что на сегодняшний день российский рынок программных средств распознавания речи представлен единичными разработками. В России было создано лишь несколько коммерческих систем распознавания русской речи. В основном они обеспечивают распознавание небольшого словаря (до 200 слов) и рассчитаны на организацию речевых запросов к базам данных и для голосового управления оборудованием. В таблице приведены наиболее известные из этих систем.
Составить объективную картину по существующим промышленным продуктам в области распознавания речи не представляется возможным. Коммерческие организации, как правило, либо не указывают параметры надежности работы или же предоставляют данные, которые носят не объективный, а рекламный характер.
Следует признать, что представленные па сегодняшний день на российском рынке системы распознавания русской речи либо не позволяют в полной мере решать все задачи организации интерактивных голосовых сервисов, либо не позволяют делать этого с должным качеством.
Необходимо также отметить существование ряда некоммерческих проектов с открытым исходным, предоставляющих набор базовых инструментов для построения систем распознавания речи. К ним относятся: НТК - система, разработанная в Кембриджском университете (Англия); система Sphinx, созданная в университете Карнеги-Меллона (США); и система Kaldi, начатая в университете Джона Хопкинса (США) и продолженная в Технологическом университете Брпо (Чехия). Однако все они не ориентированы на распознавание русской речи.
Это объясняется отсутствием необходимой теоретической базы, позволяющей решать задачи организации интерактивных голосовых сервисов с должным качеством.
В связи с этим отсутствие теоретических основ распознавания русской речи с учетом особенностей строения и восприятия речевого сигнала являет-
ся насущной проблемой на современном этапе развития информатизации страны.
Это делает актуальным решение сложной научной проблемы разработки и обоснования обобщенного описания методов и моделей распознавания русской речи.
В результате изучения существующих систем распознавания были выявлены классификационные признаки и предложена классификация систем распознавания речи (глава 1). На основе предложенной классификации была выполнена классификация разработанной системы распознавания и выбрана ее структура. Была поставлена задача разработки дикторонезависимой системы распознавания слитной речи и ключевых слов с большим словарем, определяемым переменным комплектом фиксированных грамматик, использующая в качестве эталонов элементы слов, которая и была решена в процессе выполнения работы.
В процессе исследования были предложены модели звуков речи, учитывающие структуру звуковой волны, и выполнена оптимизация предложенных моделей. Проведенные эксперименты показали прирост процента точности распознавания при использовании предложенных моделей.
В будущем возможно расширение списка фонем (или их комбинаций), используемых при распознавании. Потребуется создать модели, учитывающих структуру звуковой волны, соответствующую нововведенным фонемам.
Для устранения одного из недостатков НММ была предложена модель длительности звуков речи и алгоритмы учета длительности в системе распознавания. В процессе выполнения работы модель была расширена и позволила получить устойчивое увеличение точности распознавания.
Развитие модели возможно за счет совершенствования способов учета длительности звуков речи в алгоритмах распознавания, повышение точности описания зависимости вероятности появления звуков от различных факторов. Исследование факторы, влияющих на длительность звуков, и их учет в модели, также являются направлением дальнейшего развития.
Обучение звуковых моделей проводится на больших звуковых базах данных, содержащих сотни часов записей речи множества дикторов, и фонетическую транскрипцию этих записей. В работе предложен способ автоматизации аннотирования речевых баз, позволяющий сократить долю ручного трута и увеличить скорость подготовки обучающих данных.
Использование транскрипционного моделирования в процессе аннотирования речевых баз позволяет сформировать различные возможные варианты произношения текста записи и выбрать в процессе обучения вариант, наиболее близкий к реально реализованному.
Применение предложенных способов увеличивает точность обучения моделей и качество распознавания, что подтверждается проведенными экспериментами.
Дальнейшее пополнение списка правил транскрипционного моделирования позволит повысить как точность автоматизированного аннотирования, так и точность распознавания.
Слуховая система человека чрезвычайно тонкий аппарат, имеющий ограничения в восприятии частотного диапазона, разрешающей способности, обладающий нелинейными свойствами. Для учета особенностей восприятия звукового сигнала человеком в работе предложена психоакустическая модель.
Проведенные эксперименты показали общую эффективность предложенной психоакустической модели, а также выявили ее «узкие места»
и необходимость дальнейшего исследования свойств восприятия звуковых сигналов.
Предложена статистическая модель речи, основная идея которой заключается в создании «слепка» современного состояния русского языка, на основании которого через несколько сотен лет потомки смогут сказать, что и как говорили, какими голосами, с какими интонациями. На основе сформулированных идей реализована упрощенная статистическая модель, нашедшая применение в системе синтеза речи по тексту и в качестве одного из источников звукового сигнала в системе оценки качества передачи речи.
Реализация полной статистической модели - одно из возможных направлений дальнейшего развития работы.
Речевая аналитика позволяет сократить количество ручной работы, при анализе звукозаписей. Так, например, записи могут быть предварительно сгруппированы по наличию в них определенных наборов ключевых слов. В процессе создания системы поиска ключевых слов была предложена модель усредненной речи. Проведенные эксперименты доказывают эффективность предложенной модели усредненной речи.
Совершенствование модели усредненной речи и способов определения параметров поиска ключевых слов может стать направлением развития работы.
Занимаясь обработкой речевых сигналов - передачей, сжатием, синтезом и распознаванием - постоянно приходится сталкиваться с необходимостью давать различные оценки ее качества. В работе предложены 3 способа оценки качества передачи речи: AQuA, NIQA и RecQual.
Способы AQuA и NIQA нашли широкое практическое применение и зафиксированы в патентах РФ (№2312405 и №2435232). Способ RecQual
является результатом поиска новых областей применения систем распознавания речи.
Проведенные эксперименты показали эффективность предложенных способов оценки качества передачи речи.
Однако уже сейчас ведутся работы по развитие предложенных методов, направленные на повышение точности оценок за счет разделения акустических моделей по полу диктора и языку речи.
В диссертации содержится постановка и решение крупной научной проблемы - создание теоретических основ распознавания русской речи с учетом особенностей строения и восприятия речевого сигнала и на этой основе разработка методов и моделей распознавания русской речи в информационных системах, имеющей важное хозяйственное и культурное значение.
Получены следующие основные результаты, обеспечивающие достижение цели диссертационного исследования:
1. Разработана, экспериментально обоснована и исследована статистическая модель длительностей звуков русской речи; разработаны классификация и модели звуков русской речи, учитывающие структуру звуковой волны, использованные в разработанных программных средствах распознавания речи и поиска ключевых слов.
2. Разработана концепция статистической модели речи, представляющей собой универсальную речевую базу данных и знаний современного состояния языка, позволяющая проводить фундаментальные исследования и решать прикладные задачи.
3. Предложен метод транскрипционного моделирования, позволяющий учитывать вариативность звукового состава произносимых высказываний в системах распознавания речи и при подготовке речевых баз данных.
4. Разработаны метод и программные средства автоматизации аннотирования речевых баз данных, сокращающие долю ручного труда по обработке и анализу исходных звуковых данных.
5. Предложена психоакустическая модель и программные средства предварительной обработки звукового сигнала, позволяющие исключить из его дальнейшего анализа компоненты, несущественные для восприятия.
6. Разработаны модель усредненной речи и методика ее построения, основанная на автоматизированном обучении по речевой базе, экспериментально подтверждена эффективность их применения для поиска ключевых слов.
7. Разработаны методы и программные средства оценки качества передачи речи, позволяющие контролировать качество речевого сигнала, в том числе и с использованием средств распознавания речи.
8. В результате экспериментальных исследований с применением разработанных программных средств подтверждена эффективность предложенных методов, моделей и алгоритмов распознавания, анализа и обработки речевых сигналов.
Полученные результаты соответствуют паспорту специальности
05.13.01 «Системный анализ, управление и обработка информации (связь и
информатизация)».
Список литературы диссертационного исследования кандидат наук Гусев, Михаил Николаевич, 2014 год
Использованная литература
1. Алгоритмический язык АЛГОЛ-60. М., 1965
2. Анализатор качественных показателей передачи речи, DSLA II - Digital Speech Level Analyser [Электронный ресурс] / УП "ОПАТОВ" // Режим доступа: http://www. opatov.ru/content/view/125/64/lang, ru/
3. В России заработал первый развлекательный голосовой портал с распознаванием русской речи [Электронный ресурс] / июнь 2004 // Режим доступа: http://www.comptek.ru/box/telcphony/news/894
4. Компания Forte-IT при поддержке CompTek запускает первый в России голосовой портал с распознаванием русской речи [Электронный ресурс] / июнь 2004 // Режим доступа: http://ct.fortc-it.ru/info/news/104/
5. Методы автоматического распознавания речи / Пер. с англ. под ред. У. Ли., Москва, "Мир", 1983
6. Методы автоматического распознавания речи / Пер. с англ. под ред. У. Ли., Москва, "Мир", 1983
7. Пакет Программ для анализа, редактирования и цифровой обработки сигналов EDSW версия 1.043 [Электронный ресурс] / Режим доступа: http://www.dsp.sut.ru/rus/products/cdsw/index.html
8. Пат. 2296377 Российская Федерация, МПК G 10 L 19 / 14 (2006.01). Способ анализа и синтеза речи, Гусев М. Ii., Дегтярёв В.М., Ситников В.В.; заявитель и патентообладатель Гусев М.Н. - № 2005118283/09; заявл. 14.06.2005; опубл. 27.03.2007, Бюл. №9 - 2с : ил.
9. Пат. 2312405 Российская Федерация, МПК G 10 L 19 / 02 (2006.01), G10L15/00 (2006.01). Способ осуществления машинной оценки качества звуковых сигналов, Гусев M. Н., Дегтярёв В.М., Жарков И.В.; заявитель и патентообладатель Гусев М.Н. - № 2005128572/09; заявл. 13.09.2005; опубл. 10.12.2007, Бюл. №34(ч.2) - 2с : ил.
10. Пат. 2386178 Российская Федерация, МПК G 10 L 13 / 08 (2006.01), G 06 F 17 / 21 (2006.01). Способ предварительной обработки текста, Гусев M. Н., Егорова О.Б., Смирнов В.А.; заявитель и патентообладатель Общество с Ог-
раниченной Ответственностью "ВОКАТИВ" - №2007143417/09; заявл. 22.11.2007; опубл. 10.04.2010, Бюл. №10-2с : ил.
11. Пат. 2435232 Российская Федерация, МПК G 10 L 15 / 14 (2006.01). Способ машинной оценки качества передачи речи, Гусев М. Н.; заявитель и патентообладатель Гусев М. Н. - №2010133428/08; заявл. 09.08.2010; опубл. 27.11.2011, Бюл. №33-2с : ил.
12. Пат. 60767 Российская Федерация, МПК G 09 В 19 / 22 (2006.01). Устройство развивающей аудиоигры (варианты), Жарков И.В., Гусев М. Н., Ситников В. В.; заявитель и патентообладатель Жарков И. В., Гусев М. Н., Ситников В. В. - №2006129334/22; заявл. 11.08.2006; опубл. 27.01.2007, Бюл. №3(ч.2) - 2с : ил.
13. Пат. 61924 Российская Федерация, МПК G 10 L 21 / 00 (2006.01). Статистическая модель речи, Гусев М. Н., Жарков И.В., Ситников В.В.; заявитель и патентообладатель Гусев М. Н. - №2006108050/22; заявл. 14.03.2006; опубл. 10.03.2007, Бюл. №7(ч.2) - 2с : ил.
14. Речь. Артикуляция и восприятие / Ленинград, Наука, 1965
15. Труды ВКАС, Л., 1951, вып. 29, 30
16. Труды ВКАС, Л., 1952, вып. 33
17. Труды ВКАС, Л., 1954, вып. 40
18. Аведьян Э.Д. Автономные алгоритмы настройки нейронных сетей / Аведьян Э.Д., Коваленко М.Л., Цитоловский Л.Е., Цыпкин Я.3. // Тр. Международной конференции «Математика, компьютер, управление и инвестиции», М., Гарант, 1993, стр. 2-11
19. Аграновский A.B. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов / Аграновский A.B., Леднов Д.А. // Москва, «Радио и связь», 2004
20. Айвазян С.А. Прикладная статистика. Основы моделирования и первичная обработка данных / Айвазян С.А., Енюков И.С., Мешалкин Л.Д. // Москва, Финансы и статистика, 1983
21. Алдошина И. А. Музыкальная акустика. Учебник для ВУЗ / Алдошина И. А., Приттс Р. // СПб, «Композитор», 2006
22. Алдошина И. А. Основы психоакустики [Электронный ресурс] / Алдошина И. А. // E65http://www.625-net.ru
23. Бабин Д.Н. О перспективах создания системы автоматического распознавания слитной устной русской речи / Бабин Д.Н., Мазуренко И.Л., Холоденко
A.Б. //Интеллектуальные системы, т.8, вып. 1-4, 2004, стр. 45-70
24. Бабкин A.B. Особенности применения технологии TD-PSOLA для модификации характеристик вокальных аллофонов / Бабкин A.B. // Диалог'2000. Прикладные проблемы
25. Баранников В.А. Пакет программ построения систем распознавания речи / Баранников В.А., Кибкало A.A. // Труды III Всероссийской конференции "Теория и практика речевых исследований" АРСО-2003. Москва, МГУ им. М.В. Ломоносова, сентябрь 2003, стр. 7-12
26. Бовбель Е.И. Нейронные сети в системах распознавания речи / Бовбель Е.И., Паршин В.В.
27. Бондаренко И.Ю. Метод нечёткого сопоставления образов для распознавания русскоязычных команд управления текстовым редактором / Бондаренко И.Ю., Федяев О.И. // Сб. трудов I междунар. студ. научно-гехн. конференции «Информатика и компьютерные технологии 2005». - Донецк: ДонНТУ, 2005. - 223 - 224 с.
28. Бондарко Л.В. Фонетика современного русского языка: Учебное пособие / Бондарко Л.В. // СПб., изд-во С.-Петербург, ун-та, 1998
29. Вемян Г.В. Передача речи по сегямэлектросвязи / Вемян Г.В. // М., "Радио и связь", 1985
30. Винцюк Т.К. Распознавание слов устной речи методами динамического программирования / Винцюк Т.К. // Кибернетика, 1968, №1, стр. 15-22
31. Вудс В.А. Сетевые грамматики для анализа естественных языков. / Вудс
B.А. // Кибернетический сборник. Новая серия. - М.:Мир, 1978.-вып. 13. Стр. 120-158
32. Гуннар Ф. Акустическая теория речеобразования / Гуннар Ф. // под ред.
B.А. Григоровича/ Москва, "Наука", 1964
33. Гусев М. Н. AQuA-SE / Свидетельство о государственной регистрации программы для ЭВМ №2014610633 от 15.01.2014
34. Гусев М. Н. NIQA-SE / Свидетельство о государственной регистрации программы для ЭВМ №2014611132 от 24.01.2014
35. Гусев М. Н. PsyFilter / Свидетельство о государственной регистрации программы для ЭВМ №2014610248 от 09.01.2014
36. Гусев М.Н. Автоматизация аннотирования звуковых баз слитной речи / Гусев М.Н., Дегтярев В.М., Семенов H.H. // Труды учебных заведений связи, СПбГУТ. СПб, 2008, №178 - С. 13-20
37. Гусев М.Н. Выделение ключевых слов / Гусев M.IL, Дегтярев В.М. // Речевые технологии, Издательский дом "Народное образование", М., 2012 № 1.
C. 15-21
38. Гусев М.Н. Детализация моделей звуков русской речи, учитывающих особенности артикуляции / Гусев М.Н., Дегтярев В.М., Семенов H.H. // Труды учебных заведений связи, СПбГУТ. СПб, 2008, № 179 - С.24-31
39. Гусев М.Н. Компьютерная статистическая модель русского языка / Гусев М.Н., Смирнов В.А., Дегтярев В.М. // Труды учебных заведений связи, СПбГУТ. СПб, 2006. № 174. С. 129 -135
40. Гусев М.Н. Моделирование длительности звуков в системе распознавания речи / Гусев М.Н., Дегтярев В.М. // Вопросы радиоэлектроники, серия Общетехническая, 2010, вып. 2, стр. 106-115
41. Гусев М.Н. Оптимизация системы распознавания речи с учетом особенностей артикуляции / Гусев М.Н., Дегтярев В.М., Семенов H.H. // Труды учебных заведений связи, СПбГУТ. СПб, 2007, №177 - С.20-24
42. Гусев М.Н. Оценка качества восстановленной и синтетической речи / Гусев М.Н., Дегтярев В.М. // Труды учебных заведений связи СПбГУТ / СПб., 2005, №172, стр.64-72
43. Гусев М.Н. Практическое применение статистической модели русского языка / Гусев М.Н., Дегтярев В.М., Смирнов В.А., Жарков И.В. // 58 научно-техническая конференция профессорско-преподавательского состава научных сотрудников и аспирантов. Санкт-Петербург, 2006, стр. 137 - 138
44. Гусев М.Н. Психоакустическая модель в системе распознавания речи / Гусев М.Н. // Системы управления и информационные технологии, №1(55), 2014, стр. 125-131
45. Гусев М.Н. Расчет и измерение качества речевых сигналов / Гусев М.Н., Дегтярев В.М. // Геликон Плюс, СПб., 2008, 275с
46. Гусев М.Н. Расширенная модель длительности звуков для системы распознавания речи / Гусев М.Н. // Современное машиностроение. Наука и образование: Материалы 3-й Междунар. науч.-практ. Конференции, Под ред. М.М. Радкевича и А.II. Евграфова. - СПб.: Изд-во Политехи, ун-та, 2013. -С.1112- 1121
47. Гусев М.Н. Система распознавания речи: Основные модели и алгоритмы / Гусев М.Н., Дегтярев В.М. // ООО «К-8», СПб., 2013
48. Гусев М.Н. Увеличение производительности системы распознавания речи / Гусев М.Н., Дегтярев В.М. // Вопросы радиоэлектроники", серия Общетех-пическая, 2010, вып. 2, стр. 115-126
49. Джеймс JI. Флапаган Анализ, синтез и восприятие речи / Джеймс JI. Фла-наган // Перевод с английского под ред. A.A. Пирогова, М. Связь, 1968
50. Иванов П. Измеряемый голос [Электронный ресурс] / Иванов П. // "Сети", "Открытые системы", 2004 №08 - Режим доступа: http://www.osp.ru/ncts/2004/08/151691; http://www.osp.ru/nets/2004/08/151691/_p2.html
51. Киедзи Асаи Распознавание речи / Киедзи Асаи, Дзюндзо Ватада, Сокуке Иваи и др. // Прикладные нечеткие системы. Под редакцией Т.Тэрано, К.Асаи, М.Сугено. - М.: «Мир», - 1993. - с.157-170
52. Ковалгип Ю.А. Цифровое кодирование звуковых сигналов / Ковалгин Ю.А., Вологдин Э.И. // КОРОНА принт / СПб 2004
53. Косарев Ю.А. Естественная форма диалога с ЭВМ / Косарев Ю.А. // Ленинград, "Машиностроение", 1989
54. Косарев Ю.А. Экспериментальное исследование алгоритмов нормализации темпа речи / Косарев Ю.А., Виноградов С.В. // Автомат. Распознавание слуховых образов: Тез. Докл. на 14 Всесоюз. Семинаре АРСО-14, Каунас, 1986, 4.1, стр.76-77
55. Криштоп A.B. Методы выделения основного тона речевого сигнала и способы его модификации / Криштоп A.B. // Материалы XXVI межвузовской научно-методической конференции преподавателей и аспирантов, выпуск 5, СПб., 1997
56. Кудрявцева М.П. Язык представления контекстных правил для частереч-ной разметки / Кудрявцева М.П. // СПбГУ, Филологический факультет, Дипломная работа, СПб., 2003
57. Кулагина О.С. Исследования по машинному переводу / Кулагина О.С. // М.: Наука, 1979
58. Мазуренко И.Л. Компьютерные системы распознавания речи / Мазуренко И.Л. // Интеллектуальные системы, т.З, вып. 1-2, Москва, 1998, стр. 117-134.
59. Маркел Дж. Д. Линейное предсказание речи / Маркел Дж. Д., Грей А. X. // Перевод с англ. под ред. Ю.Н. Прохорова и В.А. Звездина // М., Связь, 1980
60. Марков A.A. Об одном применении статистического метода / Марков A.A. // Доклад в Академии Наук от 17 февраля 1916 года
61. Марков A.A. Пример статистического исследования над текстом «Евгения Онегина», иллюстрирующий связь испытаний в цепь / Марков A.A. // Известия Академии наук. СПб. VI. Т. 7. 1913. №3. С. 153-162
62. Митропольский А.К. Элементы математической статистики / Митрополь-ский А.К. // Ленинград, ЛТА, 1969
63. Михайлов В.Г. Измерение параметров речи / Михайлов В.Г., Златоустова Л.В. // под редакцией Сапожкова М.А., Москва, "Радио и связь", 1987
64. Морозов М.Н. Курс лекций по дисциплине "Системы искусственного интеллекта" [Электронный ресурс] / Морозов М.Н. // Режим доступа: http://khpi-iip.mipk.kharkiv.edu/library/ai/conspai/10.html#part_9
65. Мясников JI.JT. Звуки речи и их объективное распознавание / Мясников Л.Л. // Вестник ЛГУ. 1946, 3
66. Нгуен М. Т. Обнаружение новых слов и невербальных событий при распознавании речи / Нгуен М. Т. // Модели, методы, алгоритмы и архитектуры систем распознавания речи, ВЦ РАН им. A.A. Дородницына, М., 2006, стр. 119-137
67. Обжелян Н.К. Машины, которые говорят и слушают / Обжелян Н.К. Тру-нин-Донской В.II. // под. Ред. Ю.И. Журавлева, Кишинев "Штиинца", 1987
68. Покровский Н. Б. Расчет и измерение разборчивости речи / Покровский Н. Б. // М. Связьизтат, 1962
69. Ронжин А.Л. Автоматическое распознавание русской речи / Ронжин А.Л., Ли И.В. //ВестникРАН, том 77, № 2, 2007, стр. 133-138
70. Ронжин А.Л. Речь и компьютер: XI Международная конференция / Ронжин А.Л. //Вестник РАН, том 76, №11, 2006, стр 1037-1039
71. Сапожков М.А. Речевой сигнал в кибернетике и связи / Сапожков М.А. // Москва, "Связьиздат", 1963
72. Секунов ILIO. Обработка звука на PC / Секунов Н.Ю. // СПб., БХВ-Петербург, 2001
73. Сергиенко А.Б. Цифровая обработка сигналов / Сергиенко А.Б. // СПб.:Питер, 2002
74. Скрелин П.А. Сегментация и транскрипция / Скрелин П.А. // СПб, 1999
75. Скрелин П.А. Фонетические аспекты речевых технологий: Автореф. дис. : доктор, филолог, наук / Скрелин П.А. // СПбГУ - СПб, 1999
76. Смирнов В. А. Функция модуля акустического моделирования в системе автоматического анализа неструктурированной речевой информации / Смирнов В. А., Гусев М. Н., Фархадов М. П. // Управление большими системами. Выпуск 45. М.: ИПУ РАН, 2013. С.181-205
77. Смирнов В. Технология распознавания речи на службе корпоративных интересов / Смирнов В., Ермилов С. // "Директор по безопасности", 2010, №11, стр.27-37
78. Смирнов В.А. Функция лингвистического процессора в системе автоматического анализа неструктурированной речевой информации / Смирнов В.А., Гусев М.Н., Фархадов М.П. // Автоматизация и современные технологии. 2013. №8. С. 22-28
79. Солонина А.И. Курс лекций: Основы цифровой обработки сигналов 2-е издание / Солонина А.И. Улахович Д.А., Арбузов С.М., Соловьева Е.Б. // СПб. БХВ-Петербург, 2005
80. Сорокин В.Н. Синтез речи / Сорокин В.Н. // Москва, "Наука", 1992
81. Сорокин В.Н. Теория речеобразования / Сорокин В.Н. // Москва, "Радио и связь", 1985
82. Степанова Г.Н. Физика: Учебник для 9 класса общеобразовательных учреждений / Степанова Г.Н. // СПб.: ООО "Валери СПД", 2001
83. Трунин-Донской В.Н. Опознание набора слов с помощью цифровой вычислительной машины / Трунин-Донской В.Н. // Работы по технической кибернетике, М., ВЦ АН СССР, 1967, стр 37-51
84. Туркин В.Н. Распознавание речевых образов с использованием метода градиентного спуска / Туркин В.Н. // Автомат. Распознавание слуховых образов: Тез. Докл. на 13 Всесоюз. Семинаре АРСО-13, Новосибирск, 1984, стр.120-121
85. Уоссерман Ф. Нейрокомпыотерная техника: теория и практика / Уоссер-ман Ф.//М. Мир, 1990
86. Фант Г. Акустическая теория речеобразования / Фант Г. // Пер. с англ., Москва, "Наука", 1964
87. Фельдкеллер Р., Цвикер Э. Ухо как приемник информации / Фельдкеллер Р., Цвикер Э. // Перевод с немецкого В. И. Кули и Е. Г. Семенова под ред. А. Ю. Лева, М. Связь, 1965
88. Фролов М.В. Алгоритм распознавания эмоциональных состояний дикторов по реализациям главноударных гласных звуков / Фролов М.В., Таубкин В.Л., Лужбин Н.А. // Речь, эмоции и личность, Ленинград, "Наука", 1978, стр. 190-194
89. Шарий Т.В. О проблеме параметризации речевого сигнала в современных системах распознавания речи / Шарий Т.В. // Вюник Донецького нацюнального ушверситету, Сер. А: Природнич1 науки, № 2, 2008.
90. Cognitive Technologies [Электронный ресурс] / Режим доступа: http://www.cognitive.ru
91. Copernicus RELATOR [Электронный ресурс] / Режим доступа: http://www.relator.research.cc.org/
92. Dragon NaturallySpeaking Preferred [Электронный ресурс] / Режим доступа: http://www.dragonsys.com
93. EAGLES. «Handbook of Standards and Resources for Spoken Language Systems» / Ed. by Gibbon D., Moore R., Winski R. Berlin: Mouton de Gruyter, 1998
94. ELSNET Home Page [Электронный ресурс] / Режим доступа: http://www.elsnet.org/
95. European Language Resources Association [Электронный ресурс] / Режим доступа: http://www.elra.info/
96. INTEL [Электронный ресурс] / электронный источник http://www.intel.ru
97. ITU-T coded-speech database [Электронный ресурс] / Supplement 23 to ITU-T P-series Recommendations // Режим доступа: http://www.itu.int/rec/T-REC-P.Sup23-199802-I/en
98. ITU-T Rec. G.729 - Annex B: "A silence compression scheme for G.729 optimized for terminals conforming to Recommendation V.70", 1996
99. ITU-T Rec. G.723 "Dual Rate Speech Coder for Multimidia Communications Transmitting at 5.3 and 6.3 kbit/s ", 1996
100. Kohonen SelfOrganization and Associative Memory, Third Edition, SpringerVerlag, New York, 1989
101. LDC - Linguistic Data Consortium, Linguistic Resources [Электронный ресурс] / Режим доступа: http://www.ldc.upenn.edu/
102. Methods for subjective determination of transmission quality [Электронный ресурс] / ITU-T Recommendation P.800 // Режим доступа: http://www.itu.int/rec/T-REC-P.800/en
103. Objective quality measurement of telephone-band (300-3400 Hz) speech codecs [Электронный ресурс] / ITU-T Recommendation P.861 // Режим доступа: http://www.itu.int/rec/T-REC-P.861/en
104. OPERA™ Voice/Audio Quality Analyzer - The Objective Perceptual Signal Quality Analyzer setting the Standards [Электронный ресурс] / OPTICOM // Режим доступа: http://www.opticom.de/products/opera.html
105. Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs / ITU-T Recommendation P.862 // Режим доступа: http://www.itu.int/rec/T-REC-P.862/en
106. Single-ended method for objective speech quality assessment in narrow-band telephony applications [Электронный ресурс] / ITU-T Recommendation P.563 / электронный источник http://www.itu.int/rec/T-REC-P.563-200405-I/en
107. Subjective performance assessment of telephone-band and wideband digital codecs / ITU-T Recommendation P.830 // Режим доступа: http://www.itu.int/rcc/T-REC-P.830/en
108. Anil К. Jain Artificial Neural Networks: A Tutorial / Anil K. Jain, Jianchang Mao, K.M. Mohiuddin // Computer, Vol.29, No.3, March/1996, pp. 31-44
109. Bahl L.R. Perplexity A measure of the difficulty of speech recognition tasks / Bahl L.R., Baker J.K., Jelinek F., Mercer R.L. // J. Acoust. Soc. Amer. Vol. 62. P. S63. 1977. Suppl. № 1
110. Bekesy G. Experiments in Hearing / Bekcsy G. // New York : McGraw-Hill Book Co., 1960
111. Bekesy G. Shearing Microphonics Produced by Vibrations Near the Inner and Outer Hairs Cells / Bekesy G. // J. Acoust. Soc. Am. 25, pp. 768-790, 1953
112. Bourlard H. Connectionist Speech Recognition. A Hybrid Approach / Bourlard H., Morgan N. // The Kluwer International Series in Engineering and Computer Science, Vol. 247, Kluwer Academic Publishers, Boston, 1994
113. Bourlard H. Continuous speech recognition by connectionist statistical methods / Bourlard H., Morgan N. // IEEE Transaction on Neural Networks. 1993. Vol. 4. No. 6. pp. 893-909
114. Bourlard H. Links Between Markov Models and Multilayer Perceptrons / Bourlard H., Wellekens C. // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1990. Vol. 12. No. 12. pp. 1167-1178
115. Bruno Daniel M.L. Characterisation of noisy speech channels in 2G and 3G mobile networks // Master Thesis to obtain the degree of master at the Instituto Superior de Engenharia do Porto, 2013 / электронный источник http://www.scvana.fi/MSc_Thesis_-_Bruno_Daniel_Moreira_Leite_-_2013.rar
116. Carlsson R. Some notes on the perception of temporal pattern in speech / Carlsson R., Grantstrom В., Klatt D. H. // Frontiers of speech communications research / New York, Academic Press, 1979, p. 233-243
117. Carpenter G.A. Pattern Recognition by SelfOrganizing Neural Networks / Carpenter G.A., Grossberg S. // MIT Press, Cambridge, Mass., 1991.
118. Charpentier F. Diphone Synthesis Using an Overlap-Add Technique for Speech Waveforms Concatenation / Charpentier F., and Stella M.G. // Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, 1986
119. Charpentier F. Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones / Charpentier F., Moulines E. // Eurospeech, 1989
120. Chomsky N. Syntactic Structures. / Chomsky N. // Den Haag: Mouton, 1957. (Русский перевод: Хомский H. Синтаксические структуры, Новое в лингвистике. М., 1962. Вып. 2)
121. Cooley J.W. An algorithm for the machine computation of complex Fourier series / Cooley J.W., Tukey J.W. // Math. Сотр., V.19, April 1965, pp.297-301
122. Cooper W. E. Syntactic control of speech timing / Cooper W. E. // Ph. D. Thesis, MIT, 1975
123. Davis H. A Mechano-electrical Theory of Cochlear Action / Davis H. // Ann. Otol. Rhinol and Laryngol, 67, pp. 789-801, 1958
124. Davis H. Chapter 28 in Handbook of Experimental Psychology / Davis H. // ed. S.S. Stevens / New York, John Wiley and Sons, 1951
125. Davis K.H. Automatic recognition of spoken digits / Davis K.H., Bidulph R., Balachek S. // JASA, 1952, Vol.24, №6, pp. 637-642
126. Degtyarev V.M. Preparation of sound base for a text-to-speech synthesis system / Degtyarev V.M., Gusev M.N. // in Eighth International Workshop on Nondestructive Testing and Computer Simulation Science and Engineering, edited by Alexander I. Melker. Proceedings of SPIE Vol. 5831, (SPIE, Bellingham, WA, 2005) p.207-213
127. Dempster A.P. Maximum likelihood from incomplete data via the EM algorithm / Dempster A.P., Laird N.M., and Rubin D.B. // J. Roy. Stat. Soc. 1977. Vol. 39, No. 1. pp. 1-38
128. Dolanscy L. On Certain Irregularities of Voiced Speech Waveforms / Dolanscy L.//IEEE J., 1968, AU-16,№ 1, pp. 51-56
129. Dudley H. Automatic recognition of phonetic - patterns in speech / Dudley H., Balachek S. // JASA, 1958, Vol.30, №8, pp. 721-732
130. Dutoit T. On the Ability of Various Speech Models to Smooth Segment Discontinuities in the Context of Text-to-Speech Synthesis by Concatenation / Dutoit T. // Proceedings of Eusipco, 1994
131. Dutoit T. An Introduction to Text-to-Speech Synthesis / Dutoit T. // Dordrecht-Boston-London, 1997
132. Fletcher H. Speech and hearing in Communication / Fletcher H. // New-York, Van Nostrand Co., 1953
133. Fortuna L. Improving back-propagation learning using auxiliary neural networks / Fortuna L., Geaziani S., Presti M.L., Muscato G. // Int. J. Control, 1992, v.55, №4, pp. 793-807
134. Franzini M.A. Connectionist Viterbi training: a new hybrid method for continuous speech recognition / Franzini M.A., Lee K.F., Waibel A. // IEEE ICASSP 1990, pp. 425-428
135. Gay T. Mechanisms in the control of speech rate / Gay T. // Phonetica, 1981, V38, №1, pp. 663-666
136. Gori M. BPS: a learning algorithm for capturing the dynamical nature of speech / Gori M., Bengio Y., R. De Mori // Proceedings of the International Joint Conference on Neural Networks, Washington, DC, IEEE, New York, 1989, pp. 643-644
137. Gusev M.N. About a method of preprocessing of sound base / Gusev M.N., Degtyarev V.M., Sitnikov V.V. // Proceedings of SPAS Vol.9 Ninth International Workshop on New Approaches to High-Tech: Nondestructive Testing and Computer Simulation in Science and Engineering, edited by Alexander I. Melker, 2005, pp. 120-125
138. Gusev M.N. On a method of preprocessing of sound base / Gusev M.N., Degtyarev V.M. // in Ninth International Workshop on Nondestructive Testing and Computer Simulation Science and Engineering, edited by Alexander I. Melker. Proceedings of SPIE Vol. 6253, (SPIE, Bellingham, WA, 2006) 62530Q
139. Gusev M.N. Physical properties modification of speech signals fragments / Gusev M.N. // New Approaches to High-Tech: Nondestructive Testing and Computer Simulations in Science and Engineering, Preprints and Program St.Peterburg, Russia, 2003 (p. F5-F7)
140. Gusev M.N. Physical properties modification of speech signals fragments / Gusev M.N. // New Approaches to High-Tech: Seven International Workshop on Nondestructive Testing and Computer Simulations in Science and Engineering, St.Peterburg, Russia, 2003 (p. 300 - 305)
141. Haffner P. Integrating time alignment and neural networks for high performance continuous speech recognition / Haffner P., Franzini M.A., Waibel A. // IEEE ICASSP 1991. pp. 105-108
142. Hazen T.J. Recognition Confidence Scoring and It's Use in Speech Understanding Systems / Hazen T.J., Seneff S., Polifroni J. // Computer Speech and Language, 2002
143. Hermansky H. Linear Predictive (PLP) Analysis of Speech. / Hermansky H. // The Journal of the Acoustical Society of America, 1990, 87(4), pp. 1738-1752.
144. Hertz J. Introduction to the Theory of Neural Computation / Hertz J., Krogh A., Palmer R.G. // Addison-Wesley, Reading, Mass., 1991
145. Hiramatsu K. A spoken digit recognition system / Hiramatsu K., Kotoh K. // VI International Congress on Acoustics, Tokio, D-3-4, 1968
146. Hopfield J.J. Neural Networks and Physical Systems with Emergent Collective Computational Abilities / Hopfield J.J. // in Proc. National Academy of Sciencies, USA 79, 1982, pp. 2554-2558
147. Huang X. Spoken Language Processing: A guide to theory, algorithm, and system development / X.Huang, A.Acero, H.Hon // Prentice Hall, 2001
148. Kanevsky D. Large Vocabulary Speaker-Independent Continuous Speech Recognition in Russian Language / Kanevsky D., Monkowski M., Sedivy J. // Proc. International Workshop SPECOM'96, St.-Petersburg, Russia, 1996, pp. 117121
149. Kanevsky D. Large Vocabulary Speaker-Independent Continuous Speech Recognition in Russian Language / Kanevsky D., Monkowski M., Sedivy J. // Proc. International Workshop SPECOM'96, St.-Petersburg, Russia, 1996, pp. 117121
150. Kemp T. Estimating confidence using word lattices / Kemp T., Schaaf T. // Eurospeech-97, 1997
151. Klatt D. H. A strategy for the perceptual interpretation of durational cues in English sentences / Klatt D. H. // Working Papers, MIT, Speech Communication Group, V.l, 1982, p. 971-995
152. Klatt D. H. Synthesis by rule of segmental durations in English sentences / Klatt D. H. // Frontiers of speech communications research / New York, Academic Press, 1979, p.287-299
153. Klatt D.H. Software for a cascade/parallel formant synthesizer / Klatt D.H. // JASA. 1980, V.67. P. 971-995
154. Lafferty J. D. Grammatical trigrams: A probabilistic model of link grammar / Lafferty J. D., Sleator D., Temperley D. // in Proc. AAAI Fall Symp. Probabilistic Approaches to Natural Language, Cambridge, MA, Oct. 1992
155. Levin E. Word recognition using hidden control neural architecture / Levin E. //IEEE ICASSP 1990
156. Levinson S.E. An introduction to the application of the theory of probabilistic function of a Markov process to automatic speech recognition / Levinson S.E., Rabiner L.R., and Sondhi M.M. // Bell Syst. Tech. Journal, Apr. 1983. Vol. 62, no.4, pp. 1035-1074
157. Liberman A. M. Studies in Speech, Hearing and Communications / Liberman A. M., Stevens K. N., Hayes J. R. M. // Final report, Contract W 19122 ac -14 / September 30, 1954, Acoustics Lab. Mass. Inst, of Tech. Cambridge, Mass.
158. Lindblom B. Durational patterns of Swedish phonology: do they reflect short-term motor memory process? / Lindblom B., Lyberg B., Holmgren K. // Rep. Stockholm Univ, 1977
159. Lippman R.P. Review of neural networks for speech recognition / Lippman R.P. // Neural Computation, 1991, vol.1, №1, pp.1-38
160. Mathan L. Rejection of Extraneous Input in Speech Recognition Applications, Using Multi-Layer Perceptions and The Trace of HMMs / Mathan L., Miclet L. // Proc. of International Conference on Acoustics, Speech and Signal Processing, 1991
161. McCullagh P. Generalized Linear Models / McCullagh P., Nelder J. A. // London: Chapman and Hall, 1983
162. McCulloch W.S. A logical Calculus of Ideas Immanent in Nervous Activity / McCulloch W.S., Pitts W. // Bull. Mathematical Biophysics, Vol. 5, 1943, pp. 115133
163. Mitnsky M. Perceptrons: An Introduction to Computational Geometry / Mitnsky M., Papert S. // MIT Press, Cambridge, Mass., 1969
164. Morgan N. Continuous speech recognition using multilayer perceptrons with hidden Markov models / Morgan N., Bourlard H. // ICCASP 1990, pp. 413-416
165. Morgan N. Continuous speech recognition using multilayer perceptrons with hidden Markov models / Morgan N., Bourlard H. // ICCASP 1990, pp. 413-416
166. Morgan N. Neural networks for statistical recognition of continuous speech / Morgan N., Bourlard H. // Proceedings of the IEEE. Concepts and Theory, May 1995, vol.83, pp.742-769
167. Niles L.T. Combining hidden Markov models and neural networks classifiers / Niles L.T., Silverman H.F. // IEEE ICASSP 1990. pp. 417-420
168. Nishinuma J. Prediction of phoneme duration by a distinctive feature matrix / Nishinuma J. // J. Phonetics, 1984, №12, pp. 169-173
169. P.A. Luce Capacity demands in short-term memory for synthetic and natural word lists / P.A. Luce, T.C. Feustel, and D.B. Pisonu // Human Factors, V.25, 1983, p.17-32
170. Pierce J. R. Information Rate of a Human Channel / Pierce J. R., David E. E., Karlin J. E. // Proc. I.R.E. 45, 368, 1957
171. Rabiner L. Fundamental of Speech Recognition / Rabiner L., Juang B.H. // PTR Prentice Hall Englewood Cliffs, New Jersey 07632, 1993
172. Rabiner L.R. A tutorial on hidden Markov models and selected application in speech recognition / Rabiner L.R. // Proceedings of the IEEE, 1989, Vol. 77, №2. pp. 257-286 (Русский перевод: Рабинер JI.P. Скрытые Марковские модели и их применение в избранных приложениях при распознавании речи / Рабинер Л.Р. // Обзор. ТИИЭР. 1989. Т. 77. №2, стр. 86-120)
173. Rahim M.R. Artificial Neural Networks for Speech Analysis/Synthesis / Rahim M.R. // Chapman&Hall, 1994
174. Rcddy D.R. Segmentation of Speech Sounds / Reddy D.R. // J. Acoust. Soc. America, 40, pp. 307-312, 1966
175. Richard M.D. Neural network classifiers estimate Bayesian a posteriori probabilities / Richard M.D., Lippmann R.P. // Neural Computation, 1991. No. 3. pp. 461-483
176. Robinson Т. The use of recurrent neural networks in continuous speech recognition / Robinson Т., Hochberg M., Renals S. // In: C.H. Lee, F.K. Soong, K.K. Paliwal (Eds), Automatic Speech and Speaker Recognition: Advanced Topics, The Kluwer International Series in Engineering and Computer Science, Kluwer Academic Publishers, Boston, USA 1996
177. Rosenblatt F. Principles of Neurodynamics / Rosenblatt F. // Spartan Books, New York, 1959. (Русский перевод: Розетблатт Ф. Принципы нейродинамики (перцептрон и теория механизмов мозга) / Розетблатт Ф. // М.: Мир, 1965. 480 с)
178. Sankar К. Pal Multilayer Perception, Fuzzy Sets, and Classification / Sankar K. Pal, Sushmita Mirta Multilayer // IEEE Transactions on Neural Networks, v3, №5, 1992, pp. 683 - 696
179. Shannon С. E. The mathematical Theory of Communication / Shannon С. E., Weaver W. // Urbana, University of Illinois, 1949
180. Sleator D. Parsing English with a link grammar / Slcator D., Temperley D. // Computer Science Dept., Carnegie-Mellon Univ., Pittsburgh, PA, Tech. Rep. CMU-CS-91-196, Oct. 1991
181. Smirnov V. A. Objective method of speech signal quality estimation / Smirnov V.A., Gusev M.N. // Proceedings of the 11-th International Conference "Speech and Computer" SPECOM'2006.-St.Petersburg, Anatolya Publishers, 2006, pp. 242-244
182. Smirnov V.A. Objective method of speech signal quality estimation / Valentin A. Smirnov, Mikhail N. Gusev // Proceedings of the 11-th International Conference "Speech and Computer" SPECOM'2006.-St.Petersburg, Anatolya Publishers, 2006, pp. 242-244
183. Sukar R.A. fRejection for Connected Digit Recognition Based on GPD Segmental Discrimination / Sukar R.A. // IEEE Proc. ICASSP, 1994
184. Vicens P. J. Aspects of Speech Recognition by Computer / Vicens P. J. // Ph.D. dissertation, Stanford University, Stanford, 1969
185. Windmann S. Approaches to Iterative Speech Feature Enhancement and Recognition / Stefan Windmann and Reinhold Haeb-Umbach //, IEEE Transactions On Audio, Speech, And Language Processing, Vol. 17, No. 5, July 2009
186. Young S. The НТК Book (for НТК Version 3.4) [Электронный ресурс] / Young S., Evermann G., etc. // Cambridge University Engineering Department, 2006 // Режим доступа: http://htk.eng.cam.ac.uk/
187. Young S.J. Token Passing: a Conceptual Model for Connected Speech Recognition Systems / Young S.J., Russell N.H., Thornton J.H.S. // CUED Technical Report F INFENG/TR38, Cambridge University, 1989.
188. Zawislocki J. Some Impendance Measurements on Normal and Pathological Ears / Zawislocki J. //J. Acoust. Soc. Am. 29, pp. 1312-1317, 1957
189. Zhang R. Word Level Confidence Annotation Using Combinations of Features / Zhang R., Rudnicky A. I. // Proc. of 7 European Conference on Speech Communication and Technology, 2001
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.