Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат наук Нгуен Чи Тхиен

  • Нгуен Чи Тхиен
  • кандидат науккандидат наук
  • 2014, Тула
  • Специальность ВАК РФ05.13.18
  • Количество страниц 162
Нгуен Чи Тхиен. Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала: дис. кандидат наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Тула. 2014. 162 с.

Оглавление диссертации кандидат наук Нгуен Чи Тхиен

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

1 ЗАДАЧИ ОБРАБОТКИ РЕЧЕВОГО СИГНАЛА

1.1 Кодирование речевого сигнала

1.1.1 Получение кратковременных амплитудных спектров из речевого сигнала

1.1.2 Построение мел-частотных кепстральных коэффициентов из спектра сигнала

1.2 Преобразование речевых сигналов

1.3 Распознавание речевых сигналов

1.3.1 Байесовский классификатор

1.3.2 Модель скрытой компоненты

1.3.3 Модель наблюдаемой компоненты

1.3.4 Построение двухкомпонентного случайного процесса

1.3.5 Выбор начальных значений параметров модели

1.3.6 Вычисление апостериорного распределения для каждого класса речевых

сш налов

1.4 Основные цели и задачи исследования

2 ЗАДАЧА ИДЕНТИФИКАЦИИ МОДЕЛИ РЕЧЕВОГО СИГНАЛА С ЦЕЛЬЮ

АДЕКВАТНОГО ВОСПРИЯТИЯ

2.1 Этапы решении задачи идентификации модели речевого сигнала с целью адекватного восприятии

2.2 Обобщенная процедура обработки речевого сигнала

2.3 Задача распознавания речевых команд

2.4 Алгоритм распознавания речевых команд

2.5 Подбор параметров алгоритма распознавания

2.5.1 Процедура подбора параметров алгоритма распознавания

2.5.2 Исследование подбора параметров алгоритма распознавания

2.5.3 Построение модели классов сигналов как смесей гауссовых распределений

2.5.4 Послроенне модели классов сигналов как двухкомнонептных случайных процессов

2.6 Подбор параметров алгоритма распознавания на основе скользящего контроля

2.6.1 Независимое тестирование алгоритма распознавания

2.6.2 Модифицированная процедура подбора параметров

2.6.3 Исследование подбора параметров алгоритма распознавания модифицированной процедурой

3 ЗАДАЧА РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД ПРИ НЕДОСТАТОЧНОМ ОБЪЕМЕ ОБУЧАЮЩИХ ДАННЫХ

3.1 Влияние объёма и состава обучающей выборки на качество распознавания речевых команд

3.2 Многократный алгоритм распознавания речевых команд

3.3 Подбор значения параметра преобразования в построении многократного

алгоритма распознавания речевых команд

3.4 Исследование многократного алгоритма распознавания речевых команд

4 ЗАДАЧА РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД НА ФОНЕ ШУМОВ

4.1 Увеличение значения отсчетов амплитудных спектров сигналов

4.2 Алгоритм распознавания команд на фоне шумов

4.3 Исследование алгоритма распознавания команд на фоне шумов

4.4 Подбор константы усиления амплитудных спектров с целью улучшения качества их распознавания

4.5 Многократный алгоритм распознавания речевых команд на фоне шумов

4.6 Исследование многократного алгоритма распознавания команд на фоне шумов

4.7 Комбинирование способов уменьшения влияния шума на качество распознавания речевых сигналов

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала»

ВВЕДЕНИЕ

В настоящее время сохраняется большой интерес исследователей к задачам компьютерной обработки речи, таким как их кодирование (Gibson [40], Chu [34]), генерация (Лобанов [18], Taylor [67]), а также распознавание (Woelfel [75], Neustein [57]).

Речь является главным объектом применения компьютеров для их обработки. Широко известны системы кодирования речи в телемеханике, генерации речи с текста, а что касается программ автоматического ввода речью, то их использование стало массовым.

Особый интерес к компьютерной обработке именно речи в значительной мере определяется тем фактом, что это естественный вид взаимодействия между людьми, а также между человеком и машиной.

Речь представлена в компьютере как последовательность скалярных или векторных значений, и эта совокупность упорядочена вдоль оси временной переменной. Эту временную последовательность принято назвать речевым сигналом.

Одной из известных задач обработки речевых сигналов является задача распознавания речевых команд. В данной задаче необходимо принять решение о том, к какому классу относится речевой сигнал, где классом назовём множество разных произношений одной и той же команды.

В классической теории распознавания образов [5, 9, 26] объекты, подлежащие распознаванию, описываются векторами фиксированной размерности и представляются точками в пространстве своих характеристик. Однако в задаче распознавания речевых команд фиксация размерности сигналов не вполне естественна. Например, одну и ту же речевую команду диктор произносит с разными скоростями. В результате, длины записанных речевых сигналов одной команды являются различными.

Проблема сравнения речевых сигналов с разной длиной сначала решается методом динамического программирования [6, 63, 71]. Для этого

метода выполняется выравнивание сигналов по длине. В последнее двадцатилетие для решения проблемы сравнения речевых сигналов стало популярно использование метода скрытых марковских моделей [14, 19, 61]. В этом методе речевой сигнал представлен в виде структурированного набора, состоящего из не фиксированного заранее числа "элементарных" объектов, которые в свою очередь уже кодируются конечномерными век-юрами [19].

Речевые сигналы характеризуются большой вариабельностью. Они отличаются не только по длине, но и по высоте тона, тембру, которые зависят от характеристики голоса дикторов. В построении систем распознавания речевых команд для того, чтобы обеспечить репрезентативность обучающей выборки необходимо собрать речевые сигналы от многих разных дикторов. Собрание большого количества обучающих данных для необходимого набора речевых команд не всегда оказывается возможным, особенно в случае персонального пользователя системы распознавания.

Учитывая трудность в собрании обучающих речевых сигналов, в данной работе предлагается способ решения задачи распознавания речевых команд, который компенсирует малую обучающую выборку использованием имеющегося опыта из разных областей обработки речевых сигналов: кодирования, преобразования и распознавания.

Когда обучающая выборка мала, построенная система распознавания дикторозависима (Fontaine [37]), т.е. она будет распознавать речевые команды «своих» пользователей (людей, которые обучали эту систему) с точностью распознавания, которая будет выше, чем точность, взятая по «чужим» пользователям. Поэтому для улучшения качества распознавания речевых команд в случае «чужого» пользователя предлагают преобразование речевых сигналов «чужого» пользователя к речевым сигналам «своего» пользователя перед тем, как подать сигнал на вход алгоритма распознавания. Такая идея встречается в [13], где преобразование и

распознавание выполняются с помощью функции расстояния. В данной работе преобразование речевых сигналов и их распознавание реализованы с помощью функций правдоподобия (Pratt [60]).

На практике результат распознавания сигналов как своего, так и чужого дикторов дополнительно ухудшается шумом. Обучающие речевые сигналы обычно являются незашумленными, а тестирующие речевые сигналы оказываются зашумленными. Присутствие шума приводит к сильному отклонению спектров тестирующих речевых сигналов от спектров их эталонов в обучающей выборке. Поэтому качество результата распознавания на фоне шумов резко падает (Wolfe [76]).

Для уменьшения отклонений спектров тестирующих зашумленных речевых сигналов от спектров их незашумленных эталонов в обучающей выборке были предложены разные способы (Haykin [44], Hung [48], Vaseghi [70]). Самый популярный подход - это удаление из спектров зашумленных сигналов шумовой составляющей. Такой подход реализован в методе спектрального вычитания (spectral subtraction) [70] и методе фильтрации Винера (Wiener) [44]. Недостаток этих методов заключается в том, что перед удалением шума из спектров речевых сигналов должна быть известна априорная информация о шуме. Сам процесс выявления априорной информации о шуме вызывает трудности. Кроме того, если шум нестационарный, то его удаление сильно искажает спектр исходного сигнала, а в худшем случае нарушает формантную структуру его спектра.

Существует и другой подход. В работе Hung [48] был предложен метод, заключающийся в умножении значений отсчетов амплитудного спектра фрагментов каждого речевого сигнала на весовой параметр. Цель этого метода - подчеркнуть спектральное различие между речевыми и неречевыми (паузы) фрагментами сигнала. Этот метод был предложен для распознавания слитной речи. Для задачи распознавания отдельных речевых ко-

манд этот метод не подходит. Необходимо найти метод, применимый к задаче распознавания отдельных речевых команд.

Поэтому необходимо обобщить уже имеющийся опыт из различных областей обработки речевых сигналов (кодирование, преобразование, распознавание) и применить его для решения актуальной задачи распознавания речевых команд, предложив новые и улучшенные подходы, обладающие элементами новизны на каждой из этапов ее решения.

Если спектр зашумленного сигнала сильно отличается от спектра не-зашумленного сигнала, то очевидно, что степень связи таких спектров может оказаться достаточно малой. Для увеличения степени связи в данной работе предлагается увеличивать значения отсчетов амплитудных спектров обоих сигналов на константу.

Цель данной работы - это решение задачи распознавания речевых команд.

Для достижения указанной цели в данной работе поставлены следующие задачи:

1. сформулировать и исследовать задачу идентификации модели речевого сигнала с целью адекватного восприятия;

2. решить задачу распознавания речевых команд при недостаточном объеме обучающих данных;

3. решить задачу распознавания речевых команд на фоне шумов;

4. оценить предложенные решения процедурой скользящего контроля.

Данная работа состоит из введения, четырех глав и заключения.

В первой главе рассмотрены основные задачи обработки речевых сигналов.

Во второй главе сформулирована и исследована задача идентификации модели речевого сигнала с целью адекватного восприятия, используя имеющийся опыт из разных областей обработки речевых сигналов.

В третьей главе описывается решение задачи распознавания речевых команд с недостаточным объемом обучающих данных, используя преобразование сигналов.

В четвертой главе описывается решение задачи распознавания речевых команд на фоне шумов, используя увеличение значений отсчетов амплитудных спектров речевых сигналов на константу.

Кроме того, в каждой главе, исключая первую, описывается экспериментальное исследование по распознаванию одиннадцати речевых команд с помощью разработанных решений. Выполнены эксперименты по схемам скользящего контроля [7, 19], чтобы проверить качество распознавания речевых команд предложенными решениями. Проводится анализ полученных результатов и на их основе делаются выводы о предложенных в данной работе решениях.

1 ЗАДАЧИ ОБРАБОТКИ РЕЧЕВОГО СИГНАЛА 1.1 Кодирование речевого сигнала

Кодирование представляет собой процесс сжатия речевого сигнала, устранение его избыточности, сохраняя его приемлемое качество. 1.1.1 Получение кратковременных амплитудных спектров из речевого сигнала

Исследования в области физиологического речеобразования и психофизического восприятия речи [27, 28] показывают, что сообщение в речевом сигнале передается изменением кратковременного амплитудного спектра. Изменение кратковременного амплитудного спектра отражает способ и место образования звука в процессе артикуляции [16]. Поэтому имеет смысл моделировать речевой сигнал последовательностью кратковременных амплитудных спектров. В данном разделе рассматривается получение модели речевого сигнала в виде последовательности кратковременных амплитудных спектров.

Пусть сигнал У = (V),...,у?) означает произношение какой-то речевой команды, где Г- целое, положительное. Отсчеты у,,/ = 1,...,Г принимают вещественные значения.

Разбиение речевого сигнала на фрагменты. Дискретные отсчеты речевого сигнала обрабатываются фрагментами с определенным периодом I. Фрагменты имеют длину Ы- количество отсчетов речевого сигнала во фрагменте. Формально /-й фрагмент представлен следующим описанием:

<,<,. +м-1), 1</;- <Г-УУ + 1, ¿ = //+1

11

Разбиение исходного сигнала на фрагменты основано на представлении о речи как о квазистационарном процессе, поведение которого остается относительно неизменными в течение короткого периода времени. Это позволяет разделить сигнал на порции, в пределах которых можно считать сигнал стационарным [32].

На рис. 1.1 показан пример разбиения речевого сигнала на фрагменты.

Э5С0 от:четы

I и III III»« ||«|Ц ,1

N

Рисунок 1.1 - Разбиение речевого сигнала на фрагменты, где I - расстояние между фрагментами в отсчетах, Л"-длина фрагментов или количество отсчетов речевого сигнала в каждом фрагменте

Кратковременный спектр речевого сигнала. Для каждого фрагмента речевого сигнала строится его кратковременный спектр. Спектр включает в себя фазовый и амплитудный спектры. Так как значимая информация содержится в амплитудном спектре, то фазовая составляющая спектра в работе не рассматривается. Удобно считать последовательность кратковременных амплитудных спектров Л = (а],а 2,аз,...) моделью речевого сигнала К, где амплитудный спектр а, представляет собой вектор отсчетов а/ =(й/). Отсчеты амплитудного спектра определяются дискретным преобразованием Фурье / -ого фрагмента речевого сигнала У:

а, =

N -] (/7-1)(А'-1

п=\

N

(1.1)

Для вычисления дискретного преобразования Фурье применяется алгоритм быстрого преобразования Фурье, имеющий максимальную производительность, когда длина последовательности входных данных является степенью 2 [32]. Поэтому число N является степенью двух.

Длина фрагмента N должна выбираться с учётом особенностей решаемой задачи. Большая длина позволяет точнее определить спектр сигнала, но может скрыть имевшие место быстрые изменения. Меньшая длина способствует выявлению изменений сигнала, но спектральные характеристики при этом вычисляются с большими погрешностями. Таким образом, длина фрагмента должна выбираться из компромисса между спектральным и временным разрешениями.

Период I обычно выбирается меньше длины фрагмента N. Тогда фрагменты речевого сигнала перекрываются. Это делается для того, чтобы не пропустить существенных изменений, если они происходят на границах фрагментов.

На рис. 1.2 показаны примеры фрагментов речевого сигнала и его кратковременных спектров (амплитуды отсчетов).

100 150 200 250 300 отсчеты

Рисунок 1.2 - Примеры а, б) фрагментов речевого сигнала и соответственно в, г) их кратковременных спектров

Построение кратковременного спектра сигнала в окне. Разделение речевого сигнала на фрагменты для построения кратковременных спектров эквивалентно умножению отсчетов на единичный коэффициент в окне и на нулевой вне него (прямоугольное окно). Это приводит к нежелательному искажению спектра сигнала. Для уменьшения подобных искажений применяются окна с плавно спадающими до нуля коэффициентами по направлению к краям окна и сдвиг фрагментов сигнала с перекрытием. В данной работе используется окно Хэмминга. Значения отсчетов в окне Хэмминга определяются по формуле:

\нп = 0.54 - 0.46со5(2тс^1-), 1 <n<N .

N + 1

Выбор окна Хэмминга объясняется тем, что сумма значений отсчетов п'п в перекрытых со сдвигом ¿ = N/2 фрагментах окон Хэмминга приближенно равна единице в большинстве случаев. И это приводит к тому, что сумма перекрытых со сдвигом /, = N / 2 фрагментов почти отождествляет исходный речевой сигнал за исключением первых и последних отсчетов [42]. На рис. 1.3 представлен пример окон Хэмминга длины 64, перекрытых со сдвигом, и их сумма.

Рисунок 1.3 - Перекрытые окна Хэмминга и их сумма

Применив окно Хэмминга, отсчеты амплитудного спектра определяются по формуле:

а1 =

X У11+п-\ "

/7 = 1

N

(1.2)

На рис. 1.4 показаны примеры фрагментов, взвешенных окном Хэм-минга, речевого сигнала и его кратковременных спектров.

хо зол отсчеты

200 300

отсчеты

Рисунок 1.4 - Исходные фрагменты (а, б), взвешенные окном фрагменты (в, г) сигнала и соответственно их кратковременные спектры (д, е) Для иллюстрации влияния окна на спектр рассмотрим простой сигнал: У = (уп,п е (-оо,+со)), где уп = 5со8(0.5тгл) + 2соз(0.75л//).

Поскольку сигнал содержит в себе два гармонических колебания, то спектр сигнала представляется двумя линиями, каждой из которых соответствует гармоническое колебание (рис. 1.5).

Легко заметить, что «идеальный» спектр сигнала (рис. 1.5) был получен теоретически, когда количество отсчетов бесконечно п е (-оо,+оо). Практически это невозможно. Нестационарные речевые сигналы должны быть обработаны по фрагментам. Поэтому реальное количество отсчетов N всегда конечно. Пусть N = 128. Спектр фрагмента длины 128 показан на рис. 1.6.

о

0.5л. 0.75 л

Рисунок 1.5 - Спектр простого сигнала

и 0.5л 0"5л гаа

Рисунок 1.6 - Спектр фрагмента простого сигнала На первый взгляд после вычисления спектра для фрагмента сигнала вместо линий получаются линейноподобные фигуры, в остальных местах спектр остается равным нулю. Но на самом деле это не совсем так. Кроме двух локальных максимумов, соответствующих гармоническим колебаниям, в спектре ещё присутствуют другие локальные максимумы. Если взять логарифм спектра, то такие локальные максимумы становятся более наглядными (рис. 1.7).

_18|-1-1—

0 О <тт. о "5л

Рисунок 1.7 - Логарифм спектра фрагмента простого сигнала Появление «ложных» локальных максимумов, т.е. ложных гармонических колебаний в спектре, может привести к неправильной автоматической обработке на компьютере. Для подавления нежелательных колебаний в спектре фрагмента сигнала используется окно Хэмминга. После применения окна Хэмминга спектр фрагмента выглядит следующим образом (рис. 1.8):

Рисунок 1.8 - Спектр взвешенного окном Хэмминга фрагмента простого

сигнала (а) и его логарифм (б) На рис. 1.86 видно, что в спектр взвешенного окном Хэмминга фрагмента сигнала уже не содержит в себе ложных колебаний, которые появи-

лись из-за ограничения длины сигнала в окне. В абсолютной шкале (Гц) спектр взвешенного фрагмента (рис. 1.8а) похож на спектр невзвешенного фрагмента (рис. 1.6), хотя ширина линейноподобных фигур становится больше, а их высота в целом уменьшается примерно в два раза.

Рассмотрим спектр фрагмента речевого сигнала. Те же явления, наблюдаемые в спектре простого сигнала, встречаются и в спектре речевого сигнала. Спектр фрагмента, взвешенного окном Хэмминга, так же отличается от спектра фрагмента речевого сигнала (рис. 1.9).

50 40 30 20 10 0

0 50 100 150 200 250 300

50 40 30 20 10 0

0 50 100 150 200 250 300

Рисунок 1.9 - Спектр фрагмента речевого сигнала (а) и спектр этого фрагмента, взвешенного окном Хэмминга (б) Оба спектра на рис. 1.9 а, б являются линейчатыми, т.е. содержат в себе линейноподобные фигуры. Каждой фигуре соответствует одно гармоническое колебание в спектре. Спектр взвешенного окном Хэмминга фрагмента речевого сигнала уменьшается примерно в два раза и не содержит нежелательных локальных максимумов. Пример устранения нежелательного локального максимума на рис. 1.9 выделен кружком.

Таким образом, идентифицированная модель речевого сигнала представлена последовательностью А = (а|,а2,аз,...), где /-й кратковремен-

1.1.2 Построение мел-частотных кепстральных коэффициентов из спектра сигнала

Спектральный анализ речевых сигналов является очень развитой областью исследования. Разные методы и способы обработки речи в частотной области были предложены во многих работах [16, 35, 48, 49, 53].

Но описание речевого сигнала последовательностью его кратковременных спектров имеет недостаток в том, что количество отсчетов, необходимое для представления кратковременного спектра, оказывается большим. В задаче распознавания речевого сигнала такой недостаток считается нежелательным. Задача требует более компактного описания речевого сигнала, которое одновременно сохраняет его различительный характер.

Например, часто используется преобразование, учитывающее особенности слухового аппарата человека [50]. Для такого кодирования кратковременного амплитудного спектра применяются мел-частотные кепст-ральные коэффициенты [31, 38, 51, 65, 68].

Частотный диапазон голоса человека ограничен / < /тах . Спектр -

это функция от частоты. Отсчеты ак, к = 1,..., ТУ / 2 спектра а являются значениями амплитуды спектра для соответствующих частот

Исследование процесса восприятия звука человеком показывает, что ухо человека не рассматривает кратковременный спектр а в целом, но сосредоточивается в определенных областях спектра. Важные для восприятия области больше находятся в диапазоне нижних частот, чем в диапазоне высоких частот. Мел-шкала является логарифмической и моделирует частотную чувствительность человеческого слуха.

ный спектр представлен своими отсчетами а,- = (дг- ,1 < к < N12).

к

\ к .

Специалистами по психоакустике было установлено, что изменение частоты в два раза в диапазоне низких и высоких частот человек воспринимает по-разному. В частотной полосе до 1000 Гц субъективное восприятие удвоения частоты совпадает с реальным увеличением частоты в два раза, поэтому до 1000 Гц мел-шкала близка к линейной. Для частот выше 1000 Гц мел-шкала является логарифмической. Прямой и обратный переводы между шкалой герц и мел-шкалой осуществляются по формулам [1]:

/Ме1=1127.010481п(1 + ^), (1.3)

/Hz =700(е/ме|/1127-°1048 -1). (1.4)

Допустим, что нужно построить Р перекрывающих окон в диапазоне частот [0,/тах] . В работе [17] описана процедура, с помощью которой определяются отсчеты перекрывающих треугольных окон:

- перевести значение /тах в герцах в мелы /тах[Ме1]' используя

формулу (1.3),

- определить Р равноотстоящих частот в диапазоне [0,/maxfMel]]

г /max[Mel] ... D

7/[Mel] ---1 > 1 -

г + 1

- перевести Р частот //[Mel]> ¿ = в шкалу герц //[Hz]' используя формулу (1.4),

- перевести Р частот /¡уHzj, i = \,...,P в соответствующие номера

отсчетов кратковременного амплитудного спектра:

N . N

fi = -//[Hz]' ' = , // = Ь..., — ,

¿J max ^

- получить к-и отсчет / -го окна wf, по следующей формуле, считая /о = 1 и fР+\ - N /2:

W¡ — {

О

к < Л-i

J i ~ J i-\

Ji+1 ~ Ji О , к> fM

где / = 1,...,P, к = 1,...,/V/2.

Пусть частота /max = 400 Яг, длина кратковременного спектра N12 равна 256, требуется построить Р = 7 перекрывающих треугольных окон. На рис. 1.10 показан результат построения, используя приведенную выше процедуру.

Рисунок 1.10 - Перекрывающиеся треугольные окна В пределах каждого окна осуществляется суммирование взвешенных этим окном отсчетов кратковременного амплитудного спектра

VА^/2 к к ■ 1 а

Мел-частотные кепстральные коэффициенты - это результат дискретного косинусного преобразования от логарифма сумм отсчетов амплитудного спектра в некотором окне:

Р (N12 , , ^

Zk к i а

i=i

\к=1

COS

У

( {

т

\ \

i —

V

•JPJ

, т = \,...,М /2 .

Таким образом, для характеристики каждого кратковременного амплитудного спектра используется вектор М ¡2 мел-частотных кепстраль-ных коэффициентов:

х = (хт ,т = 1,...,М /2). Вектор М/2 мел-частотных кепстральных коэффициентов используется для характеристики каждого кратковременного амплитудного спектра, т.е. статической характеристики речевого сигнала в рамке одного фрагмента. Для описания динамической характеристики речевого сигнала через фрагменты используются дифференциальные мел-частотные кепст-ральные коэффициенты, представляющие собой сумму различий мел-частотных кепстральных коэффициентов между фрагментами:

-Ъ-> т = \,...,М/2,

2 2у2

¿=1

где х"1 - это т-й мел-частотный кепстральный коэффициент г -ого фрагмента речевого сигнала, й-уровень соседства кепстральных коэффициентов. т-й дифференциальный мел-частотный кепстральный коэффициент

хт описывает изменение т-й мел-частотного кепстрального коэффициент

хт через фрагменты, т.е. «время» /.

С целью упрощения дифференциальный мел-частотный кепстральный коэффициент тоже называется мел-частотным кепстральным коэффициентом, где {т + М / 2)-й мел-частотный кепстральный коэффициент является т -ым дифференциальным мел-частотным кепстральным коэффициентом:

т+М /2 ~т , т. * л

х( = х( , т = 1,..., М / 2 .

В целом, последовательность А = (а;,а2,аз,...) кратковременных амплитудных спектров а;- = (а^ ,1 < к < N12) характеризуется последователь-

ностью X = (Х],Х2,хз,...) векторов мел-частотных кепстральных коэффициентов х( = (х?,\ < т< М), где обычно М « N /2.

На рис. 1.11 показан кратковременный спектр и его описание в виде М = 22 мел-частотных кепстральных коэффициентов (МЧКК).

Л

Ц ^ Ил аллА Я^ъ^УУЧ'

260 УХ

ОГСЧСТЫ

\

Л 23

ОТСЧГТЫ

Рисунок 1.11 - Кратковременный спектр и его МЧКК

1.2 Преобразование речевых сигналов

Речь представляет собой звука определенного типа. Люди различают звук по высоте, тембру и громкости [25]. Их оценки субъективны, но при этом они соответствуют определенным физическим характеристикам звука.

Любое гармоническое колебание с частотой от 16 до 20000 Гц в воздухе вызывает ощущение звука в нашем ухе. Но реальный звук, в том числе речь, является не одним гармоническим колебанием, а наложением гармонических колебаний с разными частотами. Звук в виде суммы гармонических колебаний изучается при его спектральном представлении. Для получения спектра звука обычно используется преобразование Фурье звукового сигнала. Кроме того, можно использовать преобразование Лапласа вместо преобразования Фурье.

Спектры разделяются на сплошные и линейчатые. Сплошными спектрами характеризуют шумы. В сплошном спектре присутствуют колебания всех частот (рис. 1.12). В линейчатом спектре присутствуют колебания с дискретными частотами (рис. 1.13). Звук с линейчатым спектром воспринимает ухом человека как звук с определенной частотой, другими словами, тональный звук. Примеры тонального звука - музыкальный звук, вокализованная речь и т.д.

60 50 -

n r,m imn ism 20GQ гглп тпп ■•гт irno

Гц

Рисунок 1.12 - Сложный спектр гауссового шума

25

" 5

•э

С1

0 5ПП 1000 I 500 2С00 3503 3000 3500 ¿000

Гц

Рисунок 1.13 - Линейчатый спектр вокализованной речи Субъективная оценка высоты тонального звука соответствует наименьшей частоте в спектре. Наименьшей частотой считается частота первого локального максимума в спектре среди локальных максимумов, упорядоченных по возрастанию их частот. В спектре тонального звука,

являющегося наложением колебаний, каждое колебание показывает себя в виде линейноподобного образа (локальный максимум). Относительная интенсивность таких колебаний в спектре определяет тембр звука. Колебания в спектре называются обертонами.

Тембр звука речи показывает содержания сообщения. Считается, что сообщение в звуке речи достаточно определяется первыми тремя формантами - FI, FII, FIII, которые нумеруются в порядке возрастания их частоты. Форманта является достаточно отчетливо выделяющейся областью усиленных частот, определяемой по усредненной частоте в амплитудном спектре звука. Другими словами, форманты - это точки в спектре, являющиеся локальными максимумами кривой линии, соединяющей точки локальных максимумов спектра. На рис. 1.14 показаны форманты спектра, который был приведен на рис. 1.13.

Рисунок 1.14 - Форманты звука речи Среднее расстояние между формантами зависит от характеристики голоса говорящего (расстояние для женских несколько больше, чем для мужских) [47]. Таким образом, можно выполнить преобразование речевого сигнала У преобразованием его амплитудного спектра а, используя имеющуюся в нашем распоряжении функцию преобразования ср(а,я), где а - параметр преобразования.

Необходимо, чтобы амплитудный спектр расширялся, если а < 1, и сжимался, если а > 1. Напомним, что амплитудный спектр является функцией от угловой частоты ак = ф(сод.), где а^ - это к-ый отсчет спектра а, - фиксированная нормированная частота со/. е[0,л] [32].

Известно, что эффект расширения (сжатия) спектра может быть достигнут путём простого искажения оси частот. Расширенный (сжатый)

спектр определяется выражением ак =ф(й^.), где со^. - искаженная частота, а * - к -ый отсчет искаженного спектра а . В [69] было приведено преобразование спектра сигнала искажением оси частот таким образом:

ясо, со <Ь

со = <

аЬ + ———(со -Ь), со >Ь

п-Ь

где Ь - дополнительный параметр. Параметр Ь должен удовлетворять условиям:

О < Ь < л при а < 1

л

О < Ъ < — при а > 1 а

На рис. 1.15 показан график функции искажения оси частот.

а

(1.5)

¿>1 % л 00 Рисунок 1.15 - Функция искажения оси частот с учётом а : Ь\ - значение параметра Ь при а > 1, ¿2 - при а < 1

Диапазон значений параметра b показан на рис. 1.15. Выбор таких значений параметра b по условию (1.5) обусловлен необходимостью изменить спектр распределения основных формант, не обращая внимания на остальную часть спектра речевого сигнала в диапазоне нормированной частоты со от 0 до я. В работах [66, 69] была показана адекватность выбора значения параметра Ь:

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Список литературы диссертационного исследования кандидат наук Нгуен Чи Тхиен, 2014 год

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. Агашин О.С., Корелин О.Н. Методы цифровой обработки речевого сигнала в задаче распознавания изолированных слов с применением сигнальных процессоров. // Труды Нижегородского государственного технического университета им. P.E. Алексеева № 4(97). С.32 - 44.

2. Аттетков A.B., Галкин C.B., Зарубин B.C. Методы оптимизации. М.: Изд-во МГТУ им. Н.Э. Баумана, 2003. 440 с.

3. Аграновский A.B. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов. М.: Изд-во «Радио с связь», 2004. 162 с.

4. Бесекерский В.А. Теория систем автоматического управления: учеб. пособие. — СПб.: Профессия, 2007.

5. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. Статистические проблемы обучения: учеб. пособие. - М.: Наука, 1974. -416 с.

6. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. Киев: Наук, думка, 1987. - 264 с.

7. Воронцов К. В. Комбинаторный подход к оценке качества обучаемых алгоритмов. // Математические вопросы кибернетики / Под ред. О. Б. Лупанов. - М.: Физматлит, 2004.-Т. 13.-С. 5-36.

8. Воронцов К. В. Лекции по статистическим (байесовским) алгоритмам классификации. 39 с.

9. Гмурман В.Е. Теория вероятностей и математическая статистика: учеб. пособие. - 12-ое изд. - М.: Высш. Обр., 2007, 478 с.

Ю.Двоенко С.Д. Алгоритмы распознавания взаимосвязанных объектов: дис. док. физ-мат. наук. - Тула: Тульский гос. ун-т, 2001. - 200 с.

1 ГДвоенко С.Д., Копылов A.B., Моттль В.В. Задача распознавания образов в массивах взаимосвязанных объектов. Постановка задачи

и основные предположения // Автоматика и телемеханика. - 2004. -№ 1. -С. 143-158.

12.Жиглявский А. А., Жилинкас А. Г. Методы поиска глобального экстремума. М.: Наука, Физматлит, 1991. 247с.

13.3агоруйко Н.Г., Лозовский B.C. Подстройка под диктора при распознавании ограниченного набора устных команд // Сборник трудов Института математики СО АН СССР. № 28, 1967.

14.3агоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: ИМ СО РАН, 1999. - 270 с.

15.Кодзасов C.B., Кривнова О.Ф. Общая фонетика. М.: Изд-во РГГУ, 2001. 592с.

16.Колоколов A.C. Обработка сигнала в частотной области при распознавании речи. // Проблема управления. № 3, 2006. С. 13-18.

17. Котомин A.B. Распознавание речевых команд с использованием сверточных нейтронных сетей. // Наукоемкие информационные технологии. Переславль-Залесский, 2012.

18.Лобанов Б. М., Цирульник Л. И. Компьютерный синтез и клонирование речи. Минск: Белорусская Наука, 2008. - 316 стр.

19.Мерков, А. Б. Распознавание образов. Введение в методы статистического обучения. - Едиториал УРСС, 2011. - 256 с.

20.Мэтьюз Д.Г. Численные методы. Использование MATLAB, 3-е издание.: Пер. с англ. М.: Изд-во «Вильяме», 2001. - 720 с.

21.Нгуен Ч.Т. Оптимизация параметров эвристической модели речевых сигналов с целью улучшения качества их распознавания // Известия ТулГУ. Технические науки. 2014. Вып. 1. С. 44-50.

22.Нгуен Ч.Т. Решение задачи распознавания речевых команд // Известия ТулГУ. Технические науки. Вып. 6. Тула: Изд-во ТулГУ, 2013. Ч. 2. 269 с. С. 176-184.

23.Нгуен Ч.Т. Решение задачи распознавания речевых команд на фоне шумов // Известия ТулГУ. Технические науки. Вып. 11. Тула: Изд-во ТулГУ, 2013.400 с. С.241-250.

24.Рабинер Л.Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи. Тииэр, т. 77, №2, 1989.

25.Савельев И.В. Курс общей физики: Учебное пособие. В 3-х тт. Т. 2. Электричество и магнетизм. Волны. Оптика. 5-е изд., стер. - СПб.: Издательство «Лань», 2006. - 496 с.

26.Ту Дж., Гонсалес Р. Принципы распознавания образов. - М.: Мир, 1978. -414 с.

27.Фант Г. Акустическая теория речеобразования. М.: Наука, 1964.

28.Фланаган Дж. Анализ, синтез, и восприятие речи. М.: Связь, 1968.

29.Acero A., Huang X./ "Speaker and Gender Normalization for Continuous-Density Hidden Markov Models", in Proc. ICASSP, 1996, Vol. 1, pp 342345, Atlanta, GA, USA.

30.Alpaydin E. Introduction to machine learning. - Cambridge: MIT, MA, 2004.-415 p.

31. Bala A. Voice command recognition system based on mfcc and dtw. / Bala A. [et al.] // International Journal of Engineering Science and Technology. Vol. 2 (12), 2010, 7335-7342.

32.Benesty J. Handbook of speech processing. / J. Benesty [et al.] // Springer, 2008. 1159 p.

33.Bishop C.M. Pattern Recognition and Machine Learning - New York: Springer, 2006. 738 p.

34.Chu W. Speech Coding Algorithms: Foundation and Evolution of Standardized Coders. Wiley-Interscience, 2003. P. 592.

35.DAFX: Digital Audio Effects, Second Edition / Ed. by U. Zolzer. West Sussex: John Willey & Sons, 2011. P. 602.

36.Dempster A.P., Laird N.M., Rubin D.B. Maximum likelihood from incomplete data via the EM algorithm. // J. Roy. Stat. Soc., vol. 39, no. 1, P. 1-38, 1977.

37.Fontaine V., Bourlard H. Speaker-dependent speech recognition based on phone-like units models-application to voice dialling. // Acoustics, Speech, and Signal Processing, 1997. P. 527 - 1530.

38.Ganchev T., Fakotakis N., Kokkinakis G. Comparative evaluation of various MFCC implementations on the speaker verification task. // 10th International Conference on Speech and Computer (SPECOM 2005), Vol. 1, pp. 191-194.

39.Gauvain J.L., Lee C.H. Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains. IEEE Trans. Speech and Audio Process, 1994. 2 (2), 291-298.

40. Gibson J. Mobile Communications Handbook, Third Edition. Taylor & Francis Group. 2013. P. 765.

41.Giuliani D., Gerosa M. Investigating recognition of children s speech. In: Proc. of ICASSP, 2003, Hong Kong, China, pp. 11-137-140.

42.Gotzen A., Bernardini N., Arfib D. Traditional implementations of a phase-vocoder: the tricks of the trade // Proceedings of the COST G-6 Conference on Digital Audio Effects , Verona, Italy, December 7-9, 2000.

43.Hasegawa J. M, Alwan A. Speech coding: fundamentals and applications. John Wiley & Sons. 2003. P. 20.

44.Haykin S. Adaptive Filter Theory (4th Edition). Prentice Hall, 2002. P. 936.

45.Hillenbrand J. Acoustic characteristics of American English vowels / J. Hillenbrand [et al.] // The Journal of the Acoustical Society of America, 97(5), 1995. P. 3099-3111.

46. Huang X., Lee K.F. On speaker-independent, speaker-dependent, and speaker-adaptive speech recognition. IEEE Trans. Speech and Audio Process. 1993. 1 (2), 150-157.

47.Huber J.E., Stathopoulos E.T., Curione G.M., Ash T.A., Johnson K. Formants of children, women, and men: the effects of vocal intensity variation. // J Acoust Soc Am. 1999 ; Issue 106, P. 1532-1542.

48.Hung J. Enhancing the magnitude spectrum of speech features for robust speech recognition // EURASIP Journal on Advances in Signal Processing, Volume 2012, Issue 1, P. 1-20.

49.Kamath S. A multi-band spectral subtraction method for enhancing speech corrupted by colored noise./ S Kamath, P Loizou // International Conference on Acoustics, Speech and Signal Processing (ICASSP'02), Orlando, USA, 2002, vol. 4, P. IV-4164.

50.Lieberman P. Speech Physiology, Speech Perception, and Acoustic Phonetics. Cambridge University Press, 1998. P: 560.

51 .Lindasalwa M., Mumtaj B., Elamvazuthi I. Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques", Journal Of Computing, Volume 2, Issue 3, pp 138-143, March 2010.

52.Lee L., Rose L. A frequency warping approach to speaker normalization // IEEE Trans. Speech and Audio Processing, 1998, 6(l):49-60.

53.Lee L., Rose L. Speaker normalization using efficient frequency warping procedures. // In Proc. Int. Conf. Audio, Signal, and Speech Processing, Atlanta, USA, 1996, P.353-356.

54.Maragakis M. G., Potamianos A. Region-based vocal tract length normalization for ASR // In Proc. Interspeech-2008, pages 1365-1368. Brisbane, Australia.

55.Mottl V.V. Pattern Recognition in Spatial Data: A New Method of Seismic Explorations for Oil and Gas in Crystalline Basement Rocks /

V.V. Mottl, S.D. Dvoenko, V.B. Levyant, I.B. Muchnik // Proc. 15,h ICPR'2000. Spain, Barcelona. - 2000. - Vol. 3. - P. 210-213.

56.Murphy K.P. Machine learning: a probabilistic perspective. MIT Press, Cambridge, MA ,2012, P. 1067.

57.Neustein A. Advances in Speech Recognition. Springer, 2010. P. 370.

58.Paliwal K., Lyons J., Wojcicki K. Preference for 20-40 ms window duration in speech analysis // 4th International Conference Signal Processing and Communication Systems (ICSPCS), 13-15 Dec. 2010.

59.Panchapagesan S., Alwan A. Frequency warping for VTLN and speaker adaptation by linear transformation of standard MFCC. // Computer Speech & Language, Volume 23, Issue 1, January 2009, P. 42-64.

60.Pratt J.W. Efficiency of Maximum Likelihood Estimation. // The Annals of Statistics 4 (3), 1976: P: 501-514.

61.Rabiner L., Juang B. Fundamentals of speech recognition. Prentice-Hall, Inc. Upper Saddle River, NJ, USA, 1993. P.507.

62.Sahidullah M., Goutam S. Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition. // Speech Communication 54 (4), 2012. P. 543-565.

63.Sakoe, H. and Chiba, S., Dynamic programming algorithm optimization for spoken word recognition, IEEE Transactions on Acoustics, Speech and Signal Processing, 26(1) pp. 43-49, 1978.

64.Scalart P. Speech enhancement based on a priori signal to noise estimation./ P Scalart, JV Filho// International Conference on Acoustics, Speech and Signal Processing (ICASSP'96), Atlanta, USA, 1996, vol. 2, P. 629632.

65.Shaneh M., Taheri A. Voice Command Recognition System Based on MFCC and VQ Algorithms. // World Academy of Science, Engineering and Technology 57 2009, pp 534-538.

66.Sundermann D., Ney H. VTLN-based cross-language voice conversion. // Automatic Speech Recognition and Understanding, 2003. ASRU '03. 2003. P. 676-681.

67.Taylor P. Text-to-Speech Synthesis. Cambridge University Press, 2009. P. 626.

68.Tyagi V. , Wellekens C. On desensitizing the Mel-Cepstrum to spurious spectral components for Robust Speech Recognition. // IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005. Proceedings. (ICASSP '05), vol. 1, pp. 529-532.

69.Uebel L. F., Woodland P. C. An investigation into vocal tract length normalization // Proc: of the EUROSPEECH'99, Budapest, Hungary, 1999.

70.Vaseghi S.V. Advanced Digital Signal Processing and Noise Reduction, 3rd Edition. Wiley, 2006. P. 480.

71.Vintsyuk, Т.К. "Speech discrimination by dynamic programming". Kiber-netika, Vol. 4, pp. 81-88, Jan.-Feb. 1968.

72.Wellekers C.J. Global connected digit recognition using Baum-Welch algorithm. In Proc. ICASSP '86, Tokyo, Japan, P. 1081-1084, 1986.

73.Welling L., Kanthak S., Ney H. Improved methods for vocal tract normalization. In: Proc. of ICASSP, 1999, vol. 2, Phoenix, AZ, pp. 761-764.

74.Welling L., Ney H., Kanthak S. Speaker adaptive modeling by vocal tract normalization // IEEE Trans. Speech and Audio Processing, 2002 10(6):415—426.

75.Woelfel M., McDonough J. Distant Speech Recognition. Wiley, 2009. P. 594.

76. Wolfe J., Schafer E.C. Evaluation of speech recognition in noise. // J Am Acad Audiol, 20(7) 2009. P: 409-421.

77.Давыдов А.В. Сигналы и линейные системы. Лекции. [Электронный ресурс] // URL: http://gendocs.ru/vl3566/ (дата обращения: 16.10.2013)

78.Потемкин В.Г. Справочник по Matlab [Электронный ресурс] // URL: http://www.exponenta.ru/soft/matlab/potemkin/book2 (дата обращения: 16.10.2013).

79.Klautau A. Mel-frequency cepstrum coefficients [Электронный ресурс] // URL: http://www.cic.unb.br/~lamar/te073/Aulas/mfcc.pdf (дата обращения: 10.10.2013).

80. http://www.ee.ic.ac.uk/

81 .http://labrosa.ee.columbia.edu/sounds/noise/

82.Leonard G., Doddington G. TIDigits [Электронный ресурс] // Linguistic Data Consortium, Philadelphia, 1993. URL: isip.piconepress.com/ projects/speech/software/tutorials/production/fundamentals/vl .0/section_02/ s02_04_p01.html (дата обращения: 23.03.2013).

83.Wojcicki К. Add noise to a signal at a prescribed SNR level [Электронный ресурс] // URL: http://www.mathworks.com/matlabcentral/ (дата обращения: 10.10.2013)

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.