Математические модели импедансного типа в теории речеобразования и обработке речевых сигналов тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат наук Любимов, Николай Андреевич

  • Любимов, Николай Андреевич
  • кандидат науккандидат наук
  • 2016, Москва
  • Специальность ВАК РФ05.13.18
  • Количество страниц 110
Любимов, Николай Андреевич. Математические модели импедансного типа в теории речеобразования и обработке речевых сигналов: дис. кандидат наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Москва. 2016. 110 с.

Оглавление диссертации кандидат наук Любимов, Николай Андреевич

Содержание

Введение

1 Математические модели импедансного типа в теории речеобра-зования

1.1 Постановка задачи

1.2 Модели импеданса для граничных условий

2 Интегральные уравнения в моделировании речеобразования

2.1 Вывод интегрального уравнения по поверхности речевого тракта

2.2 Существование и единственность решения

2.3 Численный метод решения интегрального уравнения

2.4 Моделирование речевых сигналов по известным параметрам

3 Определение параметров речеобразования по наблюдаемому речевому сигналу

3.1 Модель для определения параметров речеобразования

3.2 Метод разреженных представлений для оценки параметров

3.3 Линейные ограничения элементов разложения

3.4 Вариационные методы поиска оптимального решения

3.5 Проблема поиска начального приближения

4 Комплекс программ анализа и классификации речевых сигналов

4.1 Аппроксимация речевого сигнала

4.2 Подавление нестационарного шума

4.3 Распознавание диктора в условиях нестационарных шумов

Заключение

Список рисунков

Список таблиц

Литература

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Математические модели импедансного типа в теории речеобразования и обработке речевых сигналов»

Введение

Теоретическое исследование акустики речеобразования и речевых сигналов началось сравнительно давно, начиная с классичесих работ Гельмгольца [1], а позднее развито в трудах Фанта [2] и Рабинера [3].

Основными задачами автоматической обработки речи на сегодняшний день являются [4] [5]: распознавание речи, идентификация диктора и языка речевого сообщения, или задачи речевой биометрии. В основе систем, решающих данные задачи, лежат конечномерные векторные представления исходного речевого сигнала, вычисленнные на основе его спектра. Эти представления также носят название признаков речевого сигнала [6] [7] [8]. В основе алгоритмов расчета речевых признаков лежат простейшие акустические модели речеобразования и восприятия речевого сигнала.

Актуальной проблемой при построении систем автоматической обработки речевого сигнала является устойчивость признаков при работы в различной акустической обстановке. Современные способы получения цифровой информации - мобильная связь, интернет телефония, системы телерадиовещания - привносят большое количество помех и искажений в исходный речевой сигнал, что приводит к вариативности вычисляемых признаков. Появляется необходимость в разработке новых признаков, в основе которых заложены более сложные и эффективные модели рече-образования, которые работают вне зависимости от акустического окружения (канала) передачи данных. Построенные признаки должны быть более устойчивы к искажениям звукового сигнала различного рода, например, таким как аддитивный нестационарный шум, и уметь выделять полезный сигнал на фоне этого шума. Используемые в настоящее время общепринятые подходы [9] [10] [11] лишены такого свойства: классификаторы, обученные в одном канале связи, не позволяют качественно распознавать сигнал, полученный в другом канале. Простейшим изменением канала является, например, увеличение сотношения сигнал-шум (Signal-to-Noise Ratio - SNR). Эффективный алгоритм должен прежде всего уметь выделять полезный речевой сигнал на фоне нестационарного шума окружающей среды, создавая тем самым робастные методы классификации.

Целью данной диссертации является разработка теоретических и практических основ вычисления устойчивых акустических признаков, применяемых в различных задачах обработки и классификации речевых сигналов. Теоретическая основа предполагает рассмотрение различных математических моделей, описывающих процесс акустического речеоб-разования в системе речевого тракта человека, а также разработку эффективного численного метода поиска неизвестных компонент звукового поля - давления и скорости частиц, формирующих в конечном счете наблюдаемый речевой сигнал. Практическая основа состоит в разработке алгоритмов, позволяющих восстанавливать скрытые параметры речеоб-разования по наблюдамому речевому сигналу. Эффективность разработанных моделей и алгоритмов демонстрируется в рамках комплекса программ для решения актуальных задач обработки речи: сжатия сигнала (аппроксимации малым набором параметров), шумоподавления и распознавания диктора.

Научная новизна данной диссертационной работы представлена в следующих пунктах:

1. Прежние общеизвестные акустические модели речеобразования не позволяли учитывать совокупное влияние стенок речевого тракта в силу одномерного приближения геометрии модели (описание таких моделей подробно дано в работе [5]). В другом случае, когда модели были рассмотрены в трехмерном виде (например, в работах [12] [13] [14]), стенки полагались абсолютно жесткими и непроницаемыми. В данной работе предложен не исследованный ранее унифицированный подход к описанию импедансных граничных условий на стенках, учитывающий одновременно: а) характер источника возбуждения, б) подвижность стенок речевого тракта и в) импеданс излучения через ротовое отверстие.

2. Разработанный метод интегральных уравнений существенно упрощает вычисление волнового поля, сводя трехмерное уравнение к одномерному виду с параметрически заданной границей. Также предложены способы быстрого рассчета функции ядра интегрального уравнения и значений функции в каждом узле дискретной сетки при помощи эллиптических интегралов и кусочно-линейной аппроксимации функции.

3. Задача восстановления неизвестных параметров речеобразования по наблюдаемому сигналу была сведена к задачам матричного разложения, с привлечением основных результатов теории разреженных представлений. Были введены оригинальные постановки оп-

тимизационных задач, согласующиеся с результатами численного моделирования спектра речевого сигнала на основе метода интегральных уравнений. Разработанны вариационные методы поиска решения с условиями регуляризации. Несмотря на то, что исходная постановка задачи рассматривает довольно частный случай дискретных данных - дискретное преобразование Фурье оцифрованной фонограммы, разработанные методы оптимизации в конечном счете записываются в общем виде, и могут быть применены везде, где возможно формирование конечномерной подвыборки признаков, и имеется некоторая детерминистская математическая модель генерации данных.

4. Разработаны новые алгоритмы сжатия на основе аппроксимации спектра суперпозицией спектральных паттернов, подавления нестационарного шума и распознавания диктора в сильно зашум-ленной обстановке. Эффективность новых алгоритмов продемонстрирована на экспериментальных тестах, в рамках которых были достигнуты более высокие оценки в объективных метриках, в срав-нениии с современными существующими методами решения дан-

Далее приводится краткий обзор существующих моделей речеобра-зования.

Приближение узких труб

В работе [3] рассмотрен простейший процесс речеобразования, который строится на основе приближения узких труб. Звуковые волны от бесконечно удаленного источника распространяются вдоль цилиндрических резонаторов длины Ь с переменной площадью поперечного сечения А = А(г,Ь). В силу того, что диаметр такой трубы мал по сравнению с длиной волны Л = 2е , акустические колебания описываются одномерными дифференицальными уравнениями. Такое приближение справедливо на характерных частотах речевого сигнала - от 0 Гц до 4кГц. Также предполагается отсутствие вязкости и теплопроводности как внутри воздушного потока, так и на стенках речевого тракта. Отсюда уравнения звуковых волн в трубе строятся в следующем виде:

ных задач [15] [16] [17].

ду 1 д (рА) дА

+

дг рс2 д1 д1

о < г < ь,г > о

где р = р(z, t) и v = v(z, t) - составляющие звукового давления и скорости движения частиц воздуха вдоль оси z, перпендикулярной фронту плоской волны, р - плотность воздуха в трубе, с - скорость распространения звуковых колебаний в воздушной среде.

Уравнения общего типа (1) упрощаются в предположении, что площадь поперечного сечения речевого тракта не изменяется во времени и является гладкой функцией по пространственной переменной z: A = A(z) е C1[0, L] [18]:

dp р du

< -~dz = Alz) dt'

dv A(z) dp

dz рс2 dt

Система уравнений преобразуется к дифференциальному уравнению 2-го порядка относительно составляющей звукового давления :

д2р с2 д ( др\

W = W) d~z\A{z) d~z) (2)

Уравнение (2) в контексте акустики речеобразования достаточно хорошо изучено [19], и для некоторых частных случаев формы речевого тракта имеет аналитические решения [5]. Его простейшим частным случаем является гиперболическое уравнение малых поперечных колебаний струны [20], которое выводится из уравнения (2) при подстановке постоянной площади поперечного сечения A(z) = const:

Й =с'2 Й (3)

dt2 dz2

Гибридная модель многомерных цифровых волноводов

В общем случае постановки задачи в виде уравнения (2), например, когда функция AT ) задана таблично, решение задачи должно быть найдено численно. Эффективным численным методом решения считается т.н. схема Келли-Локбаума [21]. В этой схеме рассматривается дискретный аналог резонатора, описанного в предыдущем параграфе. Предполагается, что в некоторой достаточно малой окрестности произвольной точки площадь поперечного сечения постоянна. Поэтому в данной окрестности рассматривается уравнение (3), и аналитическое решение задачи, основанное на представлении Даламбера в виде бегущих волн [20]:

111 Гz+ct dv p(z, t) = ^p(z-et, 0) + 2p(z + ct, 0) + ^y 0)d^ (4)

др

Полагая начальную скорость тождественно равной нулю — (г, 0) = 0,

решение в общем виде представляется в виде суперпозиции волн, бегущих в противоположных направлениях:

р(х,1) = р(х — с±) + р(х + с±) (5)

Выбирая некоторую частоту дискретизации которая должна быть не меньше чем удвоенная наивысшая частота полезного сигнала, пространственная и временная координата становятся связаны соотношениями:

п

Ьп = пАЪ = —, п = 0,1, 2,... хг = %Ах = гсАЪ, % = 0,1,

Отсюда следует, что в дискретном случае решение (5) можно вычислить с использованием линии задержки

р(1, П) = Рг(п) = р(1 — П) + р(1 + п) = рг(п) + Рг(п) (6)

Данное решение можно обобщить также и на случай многих пространственных переменных. В этом случае имеет место модель многомерных цифровых волноводов [22] [23]. В каждый дискретный момент времени п значение функции в ¿-ом узле вычисляется на основе всех волн вида (п — 1), "входящих" в узел г из ]-ого соседнего узла (см. рисунок 1)

Рисунок 1: Различные структуры цифрового волновода, используемые для моделирования распространения звуковых колебаний в неоднородных средах

(\ хи 1 Рч(п—1) &(П) = 2 ' ^ ^-

Эта формула выводится на основе консервативных законов, постулирующих непрерывность давления и скорости потока частиц в каждой точке пространства

Рг,1(п) = Рг,2(П) = ... = Р%,3 (П)

УтАп) + У2рг,2 (п) +... + умрь,7 (п) = о

являются коэффициентами акустической проводимости, связывающие давление и скорость потока частиц. Они могут быть использованы для формирования неоднородной среды распространения звуковых колебаний, в том числе для цилиндра с переменной площадью поперечного сечения Yj = ^. Аналогичная формула имеет место также для описания пограничных режимов, с учетом задаваемой акустической проводимости на границе Ув в том числе и для границы, излучающей в открытое пространство (как в случае с ротовым отверстием). Таким образом, модель цифровых волноводов является достаточно удобным и простым инструментов описания акустических процессов для произвольных сред. Однако их основные ограничения проистекают из факта эквивалентности схемы Келли-Локбаума, и ее многомерного аналога простой конечной разностной схеме. Также в модели цифровых волноводов наложены дополнительные ограничения на постоянство сетки дискретизации, которое, тем не менее, можешь быть преодолено при помощи различных гибридных схем, включающих в себя как разностную схему в виде линии задержки, так и схемы, включающие в себя дискретизованные уравнения в частных производных. Сопутствующей проблемой является возрастающая вычислительная сложность таких многомерных схем.

Модель полубесконечного цилиндра

Выше были описаны некоторые проблемы, связанные с моделированием акустического поля речевого тракта при помощи одномерных моделей на основе гиперболического уравнения или цифровых волноводов. Также существует ряд иных сложностей, неизбежно возникающих в предположении о том, что акустические волны в речевом тракте носят плоский характер. В работе [24] предложена оригинальная модель речевого тракта в виде полубесконечного цилиндра (рисунок 2) Рассматри-

Рисунок 2: Модель речевого тракта в виде полубесконечного циллиндра

вается задача Гельмгольца на плоскости. Вся область речеобразования О разбивается на 2 подобласти: Оi - собственно внутренняя область речевого тракта, ограниченная стенкой Г, и Ое - внешняя область воздушной среды, представленная в виде полубесконечного цилиндра. Используя известное аналитическое решение для внешней области, задаются условия излучения на границе Гд, имитирующей ротовое отверстие. На оставшейся части границы области О заданы граничные условия Неймана.

Авторы сравнивают предлагаемую модель с постановкой задачи на основе уравнений с узкими трубами. В обоих случаях для получения решения рассматривается численный метод конечных элементов. Важным заключением, сделанным в данной работе, является экспериментально подтвержденный факт расхождения приближения узких труб с решением рассматриваемой двумерной задачи в области высоких частот. Авторы поясняют это тем, что для больших волновых чисел при заданной геометрии речевого тракта возникают поперечные моды большей амплитуды, которые вносят ошибку в продольной аппроксимации волновой функции. В области низких частот это явление носит менее выраженный характер, поэтому одномерное приближение типа уравнения (2) вполне справедливо, как это и предполагается в [3].

Трехмерная модель с жесткими стенками

Более сложная трехмерная модель речевого тракта рассмотрена в работе [14].

Рассматривается уравнение колебаний, формулируемое в трехмерном случае относительно функции потенциала скоростей и(х,Ь). Модель рассматривает звуковые колебания внутри некоторой области О с границей Г = 6О, образованной путем сочленения трех составляющих Г = Г1 и Г2 и Гз, где

1. Г1 - виртуальная граница, описывающая открытую ротовую щель;

2. Г2 - граница, задающая непроницаемые стенки речевого тракта;

3. Гз - граница заданная со стороны голосовых складок, условия на этой границе задают соответствующее возбуждения звукового источника

В заданных условиях задача речеобразования для функции и(х, Ь) с ставится в следующем виде:

' д2и

_ 2 = с2Аи, М е О, т2

и = 0,

<

М е Г1, М е Г2,

ои ди п

"ТГТ + = 2 и,,

у сЯ оп

(7)

М е Г3

Первое граничное условие в форме Дирихле описывает действия открытого конца трубы, и совпадает с классическим условием короткого замыкания эквивалентной линии р(Ь, 1) =0 [3]. Второе условия равенства нулю нормальной производной говорит о непроницаемости стенок речевого тракта. Третье условие несколько более сложное, и связано с решением задачи рассеяния для функции и = и(х, Ь) на границе Г3.

В работе [14], а позже в [13] специфический интерес представляет поиск формантных частот при произнесении определенных гласных. В этом случае задача (7) сводится к нахождению таких частот ш, для которых выполнена система уравнений относительно собственных функций

и = и (х,ш):

(Аи + 4и = 0, М е М,

с2 1 1

и = 0, М е Го,

= 0, м е Г1, (8)

ви

ши + с— = 0, М е Г2 оп

Решение данной задачи основано на методе конечных элементов [12]. Форма речевого тракта Г рассчитывается на основе данных компьютерной томографии при произнесении определенных гласных шведского языка. Предложеная модель демонстрирует незначительное отклонение формантных частот по сравнением с экспериментально измеренными данными.

В рамках диссертационной работы были использованы следующие методы и материалы исследования. Математическая модель речеобра-зования была разработана с привлечением общей теории эллиптических уравнений в частных производных и, в частности, однородного уравнения Гельмгольца [20]:

Аи + к2и = 0

Для однозначного разрешения уравнений, а также для доказательства существования и единственности получаемого решения был исполь-

зован метод интегральных уравнений, применяемый к границе области с ядром интегрального преобразования, заданного в циллиндрических координатах М = (г м, , ), Р = (т р, вр, хр) :

[ (^^ + сое тОр д.вр Л \ОПр )

где Р) = р) - функция Грина.

В качестве численного метода была выбрана кусочно-линейная аппроксимация, в то время как значения ядра интегрального уравнения вычислялись на основе полных эллиптических интегралов 1-го и 2-го рода:

Г/2 ¿в К{к) = ^

'о \/1—к2^\п29

Г/2 /-

Е(к) = VI - к2вт2в¿9 о

Восстановление неизвестных параметров проводилось при помощи преобразования наблюдаемого речевого сигнала у(Ъ) —> У(ш,т) на частотно-временную плоскость (спектрограмму) методом оконного преобразования Фурье с заданной оконной функцией п){Ъ):

У(ш,т)= У^Щг - т)е~шг ^

— IX)

Для поиска неизвестных параметров речеобразования по заданной дискретной спектрограмме У, однозначно представленных в виде характерных независящих от времени спектральных профилей (или спектральных паттернов), используется теория матричного разложения [25] и теория разреженных представлений [26] [27]. Рассматривается следующая постановка оптимизационной задачи:

Ер(У, ВХ) + X УХ||1 ^ штаь...ам,х

= , з = 1, 2,...М а] > 0,Х > 0

где Е^(У, ИХ) - параметрический функционал невязки. В рамках работы предложено несколько модификаций общей постановки задачи, учитывающих модель речеобразования путем определения матриц ^^ и дополнительных функционалов регуляризации по Тихонову для неизвестных коэффициентов а1,... ам.

эо

Комплекс программ для решения задач обработки речевых сигналов - шумоподавления и распознавания диктора, представляет собой совокупность известных методов анализа данных: кластеризации (K-Means), аппроксимации плотностей многомерных нормальных распределений (Gaussian Mixture Modeling), факторного анализа (i-vector), метода главных компонент (Principal Component Analysis) и метода опорных векторов (Support Vector Machines) [10] [11]. Предлагаемые качественные модификации этих подходов основаны на изменении пространства речевых признаков при помощи описанных выше моделей [16] [17], нормализации выходной вероятностной оценки [28] и применением моделей глубоких нейронных сетей [29].

Материалами для исследования послужили численные измерения параметров речевого тракта, а также различные базы данных для тестирования алгоритмов шумоподавления и распознавания голоса диктора. Измерения параметров речевого тракта были произведены на основе реальных экспериментов с ларингографом, оценивающим геометрические характеристики речевого тракта (радиус в различных точках) в момент произношения некоторых гласных русского языка. Описание данных было взято из работы [30]. Из этого же источника были взяты диапазоны изменения основных физических параметров стенок тракта: коэффициента сопротивления, толщины и модуля Юнга.

Также для тестирования разработанных алгоритмов были использованы общедоступные базы данных. Для тестрирования разработанного алгоритма шумоподавления была использована база TIMIT [31], состоящая из 630 англоговорящих дикторов. Поскольку данная база в исходном варианте содержит только чистые сигналы, к ней искусственно были добавлены сигналы нестационарных шумов из аудио базы Noizeus [32]. Для анализа работоспособности системы распознавания диктора была использована общедоступная база CHiME (Computational Hearing in Multisource Environments) [33], включающая в себя короткие высказывания 34 дикторов (не более 5 секунд), записанных в условиях нестационарных шумов с соотношениями сигнал-шум от -6 дБ до 9 дБ.

На защиту выносятся следующие положения:

1. Исследование новой трехмерной модели акустического речеобра-зования с конечным импедансом стенок речевого тракта, а также метода интегральных уравнений для поиска спектрального решения и синтеза речевого сигнала во временной области;

2. Разработка новых оптимизационных методов и алгоритмов оценки неизвестных параметров речеобразования по наблюдаемому речевому сигналу;

3. Разработка комплекса программ для решения задач автоматической обработки речевых сигналов: апроксимации с целью сжатия сигнала, выделения полезного сигнала в нестационарной шумовой среде а также биометрической идентификации голоса человека (распознавания диктора).

Степень достоверности полученных результатов обеспечивается публикациями в цитируемых научных изданиях и сборниках всероссийских и международных конференций, а также рядом реализованных компьютерных программ, как с закрытым, так и с публично представленным исходным кодом. Результаты работы находятся в соответствии с результатами, полученными другими авторами в данной области исследования. Апробация работы была проведена на

• Международной конференции "SPECOM 2016 : 18th International Conference on Speech and Computer" (Будапешт, Венгрия, 2016)

• Международной конференции "16th Annual Conference of the International Speech Communication Association (Interspeech)" (Дрезден, Германия, 2015)

• Международной конференции "International Conference on Speech and Computer (SPECOM)" (Новисад, Сербия, 2014)

• Международной конференции "14th Annual Conference of the International Speech Communication Association (Interspeech)" (Лион, Франция, 2013);

• Международной конференции "International Conference on Speech and Computer (SPECOM)" (Пльзен, Чешская республика,2013); "SPECOM'14" (Новисад, Сербия, 2014)

• Международной конференции "Информационные технологии и системы (ИТИС)" (Калининград, 2013)

• Международной конференции "International Conference on Speech and Computer (SPECOM)" (Казань, 2011)

• Международной конференции "Digital Signal Processing and its Applications (DSPA)" (Москва, 2011)

• Международном симпозиуме "27th Audio Engineering Society Convention (AES)" (Нью-Йорк, США, 2009)

Основные результаты опубликованы в статьях [34] [29] [35] [28] [15] [16] [36] [37] [38] [39] [17] [40] [41], 6 из которых изданы в журналах и изданиях, рекомендованных ВАК, а также в качестве тезисов докладов [42] [43].

Диссертация состоит из введения, трех глав, заключения и приложения. Полный объем диссертации составляет 110 страниц, с 28 рисунками и 5 таблицами. Список литературы содержит 83 наименования.

Глава 1

Математические модели импедансного типа в теории речеобразования

1.1 Постановка задачи

Человеческая речь - это акустический процесс, порождаемый системой различных внутренних органов человека в состав которой входят легкие, голосовые связки, речевой тракт, области гортани, неба, носовая полость, язык, губы и пр. Для описания акустического процесса используются: скалярная функция звукового давления р(М, 1) в каждой точке трехмерного пространства М = (х,у, г) Е К3 и времени Ь > 0, а также векторная скорость потока частиц у(М, ¿). В качестве базовых уравнений акустики рассматриваются уравнение неразрывности, или сохранения массы [44]

^ + р с2 а1у V = 0 (1.1)

а также уравнение Эйлера в приближении малых скоростей (у • ~ 0:

р1У + V = 0 (1.2)

При рассмотрении потенциального течения:

V = V и (1.3)

где функция и = и(М, 1) - скалярный потенциал скоростей, уравнение (1.2) принимает вид:

и

р= -р1ии (1.4)

и уравнения акустики сводятся к дифференциальному уравнению в частных производных гиперболического типа в форме

ж =с2Аи (15)

с постоянной скоростью звука с.

Для случая установившихся гармонических колебаний и (М, 1) = и(М,ш)егш1 на некоторой круговой частоте ш имеет место однородное уравнение Гельмгольца относительно комплексных амплитуд и(М,ш):

Аи + к2и = 0, к = ^ (1.6)

2 д2 д2 д2 где А = V2 = т—г + -7—г + т—г - оператор Лапласа в трехмерном про-ох2 оу2 ох2

странстве, - волновое число и - скорость звука.

Комплексная амплитуда скорости звукового потока, согласно определению (1.3), задается формулой

ъ = Vи (1.7)

а комплексная амплитуда звукового давления, также выраженная через потенциал скоростей (1.4) приобретает вид

р(М,и) = —шри(М,ш) = —гк рси(М,и) (1.8)

Предположение о том, что скорость изменения характеристик речевого тракта существенно меньше скорости колебаний звуковой волны, позволяет рассматривать комплексные амплитуды как некоторые квазистационарные спектральные характеристики сигнала, в том смысле, что они неизменные в течение малого отрезка времени. При исследовании процессов речеобразования можно ограничиться поиском спектральной функции только на малом отрезке времени. Отсюда в дальнейшем под звуковым полем будет пониматься комплекснозначная скалярная функция потенциала скоростей и(М,ш).

Для постановки задачи необходимо определить область распространения звуковых колебаний, и определить условия на границе данной области.

Основными компонентами системы речевого тракта в рамках рассматриваемой модели являются(см. область выделенную красным на рис.1.1):

• голосовые связки и прилегающая к ним область

• боковые стенки речевого тракта и язык, образованные мягкими тканями человеческого тела;

• ротовое отверстие, которое может быть либо открыто (как в случае произнесения гласных звуков), либо закрыто (для некоторых взрывных согласных, таких как "б")

• полость речевого тракта (гортань), заполненная воздухом;

На схематичном рисунке 1.2 изображена область конечная и ограниченная подобласть пространства К3, участвующая в процессе речеобразования в рамках модели. В соответствии с вышеперечисленными компонентами речевого тракта, эта область V вместе со своим замыканием V П 5 задается следующим образом:

• 50 - граница со стороны голосовой щели,

• - граница, определяемая стенками речевого тракта,

• 52 - виртуальная граница, описывающая ротовое отверстие,

• V - внутренняя область речевого тракта.

Полная поверхность речевого тракта образована сочленением частичных границ 5 = 50и51и52. Вектор нормали п = п(М) является внешним по отношению к области V.

Голосовые складки на границе 50 формируют поток воздуха, описываемый соотношением:

Как будет показано далее, конкретный вид функции /(М, ш) играет роль только если требуется получить искомый речевой сигнал во временной

Рисунок 1.1: Система речевого тракта человека, участвующая в процессе речеобра-зования. Красным выделены области, рассматриваемые в рамках текущей модели. Влияние остальных органов неявно заданы граничными условиями.

Рисунок 1.2: Схематичное изображение речевого тракта человека от голосовой щели (z = 0) до ротового отверстия и области губ (z = L)

области. Для определения спектральной частотной характеристики речевого тракта данную функцию можно брать произвольной, например, f (М, и) = const.

На оставшейся границе области 5\50 действует режим конечного ненулевого импеданса z, заданный соотношением

z(M^)= Рл(М\ш1 М eS (1.9)

v ' ; v(M,u) • пм

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Список литературы диссертационного исследования кандидат наук Любимов, Николай Андреевич, 2016 год

Литература

1. Helmholtz H. L. F. Die Lehre von den Tonempfindungen als physiologische Grundlage fur die Theorie der Musik. — Vieweg: Brauschweig, 1863.

2. Фант Г. Акустическая теория речеобразования. — М.: Наука, 1964.

3. Рабинер Л., Шаффер Р. Цифровая обработка речевых сигналов. — М.: Радио и Связь, 1981.

4. Аграновский А. В., Леднов Д. А. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов // М.: Радио и связь. — 2004.

5. Сорокин В. Н. Речевые процессы. Монография. — М.: Народное образование, 2012.

6. Zheng F., Zhang G., Song Z. Comparison of different implementations of MFCC // Journal of Computer Science and Technology. — 2001. — Vol. 16, no. 6. — Pp. 582-589.

7. Logan B. et al. Mel Frequency Cepstral Coefficients for Music Modeling // ISMIR. — 2000.

8. Hermansky H. Perceptual linear predictive (PLP) analysis of speech // the Journal of the Acoustical Society of America. — 1990. — Vol. 87, no. 4. — Pp. 1738-1752.

9. Dehak N. Discriminative and generative approaches for long-and short-term speaker characteristics modeling: application to speaker verification: Ph.D. thesis / Ecole de Technologie Superieure. — Montreal, Canada, 2009.

10. Campbell W. M., Sturim D. E., Reynolds D. A. Support vector machines using GMM supervectors for speaker verification // Signal Processing Letters, IEEE. — 2006. — Vol. 13, no. 5. — Pp. 308-311.

11. Dehak N., Kenny P. et al. Front-end factor analysis for speaker verification // IEEE Transactions on Audio, Speech, and Language Processing.

— 2011. — Vol. 19, no. 4. — Pp. 788-798.

12. Formants and vowel sounds by finite element method / A. Hannukainen, T. Lukkari, J. Malinen, P. Palo // The Phonetics Symposium. — 2006.

— Pp. 24-33.

13. Aalto D., Huhtala A. et al. How far are vowel formants from computed vocal tract resonances? // Aalto university. — 2012.

14. Hannukainen A. et al. Vowel formants from the wave equation // Acoustic Society of America. — 2007. — Vol. 122, no. 1. — P. EL1.

15. Любимов Н. А. Метод факторизации матриц с неотрицательными элементами для оценки параметров детерминистико-стохастического разложения речевого сигнала // Информатизация и Связь. — 2013.

— Vol. 1. — Pp. 43-48.

16. Lyubimov N., Kotov M. Non-negative Matrix Factorization with Linear Constraints for Single-Channel Speech Enhancement // 14th Annual Conference of the International Speech Communication Association. — 2013.

17. Exploiting Non-negative Matrix Factorization with Linear Constraints in Noise-Robust Speaker Identification / N. Lyubimov, M. Nastasenko, M. Kotov, D. Doroshin // Speech and Computer. — Springer, 2014. — Pp. 200-208.

18. Webster A.G. Acoustical impedance, and the theory of horns and of the phonograph // Audio Engineering Society. — 1977. — Vol. 25. — Pp. 2428.

19. Сорокин В. Н. Теория речеобразования. — М.: Радио и Связь, 1985.

20. Тихонов А. Н., Самарский А. А. Уравнения математической физики.

— М.: МГУ, 1999.

21. Kelly J. L., Lochbaum C. C. Speech synthesis // Proceedings of the 4th International Congress on Acoustics. — 1962. — Pp. 1-4.

22. Mullen J. Physical Modelling of the Vocal Tract with the 2D Digital Waveguide Mesh: Ph.D. thesis / University of York. — 2006.

23. Speed M. D. A. Voice Synthesis Using the Three-Dimensional Digital Waveguide Mesh: Ph.D. thesis / University of York. — 2012.

24. Kako T., Kano T. Numerical simulation of wave propagation phenomena in vocal tract and domain // 11th International Conference on Domain Decomposition Methods. — 1999. — Pp. 268-273.

25. Lee D. D., Seung H. S. Learning the parts of objects by non-negative matrix factorization // Nature. — 1999. — Vol. 401, no. 6755. — Pp. 788791.

26. Elad M. Sparse and redundant representations: from theory to applications in signal and image processing. — Springer, 2010.

27. Donoho D. L. Compressed sensing // Information Theory, IEEE Transactions on. — 2006. — Vol. 52, no. 4. — Pp. 1289-1306.

28. Blind Score Normalization Method for PLDA Based Speaker Recognition / D. Doroshin, N. Lubimov, M. Nastasenko, M. Kotov // 16th Annual Conference of the International Speech Communication Association.

— 2015.

29. Language Identification Using Time Delay Neural Network D-Vector on Short Utterances / M. Tkachenko, N. Lyubimov, A. Yamshinin et al. // Lecture Notes in Computer Science, Speech and Computer. — 2016. — Vol. 9811. — Pp. 443-449.

30. Сорокин В. Н. Синтез речи. — М.: Наука, 1992.

31. Garofolo J. S. et al. TIMIT: acoustic-phonetic continuous speech corpus.

— Linguistic Data Consortium, 1993.

32. Hu Y., Loizou C. P. Evaluation of objective quality measures for speech enhancement // IEEE Transactions on Audio, Speech, and Language Processing. — 2008. — Vol. 16, no. 1. — Pp. 229-238.

33. The CHiME corpus: a resource and a challenge for computational hearing in multisource environments. / H. Christensen, J. Barker, N. Ma, P. D. Green // INTERSPEECH / Citeseer. — 2010. — Pp. 1918-1921.

34. Lyubimov N. A., Zakharov E. V. Mathematical Model of Acoustic Speech Production with Mobile Walls of the Vocal Tract // Acoustical Physics.

— 2016. — Vol. 62, no. 2. — Pp. 225-234.

35. Lyubimov N. Applying the integral equations method to the problem of synthesizing vowels of the Russian language // Moscow University Computational Mathematics and Cybernetics. — 2015. — Vol. 39, no. 3.

— Pp. 99-106.

36. Любимов Н. А. Метод разреженных представлений в задаче автоматической текстонезависимой идентификации и верификации диктора // Ж. Радиоэлектроники РАН. — 2011. — Vol. 10.

37. Application of l 1 Estimation of Gaussian Mixture Model Parameters for Language Identification / D. Doroshin, M. Tkachenko, N. Lubimov, M. Kotov // Speech and Computer. — Springer, 2013. — Pp. 41-45.

38. Lyubimov N., Lednov D., Andreev M. Automatic Speaker Identification System based on Discriminative Classifier // 14th Int. Conf on Speech and Computer (SPECOM'11). — Vol. 2. — 2011. — Pp. 273-278.

39. Любимов Н., Михеев Е., Лукин А. Сравнение алгоритмов кластеризации в задаче идентификации диктора // Труды 13-й международной конференции Цифровая Обработка Сигналов и ее Применения (DSPA'11). — Vol. 1. — 2011. — Pp. 204-207.

40. Иващенко Ю. С., Леднов Д. А., Любимов Н. А. Система автоматического распознавания языков на основе гауссовских и авторегрессионных моделей // Речевые Технологии. — 2008. — no. 2.

— Pp. 36-43.

41. Lyubimov N., Lukin A. Audio Bandwidth Extension Using Cluster Weighted Modeling of Spectral Envelopes // Audio Engineering Society Convention 127 / Audio Engineering Society. — 2009.

42. Захаров Е. В., Любимов Н. А. Исследование моделей речевой акустики методом интегральных уравнений // Сборник трудов конференции "Тихоновские чтения". — 2014.

43. Shelyakin P., Lyubimov N. Classification of Clostridium difficile sigma factor binding sites // Int. Conf. on Information Technology and Systems (ITAS'13). — 2013. — Pp. 101-103.

44. Ландау Л. Д., Лифшиц Е. М. Теоретическая физика. Том 6. Гидродинамика. — М.: Наука, 1986.

45. Rienstra S. W. Impedance Models in Time Domain including the Extended Helmholtz Resonator Model // 12th AIAA/CEAS Aeroacoustics Conference. — 2006.

46. Brambley E. J. Review of acoustic linear models with flow // Acous-tics2012. — 2012.

47. Atig M., Dalmont J. P., Gilbert J. Termination impedance of open-ended cylindrical tubes at high sound pressure level // Comptes Rendus de l'Academie des Sciences - Series IIB - Mechanics. — 2004. — Vol. 332, no. 4. — Pp. 299-304.

48. Fant G. Glottal flow: models and interaction //J. Phonetics. — 1986. — Vol. 14. — Pp. 393-399.

49. Fant G. The LF-model revisited. Transformation and frequency domain analysis // Speech Trans. Lab. Q. Rep., Royal Inst. of Techn. Stockholm.

— 1995. — Vol. 2-3. — Pp. 121-156.

50. Fant G. The voice source in connected speech // Speech communications.

— 1997. — Pp. 125-139.

51. Колтон Д., Кресс Р. Методы интегральных уравнений в теории рассеяния. — М.: Мир, 1987.

52. Колмогоров А. Н., Фомин С. В. Элементы теории функций и функционального анализа. — М.: Наука, 1976.

53. Juhl P. M. The boundary element method for sound field calculations: Ph.D. thesis / Technical University of Denmark. — 1993.

54. Бахвалов Н. С., Жидков H. П., Кобельков Г. М. Численные методы.

— М.: Бином. Лаборатория знаний, 2003.

55. Fant G., Nord L., Branderud P. A note on the vocal tract wall impedance // Speech Trans. Lab. Q. Rep., Royal Inst. of Techn. Stockholm. — 1976. — Vol. 17, no. 4. — Pp. 13-20.

56. Gold B., Morgan N., Ellis D. Speech and audio signal processing: processing and perception of speech and music. — John Wiley & Sons, 2011.

57. Smith J. O. Spectral audio signal processing. — Stanford: CCRMA, 2010.

58. Nearey T. M. Phonetic feature systems for vowels. — Indiana University Linguistics Club, 1978. — Vol. 77.

59. McAulay R., Quatieri T. F. Speech analysis/synthesis based on a sinusoidal representation // Acoustics, Speech and Signal Processing, IEEE Transactions on. — 1986. — Vol. 34, no. 4. — Pp. 744-754.

60. Lee D. D., Seung H. S. Algorithms for non-negative matrix factorization // Advances in neural information processing systems. — 2001. — Pp. 556-562.

61. Document clustering using nonnegative matrix factorization / F. Shah-naz, M. W. Berry Michael, V. P. Pauca, R. J. Plemmons // Information Processing & Management. — 2006. — Vol. 42, no. 2. — Pp. 373-386.

62. Li Y., Ngom A. The non-negative matrix factorization toolbox for biological data mining // Source code for biology and medicine. — 2013. — Vol. 8, no. 1. — Pp. 1-15.

63. Koren Y., Bell R., Volinsky C. Matrix factorization techniques for rec-ommender systems // Institute of Electrical and Electronics Engineers.

— 2009. — Vol. 42, no. 8. — Pp. 30-37.

64. Schmidt M., Olsson R. Single-channel speech separation using sparse non-negative matrix factorization // Spoken Language Proceesing, ISCA International Conference on (INTERSPEECH). — 2006.

65. Schmidt M. N., Larsen J., Hsiao F. T. Wind noise reduction using nonnegative sparse coding // Machine Learning for Signal Processing, 2007 IEEE Workshop on / IEEE. — 2007. — Pp. 431-436.

66. Cauchi B., Goetze S., Doclo S. Reduction of non-stationary noise for a robotic living assistant using sparse non-negative matrix factorization // Proceedings of the 1st Workshop on Speech and Multimodal Interaction in Assistive Environments / Association for Computational Linguistics.

— 2012. — Pp. 28-33.

67. Speech denoising using nonnegative matrix factorization with priors. / K. W. Wilson, B. Raj, P. Smaragdis, A. Divakaran // ICASSP / Citeseer.

— 2008. — Pp. 4029-4032.

68. Mohammadiha N., Gerkmann T., Leijon A. A new approach for speech enhancement based on a constrained nonnegative matrix factorization // Intelligent Signal Processing and Communications Systems (ISPACS), 2011 International Symposium on / IEEE. — 2011. — Pp. 1-5.

69. Mysore G. J., Smaragdis P. A non-negative approach to semi-supervised separation of speech from noise with the use of temporal dynamics // Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on / IEEE. — 2011. — Pp. 17-20.

70. Weninger F., Feliu J., Schuller B. Supervised and semi-supervised suppression of background music in monaural speech recordings // Acoustics, Speech and Signal Processing (ICASSP), 2012 IEEE International Conference on / IEEE. — 2012. — Pp. 61-64.

71. Bertin N., Badeau R., Vincent E. Fast bayesian nmf algorithms enforcing harmonicity and temporal continuity in polyphonic music transcription. // WASPAA. — 2009. — Pp. 29-32.

72. Helen M., Virtanen T. Separation of drums from polyphonic music using non-negative matrix factorization and support vector machine // Proc. EUSIPCO. — 2005. — Pp. 1-4.

73. Fevotte C., Idier J. Algorithms for nonnegative matrix factorization with the 3-divergence // Neural Computation. — 2011. — Vol. 23, no. 9. — Pp. 2421-2456.

74. Тихонов А. Н., Арсенин В. Я. Методы решения некорректных задач.

— М.: Наука, 1979.

75. Serra X. A system for sound analysis/transformation/synthesis based on a deterministic plus stochastic decomposition: Ph.D. thesis / Stanford University. — 1989.

76. Moore B. J. An introduction to the psychology of hearing. — Brill, 2012.

77. Boll S. Suppression of acoustic noise in speech using spectral subtraction // Acoustics, Speech and Signal Processing, IEEE Transactions on.

— 1979. — Vol. 27, no. 2. — Pp. 113-120.

78. Ephraim Y., Malah D. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator // Acoustics, Speech and Signal Processing, IEEE Transactions on. — 1984. — Vol. 32, no. 6. — Pp. 1109-1121.

79. Reynolds D. A., Rose R. C. Robust text-independent speaker identification using Gaussian mixture speaker models // Speech and Audio Processing, IEEE Transactions on. — 1995. — Vol. 3, no. 1. — Pp. 7283.

80. Reynolds D. A., Quatieri T. F., Dunn R. B. Speaker verification using adapted Gaussian mixture models // Digital signal processing. — 2000.

— Vol. 10, no. 1. — Pp. 19-41.

81. Wan V., Campbell W. M. Support vector machines for speaker verification and identification // Neural Networks Signal Processing / IEEE. — Vol. 2. — 2000. — Pp. 775-784.

82. Keshet J., Bengio S. Automatic speech and speaker recognition: Large margin and kernel methods. — John Wiley & Sons, 2009.

83. Pelecanos J., Sridharan S. Feature warping for robust speaker verification // ODYSSEY: The Speaker Recognition Workshop. — 2001. — Pp. 1-6.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.