Автоматическая интерпретация звуков речи

Кочаров, Даниил Александрович

Автоматическая интерпретация звуков речи тема диссертации и автореферата по ВАК РФ 10.02.19, кандидат филологических наук Кочаров, Даниил Александрович

Кочаров, Даниил Александрович
кандидат филологических наук
2008

Специальность ВАК РФ10.02.19

Количество страниц 170

Кочаров, Даниил Александрович. Автоматическая интерпретация звуков речи: дис. кандидат филологических наук: 10.02.19 - Теория языка. Санкт-Петербург. 2008. 170 с.

Оглавление диссертации кандидат филологических наук Кочаров, Даниил Александрович

Оглавление.

Введение.

Глава 1. Моделирование речевого сигнала.

1.1. Введение.

1.2. Особенности реализации звуков в спонтанной речи.

1.3. Представление речевого сигнала.

1.3.1. Осциллограмма речевого сигнала и ее анализ.

1.3.2. Спектральный анализ речевого сигнала.

1.4. Анализ речевого сигнала.

1.5. Психоакустические шкалы, используемые в анализе речи.

1.5.1. Перцептивные шкалы частот.

1.5.2. Перцептивная шкала громкости.

1.6. Акустическое моделирование.

1.7. Адаптация акустической модели к диктору.

1.8. Стандартные акустические характеристики.

1.9. Комбинирование акустических характеристик.

Введение диссертации (часть автореферата) на тему «Автоматическая интерпретация звуков речи»

2.2. Системы, распознавания слитной речи, использующие фонетические характеристики.41

2.3. Наличие основного тона (ОТ).44

2.3.1. Частотные методы.44

2.3.2. Амплитудные методы.45

2.3.3. Корреляционный метод определения периода основного тона 46

2.4. Определение частоты основного тона (ЧОТ).48

2.4.1. Вычисление отношения длин соседних периодов.53

2.4.2. Определение ЧОТ методом анализа через синтез.54

2.4.3. Комбинирование характеристик и определение периода ЧОТ. 56

2.5. Местоположение формант.61

2.6. Степень сонорности звука речи.67

2.6.1. Акустическая характеристика сонорности.69

2.6.2. Представление спектра в нелинейной шкале.73

2.6.3. Низкочастотная фильтрация.75

2.7. Определение места образования шумных согласных.76

2.8. Заключение.79

Глава 3. Автоматическая интерпретация звуков речи.82

3.1. Введение.82

3.2. Распознавание гласных по местоположению формант.83

3.2.1. Формирование базы эталонов.83

3.2.2. Результаты распознавания гласных.86

3.3. Определение согласных, по месту и способу их образования.96

3.4. Использование характеристики звонкости в автоматическом распознавании речи.107

3.5. Использование характеристики сонорности в автоматическом распознавании речи.109

3.6. Заключение.115

Заключение.118

Список использованной литературы.123

Приложение 1. Корпусы и установки систем распознавания.142

П 1.1. Корпус слитной русской речи.142

П 1.2. Корпус SieTill.143

П 1.3. Корпус VerbMobil II.144

П 1.4. Корпус European Parliament Plenary Sessions.145

Приложение 2. Архитектура системы автоматического распознавания речи.148

Приложение 3. Список слов, использованный в экспериментах по распознаванию гласных.151

Приложение 4. Результаты распознавания отдельных гласных.153

Введение

Область применения речевых технологий постоянно расширяется. Особенно это относится к автоматическому распознаванию и транскрипции речи. Сфера их использования уже включает в себя любые виды оказания дистанционных услуг (например, заказ билетов), автоматический перевод речи, поиск ключевых слов в речевом сигнале, поиск информации в базах звуковых и видео данных, а также частично автоматическое определение говорящего или языка, на котором он говорит.

В последнее время постепенно увеличивается эффективность систем, выполняющих задачи автоматической обработки и интерпретации слитной речи. В то же время остается множество проблем в рамках существующих на сегодняшний день подходов. Одна из основных заключается в автоматической идентификации звуков речи.

Почти все системы автоматической обработки речи полностью основаны на статистических моделях, и в них используется довольно примитивное, с лингвистической точки зрения, моделирование речевого сигнала. Современный статистический подход к моделированию речи сталкивается с существенными проблемами при переходе от лабораторных данных к реальному речевому материалу. Это происходит в силу специфики статистического подхода: система эффективно работает на том и только на том материале, на котором она обучалась.

Исследовательская деятельность во всем мире в основном направлена на развитие математического и статистического аппарата, используемого в речевых технологиях. Но практически нет исследований, задачей которых является разработка лингвистических методов решения существующих проблем. Лингвистический подход может быть очень эффективен для создания антропоморфных моделей речевого сигнала, т.е. таких, в которых учитывается то, как человек порождает и воспринимает речь.

Применение антропоморфных моделей речевого сигнала представляется крайне перспективным, так как способности человека к распознаванию и пониманию речи намного превосходят возможности современных систем автоматической обработки речи. Человек не только лучше компьютерных систем распознает речь в сходных условиях, но и обладает той универсальностью и относительной независимостью от окружающих условий, которой не. имеют системы автоматического распознавания речи.

То, как человек воспринимает родную речь, находит свое отражение в фонологической системе языка. В ней содержится, весь, набор фонем, минимальных единиц языка, которые различаются его носителями. А фонетические законы, действующие в рамках языка, отражают особенности порождения речи носителями данного языка [Бондарко и др. 1991: 6-8]. Поэтому устойчивые акустические характеристики звуков речи, разработанные на фонологических и фонетических принципах, могут быть использованы в качестве основы для разработки эффективной автоматической интерпретации звуков речи и, соответственно, автоматической транскрипции и распознавания речи.

Целью настоящего диссертационного исследования является автоматическая интерпретация звуков речи, основанная на лингвистических принципах. Интерпретация звуков речи осуществляется при помощи акустических моделей речевого сигнала, построенных на основе фонологических и фонетических принципов.

Предметом исследования являются устойчивые акустические характеристики звуков речи, основанные на фонетических свойствах, которые могут быть использованы для разработки автоматической процедуры их выделения и интерпретации.

В задачи исследования входит:

1. определение акустических характеристик звуков речи в разных типах речи (спонтанной речи и чтении);

2. создание процедур автоматического выделения полезных акустических признаков звуков в речевом сигнале;

3. создание процедур автоматической фонемной интерпретации акустических характеристик звуков речи;

4. проверка точности интерпретации звуков речи в разных видах речевого материала и условиях предварительной обработки, а также разных методов представления речевого сигнала.

Научная новизна заключается в применении современных достижений цифровой обработки речевого сигнала для сегментации речевого потока и выделения акустических коррелятов традиционных фонетических (артикуляторных и перцептивных) признаков звуков речи с их последующей автоматической классификацией и интерпретацией на основе современных методов статистической обработки данных.

Лингвистическим основанием для данной работы являются исследования отечественных лингвистов, проводившиеся в нашей стране с начала ХХ-го века. Традиция описания звукового строя языка в терминах артикуляторных и акустических дифференциальных признаков служит надежной базой для построения антропоморфных акустических моделей речевого сигнала.

Алгоритмы получения и обучения акустических моделей на основе фонетических признаков разработаны при помощи самых современных математических и статистических методов.

Теоретическая ценность исследования заключается в выявлении и формально-акустическом представлении устойчивых свойств звуков русской речи, которые необходимы для их автоматической классификации и интерпретации и сохраняются в разных типах речи. Данная работа опирается на традиционный подход Щербовской фонологической школы к классификации элементов звуковой системы языка на основе артикуляторных и акустических дифференциальных признаков.

Апробация работы. Достоверность диссертационного исследования была проверена при помощи, экспериментов на материале новейших тестовых корпусов на русском, немецком и английском языках, общим объемом около 135 часов. Результаты исследований были представлены в докладах на заседаниях кафедры фонетики и методики преподавания иностранных языков Санкт-Петербургского государственного университета, на семинарах, посвященных вопросам речевых технологий, на межвузовских конференциях преподавателей и аспирантов в СПбГУ (2003, 2006, 2007), на международных конференциях (SPECOM 2004, 2006 и Interspeech 2005): Результаты исследований опубликованы в 10-ти изданиях, в том числе в двух рецензируемых изданиях из списка ВАКа: «Вестник СПбГУ» и «Speech Communication» (на основании системы цитирования «Web of Science», см. перечень рецензируемых научных журналов и изданий ВАК от 21 апреля 2008 г.).

Практическая значимость работы определяется возможностью использования фонетических характеристик звуков речи для их автоматической классификации и интерпретации в системах автоматической транскрипции русской устной речи. Использование результатов работы в системах автоматического распознавания речи позволит увеличить их эффективность в применении к спонтанной речи, а также возможность адаптации подобных систем к обработке других языков.

Разработанные в ходе диссертационного проекта алгоритмы построения акустических моделей звуков речи и всего речевого сигнала в целом, можно использовать в любых системах автоматической обработки речи для извлечения из нее полезной информации. В первую очередь это касается систем автоматической транскрипции и распознавания речи. Предложенные акустические модели могут быть также эффективны для решения задач автоматического поиска ключевых слов в речи, автоматического аннотирования видео- и звуковых материалов и поиска необходимых материалов в соответствующих базах данных.

Данная работа построена следующим образом.

В первой главе изложены основы анализа и акустического моделирования речевого сигнала, применяемые в современных работах в области речевых технологий. В том числе описаны методы, примененные в диссертационном исследовании. Кроме того, в первой главе рассмотрены особенности спонтанной речи. Особое внимание обращается на акустические свойства реализованных в спонтанной речи аллофонов.

Во второй главе рассмотрены фонетические характеристики речевого сигнала, разработанные и реализованные в рамках данного диссертационного исследования для анализа и акустического моделирования речи. Для каждой характеристики подробно описан алгоритм ее получения из речевого сигнала.

В третьей главе представлены результаты, полученные в ходе экспериментов как по интерпретации отдельных звуков речи при помощи фонетических характеристик, так и по использованию таких характеристик в системах автоматического распознавания слитной речи. Результаты приводятся на материале русского, немецкого и английского языков.

В приложении 1 описаны звуковые корпусы и параметры систем автоматического распознавания речи, использованных в экспериментах на материале представленных корпусов.

В приложении 2 описана общая архитектура системы распознавания слитной речи, построенной на статистических принципах.

В приложении 3 приведен список слов, использованный в качестве материала в экспериментах по распознаванию гласных.

В приложении 4 представлены результаты распознавания изолированных гласных.

В заключении работы приведены основные выводы по результатам диссертации.

Заключение диссертации по теме «Теория языка», Кочаров, Даниил Александрович

Заключение

В настоящее время в речевых технологиях преобладает статистический подход к моделированию речевого сигнала. Несмотря на постоянное развитие математических алгоритмов обработки и классификации данных, системы автоматической обработки речи не достигают результативности, показываемой людьми в сходных условиях.

Статистический подход к акустическому моделированию речи сталкивается с существенными проблемами при переходе от лабораторных данных к реальному материалу. Практически все системы, основанные на чисто статистических методах, не используют знания о том, как человек порождает и воспринимает речь, а также знания о фонологических системах языков и фонетических процессах, происходящих со звуками речи под влиянием тех или иных условий.

Предметом описываемого диссертационного исследования были устойчивые к вариативности речевого сигнала акустические характеристики звуков речи, основанные на фонетических и фонологических принципах, которые могут быть использованы для разработки автоматической процедуры их интерпретации.

В ходе исследования были определены фонетические характеристики, которые возможно успешно формализовать и использовать для акустического моделирования звуков речи в разных условиях реализации. Были созданы процедуры выделения из речевого сигнала отобранных характеристик. Все характеристики были проверены в экспериментах на точность интерпретации звуков речи в разных видах речевого материала и условий предварительной обработки, а также методов' представления! речевого сигнала. Эксперименты были проведены на материале нескольких корпусов на разных языках, общим объемом около 135 часов, представляющих разные типы речи.

В исследовании применялся междисциплинарный подход к акустическому моделированию, совмещающему лингвистические и математические методы исследования речи. С одной стороны, данная работа опирается на традицию описания звукового строя языка в терминах артикуляторных и акустических дифференциальных признаков. С другой стороны, были использованы новейшие математические и статистические алгоритмы обработки и классификации данных, в том числе: линейный дискриминативный анализ, классификационные деревья решений, нормализация длины речевого тракта.

Результаты диссертационного исследования можно использовать в различных областях речевых технологий, включая автоматическое распознавание речи, автоматическую идентификацию говорящего или языка, автоматический поиск ключевых слов в речевом сигнале.

Автоматическая интерпретация звуков речи подразумевает предварительную обработку речевого сигнала и акустическое моделирование звуков речи на основе выделенных из. сигнала акустических характеристик. Сама интерпретация производится посредством сравнения акустической модели опознаваемого звука речи с эталонными моделями. Поэтому в данной диссертационной работе последовательно был описан процесс разработки, выделения и применения акустических моделей звуков речи для автоматической интерпретации звуков речи. В работе подробно описаны алгоритмы получения разработанных и реализованных акустических характеристик.

Использование антропоморфных моделей отличается универсальностью, так как человек может намного эффективнее понимать спонтанную речь и является своего рода идеальной системой распознавания. Фонетический подход к акустическому моделированию звуков речи учитывает то, каким образом образуются звуки речи, как они противопоставляются друг другу в рамках фонологической системы языка и как они влияют друг на друга в речевом сигнале.

Акустические характеристики являются основными структурными элементами акустических моделей. От правильного выбора характеристик зависит то, насколько полученная в итоге модель будет удовлетворять накладываемым на нее требованиям. При неправильном выборе акустических характеристик никакие математические алгоритмы дальнейшей обработки и классификации полученных данных не могут привести систему к успешной работе.

В число характеристик, использованных в диссертационном исследовании для автоматической интерпретации звуков речи, входят как акустические характеристики, так и фонетические. В качестве стандартных акустических характеристик выступают МБСС и РЬР. С ними проводилось сравнение во время оценки эффективности предложенных фонетических характеристик.

Разработанные и реализованные в ходе диссертационного исследования фонетические характеристики включают в себя акустические корреляты звонкости, сонорности, местоположения формант, а также места и способа образования согласных.

Для определения звонкости применялась процедура, основанная на автокорреляционной функции. При наличии ОТ в речевом сигнале, соседние периоды ЧОТ достаточно сильно коррелирует друг с другом. Поэтому на озвонченных участках речевого сигнала в значениях автокорреляционной функции периодически появляются- максимумы, соответствующие границам периодов ЧОТ. На невокализованных участках таких процессов не наблюдается.

Информация о местоположении формант использовалась для автоматической интерпретации гласных. Местоположение формант вычислялось синхронно периодам ЧОТ при помощи гребенки полосных фильтров, ширина которых была равна ЧОТ, а центры фильтров отстояли друг от друга по оси частот на значение ЧОТ. Полученные данные интерполировались в гребенку полосных фильтров, организованную на перцептивных принципах. Такая двухуровневая процедура позволяет, с одной стороны, давать общую спектральную картину формантной- структуры гласного, а с другой, - отслеживать движение формант внутри гласного.

Акустическим коррелятом сонорности является сумма производных спектра во всех точках частотной оси. Производная спектра соответствует скорости изменения функции, поэтому эта величина способна отразить суммарную скорость изменений спектра по всей шкале частот. Это в свою очередь коррелирует с сонорностью речевого сигнала в данной временной* точке. В ходе проведенных экспериментов были исследованы всевозможные условия и параметры, влияющие на эффективность выбранной характеристики сонорности.

Место и способ образования согласных определялись посредством вычисления центра тяжести спектра, который находился при помощи гребенки из трех широкополосных фильтров. Параметры фильтров были заданы экспертным путем на основании знаний о фонетических свойствах фонем, входящих в фонологическую систему русского языка.

Для оценки эффективности разработанных в ходе диссертационного исследования фонетических характеристик было проведено несколько экспериментов. Часть экспериментов проводилась на материале вручную выделенных звуков речи, а в другой части использовалась полноценная система автоматического распознавания речи, где фонетические характеристики применялись в качестве дополнительных к общепринятым акустическим характеристикам. Во всех экспериментах были получены успешные результаты.

Результаты, представленные в диссертационной работе, показывают эффективность разработанных фонетических характеристик, а также общую перспективность применения фонетических характеристик в системах автоматического распознавания речи.

Список литературы диссертационного исследования кандидат филологических наук Кочаров, Даниил Александрович, 2008 год

1. Болотова, О. Б. Выпадения гласных в связной речи / О. Б. Болотова // Интегральное моделирование звуковой формы естественных языков: сб. ст. / отв. ред. А. С. Асиновский СПб : изд-во СПбГУ, 2005-с. 88-106;

2. Бондарко, Л. В. Фонетическое описание языка и фонологическое описание речи / Л. В. Бондарко Л., изд-во ЛГУ, 1981 - 199 е.;

3. Бондарко, Л. В. Фонетика современного русского языка / Л. В. Бондарко СПб. : изд-во СПбГУ, 1998 - 276 с.

4. Бондарко, Л. В. Введение / Л. В. Бондарко, Л. А. Вербицкая, Л. Р. Зиндер, Н. Д. Светозарова, А. С. Штерн // Фонетика спонтанной речи / под ред. Н. Д. Светозаровой Л. : изд-во ЛГУ, 1988-е. 4-11;

5. Бондарко, Л. В. Основы общей фонетики / Л. В. Бондарко, Л. А. Вербицкая, М. В. Гордина М. : изд-во Академия, 2004 -160 е.;

6. Бондарко, Л. В. Звуковая система русского языка в свете задач компилятивного синтеза / Л. В. Бондарко, В. И. Кузнецов,

7. П. А. Скрелин, К. Б. Шалонова // Бюллетень фонетического фонда русского языка №6. / СПб. : изд-во СПбГУ, 1997 с. 60-84;

8. Бондарко, Л. В. Отчет по теме «Факторы, обуславливающие восприятие речи в трудных условиях» / Л. В. Бондарко, Л. Р. Зиндер Л. : каф. фонетики ЛГУ, 1971;

9. Бондарко, Л. В. Промежуточные отчеты» по теме «Роса» / Л. В. Бондарко, Л. Р. Зиндер Л. : каф. фонетики ЛГУ, 1971, 1972, 1973, 1975;

10. Бондарко, Л. В. Отчет по теме «Разработка принципов анализа спонтанной речи и исследование восприятия искаженного текста» / Л. В. Бондарко, А. С. Штерн Л. : каф. фонетики ЛГУ, 1979;

11. Винцюк, Т. К. Анализ, распознавание и интерпретация речевых сигналов / Т. К. Винцюк Киев : наукова думка, 1987 - 264 е.;

12. Воробьев, В. И. Теория и практика вейвлет-преобразования / В. И. Воробьев, В. Г. Грибунин СПб. : изд-во военного университета связи, 1999 — 204 е.;

13. Гаазе-Рапопорт, М. Г. От амебы до робота: модели поведения. Изд. 2-е / М. Г. Гаазе-Рапопорт, Д. А. Поспелов М. : изд-во Едиториал УРСС, 2004 - 296 е.;

14. Галунов, В. И. Акустическая теория речеобразования и система фонетических признаков / В. И. Галунов, В. И. Гарбарук // Материалы международной конференции «100 лет фонетике в России» / отв. ред. Л. В. Бондарко СПб. : Изд-во СПбГУ, 2001. -58-63 е.;

15. Галунов В. И. Некоторые варианты автоматического понимания устной речи / В. И. Галунов, А. Н. Соловьев // Материалы XXXIIIмеждународной филологической конференции — СПб : изд-во СПбГУ, 2005;

16. Гейльман, Н. И. Разговорная речь / Н. И. Гейльман // Проблемы и методы экспериментально-фонетического анализа речи / под ред. Л. Р. Зиндера и Л. В. Бондарко Л. : изд-во СПбГУ, 1980 - с. 110— 122;

17. Гейльман, Н. И. Сегментная организация спонтанной речи / Н. И. Гейльман // Фонетика спонтанной речи / под ред. Н. Д. Светозаровой Л. : изд-во ЛГУ, 1988 - с. 15-77;

18. Гейльман, Н. И. Коммуникативная ситуация и вариативность фонетических характеристик / Н. И. Гейльман, В. Стериополо-// Экспериментально-фонетический анализ, Вып. 2 / под ред. Л. В. Бондарко Л. : изд-во СПбГУ, 1989 - с. 76-87;

19. Гудонавичюс, Р. В. Распознавание речевых сигналов по их структурным свойствам / Р. В. Гудонавичюс, П. П. Кемешис, А. Б. Читавичюс Л. : изд-во Энергия, 1977 - 62 е.;

20. Зиндер, Л. Р. Отчет по теме «Исследование предельных возможностей правильного восприятия слов при прослушивании и визуальной обработке» / Л. Р. Зиндер Л. : каф. Фонетики ЛГУ, 1967;

21. Зиндер, Л. Р. Отчет по теме «Исследование статистических закономерностей приема речевой информации многими аудиторами при наличии шумов» / Л. Р. Зиндер, А. С. Штерн Л.: каф. фонетики ЛГУ, 1971;

22. Кузнецов, В. И. Вокализм связной речи / В. И. Кузнецов СПб. : изд-во СПбГУ, 1997 - 247 е.;

23. Ошуйко, И. Е. Вокализм / И. Е. Ошуйко // Фонетика спонтанной речи / под ред. Н. Д. Светозаровой Л. : изд-во ЛГУ, 1988 - с. 5668;

24. Рабинер, Л. Теория и применение цифровой обработки сигналов / Л. Рабинер, Б. Гоулд М. : изд-во «Мир», 1978 - 848 е.;

25. Светозарова, Н. Д. Некоторые особенности фонетики русской спонтанной речи / Н. Д. Светозарова // Бюллетень фонетического фонда русского языка, №8, Фонетические свойства русской спонтанной речи Санкт-Петербург — Бохум, 2001 - с. 7-15;

26. Скрелин, П. A. Sub-Allophone Synthesis of Russian Vowels / П. А. Скрелин // Материалы международной конференции «100 лет фонетике в России» » / отв. ред. Л. В. Бондарко СПб. : Изд-во СПбГУ, 2001 -е. 155-158;

27. Сорокин, В. Н. Сегментация и распознавание гласных /

28. B. Н. Сорокин, А. И. Цыплихин // Информационные процессы, т. 4, № 2,, М., 2004 с. 202-220;

29. Тананайко, С. О. Развитие произносительной нормы и фонетическая вариативность (на материале русских согласных) /

30. C. О. Тананайко, Л. А. Васильева // Интегральное моделирование звуковой формы естественных языков / отв. ред. А. С. Асиновский- СПб. : изд-во СПбГУ, 2005 с. 38-53;

31. Фонетика спонтанной речи, сб. стат. / под ред. Н. Д. Светозаровой- Л. : изд-во ЛГУ, 1988 243 е.;

32. Чистович, Л. А. Восприятие речи / Л. А. Чистович, В. А. Кожевников // Вопросы теории и методов исследования восприятия речевых сигналов, вып. 22 Л., 1969 — с. 4-150;

33. Abdelatty, Ali A. M. Acoustic-Phonetic Features for the Automatic Classification of Stop Consonants / Ali A. M. Abdelatty, J. van der Spiegel, P. Mueller // IEEE Transactions on Speech and Audio Processing, Vol. 9, Issue 8, Nov. 2001 pp. 833-841;

34. Acero, A. Acoustical and Environmental Robustness in Automatic Speech Recognition, Ph.D. thesis / A. Acero Carnegie Mellon University, Pittsburgh, Sept. 1990 - 153 pp.;

35. Bahl, L. R.A Maximum Likelihood Approach to Continuous Speech Recognition / L. R. Bahl, F. Jelinek, R. L. Mercer // IEEE Trans, on Pattern Analysis and Machine Intelligence, vol. 5, March 1983 -pp. 179-190;

36. Baker, J. K. Stochastic Modeling for Automatic Speech Understanding / J. K. Baker // Speech Recognition / ed. D. R. Reddy New York : Academic Press, 1975 - pp. 512-542;

37. Baum, L. E. An Inequality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of Markov Processes / L. E. Baum // Inequalities, vol. 3, / ed. O. Shisha New York : Academic Press, 1972-pp. 1-8;

38. Bellman, R. E. Dynamic Programming / R. E. Bellman Princeton, NJ, USA : University Press, 1957 - 396 pp.;

39. Bondarko, L. V. Phonetic Properties of Russian Spontaneous Speech / L. V. Bondarko; N. B. Volskaya, S. O. Tananaiko, L. A. Vasilieva // Proc. of the Int. Congress of Phonetic Sciences Barcelona, Spain, 2003 - pp. 2973-2976;

40. Bozkurt, B. Improved Differential Phase Spectrum Processing For Formant Tracking / B. Bozkurt, B. Doval, C. D'Alessandro, T. Dutoit // Proc. of Int. Conf. on Spoken Language Processing 2004 Jeju Island, Korea, 2004 - pp. 265-268;

41. Choueiter, G. F. A Wavelet and Filter Bank Framework for Phonetic Classification / G. F. Choueiter, J. R. Glass // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 2005 Philadelphia, USA, 2005-pp. 933-936;

42. Dalsgaard, P. Phoneme Label Alignment Using Acoustic-Phonetic Features and Gaussian Probability Density Functions / P. Dalsgaard // Computer, Speech and Language, vol. 6, 1992 pp. 303-329;

43. Davis, S. B. Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences /

44. S.' B. Davis, P. Mermelstein // IEEE Trans, on Acoustics, Speech, Signal Processing, vol. ASSP-28, №4, Aug. 1980 pp. 357-366;

45. De Mori, R. Augmenting Standard Speech Recognition Features with Energy Gravity Centres / R. de Mori, L. Moisa, R. Gemell, F. Mana, D. Albesano // Computer Speech and Language, vol. 15, 2001 -pp: 341-354;

46. Doddington, G. R. The NIST Speaker Recognition Evaluation -Overview, Methodology, Systems, Results, Perspective / G. R. Doddington, M. A. Przybocki, A. F. Martin, D. A. Reynolds // Speech Communication, vol. 31, №2-3, June, 2000 pp. 225-254;

47. Duda, R. O. Pattern Classification, 2-nd ed. / R. O. Duda, P. E: Hart,

48. D. G. Stork New York : John Wiley & Sons, 2001 -. 654 pp.;

49. Eide, E. Linguistic Feature Representation, of the Speech Waveform /

50. E. Eide, J. R. Rohlicek, H. Gish, S. A Mitter // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1993 Minneapolis, USA, 1993-pp. 483—486;

51. Eide, Е. Distinctive Features for Use in an Automatic Speech Recognition System / E. Eide // Proc. European Conf. on Speech Communication and Technology 2001 Aalborg, Denmark, 2001 - pp. 1613-1616;

52. Erler, K. An HMM-Based Speech Recognizer Using- Overlapping Articulatory Features / K. Erler, G. H. Freeman // Journal of Acoustical Society of America, vol. 4, 1996 pp. 2500-2513;

53. Fant, C. G. Speech Sounds and Features / C. G. Fant Cambridge, USA : MIT Press, 1973 - 240 p.;

54. Fisher, R. A. The Use of Multiple Measurements in Taxonomic Problems/ R. A. Fisher // Annals of Eugenics, vol. 7, 1936 pp. 179— 188;

55. Fletcher, H. Auditory Patterns / H. Fletcher // Review of Modern Physics, vol. 12, 1940-pp. 47-65;

56. Fletcher, H. Loudness, Its Definition, Measurement and Calculation / H. Fletcher, W. A. Munson // Journal of the Acoustical Society of America, vol. 5, 1933 pp. 82-108;

57. Fujimura, O. An Approximation to Voice Aperiodicity / O. Fujimura // IEEE Trans, on Audio and Electroacoustics, vol. AU-16, №1, March 1968-pp. 68-72;

58. Galunov, V. I. Models of Speech Perception, Speech Production and Problem Automatic Speech Recognitions / V. I. Galunov, A. N. Soloviev, V. K. Uvarov // Proc. of SPECOM 2004 Saint-Petersburg, 2004;

59. Glass, J. R. The MIT Spoken Lecture Processing Project / J. R. Glass, T. J. Hazen, D. S. Cyphers, K. Schutte, A. Park // Proc. of

60. HLT/EMNLP on Interactive Demonstrations Vancouver, Canada, 2005 - pp. 28-29;

61. GSM 06. 60: Digital Cellular Telecommunications System (Phase2+) / Enhanced Full Rate Speech Transcoding. European Telecommunications Standards Institute, 1998;

62. Haeb-Umbach, R. Linear Discriminant Analysis for Improved Large Vocabulary Continuous Speech Recognition / R. Haeb-Umbach, H. Ney // Proc. IEEE Int. Conf. on Acoustics, Speech, and1 Signal Processing 1992, vol. 1 San Francisco, 1992 - pp. 13-16;

63. Helms, H. D. Fast Fourier Transform Method of Computing Difference Equations and Simulating Filters / H. D. Helms // IEEE Trans, on Audio and Electronics, vol. 15, №2, 1967 pp 85-90;

64. Hermansky, H. Perceptually Based Linear Predictive Analysis of Speech / H. Hermansky, B. A. Hanson, H. Wakita // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1985 Tampa, USA, 1985-pp. 509-512;

65. Hermansky, H. Perceptual Linear Predictive (PLP) Analysis of Speech / H. Hermansky // Journal of the Acoustical Society of America, vol. 87, №4, June 1990 pp. 1738-1752;

66. Holmes, J. N. Using Formant Frequencies in Speech Recognition / J. N. Holmes, W. J. Holmes, P. N. Garner // Proc. European Conf. on Speech Communication and Technology 1997, vol. 4 Rhodes, Greece, 1997-pp. 2083-2086;

67. Hon, H. W. Recent Progress in Robust Vocabulary-Independent Speech Recognition / H. W. Hon, K. F. Lee // DARPA Speech and Natural Language Processing Workshop 1991 Pacific Grove, USA, 1991 — pp. 258-263;

68. Itahashi, S. Automatic Formant Extraction Utilizing Mel Scale and Equal Loudness Contour / S. Itahashi, S. Yokoyama // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1976 Munich, Germany, 1976-pp. 310-313;

69. Jelinek, F. A Fast Sequential Decoding Algorithm Using a Stack / F. Jelinek // IBM Journal of Research and Development, vol. 13, 1969 pp. 675-685;

70. Junqua, J.-C. Evaluation and Optimization of Perceptually-Based ASR Front-End / J.-C. Junqua, H. Wakita, H. Hermansky // IEEE Transactions on Speech and Audio Processing, vol. 1, №1, Jan., 1993 -pp 39-48;

71. Kanokphara, S. A Study Of Phone Recognizer Combination For Higher Accuracy In TIMIT Phone Recognition / S. Kanokphar, J. Carson-Berndsen// Proc. the 9th Western Pacific Acoustics Conference -Seoul, Korea, 2006 pp. 154-158;

72. Kirchhoff, К. Combining Acoustic and Articulatory Feature Information for Robust Speech Recognition / K. Kirchhoff, G. A. Fink, G. Sagerer// Speech Communication, vol. 37, 2002 pp. 303-319;

73. Kocharov, D. Automatic Vowel Recognition in Fluent Speech (on the Material of the Russian Language) / D. Kocharov // Proc. of SPECOM 2004 Saint-Petersburg, 2004 - pp. 308-309;

74. Kocharov, D. Sonority Measure for Automatic Speech Recognition / D. Kocharov // Proc. of SPECOM 2006 Saint-Petersburg, 2006 -pp. 359-362;

75. Kocharov, D. Articulatory Motivated Acoustic Features for Speech Recognition / D. Kocharov, A. Zolnay, R. Schlüter, H. Ney // Proc. European Conf. on Speech Communication and Technology 2005, vol. 2 Lisbon, Portugal, 2005 - pp. 1101-1104;

76. Lahiri, A. Speech Recognition with Phonological Features / A. Lahiri // Proc. of Int. Congress of Phonetic Sciences San-Francisco, 1999 -pp. 715-718;

77. Lee, L. Speaker Normalization Using Efficient Frequency Warping Procedures / L. Lee, R. Rose // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1996 vol. 1 Atlanta, 1996 - pp. 353356;

78. Lee, M. Formant Tracking Using Context-Dependent Phonemic Information / M. Lee, J. van Santen, B. Möbius, J. Olive // IEEE Trans, on Speech and Audio Processing, vol. 13, № 5, 2005 pp. 741-750;

79. Lincoln, M. The Multi-Channel Wall Street Journal Audio Visual Corpus (MC-WSJ-AV): Specification and Initial Experiments / M. Lincoln, I. McCowan, J. Vepa, H. K. Maganti // Proc. of IEEE

80. Workshop on Automatic Speech Recognition and Understanding 2005- San Juan, Puerto Rico, 2005 pp. 357-362;

81. Lindblom, B. Formant Undershoot and Speaking Styles: An Attempt to Resolve Some Controversial Issues / B. Lindblom, S. Brownlee, R. Lindgren // AIPUK 31. 1996 Kiel, Germany, 1996 - pp. 119-129;

82. Lippmann, R. P. Speech Recognition by Machines and Humans / R. P. Lippmann // Speech Communication, vol. 22, 1997 pp. 1-15;

83. Markel, J. K. Linear Prediction of Speech / Markel J. K. and Gray A. H.- New-York, USA : Springer-Verlag, 1976 305 pp.;

84. Markov, K. Integration of Articulatory and Spectrum Features Based on the Hybrid HMM/BN Modeling Framework / K. Markov, J. Dang, S. Nakamura // Speech Communication, vol. 48, 2006 pp. 161-175;

85. McCandlessj J. An Algorithm for Automatic Formant Extraction Using Linear Prediction Spectra / J. McCandless // IEEE Trans. Acoustics, Speech, and Signal Processing, vol. ASSP-22, 1974 pp. 135-141;

86. McDonough, J. W. Speaker Normalization with All-Pass Transforms / J. W. McDonough // Tech. Rep. 28 Baltimore : Center for Language Speech Processing, The Johns Hopkins University, 1998;

87. Merwe, C. J. Calculation of LPC Based Cepstrum Coefficients Using Mel-Scale Frequency Warping / C. J. Merwe, J. A. du Preez // IEEE COMSIG, 1991 pp. 17-21;

88. Molau, S. Normalization in the Acoustic Feature Space for Improved Speech Recognition, Ph.D. thesis / S. Molau Aachen, Germany : RWTH Aachen, 2003 - 158 pp.;

89. Mustafa, K. Robust Formant Tracking for Continuous Speech With Speaker Variability / K. Mustafa, I. C. Bruce // IEEE Trans, on Speech and Audio Processing, vol. 19; 2006 pp. 435-444;

90. Ney, H. The Use of a One- Stage Dynamic Programming Algorithm for Connected Word Recognition / H. Ney // IEEE Trans, on Speech and Audio Processing, vol. 32, №2, April 1984 pp. 263-271;

91. Ney, H. Acoustic modeling; of phoneme units for continuous; speech recognition / H. Ney // V-th European Signal Processing Conference -Barcelona, Spain, 1990 pp. 65-72;

92. Nouza, J. Spectral Variation Functions Applied to Acoustic-Phonetic Segmentation of Speech Signals / J. Nouza // Speech Processing, vol. 63 Frankfurt am Main, 1997 - pp. 43-58;

93. Nussbaumer, H. J. Fast; Fourier Transformation and Convolution Algorithms, 2-nd ed. / H. J. Nussbaumer New-York, USA : SpringerVerlag, 1982 - 276 pp.;

94. Odell, J. J. A Onepass Decoder Design for Large Vocabulary Recognition / J. Ji Odell, V. Valtchev, P. C. Woodland, S. J; Young // ARPA Spoken Language Technology Workshop 1994 Plainsboro, USA, 1994-pp. 405-410;

95. Oppenheim, A. V. From Frequency to Quefrency: A History of the Cepstrum / A. V. Oppenheim, R. W. Schäfer // IEEE Signal Processing, vol. 21, issue 5, Sep. 2004 pp. 95-106;

96. Padmanabhan, M. Spectral Peak Tracking and Its Use in Speech Recognition / M. Padmanabhan // Proc. Int. Conf. on Spoken Language Processing 2000, vol. 1 Beijing, China, 2000 - pp. 604-607;

97. Paul, D. B. Algorithms for an Optimal A*-search and Linearizing the Search in the Stack Decoder / D. B. Paul // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1991, vol. 1, Toronto, Canada, 1991 - pp. 693-696;

98. Pitz, M. Investigations on Linear Transformations for Speaker Adaptation and Normalization, Ph. D. thesis / M. Pitz Aachen, Germany : RWTH Aachen University, 2005 - 142 pp.;

99. Rabiner, L. R. On the Use of Autocorrelation Analysis for Pitch Detection / L. R. Rabiner // IEEE Trans, on Acoustics, Speech, and Signal Analysis, vol. ASSP-25, №1, Feb. 1977 pp. 24-33;

100. Rabiner, L. R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition / L. R. Rabiner // Proc. of the IEEE, vol. 77, №2, February 1989 pp. 257-286;

101. Rabiner, L. R. A Comparative Study of Several Pitch Detection Algorithms / L. R. Rabiner, M. J. Cheng, A. E. Rosenberg, C. A. McGonegal // IEEE Trans, on Acoustics, Speech, and Signal Processing, vol. ASSP-24, Oct. 1976 pp. 399-417;

102. Rabiner, L. R. An Introduction to Hidden Markov Models / L. R. Rabiner, B.-H. Juang // IEEE Trans, on Speech and Audio Processing, vol. 3, №1, 1986-pp. 4-16;

103. Rabiner, L. R. Fundamentals of Speech Recognition / L. R. Rabiner, B.-H. Juang Englewood Cliffs, NJ : Prentice Hall, 1993 - 496 pp.;

104. Reetz, H. Converting Speech Signal to Phonological Features / H. Reetz // Proc of Int. Congress of Phonetic Sciences San-Francisco, 1999-pp. 1733-1736;

105. Robinson; D. W. A Predetermination of the Equal-Loudness Relations for Pure Tones / D. W. Robinson, R. S. Dadson // British Journal of Applied.Physics, vol. 7, 1956-pp. 166-181;

106. Sakoe, H. Two-Level DP-Matching a Dynamic Programming-Based Pattern Matching Algorithm for Connected^ Word Recognition / H. Sakoe // IEEE Transactions on Speech and Audio Processing, vol. 27, Dec. 1979 - pp. 588-595;

107. Schlüter, R. Gammatone Features and Feature Combination for Large Vocabulary Speech Recognition / R. Schlüter, I: Bezrukov, H. Wagner, H. Ney // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 2007 Honolulu, 2007 - pp. 649-652;

108. Schlüter, R. Using Phase Spectrum Information for Improved Speech Recognition Performance / R. Schlüter, H. Ney // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 2001, vol. 1 Salt Lake City, 2001 -pp. 133-136;

109. Schroeder, M. R. Recognition of Complex Acoustic Signals / M. R. Schroeder // Life Sciences Research Report, vol. 5, 1977 -p. 324;

110. Shi, Y. Spectrogram-Based Formant Tracking via Particle Filters / Y. Shi E. Chang // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 2003, vol. 1 Hong Kong, China, 2003 - pp. 168— 171;

111. Sixtus, A. From Within-Word Model Search to Across-Word Model Search in Large Vocabulary Continuous Speech Recognition / A. Sixtus, H. Ney // Computer Speech and Language, vol. 16, №2, April 2002-pp. 245-271;

112. Skrelin, P. Allophone-Based Concatenative Speech Synthesis System for Russian / P. Skrelin// Proc. of Text, Speech and Dialogue 1999 -Berlin, 1999-pp. 156-159;

113. Skrelin, P. A. Segment Features in Different Speech Styles / P. A. Skrelin // Proc. of Int. Conf. SPECOM 2004 Saint-Petersburg, 2004-pp. 11-16;

114. Stevens, S. S. The Relation of Pitch and Frequency / S. S. Stephens, J. Volkmann // American Journal of Psychology, vol. 53, №3, July 1940-pp. 329-353;

115. Stuttle, M. N. Combining a Gaussian Mixture Model Front End with MFCC Parameters / M. N. Stuttle, M. J. F. Gales // Proc. Int. Conf. on

116. Spoken Language Processing 2002, vol. 3 Denver, 2002 - pp. 1565— 1568;

117. Stylianou, Y. Harmonic Plus Noise Models for Speech, Combined with Statistical Methods, for Speech and Speaker Modification. PhD* thesis / Y. Stylianou Paris, France : Ecole Nationale Superieure des Telecommunication, 1996 - 225 pp.;

118. Tufekci, Z. Applied Mel-Frequency Discrete Wavelet'Coefficients and Parallel Model Compensation for Noise-Robust Speech Recognition / Z. Tufekci, J.: N. Gowdy, S. Gurbuz, E. Patterson // Speech Communication, vol. 48, Oct. 2006 pp. 1294-1307;

119. Thomson, D. L. Use of Periodicity and Jitter as Speech Recognition Feature / D. L. Thomson, R. Chengalvarayan// Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1998, voli 1 Seattle , 1998 -pp. 21-24;

120. Viterbi, A. Error Bounds for Convolutional Codes and an Asymptotically Optimal Decoding Algorithm / A. Viterbi // IEEE Trans, on Information Theory, vol. 13, 1967 pp. 260-269;

121. Wakita, H. Normalization of Vowels by Vocal Tract Length and Its Application to Vowel Identification / H. Wakita // Proc. IEEE Int. Conf. on Acoustics, Speech; and Signal Processing 1977 Hartford, USA, 1977-pp. 183-192;

122. Weber, K. HMM2-Extraction of Formant Features and Their Use for Robust ASR / K. Weber, H. Bourlard, S. Bengio // Proc. European Conf. on Speech Communication and Technology 2001 Aalborg, Denmark, 2001 - pp. 607-610;

123. Wegmann, S. Speaker Normalization on Conversational Telephone Speech / S. Wegmann, D. McAllaster, J. Orloff, В . Peskin // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1996, vol. 1, Atlanta, USA, 1996 - pp. 339-341;

124. Welling, L. A Model for Efficient Formant Estimation / L. Welling, H. Ney // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1996, vol. 2, Atlanta, USA, 1996 - pp. 797 - 800;

125. Wempe, T. F0-related Formant Measurements / T. Wempe // Proc. of the Institute of Phonetic Sciences Amsterdam, The Netherlands : University of Amsterdam, vol. 24, 2001 - pp. 167-187;

126. Wempe, T. The Interactive Design of an F0-Related Spectral Analyser / T. Wempe, P. Boersma // Proc. of Int. Congress of Phonetic Sciences -Barcelona, Spain, 2003 pp. 343-346;

127. Woodland, P. C. Broadcast News Transcription Using НТК / P. C. Woodland, M. J. F. Gales, D. Pye, S. J. Young // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1997, vol. 2 -Munich, Germany, 1997-pp. 719-722;

128. Wrench, A. A. Analysis of Fricatives Using Multiple Centers of Gravity / A. A. Wrench // Proc. of Int. Congress of Phonetic Sciences, vol. 4 Stockholm, Sweden, 1995 - pp. 460 - 463;

129. Young, S. J. The General Use of Tying in Phoneme Based HMM Recognizers / S. J. Young // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1992, vol. 1 San Francisco, USA, 1992-pp. 569572;

130. Young, S. J. Statistical Modelling in Continuous Speech Recognition (CSR) / S. J. Young // Proc. of Int. Conf. on Uncertainty in Artificial Intelligence Seattle, USA, 2001 - pp. 562-571;

131. Zolnay, A. Robust Speech Recognition Using a Voiced-Unvoiced Feature / A. Zolnay, R. Schlüter, H. Ney // Proc. Int. Conf. on Spoken Language Processing, vol. 2 Denver, USA, 2002 - pp. 1065-1068;

132. Zolnay, A. Using Multiple Acoustic Feature Sets for Speech Recognition / A. Zolnay, D. Kocharov, R. Schlüter, H. Ney // Speech Communication, vol. 49, №6, 2007 pp. 514-525;

133. Zwicker, E. Subdivision of the Audible Frequency Range into Critical Bands / E. Zwicker // Journal of the Acoustical Society of America, vol. 33, №2 1961 p. 248.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Автоматическая интерпретация звуков речи тема диссертации и автореферата по ВАК РФ 10.02.19, кандидат филологических наук Кочаров, Даниил Александрович

Оглавление диссертации кандидат филологических наук Кочаров, Даниил Александрович

Рекомендованный список диссертаций по специальности «Теория языка», 10.02.19 шифр ВАК

Речевая сегментация в бурятском языке: В аспекте универсального и специфического1998 год, доктор филологических наук Бухаева, Октябрина Доржиевна

Введение диссертации (часть автореферата) на тему «Автоматическая интерпретация звуков речи»

Похожие диссертационные работы по специальности «Теория языка», 10.02.19 шифр ВАК

Формирование многоязычной фонетической базы данных: применительно к речевой реализации вибрантов2006 год, кандидат филологических наук Лосева, Елена Викторовна

Инкорпорирование речевых компонентов в лингвистические обучающие системы2005 год, кандидат филологических наук Ордин, Михаил Юрьевич

Исследование механизмов восприятия слова в затрудненных условиях1985 год, кандидат филологических наук Данилов, Александр Васильевич

Заключение диссертации по теме «Теория языка», Кочаров, Даниил Александрович

Список литературы диссертационного исследования кандидат филологических наук Кочаров, Даниил Александрович, 2008 год