Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат технических наук Макаров, Илья Сергеевич
- Специальность ВАК РФ05.13.17
- Количество страниц 156
Оглавление диссертации кандидат технических наук Макаров, Илья Сергеевич
ВВЕДЕНИЕ.
ГЛАВА 1. Речевая обратная задача - обзор алгоритмов ее решения.
§ 1. Введение.г.
§ 2. Речевая обратная задача - обоснование и математическая постановка.
§ 3. Обзор методов решения речевых обратных задач.
§ 4. Обзор методов построения артикуляторных кодовых книг.
§ 5. Обзор артикуляторных моделей и алгоритмов вычисления функции плошади поперечного сечения тракта.
§ 6. Обзор акустических моделей речеобразования.
§ 7. Обзор артикуляторных синтезаторов речи.
§ 8. Выводы.
ГЛАВА 2. Артикуляторная модель и алгоритм вычисления площадей поперечных сечений.
§ 1. Введение.
§ 2. Экспериментальные данные.
§ 3. Математическая модель артикуляции.
§ 4. Анатомическая база данных.
§ 5. Алгоритм вычисления площадей поперечных сечений.
§ 6. Выводы.
ГЛАВА 3. Акустическая и аэродинамическая модель речевого тракта.
§ 1. Введение.
§ 2. Гидродинамическая модель речевого тракта.
§ 3. Численные схемы решения уравнения Вебстера.
§ 4. Податливость стенок тракта и грушевидные области.
§ 5. Аэродинамические процессы в речевом тракте.:.
§ 6. Выводы.
ГЛАВА 4. Артикуляторная кодовая книга.
§ 1. Введение.
§ 2. База данных микролучевого рентгеноскопа.
§ 3. Акустическое пространство для артикуляторной кодовой книги.
§ 4. Регуляризующие алгоритмы для формирования кодовой книги.
§ 5. Статическая артикуляторная кодовая книга.
§ 6. Динамическая артикуляторная кодовая книга.
§ 7. Выводы.
ГЛАВА 5. Исследование полноты статической артикуляторной кодовой книги.
§ 1. Введение.
§ 2. Артикуляторный синтезатор.
§ 3. Полнота артикуляторной кодовой книги.
§ 4. Гласные и гласноподобные сегменты.
§ 5. Фрикативные сегменты.
§ 6. Слитная речь.
§ 7. Выводы.
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Исследование и разработка методов автоматического синтеза речи по фонемному тексту1984 год, доктор технических наук Лобанов, Борис Мефодьевич
Анализ и автоматическая сегментация речевого сигнала2006 год, кандидат технических наук Цыплихин, Александр Иванович
Исследование обратной задачи для голосового источника с помощью процедуры реконструкции математических моделей речевого процесса2008 год, кандидат технических наук Якушев, Дмитрий Владимирович
Управление просодией при синтезе речи по печатному тексту2000 год, кандидат технических наук Мещеряков, Роман Валерьевич
Разработка низкоскоростного вокодера1999 год, кандидат технических наук Ли Фэйпэн
Введение диссертации (часть автореферата) на тему «Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач»
Речевая обратная задача формулируется как задача нахождения параметров математической модели артикуляции, или функции площади поперечного сечения речевого тракта, или команд, управляющих артикуляторными параметрами, по измеренным акустическим параметрам речевого сигнала.
С теоретической точки зрения, умение решать речевые обратные задачи необходимо для изучения свойств так называемой внутренней модели артикуляции. Под внутренней моделью понимается такая резидентная программа, которая хранится в головном мозге человека и осуществляет -управление процессами артикуляции по информации о текущем состоянии речевого тракта (получаемой от механорецепторов и посредством акустической обратной связи). Есть основания полагать, что внутренняя модель принимает участие и в процессе восприятия речи других людей (так называемая моторная теория восприятия речи).
С практической точки зрения, решение речевых обратных задач может быть эффективно использовано в ряде технических приложений. К таким приложениям относятся низкоскоростной артикуляторный вокодер, высококачественный артикуляторный синтезатор речи по произвольному тексту, а также система обучения людей иноязычному произношению. Модуль решения речевых обратных задач может быть использован в системах автоматического распознавания речи для повышения робастности этих систем.
Обратная задача для речевого тракта является нелинейной и некорректной: заданному набору входных данных, как правило, соответствует много формальных решений, большинство из которых неустойчивы по отношению к возмущениям данных. Поэтому для решения указанной обратной задачи необходимо использовать методы и алгоритмы, которые обеспечивают получение физически, физиологически и фонетически приемлемых устойчивых решений. Практическую работоспособность этих алгоритмов можно оценить, применяя процедуру ресинтеза: синтезированный по найденному решению речевой сигнал перцептивно должен мало отличаться от исходного речевого сигнала, по параметрам которого решалась обратная задача.
Одним из наиболее эффективных способов решения речевых обратных задач является вариационный метод. В нем параметры математической модели речеобразования варьируются с целью нахождения глобального минимума критерия оптимальности, включающего в себя некоторый энергетический критерий и невязку между измеренными и вычисленными параметрами. Минимизация происходит при ограничениях на искомые параметры.
Описанная оптимизационная задача является многоэкстремальной. Поэтому при ее решении важно иметь "хорошее" начальное приближение. Только в этом случае процесс минимизации может дать необходимое приближенное решение. Для хранения и поиска начальных приближений необходимо построение так называемой артикуляторной . кодовой книги. Артикуляторной кодовой книгой называется специальная база данных, в которой хранятся множества акустических и артикуляторных векторов. При этом каждому вектору акустических параметров речевого сигнала в кодовой книге ставится в соответствие некоторое множество векторов артикуляторных параметров. Артикуляторные параметры из такого множества и служат начальными приближениями при решении обратной задачи для реального речевого сигнала. Все известные в литературе артикуляторные кодовые книги строились относительно некоторых абстрактных математических моделей речеобразования. Вместе с тем, специфика речевых обратных задач требует построения кодовых книг относительно реальных дикторов.
Все это определяет актуальность исследований в области артикуляторных кодовых книг применительно к решению речевых обратных задач.
Основная цель исследования заключается в построении артикуляторной кодовой книги для реального диктора путем решения специфической обратной задачи: по измеренным акустическим параметрам речевого сигнала и траекториям 8-ми точек на внешних и внутренних поверхностях тракта вычисляются артикуляторные векторы и записываются в кодовую книгу.
Достижение этой цели предполагает решение следующих задач:
- обзор и систематизация алгоритмов решения обратных задач и построения артикуляторных кодовых книг;
- уточнение математических моделей артикуляции, акустики и аэродинамики речевого тракта по экспериментальным данным;
- построение нового алгоритма вычисления площадей поперечных сечений речевого тракта;
- построение обширной анатомической базы данных;
- построение артикуляторного синтезатора речи;
- тестирование полноты построенной артикуляторной кодовой книги путем решения речевых обратных задач для различных фонетических сегментов - отдельных звуков, звукосочетаний, слогов, слов и фраз, а также путем ресинтеза полученных решений.
Цель и задачи работы обусловили выбор методов исследования. В качестве методов исследования.использовались методы теории некорректных задач, математической физики, теории оптимизации и оптимального управления, факторного анализа опытных данных, а также алгоритмы, разработанные в рамках акустической теории речеобразования, акустической теории неоднородных волноводов и гидродинамики вязкой жидкости. Оценка работоспособности и эффективности разработанных алгоритмов осуществлялась путем численных экспериментов в среде МАТЬАВ с использованием реальных данных.
Материалом исследования послужила обширная база данных, построенная в университете штата Висконсин, США, по результатам измерений на микролучевой рентгеноскопической установке и содержащая около полусотни дикторов - носителей американского английского языка. Кроме того, использовались результаты трехмерной визуализации речевого тракта, полученные с помощью магнитно-резонансной томографии.
Научная новизна заключается в уточнении артикуляторных, акустических и аэродинамических моделей речеобразования, в новом подходе к построению артикуляторной кодовой книги, а также в разработке новых принципов построения кодовых книг применительно к решению динамических обратных задач. В диссертации показана принципиальная возможность решения речевых обратных задач для всех типов звуковых сегментов относительно реального диктора с точностью, удовлетворительной для практических приложений. Это определяет теоретическую значимость работы.
Речь, синтезированная по решениям речевой обратной задачи артикуляторным синтезатором, отличается высоким качеством. Поэтому построенная артикуляторная кодовая книга может быть использована в высококачественном артикуляторном синтезаторе речи по произвольному тексту, а также в артикуляторном вокодере. Это определяет практическую ценность диссертации.
Апробация работы. Основные положения и результаты диссертации докладывались на Международном семинаре «Диалог - 2002» (Протвино, 2002), на 4-й Международной конференции «Фонетика сегодня: актуальные проблемы и университетское образование» (Москва, 2003), а также на 13-й сессии Российского Акустического Общества (Москва, 2003). Часть исследований была поддержана грантом Американского Акустического Общества в 2004 году по теме «акустическая модель речеобразования». Публикации. По результатам диссертационной работы опубликовано 5 печатных статей [1, 7-9, И] в ведущих научных журналах, а также 3 доклада [6, 10, 12] на Международных конференциях. Все работы выполнены в соавторстве. В публикациях вклад соискателя состоит в разработке артикуляторных, акустических и аэродинамических моделей, артикуляторного синтезатора речи, а также в описании и моделировании опытных данных. Структура работы. Диссертационная работа состоит из введения, пяти глав, заключения и библиографического списка использованных источников. Она содержит 141 страницу основного текста, 26 рисунков и 14 таблиц, расположенных в тексте диссертации. Список литературы включает 191 наименование. Первая глава «Речевая обратная задача - обзор алгоритмов ее решения» является обзорной. В этой главе описаны все известные методы решения речевых обратных задач, рассмотрены алгоритмы построения артикуляторных кодовых книг, а также артикуляторные, акустические и аэродинамические модели, используемые при формировании кодовой книги. Вторая глава «Артикуляторная модель и алгоритм вычисления площадей поперечных сечений» посвящена уточнению артикуляторной модели и построению нового алгоритма вычисления площадей поперечных сечений по результатам магнитно-резонансных измерений речевого тракта. Кроме того, описывается обширная база данных анатомических параметров, построенная по результатам измерений на микролучевом рентгеноскопе.
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Математические модели образования звучной речи2004 год, кандидат технических наук Коцубинский, Владислав Петрович
Теоретико-информационные принципы компрессии речевого сигнала на основе его квазипериодических свойств2005 год, доктор технических наук Шалимов, Игорь Анатольевич
Математические методы исследования фонационно-артикуляционных параметров речи2007 год, доктор филологических наук Собакин, Аркадий Николаевич
Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора2008 год, кандидат технических наук Ахмад Хассан Мухаммад
Модели речевых сигналов для аутентификации личности по голосу2010 год, доктор технических наук Голубинский, Андрей Николаевич
Заключение диссертации по теме «Теоретические основы информатики», Макаров, Илья Сергеевич
§ 7. Выводы
В главе 5 проведено исследование полноты статической артикуляторной кодовой книги путем решения двух типов речевых обратных задач. Показано, что для обратных задач второго типа (в качестве входных данных используется только акустика) погрешности аппроксимации формантных частот не превышают 1.8% для Fi, 1.6% для Fx, 1.1% для Fj, что сопоставимо с погрешностью аппроксимации частот, полученной при решении обратной задачи первого типа (в качестве входных данных используется как акустика, так и треки точек): 3.7% для Fi, 3.8% для F2 и 2.6% для F3. Погрешности аппроксимации координат точек также сопоставимы с погрешностью измерения и оказываются порядка 3% и 6% для обратных задач первого и второго типа, соответственно.
Аналогичная проверка качества решения обратной задачи для фрикативных показала, что точность аппроксимации характерных частот спектра фрикативных с использованием артикуляторных данных близка к 9.5%, а при использовании только акустических параметров - около 10.3%. Погрешности аппроксимации координат точек в обоих типах задач оказываются порядка 3%.
Таким образом, разница между вычисленными и измеренными векторами акустических параметров и треков точек оказывается сопоставимой с погрешностью измерений данных. Это свидетельствует о том, что сформированная статическая артикуляторная кодовая книга является полной, а используемые математические модели артикуляции и акустики, а также алгоритмы решения речевых обратных задач -адекватными.
На основе уточненных математических моделей артикуляции и акустики разработаны алгоритмы и программы артикуляторно-формантного синтезатора. С помощью этого синтезатора осуществлен ресинтез речевых сигналов по решениям речевых обратных задач. Качество этих сигналов оказалось очень близко к качеству исходных речевых сигналов. Таким образом, показана принципиальная возможность использования сформированной артикуляторной кодовой книги в артикуляторном синтезаторе.
Исследована проблема восстановления команд управления по полученным решениям речевой обратной задачи. Показано, что речевой сигнал, синтезированный на приемном конце по этим управлениям, практически не отличается от речевого сигнала, синтезированного по последовательности артикуляторных векторов, и мало отличается от исходного сигнала. Скорость передачи при этом составляет 1.5 и 3.2 кбит/с для разных алгоритмов восстановления команд управлений. Это свидетельствует о том, что точность полученных решений оказывается удовлетворительной и для низкоскоростного артикуляторного вокодера.
ЗАКЛЮЧЕНИЕ
По результатам магнитно-резонансной томографии речевого тракта уточнена артикуляторная модель. Эта модель учитывает анатомические и артикуляторные параметры как в среднесагиттальном, так и в поперечном сечениях, т.е. является трехмерной.
Построен новый алгоритм вычисления площадей поперечных сечений речевого тракта. Показано, что точность алгоритма во всех секциях речевого тракта сопоставима с точностью измерений магнитно-резонансной томографии. Средняя по тракту ошибка аппроксимации площади построенным алгоритмом оказывается порядка 5%. Проведено сравнение алгоритма с одной из версий 00-модели, признанной в мировой литературе наилучшим алгоритмом вычисления функции площадей поперечных сечений. Показано, что во всех секциях тракта построенный алгоритм дает лучшую или сопоставимую точность с с^З-моделью.
По результатам магнитно-резонансной томографии уточнена акустическая модель речевого тракта. Показано, что совместный учет фактора податливости стенок речевого тракта и наличия разветвлений на уровне входа в пищевод приводит к тому, что точность вычисления первых трех резонансные частот оказывается в пределах точности оценки формантных частот.
Статическая артикуляторная кодовая книга определяется как база данных для квазистационарных сегментов речи, в которой хранятся множества артикуляторных и акустических векторов, причем каждому акустическому вектору поставлено в соответствие некоторое подмножество множества артикуляторных векторов. Для формирования этой кодовой книги были использованы уточненные модели артикуляции и акустики. Кодовая книга построена относительно реального диктора из базы данных, сформированной по измерениям на микролучевом рентгеноскопе. Метод построения кодовой книги сводился к решению специфической обратной задачи: по измеренным параметрам речевого сигнала и трекам нескольких точек на внешних и внутренних поверхностях речевого тракта вычислялись соответствующие параметры математической модели артикуляции и- записывались в кодовую книгу.
Проведено исследование качества решения речевых обратных задач с помощью построенной артикуляторной кодовой книги. Показано, что для обратных задач, в которых в качестве входных данных используется только акустика, погрешности аппроксимации формантных частот не превышают 1.8% для /ч, 1.6% для ^2,1.1% для /=з, а погрешность аппроксимации координат точек - около 6%. Это сопоставимо с погрешностями аппроксимации частот и координат точек, полученными при решении обратных задач, в которых в качестве входных данных используется как акустика, так и треки точек, - 3.7% для Р|, 3.8% для Рг и 2.6% для Рз, 3% для координат точек измерений.
Аналогичная проверка качества решения обратной задачи для фрикативных показала, что точность аппроксимации характерных частот спектра фрикативных с использованием артикуляторных данных близка к 9.5%, а при использовании только акустических параметров - около 10.3%. Погрешности аппроксимаций точек не превышали 3%.
Таким образом, разница между вычисленными и измеренными векторами акустических параметров и треков точек сопоставима с погрешностью измерений данных. Это свидетельствует о том, что сформированная статическая артикуляторная кодовая книга является представительной, а используемые математические модели артикуляции и акустики, а также алгоритмы решения речевых обратных задач - адекватными.
На основе уточненных математических моделей артикуляции и акустики разработаны алгоритмы и программы артикуляторно-формантного синтезатора. С помощью этого синтезатора осуществлен ресинтез речевых сигналов по решениям речевых обратных задач. Качество этих сигналов оказалось очень близко к качеству исходных речевых сигналов. Таким образом, показана принципиальная возможность использования сформированной артикуляторной кодовой книги в артикуляторном синтезаторе.
Исследована проблема восстановления команд управления по полученным решениям речевой обратной задачи. Показано, что речевой сигнал, синтезированный на приемном конце по этим управлениям, практически не отличается от речевого сигнала, синтезированного по последовательности артикуляторных векторов, и мало отличается от исходного сигнала. Скорость передачи при этом составляет 1.5 и 3.2 кбит/с для разных алгоритмов восстановления команд управлений. Это свидетельствует о том, что точность полученных решений оказывается удовлетворительной и для низкоскоростного артикуляторного вокодера. В качестве направлений дальнейших исследований планируется построение
I - •■■■ статических и динамических артикуляторных кодовых книг для всех дикторов из базы данных, а также их исследование применительно к артикуляторному синтезатору и низкоскоростному артикуляторному вокодеру.
Список литературы диссертационного исследования кандидат технических наук Макаров, Илья Сергеевич, 2005 год
1. Баден П., Макаров И.С., Сорокин В.Н. Алгоритм вычисления площадей поперечных сечений речевого тракта // Акуст. журнал. 2005. Т. 51, №1. С. 52-58.
2. Бархатов А.Н., Горская Н.В., Горюнов A.A., Гурбатов С.Н., Можаев В.Г., Руденко О.В. Акустика в задачах. М.: Наука, 1996. - 336 с.
3. Исакович М.А. Общая акустика. М.: Наука, 1973. - 495 с.
4. Ландау Л.Д., Лифшиц Е.М. Гидродинамика. М.: Наука, 1986. - 736 с.
5. Леонов A.C., Ягола А.Г. Можно ли решить некорректно поставленную задачу без знания погрешностей данных? // Вестник МГУ, Сер.З, Физика, Астрономия. 1995. Т. 36, № 4. С. 28-33.
6. Леонов A.C., Макаров И.С., Сорокин В.Н. Обучающая фонетическая система // Тезисы 4-й международной научной конференции «Фонетика сегодня: актуальные проблемы и университетское образование». 2003. С. 79.
7. Леонов A.C., Макаров И.С., Сорокин В.Н., Цыплихин А.И. Артикуляторный ресинтез гласных // Информационные процессы. 2003. Т. 3, № 2. С. 73-92.
8. Леонов A.C., Макаров И.С., Сорокин В.Н., Цыплихин А.И. Артикуляторный ресинтез фрикативных // Информационные процессы. 2004. Т. 4, № 2. С. 141-159.
9. Леонов A.C., Макаров И.С., Сорокин В.Н., Цыплихин А.И. Кодовая книга для речевых обратных задач // Информационные процессы. 2005. Т. 5, № 2. С. 101-119.
10. Макаров И.С., Сорокин В.Н. Резонансы речевого тракта с податливыми стенками и разветвлением // Сборник трудов 13-й сессии Российского Акустического Общества. Акустика речи. Медицинская и биологическая акустика. 2003. Т.З. С. 84-89.
11. Макаров И.С., Сорокин В.Н. Резонансы разветвленного речевого тракта с податливыми стенками // Акуст. журнал. 2004. Т. 50, № 3. С. 389-396.
12. Макаров И.С., Баден П., Сорокин В.Н. Трехмерная модель речевого тракта и алгоритм вычисления площадей поперечных сечений // Труды международного семинара «Диалог 2002». 2002. Т. 2. С. 352-359.
13. Маркелл Д.Д., Грей A.A. Линейное предсказание речи. М.: Связь, 1980. - 308 с.
14. Скучик Е. Основы акустики. Т. 2. М.: ИЛ, 1959. - 565 с.
15. Сорокин В.Н. Теория речеобразования. М.: Радио и Связь, 1985. - 312 с.
16. Сорокин В.Н. Синтез речи. М.: Наука, 1992. - 392 с.
17. Сорокин В.Н., Цыплихин А.И. Сегментация и распознавание гласных // Информационные процессы. 2004. Т. 4, № 2. С. 202-220.I
18. Тихонов А.Н., Самарский А.А. Уравнения математической физики. М.: Наука, 1972.-736 с.
19. Тихонов А.Н., Леонов А.С., Ягола А.Г. Нелинейные некорректные задачи. М.: Наука, 1995. - 242 с.
20. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964. - 284 с.
21. Фланаган Дж. Анализ, синтез и восприятие речи. М.: Связь, 1968. - 392 с.
22. Чистович Л.А. и др. Физиология речи. Восприятие речи человеком. Л.: Наука, 1976.-388 с.
23. Alwan A., Narayanan S. Toward articulatory-acoustic models for liquid approximants based on MRI and EPG data. Part 2: the rhotics // J. Acoust. Soc. Am. 1997. Vol. 101. P. 10781089.
24. Atal B.S. Determination of vocal tract shape directly from the speech wave // J. Acoust. Soc. Am. 1970. Vol. 47. P. 65A.
25. Atal B.S., Rioul O. Neural networks for estimating articulatory positions from speech // J. Acoust. Soc. Am. 1989. Vol. 86, suppl. 1, S67.
26. Atal B.S., Chang J.J., Mathews M.V., Tuckey J.W. Inversion of articulatory-to-acoustic transformation in the vocal tract by a computer sorting technique // J. Acoust. Soc. Am. 1978. Vol. 63. P. 1535-1555.
27. Badin P., Engwall O. An MRI study of Swedish fricatives // Proc. 5th Seminar on Speech Production, Kloster Seeon. 2000. P. 297-300.
28. Badin P., Bailly G., Raybadi M., Segebarth C. A 3-dimensional linear articulatory model based on MRI data // Proc. 3th ESCA/COCOSDA Int Workshop on Speech Synthesis. 1998. P. 249-254.
29. Badin P., Beautemps D., Laboissiere R., Schwartz J.L. Recovery of vocal tract geometry from formants for vowels and fricative consonants using a midsagittal-to-area function conversion model // J. of Phonetics. 1995. Vol. 23. P. 221-229.
30. Baer Т., Gore J.C., Gracco L.C., Nye P.W. Analysis of vocal tract shape and dimensions using magnetic resonance imaging: Vowels // J. Acoust. Soc. Am. 1991. Vol. 90. P. 799-828.
31. Bavegard M., Fant G. From formant frequencies to VT-area function parameters // SPEECH MAPS (ESPRIT/BR №6975). 1995. P. 40-51.
32. Bell-Berti F. Control of pharyngeal cavity size for English voiced and voiceless stops // J.- 147
33. Acoust. Soc. Am. 1975. Vol. 57. P. 456-461.
34. Beautemps D., Badin P., Bailly G. Linear degrees of freedom in speech production: analysis of cineradio-and labiofilm data and articulatory-acoustic modeling // J. Acoust. Soc. Am. 2001. Vol. 109, Pt. 1. P. 2165-2180.i
35. Beautemps D., Badin P., Laboissiere R. Deriving vocal tract area functions from midsagittal profiles and formant frequencies: a new model for vowels and fricative consonants based on experimental data // Speech Communication. 1995. Vol. 16. P. 27-47.
36. Blumstein S.E., Stevens K.N. Perceptual invariance and onset spectra for stop consonants in different vowel environments//J. Acoust. Soc. Am. 1979. Vol. 67. P. 648-662. "
37. Bocchieri E.L. An articulatory speech synthesizer PhD thesis, 1983, University of Florida.-169 p.
38. Borg G. Eine Umkehrung der Sturm-Liouvilleschen Eigenwertaufgabe // Acta Math. 1946. Vol. 78. P. 1-96.
39. Browman C., Goldstein L. Articulatory phonology: and overview // Phonetica. 1992. Vol. 49. P. 155-180.
40. Callan D., Callan A., Kroos Ch., Vatikiotis-Bateson E. Neural processes underlying perception of audiovisual speech production // Proc. 5th Seminar on Speech Production, Kloster Seeon. 2000. P. 273-276.
41. Cassidy S., Harrington J. The place of articulation distinction of voiced and stops: Evidence from burst spectra and formant transitions // Phonetica. 1995. Vol. 52. P. 263-284.
42. Chen M. Acoustic parameters of nasalized vowels in hearing impaired and normal hearing speakers // J. Acoust. Soc. Am. 1995. Vol. 98, Pt. 1. P. 2443 2453.
43. Chen M. Acoustic correlates of English and French nasalized vowels //.J. Acoust. Soc. Am. 1997. Vol. 102. P. 2360 2370.
44. Chennoukh S., Sinder D., Richard G., Flanagan J. Articulatory based low-bit rate speech coding//J. Acoust. Soc. Am. 1997a. Vol. 102, Pt. 2. P. 3163.
45. Chennoukh S., Sinder D., Richard G., Flanagan J. Voice mimic system using an articulatory codebookfor estimation of vocal tract shape // EUROSPEECH'97. 1997b.
46. Childers D.G., Hu H.T. Speech synthesis by glottal excited linear prediction // J. Acoust. Soc. Am. 1994. Vol. 96. P. 2026 2036.
47. Coker C. A model of articulatory dynamics and control // Proc. of the IEEE. 1976. Vol. 64. P. 452-460.
48. Dang J., Honda K. Construction and control of a physiological articulatory model // J.
49. Acoust. Soc. Am. 2004. Vol. 115. P. 853-870.i
50. Dang J., Honda K., Suzuki H. Morphological and acoustical analysis of the nasal and paranasal cavities // J. Acoust. Soc. Am. 1994. Vol. 96. P. 2088-2100.
51. Dang J., Shadle Ch., Honda K., Suzuki H. An experimental study of the open correction coefficient for side branches within an acoustic tube // J. Acoust. Soc. Am. 1998. Vol. 104, Pt. 1. P. 1075-1084.
52. Deng L., Sun D. A statistical approach to automatic speech recognition using the atomic speech units constructed from overlapping articulatory features // J. Acoust. Soc. Am. 1994. Vol. 95, Pt.l. P. 2702-2719.
53. Dusan S. Statistical estimation of articulatory trajectories, from the speech signal using dynamical and phonological constraints: PhD thesis, 2000, University of Waterloo. 230 p.
54. El-Masri S., Pelorson X., Saguet P., Badin P. Development of the transmission line matrix method in acoustics applications to higher modes in the vocal tract and other complex ducts//Int. J. Numer. Model. 1998. Vol. 11. P. 133-151.
55. Engwall O. Modeling of the vocal tract in 3 dimensions // Proc. of the EUROSPEECH'99. 1999. Vol. 1. P. 113-116.
56. Erler K., Freeman G.H. An HMM-based speech recognizer using overlapping articulatory features//J. Acoust. Soc. Am. 1996. Vol. 100, Pt. 1. P. 2500-2513.
57. Fant G. Swedish vowels and a new three-parameter model // TMH-QPSR. 2001. Vol. 1. P. 43-49.
58. Farit G., Bavegard M. Parametric model of VT area functions: vowels and consonants // TMH-QPSR. 1997. Vol. 1. P. 1-20.6,1. Flanagan J., Ishizaka K., Shipley K. Signal models for low-bit rate coding of speech // J.
59. Acoust. Soc. Am. 1980. Vol. 68. P. 780-791.
60. Fletcher R. Practical Methods of Optimization. London: John Wiley and Sons, 2000. -450 p.
61. Folkins J., Abbs J. Lip and jaw motor control during speech: responses to resistive loading of jaw // J. Speech and Hearing Res. 1975. Vol. 18. P. 207-220.
62. Fowler C. Listeners do hear sounds, not tongues // J. Acoust. Soc. Am. 1996. Vol. 99. P. 1730-1741.i
63. Garcia C., Prett D., Morari M. Model predictive control: theory and practice survey // Automatica. 1989. Vol. 25, № 3. P. 335-348.
64. Garding L. The inverse of vowel articulation // Arkiv fuer Mathematik. 1977. Vol. 15. P. 63-86.
65. Gay T., Lindblom B., Lubker J. Production of bite-block vowels: Acoustic equivalence by selective compensation // J. Acoust. Soc. Am. 1981. Vol. 69. P. 802-810.
66. Gill P.E., Murray W., Wright M.H. Practical Optimization. London: Academic Press, 1982.-401 p.
67. Gopinath B., Sondhi M.M. Determination of the shape of the human vocal tract from acoustical measurements // Bell Sys. Tech. J. 1970. Vol. 49. P. 1195-1214.
68. Gupta S., Schroeter J. Pitch-synchronouous frame-by-frame and segment-based articulator analysis by synthesis // J. Acoust. Soc. Am. 1993. Vol. 94. P. 2517-2530.
69. Gurfinkel V.S., Levik Y.S., Popov K.E., Smetanin B.N., Shlikov V.Y. Body scheme and postural control // Stance and Motion: Facts and Concepts, ed. by V.S. Gurfinkel et al. 1988. Plenum Press N.Y. P.185-193.
70. Hanson H., Stevens K. A quasiarticulatory approach to controlling acoustic source parameters in a Klatt-type formant synthesizer using HLsyn // J. Acoust. Soc. Am. 2002. Vol. 112. P.1158-1182.
71. Heinz J., Stevens K. On the relations between cineradiographs, area functions and acoustic spectra of speech // Proc. 5th Int. Congr. Of Acoustics. 1965. Paper A44.
72. Hogden J., Loefquist A., Gracco V., Zlokamik I., Rubin Ph., Saltzman E. Accurate recovery of articulator positions from acoustics: New conclusions based on human data // J. Acoust. Soc. Am. 1996. Vol. 100 (3). P. 1819-1834.
73. Holmes J. Speech Synthesis. London: Mills and Book, 1972.
74. Holmes J. The influence of glottal waveform on the naturalness of speech from a parallel formant synthesizer // IEEE Trans. On Audio and Electroacoustics. 1973. Vol. AU-21, № 3. P. 298-305.
75. Kaburagi T., Honda M. A model of articulator trajectory formation based on the motor tasks of vocal tract shapes // J. Acoust. Soc. Am. 1996. Vol. 99. P. 3154-3170.
76. Kaburagi T., Honda M. Dynamic articulatory model based on multidimensional invariant feature task representation //J. Acoust. Soc. Am. 2001. Vol. 110. P. 441-452.
77. Kelso J.A.S., Stelmach G.E. Central and peripheral mechanisms in motor control // Motor Control. Issues and Trends, ed. by G.E. Stelmach (Academic Press, NY). 1976. P. 3-40.
78. Kewly-Port D. Perception of static and dynamic cues to place of articulation in initial stop consonants //J. Acoust. Soc. Am. 1983. Vol. 73. P. 1779-1992.
79. Kewley-Port D., Watson C.S. Formant frequency discrimination for isolated English vowels // J. Acoust. Soc. Am. 1994. Vol. 95. P. 485 496.
80. Klatt D. Software for a cascade/parallel synthesizer // J. Acoust. Soc. Am. 1980. Vol. 67. P. 971 -995.
81. Krstulovic S. LPC modeling with speech production constraints // Proc. 5th Seminar on Speech Production, Kloster Seeon. 2000. P. 221-224.
82. Leonov A.S., Sorokin V.N. Control in the internal model: score reorganization and compensation // Pattern Recognition and Image Analysis. 2004. Vol. 14, № 3. P. 407-420.
83. Levinson N. The inverse Sturm-Liouville problem // Math. Tidsskr. Ser. 1949. P. 25-30.
84. Levinson S., Schmidt C. Adaptive computation of articulatory parameters from the speech signal // J. Acoust. Soc. Am. 1983. Vol. 74. P. 1145-1154.
85. Liberman A., Mattingly I. The motor theory of speech perception revised // Cognition. 1985. Vol. 21. P. 1-36.
86. Liberman A., Cooper F., Shankweiler D., Studdert-Kennedy M. Perception of speech code // Psychological Review. 1967. Vol. 74. P. 431-461.
87. Liljencrants J. Speech synthesis with a reflection-type line analog: DS Dissertation, 1985, Dept. of Speech Comm. and Music Acoust., Royal Inst, of Tech., Stockholm, Sweden. 395 p.
88. Lin Q. Vocal tract computation: how to make it more robust and faster // STL-QPSR. 1992. Vol. 4. P. 29-42.
89. Lin Q., Fant G. Vocal tract area function parameters from formant frequencies // Proc. EUROSPEECH'89. 1989. P. 673-676.
90. Lindblom B. Role of articulation in speech perception: clues from production // J. Acoust. Soc. Am. 1996. Vol. 99. P. 1683-1695.
91. Lindblom, B., Lubker J., Gay T. Formant frequencies of some fixed mandible vowels and a model of speech motor programming by predictive simulations // J. of Phonetics. 1979. Vol. 7. P. 147-161.
92. Linde Y., Buzo A., Gray R. An algorithm for vector quantization // IEEE Trans. Commun., COM-28.1980. P. 84-95.
93. Maeda S. On the conversion of vocal tract x-ray data into formant frequencies. Bell Labs, Murray Hill, NY, 1972. - 92 p.
94. Maeda S. A digital simulation method of the vocal-tract system // Speech Communication. 1982. Vol. l.P. 199-229.
95. Maeda S. Improved articulatory model // J. Acoust. Soc. Am. 1988. Vol. 84. S146.
96. Matsuzaki H., Motoki K. FEM-analysis of 3-d vocal tract model with asymmetrical shape // Proc. 5th Seminar on Speech Production, Kloster Seeon. 2000. P. 329-332.
97. McGowan R., Cushing S. Vocal tract normalization for midsagittal articulatory recovery with analysis-by-synthesis//J. Acoust. Soc. Am. 1999. Vol. 106. P. 1090-1105.
98. McGowan R., Lee M. Task dynamic and articulatory recovery of lip and velar approximations under model mismatch conditions // J. Acoust. Soc. Am. 1996. Vol. 99. P. 595608.
99. Mermelstein P. Determination of the vocal tract shape from measured formant frequencies // J. Acoust. Soc. Am. 1967. Vol. 41. P. 1283-1294.
100. Mermelstein P. Articulatory model for the study of speech production // J. Acoust. Soc. Am. 1973. Vol. 53. P. 1070-1082.
101. Meyer P., Schroeter J., Sondhi M.M. Design and evaluation of optimal cepstral lifters for accessing articulatory codebooks // IEEE Trans, on Signal Proc. 1991. Vol. 39. P. 1493-1502.
102. Meyer P., Wilhelms R., Strube H.W., A quasiarticulatory speech synthesizer for German language running in real time // J. Acoust. Soc. Am. 1989. Vol. 86. P. 523-539.
103. Miki N., Matsuzaki H., Aoyama K., Ogawa Y. Transfer function of 3-d vocal tract model with higher mode // Proc. Of 1st ESCA Tutorial and Research Workshop on Speech Production Modeling: From control strategies to acoustics. 1996. P. 211-214.
104. Mongeau L., Franchek N., Coker C., Kubli R. Characteristics of a pulsating jet through a small modulated orifice, with application to voice production // J. Acoust. Soc. Am. 1997. Vol. 102,Pt. l.P. 1121-1133.
105. Moeller J., Atal B.S., Schroeder M. Determination of articulatory parameters of the human vocal tract from acoustic measurements // J. Acoust. Soc. Am. 1976. Vol. 60. S77 (A).
106. Munhall K., Loefquist A., Kelso J. Lip-larynx coordination in speech: effects of mechanical perturbations to the lower lip // J. Acoust. Soc. Am. 1994. Vol. 95. P. 3605-3616.
107. Naraynanan S. Geometry, kinematics and acoustics of Tamil liquid consonants // J. Acoust. Soc. Am. 1999. Vol. 106, Pt. 1. P. 1993-2007.
108. Narayanan S., Alwan A. Toward articulatory-acoustic models for liquid approximants based on MRI and EPG data. Part 1: the laterals // J. Acoust. Soc. Am. 1997. Vol. 101. P. 10641077.
109. Naraynanan S., Alwan A., Haker K. An articulatory study of fricative consonants using magnetic resonance imaging//J. Acoust. Soc. Am. 1995. Vol. 98. P. 1325-1347.
110. Nearey T. Critique: Phonological contrast and articulatory properties // J. Acoust. Soc. Am. 1996. Vol. 99. P. 1714-1717.
111. Nosair Z.B., Zahorian S.A. Dynamic spectral shape features as correlates for initial stop consonants // J. Acoust. Soc. Am. 1991. Vol. 89. P. 2978-2991.
112. Ohala J. Speech perception is hearing sounds, not tongues // J. Acoust. Soc. Am. 1996. Vol. 99. P. 1718-1725.
113. Ohde R.N., Stevens K.N. Effect of burst amplitude on the perception of place of articulation for stops //J. Acoust. Soc. Am. 1983. Vol. 74. P. 706-714.
114. Okadome T. and Honda M. Generation of articulatory movements by using a kinematic triphone model // J. Acoust. Soc. Am. 2001. Vol. 110. P. 453-463.
115. O'Shaughnessy D. Critique: Speech perception: acoustic or articulatory? // J. Acoust. Soc. Am. 1996. Vol. 99. P. 1726-1729.
116. Paige A., Zue V. Computation of vocal tract area function // IEEE Trans, on Audio and Electroacoustics. 1970. Vol. AU-18. P. 7-18.
117. Perkell J. Physiology of speech production: results and implications of a quantitative cinemaradiographic study. Cambridge: MIT Press, 1969. - 120 p.
118. Perrier P., Boe L.J., Sock R. Vocal tract area function estimation from midsagittal dimensions with CT scans and a vocal tract cast: Modeling the transition with two sets of coefficients // J. Speech Hearing Res. 1992. Vol. 35. P. 53-67.
119. Poeck K., Orgass B. The concept of body scheme, a critical review and experimental results // Cortex. 1971. Vol. 5. P. 254-277.
120. Rahim M., Goodyear C.C. Estimation of vocal tract filter parameters using a neural net // Speech Communication. 1990. Vol. 9. P. 49-55.
121. Rahim M., Goodyear C.C., Bastiaan Klejn W., Schroeter J., Sondhi M.M. On the use of neural networks in articulatory speech synthesis // J. Acoust. Soc. Am. 1993. Vol. 93. P. 11091121.
122. Ramsay G., Deng L. Maximum-Likelihood estimation for articulatory speech recognition using a stochastic target model // Proc. of EUROSPEECH'95. 1995. P. 1401-1404.
123. Russel D.G. Spatial location cues and movement production // Motor Control. Issues and Trends, ed. By G.E. Stelmach (Academic Press, NY). 1976. P. 67-85.
124. Saltzman E., Munhall K. A dynamic approach to gestural patterning in speech production 11 Ecol. Psychol. 1989. Vol. 14. P. 333-382.
125. Sanguined V., Laboissiere R., Ostry D.J. A dynamical biomechanical model for neural control of speech production 11 J. Acoust. Soc. Am. 1998. Vol. 103. P. 1615-1627.
126. Savariaux C., Perrier P., Orliaquet J. Compensation strategies for the perturbation of the rounded vowel u. using a lip tube: a study of the control space in the speech production // J. Acoust. Soc. Am. 1995. Vol. 98. P. 2428-2442.
127. Scaife R., Hogan B., Bleakley Ch. Use of speaker-specific wall-vibration data for vocal tract inversion// SPEECH MAPS, ESPRIT/BR №6975. 1995. Deliverable 29. P. 31-37.
128. Schnell K., Lacroix A. Analysis of lossy vocal tract models for speech production // EUROSPEECH-2003.2003. P. 2369-2372.
129. Schoentgen J., Ciocea S. Kinematic formant-to-area mapping // Speech Communication. 1997. Vol. 21. P. 227-244.
130. Schroeder M. Determination of the geometry of the human vocal tract by acoustic measurements 11 J. Acoust. Soc. Am. 1967. Vol. 41, Pt 2. P. 1002-1010.
131. Schroeter J., Sondhi M.M. Dynamic Programming Search of articulatory codebooks // Proc. IEEE Int. Conf. Acoust. Speech Signal Proc. 1989. Vol. 1. P. 588-591.
132. Schroeter J., Sondhi M.M. Speech coding based on physiological models of speech production // Advances in Speech Production, eds S.Furui and M.M. Sondhi, Marcel Dekker, NY. 1991. P. 231-268.
133. Schroeter J. Sondhi M.M. Techniques for estimating vocal tract shapes from the speech signal II IEEE Trans, on Speech and Audio Proc. 1994. Vol. 2 , Pt 2. P. 133-150.
134. Schroeter J., Larar J., Sondhi M.M. Speech parameter estimation using a vocal tract/cord model // ICASSP'87.1987. P. 308-311.
135. Schroeter J., Meyer P., Parthasarathy S. Evaluation of improved articulatory codebooks and codebook access distance measure 11 ICASSP'90. 1990. P. 393-396.
136. Sekiyama K., Sugita Y. Audio-visual speech perception examined by brain imaging // Proc. 7th Int. Conf. on Spoken Language Processing, Denver. 2002. P. 1693-1696.
137. Shirai K., Kobayashi T. Estimating articulatory motion from speech wave // Speech Communication. 1986. Vol. 5. P. 159-170.
138. Shirai K., Kobayashi T. Estimation of articulatory motion using neural networks // J. of Phonetics. 1991. Vol. 19. P. 379-385.
139. Sinder D., Sondhi M.M. Text-to-speech from concatenation of articulatory units derivedfrom natural speech // J. Acoust. Soc. Am. 2003. Vol. 113, Pt. 2. P. 2199.i
140. Smits R., Ten Bosch L., Collier R. Evaluation of various sets of acoustical cues for the perception of prevocalic stop consonants //J. Acoust. Soc. Am. 1996. Vol. 100. P. 3852-3864.
141. Sondhi M.M. Experimental determination of the area function of a lossy dynamically varying vocal tract // J. Acoust. Soc. Am. 1973. Vol. 53. P. 294.
142. Sondhi M.M. Model for wave propagation in a lossy vocal tract // J. Acoust. Soc. Am. 1974. Vol. 55. P. 1070- 1075.
143. Sondhi M.M. Estimation of vocal tract areas: The need for acoustical measurements // IEEE Trans, on Acoustics, Speech and Signal Proc. 1979. Vol. ASSP-27, № 3. P. 268-273.
144. Sondhi M.M., Gopinath B. Determination of vocal tract shape from impulse response at the lips//J. Acoust. Soc. Am. 1971. Vol. 49, Pt. 2. P. 1868-1873.
145. Sondhi M.M., Resnik J.R. The inverse problem for the vocal tract: numerical methods, acoustical experiments and speech synthesis // J. Acoust. Soc. Am. 1983. Vol. 73. P. 985-1002.
146. Sondhi M.M., Schroeter J. A hybrid time-frequency domain articulatory speech synthesizer// IEEE Trans. Acoust., Speech, Signal Process. ASSP-35. 1987. P. 955-967.
147. Soquet A., Saerens M., Jospa P. Acoustic-articulatory inversion based on a neural controller of a vocal tract model: further results// Artificial Neural Networks, Elsevier. 1991. P. 371-376.
148. Soquet A., Lecuit V., Metens T., Demolin D. Mid-sagittal cut-to-area function transformation: Direct measurements of mid-sagittal distance and area with MRI // Speech Communication. 2002. Vol. 36.P. 169-180.
149. Sorokin V.N. Determination of vocal tract shape for vowels // Speech Communication. 1992. Vol. 11. P. 71-85.
150. Sorokin V.N. Inverse problem for fricatives // Speech Communication. 1994. Vol. 14. P. 249-262.
151. Sorokin V., Olshansky V., Kozhanov L. Internal model in articulatory control: evidence from speaking without larynx // Speech Communication. 1998. Vol. 30. P. 55-74.
152. Stevens K. Toward a model of speech recognition // J. Acoust. Soc. Am. 1960. Vol. 32. P. 47-55.
153. Stevens K. Critique: articulatory-acoustic relations and their role in speech perception // J. Acoust. Soc. Am. 1996. Vol. 99. P. 1693-1695.
154. Stevens K. Acoustic Phonetics. Cambridge: The MIT Press, 1998. - 607 p.
155. Stevens K., House A. Development of a quantitative description of vowel articulation // J. Acoust. Soc. Am. 1955. Vol. 27. P. 484-493.
156. Story B. Physiologically-based speech simulation using an enhanced wave-reflection model of the vocal tract: Ph.D. thesis, 1995, University of Iowa. 212 p.
157. Story B. On the ability of a physiologically constrained area function model of the vocal tract to produce normal formant patterns under perturbed conditions // J. Acoust. Soc. Am. 2004. Vol. 115. P. 1760-1770.
158. Story B., Titze I. Parametrization of vocal tract area functions by empirical orthogonal modes // J. of Phonetics. 1998. Vol. 26. P. 223-260.
159. Story B., Titze I. A preliminary study of voice quality transformation based on modifications to the neutral vocal tract area function // J. of Phonetics. 2002. Vol. 30. P. 485509.
160. Story B., Titze I., Hoffman E. Vocal tract area functions for an adult female speaker based on volumetric imaging // J. Acoust. Soc. Am. 1998. Vol. 104. P. 471-487.
161. Story B., Titze I., Hoffman E. The relationship of vocal tract shape to three voice qualities//J. Acoust. Soc. Am. 2001. Vol. 109. P. 1651-1667.
162. Sundberg J. On the problem of obtaining area functions from lateral x-ray pictures of the vocal tract // STL QPSR. 1969. P. 43-45.
163. Sundberg J., Johannson C., Wilbrand H., Ytterbergh C. From sagittal distance to area. A study of transverse, vocal tract cross-sectional area // Phonetica. 1987. Vol. 44. P. 76-90.
164. Tiede M., Yehia H., Vatikiotis-Bateson E. A shape-based approach to vocal tract area function estimation // Proc. of 1st ESCA Tutorial and Research Workshop on Speech Production Modeling: From control strategies to acoustics. 1996. P. 41-44.
165. Tom K., Titze I., Hoffman E., Story B. 3D vocal tract imaging and formant structure: varying vocal register, pitch and loudness // NCVS Status and Progress Report. 1999. Vol. 14. P. 101-113.
166. Vallabha G.K., Tuller B. Systematic errors in formant analysis of steady-state vowels // Speech Communication. 2002. Vol. 38. P. 141-160.
167. Vetter R.J., Weinstein S. The history of the phantom in congenital absent limbs // Neuropsychology. 1967. Vol. 5. P. 335-338.
168. Wakita H. Direct estimation of vocal tract shape by inverse filtering of acoustic speech waveforms // IEEE Trans. Audio Electroacout. 1973. Vol. 21. P. 417-427.
169. Weinstein S., Sersen E.A. Phantoms in cases of congenital absence of limbs // Neurology. 1961. Vol. 10-11. P. 905-911.
170. Westbury J. X-ray Microbeam Speech Production Database User's Handbook, Version 1.0 (June 1994). University of Wisconsin, 1994. - 135 p.
171. Wilhelms R., Meyer P., Strube H.W. Estimation of articulatory trajectories by Kalman Filter // Signal Processing 3: Theories and Applications, Elsevier Science Publishers. 1986. P. 477-480.
172. Wilhelms-Tricario R., McGowan R. Rational approximations of viscous losses in vocal tract acoustic modeling // J. Acoust. Soc. Am. 2004. Vol. 115. P. 3195-3201.
173. Yehia H., Itakura F. A method to combain acoustic and morphological constraints in the speech production inverse problem // Speech Communication. 1996. Vol. 18. P. 151-174.
174. Zhang Z., Mongeau L., Frankel S. Broadband sound generation by confined turbulent jets // J. Acoust. Soc. Am. 2002a. Vol. 112. P. 677-689.
175. Zhang Z., Mongeau L., Frankel S. Experimental verification of the quasi-steady approximation for aerodynamic sound generation by pulsating jets in tubes // J. Acoust. Soc. Am. 2002b. Vol. 112. P. 1652-1663.
176. Zhang Z., Mongeau L., Frankel S., Thomson S., Park J.B. Sound generation by steady flow through glottis-shaped orifices // J. Acoust. Soc. Am. 2004. Vol. 116. P. 1720-1728.
177. Zhao W., Zhang Ch., Frankel S., Mongeau L. Computational aeroacoustics of phonation, Part 1: Computational methods and sound generation mechanisms // J. Acoust. Soc. Am. 2002. Vol. 112. P. 2134-2146.
178. Zlokarnik I. Experiments with an articulatory speech recognizer // Proc. Europ. Conf. on Speech Com. Technology. 1993. P. 2215-2218.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.