Методы и алгоритмы гибридного синтеза естественной русской речи на основе скрытых марковских моделей и метода Unit Selection тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Чистиков, Павел Геннадьевич
- Специальность ВАК РФ05.13.11
- Количество страниц 134
Оглавление диссертации кандидат технических наук Чистиков, Павел Геннадьевич
Выводы
Заключение
Литература
Список сокращений
AR Autorcgressive.
CART Classification and Regression Tree.
GV Global Variance.
HMM Hidden Markov Model. HNM Harmonic Plus Noise Model.
LP Linear Prediction.
LP-PSOLA Linear-Pitch-Synchronous-Overlap-Add. LPC Linear Predictive Coding. LSF Line Spectral Frequencies.
MBE Multi-Band-Ecited. MBROLA Multi-Band-Overlap-Add. MCA Multiple Centroid Analysis. MDL Minimum Description Length. MFCC Mel-Frequency Cepstral Coefficients. MLSA Mel Log Spectrum Approximation. MOS Mean Opinion Score. MSD Multi-Space Distribution.
MSD-HMM Multi-Space Distribution Hidden Markov Model.
RELP Residual Excited Linear Prediction. RT Real Time.
SLG Spoken Language Generation. SPECINT Spectrum Interpolation.
TD-PSOLA Time-Domain Pitch-Synchronous-Overlap-Add. ToBI Tones and Break Indices.
ДПФ Дискретное Преобразование Фурье.
ОТ Основной Тон.
ЧОТ Частота Основного Тона.
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Автоматическое распознавание аудиовизуальной русской речи2020 год, кандидат наук Иванько Денис
Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях2013 год, доктор технических наук Карпов, Алексей Анатольевич
Методы и модели распознавания русской речи в информационных системах2014 год, кандидат наук Гусев, Михаил Николаевич
Методы и алгоритмы аудиовизуального распознавания эмоционального состояния типично и атипично развивающихся детей2023 год, кандидат наук Матвеев Антон Юрьевич
Синтез речи на основе глубокого машинного обучения2019 год, кандидат наук Калиев Арман
Введение диссертации (часть автореферата) на тему «Методы и алгоритмы гибридного синтеза естественной русской речи на основе скрытых марковских моделей и метода Unit Selection»
Введение
Актуальность проблемы. Процесс изучения и построения систем синтеза речи становится все более и более популярен в последнее время. Много подходов и алгоритмов предложено в этой области. Если в первых подобных системах акцент делался на разборчивость речи, то теперь особое внимание уделяется ее естественности, интонационной насыщенности, эмоциональной окраске. Голос довольно точно передает окружающим информацию о текущем состоянии человека, о его переживаниях, отношении к фактам, самочувствии, а нередко - и о темпераменте, о чертах характера. Уловить эмоции позволяет тон голоса. А для понимания сообщения важны как сила голоса, так и его высота.
С развитием технологий автоматического синтеза речи, синтезированная речь становится все более и более естественной, приближенной к речи человека. Однако системы синтеза речи в современных человеко-машинных интерфейсах, системах виртуальной реальности и мультимедийного общения, по-прежнему обладают рядом недостатков, которые утомляют слушателя, не давая ощущения того, что с ними общается живой человек. Для уменьшения количества дефектов, присущих синтезированной речи, различными научными коллективами разрабатываются методы, позволяющие повысить естественность речи. В России наиболее заметные результаты в области автоматического синтеза речи получены в Санкт-Петербургском государственном университете (П.А. Скрелин, В.И. Галунов), Институте проблем передачи информации РАН (В.Н. Сорокин), Московском государственном лингвистическом университете (Р.К. Потапова), МГУ им. М. В. Ломоносова (О.Ф. Кривнова). Из стран СНГ наиболее значимые результаты получены в Объединенном институте проблем информатики
Национальной академии наук Беларуси (Б.М. Лобанов). В данном исследовании произведена разработка программного средства преобразования текста в речь, объединяющего подходы к синтезу речи, основанные на скрытых марковских моделях и методе Unit Selection. Такое программное средство обеспечивает обратную связь человека с вычислительной машиной посредством речевого интерфейса.
Разработанная автором гибридная система синтеза речи обеспечивает «чтение» произвольного русского текста без специальной предварительной разметки, с максимальной приближенностью к естественной слитной речи и естественным тембром голоса в широком диапазоне изменения основного тона голоса диктора и темпа его речи. Такая система востребована во всех случаях, когда получателем информации является человек: разгружается зрительный аппарат и повышается интерактивность взаимодействия с компьютером [1-3]. Особенно остро данная система необходима для людей с ограниченными возможностями, в частности, инвалидов по зрению [4,5].
Наряду с системой распознавания речи, система синтеза речи может быть использована в са11-центрах и системах автоматического информирования. Приложения на его основе могут быть востребованы во всех информационных сервисах в случаях, когда необходимо осуществление коммуникационных действий с пользователем, а предварительная запись требуемых фраз по тем или иным причинам невозможна.
Актуальность проведенных исследований подтверждается большим количеством докладов на эту тему на международных научно-технических конференциях, крупнейшей из которых является ежегодная конференция Interspeech, и потребностью рынка в программно-технических средствах, позволяющих осуществлять интерактивное взаимодействие с компьютером посредством речи.
В результате работы создано программное средство, обеспечивающее человеко-машинный интерфейс, где ЭВМ выполняет взаимодействие с человеком посредством голоса. Затронуты такие аспекты, как теоретическое и экс-
перимснтальнос исследование в области систем управления базами данных и знаний (подготовка речевой базы данных и автоматизация этого процесса); разработка математического и программного обеспечения вычислительных машин (программные средства создания модели голоса и модификации речевого сигнала); повышение эффективности подготовки речевого корпуса (размеченной речевой базы данных) за счет автоматизации трудоемких процессов.
Цель диссертационной работы - создание программных средств синтеза естественной русской речи на основе совместного использования скрытых марковских моделей (СММ) и метода Unit Selection.
Для достижения данной цели были поставлены и решены следующие задачи.
1. Разработка методов, алгоритмов и программных средств синтеза естественной русской речи, основанных на совместном использовании скрытых марковских моделей и метода Unit Selection.
2. Проведение экспериментальных исследований, оценка качества работы созданной системы синтеза естественной русской речи, сравнение с мировыми аналогами.
Объектом исследования в данной работе являются системы преобразования печатного текста в естественно звучащую речь.
Предметом исследования является гибридная система синтеза естественной русской речи на основе совместного использования скрытых марковских моделей (СММ) и метода Unit Selection.
Научная новизна.
1. Разработана методика создания нового голоса для системы синтеза естественной русской речи, позволяющая существенно повысить качество звучания и снизить трудоемкость подготовки звуковой базы данных.
2. Разработаны алгоритмы стыковки и модификации речевых элементов, качественно улучшающие естественность синтезируемой речи.
3. Создан комплекс программных средств синтеза естественной русской речи на основе гибридной технологии, включающей совместное использование скрытых марковских моделей и метода Unit Selection.
Основные положения, выносимые на защиту.
1. Методика подготовки размеченной речевой базы данных (речевого корпуса).
2. Набор признаков звуковой единицы русского языка, обучение на основе которых приводит к созданию модели интонации, близкой к естественной.
3. Набор критериев поиска последовательности звуковых элементов методом Unit Selection, обеспечивающий высокое качество синтезированной речи.
4. Методика создания модели голоса.
5. Параллельные алгоритмы обучения моделей.
6. Алгоритм модификации частоты основного тона, энергии и длительности аллофонов.
7. Алгоритм стыковки звуковых элементов.
Методы исследования. В работе использованы методы дискретной математики, теории вероятностей и математической статистики, цифровой обработки сигналов, теории алгоритмов и прикладной лингвистики.
Достоверность научных положений, выводов и практических рекомендаций, полученных в диссертационной работе, подтверждается корректным обоснованием постановок задач, точной формулировкой критериев, компьютерным моделированием, результатами экспертной оценки, а также их внедрением на практике.
Практическая ценность. Результаты, полученные в ходе выполнения работы, используются на практике:
1) как самостоятельные решения, применяемые для озвучивания электронных книг и новостных лент;
2) в составе комплексного продукта, представляющего собой систему голосового самообслуживания.
Внедрение результатов работы. Результаты диссертации использованы при выполнении следующих научно-исследовательских работ: «Разработка комплекса аппаратно-программных средств синтеза русской речи по тексту» (федеральная целевая программа «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы»), «Разработка и реализация в виде программного обеспечения технологии синтеза речи на русском языке с учетом синтаксического и семантического анализа русского текста с высоким качеством звучания» и «Создание компьютерного лингвистического тренажера для экспресс-освоения навыков общения на иностранном языке» (по заказу министерства образования и науки РФ). Также результаты работы были внедрены в различные коммерческие продукты компании ООО «ЦРТ».
Апробация результатов работы. Основные положения диссертационной работы докладывались на научно-методических конференциях: «Международная конференция по компьютерной лингвистике Диалог-2010» (Москва), «Международная конференция по компьютерной лингвистике Диалог-2011» (Москва), «IEEE Conference, North West Russia Section» (Санкт-Петербург, 2011), «International Conference on Speech and Computer SPECOM 2011» (Казань), «XLI научная и учебно-методическая конференция НИУ ИТМО» (Санкт-Петербург, 2012), «I всероссийский конгресс молодых ученых НИУ ИТМО» (Санкт-Петербург, 2012), «Международная конференция по компьютерной лингвистике Диалог-2012» (Москва).
Личный вклад автора. Автором лично были разработаны программные средства синтеза русской речи на основе гибридной технологии, методика создания модели голоса и инструменты для ее обучения, алгоритмы модификации и стыковки звуковых элементов, качественно улучшающие естественность синтезируемой речи; проведены экспериментальные исследования по выбору
признаков звуковых единиц русского языка и критериев поиска последовательности звуковых элементов методом Unit Selection. Реализована система сбора речевого материала, разметки, создания голоса синтеза. Подготовка основных публикаций проводилась с соавторами, при этом вклад автора был основным.
Публикации. По теме диссертации опубликовано 17 научных работ, в том числе 16 статей, из которых 6 статей опубликованы в журналах из перечня ВАК.
Структура диссертации. Диссертация изложена на 134-х страницах и состоит из введения, четырех глав и заключения. Список литературы содержит 132 наименования. Работа иллюстрирована 40-а рисунками и 13-ю таблицами.
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Система автоматического распознавания речевых команд для параллельных архитектур2005 год, кандидат технических наук Сапунов, Григорий Владимирович
Комплекс программ синтезирования таджикской речи по тексту2009 год, кандидат физико-математических наук Худойбердиев, Хуршед Атохонович
Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях2010 год, доктор технических наук Ронжин, Андрей Леонидович
Робастное распознавание речи для низко-ресурсных языков2020 год, кандидат наук Романенко Алексей Николаевич
Модель и алгоритмы анализа и сегментации речевого сигнала2007 год, кандидат технических наук Конев, Антон Александрович
Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Чистиков, Павел Геннадьевич
Выводы
В данной главе представлены эксплуатационные характеристики системы: объем речевых корпусов, параметры производительности; приведены примеры кластеризации состояний моделей длительности и частоты основного тона, моделирования огибающей F0 и синтеза речевого сигнала; проведено сравнение синтезированной речи с речью диктора, отмечено существенное сходство; представлены результаты MOS оценок качества и слоговой разборчивости.
Эксперты очень высоко оценили результаты работы системы как с точки зрения качества синтезируемой речи, так и сточки зрения производительности, позиционируя се как лучшую в мире среди систем синтеза на русском языке.
Заключение
В ходе проведенных исследований была разработана гибридная система синтеза русской речи по тексту, в основе которой лежат скрытые марковские модели и метод Unit Selection. Результаты испытаний показали, что по показателям естественности звучания данная система является лучшей среди систем синтеза на русском языке, при этом полностью удовлетворяя диктуемым реальными приложениями требованиям по производительности (скорости работы и занимаемом объеме памяти). Разработанная система успешно себя зарекомендовала в различных научно-исследовательских и опытно-конструкторских разработках, а также коммерческих решениях компании ООО «ЦРТ» как в качестве самостоятельного продукта, так и в составе других, например, системы голосового самообслуживания.
В диссертации получены следующие результаты.
1. Создана методика подготовки речевого корпуса, включающая методику подготовки текстового корпуса, автоматический контроль параметров записи фонограмм, автоматическую разметку звукового материала.
2. Выбран набор признаков звуковой единицы русского языка и набор критериев поиска последовательности звуковых элементов методом Unit Selection.
3. Выработана методика создания модели голоса.
4. Реализовано масштабируемое ПО обучения моделей голоса.
5. Разработаны алгоритмы и реализовано ПО модификации частоты основного тона, энергии и длительности и стыковки звуковых элементов.
6. Разработаны программные средства синтеза русской речи, основанной на совместном использовании скрытых марковских моделей и метода Unit Selection.
Список литературы диссертационного исследования кандидат технических наук Чистиков, Павел Геннадьевич, 2013 год
Литература
1. Житко В.А., Гецевич Ю.С., Лобанов Б.М. Справочная система с речевым интерфейсом // Открытые семантические технологии проектирования интеллектуальных систем (OSTIS-2013) : материалы III Междунар. науч.-тсхн. конф. - С. 505-510. - Минск : БГУИР, 2013.
2. Ронжин A.JL, Будков В.Ю. Технологии поддержки гибридных с-совещаний на основе методов аудиовизуальной обработки // Вестник компьютерных и информационных технологий. - № 4, С. 31-35. - 2011.
3. Ронжин A.JL, Будков В.Ю., Ронжин Ал.Л. Технологии формирования аудиовизуального интерфейса системы телеконференций // Автоматизация и современные технологии. 5, С. 20-26. - 2011.
4. Лосик Г.В., Лобанов Б.М., Ткаченко В.В. Синтезатор речи в персональном компьютере для незрячего // Материалы Международной научно-практической конференции «Инклюзивное образование: проблемы, поиски, решения». - С. 23-26. - Якутск. - 2011.
5. Лобанов Б.М., Сизонов О.Г. Квазиречевой видеонавигатор для слепых // Речевые технологии. - № 1. - С. 103-110. - М., 2009.
6. Dines J. Model based trainable speech synthesis and its applications // Ph. D. Thesis, Queensland University of Technology, Australia, 2003.
7. Dutoit Th. Introduction au traitement de la parole // Faculte Polytechnique de Möns. - 2002.
8. Stilianou Y. Harmonic plus noise models for speech, combined with statistical methods, for speech and speaker modification // Ph.D. Thesis, Ecole Ecole Nationale Supérieure des Telecommunications. - Paris, France. - 1996.
9. Лобанов Б.M., Цирульник JI.И. Компьютерный синтез и клонирование речи // Минск: Белорусская наука. - 316 с. - 2008.
10. Гецевич Ю.С., Лобанов Б.М. Система синтеза белорусской речи по тексту // Речевые технологии. - № 1, С. 91-100. - 2010.
11. Аничкин И., Чистиков П. Формализация правил автоматического снятия омонимии в системе синтеза речи по тексту // Труды XXXVIII международной филологической конференции. - 2008. - С. 29-45.
12. Цирульник Л.И., Барбук С.Г., Лобанов Б.М. Статистический анализ и контекстуальные правила разрешения графической омонимии при синтезе речи по тексту // Труды Международной конференции «Компьютерная лингвистика и интеллектуальные технологии». - С. 530-536. - Москва, 2009г.
13. Алдошина И. Основы психоакустики // Москва. - 2007.
14. Скрелин П.А. Формальные методы анализа речи: проблемы интерпретации результатов // Труды международной филологической конференции «Формальные методы анализа русской речи». - Санкт-Петербург. - 2007.
15. Кривнова О.Ф. Генерация тонального контура фразы в системах автоматического синтеза речи // Москва: МГУ. - 1998.
16. Murray I.R., Arnott J.L. Implementation and testing of a system for producing emotion-by-rule in synthetic speech // Speech Communication. - United Kingdom. - 1995. - P. 369-390.
17. Евграфова K.B. Фонетические характеристики гласной вставки в чтении изолированных слов / / Труды международной филологической конферен-
ции «формальные методы анализа русской речи». - Санкт-Петербург. -2008.
18. Lobanov В., Karnevskaya Е. Pragmatic variation of Question Intonation in TTS synthesis // Speech and Computer: proceedings of the 13-th International conference SPECOM'2009. - P. 225-228. - Russia, 2009.
19. Лобанов, Б.М. Пунктуационная структура художественных произведений и её роль в синтезе выразительной речи по тексту // Труды Международной конференции «Компьютерная лингвистика и интеллектуальные технологии» (Диалог'2010). - Вып. 9 (16), С. 330-338. - Москва, 2010.
20. Лобанов Б.М., Гецевич Ю.С. Статистические характеристики синтагматического членения предложений в приложении к синтезу выразительной речи по тексту // Труды Международной конференции «Компьютерная лингвистика и интеллектуальные технологии» (Диалог'2011). - Вып. 10 (17), С. 434-447. - Москва, 2011.
21. Ронжин А.Л., Евграфова К.В. Анализ вариативности спонтанной речи и способов устранения речевых сбоев / / Известия высших учебных заведений. Гуманитарные пауки. - Т. 2, Вып. 3, С. 227-231. - 2011.
22. Möbius В. Components of a quantative model of German intonation //In proceedings of the XIII International Congress of Ph. Sciences. - Stockholm. -1995. - Vol.2.
23. d'Alessandro C., Martens P. Automatic Pitch Contour Stylization Using a Modal of Tonal Perception // Computer, Speech, and Language. - 1995. -No9.
24. Markel J.D., Gray A.H. Linear Prediction of Speech // Berlin. - 1980.
25. Klatt D.H. The Klattalk text-to-speech conversion system // Proceedings on the International Conference on Acoustic, Speech and Signal Processing. -Paris. - 1982. - P. 1589-1592.
26. Klatt D.H. Review of text-to-speech conversion for English // Journal of the Acoustical Society of America. - September 1987. - Vol. 82. - P. 737-793.
27. Klatt D.H. DecTalk user's manual // Digital Equipment Corporation Report.
- 1990.
28. Allen J., Hunnicutt S., Carlson R., Granstrôm B. MITalk-79: The 1979 MIT text-to-speech sytem // Speech Communication Papers Presented at the 97th Meeting of the Acoustical Society of America. - Cambridge, USA. - 1979. - P. 507-510.
29. Allen J., Hunnicutt S., Klatt D.H. From Text-to-Speech: The MITalk System // Cambridge: Cambridge University Press. - 1987.
30. Чистиков П., Рыбин С. Проблемы естественности речевого сигнала в системах синтеза // Журнал «Компьютерные инструменты в образовании».
- 2011. - Вып. 1. - С. 22-30.
31. Black A.W., Taylor P., Caley R. The Festival Speech Synthesis System // Centre for Speech Thecnology Research, University of Edinburg. - England. -June 1999. - 1.4 ed.
32. Campbell N. CHATR: A high-Definition Speech ReSequencing System // Proceedings of the 3rd ASA/ASJ Joint Meeting. - 1996. - P. 1223-1228.
33. Beutnagel M., Conkie A., Scroeter J., Stylianou Y., Sydral A. The AT&T Next-Gen TTS sinthesis // Proceedings of the European Conference on Speech Communication and Technology. - Rhodes, Greecs. - 1997. - Vol. 2. - P. 601604.
34. Coorman G., Fackrell J., Rutten P., Van Coile B. Segment selection tin the L&H realspeak laboratory TTS system // Proceedings of ICSLP. - Beijing, China. - 2000.
35. Makhoul J. Spectral Linear Prediction: Properties and Applications // IEEE Trans. ASSP. - 1975. - Vol. 23. - No. 5. - P. 283-296.
36. Hamon С., Moulines E., Charpentier F. A diphone synthesis system based on time-domain prosodic manipulations of speech // Proceedings on the International Conference on Acoustic, Speech and Signal Processing. - 1989. - P. 238.
37. Charpentier F., Stella M. Diphone synthesis using an overlap-add technique for speech waveforms concatenation // Proceedings on the International Conference on Acoustic, Speech and Signal Processing. - Tokio, Japan. - 1986.
38. Главатских И., Чистиков П., Таланов А. Метод модификации физических параметров речевого сигнала на основе периодосинхронного Фурье-анализа // Труды XXXVIII международной филологической конференции.
- 2008. - С. 47-62.
39. Chistikov P. Pitch-scale modification in text-to-speech systems // Proceedings of the IEEE North West Russia Section. - 2011. - P. 37-42.
40. Chistikov P., Talanov A. High Quality Pitch-Scale Modification in Speech Generation Systems // SPECOM 2011 International Conference. - 2011. -P. 367-372.
41. Hunt M., Zwierynski D., Carr R. Issues in high quality LPC analysis and synthesis // Eurospeech89. - Paris, France. - 1989. - Vol. 2. - P. 348-351.
42. Dutoit Th., Leich H. MBR-PSOLA: Text-to-speech synthesis based on an MBE re-synthesis of the segments database // Speech Commun. - November 1993.
- Vol. 13. - No. 34. - P. 167-184.
43. Stylianou Y. Removing phase mismatches in concatenative speech synthesis // Proc. 3rd ESCA Speech Synthesis Workshop. - November 1998. - P. 267-272.
44. Stylianou Y. Applying the Harmonic Plus Noise Model in Concatenative Speech Synthesis // IEEE Trans. Speech Audio Processing. - January 2001. - Vol. 9.
- No. 1. - P. 21-29.
45. Mobius В. Rare events and closed domains: Two delicate concepts in speech synthesis // Proceedings of the 4th ESCA Workshop on Speech Synthesis. -Perthshire, Scotland. - 2001.
46. Tokuda K. HMM-based Speech Synthesis System (HTS). - 2011. - Режим доступа: // http://hts.sp.nitech.ac.jp. - Загл. с экрана.
47. Huang X., Acero A., Adcock J., Goldsmith J., Liu J. Whistler: A Trainable Text-to-Specch System // Proceedings of the International Conference on Spoken Language Processing. - Philadelphia, PA. - 1996.
48. Donovan R.E., Eide E.M. The IBM Trainable Speech Synthsis System // Proceedings ICSLP'98. - Sydney, Australia. - 1998.
49. Donovan R.E., Ittycheriah A., Franz M., Ramabhadran В., Eide E., Viswanathan M., Bakis R., Hamza W. Current Status of the IBM Trainable Speech Synthesis System // Proceedings 4th ESCA Tutorial and Research Workshop on Speech Synthesis, Atholl place Hotel. - Scotland, UK. - 2001.
50. Boite R., Bourland H., Dutoit Th., Hancq J., Leich H. Traitement dc la parole // Presses Polytechniques et Universitaires Romandes. - 2000.
51. Quatieri T.F. Discrete-time speech signal processing // Prentice Hall. - 2001.
52. Пиуновский E.B., Тропченко А.А. Современные технологии сжатия аудиосигналов // Научно-технический вестник информационных технологий, механики и оптики. - Вып. 1(65). - 2010.
53. Griffin D.W. Multi-Band Excitation Vocoder // Ph.D. Thesis. - Cambridge: MIT. - 1987.
54. Abrantes A.J., Marques J.S., Transcoso I.M. Hybrid Sinusoidal Modeling of Speech without Voiceing Decision // Proceedings of Eurospeech 91. - Paris. -1991. - P. 231-234.
55. d'Alessandro C., Yegnanarayana В., Darsinos V. Effectiveness of a periodic and Aperiodic Decomposition Method for Analysis of Voice Sources // IEEE
Transactions on Acoustic, Speech and Sigal Processing. - 1998. - Vol. 6. - No. 1. - P. 12-23.
56. Taylor P. Unifying unit selection and hidden Markov model speech synthesis // In Interspeech. - 2006. - P. 1758-1761.
57. Zen H., Tokuda K., Black A. Statistical parametric speech synthesis // Speech Communication. - November 2009. - Vol.51. - No.ll. - P. 1039-1064.
58. King S., Karaiskos V. The Blizzard Challenge 2010 // CSTR. - University of Edinburgh. - UK. - 2010.
59. Shiga Y., Toda T., Sakai Sh., Ni J., Kawai H., Tokuda K., Tsuzaki M., Nakamura S. NICT Blizzard Challenge 2010 Entry // The Blizzard Challenge 2010. - Japan. - September 2010
60. Black A.W., Hunt A.J. Unit Selection in a Concatenative Speech Synthesis Using a Large Speech Database //In Proceedings of ICASSP 96. - Atlanta, Georgia. - 1996. - Vol. 1. - P. 373-376.
61. Black A.W., Taylor P., Calcy R. The festival speech synthesis system. Manual and source code available at http://www.cstr.ed.ac.uk/projects/festival.html.
62. Conkie A. A robust unit selection system for speech synthesis //In Proceedings of Joint, Meeting of ASA, EAA and DAGA. - Berlin, Germany. - 1999.
63. Vepa J. Join Cost for Unit Selection Speech Synthesis // University of Edinburgh. - 2004.
64. Syrdal A.K., Conkie A. Data-driven perceptually based join costs // In Proceedings of 5th ISCA Speech Synthesis Workshop. - Pittsburgh, Pennsylvania. - 2004. - P. 49-54.
65. Black A.W., Taylor P. Automatically clustering similar units for unit selection in speech synthesis //In Proceedings of Eurospeech 97. - Rhodes, Greece. -1997. - Vol.2. - P. 601-604.
66. Klabbcrs E., Veldhuis R. On the reduction of concatenation artefacts in diphone synthesis //In Proceedings of the International Conference on Speech and Language Processing. - 1998.
67. Moulines E., Verhelst W. Time-domain and frequency-domain techniques for prosodic modification of speech in Speech Coding and Synthesis // IEEE. -Netherland. - 1995. - P. 519-555.
68. Taylor P. Text to Speech Synthesis // University of Cambridge. - Great Britan.
69. Rafael C., Luiz W., Netto S. A sequential system for voice pitch modification //In proceedings of the 5th AES-Brazil Conference. - Brazil. - 2007.
70. Rafael C., Luiz W., Sergio L. On the application of RLS adaptive filtering for voice pitch modification //In proceedings of the 10th International Conference on Digital Audio Effects. - France. - 2007.
71. Kadambe S., Boudrcaux-Bartels G. Application of the wavelet transform for pitch detection of speech signals // IEEE Transactions on Information Theory. - 1992. - Vol. 38. - No. 2. - P. 917-924.
72. Ma C., Kamp Y., Willems L. A Frobenius norm approach to glottal closure detection from the speech signal // IEEE Transactions on Speech and Audio Processing. - 1994. - Vol. 2. - No. 2. - P. 258-265.
73. Chevelu J., Barbot N., Boeffard O., Delhay A. Comparing set-covering strategies for optimal corpus design // Proceedings of the 6th International Language Resources and Evaluation, 2008. P. 2951-2956.
74. van Santen, J. P. H., Buchsbaum A. L. Methods for optimal text selection // Proc. of Eurospeech, Rhodes, Greece, 1997, P. 553-556.
75. Кривнова О. Ф., Захаров JI. М., Строкин Г. С. Подбор текстового материала и статистический инструментарий для создания речевых корпусов // Сборник трудов XI сессии Российского акустического общества. Том 3.
Акустика речи. Медицинская и биологическая акустика. ГЕОС, М.. 2001.
C. 87-92.
76. Чистиков П. Технология синтеза русской речи на основе скрытых Марковских моделей // Научно-технический вестник информационных технологий, механики и оптики. - 2012. - Вып. 3. - С. 151-152.
77. Narayanan S., Alwan A. Text-to-Speech Synthesis: New Paradigms and Advances // Prentice Hall. - 2004.
78. Tokuda K., Masuko Т., Miyasaki N., Kobayashi T. Multi-space probability distribution HMM // IEICE Trans. Information and Systems. - March 2002. - Vol. E85-D. - No. 3. - P. 455-464.
79. Tokuda K., Zen H., Black A.W. An HMM-based speech synthesis system applied to English // Proc. IEEE Workshop on Speech Synthesis. - 2002. -P. 227-230.
80. Yoshimura Т., Tokuda K, Masuko Т., Kobayashi Т., Kitamura T. Simultaneous modeling of spectrum, pitch and duration in HMMbased specch synthesis //In Proc. EUROSPEECH-99. - September 1999. - P. 2374-2350.
81. Yoshimura Т., Tokuda K., Masuko Т., Kobayashi Т., Kitamura T. Mixed excitation for HMM-based speech Synthesis // Proc. of European Conference on Speech Communication and Technology. - September 2001. - Vol. 3. - P. 2259-2262.
82. Odell J.J. The Use of Context in Large Vocabulary Speech Recognition // Ph.D. Thesis, University of Cambridge. - England. - 1995.
83. Young S., Evermann G., Hain Т., Kershaw D., Moore G., Odell J.J., Ollason
D., Povey D., Valchev V., Woodland P. The НТК Book: For НТК version 3.2.1. // Cambridge University. - England. - December 2002.
84. Gosselin B. Classification et Reconnaissance Statistique de Formes // Faculte Polytechnique de Mons. - 2000.
85. Masuko T., Tokuda K., Kobayashi T., Imai S. Speech synthesis using HMMs with dynamic features // Proceedings of the International Conference on Acoustic, Speech and Signal Processing. - 1996.
86. Plumpe M., Accro A., Hon H., Huang X. HMM-based smoothing for concatenative speech synthesis // Proceedings of the International Conference on Spoken Language Processing. - Sydney, Australia. - December 1998. - P. 2751-2754.
87. Tokuda K., Kobayashi T., Imai S. Speech parameter generation from HMM using dynamic features // Proceedings of the International Conference on Acoustic, Speech and Signal Processing. - Detroit, USA. - 1995. - P. 660-663.
88. Tokuda K., Masuko T., Yamada T., Kobayashi T., Imai S. An algorithm for speech parameter generation from continuous mixture HMMs with dynamic dynamic features // Proceedings of the European Conference on Speech Communication and Technology. - Madrid, Spain. - 1995. - P. 757-760.
89. Tokuda K., Yoshimura T., Masuko T., Kobayashi T., Kitamura T. Speech parameter generation algorythms for HMM-based speech synthesis // Proceedings of the International Conference on Acoustic, Speech and Signal Processing. - Istanbul, Turkey. - 2000.
90. Kawai H., Toda T., Ni J., Tsuzaki M., Tokuda K., XIMERA: A new TTS from ATR based on corpus-based technologies //in ISCA SSW5. - 2004.
91. Rouibia S. and Rosec Unit selection for speech synthesis based on a new acoustic target cost //In Interspeech. - 2005. - P. 2565-2568.
92. Hirai T., Tenpaku S. Using 5 ms segments in concatenative speech synthesis // In ISCA SSW5. - 2004.
93. Yang H., Zhao Z., Jiang Y., Hu G., Wu X. Multitier non-uniform unit selection for corpus-based speech synthesis //In Blizzard Challenge Workshop. - 2006.
94. Mizutani N., Tokuda K., Kitamura T. Concatenative spcech synthesis based on HMM 11 In Autumn meeting of ASJ. - 2002. - P. 241-242.
95. Ling Z., Wang R. HMM-based unit selection using frame sized speech segments // In Interspeech. - 2006. - P. 2034-2037.
96. Kominek J., Black A. The Blizzard Challenge 2006 CMU entry introducing hybrid trajectory-selection synthesis //In Blizzard Challenge Workshop. -2006.
97. Wouters J., Macon M. Unit fusion for concatenative speech synthesis //In ICSLP. - 2000. - P. 302-305.
98. Продан А., Чистиков П., Таланов А. Система подготовки нового голоса для системы синтеза «VITALVOICE» // Сборник «Компьютерная лингвистика и интеллектуальные технологии». - 2010. - Вып. 9(16). - С. 394-399.
99. Смирнова Н., Чистиков П. Программа анализа фонетических статистик в текстах на русском языке и ее использование для решения прикладных задачах в области речевых технологий // Сборник «Компьютерная лингвистика и интеллектуальные технологии». - 2011. - Вып. 10(17). - С. 632-643.
100. Чистиков П., Хомицевич О. Автоматическое определение границ предложений в потоковом режиме в системе распознавания русской речи // Вестник МГТУ им. Н.Э. Баумана Сер. Приборостроение. - 2011. - Вып. S. - С. 117-125.
101. Chistikov P., Khomitsevich О. On-line automatic sentence boundary detection in a Russian ASR system // SPECOM 2011 International Conference. - 2011. - P. 112-117.
102. Чистиков П.Г. Моделирование параметров русской речи в системе синтеза // Сборник тезисов докладов конгресса молодых ученых, Выпуск 2. Труды молодых ученых / Главный редактор д.т.н., проф. В.О. Никифоров. - СПб: НИУ ИТМО, 2012. - С. 227-228.
103. Chistikov P., Korolkov E. Data-driven Speech Parameter Generation For Russian Text-to-Spcech System // Сборник «Компьютерная лингвистика и интеллектуальные технологии». - 2012. - Вып. 11(18). - С. 103-111.
104. Fukada Т., Tokuda К., Kobayashi Т., Imai S. An adaptive algorithm for mel-cepstral analysis of speech // Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). - 1992.
105. Zen H., Tokuda K., Masuko Т., Kobayashi Т., Kitamura T. Hidden semi-Markov model based speech synthesis // Proceedings of the International Conference on Spoken Language Processing (ICSLP). - 2004.
106. Black A., Taylor P., Caley R. The Festival Speech Synthesis System. - 2011. -Режим доступа: http://www.festvox.org/festival. - Загл. с экрана.
107. Maia R., Zen H., Tokuda К. An HMM-based Brazilian Portuguese Speech Synthesis and Its Characteristics // Revista da Sociedade Brasileira de Telecomunicacoes. - 2006
108. Tokuda K., Masuko Т., Miyazaki N., Kobayashi T. Hidden Markov models based on multi-space probability distribution for pitch pattern modeling //In Proc. ICASSP-99. - March 1999. - P. 229-232.
109. Tokuda K., Masuko Т., Miyazaki N., Kobayashi T. Multi-space probability distribution hmm // IEICE Trans. Inf. к Syst. - July 2000. - No. J83-DII(7).
- P. 1579-1589.
110. Masuko Т., Tokuda K., Miyazaki N., Kobayashi T. Pitch pattern generation using multi-space probability distribution HMM // IEICE Trans. Inf. & Syst.
- July 2000. - No. J83-D-II(7). - P. 1600-1609.
111. Yoshimura Т., Tokuda K., Masuko Т., Kobayashi Т., Kitamura T. Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis // IEICE Trans. D-II. - November 2000. - No. J83-D-II(11). - P. 2099-2107.
112. Young S., Odell J., Woodland P. Tree-based state tying for high accuracy acoustic modeling // Proc. ARPA Human Language Technology Workshop.
- March 1994. - P. 307-312.
113. Shinoda K., Watanabe T. MDL-based context-dependent subword modeling for speech recognition //J. Acoust. Soc. - Japan. - March 2000. - No. 21. -P. 79-86.
114. Yamagishi J. An Introduction to HMM-Based Speech Synthesis // Ph.D. Thesis. - October 2006.
115. Toda Т., Tokuda K. A Speech Parameter Generation Algorythm Considering Global Variance for HMM-Based Speech Synthesis // IEICE Trans. Inf. & Syst.
- May 2007. - Vol. E90-D. - No. 5. - P. 816-824.
116. Smirnova N., Chistikov P. Statistics of Russian Monophones and Diphones // SPECOM 2011 International Conference. - 2011.
117. Solomcnnik A., Chistikov P. Automatic generation of text corpora for creating voice databases in a Russian text-to-speech system // Сборник «Компьютерная лингвистика и интеллектуальные технологии». - 2012. - Вып. 11(18).
- С. 607-615.
118. Корольков Е, Главатских И., Киселев В., Опарин И., Таланов А. Синтез естественной русской речи при помощи метода Unit Selection // Компьютерная лингвистика и интеллектуальные технологии. - 2009. - Вып. 8(15).
119. Leggetter С., Woodland P. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models // Computer Speech and Language. - 1995. - No. 9. - P. 171-185.
120. Yamagishi J.,Kobayashi T. Adaptive training for hidden semi-Markov model // In Proc. ICASSP 2005. - March 2005. - P. 365-368.
121. Yamagishi J., Tamura M., Masuko T., Tokuda K., Kobayashi T. A training method of average voice model for HMM-based speech synthesis // IEICE Trans. Fundamentals. - August 2003. - No. E86-A(8). - P. 1956-1963.
122. Rahim M., Juang B. Signal bias removal by maximum likelihood estimation for robust telephone speech recognition // IEEE Trans. Speech Audio Processing.
- January 1996. - No. 4. - P. 19-30.
123. Neumcyer L., Digalakis V., Weintraub M. Training issues and channel equalization techniques for the construction of telephone acoustic models using a high-quality speech corpus // IEEE Trans. Speech Audio Processing. -October 1994. - No. 2. - P. 590-597.
124. Shinoda K, Watanabe T. Speaker adaptation with autonomous control using tree structure //In Proc. EUROSPEECH-95. - September 1995. - P. 1143-1146.
125. Shinoda K., Watanabe T. Speaker adaptation with autonomous model complexity control by MDL principle //In Proc. ICASSP-96. - May 1996.
- P. 717-720.
126. Shinoda K., Lee C. A structural Bayes approach to speaker adaptation // IEEE Trans. Speech Audio Process. - March 2001. - No. 9. - P. 276-287.
127. Shiohan O., Myrvoll T., Lee C. Structural maximum a posteriori linear regression for fast HMM adaptation // Computer Speech and Language. -2002. - No. 16(3). - P. 5-24.
128. Digalakis V., Neumcyer L. Speaker adaptation using combined transformation and Bayesian methods // IEEE Trans. Speech Audio Processing. - July 1996.
- No. 4. - P. 294-300.
129. Chicn J., Wang H., Lee C. Improved Bayesian learning of hidden Markov models for speaker adaptation //In Proc. ICASSP-97. - April 1997. - P. 1027-1030.
130. Yamagishi J. Average-Voicc-Bascd Speech Synthesis // Ph.D. Thesis. - March
131. Rabiner L. A Tutorial on Hiden Markov Models and Selected Applications in Speech Recognition // Proceedings of the IEEE. - 1989. - Vol. 77. - No. 2. -P. 257-286.
132. Hemptinne C. Integration of the Harmonic plus Noise Model (HNM) into the Hidden Markov Model-Based Speech Synthesis System (HTS) // Master Thesis. - Switzerland. - June 2006.
2006.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.