Разработка эффективных методов и комплексов программ распознавания речи в системах человеко-машинного взаимодействия тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Гребнов, Сергей Викторович
- Специальность ВАК РФ05.13.18
- Количество страниц 120
Оглавление диссертации кандидат технических наук Гребнов, Сергей Викторович
ВВЕДЕНИЕ.
Глава 1. АНАЛИЗ СУЩЕСТВУЮЩИХ МЕТОДОВ ПОСТРОЕНИЯ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ И ГОЛОСОВОГО УПРАВЛЕНИЯ.
1.1. Введение.
1.2. Восприятие устной речи.
1.3. Общая структура распознающей системы.
1.4. Методы спектрального представления речевого сигнала.
1.5. Алгоритмы распознавания речи.
1.5.1. Алгоритмы распознавания слитной речи.
1.5.2. Распознавание речи на основе СММ.
1.5.3. Методы голосового управления на основе СММ.
1.5.3.1. Метод скользящего окна.
1.5.3.2. Метод моделей-заполнителей.
1.5.3.3. Анализ рассмотренных методов.
1.6. Выводы.
Глава 2. ГИБРИДНЫЙ МЕТОД РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД.
2.1. Введение.
2.2. Применение ключевой фразы в распознавании речевых команд.
2.3. Двухуровневая модель речевой команды.
2.4. Гибридный метод распознавания речевых команд.
2.5. Выводы.
Глава 3. АЛГОРИТМ ОГРАНИЧЕННОГО ПЕРЕБОРА, ОСНОВАННЫЙ НА КОМПЛЕКСНОЙ ФУНКЦИИ ПРАВДОПОДОБИЯ.
3.1. Введение.
3.2. Алгоритм ограниченного перебора.
3.3. Функция правдоподобия на основе оптимальных порогов.
3.4. Комплексная функция правдоподобия.
3.5. Выводы.
Глава 4. РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТОВ И ПРАКТИЧЕСКОГО ПРИМЕНЕНИЯ
4.1. Введение.
4.2. Архитектура экспериментальной системы.
4.2.1. Шумоочистка.
4.2.2. Детектор голоса.
4.2.3. Спектральный анализ.
4.2.4. Распознавание.
4.3. Речевая База Данных.
4.4. Выбор языков и инструментальных средств для создания системы.
4.5. Проведение экспериментов.
4.5.1. Тестируемые модификации системы.
4.5.2. Обучающая и контрольная выборки.
4.5.3. Способ изм ерения эффективности методов.
4.5.4. Результаты экспериментов.
4.6. Реализация результатов исследований.
4.6.1. Программный комплекс голосового управления роботом Lego Mindstorms NXT
4.6.2. Система голосового управления видео архивом.
4.7. Выводы.
Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд2010 год, кандидат технических наук Гладышев, Константин Константинович
Построение математического обеспечения систем распознавания речи на основе нелинейных методов сравнения образов1984 год, кандидат технических наук Туркин, Виктор Николаевич
Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи2010 год, кандидат технических наук Нгуен Ван Хунг
Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах2008 год, кандидат технических наук Синецкий, Роман Михайлович
Модели и программная реализация распознавания русской речи на основе морфемного анализа2007 год, кандидат технических наук Карпов, Алексей Анатольевич
Введение диссертации (часть автореферата) на тему «Разработка эффективных методов и комплексов программ распознавания речи в системах человеко-машинного взаимодействия»
Одним из перспективных способов организации человеко-машинного взаимодействия является передача компьютерной системе инструкций пользователя в формате речевых команд. Голосовой интерфейс является необходимой компонентой, когда речь идет о создании комфортных условий жизни для людей с нарушениями опорно-двигательного аппарата. Такие системы со временем войдут в повседневный быт в процессе реализации концепции так называемых «умных домов». Кроме того, возможно их применение и на производстве в составе комплексов управления исполнительными механизмами.
В развитие этого научного направления внесли вклад такие ученые, как Рабинер, заложивший научные основы распознавания речи статистическими методами, Wilpon, Lee, Higgins, внесшие существенный вклад в развитие методов распознавания речевых команд, Винцюк, Карпов, Ронжин, занимающиеся распознаванием слитной русской речи. Анализ их работ позволил установить, что дня организации человеко-машинного взаимодействия при помощи речевых команд система распознавания речи (СРР) должна отвечать следующим требованиям:
• Возможность работы в режиме реального времени.
• Достаточное качество распознавания (не менее 95% правильно распознанных команд в условиях отсутствия шумовой составляющей -соотношение сигнал/шум 25дБ).
• Расширяемость словаря СРР без перепрограммирования.
Последнее требование связано с тем, что для повышения надежности распознавания речи часто создаются системы с тщательно подобранным закрытым словарем команд, который включает точную настройку грамматических конструкций и подбор специальных слов в составе команд. Однако расширение 5 или изменение словаря команд подобных систем может быть выполнено лишь силами разработчиков СРР и связано с дополнительными временными и финансовыми затратами.
Существующие методы распознавания голосовых команд не отвечают всем заявленным требованиям. Это обстоятельство определяет актуальность исследований в этом направлении.
Объект исследования — речевой сигнал.
Предмет исследования - модели, методы и алгоритмы распознавания речи в системах человеко-машинного взаимодействия.
Цель диссертационной работы — повышение эффективности и качества распознавания речи в СРР с динамически расширяемым словарем команд.
Задачи исследования.
1. Анализ существующих моделей, методов и алгоритмов распознавания речи с целью выявления степени их соответствия современным требованиям и выбора прототипов для собственных исследований.
2. Разработка моделей, методов, и алгоритмов распознавания речи, обеспечивающих достижение следующих показателей распознавания голосовых команд:
- скорость работы, достаточная для использования в режиме реального времени (в два раза быстрее режима реального времени для словаря в 10 команд);
- высокое качество распознавания (95% правильно распознанных речевых команд в условиях отсутствия шумовой составляющей - соотношение сигнал/шум 25дБ);
- легкость модификации словаря команд: возможность добавления новых слов и команд без перепрограммирования системы.
3. Программная реализация предлагаемых алгоритмов и проведение экспериментальных исследований, подтверждающих их эффективность. б
Методы исследований. В работе использовались методы теории вероятности, теории случайных процессов, математического анализа, цифровой обработки сигналов, спектрального анализа Фурье, теории оптимизации (динамическое программирование) и теории формальных языков.
Научная новизна.
1. Предложен гибридный метод распознавания речевых команд. Новизна метода заключается в поэтапном использовании алгоритмов распознавания слитной речи и ключевых слов, применяемых к разным частям команды.
2. Для распознавания ключевых слов разработан алгоритм ограниченного перебора множества путей в скрытой марковской модели (СММ), новизной которого является отсечение путей не на заключительном этапе, а в процессе их распознавания, что позволяет значительно сократить пространство поиска.
3. Предложены новые функции правдоподобия, используемые алгоритмом ограниченного перебора для отсечения неперспективных вариантов: функция правдоподобия на основе оптимальных порогов и комплексная функция правдоподобия. Функция правдоподобия на основе оптимальных порогов отличается тем, что учитывает не только длину пройденного пути в СММ, но и конкретные фонемы, пройденные этим путем. Комплексная функция правдоподобия, в дополнение к этому, оценивает соответствие всех промежуточных состояний пути в СММ локальному критерию правдоподобия с общим для всех фонем порогом.
Обоснованность положений диссертации обеспечивается корректным использованием математических методов. Достоверность подтверждается результатами экспериментов на реальном речевом материале.
Практическая ценность результатов. Применение предложенного метода распознавания по сравнению с подходом, использующим единый метод распознавания, позволяет:
- ослабить зависимость скорости распознавания от количества слов в словаре команд;
- использовать команды, которые плохо распознаются алгоритмом распознавания ключевого слова.
Применение разработанного алгоритма распознавания ключевых слов с использованием предложенных функций правдоподобия позволяет повысить вычислительную эффективность распознавания за счет раннего отсечения неперспективных вариантов.
Реализация результатов исследований. Разработанные модели, методы и алгоритмы были использованы при построении программного комплекса голосового управления роботом Lego Mindstorms NXT на кафедре Электроники и микропроцессорных систем ИГЭУ (лабораторная работа «Изучения методов человеко-машинного взаимодействия на основе голосового управления», предмет «Электромеханотроника», 5 курс, специальность 210106 «Промышленная электроника»), а также внедрены в составе проекта «Системы безопасности помещений и личности на базе компьютерного интеллекта» ООО «НИИ Спецлаб». Проведен ряд экспериментов, показавших возможность практического использования предложенных методов. Потенциальная область применения, обусловленная характеристиками разработанных методов, включает сферу управления техническими устройствами различного назначения при производственной и бытовой деятельности.
Апробация работы. Полученные в работе научные и практические результаты докладывались и обсуждались на XV Международной научно-технической конференции «Бенардосовские чтения» и IX Международной научной конференции «Теоретические основы энерго-ресурсосберегающих процессов, оборудования и экологически безопасных производств».
Публикации по материалам диссертации - 9 печатных работ, в том числе три в журналах, рекомендованных ВАК РФ. Получено 1 свидетельство об официальной регистрации программы для ЭВМ в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам (Роспатенте); свидетельство №2010615606 (зарегистрировано 30.08.2010).
Структура и объём работы. Диссертация состоит го введения, четырех глав, заключения, пяти приложений и библиографического списка из 122 наименований. Общий объём работы составляет 120 страниц, в том числе 19 рисунков и двух таблиц.
Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Система автоматического распознавания речевых команд для параллельных архитектур2005 год, кандидат технических наук Сапунов, Григорий Владимирович
Методы и модели распознавания русской речи в информационных системах2014 год, кандидат наук Гусев, Михаил Николаевич
Разработка и исследование алгоритмов распознавания речи для голосового управления через телефонную сеть2001 год, кандидат технических наук Кисельман, Бронеслав Арнольдович
Разработка адаптивного метода робастного понимания слитной речи на основе интегральной обработки данных2003 год, кандидат технических наук Ронжин, Андрей Леонидович
Разработка алгоритмов для распознавания речи1999 год, кандидат технических наук У Вэньцань
Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Гребнов, Сергей Викторович
4.7. Выводы
В данной главе диссертационной работы рассмотрены программная реализация предлагаемых алгоритмов и методов, а так же проведены экспериментальные исследований их эффективности.
В экспериментах приняли участие следующие модификации распознающего модуля:
1) VI «Метод скользящего окна».
2) V2a «Метод ограниченного перебора, базовый».
3) V2b «Метод ограниченного перебора, основанный на оптимальных порогах».
4) V2c «Метод ограниченного перебора, основанный на комплексной функции правдоподобия».
Проведенные эксперименты показали, что разработанный метод ограниченного перебора работает быстрее метода скользящего окна в 5 (V2c) - 8 (V2b) раз. Кроме этого, двухуровневая структура речевой команды позволяет добиться 40-кратного преимущества в скорости на словаре в 10 команд. Это
86 обусловлено тем, что для словаря в 10 команд алгоритм распознавания ключевого слова все равно применяется только лишь для одного специально введенного слова. Результаты так же показали значительное преимущество разработанного алгоритма в плане качества распознавания: 86.1% /5% (VI) против 98% /0.01% (V2c). Такое значительное преимущество обусловлено в первую очередь использованием единственного ключевого слова для распознавания. Кроме этого, использование собственных порогов для каждой из фонем позволило сократить ошибку распознавания на 51% и снизить количество ложных срабатываний в 10 раз (V2b). Дальнейшее улучшение алгоритма за счет применения локальных порогов позволило за счет увеличения времени работы на 30% добиться дальнейшего сокращения ошибки распознавания на 46%.
В итоге, программная реализация предлагаемых алгоритмов и методов, а так же проведенные экспериментальные исследования подтвердили превосходство разработанного алгоритма над методом скользящего окна в плане скорости и качества распознавания. Среди различных модификаций наилучшие результаты показал метод V2c «Метод ограниченного перебора, основанный на комплексной функции правдоподобия».
Проведенное же практическое внедрение метода ограниченного перебора, основанного на комплексной функции правдоподобия, в составе проекта «Системы безопасности помещений и личности на базе компьютерного интеллекта» ООО «НИИ Спецлаб» подтвердило его высокую скорость, качество распознавания при одновременной возможности модификации словаря команд без перепрограммирования системы.
ЗАКЛЮЧЕНИЕ
Исследование проблем автоматического понимания/распознавания речи является важным фундаментальным направлением. Для снижения вероятности неправильного распознавания часто создаются специализированные системы с тщательно подобранным закрытым словарем команд, который включает точную настройку грамматических конструкций и подбор специальных слов в составе команд. С другой стороны, подобные системы подвержены следующему недостатку - расширение или изменение словаря команд требует привлечения компании-разработчика, проведения дополнительных работ и исследований, что увеличивает сроки и стоимость решения. Таким образом, данная работа в первую очередь направлена на создание алгоритмов и методов, которые бы позволили модифицировать словарь команд без перепрограммирования системы, при этом обладали высокой скоростью и качеством работы.
Исследование современных методов построения систем распознавания речи позволило выделить основные компоненты (модули) систем распознавания речи, а так же сделать вывод, что распознавание слитной речи успешно решается с помощью вероятностного подхода на основе скрытых Марковских моделей;
Дальнейший анализ существующих подходов распознавания, применяемых в системах голосового управления (метод скользящего окна и метод моделей заполнителей) позволил: а) определить основные недостатки существующих методов: первый метод имеет большую вычислительную сложность, качество распознавания существенно варьируется в зависимости от фонетического состава слова, второй - требует подробного дополнительного моделирования посторонней речи, что не дает возможности динамически изменять словарь команд;
Ь) определить перспективные направления для собственной разработки: создание нового метода распознавания речевых команд на основе использования локальных мер сходств;
В результате был разработан, реализован и экспериментально исследован комплекс моделей, методов и алгоритмов распознавания речи в системах человеко-машинного взаимодействия:
1. Предложен метод распознавания речевых команд, обеспечивающий расширяемость словаря команд и улучшение качества распознавания за счет поэтапного использования алгоритмов распознавания слитной речи и ключевых слов, применяемых к разным частям команды.
2. Разработан алгоритм распознавания ключевого слова, реализующий ограниченный перебор на основе эффективной комплексной функции правдоподобия. Алгоритм обеспечивает повышение вычислительной эффективности и качества распознавания речи.
3. Разработанные модели, методы и алгоритмы реализованы в виде вычислительного комплекса, их преимущества подтверждены экспериментально.
Список литературы диссертационного исследования кандидат технических наук Гребнов, Сергей Викторович, 2010 год
1. Роижин A. Л., Ли И. В. Автоматическое Распознавание Русской Речи. Вестник Российской академии наук, 2007, том 77, № 2, с. 133-138.
2. Stuart N. Wrigley. Speech Recognition by Dynamic Time Warping. // http://www.dcs.shef.ac.uk/~stu/com326/index.html
3. Кисля ков, С. В. Разработка и исследование метода распознавания фонем русского языка на основе аппарата линейного предсказания : Дис. . канд. техн. наук : 05.12.13 СПб, 2004.
4. Чистович Л.А., Венцов А.В., Гранстрем М.П. Физиология речи. Восприятие речи человеком. JI., "Наука", 1976, 388 с.
5. Rose R. Robust speech recognition techniques applied to a speech in noise task. European Conference on Speech Communication and Technology, Aarlborg, Denmark, 3-7 Sept. 2001.
6. Ahadi S. An Efficient front-end for automatic speech recognition. IEEE Trans, on Speech and Audio Processing, 2003.
7. Блеихут P. Быстрые алгоритмы цифровой обработки сигналов: Пер. с англ.-М.: Мир, 2002.
8. Гольденберг Л.М. и др. Цифровая обработка сигналов: Справочник,-М.: Радио и связь, 2007.
9. Рабинер Д., Гоулд Б. Теория и применение цифровой обработки сигналов.-М.: Мир, 2005.
10. Курочкин С.Н., Бродин А.Г. Проблемы создания многоуровневой системы распознавания речи // Автоматизация и управление в машиностроении. -1997. -№1.
11. S. Davis and P. Mermelstein. Comparison of parametric representation for monosyllable word recognition in continuously spoken sentences. IEEE Transactionson Acoustics, Speech, and Signal Processing, 28:357-366, Aug 1980.
12. European Telecommunications Standards Institute. ES 201 108 Distributed Speech Recognition Encoding. Proceedings of ETSI, 2003.
13. Parihar N. Performance analysis of advances front ends on the Aurora LV evaluation. M.S. Dissertation, Mississippi State University. 2003.
14. Кос A. Acoustic feature analysis for robust speech recognition. M.S. Thesis, Bilkent University, 2002.
15. Бондарко JI. В. Фонетика и лингвистика (к 65-летию кафедры фонетики) // Язык и речевая деятельность 98, т. 1, СПб, 1998. с. 260.
16. J. J. Verbeek. Efficient Greedy Learning of Gaussian Mixture Models, Neural Computation, 5(2), pp. 469-485, Feb 2003.
17. Гребное, С. В. Аналитический обзор методов распознавания речи в системах голосового управления // Вестник ИГЭУ. Б.м.— 2009. - Вып. 3. - С. 83-85. - (Информационные системы и технологии). - Библиогр.: с. 85 (12 назв.).
18. ООО "Спецлаборатория", http://www. goal.ru.
19. Russian SAMP А, http://www.phon. ucl. ac.uk/home/samva/russian. htm.
20. SPEECHDAT Project, hftp://www.speechdat.ors/SpeechDat.html
21. Ошибки первого и второго рода, http://en.wikipedia.ors/wiki/Typel and type II errors
22. Brown C.D., and Davis, H.T. Receiver operating characteristic curves and related decision measures: a tutorial, Chemometrics and Intelligent Laboratory Systems, pp. 24-38, 2006.
23. Гребное, С. В. Методы шумоочистки в задачах распознавания речи. /110
24. С. В. Гребнов // Тезисы докладов Международной научно-технической конференции "Состояние и перспективы развития электротехнологии" (XV Бенардосовские чтения), 27-29 мая / Федеральное агенство по образованию, ИГЭУ. Иваново.- 2009. - Т.1 - С. 60-61.
25. Martin, R. Statistical methods for the enhancement of noisy speech. International Workshop on Acoustic Echo and Noise Control, 2003.
26. Rangachari, S. Noise estimation algorithms for highly non-stationary environments. Theses in Speech Processing Lab at UT-Dallas, 2004.
27. Acero, A. Acoustical and environmental robustness in automatic speech recognition. Ph.D. Thesis, Carnegie. Mellon University, 1990.
28. Stern, R. New directions in robust speech recognition. International Conference on Spoken Language Processing, 2006.
29. Cohen, I. Noise spectrum estimation in adverse environments: Improved MCR. Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP, 2003.
30. Ephraim, Y. Speech enhancement using MMSE LSA estimator. Proceedings of the IEEE, 1985.
31. Cohen, I. On speech enhancement under signal presence uncertainty. Proceedings of the 26th IEEE International Conference on Acoustics, Speech, and Signal Processing, 2001.
32. Стефанов A.M., Стефанова И. А. Эффективное использование интегрирующей способности слуха при цифровой обработке сигналов. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.
33. Cariani P. Temporal codes, timing nets, and music perception // Journal of New Music Research, 2001. Vol. 30. - pp. 107-135.
34. Вокодерная телефония. Методы и проблемы / Под ред. А. А. Пирогова.111-М.: "Связь", 1974.-536 с.
35. Picone J. Signal Modeling Techniques In Speech Recognition. Proc. of the IEEE. 1993.
36. Rabiner L.R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. In Рос. of the IEEE, vol. 77, no 2, pp. 257 286.
37. Методы автоматического распознавания речи / под ред. У. Ли. т.1, т. 2.-М.: Наука, 1983.
38. Гребнов, С. В. Двухуровневый метод распознавания голосовой команды // Вестник ИГЭУ. Б.м.- 2009. - Вып. 3. - С. 90-93. -(Информационные системы и технологии). - Библиогр.: с. 93 (14 назв.).
39. Voice Activity Detection, http://www.acm.org/crossroads/xrdsl3-4/voicedetection.html
40. Nemer E. S. Robust voice activity detection using higher-order statistics in the LPC residual domain, IEEE Transactions on Speech and Audio Processing, 9, 3 (2001), pg. 217-231.
41. Parsons, T. W., Voice and Speech Processing, McGraw-Hill Inc., 1987.
42. Уоссермен Ф. Нейрокомпьютерная техника. 1992.-230 с.
43. Рассел С., Норвиг П. Искусственный интеллект: современный подход. -М.: Изд. Дом «Вильяме», 2006. 1408 с.
44. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. М.: Радио и связь, 1981. - 496с.
45. Маркел Дэ/с.Д., Грэй А.Х. Линейное предсказание речи. М.: Связь, 1980. -308с.
46. Bahl L.R. and Jelinek F. Decoding for channels with insertions, deletions, and substitutions with applications to speech recognition // IEEE Trans. Informat. Theory. 1975. Vol. IT-21, pp. 404-411.
47. Baker J.K. The DRAGON system An overview // IEEETrans. on Acoust. Speech Signal Process. 1975. Vol. ASSP-23. No. 1. pp. 24-29
48. Baum L.E., Peine T. Statistical inference for probabilistic functions of finite state Markov chains//Ann. Math. Stat. 1966. Vol.37, pp. 1554-1563.
49. Baum L.E., Egon J.A. An inequality with applications to statistical estimation for probabilistic functions of a Markov process and to a model for ecology // Bull. Amer. Meteorol. Soc. 1967. Vol. 73. pp. 360-363.
50. Baum L.E., Petrie T., Soldes G., and Weiss N. A maximization technique occuring in the statistical analysis of probabilistic functions of Markov chains // Ann. Math. Stat. 1970. Vol 41. No. 1. pp. 164-171.
51. Елинек Ф. Распознавание непрерывной речи статистическими методами//ТИИЭР. 1976. Т. 64. №4. С. 131-160.
52. Jelinek F. A fast sequential decoding algorithm using a stack // IBM J. Res. Develop., 1969. Vol. 13. pp. 675-685.
53. Jelinek F., Bahl L.R., and Mercer R.L. Design of a linguistic statistical decoder for the recognition of continuous speech //IEEE Trans. Informat. Theory, 1975. Vol. IT-21. pp. 250-256.
54. Левинсон С. E. Структурные методы автоматического распознавания речи//ТИИЭР. 1985. О. 73. Т 11. N. 100-128.
55. Levins on S. E., Rabiner L.R., and Sondhi M.M. An introduction to the application of the theory of probabilistic function of a Markov process to automatic speech recognition // Bell Syst. Tech. Journal, Apr. 1983. Vol. 62, no.4, pp. 1035-1074.
56. Dempster A.P., Laird N.M., and Rubin D.B. Maximum likelihood fromincomplete data via the EM algorithm // J. Roy. Stat. Soc. 1977. Vol. 39, No. 1. pp. 1114
57. Paul D.B., Baker J.К., Baker J.M. On the interaction between true source, training and testing language models // IEEE ICASSP 1991. pp. 569-572.
58. Bourlard H., Morgan N. Connectionist Speech Recognition. A Hybrid Approach I I The Kluwer International Series in Engineering and Computer Science, Vol. 247, Kluwer Academic Publishers, Boston, 1994.
59. Голосовое управление, http://ru.wikipedia■org/wiki/Гoлocoвoevпpaвлeниe
60. Расширенная форма Бэкуса — Наура, http://ru.wikipedia.org/wiki/Pacшиpeннaя форма Бэкус Наура
61. Xhenyu X. Comparison and combination of confidence measures in IWR. ISCSLP, 2002.
62. Hazen, T. Recognition confidence scoring and its use in speech understanding systems. Computer Speech and Language , 2002.
63. Mengusoglu E. Use of acoustic prior information for confidence measure in ASR. European Conference on Speech Communication Technology. 2005.
64. Bridle J. An efficient elastic template method for detecting given words in running speech. British Acoustical Society Meeting, Apr. 1973.
65. Higgins A. Keyword recognition using template concatenation. Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP, 1985.
66. В. Я. Чучупал. Выделение незнакомых слов и акустических событий при распознавании речи // Модели, методы, алгоритмы и архитектуры системраспознавания речи, 2006, стр. 119-137.115
67. Афанасьев ИМ. Вейвлет-анализ: основы теории и параметры применения // Успехи физтческих наук, т. 166, №11, 1996,- С. 1145-1170.
68. Дьяконов В. П. Вейвлеты. От теории к практике. М.: СОЛОН-Р, -2002.-448 с.
69. Моттлъ В.В., Мучник И.Б. Скрытые марковские модели в структурном анализе сигналов. М.: Физматлит, 1999, 352 с.
70. McCu/loch W. S., Pitts W. Н. A logical calculus of ideas immanent in nervous activity//Bull. Math. Biophysics, 1943. Vol. 5. pp. 115-119.
71. Lippmann R.P. Review of neural networks for speech recognition 11 Neural computing, 1989. l.pp. 1-38.
72. Rosenblatt F. Principles of Neurodynamics // Spartan Books, New York, 1959.
73. Rahim M. R. Artificial Neural Networks for Speech Analysis/Synthesis // Chapman&Hall, 1994.
74. MinskyM., PapertS. Perceptrons // Cambridge: MIT Press. 1969.
75. Цыптн Я. 3. Обучение и адаптация в автоматических системах // М.: Наука, 1968. 400с.
76. Waibel A., Hanazawa Т. Phoneme Recognition Using Time-Delay Neural Networks // IEEE Transaction on Acoustic Speech Signal Processing Vol. 37, 1989, pp. 328-339.
77. Almeida L.B. A Learning Rule for Asynchronous Perceptrons with Feedbackin a Combinatorial Environment // In: 1st International Conference on Neural Networks.1161.EE. 1987.11-609.
78. Бендат Дж., Пирсол А. Прикладной анализ случайных данных. М.: Мир,-1989. -540 с.
79. Введение в цифровую фильтрацию / Под. ред. Р. Богнера, А. Константинидиса. -М.: Мир, 1976.-216 с.
80. Дженкинс Г., Ватте Д. Спектральный анализ и его приложения, т.1, т. 2 — М.: Мир, 1983
81. ДюранБ., Одел П. Кластерный анализ. -М.: Статистика, 1977, 128 с.
82. Кастелъянс Г., Кочетков Ю.А., Суарез X. Цифровая обработка речевых сигналов для их классификации. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.
83. Патрик Э. Основы теории распознавания образов. М.: Сов. радио, 1980.— 480 с.
84. Пересада В. Автоматическое распознавание образов. Л.: Энергия, 1970. — 92 с.
85. Fu-Hua Liu. Environmental Adaptation for Robust Speech Recognition. The Ph. D. thesis. Carnegie Mellon University. USA. 1994.
86. Richard C. Rose, Douglas B. Paul. A hidden markov model based keyword recognition system. IEEE. ICASSP 90, vol. 1, pp. 129-132, Apr. 1990.
87. Goodwin M.M. Adaptive Signal Models: Theory, Algorithms, and Audio Applications. The Ph. D. thesis. University of California. USA. 1997.
88. Morena P. Speech Recognition in Noisy Environments. The Ph. D. diesis. Carnegie Mellon University. USA. 1996.
89. Сергиенко А.Б. Цифровая обработка сигналов. СПб.: Питер, 2003. -608 с.
90. Brown D, Golod D. Decoding HMMs using the k best paths: algorithms andapplications. Cheriton School of Computer Science, University of Waterloo, 2010117
91. Churbanov A, Winters-Hilt S. Implementing EM and Viterbi algorithms for Hidden Markov Model in linear memory. The Research Institute for Children, 2008.
92. Steve Young. The application of hidden Markov models in speech recognition. Foundations and Trends in Signal Processing archive Volume 1 , Issue 3 (Januaiy 2008). Pages: 195-304.
93. J. A. Bilmes, "Graphical models and automatic speech recognition" in Mathematical Foundations of Speech and Language: Processing Institute of Mathematical Analysis Volumes in Mathematics Series, Springer-Verlag, 2003.
94. S. S. Chen and R. Gopinath, "Gaussianization," in NIPS 2000, Denver, CO, 2000.
95. S. S. Chen and R. A. Gopinath, "Model selection in acoustic modelling," in Proceedings of Eurospeech, pp. 1087-1090, Rhodes, Greece, 1997.
96. L. Deng, A. Acero, M. Plumpe, andX. D. Huang, "Large-vocabulary speech recognition under adverse acoustic environments," in Proceedings of ICSLP, pp. 806809, Beijing, China, 2000.
97. V. Diakoloukas and V. Digalakis, "Maximum likelihood stochastic transformation adaptation of hidden Markov models," IEEE Transactions on Speech and Audio Processing, vol. 7, no. 2, pp. 177-187, 1999.
98. G. Evermann and P. C. Woodland, "Posterior probability decoding, confidence estimation and system combination," in Proceedings of Speech Transcription Workshop, Baltimore, 2000.
99. W. Macherey, L. Haferkamp, R. Schlüter, and H. Ney, "Investigations on error minimizing training criteria for discriminative training in automatic speech recognition," in Proceedings of Interspeech, Lisbon, Portugal, September 2005.
100. M. J. P. Gales, "Cluster adaptive training of hidden Markov models," IEEE Transactions on Speech and Audio Processing, vol. 8, pp. 417-428, 2000.
101. R. Gopinath, "Maximum likelihood modeling with Gaussian distributions118for classification," in Proceedings oflCASSP, pp. 11-661-11-664, Seattle, 1998.
102. D. Povey, Discriminative Training for Large Vocabulary Speech Recognition. PhD thesis, Cambridge University, 2004.
103. G. Saon, A. Dharanipragada, and D. Povey, "Feature space Gaussianization," in Proceedings of ICASSP, Montreal, Canada, 2004.
104. M. J. F. Gales, "Discriminative models for speech recognition," in ITA Workshop , University San Diego, USA, February 2007.
105. Timothy J.Hazen, Stephanie Seneff and Joseph Polifroni. Recognition confidence scoring and its use in speech understanding systems,Computer Speech and Language, 2002, 16, 49-67.
106. Sui. M, Gish, H. Evaluation of word confidence for speech recognition systems. Computer Speech and Language, 1999, 13,299-319.
107. Bazzi, I, Glass, J. Modeling out of vocabulary words for robust speech recognition. Proc. ICASSP 2000, Beijing, China, Vol. 1, pp.401-404.
108. Microsoft Decentralized Software Services, http://www.microsoft.com/robotics/
109. И. Б. Тампелъ, M. Ю. Татарникова. Использование технологий распознавания звуковых образов в мультимедийных приложениях. http://www.evarussia.ru/upload/dok1ad/doklad 198.rtf
110. Система автоматического распознавания речи «ГОРЫНЫЧ» http://www.rusdoc.ru/material/manual/gor/gor.html
111. Dragon NaturallvSpeaking, http://www.nuance.com/dragon/index.htm
112. Windows Speech Recognition, http:/Avww.microsoft.com/enable/products/windowsvista/speech.aspx
113. IBM ViaVoice for Windows Standard EditionUser's Guide ftp://ftp.scansoft.com/files/suppoit/manuals/ViaVoiceUSStnd.pdf
114. Home Automated Living (HAL), http://www.automatedliving.com/
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.