Преобразование речи в текст. Фонемный подход тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат технических наук Медведев, Максим Сергеевич

  • Медведев, Максим Сергеевич
  • кандидат технических науккандидат технических наук
  • 2007, Красноярск
  • Специальность ВАК РФ05.13.17
  • Количество страниц 111
Медведев, Максим Сергеевич. Преобразование речи в текст. Фонемный подход: дис. кандидат технических наук: 05.13.17 - Теоретические основы информатики. Красноярск. 2007. 111 с.

Оглавление диссертации кандидат технических наук Медведев, Максим Сергеевич

Введение.

Актуальность проблемы.

Цель работы.

Методы исследования.

Научная новизна.

Практическая ценность.

Апробация работы.

Публикации.

Структура работы.

1 Анализ способов построения систем распознавания речи.

1.1 Сравнительные характеристики систем распознавания речи.

1.2 Особенности русской речи.

1.3 Выбор единицы распознавания.

1.4 Подходы к построению систем распознавания речи.

1.4.1 Функциональный подход.

1.4.2 Нейросетевой подход.

2 Система преобразования речи в текст.

2.1 Акустическая составляющая системы.

2.1.1 Ввод речевого сигнала.

2.1.2 Предварительная обработка сигнала.

2.1.3 Вычисление признаков речевого сигнала.

2.2 Лингвистическая составляющая системы.

2.2.1 Алгоритм формирования фонетической формы слова на основе вероятностей сочетаний фонем русского языка.

2.2.2 Алгоритм формирования грамматической формы слова.

2.3 Вероятностно-нейросетевая система "Речь-текст".

3 Исследование моделей фонем.

3.1 Классификация фонем.

3.2 Модель фонемы на основе гомоморфного анализа

3.2.1 Модель образования речи.

3.2.2 Кепстральный анализ речевого сигнала.

3.3 Модель фонемы на основе вейвлет-преобразования.

3.3.1 Вейвлет-преобразование речевого сигнала.

3.3.2 Выбор вейвлет-базиса.

3.3.3 Параметры модели фонемы на основе вейвлет-преобразования .66 4 Разработка программного обеспечения.

4.1 Среда разработки Matlab 7.

4.2 Особенности программной реализации системы "речь-текст".

4.3 Компоненты системы "речь-текст".

4.4 Создание базы данных фонем русского языка.

4.5 Оценка качества распознавания речи.

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Преобразование речи в текст. Фонемный подход»

Актуальность проблемы. Устная речь и сегодня остается самым оперативным и распространенным способом передачи информации в любой сфере человеческой деятельности, являясь основной формой выражения намерений, целей, желаний. Это продуктивный, естественный и удобный способ передачи информации. В современных компьютерных системах все больше внимания уделяется построению интерфейса речевого ввода-вывода, эффективность которого основана на практически неограниченных возможностях формулировки на естественном языке всевозможных задач в самых различных областях человеческой деятельности. Системы речевого ввода являются наиболее перспективными на сегодняшний день.

Существующие системы понимания речи пока еще значительно уступают речевым способностям человека, что свидетельствует об их недостаточной адекватности и ограничивает применение речевых технологий в промышленности и быту. Из имеющихся программных продуктов рынка систем распознавания речи лишь немногие поддерживают русский язык.

Разработка эффективных алгоритмов распознавания русской речи является ключевым моментов в решении задач:

- преобразования речи в текст,

- понимания речи,

- голосового управления,

- автоматического перевода,

- распознавания речи в телефонии (голосовые меню вместо набора цифр).

Исследованиям проблем распознавания речи занимаются: университет Карнеги Меллон (США), университет Иллинойс (США), Орегонский институт науки и технологий (США), Вычислительный центр РАН (Ю. И. Журавлев, В. Я. Чучупал), Институт проблем передачи информации РАН (В. Н. Сорокин), Институт математики СО РАН и Новосибирский государственный университет (Н. Г. Загоруйко и В. М. Величко),

Московский государственный университет им. М. В. Ломоносова (О. Ф. Кривнова), МГТУ им. Н. Э. Баумана (Ю. Н. Жигулевцев), Московский энергетический институт (А. И. Евсеев), Московский государственный лингвистический университет (Р. К. Потапова), Московский технический университет связи и информатики (Ю. Н. Прохоров), Санкт-Петербургский государственный университет (В. И. Галунов), Санкт-Петербургский институт информатики и автоматизации РАН. В данной области ведут исследования такие компании как IBM, Philips, Dragon Systems, Cognitive Technologies, Истрасофт, Сакрамент и др., что говорит об ее актуальности.

Цель. Основная цель работы заключается в исследовании моделей фонем русского языка, разработке методов и алгоритмов преобразования речи в текст, позволяющих сократить время обучения и повысить качество распознавания. Для решения поставленной задачи необходимо:

- систематизировать методы и алгоритмы, используемые для построения систем распознавания речи;

- провести сравнительный анализ характеристик существующих систем распознавания речи;

- организовать и сформировать обучающую выборку фонем русского языка;

- разработать архитектуру и алгоритмы вероятностно-нейросетевой системы преобразования речи в текст;

- выполнить программную реализацию системы преобразования речи в текст;

- оценить качество распознавания разработанной системы.

Методы исследования. Методы исследования связаны с цифровой обработкой сигналов, теорией нейронных сетей, временных рядов, теорией вероятности, математической статистикой и случайными процессами, фонологией и программированием.

Научная новизна.

1. Построена модель фонемы русского языка с использованием кратномасштабного вейвлет-преобразования (базис Добеши 8).

2. Разработаны алгоритмы построения грамматической формы слова с использованием вероятностей фонемных сочетаний русского языка, для корректного преобразования речи в текст.

3. Создана программная реализация вероятностно-нейросетевой системы преобразования речи в текст, основанной на фонемном подходе, не требующем дополнительного обучения системы при расширении словаря распознаваемых слов.

Практическая ценность. Созданные методы, алгоритмы и программные средства системы преобразования речи в текст являются практически значимыми. Разработанное программное обеспечение позволяет автоматизировать процесс ввода текстовой информации в ЭВМ, проводить экспериментальные исследования в области распознавания речи. База данных фонем русского языка может использоваться для разработки и экспериментальной оценки качества работы речевых приложений.

Апробация работы. Основные положения диссертации были представлены на семинаре ВЦ СОР АН г. Красноярск (2006), Всероссийской конференции молодых ученых по математическому моделированию и информационным технологиям (Новосибирск, 2004), Международной конференции "Системный анализ и информационные технологии" (Переславль-Залесский, 2005), Международной конференции молодых ученых «Информационные технологии в науке, образовании, телекоммуникации и бизнесе» (Украина, Крым, Ялта-Гурзуф, 2005), IV Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых "Молодежь и современные информационные технологии" г. Томск, 2006. Демонстрационные работы внедрены в учебный процесс.

Сведения о внедрении. Система преобразования речи в текст внедрена в учебный процесс в Красноярском Государственном Техническом Университете (акт о внедрении №190000/5126 от 18.12.2006).

Публикации. По результатам работы опубликованы статьи в Вестнике КрасГУ 2006'8, Вестнике СибГАУ 1(14) 2007, две статьи, депонированные в ВИНИТИ (рег.№ 1300- В2005, 1544-В2006), а также 7 докладов на Международных, Всероссийских и межвузовских конференциях.

Структура работы. Диссертационная работа состоит из введения, четырех глав, заключения и библиографического списка использованных источников. Она содержит 98 страниц основного текста, 37 рисунков и 10 таблиц, расположенных в тексте диссертации. Список литературы включает 100 наименований.

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Заключение диссертации по теме «Теоретические основы информатики», Медведев, Максим Сергеевич

Выводы. В четвертой главе описывалась созданная с использованием Matlab программная реализация системы «Речь-текст». Приведено подробное описание компонентов и возможностей созданного программного обеспечения. Освящен вопрос создания базы данных фонем русского языка с описанием ее структуры. Представлены данные экспериментов по исследованию зависимости времени обучения нейронной сети и коэффициента распознавания фонем от количества классов, измерялось среднее время преобразования слов в текст - 288 мс, что удовлетворяет среднему темпу речи и позволяет улучшить качество распознавания путем усовершенствования лингвистической составляющей системы, привлечения семантического и синтаксического анализа.

В результате экспериментальных исследований определялся коэффициент распознавания слов - 90,0%, что является хорошим показателем для существующих систем. Установлено, что использование вероятностей фонемных сочетаний русского языка позволяет повысить качество распознавания.

ЗАКЛЮЧЕНИЕ

В диссертации исследовались модели фонем русского языка. Выделены проблемы, требующие решения при построении системы преобразования речи в текст. Описан нейросетевой подход к решению поставленной задачи. Установлено, что наиболее предпочтительным для построения системы преобразования речи в текст является фонемно-ориентированный метод. Разработан эффективный способ получения признаков речевого сигнала фонем с помощью кратномасштабного вейвлет-преобразования (базис Добеши 8).

Создана вероятностно-нейросетевая система преобразования речи в текст, основанная на фонемном методе построения, не требующем дополнительного обучения системы при расширении словаря;

Разработан алгоритм формирования грамматической формы слова с использованием функции Левенштейна и вероятностей сочетаний фонем. Построена база данных эталонов фонем русского языка.

На основе представленных алгоритмов в среде Matlab 7 была разработана система преобразования речи в текст, позволяющая проводить экспериментальные исследования и оптимизацию разработанных методов и алгоритмов. Приведено подробное описание компонентов и возможностей созданного программного обеспечения. Эксперименты по определению качества работы системы показали, что коэффициент распознавания слов составил 90%. Небольшое значение среднего времени распознавания позволит улучшить качество распознавания путем усовершенствования лингвистической составляющей системы, привлечения семантического и синтаксического анализа.

На основе полученных результатов можно сделать выводы об возможности применения разработанной модели фонемы на основе вейвлет-анализа (базис Добеши 8) в задаче преобразования речи в текст.

Список литературы диссертационного исследования кандидат технических наук Медведев, Максим Сергеевич, 2007 год

1. Алексеев, В. Услышь меня, машина/В. Алексеев. //Компьютерра, 1997. -№49. - С.26-43.

2. Алексеев, П.М. Автоматизация подготовки словарей/П.М. Алексеев.-М., 1988.-С. 3-63.

3. Аракин, В.Д. Сравнительная типология английского и русского языков/В.Д. Аракин; 3-е изд. М.:Физматлит, 2005. - 231 с.

4. Астафьева, Н.В. Вейвлет-анализ: основы теории и примеры применения/Н.В. Астафьева //Успехи физич. наук. 1996. - №11. - С. 1145.

5. Барский, А.Б. Нейронные сети: распознавание, управление, принятие решений/А.Б. Барский. -М.:Финансы и статистика, 2004. 176 с.

6. Баскаков, С.И. Радиотехнические цепи и сигналы/С.И. Баскаков. -М.:Высш. шк., 2002. 214 с.

7. Беллами, Дж.К. Цифровая телефония: пер. с англ./Дж.К. Беллами. -М.:Эко-Трендз, 2004. 639 с.

8. Бернштейн, С.И. Словарь фонетических терминов/С.И. Бернштейн. -М.:Вост. лит., 1996.- 175 с.

9. Блаттер, К. Вейвлет-анализ. Основы теории/К. Блаттер. М.: Техносфера, 2004. - 280 с.

10. Бондарев, В.Н. Цифровая обработка сигналов: методы и средства/В.Н. Бондарев, Г. Трестер, B.C. Чернега. Севастополь: СевГТУ, 1999. -398 с.

11. Бондаренко, В.П. Исследование структуры речевых сигналов гласных звуков/В.П. Бондаренко, В.П. Коцубинский, И.О. Маркивский//Методы и алгоритмы автоматизации технологических процессов:сб.статей; под ред. В.П. Тарасенко. Томск, 1995. - С.72-81.

12. Бондарко, JI.B. Звуковая система русского языка в свете задач компилятивного синтеза/Jl.B. Бондарко, В.И. Кузнецов, П.А. Скрелин//Бюл. фонетического фонда рус. яз. 1997. - №6. - С 17-23.

13. Буря, А.Г. Информационная система для хранения и управления образцами оцифрованной речи/А.Г. Буря, А.В. Чекмарев//Научно-техническая конференция студентов, аспирантов и молодых специалистов МГИЭМ: тез. докл. М., 1999. - С. 57.

14. Васильев, В.В. Кепстральный анализ/В.В. Васильев, А.Н. Яковлев. -Новосибирск: НЭТИ, 1980. 26 с.

15. Вентцель, Е.С. Теория случайных процессов/Е.С. Вентцель. М.: Высш. шк., 2000. - 383 с.

16. Винцюк, Т.К. Анализ, распознавание и интерпретация речевых сигналов/Т.К. Винцюк. Киев: Нав. думка, 1987. - 264 с.

17. Галунов, В.И Речевые базы данных русского языка в рамках европейских программ "SPEECHDAT'/В.И. Галунов, Ю.Л. Кочанина, А.В. Остроухов//ЮО лет экспериментальной фонетике в России: матер, междунар. конф. СПб., 2001. - 192 с.

18. Гольдберг, J1.M. Цифровая обработка сигналов/Jl.М. Гольдберг, Б.Д. Матюшкин, М.Н. Поляк.- М.: Радио и связь, 1990. 256 с.

19. Губарев, В.В. Вероятностные модели/В.В. Губарев. -Новосибирск:НЭТИ, 1992 198 с.

20. Гультяев, А. Визуальное моделирование в среде Matlab/A. Гультяев. -СПб.: Питер, 2000.-432 с.

21. Диброва, Е. Т. Современный русский язык. Теория. Анализ языковых единиц: Фонетика и орфоэпия. Графика и орфография. Морфемика. Словообразование/Е.Т. Диброва. М.:Академия, 2006. - 480 с.

22. Добеши, И. Десять лекций по вейвлетам/И. Добеши; НИЦ «Регулярная и хаотическая динамика». Москва-Ижевск, 2001. - 464 с.

23. Дремин, И.М. Вейвлеты и их использование/И.М. Дремин, О.В. Иванов, В.А. Нечитайло//Успехи физич. наук. 2001. - №5. - С. 465500.

24. Дьяконов, В. MATLAB/B. Дьяконов.- СПб.: Питер, 2001. 560 с.

25. Дьяконов, В. П. Matlab 6.5 SP1/7/7 SP1/7 SP2 + Simulink 5/6. Инструменты искусственного интеллекта и биоинформатики/В.П. Дьяконов, В.В. Круглов. М.:Солон-Пресс, 2006. - 453 с.

26. Дьяконов, В.П. Вейвлеты. От теории к практике/В.П. Дьяконов. -М.:Солон-Пресс, 2004. 448 с.

27. Зверев, В.А. Численное моделирование случайных акустических сигналов/В. А. Зверев, Н.В. Литвак//Акуст. журн. 1999. -№56.-С. 807-815.

28. Земская, Е. А. Современный русский язык: Словообразование/Е.А. Земская. М.:Флинта, 2005. - 324 с.

29. Зиндер, JI.P. Общая фонетика /Л.Р. Зиндер. М.:Высш. шк., 1979. -251 с.

30. Зиновьева, Н.В. Прикладные системы с использованием фонетических знаний/Н.В. Зиновьева, О.Ф. Кривнова//Проблемы фонетики. М., 1993. - С. 16-35.

31. Иглин, И.Г. Математические расчеты на базе Matlab/С.П. Иглин. М.-СПб.:ВНУ, 2005. - 649 с.

32. Иконин, С.Ю. Система автоматического распознавания речи SPIRIT ASR Engine /С.Ю. Иконин, Д.В. Сарана/ДДифровая обработка сигналов. 2003. - №4. - С. 5-13.

33. Истомина, Т.В. Применение теории wavelets в задачах обработки информации/Т.В. Истомина, Б.В. Чувыкин, В.Е. Щеголев. Пенза: Изд-во Пенз. гос. ун-та, 2000. - 188 с.

34. Кинтцель, Т. Руководство программиста по работе со звуком/Т. Кинтцель. М.: ДМК пресс, 2000. - 432 с.

35. Кодзасов, С.В. Общая фонетика/С.В. Кодзасов, О.Ф. Кривнова. М.: РГГУ, 2001. - 592 с.

36. Колемаев, В.А. Теория вероятностей и математическая статистика/В .А. Колемаев. -М.:Инфра, 1997. 302 с.

37. Кормен, Т. Алгоритмы: построение и анализ/Т. Кормен, Ч. Лейзерсон, Р. Ривест. М.:МЦНМО, 1999. - 960с.

38. Косарев, Ю.А. Естественная форма диалога с ЭВМ/Ю.А. Косарев. -Л.: Машиностроение, 1989. 143 с.

39. Коцубинский, В.П. Особенности формирования звучной речи/В.П. Коцубинский//Интеллектуальные системы в управлении, конструировании и образовании/под ред. А.А.Шелупанова. Томск, 2001.-С. 33-42.

40. Круглое, В. Нечеткая логика и искусственные нейронные сети/В. Круглов, М. Дли, Р. Голунов. М.:Физматлит, 2001. - 224 с.

41. Левенштейн, В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов/В.И. Левенштейн//Докл. АН СССР. -1965. Т. 163, №4. - С. 845-848.

42. Ли, У. Методы автоматического распознавания речи: пер. с англ. -М.:Мир, 1983.- 328 с.

43. Миркес, Е.М. Учебное пособие по курсу нейроинформатика/Е.М. Миркес. Красноярск: ИПЦ КГТУ, 2002. - 347 с.

44. Моттль, В.В. Скрытые марковские модели в структурном анализе сигналов/В.В. Моттль, И.Б. Мучник. -М.:Физматлит, 1999. 352 с.

45. Назаров, М.В. Методы цифровой обработки и передачи речевых сигналов/М.В. Назаров, Ю.Н. Прохоров. М.:Радио и связь, 1985. -176 с.

46. Нейроинформатика/А.Н. Горбань, B.JT. Дунин-Барковский, А.Н. Кардин и др. Новосибирск:Наука, 1998. - 296 с.

47. Новиков, J1.B. Основы вейвлет-анализа сигналов/JT.B. Новиков. -СПб.: СПбГТУ, 1999. 152 с.

48. О некоторых подходах к проблеме компьютерного распознавания устной русской речи/О.А. Дорохин, А.В. Засыпкин, Н.А. Червин и др. //Знания-Диалог-Решение:сб. науч. тр. междунар. конф. Ялта, 1997. -Т.1. - С.234-240.

49. Оппенгейм, Э. Применение цифровой обработки сигналов:пер. с англ./Э. Оппенгейм. М.:Мир, 1980. - 550 с.

50. Петухов, А.П. Введение в теорию базисов всплесков/А.П. Петухов. -СПб.: СПбГТУ, 1999. 132 с.

51. Поликар, Р. Введение в вейвлет преобразование/Р. Поликар. - СПб.: АВТЭКС, 1999,- 259 с.

52. Поршнев, С.В. Matlab 7: Основы работы и программирования/С.В. Поршнев. М.:Бином, 2006. - 319 с.

53. Потапова, Р.К. Речь: коммуникация, информация, кибернетика/Р.К. Потапова. М.:Едиториал УРСС, 2003. - 568 с.

54. Потемкин, В. Введение в MATLAB/B. Потемкин. М.Диалог-МИФИ, 2000.-247 с.

55. Рабинер, Л. Теория и применение цифровой обработки сигналов:пер. с англ./Л. Рабинер, Б. Гоулд .- М.:Мир, 1978. 834 с.

56. Рабинер, JI.Р. Цифровая обработка речевых сигналов: пер. с англ./Л.Р. Рабинер, Р.В. Шафер; под ред. М.В Назарова, Ю.Н. Прохорова. -М.:Радио и связь, 1981. 496 с.

57. Ракуш, В. В. Алгоритмы распознавания изолированных слов на основе скрытых Марковских моделей/В.В. Ракуш, А.С. Рылов //Вопросы криминологии, криминалистики и судебной экспертизы: сб. науч.тр.- Минск, 1998. Вып.13,- С. 234-238.

58. Распознавание речи/К. Асаи, В. Дзюндзо, И. Сокуке и др.// Прикладные нечёткие системы; под ред. Т. Тэрано, К. Асаи, М. Сугено. -М.:Мир, 1993.-С. 157- 170.

59. Ронжин, А.Л. Система распознавания русской речи SIRIUS/А.Л. Ронжин, А.А. Карпов, И.В. Ли; С.-Петерб. ин-т информатики и автоматизации РАН. СПб., 2005. - 112 с.

60. Секунов, Н. Обработка звука на РС/Н. Секунов. СПб.:БХВ-Петербург, 2001.- 1238 с.

61. Сергиенко, А. Цифровая обработка сигналов/А. Сергиенко. СПб.: Питер, 2005. - 608 с.

62. Системы искусственного интеллекта: сб. студ. науч. ст./отв. ред. Г.С. Кирякова. Красноярск: ИПЦ КГТУ, 2002. - 112 с.

63. Смоленцев, Н.К. Основы теории вейвлетов. Вейвлеты в Matlab/H.K. Смоленцев. М.:ДМК Пресс, 2005. - 304 с.

64. Теория статистики с основами теории вероятностей/И.И. Елисеева, B.C. Князевский, Л.И. Ниворожкина и др. М.ЮНИТИ, 2001.- 446 с.

65. Трубецкой, Н. С. Основы фонологии/Н.С. Трубецкой. М.:Аспект пресс, 2000. - 352 с.

66. Уоссермен, Ф. Нейрокомпьютерная техника: Теория и практика:пер. с англ./Ф. Уоссермен. М.: Мир, 1992. - 105 с.

67. Хайкин, С. Нейронные сети: полный курс/С. Хайкин. М.:Вильямс, 2005.- 1104 с.

68. Цифровая обработка сигналов и ее применение: IV междунар. конф. -М.:МЦТНТИ, 2002.-291 с.

69. Чекмарев, А. Речевые технологии проблемы и перспективы/А. Чекмарев// Компьютера. - 1997. - №49. - С. 26-43.

70. Чуй, К. Введение в вэйвлеты/К. Чуй. М. :Мир, 2001. - 412 с

71. Шмелева, А. Правда о распознавании речи/А. Шмелева// Компьютерпресс. 1998. - №1.- С.306-316.

72. Ярцева, В.Н. Большой энциклопедический словарь. Языкознание/В.Н. Ярцева; 2-ое изд. -М.:Большая Российская Энциклопедия, 1998. 685 с.

73. Allen, L. Scripting for Dragon NaturallySpeaking 9/L. Allen. San Francisco: SoftNet Systems Inc, 2006. - 130 p.

74. Bett, S. The number of phonemes in English/S. Bett // J. of the Simplified Spelling Society. 2002. - №1. - P. 8-13.

75. Coghill, J. English Grammar/J. Coghill, S. Magedanz. Indianapolis: Wiley, 2003.-313 p.

76. Cohen, M.H. Voice user interface design/M.H. Cohen, J.P. Giagola, J. Balogh. Redwood City: Addison Wesley Longman Publishing, 2004. -336 c.

77. Davis, G.M. Noise reduction in speech applications/G.M. Davis. -Washington: CRC Press, 2002. 432 p.

78. Esling, J. Handbook of the international phonetic association. A guide to the use of the international phonetic alphabet. Cambridge:Cambridge Univ. Press, 2003.-216 p.

79. Fundamentals of Wavelets: theory, algorithms, and applications/C. Jaideva, C. Goswami, K. Andrew et al. Indianapolis:Wiley-Intersci. Publ., 1999.-306 p.

80. Furui, S. Advances in speech signal processing/S. Furui, M.M. Sandhi. -New York: Marcel Dekker, 1996. 416 p.

81. Furui, S. Toward spontaneous speech recognition and understanding / S. Furui. New York: CRC Press, 2003. - 43 p.

82. Gale, Т. I VOICE launches i Voice speech software developers kit v.3.0 / T. Gale. Boynton Beach: Worldwide Videotex, 2003. - 7 p.

83. Haffner, P. Multi-state time delay neural networks for continuous speech recognition//Advances in neural information processing system/P. Haffner, A. Waibel. San Mateo:Morgan Kaufmann Publ., 1992. - Vol. 4. - P. 579588.

84. Heht-Nielsen, R. Theory of the backpropagation neural network/R. Heht-Nielsen//Neural networks for human and mashine perception; Ed. H.Wechsler. Boston: Acad. Press, 1992. - № 2. - P. 65 - 93.

85. Hori, C. A statistical approach to automatic speech summarization/C. Hori, R. Furui, H. Malkin, A. Waibel//J. Appl. Signal Processing. 2003. - № 2.-P. 128-139.

86. Hosom, J.P. Speech recognition using neural networks at the center for spoken language understanding/J.P. Hosom, R. Cole, M. Fanty//Center for Spoken Language Understanding. Portland:Oregon Graduate Inst, of Sci. andTechnol., 1999.-P. 5-20.

87. Huang, X. Spoken language processing, A guide to theory, algorithm and system development/X. Huang, A. Acero, H. Hon. NY: Prentice Hall PTR, 2001.-960 p.

88. Kammerer, B. Experiments for isolated-word recognition with single and multi-layer perceptron/B. Kammerer, W. Kupper//Abstracts of 1-st annual INNS meeting. Boston, 1988. - P. 693 - 706.

89. Kanal, K.M. Initial evaluation of a continuous speech recognition program for radiology/K.M. Kanal, N.J. Hangiandreou, A.M. Sykes et al. // J. of Digital Imaging. 2002. - № 14. - P. 30-37.

90. Minker, W. Speech and human-machine dialog/W. Minker. London: Kluwer Acad. Publ., 2004. - 93 p.

91. Mossberg, W. A phone that takes dictation: testing voice-to-text function/ W. Mossberg // The Wall Street J. 2005. - №4. - P. 4.

92. Phoneme recognition: Neural networks vs. hidden Markov Models/A. Waibel, T. Hanazawa, G. Hinton et al.//ICASSP 88: Int. Conf. Acoust. Speech and Signal Process. New York City, 1988. - V.5, №1. - P. 107110.

93. Portnoff, M.R. Time-frequency representation of digital signals and systems based on short-time Fourier analysis/ M. R. Portnoff// IEEE Transactions on Acoustic, Speech, and Signal Processing. 1980. - Vol. 28. - P. 55-69.

94. Rabiner, L. Fundamentals of speech recognition/L. Rabiner, B. Juang. -New Jersey: Prentice Hall, Eaglewood Cliffs, 1993. 507 p.

95. Regis, J. Voice & data communications handbook/J. Regis, 'Bud' Bates, W. Donald. Emeryville: McGraw-Hill Osborne Media, 2001. - 1032 p.

96. Ronzhin, R. Survey of russian speech recognition systems/R. Ronzhin, I. Vusupov, A. Leontieva// In Proc. of 11-th International Conference SPECOM'2006. St. Petersburg, 2006. - P. 54-60.

97. Sweldens, W. Wavelets: What next?/W. Sweldens//Proc. IEEE. 1996. -Vol. 84.-P. 680.

98. Tebelskis, J. Speech recognition using neural networks/J. Tebelskis. -Pittsburgh:School of Computer Science, Carnegie Mellon University, 1995.- 180 p.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.