Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Нгуен Ван Хунг

  • Нгуен Ван Хунг
  • кандидат технических науккандидат технических наук
  • 2010, Москва
  • Специальность ВАК РФ05.13.11
  • Количество страниц 128
Нгуен Ван Хунг. Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи: дис. кандидат технических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Москва. 2010. 128 с.

Оглавление диссертации кандидат технических наук Нгуен Ван Хунг

ВВЕДЕНИЕ.

Актуальность темы.

Цель диссертационной работы.

Методы исследований.

Научная новизна.

Практическая ценность диссертации.

Апробация работы.

Личный вклад диссертанта.

Публикации.

Структура и объём работы.

1. ПРОБЛЕМА РАСПОЗНАВАНИЯ РЕЧИ И ОСОБЕННОСТИ ВЬЕТНАМСКОЙ РЕЧИ.

1.1 — Проблема распознавания речи.

1.2 - Обзор и классификации методов распознавания речи.

1.3 - Специфика вьетнамского языка, связанная с распознаванием речи.

1.4 - Конкретизация задачи и схема её решения.

1.5 Выводы.

2. ПОЛУЧЕНИЕ ВХОДНОГО ЗВУКОВОГО СИГНАЛА И ОБНАРУЖЕНИЕ РЕЧЕВОГО СИГНАЛА НА ФОНЕ ШУМОВ.

2.1 Получение входного звукового сигнала.

1.2 Проблема обнаружения речевого сигнала на фоне шумов.

2.3 Алгоритм определения крайних точек речи.

2.4 Результаты экспериментов.

2.5 Выводы.

3. СЕГМЕНТАЦИЯ РЕЧЕВЫХ СИГНАЛОВ ВЬЕТНАМСКОГО ЯЗЫКА НА ОТДЕЛЬНЫЕ СЛОВА.

3.1 Проблема слога во вьетнамском языке.

3.2 Алгоритм сегментации речевого сигнала на слоги.

2.3 Результаты экспериментов.

2.4 Оценка точности алгоритма сегментации фраз на слова.1.

3.5 Выводы.

4. ФОРМИРОВАНИЕ ДИНАМИКИ ФОРМАНТ РЕЧЕВОГО СИГНАЛА.

4.1 Проблема разбиения голосовых участков речи на квазипериоды равные периодам основного тона.

4.2 Алгоритм разбиения голосовых участков речи на квазипериоды, равные периодам основного тона.

4.3 Оценка точности работы алгоритма.

4.4 Спектральный анализ и формирование динамики формант.

4.5 Результаты экспериментов.

4.6 Выводы.

5. ОРГАНИЗАЦИЯ БАЗЫ ДАННЫХ. ВЫБОР ЭТАЛОНОВ И РАСПОЗНАВАНИЕ РЕЧЕВЫХ КОМАНД.

4.1 Организация базы данных для хранения словаря распознавания, входного сигнала и эталонов.

5.2 Формирование эталонов для распознавания слов и сохранение их в базе данных.

5.3 Распознавание речевых команд.

5.4 Оценка результатов распознавания.

5.5 Программа поэтапного просмотра результатов обработки речевого сигнала и распознавания.

5.6 Выводы.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи»

Актуальность темы

Естественное, языковое общение является для человека самым удобным и привычным. Поэтому неудивительно, что учёные и инженеры на протяжении многих лет решают проблему речевого общения человека и машины. Основная задача речевого интерфейса понимать человеческую речь и правильно реагировать на неё. Проблема состоит в том, чтобы научить машину понимать без посредника тот язык, на котором говорят люди между собой, то есть придумать алгоритм распознавания звуковых сигналов речи. Этим и занимается технология распознавания речи.

Эта задача поставлена более 60 лет назад, но полученные решения ещё не совершенны. Это показывает, что распознавание речи является сложной проблемой. Сложность определяется в значительной степени следующими факторами:

- вариативностью и нестабильностью источников речевого сигнала;

- различием амплитудно-частотных характеристик микрофонов;

- наличием различного рода шумов как окружающей среды, так и аппаратуры;

- наличием многих уровней обработки сигнала.

Таким образом, проблема исследования распознавания речи человека является актуальной с практическим применением даже в частных решениях.

Цель диссертационной работы

Разработка программы распознавания речи является сложной задачей, требующей много времени. Так как время аспирантуры ограничено 3-мя годами, то было принято решение по разработке программ для распознавания ограниченного числа вьетнамских команд, опиралась на особенности вьетнамской речи. Тема называется: "Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи".

Основная цель диссертационной работы заключалась в исследовании методов распознавания речи и разработке программы автоматического распознавания ограниченного набора команд вьетнамской речи.

Для достижения этой цели в ходе выполнения диссертационной работы решались следующие основные задачи:

• Исследование существующих методов моделирования и автоматического распознавания речи.

• Исследование особенностей произношения вьетнамской речи, влияющих на методы распознавания речи.

• Разработка методов и алгоритмов для распознавания вьетнамской речи.

• Программная реализация предлагаемых алгоритмов и демонстрация результатов поэтапной обработки речевого сигнала.

Методы исследований

В работе использовались методы математического анализа, методы цифровой обработки сигнала, теории распознавания образов и теории вероятностей.

Научная новизна

Научная новизна диссертационной работы заключается в том, что предложено нескольких новых методов:

1. Проведена модернизация алгоритма обнаружения речи (начала и конца речевого сигнала) на фоне шума.

2. Предложен новый метод сегментации слитных речевых словосочетаний вьетнамского языка на отдельные слоги, соответствующие вьетнамским словам.

3. Предложен новый метод разбиения голосовых участков речи на квазипериоды, равные периодам основного тона. 4. Предложен новый метод формирования динамики формант по результатам спектрального анализа. 5. Предложены методы формирования эталонов для распознавания слов и фраз, основанные на особенностях вьетнамской речи. На его основе, предложены и реализованы два метода сравнения параметров входного сигнала с эталонами, хранящимися в базе данных, для распознавания команд вьетнамской речи.

Практическая ценность диссертации

Предложены новые методы анализа речевого сигнала и новые методы распознавания ограниченного команд вьетнамской речи. Пока фундаментальные исследования по анализу вьетнамской речи ещё не публиковались.

Построена программа отображения звукового сигнала и результатов его анализа. Она позволяет экспортировать выходные параметры, полученные в результате анализа в файлы Excel и автоматически строить соответствующие графики. Программа может быть полезна специальным исследователям речевого сигнала и преподавателям, ведущим занятия в этой области.

Апробация работы

Полученные в работе научные и практические результаты докладывались на двух международных научно-технических конференциях «Информационные средства и технологии» (Москва, 2008 и 2009 г.г.).

Личный вклад диссертанта

Все методы разработаны совместно диссертантом и его руководителем, а алгоритмы и программы, их реализация и проверка работоспособности реализованы лично диссертантом.

Публикации

По материалам диссертации опубликовано 3 печатных работы, в том числе одна в журнале, входящем в список изданий, рекомендованных ВАК РФ. Список опубликованных работ приведён в конце диссертации.

Структура и объём работы

Диссертация состоит из введения, пяти глав, заключения, одного приложения и библиографического списка, использованных источников из 47 наименований. Общий объём работы составляет 128 страницы, в том числе 89 рисунков и 10 таблиц.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Нгуен Ван Хунг

5.6 Выводы

Рассмотрена организация системы баз данных, которая использована в программе распознавания. Она построена на основе системы управления данными Microsoft Access и позволяет обрабатывать до несколько миллионов записей. В ней хранены библиотека распознаваемых команд и библиотека эталонов. Связь между программой распознавания и базой данных осуществляется с помощью стандартной библиотеки Microsoft ADO (ActiveX Data Objects).

Представлены две идеи формирования эталона из полученного комплекта параметров, соответствующих одному слогу. На их основе, построены два метода распознавания по сравнению входного сигнала эталонами. Показаны результаты распознавания в таблице данных окна

Microsoft Excel. Рассмотрены так же недостатки методов, которые показаны t выше. I I

Рассмотрена программа для пошагового просмотра и отображения результатов обработки речевого сигнала. Программа позволяет выявлять причины ошибок.

ЗАКЛЮЧЕНИЕ J

В процессе решения задач, поставленных в диссертационной работе, ! получены следующие основные результаты: I I 1. Проведён краткий обзор современных методов построения систем распознавания речи.

2. Рассмотрены особенности вьетнамского языка, связанные с проблемой автоматического распознавания речи.

3. Модернизирован алгоритм обнаружения речи (начала и конца речевого сигнала и пауз в нём) на фоне шума.

4. Предложен новый метод сегментации слитных речевых фраз (команд) вьетнамского языка на отдельные слова.

5. Предложен новый метод разбиения голосовых участков речи на интервалы (квазипериоды), равные периодам основного тона.

6. Предложен новый метод формирования динамики формант по результатам спектрального анализа. Перевод речевых сигналов в форманты и выражение их в графиках является новым, может применяться для изучения произношения и распознавания. Это имеет большое значение, особенно во Вьетнаме. Хотя имели место некоторые применения распознавания речи (см. стр. 29), но фундаментальных исследований по этому вопросу ещё не было объявлено.

7. Предложены новые методы (два метода) формирования эталонов для распознавания слов и фраз.

8. Проведена организация базы данных на основе системы управления данными Microsoft Access для хранения входного сигнала, словаря распознавания и эталонов слов (команд). 1

9. Предложены и реализованы два метода сравнения параметров входного слова с эталонами, хранящимися в базе данных, для распознавания слов и команд (словосочетаний).

10.Построена программа автоматического распознавания ограниченного набора команд (словосочетаний) вьетнамской речи, использующая выше приведенные методы. Точность программы по двум методам распознавания соответствует около 87% и 95% на изолированных словах.

11.Построена программа отображения данных звукового сигнала и результатов его анализа. Она позволяет экспортировать выходные параметры, полученные в результате анализа в файлы Excel и автоматически строить соответствующие графики. Программы могут быть полезны исследователям речевого сигнала и преподавателям, ведущим занятия в этой области.

Однако предложенные решения имеют свои недостатки:

- Определение щелевого сигнала в начале слова на основе только числа переходов через нуль иногда даёт ошибки. Согласные, например "Т", "Н", "С" в нескольких случаях не могут быть определены. Результаты сопоставления образцов "Hai" и "Tarn" показывают, что стабильность образцов не высока (см. рис. 5.11-3, 5.11-9).

- Алгоритм сегментации фразы на отдельные слова иногда даёт ошибки. Основной причиной является следующая: Во вьетнамском языке, в словах, добавленных знаком (например «Chü»), при произношении иногда слог может быть разделён предложенным алгоритмом на два слога. Чтобы устранить эти недостатки, необходимо ввести минимальное расстояние между двумя слогами для фраз, состоящих из двух слов.

- Распознавание по предложенным методам не учитывает фактор движения формант в слогах.

Несмотря на существующие недостатки в предложенных методах распознавания, но точность распознавания достаточно высокая. Это позволяет сделать вывод, что методы анализа являются правильными.

По теме достигнуты определенные результаты, они имеют определенное значение для изучения и разработки проблемы распознавания речи особенно во Вьетнаме.

Список литературы диссертационного исследования кандидат технических наук Нгуен Ван Хунг, 2010 год

1. A.B. Фролов, Г.В. Фролов. Синтез и распознавание речи. Современные решения. (http://www.frolov-lib.ru/books/hi/index.html). 2003.

2. Бондарко JI.B. Звуковой строй современного русского языка. М.: Просвещение, 1997.

3. Лекции по языкознанию ("http://www.tula.net/tgpu/resources/yazykozn/index.htm). Составитель Г.Н. Мерцалова. Тульский государственный педагогический университет им JI.H. Толстого.

4. A.M. Москаленко. Использование нейросетей для анализа звуковой информации (http://alexmoshp.chat.ru/index.htm). Дипломная работа. Кубанский государственный университет.

5. В. Алексеев. Услышь меня, машина. Компьютерра, №49, 1997 г.

6. JI. Захаров. Проблемы создания аллофонной базы автоматического синтеза речи (http://art.bdk.com.ru/govor/rasp.htm).

7. М.В. Панов. Русский язык. История русского литературного языка. Еженедельник «Русский язык», №26, 2002.

8. В. Ф. Ундриц, К. Л. Хилов, Н. Н. Лозанов, В. К. Супрунов. Болезни уха, горла и носа (руководство для врачей). Медицина, 1969.

9. Г. Бекеши, В. А. Розенблит. Механические свойства уха. Гарвардский университет. Издательство иностранной литературы, Москва, 1963.

10. П. Хоровиц, У. Хилл. Искусство схемотехники: В 2-х т. Пер. с англ. -М: Мир, 1984.

11. A.B. Фролов, Г.В. Фролов. Мультимедиа для Windows. Библиотека системного программиста, т. 15 -М: Диалог-МИФИ, 1994 (http://info.datarecovery.ru).

12. Ф. Уоссермен. Нейрокомпьютерная техника: Теория и практика. —М: Мир, 1992.

13. В.А. Головко. Нейронные сети: обучение, организация и применение. — М.: ИПРЖР, 2001.

14. А.И. Галушкин. Нейрокомпьютеры. М.: ИПРЖР, 2000.

15. В.В. Круглов, В.В. Борисов. Искусственные нейронные сети. Теория и практика. М.: Горячаялиния-Телеком, 2002.

16. B.C. Медведев, В.Г. Потемкин. Нейронные сети. MATLAB 6.— М.: Диалогt1. МИФИ, 2002.

17. Speech Analysis FAQ. ("http://svr-www.eng.cam.ac.uk/~air/SA95/ SpeechAnalysis.html').

18. Э.М. Куссуль. Ассоциативные нейроподобные структуры. Киев.: Наукова думка, 1990.

19. Г. Нуссбаумер. Быстрое преобразование Фурье и алгоритмы вычисления сверток. — М.: Радио и связь, 1985.

20. Н.М. Астафьева. Вейвлет-анализ: основы теории и примеры приведения. Успехи физических наук, т. 166, № 11. — М.: ИКИ РАН, 1996.

21. У Веньцань. Разработка алгоритмов для распознавания речи. Диссертация на соискание учёной степени кандидата технических наук. Московский Энергетический Институт (ТУ). 2001.

22. JT. Рабинер, Б. Гоулд. Теория применение цифровой обработки сигналов. 394 -483. Перевод с английского A. JI. Зайцева, Э. Г. Назаренко, Н. Н. Тетёкина. Изд. «Мир», Москва 1978.

23. Е.С. Вентцель, J1.A. Овчаров. Теория вероятностей и её инженерные приложения. 2-ое изд. Стереопим. Москва, Высшая школа, 2000.

24. А.И. Евсеев, Нгуен Ван Хунг. Обнаружение начала и конца слов и пауз на изолированных словах и в словосочетаниях вьетнамского языка. // Информационные средства и технологии. Том 1. 2008. с. 119-124.

25. А.И. Евсеев, Нгуен Ван Хунг. Разбиение входных сигналов ограниченного набора команд вьетнамской речи на слоги. // Информационные средства игтехнологии. Том 2. 2009. с. 206-211.

26. Специализированный сайт в области лингвистики вьетнамского языка. (http://ngonngu.net/index.php?p=305).

27. Общие вопросы в области лингвистики, словари вьетнамского языка. (http://www.vietlex.com/).

28. Вьетнамский язык, (http://vietsciences.org).

29. В.Ю. Шелепов. Новые методы в пофонемном распознавании речи. Статья УДК 681.142.66. Институт проблем искусственного интеллекта, 2001.

30. Грабовая В.А., Федоров Е.Е., Шелепов В.Ю. О системе распознавания русской речи с автоматическим построением эталонов // Искусственный интеллект. 2000. -№ 1.

31. Дорохин O.A., Федоров Е.Е., Шелепов В.Ю. Некоторые подходы к пофонемному распознаванию русской речи и распознаванию больших словарей // Искусственный интеллект. №2. - 2000. - С. 329-333.

32. Дорохин O.A., Засыпкин A.B., Червин H.A., Шелепов В.Ю. О некоторых подходах к проблеме компьютерного распознавания устной русской речи // Труды Международной конференции «Знания, диалог, решение». Том 1. - Ялта. - 1997. - С.234-240.

33. Божко Д.В., Грабовая В .А., Шелепов В.Ю. Интерпретатор распознанной цепочки фонем, которая может содержать ошибки // Искусственный интеллект. -2001.-№3.

34. Дорохин O.A., Старушко Д.Г., Федоров Е.Е., Шелепов В.Ю. Сегментация речевого сигнала // Искусственный интеллект. № 3. - 2000. - С. 450-458.

35. Федоров Е.Е., Шелепов В.Ю. Защита речевых распознавателей от шума и посторонней речи // Искусственный интеллект. 2001. - № 3.

36. А.Н. Огородников. Выбор интервалов анализа сигнала при распознавании речи. Статья УДК 681.142.2 http://www.ict.edu.ru/ft/004452/38.pdf. Томского государственного университета, 2003.

37. Фант Г. Акустическая теория речеобразования: Пер. с англ. М.: Наука, 1964. 284 с.

38. Кодзасов C.B., Кривнова О.Ф. Общая фонетика. М.: Рос. гос. гуманит. ун-<2001.592 с.

39. Голд Б., Рэйдер Ч. Цифровая обработка сигналов: Пер. с англ. М.: Сов. радио, 1973. 368 с.

40. Гоноровский И.С. Радиотехнические цепи и сигналы. М.: Радио и связь, 1986. 512 с.

41. Оппенгейм A.B., Шафер Р.В. Цифровая обработка сигналов: Пер. с англ. М.: Связь, 1979. 416 с.

42. Рабинер JI.P. Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ. М.: Радио и связь, 1981. 496 с.

43. Рабинер JI. Гоулд Б. Теория и применение цифровой обработки сигналов: Пер. с англ. М.: Мир, 1978. 848 с.

44. Толстов Г.П. Ряды Фурье. М.: Наука, 1980. 384 с.

45. Речевые технологии. (http://speech2b.com/rus/technologies/voice-recognitiön/).

46. Искусственный интеллект, (http://habrahabr.ru/blogs/artificial intelligence/ 64572/).

47. А.И. Евсеев, Нгуен Ван Хунг. Исследование и разработка методов обработки речевого сигнала для получения формантных характеристик спектральных срезов. Вестник МЭИ, № 4, 2010, с. 45-49.

48. СПИСОК КОМАНД ДЛЯ РАСПОЗНАВАНИЯ1. СловарьvJ

49. Can giCra Расположи посредине20 can deu Расположи равномерно

50. Chpn phong Выбрать шрифт (Font)22 C& chO Кегль (Font size)

51. Danh dau tu> Выделить слово24 eanh dau d6ng Выделить строку

52. Danh dau doan Выделить абзац26 СЬ&1о Неличить шрифт27 Chu- nho Уменьшить шрифт28 ChQ- dam Полужирный шрифт29 ChO thu-ang Светлый шрифт

53. Lgn trang Прошлая страница

54. Xuong trang Следующая страница32 Vedau В начало33 . , X A . Ve cuoi В наконец34 Dau dbng Начальная строка35 Cuoi ddng Конечная строка36 Xuong d6ng Новая строка37 Tim kiem Найти38 ТИау Заменить39 1ЧИау йгапд Выбирать страницу40 1п Печать

55. В^И 1гапд Создать страницу42 ' Хет 1гапд Открыть страницу43 Мб" РНе Открыть файл44 Вбпд РНе Закрыть файл45 вы Сохранить46 Тдо Ьапд Создать таблицу

56. Уё Ьйпд Нарисовать таблицу48 СИрп Ьгёпд Выбрать строку49 СИ<?п cфt Выбрать столбец50 вфрб Объединить ячейки51 СЫа б Разделить ячейки52 СИфП Ьапд Выбрать таблицу

57. С1к?п т1и Ьапд Выбрать образец таблицы

58. СЫа Ьапд Разделить таблицы

59. Эйр хер Ьапд Упорядочивать таблицы

60. Сбпд Ишс Ьапд Формулы таблицы

61. ТЬифс Ьапд Свойство таблицы

62. СИфп кЬипд Ьйпд Выбрать рамки таблицы

63. С1пёп пд£К1гапд Создать новую страницу

64. СИёп бо 1гапд Поставить номер страницы

65. СИёп пдйу Нгёпд Поставить даты

66. СИёп апЬ Создать фотографию (рисунок)

67. СЬёп кЬипд сЬй" Поставить рамки для буквы64 СИёп РНе Поставить файл65 сбпд ШСрс Вводить формулу

68. СИёп Пёп к& Ввести соединение67 СИёп ку Ввести символ

69. СИёп 16ч ЫпЬ Ввести комментарии

70. Нгёп ИМ ЫпЬ №иФпд Обычный вид

71. Нгёп и^ 1гапд ¡п Вид для печати

72. Нгёп <3ау 1гапд Вид полной страницы72 РЬбпд № Увеличивать73 Бао сИёр Копировать74 Вставитьэм<1

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.