Методы создания и использования речевых баз данных и инструментальных средств анализа и исследования речи для развития речевых технологий тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Богданов, Дмитрий Степанович

  • Богданов, Дмитрий Степанович
  • кандидат науккандидат наук
  • 2013, Москва
  • Специальность ВАК РФ05.13.01
  • Количество страниц 128
Богданов, Дмитрий Степанович. Методы создания и использования речевых баз данных и инструментальных средств анализа и исследования речи для развития речевых технологий: дис. кандидат наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). Москва. 2013. 128 с.

Оглавление диссертации кандидат наук Богданов, Дмитрий Степанович

Содержание

Список условных обозначений и сокращений

Введение

Глава 1. Обзор состояния речевых технологий и анализ существующих

инструментальных средств для их разработки

1.1. Факторы развития речевых технологий

1.2. Речевой ввод/ввод как развитие человеко-машинных интерфейсов

1.2.1. Речевой канал ввода/вывода

1.2.2. Прикладные аспекты использования речевого интерфейса

1.3. Современное состояние речевых технологий в мире

1.4. Современное состояние исследований в России и предложений речевых технологий для русского языка

1.5. Научные подходы в распознавании речи

1.6. Обзор современных инструментальных средств для исследования речи и разработки речевых технологий

1.6.1. Звуковые редакторы

1.6.2. Специальные редакторы для исследования речевых

файлов

1.6.3. Выводы по результатам обзора средств анализа и визуализации речевых данных

1.7. Проблема речевых баз данных: определения, классификация, обзор существующих речевых корпусов

1.7.1. Речевые базы данных - необходимый элемент разработки речевых технологий

1.7.2. Определения и классификация речевых баз данных

1.7.3. Проблемы создания и унификации речевых корпусов

1.7.4. Обзор существующих речевых корпусов русского языка

1.8. Выводы

Глава 2. Методы создания инструментальных средств для исследования

речевых сигналов и разработки речевых технологий

2.1. Предварительные рассуждения для постановки задачи обработки, анализа и визуализации речевых сигналов

2.2. Инструментальная система для исследования и обработки речевых сигналов и создания речевых баз данных

2.2.1. Архитектура системы

2.2.2. Унифицированное описание объекта

2.2.3. Классы операций

2.2.4. Технический класс

2.2.5. Базовый класс

2.2.6. Пользовательский класс

2.2.7. Системный класс

2.2.8. Подсистема ручной сегментации сигнала

2.3. Метод выделения периодов основного тона в речевом

сигнале

2.3.1. Инженерный подход к анализу вокальных участков речевого сигнала

2.3.2. Суть метода

2.3.3. Описание алгоритма

2.3.4. Проблема выбора локальных минимумов

2.3.5. Использование метода

2.3.6. Результаты тестирования метода

2.4. Инструменты для построения речевого диалога в системах с речевым управлением

2.4.1. Сценарий речевого диалога с компьютером

2.4.2. Язык описания сценария

2.4.3. Программная реализация речевого диалога

Глава 3. Методы создания и использования речевых баз данных для

развития речевых технологий

3.1. Технология создания речевых корпусов

3.1.1. Требования к составу речевой базы данных

3.1.2. Проблемы реализации требований фонетической

полноты и сбалансированности речевой базы данных

3.2. Программное обеспечение для формирования речевых баз данных

3.2.1. Потоковая запись дикторов для формирования речевого корпуса

3.2.2. Автоматизированное рабочее место эксперта для верификации и разметки речевых фрагментов

3.2.3. Обработка результатов верификации

3.2.4. Корректировка полей информационного файла

3.2.5. Подсчет количества вхождений монофонов и Трифонов

3.3. Практические результаты - разработка речевых корпусов русского языка

3.3.1. Описание речевого корпуса IS ABASE

3.3.2. Описание речевого корпуса RuSpeech

Заключение: выводы по результатам исследования

Список литературы

Список условных обозначений и сокращений

БПФ - быстрое преобразование Фурье

ДПФ - дискретное преобразование Фурье

ГС - голосовые связки

JIM - локальный минимум

МСГС - момент смыкания голосовых связок

ОТ - основной тон

ASR (automatic speech recognition) - автоматическое распознавание речи SDB (speech data base) - речевая база данных TTS (text-to-speech) - синтез речи по тексту

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы создания и использования речевых баз данных и инструментальных средств анализа и исследования речи для развития речевых технологий»

Введение

Актуальность темы.

Еще во времена появления первых электронно-вычислительных машин ученые начали заниматься вопросами автоматического распознавания речи, резонно полагая, что речевой интерфейс взаимодействия с ЭВМ обеспечит гораздо более приемлемую скорость работы, чем обмен закодированными текстовыми командами и сообщениями, не говоря уже о его естественном характере. За годы исследований был разработан широкий спектр методов и компьютерных программ для решения проблем распознавания речи и синтеза речи.

90-е годы прошлого столетия ознаменовались этапом бурной эйфории от быстрых успехов в области речевых технологий. Связано это было с одной стороны со значительным увеличением производительности компьютеров и объемов хранения данных, а с другой, с появлением математических статистических методов классификации признаков и распознавания объектов, дающих быстрый рост качества распознавания. На сегодняшний день этот этап сменился этапом кропотливой и методичной работы, связанной с развитием возникших новых направлений в исследовании речи. Эта область исследований оформилась структурно, и еще более очевидной стала проблема наличия универсального инструментария разработчика речевых технологий.

Актуальность темы диссертационного исследования обусловлена необходимостью анализа потребностей и разработки универсальных инструментальных средств для развития речевых технологий, которые позволили бы снизить трудозатраты при создании речевых систем путем автоматизации рутинных процедур и повысили бы их качество, предоставив исследователям и разработчикам необходимые ресурсы для настройки, анализа и отладки систем.

В сложившейся на сегодня структуре исследования речи и разработки речевых систем наиболее актуальными так же являются вопросы создания отладочных стендов, автоматизации процессов сбора речевых баз данных и их разметки на фонологические единицы для алгоритмов статистического анализа, визуализации цифровых речевых сигналов и результатов их обработки, выделения признаков, пакетной обработки больших объемов данных.

Следует также отметить, что сегодняшние достижения в области речевых

технологий демонстрируются в основном для английского языка, а также ряда европейских, японского и китайского языков. Очевидно, что, эти достижения связаны с высоким уровнем инвестиции в развитие речевых технологий для этих языков благодаря их высокой распространенности, востребованности и ожидаемой быстрой окупаемости. В то же время речевые технологии для русского языка развиваются гораздо медленнее, при том, что русский язык является одним из самых популярных языков мира и на нем говорит свыше двадцати процентов населения Европы. Изменить положение русского языка в сфере речевых технологий в лучшую сторону может наличие инструментов для изучения особенностей русского языка и речи, проявляющихся в процессе обработки и распознавания. Среди трудностей следует отметить такие особенности русского языка, как отсутствие строгих грамматических конструкций построения предложений, многочисленные правила словообразования и фонетического представления слов, расстановки ударений с большим количеством исключений и т.п. В связи с этим, важнейшим фактором, влияющим на развитие речевых технологий русского языка, является создание крупных речевых баз данных русского языка.

Предмет исследования и цели диссертационной работы.

Объектом исследования является речевой интерфейс человека с компьютером. Предмет исследования - методы создания инструментальных средств для разработки элементов речевого интерфейса человека с компьютером.

Целями исследования являются:

• разработка унифицированных инструментальных средств автоматической обработки, анализа и визуализации речевых сигналов;

• разработка методов создания речевых баз данных и их реализация путем создания пакета программ для автоматизации сбора и разметки крупных речевых баз данных для систем распознавания и синтеза речи русского языка.

Для достижения указанных целей были поставлены и решены следующие основные задачи:

т

1

• исследование существующих методов цифровой записи, анализа, обработки и визуализации речевых сигналов;

• исследование существующих речевых баз данных и методов их создания, классификация речевых баз данных;

• определение архитектуры и состава инструментальных средств для автоматизации процессов анализа речевых сигналов и создания систем распознавания и синтеза речи;

• разработка формальной модели унифицированного речевого фрагмента, как объекта автоматического анализа и его визуальных представлений;

• разработка инструментальных средств автоматической обработки, анализа и визуализации речевых сигналов;

• разработка методов создания речевых баз данных русского языка с заданным фонетическим и текстовым наполнением;

• реализация комплекса программ для автоматизации процессов создания речевых баз данных;

• создание речевых баз данных с фонетической разметкой для разработки систем распознавания речи русского языка.

Методы исследований.

Для решения поставленных задач в работе используются методы теории информации, теории множеств, методы математического анализа, методы цифровой обработки сигналов, теории распознавания образов, теории вероятностей, экспертного и статистического анализа. Компьютерная реализация разработанных алгоритмов производилась на основе объектно-ориентированного подхода.

Научная новизна.

Наиболее существенные результаты и научная новизна диссертационной работы состоят:

• в разработке концепции построения и реализации открытой инструментальной системы анализа и исследования речевых сигналов, которая обеспечивает разработчика речевых технологий базовыми средствами анализа и визуализации речевых сигналов и не требует модификации

при добавлении новых методов и алгоритмов;

• в теоретическом обосновании и разработке формального описания модели унифицированного объекта речевых технологий, включающее собственно речевой сигнал и все возможные формы его представления, которое систематизирует и упрощает процессы разработки алгоритмов и создания программ в области речевых технологий;

• в разработке метода выделения основного тона говорящего с определением временных границ смыкания голосовых связок;

• в разработке методологии и реализации комплекса программных средств для создания речевых баз данных с ожидаемыми характеристиками полноты и частотности фонологических характеристик.

Обоснованность и достоверность научных положений

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет тщательного анализа состояния исследований в данной области, подтверждается корректностью предложенных моделей, алгоритмов и согласованностью результатов, полученных при компьютерной реализации, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.

Практическая ценность работы.

Практическая значимость исследования состоит в разработке комплекса программных средств и создании крупных речевых баз данных русского языка с различными фонологическими характеристиками. При создании указанного инструментария использовались теоретические положения диссертационной работы. Созданный инструментарий активно используется учеными, разрабатывающими методы и алгоритмы автоматического распознавания и синтеза речи, математиками-программистами для создания систем распознавания и синтеза речи, а так же специалистами в области фонетики русского языка для исследований речевых сигналов, изучения процесса речеобразования и проведения других фонетических исследований. Важную роль созданный инструментарий играет в процессах обучения студентов в курсах фонетики, лингвистики,

искусственного интеллекта, речевых технологий.

Апробация работы.

Основные положения и результаты диссертационной работы представлялись на следующих международных конференциях:

IX Международная конференция «Речь и Компьютер» INTAS workshop SPECOM'2004 (Санкт-Петербург, 2004)

I Международная конференция «Системный анализ и информационные технологии» САИТ-2005, секция «Интеллектуальные информационные технологии», Переяславль-Залесский, 2005;

Основные результаты были представлены в докладе на заседании сессии "Распознавание речи" Отделения информационных технологий и вычислительных систем РАН в октябре 2003 г.

Исследования были поддержаны грантом РФФИ (проект № 02-07-90454 «Формирование речевой базы данных русского языка»).

Список опубликованных работ по теме диссертации.

1. Богданов Д.С., Кривнова О.Ф., Подрабинович А .Я. «Современный инструментарий для разработки речевых технологий». Информационные технологии и вычислительные системы, № 2, 2004, с. 11-24.

2. Арлазаров В.В., Богданов Д.С., Брухтий A.B., Подрабинович А .Я. «Программное обеспечение для формирования речевых баз данных». // Труды Института системного анализа Российской академии наук «Организационное управление и искусственный интеллект», М., Эдиториал УРСС, 2003, с. 259-266.

3. Богданов Д.С., Брухтий A.B., Кривнова О.Ф., Подрабинович А.Я., Стро-кин Г.С. «Технология формирования речевых баз данных». //Труды Института системного анализа Российской академии наук «Организационное управление и искусственный интеллект», М., Эдиториал УРСС, 2003, с. 239258.

4. Акимова Г.П., Богданов Д.С., Мусатов И.В., Пашкин М.А., Солдатов Д.В., Сомин Н.В. Совремные автоматизированные технологии обработки разнородных информационных потоков // Труды Института системного анализа

Российской академии наук «Организационное управление и искусственный интеллект», М., Эдиториал УРСС, 2003, с. 219-238.

5. Богданов Д.С., Брухтий А. В., Подрабинович А.Я., Усков A.B. Язык описания сценария диалога для речевого управления // Сборник трудов ИСА РАН «Развитие безбумажной технологии в организационных системах», М., Эдиториал УРСС, 1999, с. 47-61

6. Арлазаров В.Л., Богданов Д.С., Паклин М.Л., Розанов А., Финкелын-тейн Ю.Л. Инструментальная система для исследования и обработки речевых сигналов и создания речевых баз данных. // Сборник трудов ИСА РАН «Интеллектуальные технологии ввода и обработки информации». М., Эдиториал УРСС, 1998, с. 27-38.

7. Арлазаров В.Л., Богданов Д.С., Розанов А., Финкелынтейн Ю.Л. Методы выделения периодов основного тона в речевом сигнале. // Сборник трудов ИСА РАН «Интеллектуальные технологии ввода и обработки информации». М., Эдиториал УРСС, 1998, с. 15-26.

8. Богданов Д.С., Кривнова О.Ф., Подрабинович А.Я., Фарсобина В.В. База речевых фрагментов русского языка ISABASE. // Сборник трудов ИСА РАН «Интеллектуальные технологии ввода и обработки информации». М., Эдиториал УРСС, 1998, с.74-85.

9. Акимова Г.П., Богданов Д.С., Босов A.B., Даниленко А.Ю., Ерохин В.И., Корольков Г.В. Реализация защищенного хранилища данных и электронного документооборота при интегрированной аналитической обработке разнородной информации // Системы высокой доступности. №4, 2007, т.З. М.: Радиотехника, 2007, с.33-42

Ю.Богданов Д.С., Подрабинович А.Я. «Опыт создания речевых баз данных в ИСА РАН», Труды 1 -ой Международной конференции «Системный анализ и информационные технологии» (САИТ-2005), 12-16 сентября 2005 г., г. Пе-реславль-Залесский.

1 l.V.L.Arlazarov, D.S.Bogdanov, O.F.Krivnova, A.Ya.Podrabinovitch "Creation of Russian Speech Databases: Design, Processing, Development Tools", Proceedings of 9th International Conference "SPEECH AND COMPUTER", 20-22 September 2004, Saint-Petersburg, Russia.

12.Komissarchik Edward; Arlazarov Vladimir; Bogdanov Dimitry; Finkelstein Yuri; Ivanov Andrey; Kaminsky Jacob; Komissarchik Julia; Krivnova Olga; Kronrod Mikhail; Malkovsky Mikhail; Paklin Maxim; Rozanov Alexander; Segal Vladimir; Zinovieva Nina "Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals", United States Patent # 5,799,276 August 25, 1998

13.Свидетельство о регистрации базы данных «База речевых фрагментов русского языка ISABASE» (№ Государственной регистрации RU 229803411)

Структура и объём работы.

Диссертация состоит из введения, трех глав, заключения и библиографического списка использованных источников из 77 наименований. Общий объём работы составляет 128 страниц, в том числе 11 рисунков и 7 таблиц.

Глава 1 содержит обзор и анализ развития в России и в мировой науке и практике речевых технологий и инструментов для их разработки, отладки и тестирования, здесь так же дается классификация и обзор существующих речевых баз данных русского языка.

Глава 2 посвящена рассмотрению проблем создания универсальных инструментальных средств работы с речевыми сигналами и методами их обработки и визуализации для проведения различных исследований. В главе дается формальное описание модели унифицированного объекта исследований, рассматриваются вопросы автоматизации разработки, отладки и тестирования алгоритмов анализа речевых сигналов, дается описание алгоритма выделения основного тона говорящего с разметкой по сигналу моментов смыкания голосовых связок.

Глава 3 посвящена описанию методов проектирования, сбора, разметки и верификации речевых баз данных. Дается математическое обоснование фонетической полноты базы данных. Здесь же дается описание созданных под руководством автора речевых баз данных русского языка.

В заключении приводятся основные результаты работы и делаются выводы о перспективах развития данного направления исследований.

Глава 1. Обзор состояния речевых технологий и анализ существующих инструментальных средств для их разработки

1.1. Факторы развития речевых технологий

Развитие человеко-машинных интерфейсов в последнее время идет бурными темпами. Однако реализация одного из самых естественных способов взаимодействия человека и машины - общение посредством звучащей речи - до сих пор остается нерешенной задачей. Быстрое развитие компьютерных технологий, интенсивное расширение сферы использования персональных компьютерных систем не только создают необходимые технические предпосылки для развития и использования речевого интерфейса, но и делают эту задачу чрезвычайно актуальной.

Речевое общение человека с компьютерными системами можно смело назвать технологией 21 века. К тому есть острая техническая необходимость с одной стороны и достаточно высокая техническая подготовленность с другой.

Техническая необходимость использования речевых каналов общения человека с компьютерными системами обусловлена следующими причинами:

• Миниатюризация вычислительных систем уже сегодня сделала ввод и вывод самыми узкими местами в развитии мобильных устройств. Речевой канал является практически единственной перспективой нормального взаимодействия человека с компьютером.

• Широкое распространение компьютерных систем в повседневной жизни диктует необходимость появления новых быстрых систем ввода/вывода информации, не требующих от неподготовленного пользователя специальных навыков.

• Применение речевого общения с автоматизированными системами расширяет круг их потенциальных пользователей.

• Добавление нового канала ввода/вывода улучшает мобильность, эргономику и "интеллектуальность" взаимодействия человека с компьютерными системами.

• В некоторых областях применения компьютерных технологий речевой канал взаимодействия является единственно возможным, например, речевое управление бортовыми устройствами, управление компьютером и другими техническими устройствами в экстремальных и/или опасных для человека условиях.

• Многократное увеличение объемов информации, циркулирующей по каналам связи, требует в частности так же и существенного уплотнения потоков речевой информации, передаваемой по цифровым каналам связи. Добиться существенного уплотнения можно с использованием речевых технологий. Например, имея модули распознавания и синтеза речи можно создать вокодеры со скоростью до 100 бит/сек. Тогда как иные подходы даже в перспективе вряд ли позволят передавать речь со скоростью ниже 600 бод.

С другой стороны, перспективу использования речевого канала общения человека с компьютером делают доступной технический прогресс, высокие научные достижения в области исследования речи, а так же успехи в программистской теории и практике. Ниже перечислены факторы, обеспечивающие техническую подготовленность к решению этой задачи:

• Повышение производительности процессоров.

• Возможность использования больших объемов оперативной памяти.

• Появление надежных и компактных устройств цифрового ввода сигналов с высокой точностью и скоростью обработки на основе специализированных цифровых процессоров.

• Повышение качества и высокая доступность оконечной звуковой аппаратуры (микрофон, динамики, встроенные системы подавления шумов). Перечислим факторы, связанные с научной основой рассматриваемой

проблемы:

• Сегодня мы наблюдаем высокий уровень развития теоретической базы и практических исследований в мире.

• Появились и получили широкое распространение надежные методы рас-

познавания, не требующие настройки на диктора и обеспечивающие работу в реальном времени.

• Быстрыми темпами идет накопление обширного инструментария для исследований речи и разработки алгоритмов распознавания и синтеза речи, среди которых: методы обработки и анализа сигналов, методы выделения параметров, речевые корпуса.

• Высокий уровень фонетических знаний о русской речи требует своего отражения в практических алгоритмах и системах.

1.2. Речевой ввод/ввод как развитие человеко-машинных интерфейсов

1.2.1. Речевой канал ввода/вывода

Идея речевого ввода информации в компьютер возникла на самой ранней стадии развития компьютерной эры.

В общем виде схема речевого общения человека с компьютером представлена на рисунке 1.1. Имеется преобразователь звучащей речи в сигнал, воспринимаемый компьютером, распознаватель, превращающий этот сигнал в текст; преобразователь, синтезатор речи и устройство озвучивания сигнала.

Рисунок 1.1- Схема речевого общения человека с компьютером

Если раскрыть подробнее блок обработки, то схема становится сложнее. Имеется узел управления диалогом, который, в частности, содержит словарь, используемый при распознавании и/или синтезе. Остальные блоки традицион-ны: база данных и переход в новый узел.

/ Синтез речи

V )

Распознавание речи

переход

список узлов диалога

БД

Управляющее воздействие

Рисунок 1.2 - Схема реализации речевого диалога человека с компьютером

Наличие обратной связи между блоком обработки (узлом диалога) и системой распознавания речи позволяет существенно редуцировать задачу распознавания за счет уменьшения словаря и/или ожидания ограниченного числа семантических или синтаксических конструкций.

При разработке конкретных систем, разумеется, возникает множество различных задач. Те из них, которые специфичны для речевого общения, группируются вокруг двух основных проблем, решение которых в полном объеме дает ключ к построению огромного числа прикладных систем.

Первая проблема может быть обозначена как распознавание речи и характеристик голоса говорящего, вторая - синтез речи, включая восстановление

похожести голоса. Сегодняшний уровень техники и научных исследований не позволяет решить эти задачи полностью. Поэтому они рассматриваются в определенных условиях, выявляющих специфику конкретных ситуаций (уровень шума, объем словаря, возможность настройки на диктора и т.п.). Однако из общности постановки следует, что вне зависимости от специализированных приемов, направленных на частные решения, имеется целый ряд методов, используемых практически всюду. Это касается первичной обработки и преобразований сигнала, методов дискретного и непрерывного распознавания, лингвистической обработки и др. Кроме того, при решении всех рассматриваемых проблем используется достаточно сложный инструментарий разработчика, большие акустические и фонетические базы данных и словари.

1.2.2. Прикладные аспекты использования речевого интерфейса

В качестве простейших примеров использования речевого интерфейса можно привести следующие:

• Использование синтеза речи по тексту для озвучивания информации, получаемой из компьютера (возможно и без распознавания речи). Например - озвучивание ответов информационно-справочной службы мобильного оператора.

• Распознавание небольшого количества команд. Примеры:

- Распознавание цифр (голосовой набор номера телефона)

- Речевое управление приложением, где на входе ожидается выбор из небольшого заранее известного количества альтернатив

- Мониторинг состояния машиниста поезда путем речевого подтверждения сигнала светофора. По этому примеру видно, что малый словарь, вообще говоря, не означает легкость решения задачи. Так в данной задаче требуется распознавание всего трех слов, но в условиях крайней зашумленности и с требованием очень малой вероятности ошибки.

- Управление функциями бортового компьютера автомобиля: радио,

климат-контроль, GPRS... Здесь словарь больше, а критичность ошибки разная - в зависимости от функции.

Более разветвленный речевой диалог возникает в таких задачах, как речевое управление телефонным коммутатором, где присутствует дерево словарей и минимальная обратная связь, или заказ билетов по телефону, когда необходимость распознавать адрес может резко осложнить задачу.

В случае разветвленного речевого диалога мы имеем систему, управляемую заранее построенным графом диалога из управляющих шаблонов, при этом увеличивается размер словаря распознаваемых слов, однако в каждый момент словарь зависит от текущего состояния в графе диалога. Заметим также, что в интерактивных системах можно существенно повышать качество распознавания за счет повторного ввода сомнительных речевых сообщений и/или усложнения диалога.

Следующий уровень сложности речевого интерфейса представляют такие интеллектуальные речевые системы, как:

• Система диктовки ("автоматическая пишущая машинка") - программа, которая распознаёт произвольное речевое сообщение и записывает его в текстовом виде;

• Доступ к данным по телефону (Voice Portal);

• Речевой ввод и озвучивание сообщений электронной почты;

• Полнотекстовая индексация архивов с аудио и видео информацией;

• Интеллектуальные поисковые Интернет-системы с речевым общением на естественном языке;

• Автоматический перевод звучащей речи на другой язык. Здесь кроме распознавания речи на языке 1 и синтеза речи на языке 2, присутствует такой компонент, как автоматический перевод, по сложности даже превосходящий первые две задачи.

Следует также упомянуть задачи, решение которых связано с применением элементов речевого ввода в прикладных системах. Отметим при этом, что для их решения проблема распознавания речи дополняется задачей выделения

параметров голоса говорящего. Среди них:

• Использование идентификации говорящего в качестве ключа доступа к системам с разграничением доступа.

• Сжатие речи для хранения и передачи по каналам связи с целью создания низкоскоростных речевых преобразователей (вокодеров). С помощью распознавания речи с сохранением параметров голоса диктора речь преобразуется в текст с тем, чтобы после передачи по каналам связи синтезировать речь, обеспечив узнаваемость голоса.

• Автоматические фонетические тренажёры (помощь в обучении иностранному языку)

• Приспособления и компьютерные системы для помощи инвалидам (слепым, глухим, немым, парализованным)

1.3. Современное состояние речевых технологий в мире

Исследования в области автоматического синтеза слитной звучащей речи по тексту, введенному в ЭВМ, ведутся в мире много лет и показали большую научную и практическую сложность этой задачи. Сегодня существует несколько программ такого рода, которые показывают приемлемое качество озвучивания текста и находят практическое применение в некоторых специальных системах. Однако применение современных систем синтеза речи не становится повсеместным ввиду того, что они пока не обладают свойством достаточной естественности голоса и естественной просодической интонации "произнесения".

Обратная задача - распознавание текстовой информации по вводимой звучащей речи является еще более сложной задачей искусственного интеллекта. Однако сегодня представляется, что современная степень развития компьютерной техники и соответствующего периферийного оборудования, а так же современные методы программирования, представления данных и распознавания образов дают все предпосылки для успешного решения этих задач.

На рубеже 2000 года на мировом рынке программных продуктов появи-

лось несколько программ, работающих в реальном времени и находящих некоторый коммерческий спрос в таких применениях, как передача информации в дискретной языковой форме ("диктовка"), ПК-интерфейсы, автоматическая телефонная служба, специальные промышленные и военные задачи. Однако технические характеристики этих продуктов не оправдали ожиданий пользователей, результатом чего стало банкротство целого ряда западных компаний, специализирующихся в распознавании речи. Эксперты прогнозируют увеличение рыночного спроса на подобные системы в ближайшем будущем, но подчеркивают, что это впрямую зависит от расширения их возможностей и улучшения точности распознавания. Среди главных требований, предъявляемых к таким системам, отметим в первую очередь увеличение объема словаря без существенной потери качества распознавания. Другими горячими точками здесь являются: распознавание в естественной акустической среде без направленного микрофона, естественный темп слитной речи (сейчас ошибка распознавания здесь примерно в 3 раза больше, чем для медленной или дискретной речи), независимость от голоса пользователя (ошибка распознавания примерно в 2,5 раза больше, чем в дикторо-зависимых системах), спонтанный диалог (ошибка распознавания примерно в 2 раза больше, чем при чтении текста), проблемно-независимое распознавание (ошибка распознавания примерно в 2 раза больше, чем в проблемно-зависимом случае).

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Список литературы диссертационного исследования кандидат наук Богданов, Дмитрий Степанович, 2013 год

Список литературы

1. Atal В. S., "Automatic Speaker Recognition Based on Pitch Contours," J. Acoust. Soc. Am., Vol. 52, pp. 1687-1697, December 1972.

2. B. Gold and L. R. Rabiner, "Parallel Processing Techniques for Estimating Pitch Periods of Speech in the Time Domain," J. Acoust. Soc., Am., Vol. 46, No. 2, Pt. 2, pp. 442-448, August 1969.

3. B. Gold, "Computer Program for Pitch Extraction," J. Acoust. Soc. Am, Vol. 34, No. 7, pp. 916-921, 1962.

4. Brugnara, F., Falavigna, D. And Omologo, M. "A HMM-based System for Automatic Segmentation and Labeling of Speech", // Proc. ICSLP'92, Banff, 1992. p. 803-806.

5. Carlson, R., Granstrom, В., and Nord, L. The KTH Speech Database, in: Speech Communication, 9, 1990, pp. 375-380.

6. D. Kanevsky, M. Monkowski, J. Sedivy. Large Vocabulary Speaker-Independent Continuous Speech Recognition in Russian Language. Proceedings of International workshop "Speech and Computers - SpeCom'96", St.Peterburg, October, 1996, p 117-122.

7. E. Rosenberg and M. R. Sambur, "New Techniques for Automatic Speaker Verification," IEEE Trans. Acoust., Speech, and Signal Proc., Vol. ASSP-23, pp. 169176, April 1975.

8. Fisher, W., Zue, V., Bernstein, J., and Pallet, D. An Acoustic-Phonetic Data Base, in: 113th Meeting of the Acoustical Society of America. 1987.

9. G. Fant, Acoustic theory of speech production. The Hague. 1960.

10.Gold B. and Rabiner L. R., "Parallel Processing Techniques for Estimating Pitch Periods of Speech in the Time Domain," J. Acoust. Soc., Am., Vol. 46, No. 2, Pt. 2, pp. 442-448, August 1969.

1 l.Gold В., "Computer Program for Pitch Extraction," J. Acoust. Soc. Am, Vol. 34,

No. 7, pp. 916-921, 1962. 12.H. Levitt, "Speech Processing Aids for the Deaf: An Overview," IEEE Trans. Audio and Electroacoustics, Vol. AU-21, pp. 269-273, June 1973.

13.H.Bourlard, C.J.Wellekens, "Links between Markov models and multilayer perception", IEEE Trans. Pattern Anal. Machine Intell.,vol.l2,no.l2,pp.l 167-1178,Dec. 90.

14.H.Bourlard, N.Morgan, "Continuous speech recognition by connectionist statistical methods. IEEE Trans. On neural networks, vol.4, no 6, pp.893-909,Nov. 1993.

15.Hedelin, P., and Huber., D. The CTH Speech Database: An Integrated Multilevel Approach, in: Speech Communication, 9, 1990, pp. 365-374.

16.Hon, H. Vocabulary-Independent Speech Recognition: The VOCIND System. Pittsburgh. 1992.

17.J. J. Dubnowski, R. W. Schafer and L. R. Rabiner, "Real-time digital hardware pitch detector", IEEE Trans. Acoust., Speech, Signal Processing, pp. 2-8, vol ASSP-24, feb 1976.

18.J. L. Flanagan, Speech Analysis, Synthesis and Perception, 2nd Ed., Springer Verlag, N.Y., 1972.

19.Jelinek F. The Development of an experimental Discrete Dictation Recognizer - In Proceedings of the IEEE, 1985.-vol. 73,no. 11, cTp.1616-1624

20.Joseph W. Picone, Signal Modeling Techniques in Speech Recognition, Proceedings of the IEEE, vol. 81, No 9, September 1993, Pg 1215-1247.

21.David Weenink and Paul Boersma Praat: doing phonetic by computer http://praat.org

22.Juang B.H., Chou W. Lee C.H. Statistical and discriminative methods for speech recognition. Automatic Speech and Speaker Recognition. Advanced Topics, Kluwer Academic Publications, 1996 pp. 109-132

23.Karpov A.A., Ronzhin A.L. Speech Interface for Internet Service Yellow Pages // Intelligent Information Processing and Web Mining: Advances in Soft Computing, Proc. of the International IIS: IIPWM'05 Conference, Gdansk, Poland, Springer-Verlag, 2005. c. 219-228.

24.L. R. Rabiner, "On the Use of Autocorrelation Analysis for Pitch Detection," IEEE Trans. Acoust., Speech and Signal Proc., Vol. ASSP-25, No. 1, pp. 24-33, February 1977.

25.L. R. Rabiner, M. J. Cheng, A. E. Rosenberg, and C. A. McGonegal, "A Comparative Performance Study of Several Pitch Detection Algorithms," IEEE Trans. Acoust., Speech, and Signal/ Proc., Vol. ASSP-24, No. 5, pp. 399-418, October 1976.

26.Ljolje, A., and Riley, M.D. "Automatic Segmentation and Labeling of Speech", // Proc. ICASSP'91, Toronto, 1991. p. 473-476.

27.M. J. Ross, H. L. Shaffer, A. Cohen, R. Freudberg, and H. J. Manley, "Average Magnitude Difference Function Pitch Extractor," IEEE Trans. Acoust., Speech and Signal/ Proc., Vol., ASSP-22, pp. 353-362, October 1974.

28.M. M. Sondhi, "New Methods of Pitch Extraction," IEEE Trans. Audio and Elec-troacoustics, Vol. AU-16, No. 2, pp. 262-266, June 1968

29.M. Noll "Ceptstrum pitch determination", J. Acoust. Soc. Amer., pp. 203-309, vol 41, feb. 1967.

30.Morgan N, Bourlard H. Neural Network for Statictical Recognition of Continuous Speech, Proceedings of IEEE, Vol 83, No 5, 1995, pp.742-770

31.Myers C. S., Rabiner L. R. A Level Building Dynamic Time Warping Algorithm for Connected Word Recognition. - IEEE Trans. ASSP-29, 1981. - No. 2, стр. 284-297

32.0parin I, Talanov A. Stem-Based Approach to Pronunciation Vocabulary Construction and Language Modeling for Russian // Proc. of 10-th International Conference "Speech and Computer" SPECOM'2005, Patras, Greece.

33.Petr Pollak, Jan Volin, Radek Skarnitzl Фонетическая сегментация, основанная на скрытых Марковских моделях, реализованная в среде Praat // SPECOM'2007, г. Москва 15-18 октября 2007 г.

34.Read, С., Buder, Е., & Kent, R. "Speech Analysis Systems: An Evaluation" Journal of Speech and Hearing Research, pp 314-332, April 1992

35.Rosenberg A. E. and Sambur, M. R. "New Techniques for Automatic Speaker Verification," IEEE Trans. Acoust., Speech, and Signal Proc., Vol. ASSP-23, pp. 169-176, April 1975.

36.Sakoe H, Chiba S. Recognition of Continuously Spoken Words based on Time-

Normalization by Dynamic Programming. - J. Acoust. Soc. Japan, 1971 - 7, 9, стр. 483-490

37.Т. P. Barnwell, J. E. Brown, A. M. Bush, and C. R. Patisaul, "Pitch and Voicing in Speech Digitization," Res. Rep. No. E-21-620-74-B4-1, Georgia Inst, of Tech., August 1974.

38.T. W. Parks and C. S. Burrus, Digital Filter Design, John Wiley & Sons, 1987, chapter 7, section 7.3.7-8.

39.Zhozhikashvili V.A., Farkhadov M.P., Petukhova N.V., Zhozhikashvili A.V. The first voice recognition applications in Russian language for use in the interactive information systems // 9th International Conference SPEC0M'2004/St.-Petersburg: "Anatoliya", 2004.

40.Zue, V., Glass,J., Phillips, M., and Seneff, S. The MIT SUMMIT System: A Progress Report, in: Proceedings of DARPA Speech and Natural Language Workshop. 1989.

41.A.B. Архипов, О.Ф. Кривнова, A.A. Лебедев, Речевой корпус «Интонация русского диалога» // Proceedings of 14th International Conference "SPEECH and COMPUTER" SPECOM 2011, 27-30 September, 2011, Kazan, Russia

42.Баранников B.A., Кибкало A.A. Пакет программ построения систем распознавания речи // Труды III Всероссийской конференции "Теория и практика речевых исследований" АРСО-2003. Москва, МГУ им. М.В. Ломоносова, сентябрь 2003.

43.Винцюк Т.К. Распознавание слов устной речи методами динамического программирования. Кибернетика, 1968, № 1,с. 81-88.

44.Галунов В.И., Кочанина Ю.Л., Остроухов А.В. Речевые базы данных русского языка в рамках европейских программ "SPEECHDAT" //Труды Международной конференции «100 лет экспериментальной фонетике в России», Санкт-Петербург, 1—4 февраля 2001 г.

45.Дорохина ГВ, Павлюкова А.П. Модуль морфологического анализа слов русского языка // Искусственный интеллект. 2004. № 3.

46.Жожикашвили В.А., Петухова Н.В., Фархадов М.П. Компьютерные системы

массового обслуживания и речевые технологии // Проблемы управления № 2, М., 2006 с. 304-308

47.Захаров Л.М., Кривнова О.Ф., Строкин Г.С. Подбор текстового материала и статистический инструментарий для создания речевых корпусов // Труды XI сессии РАО, М., 2001.

4 8. Инструментальная система Sakrament ASR Engine // http ://www. Sakrament, com/

49.Инструментальная система Sakrament Speech Analyst // http ://www. Sakrament, com/

50.Карпов A.A., Ронжин АЛ, Ли ИВ. SIRIUS - система дикторонезависимого распознавания слитной русской речи // Известия ТРТУ. 2005. № 10.

51.Косарев Ю.А. Естественная форма диалога с ЭВМ. Л.: Машиностроение, 1989.

52.Кочаров Д., Тананайко С., Садуртинова К., Программа статистической обработки корпуса речевых данных // Proceedings of 14th International Conference "SPEECH and COMPUTER" SPECOM 2011, 27-30 September, 2011, Kazan, Russia

53.Кривнова О. Ф. The Problem of Choice and Preparation of a Text Material for Speech Corpora // Proceedings of International Workshop SPECOM'2006. St. Petersburg. 2006.

54.Кривнова О.Ф. Области применения речевых корпусов и опыт их разработки // Труды XVIII сессии Российского акустического общества РАО. Таганрог, 2006. с. 81-84.

55.Кривнова О.Ф. Фонетическое обеспечение для построения речевого корпуса // Труды XIII сессии Российского акустического общества РАО. М., 2003.

56.Кривнова О.Ф., Захаров Л. М., Строкин Г. С. // Многофункциональный автоматический транскриптор русских текстов// Труды Международного конгресса "Русский язык: исторические судьбы и современность". М., 2001.

57.Кривнова О.Ф., Речевые корпуса на новом технологическом витке // Речевые технологии № 2, М., 2008

58.Кривнова О.Ф.. Области применения речевых корпусов и опыт их разработки // Труды XVIII сессии Российского акустического общества РАО. Таганрог. 2006.

59.Кривнова О.Ф.. Фонетическое обеспечение для построения речевого корпуса // Сборник трудов XIII сессии Российского акустического общества. Т. 3. -М.: ГЕОС, 2003. - (274 с.) стр.118-122

60.Кузнецов В., Чучупал В., Маковкин К., Чичагова А. Проектирование и внедрение русской телефонной базы (TeCoRus). // «Речь и компьютер», Москва, 1999, с. 179-181.

61.Ладошко О. П. Разметка спонтанной украинской речи // Электроника и связь, тематический выпуск Электроника и нанотехнологии. 2011. № 1. с. 97-103.

62.Людовик Т.В., Сажок H.H. Использование речевых баз данных большого объема при синтезе речи в системах искусственного интеллекта // Проблемы управления и информатики, 2003, №6. С. 82-87.

63.Мисюрёв A.B., Подрабинович А .Я, Брухтий A.B. Использование искусственной нейронной сети для оценки близости векторов акустических параметров. // В сб. «Интеллектуальные технологии ввода и обработки информации». М., Эдиториал УРСС, 1999.

64.0бжелян Н.К., Трунин-Донской В.Н.. Речевое общение в системах "человек-ЭВМ". Кишинев, "Штиинца", 1985.

65.Передача речи по трактам радиотелефонной связи. Требования к разборчивости речи и методы артикуляционных измерений. ГОСТ 16600-72, Москва, 1973.

66.Р.К. Потапова, Речевое управление роботом: лингвистика и современные автоматизированные системы. M., URSS, 2005. 328 с.

67.Ронжин А. Л., Ли И. В., Автоматическое распознавание русской речи //Вестник Российской академии наук, 2007, том 77, № 2, с. 133-138

68.Степанова С. Б., Асиновский А. С, Богданова П. В., Русакова М. В., Шерстинова Т. Ю. Звуковой корпус русского языка повседневного

общения «Один речевой день»: Концепция и состояние //Труды международной конференции «Диалог2008». М., 2008. С. 488-495.

69.Трунин-Донской, В.Н. Опознавание набора слов с помощью цифровой вычислительной машины // Работы по технической кибернетике. -М.: ВЦ АН СССР, 1967. - С. 37-51.

70.Фант, Г. Анализ и синтез речи / пер. с англ. B.C. Лозовского и Н.В. Ба-хмутовой под ред. Н.Г. Загоруйко. Новосибирск, «Наука», 1970, 167 с.

71.Фланаган Д.Л. Анализ, синтез и восприятие речи. М., Связь, 1968.

72.Фланаган Д.Л. Речевое общение человека с машиной. // ТИИЭР, т.64, № 4, 1976.

73.Холоденко А.Б. Использование лексических и синтаксических анализаторов в задачах распознавания для естественных языков // Интеллектуальные системы. Т. 4. Вып. 1-2. 1999. с. 185-193.

74.Чучупал В.Я. Разметка разговорного речевого материала // Речевые технологии, 2009, том 4, М., стр. 12-24

75.Чучупал В.Я, Маковкин К.А., Чичагов A.B. К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи // Искусственный интеллект. 2002. № 2. с. 575-579

76.Шелепов В.Ю, Ниценко В.Ю. К проблеме по фонемного распознавания // Искусственный интеллект. 2005. № 4.

77.Шмырёв Н.В. Свободные речевые базы данных VoxForge.org // Труды международной конференции «Диалог 2008», М.,2008

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.