Оптимизация библиотеки эталонов в задачах распознавания речевых команд тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Крашенинникова, Наталья Александровна
- Специальность ВАК РФ05.13.18
- Количество страниц 138
Оглавление диссертации кандидат технических наук Крашенинникова, Наталья Александровна
Список сокращений, принятых в диссертации
Введение
Глава 1. Речевой сигнал, распознавание речевых команд по их 10 эталонам
1.1. Система речеобразования
1.2. Фонетический состав речи
1.2.1. Звуковой и фонетический состав русского языка
1.2.2. Звуковой и фонетический состав английского языка
1.3. Слуховая система
1.3.1. Устройство слуховой системы
1.3.2. Восприятие звуков речи
1.4. Методы представления речевых сигналов
1.5. Вариативность речевых сигналов
1.5.1. Основные характеристики вариативности речевых сигналов
1.5.2. Моделирование вариативности речевых сигналов с помощью 33 авторегрессионных моделей
1.5.3. Исследование восприятия имитированных РК на слух
1.5.4. Применение моделирования вариативности речи в обучении 42 иностранным языкам
1.6. Методы и системы распознавания речевых команд
1.6.1. Обзор систем распознавания речевых команд
1.6.2. Основные факторы, мешающие распознаванию речевых команд
1.6.3. Методы распознавания речевых команд
1.6.4. Основной применяемый метод распознавания речевых команд
1.7. Влияние состава библиотеки эталонов речевых команд на 62 качество их распознавания
1.8. Выводы
Глава 2. Речевой сигнал, распознавание речевых команд по их 68 эталонам
2.1. Постановка задачи формирования библиотеки эталонов 68 речевых команд
2.2. Критерии качества библиотеки эталонов речевых команд
2.3. Аналогия с задачей кластеризации
2.4. Алгоритмы оптимизации библиотеки эталонов речевых 76 команд
2.4.1. Полный и частичный переборы вариантов библиотеки эталонов 77 речевых команд
2.4.2. Алгоритм улучшения имеющегося решения (направленный 78 перебор)
2.4.3. Гравитационный алгоритм
2.5. Библиотеки с разными количествами эталонов
2.6. Проблема старения эталонов
2.7. Формирование словаря речевых команд из множества 90 синонимов
2.7.1. Постановка задачи
2.7.2. Методы формирование словаря речевых команд. 93 Нахождение расстояний между речевыми командами. Учет вариативности речи
2.8. Выводы
Глава 3. Комплекс программ для формирования словаря речевых 110 команд и библиотеки их эталонов
3.1. Состав комплекса программ
3.2. Распознавание РК
3.2.1. Обнаружение границ РК
3.2.2. Построение автокорреляционных портретов речевых команд
3.2.3. Совмещение автокорреляционных портретов
3.2.4. Распознавание команд и подсчет результата
3.2.5. Формирование матрицы расстояний между РК
3.2.6. Выбор эталонов РК
3.2.7. Графический интерфейс комплекса программ для 117 формирования библиотеки эталонов РК
3.2.8. Расчет времени формирования матрицы расстояний между РК
3.2.9. Аппаратные требования для систем 121 3.3. Выводы 122 Заключение 123 Список использованных источников 125 Приложение. Акт внедрения результатов диссертационной работы
Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Моделирование и распознавание речевых сигналов на фоне интенсивных помех2006 год, кандидат технических наук Армер, Андрей Игоревич
Методы и модели распознавания русской речи в информационных системах2014 год, кандидат наук Гусев, Михаил Николаевич
Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд2010 год, кандидат технических наук Гладышев, Константин Константинович
Разработка алгоритма автоматического формирования фонетической базы данных на основе информационной теории восприятия речи2009 год, кандидат технических наук Карпов, Николай Вячеславович
Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи2011 год, кандидат технических наук Кипяткова, Ирина Сергеевна
Введение диссертации (часть автореферата) на тему «Оптимизация библиотеки эталонов в задачах распознавания речевых команд»
Актуальность темы. В настоящее время большое распространение имеют различные информационно-управляющие системы. Эти системы особенно удобны, когда оператор может общаться с ними естественным для себя образом - на родном языке с помощью речевых команд (РК). Поэтому большое внимание исследователей уделяется созданию речевых информационно-управляющих систем (РИУС). Такие системы особенно полезны на транспорте и производстве, когда требуется управлять исполнительными механизмами, получать информацию об их состоянии и окружающей обстановке и снизить нагрузку на оператора. Подобные системы должны функционировать в условиях интенсивных помех (шума двигателя, ветра и т.д.). Поэтому актуальны исследования в области распознавания РК на фоне сильных шумов. В настоящее время существуют системы распознавания РК, работоспособные при малых шумах, однако они не пригодны в шумной среде. В связи с этим распознавание РК на фоне интенсивных шумов является важной научно-технической проблемой.
В условиях сильных шумов обычно применяется дикторозависимое распознавание РК с использованием библиотеки эталонов речевых команд (ЭРК), и, как показывают эксперименты, качество распознавания в существенной мере зависит от того, насколько удачно сформирована эта библиотека.
Эта библиотека должна отражать изменчивость (вариативность) произнесения РК и не быть слишком большой, то есть каждая РК не должна иметь много эталонов. Задача выбора эталонных элементов рассматривается в теории распознавания образов и имеет много общего с задачей кластеризации (тогда эталоны - центры кластеров). Однако задача кластеризации рассматривалась, в основном, для элементов в некотором пространстве количественных признаков. Центр кластера (эталон) при этом обычно не обязательно является элементом этого кластера, это какой-то усреднённый элемент. В то же время существуют работоспособные алгоритмы распознавания РК, для которых не удается указать евклидово пространство признаков. В таких алгоритмах для каждой пары РК некоторым образом вычисляется степень их «несхожести», то есть некоторое подобие метрики (расстояния) между этими РК. Алгоритм относит распознаваемую РК к ближайшей ЭРК в смысле этой метрики. Поэтому актуальной задачей является разработка методов формирования библиотеки ЭРК для таких алгоритмов распознавания. Особенность здесь в том, что заданы только расстояния между РК и в качестве эталонов можно брать только имеющиеся РК.
При проектировании РИУС иногда бывает возможным выбор словаря, то есть самих РК, из множества допустимых синонимов. Отсюда возникает задача оптимизации этого словаря.
Таким образом, тема диссертации, связанной с повышением качества работы РИУС за счёт оптимизации словаря и библиотеки ЭРК, является актуальной.
Об актуальности названных задач свидетельствует ряд научных федеральных программ, направленных на их решение. В частности, «Исследования и разработки по приоритетным направлениям развития науки и техники» Федерального агентства по науке и инновациям, «Теория человеко-машинных систем управления» РФФИ и др.
Целью диссертации является разработка методов, алгоритмов и программного обеспечения для формирования словаря и библиотеки ЭРК, повышающих качество распознавания РК в условиях интенсивных шумов.
Для достижения поставленной цели решаются следующие задачи.
-Исследование влияния состава библиотеки ЭРК на качество распознавания РК.
-Определение границ применимости авторегрессионной модели вариативности речи при имитации произнесений РК из одного её произнесения диктором для формирования библиотеки ЭРК.
-Исследование различимости фонем русского и английского языков с использованием полученных данных для формирования словаря РК из допустимых синонимов.
-Разработка алгоритмов формирования словаря РК.
-Моделирование процесса распознавания РК со сформированными библиотеками ЭРК.
-Разработка алгоритмов формирования библиотеки ЭРК, учитывающих вариативность произношения и соотношения между различными РК.
-Разработка комплекса программ для ЭВМ, реализующего предложенные алгоритмы.
-В диссертации также рассмотрена задача, связанная с обучением операторов и других учащихся иностранным языкам. Если обучение проводит один преподаватель, то учащиеся привыкают к его произношению и в последствии не сразу воспринимают иностранную речь других людей, что было, в частности, причиной авиакатастроф. Предложено устранение этого недостатка обучения с помощью моделей вариативности речи.
Отметим, что в задачи диссертации не входит разработка или совершенствование самих алгоритмов распознавания РК. Целью является повышение качества распознавания заданного алгоритма за счёт рационального выбора словаря и библиотеки эталонов.
Методы исследования. При решении поставленных задач применялись методы теории вероятностей, математической статистики, теории обработки изображений, оптимизации, математического анализа, численные методы, математическое и статистическое моделирование с применением вычислительной техники.
Положения, выносимые на защиту.
1. Модель вариативности речи в виде отсчетов по траекториям на авторегрессионном изображении позволяет получать варианты произнесения РК из одного её произнесения диктором для формирования библиотеки ЭРК. Эта модель также может быть использована для ускорения приобретения навыков восприятия иностранной речи.
2. Проведенные исследования различимости фонем русского и английского языков позволяют оценить различимость РК, учитываемую при выборе словаря команд из множества допустимых синонимов.
3. Проведенное математическое моделирование процесса распознавания РК показывает, что разработанные алгоритмы формирования словаря и библиотеки эталонов обеспечивают вероятность правильного распознавания, близкую к потенциально достижимой.
Достоверность. Достоверность положений диссертации обеспечивается корректным использованием математических методов и подтверждается результатами статистических экспериментов на реальном речевом материале.
Практическая значимость. Предложенные алгоритмы и реализующие их программы дают разработчикам РИУС возможность повысить надежность систем распознавания РК на фоне интенсивных шумов за счет рационального выбора словаря и библиотеки эталонов РК. Предложенный метод обучения с использованием моделей вариативности речи позволяет ускорить процесс понимания иностранной речи, произносимой разными людьми.
Реализация работы. Результаты работы использованы в госбюджетных и хоздоговорных НИР Ульяновского государственного технического университета и в разработках Ульяновского конструкторского бюро приборостроения, что подтверждено актом внедрения.
Научная новизна.
1. Предложена новая методика формирования словаря РК, основанная на усреднённой различимости фонем.
2. Разработана новая методика формирования библиотеки ЭРК для непараметрических алгоритмов распознавания, когда эталоны следует выбирать из вариантов произнесения РК.
3. Разработан новый метод кластеризации элементов признакового пространства, основанный на математическом моделировании физической системы частиц с гравитационным взаимодействием. Этот метод может быть использован при формировании библиотеки ЭРК для параметрических алгоритмов распознавания.
Апробация работы. Основные результаты работы докладывались на 2-й Международной конф. «ICCSA'2006» (UK, Glasgow, 2006); 5-й Всероссийской с участием стран СНГ научно-практической конференции «Современные проблемы создания и эксплуатации радиотехнических систем» (Ульяновск, 2007); 8-й Международной научно-техн. конф. РША-8-2007 «Распознавание образов и анализ изображений: новые информационные технологии» (Йошкар-Ола, 2007); 62-й научной сессии Российского научно-технического общества радиотехники, электроники и связи им. А.С.Попова, посвященной Дню радио (Москва, 2007) и на конференции профессорско-преподавательского состава Ульяновского государственного университета в 2006 г.
Публикации. По теме диссертации опубликовано 9 статей, одна статья опубликована в издании из перечня ВАК.
Объем и структура диссертации. Диссертация состоит из введения, трех глав, заключения, списка литературы из 112 наименований и приложения. Общий объем 138 страниц.
Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи2010 год, кандидат технических наук Нгуен Ван Хунг
Разработка алгоритмов анализа и распознавания речи на основе адаптивной кластерной модели и критерия минимального информационного рассогласования2011 год, кандидат технических наук Губочкин, Иван Вадимович
Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи2006 год, кандидат технических наук Кушнир, Дмитрий Алексеевич
Алгоритмы распознавания речевых команд в управляющих системах2006 год, кандидат технических наук Литвиненко, Сергей Леонидович
Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах2008 год, кандидат технических наук Синецкий, Роман Михайлович
Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Крашенинникова, Наталья Александровна
Основные результаты диссертации заключаются в следующем.
1. Исследовано влияние состава библиотеки эталонов на вероятность правильного распознавания РК по их АКП. Установлено, что эта вероятность может колебаться в широких пределах (иногда до десятков процентов).
2. Необходимые для формирования словаря варианты произнесения РК можно имитировать из одного её произнесения диктором с помощью модели вариативности РС в виде траекторий на авторегрессионном изображении. Определены показатели различимости имитированных РК алгоритмически и на слух в зависимости от уровня вариативности и интенсивности шумов. Эта модель может быть использована также для ускорения достижения способности учащихся воспринимать иностранную речь разных людей, а не только своего преподавателя.
3. Исследованная различимость фонем русского и английского языков даёт возможность определить различимость РК, используемую при формировании словаря РК из допустимых синонимов.
4. Разработаны алгоритмы оптимизации словаря РК для непараметрических алгоритмов распознавания.
5. Разработан метод кластеризации элементов признакового пространства, основанный на математическом моделировании физической системы частиц с гравитационным взаимодействием. Этот метод может быть использован при формировании библиотеки ЭРК для параметрических алгоритмов распознавания.
6. Проведено математическое моделирование процесса распознавания РК со сформированными библиотеками. Оно показало, что разработанные алгоритмы оптимизации библиотеки ЭРК позволяют получать варианты этой библиотеки, близкие к оптимальным. Во множестве экспериментов оптимизированные библиотеки давали вероятность распознавания, всегда существенно большую её среднего значения, получаемого при случайном выборе библиотеки, и близкую к вероятности распознавания у наилучшего из десятков тысяч наугад выбранных вариантов библиотеки.
7. Разработан комплекс программ для ЭВМ, реализующий предложенные алгоритмы.
ЗАКЛЮЧЕНИЕ
Проведенные исследования позволили повысить качество распознавания за счет оптимизации словаря и библиотеки эталонов РК. Таким образом, поставленная цель диссертации может считаться достигнутой.
Список литературы диссертационного исследования кандидат технических наук Крашенинникова, Наталья Александровна, 2007 год
1. Альтман Я. А. Слуховая система. JL: Наука, 1990. - 620 с.
2. Асаи К., Ватада Д., Иваи С. и др. Распознавание речи // Прикладные нечёткие системы. Под ред. Тэрано Т., Асаи К., Сугено M. М.: Мир, 1993.-С. 157-171.
3. Беллман Р., Заде J1. Принятие решений в расплывчатых условиях. // Вопросы анализа и процедуры принятия решений. М. Мир, 1976. -С. 172-215.
4. Берштейн JI.C., Боженюк A.B. Нечеткие модели принятия решений: дедукция, индукция, аналогия. Монография. Таганрог: Изд-во ТРТУ, 2001.-110 с.
5. Блауэрт И. Пространственный слух. М.: Энергия, 1979. - 224 с.
6. Бойков Ф.Г., Старожилова Т.К. Применение вейвлет-анализа сигнала в системе распознавания речи // Труды международной конференции «Диалог 2003», Звенигород, 2003. С. 12 - 19.
7. Вартанян И.А. Слуховой анализ сложных звуков. Л.: Наука, 1978.-151 с.
8. Вельмисов А.П. Алгоритм нечеткой кластеризации. Труды средневолжского математического общества. Т.8, №1 Саранск: Средневолжское математическое общество, 2006г. - С. 192 - 197.
9. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. К.: Наукова думка, 1987. - 264 с.
10. Воробьев В.И., Грибунин В.Г. Теория и практика вейвлет-преобразования. С-Пб.: ВУС, 1999. - 204 с.
11. Галунов В.И. Речь как система. // Труды XIII сессии РАО, т. 3, 2003.-С. 19-21.
12. Галунов В.И., Соловьев А.Н. Современные проблемы в области распознавания речи // Информационные технологии и вычислительные системы. Вып. 2. Под. ред. C.B. Емельянова, 2004. 112 с.
13. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высш. шк., 1998. - 479с.
14. Горелик А.Л., Скрипкин В.А. Методы распознавания. М: Высшая школа, 2004. - 261 с.
15. Гудонавичюс Р.В., Кемешис П.П., Читавичюс А.Б. Распознавание речевых сигналов по их структурным свойствам. JL: Энергия, 1977. - 64 с.
16. Добеши И. Десять лекций по вейвлетам. Ижевск: НИЦ "Регулярная и хаотическая динамика", 2001. - 464 с.
17. Елинек Ф. Распознавание непрерывной речи статистическими методами //ТИИЭР-М., 1976, №4.-С. 131-160.
18. Жожикашвили В.А., Жожикашвили A.B., Петухова Н.В., Фархадов М.П. Применение распознавания речи в автоматизированных системах массового обслуживания// Автоматизация и современные технологии, 2003, №11. С. 23 - 29.
19. Журавлёв Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики, 1978, вып. 33.-С.5-68.
20. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. -Новосибирск: ИМ СО РАН, 1999. 273 с.
21. Загоруйко Н.Г., Лбов Г.С. Выбор информативного подмножества элементов с применением методов распознавания образов // Труды 5-й Международной конф. «Распознавание образов и анализ изображений» РОАИ-5-2000. Самара, 2000. - С. 47 - 51.
22. Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений. М. Мир, 1976. - 165 с.
23. Златоустова Л.В., Михайлов В.Г. Спорные вопросы теории восприятия единиц речи // Вестник МГУ, Филология, 1995. С. 18-24.
24. Иванов A.B., Петровский A.A. Методы построения устройств распознавания речи на базе гибрида нейронная сеть/скрытая Марковская модель // Нейрокомпьютеры: разработка, применение, 2002, №12.-С. 26-36.
25. Калинов Д.В. Моделирование и фильтрация речевых сигналов с использованием преобразования в изображения // Диссертация на соискание ученой степени кандидата технических наук. Ульяновск, 2003.-141 с.
26. Киселёв В.В., Таланов А.О., Тампель И.Б., Татарникова М.Ю., Хохлов Ю.Ю. Автоматический поиск ключевых слов в непрерывном потоке речи на основе технологии "распознавание через синтез". Центр речевых технологий, Санкт-Петербург, http://www.speechpro.ru/
27. Книппер A.B. Индивидуальные вариации длительности элементов речи // Речевая информатика. Сборник трудов под ред. В.В. Зяблова. М.: Наука, 1989. - С. 34 - 48.
28. Кодзасов C.B. Общая фонетика. М.: РГГУ, 2001. - 592 с.
29. Крашенинников В.Р. Основы теории обработки изображений. -Ульяновск: УлГТУ, 2003. 151 с.
30. Крашенинников В.Р., Армер А.И. Зашумление эталонов в задачах обнаружения и распознавания сигналов на фоне помех // Вестник УлГТУ. Апрель-июнь (26) 2/2004, Ульяновск: УлГТУ, 2004. -С. 54-57.
31. Крашенинников В.Р., Армер А.И. Модель изменчивости речевых команд // Вестник УлГТУ 4/2004, Ульяновск: УлГТУ, 2004. С. 44 - 46.
32. Крашенинников В.Р., Армер А.И. Распознавание речевых сигналов на фоне шумов // «Распознавание образов и анализ изображений: новые информационные технологии». Труды седьмой международной конференции РОАИ-7, С-Пб, 2004. С. 752 - 755.
33. Крашенинников В.Р., Армер А.И., Крашенинникова H.A., Хвостов A.B. Распознавание речевых команд на фоне интенсивных помех с помощью авторегрессионных портретов // Наукоемкие технологии. Москва, 2007, № 9. - С. 65 - 74.
34. Крашенинников В.Р., Калинов Д.В. Спиралевидная авторегрессионная модель квазипериодического сигнала, связанная с изображением на цилиндре // Вестник УлГТУ. Сер. Информационные технологии, №3,2000. С. 4 -10.
35. Крашенинников В.Р., Ташлинский А.Г., Армер А.И. Устройство распознавания речевых команд в условиях шумов // Патент РФ № 2267820 от 10.01.2006.
36. Крашенинников И.В. Периодическое комплексирование речевых сигналов в изображение // Труды Международной конференции "Методы и средства преобразования и обработки аналоговой информации", т. 3. Ульяновск: УлГТУ, 1999. - С. 56 - 58.
37. Крашенинникова H.A. К вопросу о распознавании речевых команд в информационно-управляющих системах // Электронная техника: Межвузовский сборник научных трудов. Выпуск восьмой. -Ульяновск: УлГТУ, 2006. С. 77 - 83.
38. Кринов С.Н., Слуцкер Г.С. Экспериментальная дикторонезависимая система понимания слитной речи // Речеваяинформатика. Сборник трудов под ред. В.В. Зяблова. М.: Наука, 1989. -С. 87-95.
39. Лабутин В.К., Молчанов А.П. Слух и анализ сигналов. М.: Энергия, 1967. - 79 с.
40. Лабутин В.К. Молчанов А.П. Модели механизмов слуха. М.: Энергия, 1973.- 200 с.
41. Левин Е.К., Левин К.Е. Моделирование процесса создания эталонов голосовых команд для систем автоматического распознавания речи // Цифровая обработка сигналов. Москва, 2002, № 2(6)/2002. - С. 21-22.
42. Мазуренко И.Л. Компьютерные системы распознавания речи. // Интеллектуальные системы, т.З. вып. 1 2 - Москва, 1998. - С. 117 -134.
43. Мазуренко И.Л. Одна модель распознавания речи. В сб.: Компьютерные аспекты в научных исследованиях и учебном процессе -М.: Издательство Московского университета, 1996. с. 136 - 147.
44. Маковелл Д. Квантование вектора в кодировании речи // ТИЭР, 1985, т.73, №11. С. 19-60.
45. Малеев О.Г., Козлов Ю.М. Способ дикторонезависимого распознавания изолированных речевых команд // Патент РФ № 2103753 от 03.02.1997 г.
46. Маркел Дж. Д., Грэй А.Х. Линейное предсказание речи / Пер. с англ. М.: Связь, 1980. - 308 с.
47. Михайлов В.Г. К теории восприятия звучащей речи: соотношение акустических и перцептивных параметров // Акустический журнал, т. 43, №2,1997. С. 219 - 224.
48. Михайлов В.Г., Златоустов Л.В. Измерение параметров речи. -М.: Радио и связь, 1987. 167 с.
49. Мясникова E.H. Объективное распознавание звуков речи. Л.: Изд-во «Энергия», 1967. - 148 с.
50. Обработка нечеткой информации в системах принятия решений / Борисов A.B., Алексеев A.B., Меркурьева Г.В. и др. М.: Радио и связь, 1989-304 с.
51. Пиконе Дж. Методы моделирования сигнала в распознавании речи / Пер. с англ. Р. Попов. Кемерово, 2000. - 79 с.
52. Потапова P.K. Речевое управление роботами. М.: Радио и связь, 1989.-248 с.
53. Потапова Р.К. Речь: коммуникация, информация, кибернетика. -М.: Радио и связь, 1997. 568 с.
54. Проблемы построения систем понимания речи. // Под ред. Цемель Г.И., Сорокина В.Н. -М.: Наука, 1980. 144 с.
55. Прохоров Ю.Н. Статистические методы и рекуррентное предсказание речевых сигналов. М.: Радио и связь, 1984. - 240 с.
56. Прохоров Ю.Н. Рекуррентное оценивание параметров. В кн.: Проблемы построения систем понимания речи - М.: Наука, 1980. - С. 97- 109.
57. Рабинер JI.P., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ. под ред. М.В. Назарова, Ю.Н. Прохорова. М.: Радио и связь, 1981. - 495 с.
58. Рабинер JI.P. Скрытые Марковские модели и их применение в избранных приложениях при распознавании речи: Обзор. // ТИИЭР -М., 1989,№2.-С. 86- 120.
59. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963. - 452 с.
60. Сорокин В.Н. Временные параметры элементов русской речи // Речевая информатика. Сборник трудов под ред. В.В. Зяблова. М.: Наука, 1989.-С. 5-33.
61. Сорокин В.Н. Теория речеобразования. М.: Радио и связь, 1985.-312 с.
62. Сорокин В.Н., Суханов В.А. Скрытые марковские модели в распознавании речи // Речевая информатика. Сборник трудов под ред. В.В. Зяблова.-М.: Наука, 1989.-С. 104-118.
63. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964.-283 с.
64. Федоренко О.Г. Разработка и исследование методов повышения эффективности программно-аппаратных вычислительных средств обработки речевых сигналов // Автореферат диссертации на соискание ученой степени к.т.н. Таганрог: ТРТУ, 1999. - 19 с.
65. Федяев О.И., Гладунов С.А. Нейросетевой интерпретатор речевых команд для управления программными системами // Труды 7-й всероссийской конференции «Нейрокомпьютеры и их применение» /
66. Под редакцией А.И. Галушкина. М.: Институт проблем управления, 2001.-С. 298-301.
67. Физиология речи. Восприятие речи человеком / Под ред. JI.A. Чистович. Д.: Наука, 1976. - 386 с.
68. Фланаган Дж. Анализ, синтез и восприятие речи // Пер. с англ. -М.: Связь, 1968.-396 с.
69. Хайдер А.С. Математические модели и комплекс программ для автоматического распознавания дикторов // Автореферат диссертации на соискание ученой степени кандидата технических наук. Санкт-Петербург: ЛЭТИ, 2004. - 17 с.
70. Черри Е., Хале М, Якобсон Р. К вопросу о логическом описании языков в их фонологическом аспекте // Новое в лингвистике. Под. Ред. В.А. Звягинцева. М.: ИЛ, 1962. - С. 279 - 298.
71. Чучупал В.Я., Маковкин К.А., Чичагов А.В. К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи // Искусственный интеллект, том 4, №1. Киев: Наука i освда, 2002. - С. 575 - 579.
72. Atal В. Effectiveness of Linear Prediction Characteristics of the Speech Wave for Automatic Speaker Identification and Verification // J. Acoust. Soc. Araer., Vol. 55, 1974.-Pp. 1304- 1312.
73. Desimio M., Anderson Т., Westerkamp J. Phoneme Recognition with a Model of Binaural Hearing // IEEE Trans. Speech and Audio Processing, vol. 4,No. 3, 1996.-Pp. 157- 165.
74. Durlach N. I., Gabriel K.J., Colburn H.S., Trahiotis C. Interaural Correlation Discrimination. II Relation to Binaural Unmasking // J. Acoust. Soc.Amer., Vol. 79, N5, 1986.-Pp. 1548- 1557.
75. Ephraim Y., Malah D. Speech Enhancement Using a Minimum Mean Square Error Short-Time Spectral Amplitude Estimator // IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-32,1984. Pp. 1109-1121.
76. Franti P., Kivijarvi J. Random Swapping Technique for Improving Clustering in Unsupervised Classification. // ftp: // ftp.es. joensuu.fi /franti/ papers/ scia99-l.ps
77. Franti P., Kivijarvi J. Randomized Local Search Algorithm for the Clustering Problem.//Pattern Analysis an Applications, 3(4): 358-369, 2000. ftp://ftp.cs.joensuu.fi/ franti/papers/rls.ps
78. Govorilka. http://www.vector-ski.ru/vecs/govorilka/
79. Gray R. M. Vector Quantization. // IEEE ASSP Mag., vol. 1. Pp. 4 -29, April 1984.
80. Green D.M., Yost W.A. Binaural Analysis // Handbook of Sensory Physiology, vol. 5/2. Berlin: Springer-Verlag, 1975. Pp. 403-408.
81. Habibi A. Two-dimensional Bayesian Estimate of Images. // In Proc. IEEE, vol. 60, July 1972. Pp. 873 -883.
82. Jelinek F. Statistical Methods for Speech Recognition. Cambridge: The MIT Press, 1998.-P. 283.
83. Kinnunen T., Karkkainen I., Franti P. Is Speech Data Clustered? -Statistical Analysis of Cepstral Features. http://cs.joensuu.fi / pages / tkinnu / research /pdf/IsSpeechClustered.pdf
84. Kinnunen T., Kilpelainen T., Franti P. Comparison of Clustering Algorithms in Speaker Identification", Proc. LASTED Int. Conf. Signal Processing and Communications (SPC), Marbella, Spain, 2000. Pp. 222 -227.
85. Kinnunen T., Franti P. Speaker Discriminative Weighting Method for VQ-based Speaker Identification." http://cs.joensuu.fi/pages/tkinnu/ research/ pdf/Discriminative wightingMethod.pdf
86. Krasheninnikov V.R., Armer A.I. Speech Command Variations Simulation at Different Pronounciations // Proceedings of the Second IASTED International Multi-Conference on Automation Control and Information Technology, Novosibirsk, 2005. Pp. 155 - 157.
87. Krasheninnikov V.R., Armer A.I., Derevyankin V.P., Kozhevnikov V.I., Makarov N.N. The Speech Commands Variability Simulation // International Conference on Next Generation Concurrent Engineering, Texas, Lubboc, 2005. Pp. 387 - 390.
88. Lippmann R., Gold B. Neural Classifiers Useful for Speech Recognition // Proc. IEEE First Int. Conf. Neural Net. Vol. IV, 1987. Pp. 417-422.
89. Meng B. Speech Recognition: Not a Typical Engineering Problem // Digit Des. N 6, 1985. Pp. 49 - 57.
90. Miller G., Nicely P. An Analysis of Perceptual Confusion among Consonants // J. Acoust. Soc. Am.,V. 27, № 2, 1955. Pp. 338 ~ 352.
91. Peinado A., Segura J., Rubio A., Garcia P., Perez J. Discriminative Codebook Design Using Multiple Vector Quantization in HMM-Based Speech Recognizers // IEEE Trans. Speech and Audio Processing, vol. 4, No. 2,1996.-Pp. 89-94.
92. Rohlicek R., Russell W., Roukos S., Gish H. Continuous Hidden Markov Modeling for Speaker-Independent Word Spotting // 1989 IEEE ICASSP. Pp. 627-630.
93. Rhode W.S. Some Observations on Cohlear Mechanics // J. Acoust. Soc. Amer., Vol. 64, N 1, 1978. Pp. 158 - 176.
94. Sankar A., Lee C.-H. A Maximum-Likelihood Approach to Stochastic Matching for Robust Speech Recognition // IEEE Trans. Speech and Audio Processing, vol. 4, No. 3,1996. Pp. 190 - 201.
95. Shaw E.A.G., Stinson M.R. The Human External and Middle Ear Models and Concepts // Mechanics of hearing. Delft: Martinus Nijhoff, 1983. -Pp.3-10.
96. Singh S.A. Distinctive Feature Analysis of Responses to a Multiple Choice Intelligibility Test // IRAL, № 6,1968. Pp. 37-53.
97. Szoke I., Schwarz P., Matejka P., Burget L., Karafiat M., Fapso M. and Cernocky J. Comparison of Keyword Spotting Approaches for Informal Continuous Speech // Proceedings of InterSpeech 2005, September 4-8 2005 Lisbon, Portugal. Pp 633 - 636.
98. Tou J.T., Gonzalez R.C. Pattern Recognition Principles. Addison-Wesley, 1981.-P. 377.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.