Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Кушнир, Дмитрий Алексеевич
- Специальность ВАК РФ05.13.01
- Количество страниц 182
Оглавление диссертации кандидат технических наук Кушнир, Дмитрий Алексеевич
Содержание.
Введение.
Глава 1. Аналитический обзор методов обработки речевого сигнала. Общая структура систем распознавания речи. Основные принципы построения СРР с применением нейросетевых технологий.
1.1. Основные особенности задачи распознавания речи.
1.2. Многоуровневое представление речевых сигналов
Общая структура систем распознавания речи.
1.3. Аналитический обзор существующих методов первичной обработки речевых сигналов.
1.4. Аналитическое обзор методов распознавания речи.
1.5. Анализ нейросетевых подходов к решению задачи распознавания речи.
1.6. Дикторонезависимость и помехоустойчивость систем распознавания речи.
1.7. Аналитический обзор верхних уровней анализа систем распознавания речи.
1.8. Выводы.
Глава 2. Теоретические принципы обработки информации в многомерном пространстве на основе нейросетевой технологии с применением радиально-базисных нейронов и иерархических структур (ИС) из динамических ассоциативных запоминающих устройств (ДАЗУ).
2.1. Радиально-базисные нейронные сети.
2.1.1. Теоретические принципы функционирования радиально-базисных нейронных сетей.
2.1.2. Модификация радиально-базисной сети. Радиально-базисная сеть встречного распространения.
2.1.2.1. Структурная схема и функциональные свойства РБНС BP.
2.1.2.2. Алгоритм обучения РБНС встречного распространения.
2.1.2.3. Алгоритм распознавания в радиально-базисных нейронных сетях встречного распространения.
2.1.2.4. Отличительные особенности радиально-базисной нейронной сети встречного распространения.
2.1.2.5. Механизм помехоустойчивости радиально-базисной нейронной сети встречного распространения.
2.2. Структура из динамических ассоциативных запоминающих устройств.
2.2.1. Нейроподобный элемент с временной суммацией сигналов.
2.2.2. Динамическое ассоциативное запоминающее устройство как модель многомерного пространства.
2.2.3. Механизм ассоциативного доступа к информации посредством ДАЗУ.
2.2.4. Модификация алгоритма ассоциативного доступа в ДАЗУ.
2.3. Выводы.
Глава 3. Применение радиально-базисных нейронных сетей и динамических ассоциативных запоминающих устройств в задаче распознавания речи.
3.1. Акустико-фонетическое пространство диктора.
3.1.1. Основные особенности речевых сигналов.
3.1.2. Построение акустико-фонетического пространства диктора.
3.1.3. Особенности представления речевого сигнала в базисе акустико-фонетического пространства.
3.1.4. Алгоритм снижения шумовой составляющей в векторе параметров на основе автоматического определения степени зашумлённости PC.
3.2.1. Применение радиально-базисных нейронных сетей встречного распространения для настройки системы распознавания речи на нового диктора.
3.2.2. Применение радиально базисной нейронной сети для распознавания изолированно произносимых слов.
3.3. Применение динамических ассоциативных запоминающих устройств для организации верхних уровней системы распознавания речи.
3.4. Выводы и основные результаты.
Глава 4. Практическая реализация и экспериментальное исследование разработанных методов и алгоритмов в задаче распознавания речи.
4.1. Первичная обработка речевых сигналов.
4.1.1. Детектор пауз.
4.1.2. Формирование вектора параметров речевого сигнала.
4.2. Акустико-фонетический уровень.
4.2.1. Алгоритм построения акустико-фонетического пространства.
4.2.2. Организация процесса распознавания.
4.3. Экспериментальные исследования.
4.3.1. Настройка параметров системы.
4.3.2. Проведение экспериментов.
4.3.2.1. Распознавание методом динамического программирования.
4.3.2.2. Распознавание при помощи алгоритма локального поиска.
4.3.2.3. Распознавание при помощи радиальнобазисной нейронной сети.
4.3.2.4. Распознавание аллофонов при помощи многослойного персептрона.
4.3.2.5. Радиально-базисная нейронная сеть встречного распространения.
4.3.2.6. Настройка на нового диктора.
4.3.2.7. Обнаружение помехи в речевом сигнале при помощи акустико-фонетического пространства диктора.
4.4. Использование информации верхних уровней для сокращения состава оперативного словаря эталонов.
4.5. Выводы.
Выводы.
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах2008 год, доктор технических наук Харламов, Александр Александрович
Синтез, анализ и практическая реализация алгоритмов распознавания и предобработки речевых сообщений2013 год, кандидат наук Выборнов, Сергей Владимирович
Методы и модели распознавания русской речи в информационных системах2014 год, кандидат наук Гусев, Михаил Николаевич
Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов2006 год, кандидат технических наук Юрков, Павел Юрьевич
Разработка методики использования широких фонетических категорий в задачах верификации диктора2010 год, кандидат технических наук Милошенко, Алексей Анатольевич
Введение диссертации (часть автореферата) на тему «Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи»
Значительные успехи в области развития вычислительной техники, информационных технологий, микроэлектроники создают предпосылки для создания нового поколения систем - интеллектуальных. Этому также способствуют достижения в области нейрофизиологии, которые стимулируют развитие бионичных (природосообразных) подходов к разработке интеллектуальных систем.
Способность накапливать знания об окружающем мире (предметной области), реорганизовывать их, принимать решения на их основе - всё это относят к основным и отличительным свойствам интеллектуальных систем (ИС). Поэтому ядром любой ИС является некоторая модель мира (предметной области), которая представляет собой базу знаний или, в общем случае, динамическую экспертную систему (ДЭС) [93, 54], позволяющую на основании информации разного рода (о внешней среде, внутреннем состоянии системы, прогнозных и реальных результатах действий системы, информации из базы знаний) вырабатывать требуемое управление.
Наиболее важным достижением нейрофизиологии, которое в настоящее время актуализируется в теории управления это познание о способности человека осуществлять прогнозирование развития некоторой ситуации и, сравнивая прогноз с реальной действительностью, адаптироваться, корректировать собственную модель мира и вырабатывать адекватные действия. [6, 93, 54, 94]. Поэтому структурная схема интеллектуальной системы должна включать в себя блок прогноза (акцептора действия), наделяющего ИС свойством: ". важнейший феномен, связанный с функционированием интеллектуальной системы, - когда в конце процесса получается результат, который уже в начале этого процесса имелся в представлении системы" [54]. Здесь необходимо отметить, что система распознавания речи (СРР), как интеллектуальная система должна иметь в своей структуре аналог акцептора действия, модуль формирования прогнозных шаблонов, с которыми осуществляется сравнение входной информации. В этом случае, СРР на основании информации о предметной области, личности диктора, семантике предыдущих сообщений и пр. формирует множество прогнозных шаблонов распознавания, с которыми сравнивается поступающая речевая информация. В случае успешного распознавания, при котором происходит соотнесение прогнозируемого и реального, блок ДЭС сохраняет свои текущие параметры, считая их удачными, в противном случае возникает необходимость более полного анализа входной информации, что может привести к модификации отдельных параметров ДЭС, дообучению системы распознавания.
Если рассматривать интеллектуальную систему в аспекте ее взаимодействия с человеком встаёт вопрос о способе такого взаимодействия или, другими словами, об интерфейсе системы. Преимущества речевого диалога перед традиционными средствами общения исследованы достаточно давно и многократно описаны в литературе [53, 5, 52]. Привлекательность речевого общения, успехи в области автоматического распознавания речи, а также сопутствующее им развитие и удешевление электронно-вычислительной микропроцессорной техники в последнее время привели к тому, что сфера внедрения систем распознавания речи (СРР) существенно расширяется, захватывая различные отрасли производственной, административной, и даже бытовой деятельности.
Речевой канал управления техническими средствами и вычислительными машинами позволяет освободить руки, разгрузить зрение, обеспечить независимость от механических вибраций и условий освещения. Для управления сложными техническими системами человеку приходится осваивать, образно выражаясь, "язык интерфейса", на что часто тратится достаточно много времени. Поэтому требование эргономичности к разработке человеко-машинных интерфейсов подразумевает обеспечение наиболее естественных форм взаимодействия, одной из которых, очевидно, является речевой диалог. Кроме того, речевой ввод информации может играть роль дополнительного канала управления, который оказывается во многих ситуациях незаменимым, особенно в случаях, связанных с ограниченной подвижностью человека-оператора.
21-ый век со всей очевидностью заявил о себе, как эпоха «информационного взрыва». Несомненно, на этом этапе технического прогресса, одними из приоритетных становятся технологии по обеспечению интеллектуальных форм взаимодействия человека с информационно вычислительными машинами. Постоянное усложнение технических систем приводит к тому, что, с одной стороны, каждое элементарное управляющее воздействие человека-оператора должно становиться всё более содержательным, а с другой стороны - обеспечение необходимого разнообразия и гибкости в управлении приведет в этом случае к существенному усложнению человеко-машинного интерфейса. Возникает противоречие, которое может быть успешно разрешено благодаря организации речевого управления, так как формулирование команд на естественном языке обладает необходимой гибкостью и содержательностью.
Есть и другие преимущества речевого общения, число которых будет расти по причине всё большей интеграции вычислительной техники в повседневную жизнь человека. Например, благодаря системам речевого общения, управление справочными службами, традиционно осуществляемое человеком-оператором, уже возможно перекладывать на вычислительную технику.
Несмотря на многолетнюю историю и значительные достижения в области распознавания речи, в полном объеме задача остаётся нерешенной. Особенность современного развития речевых технологий во многом проявляется процессом переосмысления многолетнего опыта и наработок на современной технологической базе.
Вопросы, касающиеся проблем дикторонезависимости и помехоустойчивости, остаются актуальными в настоящее время. Современные системы распознавания речи, которые позиционируются как дикторонезависимые, осуществляют распознавание изолированных слов с ограниченным словарём (достигает 500 слов). Точность распознавания в таких системах достигает 95% . Системы распознавания слитной речи, как правило, требуют кропотливой процедуры настройки на диктора, словарь может достигать больших размеров (200.000 слов) [68]. В таких системах, единицей распознавания на акустико-фонетическом уровне, обычно является фонемоподобные элементы языка (аллофоны, дифоны, фонемы и т. д.). Надежность распознавания отдельных фонемоподобных элементов низкая, однако, их относительная малочисленность (по сравнению со словами или слогами) делает их привлекательными для использования, особенно для организации процедуры настройки на нового диктора, изменяющей параметры эталонов системы.
Проблема помехоустойчивости систем распознавания речи должна решаться по двум основным направлениям. С одной стороны, необходим комплекс мер, направленных на устранение помех, шумов и искажений, воздействующих на речевой сигнал. С другой стороны, учитывая практическую ограниченность мер по очистке речевых сигналов, но, не отменяя их, возникает потребность в методах выделения полезного речевого сигнала из акустической среды. Как правило, такие методы используют априорную информацию о полезном сигнале, и они продемонстрировали высокую эффективность в борьбе с различными типами помех [98, 99, 100, 101, 102]. Конечно, требование наличия априорной информации о полезном сигнале существенно сужает область применения данных методов.
Известно, что человек в процессе распознавания речи активно использует априорную информацию о полезном речевом сигнале [6, 71]. Это касается всех уровней системы, начиная с акустического и заканчивая и верхними, интеллектуальными уровнями анализа. Использование априорной информации во многом определяет способность человека оставаться устойчивым к помехам различного рода.
В системах распознавания речи, процедура настройки на нового диктора должна моделировать процесс получения части априорной информации об акустико-фонетических свойствах речевого сигнала данного диктора. Верхние уровни анализа должны обеспечивать систему частью априорной информации языкового, семантического и прагматического свойства. Поэтому актуальной задачей при создании систем распознавания речи является разработка алгоритмов повышения помехоустойчивости СРР, использующих априорную информацию на разных уровнях анализа.
Основные трудности создания систем распознавания и синтеза речи, обозначенные еще на первых этапах исследований, остаются прежними. Предельные возможности вычислительных машин в задаче распознавания речи связаны, прежде всего, с тем, что человек, которого можно взять за эталон распознающей системы, распознаёт осмысленную речь, а компьютеру в полной мере это не дано. Современные системы автоматического распознавания речи принципиально не могут с требуемой надёжностью исправлять ошибки и неоднозначности распознавания, используя семантическую и синтаксическую информацию.
Современное состояние в области распознавания речи можно рассмотреть в свете нового стандарта, принятого сейчас практически всеми известными разработчиками подобных систем, стандарта Microsoft Speech API [69]. Согласно этому стандарту системы распознавания речи можно классифицировать по следующим критериям:
Интервал меяеду отдельными словами. Различаются системы, работающие с отдельно произносимыми словами, и системы, распознающие слитную речь. Распознавание слитной речи обладает принципиальными трудностями, возникающими в результате отсутствия информации о начале и конце слова, что усугубляется объективным отсутствием точных координат слова в связи с эффектами коартикуляции. Нередко конец одного слова является началом следующего, и провести границу между ними невозможно. В результате этого, разработчики вынуждены переходить в область менее надёжных фонетических единиц: фонемы, аллофоны, слоги, надёжность распознавания которых значительно меньше надёжности распознавания отдельных слов. В системах, работающих с изолированно произносимыми командами, диктор должен делать паузы между словами, которые составляют примерно четверть секунды.
Отдельно можно выделить системы, распознающие ключевые слова в потоке слитной речи.
Зависимость от диктора. Системы, обладающие относительной независимостью от диктора, позволяют пользователю работать с системой без предварительной настройки, однако улучшают надёжность после обучения. Независимость от диктора в таких системах достигается за счет хранения звуковых эталонов для всех наиболее типичных голосов носителей данного языка. Это требует в несколько раз большей производительности и объема памяти. Настройка на голос диктора дикторонезависимых систем занимает обычно от 30 минут до нескольких часов, что является основным неудобством для пользователя. Третьей разновидностью систем по данному признаку являются системы, автоматически настраивающиеся на голос диктора в процессе их использования. Системы последнего типа обладают двумя особенностями - им постоянно нужно знать результат своей работы на первом этапе эксплуатации, иначе обучение будет неверным. После настройки на одного диктора, такие системы перестают надежно работать с другими дикторами.
Степень детализации при задании эталонов. Различают алгоритмы, в которых в качестве эталонов используются целые слова, и алгоритмы, использующие эталоны элементов слов.
Сравнение целых слов. Сравнение целых слов дает большую точность, скорость, однако требуют значительно большего объема памяти для хранения эталонов. В этом случае требуется обучение каждому слову отдельно.
Сравнение элементов слов. Эти алгоритмы приходится применять в случае больших словарей, так как объем требуемой памяти пропорционален количеству этих эталонных элементов слов и не зависит от объема словаря.
Размер словаря. Размер актуального (оперативного) словаря системы распознавания почти не связан с реальным количеством слов, которые данная система может распознать. Он определяется количеством слов, требуемых для распознавания в данном конкретном состоянии системы. Системы, работающие с малыми словарями (порядка 50-100 слов) позволяют пользователю давать простые команды компьютеру. Для диктовки текстов необходимы большие словари (несколько десятков тысяч слов). Если системы диктовки учитывают контекст для определения активного подсловаря в конкретном состоянии, то фактически они работают со словарями среднего размера (около 1000 слов).
Несмотря на то, что возможна любая комбинация этих характеристик, в настоящее время наиболее применимыми являются системы голосового управления компьютером и системы дискретной диктовки текстов.
В приложении 7 приведены характеристики наиболее известных сейчас систем распознавания речи [89].
Как наиболее известных производителей систем распознавания речи следует выделить фирмы IBM и Dragon systems. Разработанные ими системы способны распознавать связную англоязычную речь, произносимую с паузами между словами, с подстройкой под произвольного диктора, и имеют словари объемом до 20 и 30 тысяч слов, соответственно [65, 64]. В качестве системы распознавания, обладающей максимальным словарем, следует отметить СРР на 200 тысяч слов французского языка [68], которая, однако, требует произнесения фраз не пословно, а послогово - с паузами между слогами [70].
Вместе с тем на фоне большого числа зарубежных коммерческих СРР отчетливо проявляется отсутствие на рынке русскоязычных систем распознавания речи. Несмотря на то, что именно отечественным разработкам принадлежит первенство в этой области [12], есть все основания утверждать, что их уровень существенно не изменился вплоть до настоящего времени. Это ясно выражается в неизвестности хотя бы одной реально работающей русскоязычной СРР со словарем более или менее приличного объема, не говоря уже о системах распознавания слитной речи.
Системы диктовки текстов являются пока привлекательными для покупателей в силу новизны предоставляющихся для пользователя возможностей. Однако реальные системы диктовки должны, очевидно, обладать следующими тремя свойствами: время набора текста с голоса, включая время на исправление ошибок, должно быть меньше времени набора того же текста с клавиатуры; пользователь не должен уставать от набора текста голосом больше чем от набора текста клавиатурой; стоимость системы диктовки должна быть ниже, чем преимущества от ввода информации голосом.
Тестирование существующих систем [13] показывает, что они не удовлетворяют ни одному из этих требований. Поэтому они пока являются не более чем дорогими мультимедиа игрушками.
Стоит упомянуть, что системы диктовки текстов на западе нашли свое практическое применение в медицине. Это связано в первую очередь с тем, что область научных разработок для использования в медицине на Западе хорошо финансируется. Кроме того, задача упрощается тем, что словари медицинских терминов в узкой предметной области имеют меньший объем, чем словари повседневного общения, а синтаксис и семантика диктуемых предложений чрезвычайно строгие, что повышает надёжность распознавания. А медицинские работники консервативны в части использования новой техники. Системы диктовки текстов применяются в медицине тогда, когда руки и глаза диктующего заняты, например, во время операции. В этом случае до использования речевых технологий либо вообще не практиковалось документирование происходящего, либо требовало привлечения дополнительных людских ресурсов [13].
Анализируя современное состояние речевых технологий можно сделать вывод о том, что проблема распознавания речи остаётся актуальной, при этом центр внимания переносится из области разработок алгоритмов направленных непосредственно на распознавание речевых сигналов в область обеспечения помехоустойчивости и дикторонезависимости систем распознавания речи.
Цель диссертационной работы: Разработка комплексного подхода, использующего нейросетевые технологии, направленного на повышение надёжности систем распознавания речи за счёт использования априорных сведений о распознаваемом речевом сигнале.
Достижение указанной цели требует решить следующие основные задачи исследования:
1. Изучение и анализ существующих подходов к решению задачи автоматического распознавания речи.
2. Разработка способа представления акустико-фонетической информации, учитывающего особенности восприятия речи человеком.
3. Разработка метода повышения помехоустойчивости СРР, использующего априорную информацию о некоторых свойствах полезного речевого сигнала.
4. Разработка нейросетевого алгоритма настройки системы распознавания речи на нового диктора.
5. Разработка структуры и определение параметров нейронной сети для задачи распознавания речевого сигнала.
6. Разработка методов использования языковых знаний для сокращения состава оперативного словаря СРР.
7. Практическая реализация и экспериментальное исследование разработанных методов и алгоритмов.
Диссертационная работа состоит из введения, четырёх глав, заключения и приложений.
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Разработка алгоритмов анализа и распознавания речи на основе адаптивной кластерной модели и критерия минимального информационного рассогласования2011 год, кандидат технических наук Губочкин, Иван Вадимович
Автоматический анализ, распознавание и синтез тональной речи (на материале вьетнамского языка)1984 год, доктор технических наук Нгуен Ань Туан, 0
Автоматизация процесса верификации абонентов АСУ с речевым управлением2008 год, кандидат технических наук Катков, Олег Николаевич
Математические модели и комплекс программ для автоматического распознавания дикторов2004 год, кандидат технических наук Адель Саллам Мохамед Хайдер
Модели и программная реализация распознавания русской речи на основе морфемного анализа2007 год, кандидат технических наук Карпов, Алексей Анатольевич
Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Кушнир, Дмитрий Алексеевич
Выводы, полученные в результате тестовых и экспериментальных мероприятий:
1. Представление речевого сигнала в акустико-фонетическом пространстве позволяет:
- повысить надёжность распознавания приблизительно на 2% относительно метода распознавания, реализующего сравнение траекторий реализаций и эталона в МПП методом динамического программирования;
- повысить помехоустойчивость за счет использования априорной информации о характеристиках голоса диктора;
2. Алгоритм локального поиска демонстрирует тот же показатель точности распознавания, что и метод ДП в условиях офисных шумов и снижение точности распознавания в условиях повышенного уровня шума. При этом снижение точности для последовательностей ВП составило 3%, для последовательностей элементов АФП 0,7%;
3. Надёжность распознавания аллофонов при помощи нейронных сетей (типа многослойный персептрон) в целом соизмерима с показателями, демонстрируемыми вероятностно-статистическими методами распознавания (например, вероятностной моделью, реализуемой смесью Гауссовых распределений). Привлечение контекста позволяет существенно (практически в 2 раза) повышать надёжность распознавания аллофонов.
4. Проявляется существенное различие в распознаваемости отдельных аллофонов. Явным образом выделяется группа аллофонов с высоким показателем распознаваемости. Отсюда вытекает, что большое значение для распознавания фонемоподобных речевых единиц имеет качество разметки речевой базы. Кроме того, следует необходимость выделения группы хорошо распознаваемых аллофонов в качестве "островков надёжности". В соответствии с данным выводом получается интересная постановка задачи для перспективных исследований в области распознавания речи: разработка эффективных алгоритмов восстановления полной цепочки распознаваемых аллофонов по последовательностям хорошо распознаваемых аллофонов. Предлагаемый в настоящей работе алгоритм ассоциативного доступа к информации может служить основой для решения поставленной задачи.
5. Радиально-базисная нейронная сеть встречного распространения продемонстрировала свою работоспособность. Сходимость алгоритма минимизации функционала ошибки по сравнению с алгоритмом обучения (градиентными способами) многослойных персептронов гораздо выше, что объясняется начальным расположением искомой точки в окрестности глобального минимума.
6. Применение радиально-базисной сети встречного распространения для настройки на нового диктора органично вписывается в концепцию акустико-фонетического пространства диктора. Результаты тестирования качества настройки СРР на нового диктора показывают корректность метода в целом, однако снижение точности распознавания на 6% по сравнению с базовым диктором диктует необходимость дополнительных исследований и доработок. В качестве наиболее очевидных мер можно рассматривать построение АФП на динамических векторах параметров, таких как первая и вторая производная исходного вектора параметров, и последующее обучение РБНС BP для более точной настройки на диктора.
7. Алгоритм обнаружения помех в речевом сигнале показал свою работоспособность. Опыт применения описанного в четвёртой главе алгоритма сглаживания последовательности параметров PC использующего информацию о зашумлённости отдельных участков сигнала позволяет сделать вывод о высокой эффективности подхода. Кроме того, при включении в алгоритм построения АФП процедуру отсеивания кластеров с малым весом, соответствующим переходным участкам, можно существенно снизить вариативность параметров и, тем самым, повысить устойчивость результатов распознавания, что также было проверено экспериментально.
Заключение.
В диссертационной работе представлены результаты исследований и практических разработок в области распознавания речи. Изучение причин высокой надёжности распознавания речи, присущей человеку, позволило сделать один из ключевых выводов, который определяет стержневую составляющую диссертационной работы. А именно: использование априорной информации о распознаваемом речевом сигнале во многом определяет способность человека оставаться устойчивым к помехам различного рода. В соответствие с этим, основное внимание уделялось вопросам повышения надёжности СРР, за счет снижения вариативности параметров речевого сигнала, а также за счет использования априорной информации акустико-фонетического и языкового уровней анализа.
В качестве итога или основного результата диссертационной работы следует рассматривать методику построения СРР, базирующуюся на перечисленных далее разработках, направленных на повышение надёжности СРР (перечислены в порядке уровней представления и анализа речевой информации в системе распознавания):
1. Разработан способ представления акустико-фонетической информации в многомерном пространстве признаков (МПП), позволяющий использовать информацию об акустических особенностях голоса диктора в качестве априорной информации о свойствах распознаваемого речевого сигнала.
2. На основе предложенного способа представления акустико-фонетической информации разработан алгоритм обнаружения и компенсации помех в речевом сигнале.
3. Разработан алгоритм распознавания изолированно произносимых слов при помощи радиально-базисной сети, позволяющий выделять наиболее информативные признаки эталонов для реализации последующего механизма уточнения.
4. Разработана и экспериментально исследована новая модификация радиально-базисной нейронной сети - радиальная сеть встречного распространения (РБНС BP), которая позволяет ассоциативно связывать между собой разные пространства признаков.
5. На основе радиально-базисной нейронной встречного распространения и предложенного способа представления акустико-фонетической информации разработан алгоритм настройки СРР на нового диктора.
6. Модифицирован алгоритм ассоциативного доступа к информации по ее фрагменту для динамических ассоциативных запоминающих устройств (ДАЗУ).
Практическая значимость полученных результатов
Алгоритм обнаружения и компенсации помех позволил существенно снизить вариативность параметров речевого сигнала в условиях присутствия помех, что снизило частоту появления ошибочного результата распознавания практически в два раза.
Реализация механизма уточнения в системе распознавания речи на базе радиально-базисной нейронной сети позволяет значительно (в три раза) повысить частоту правильного результата распознавания проблемных слов (акустически похожих). В целом, для представленного в приложении №2 словаря это даёт выигрыш в 2.8% по сравнению с распознаванием без механизма уточнения в условиях низкого уровня шумов (офисное помещение).
Благодаря разработанной радиально-базисной нейронной сети встречного распространения удалось сократить объём обучающего речевого материала для процедуры настройки системы распознавания речи на нового диктора.
Проведённые эксперименты по распознаванию аллофонов при помощи нейронных сетей позволили выделить группу надёжно распознаваемых аллофонов.
Разработанный алгоритм ассоциативного поиска информации по ее фрагменту может быть использован в качестве ядра ассоциативно-поисковой системы представления языковых знаний за счет очень низкой чувствительности к объему обрабатываемой информации.
Внедрение результатов диссертационной работы:
1. Разработанные методы и алгоритмы использовались при разработке 8-ми разрядного микроконтроллера UNC81SVR01 (Unicore Microsystems), выполняющего в частности распознавание изолированно произносимых слов. Акт о внедрении прилагается.
2. Разработанные методы и алгоритмы использованы в ОАО "Концерн "РТИ Системы" в рамках проекта по разработке системы автоматического распознавания команд для управления мобильным телефоном. Акт о внедрении прилагается.
3. Результаты диссертационной работы также использовались в НПИЦ "Микросистемы" при разработке речевого интерфейса для управления системой анализа текстовой информации TextAnalyst. Важной особенностью данного внедрения является то обстоятельство, что сама система TextAnalyst выступает в качестве модуля верхнеуровнего анализа при решении задачи распознавания речи.
Список литературы диссертационного исследования кандидат технических наук Кушнир, Дмитрий Алексеевич, 2006 год
1. Плотников В. Н., Суханов В. А., Жигулевцев Ю. Н. Речевой диалог в системах управления. - М.: Машиностроение, 1988. - 224 с.
2. Методы автоматического распознавания речи /Пер. с англ. под ред. У. Ли М.: Мир, 1983. -Т.1.-328 е.; - Т.2. - 392 с.
3. Осовский С. Нейронные сети для обработки информации /Пер. с польского И.Д. Рудинского М.: ФиС, 2002. - 343 с.
4. Лурия А. Р. Основы нейропсихологии М.: Академия, 2003. - 384 с.
5. Потапова Р. К. Речевое управление роботом М.: Радио и связь, 1989. -248 с.
6. Прибрам К. Языки мозга. М.: Прогресс, 1975. - 248 с.
7. Златоустова Л. В., Потапова Р. К., Трунин-Донской В. Н. Общая и прикладная фонетика. М.: МГУ, 1986. - 303 с.
8. Сорокин В. Н. Синтез речи. М.: Наука, 1992. - 392 с.
9. Чучупал В. Я., Чичагов А.С., Маковкин К.А. Цифровая фильтрация зашумлённых речевых сигналов. М.: ВЦ РАН, 1998. (http://www.ccas.ru/DCM/Chichag/index.htm)
10. Золотова Г. А. Синтаксический словарь: репертуар элементарных единиц русского синтаксиса. М.: УРСС, 2001. - 440 с.
11. Комарцова Л.Г., Максимов А.В. Нейрокомпьютеры М.: Изд. МГТУ им. Н. Э. Баумана, 2001. - 320 с.
12. Винцюк Т.К. Анализ распознавание и интерпретация речевых сигналов Киев: Наукова думка, 1987. - 262 с.
13. Мазуренко И. Л. Компьютерные системы распознавания речи //Интеллектуальные системы 1998. - Т. 3, № 1-2. - С. 117-134
14. Сентаготаи Я., Арбиб М. Концептуальные модели нервной системы -М.: Мир, 1976. 198 с.
15. Шеперд Г. Нейробиология М.: Мир, 1987. - Т.1. - 454 е.; Т.2. - 368 с.
16. Хомская Е. Д. Нейропсихология М.: МГУ, 1987. - 288 с.
17. Дмитриеико С. Н. Фонемы русского языка, их сочетаемость и функциональная нагрузка М.: Наука, 1985. - 232 с.
18. Методы классической и современной теории автоматического управления /Под общей ред. К.А. Пупкова М.: МГТУ им. Н. Э. Баумана, 2000. Т.1. - 747 е.; Т.2 - 735 е.; Т.З - 747 с.
19. Киров Е. Ф. Теоретические проблемы моделирования языка Казань: Казанский университет, 1989. - 265 с.
20. Красильников В. В. Статистика объектов нечисловой природы -Набережная Челны, 2001. 144 с.
21. Голд Б., Рэйдер Ч. Цифровая обработка сигналов М.: Советское радио, 1973.-368 с.
22. Рабинер JI. Р., Шафер Р.В. Цифровая обработка речевых сигналов /Пер. с англ.; Под ред. М.В. Назарова, Ю.Н. Прохорова М.: Радио и связь, 1981.-496 с.
23. Девятков В. В. Системы искусственного интеллекта М.: МГТУ им. Н.Э.Баумана, 2001.-352 с.
24. Гмурман В.Е. Теория вероятностей и математическая статистика М.: Высшая школа, 2001. - 479 с.
25. Галушкин А.И. Теория нейронных сетей М.: Радиотехника, 2000. -415 с.
26. Сигеру Омату, Марзуки Халид, Рубия Юсоф /Пер. с японского; под. ред. А.И. Галушкина М.: Радиотехника, 2000. - 272 с.
27. Кузнецов В., Отт А. Автоматический синтез речи: Алгоритмы преобразования буква-знак и управление длительностью речевых сегментов Таллин: Валгус, 1989. - 121 с.
28. Круглов В. В., Дли М. И., Голунов Р. Ю. Нечеткая логика и искусственные нейронные сети М.: Физматлит, 2001. -224 с.
29. Новиков JI. В. Основы Вейвлет-анализа сигналов СПб.: Модус, 1999. - 152 с.
30. Гаврилов А. В. Системы искусственного интеллекта Новосибирск: изд.НГТУ, 2001.-78 с.
31. Гаврилов А. В. Системы искусственного интеллекта: Учебное пособие; В 2 ч. Новосибирск: Изд-во НГТУ, 2002. - Ч. 1. - 78 с.
32. Куссуль Э. М. Ассоциативные нейроподобные структуры Киев: Наукова Думка, 1990. - 144 с.
33. Волошин В. Я. Распознавание образов: Учеб. пособие для студентов специальности Вычислит, машины, системы, комплексы и сети -Владивосток: ВГУЭС, 2000. 138 с.
34. Уоссермен Ф. Нейрокомпьютерная техника /Пер. с англ.; Под ред. А.И. Галушкина М.: Мир, 1992. - 236 с.
35. Потапова Р.К. Лингвистические ограничения и сегментация слитной речи: проблемы построения систем понимания речи-М.: Наука, 1980.-С. 18-30
36. Сорокин В. Н., Теория речеобразования М.: Радио и связь, 1985. -312 с.
37. Фант Г. Акустическая теория речеобразования: Пер. с англ. М.: Наука, 1964. - 284 с.
38. Физиология речи. Восприятие речи человеком / А. А. Чистович, А.В. Венцов, М.П. Гранстрем и др. Л.: Наука, 1976. - 388 с.
39. Классификация и кластер /Пер. с англ.; Под ред. Ю.И. Журавлева М.: Мир, 1980.-309 с.
40. Дж. Макхоул., С. Рунос, Г. Гиш Векторное квантование при кодировании речи//ТИИЭР -1985.-Т.73, №11 С. 19-61
41. Фу К.С. Структурные методы в распознавании образов: Пер. с англ. -М.: Мир, 1977.-319 с.
42. Левинсон С. Е. Структурные методы автоматического распознавания речи // ТИИЭР 1985. - Т. 73 - С. 100-129
43. Гладкий А. В. Формальные грамматики и языки М.: Наука, 1973. -368 с.
44. Нильсон Н. Принципы Искусственного интеллекта М.: Радио и связь, 1985.-376 с.
45. Представление знаний в человеко-машинных и робото-технических системах М.: ВЦ АН СССР ВИНИТИ, 1984. - Том А -Фундаментальные исследования в области представления знаний -262 с.
46. Уинстон П. Искусственный интеллект: Пер. с англ. М.: Мир, 1980. -519 с.
47. Фролов А.А., Муравьев И.П. Нейронные модели ассоциативной памяти -М.: Наука, 1987.- 161 с.
48. Харламов А.А. Нейроподобные элементы с временной суммацией входного сигнала и блоки ассоциативной памяти на основе этих элементов //Вопросы кибернетики. Устройства и системы М.: МИРЭА, 1983. - С. 57-68
49. Радченко А.Н. Моделирование основных механизмов мозга Л.: Наука, 1969.-212 с.
50. Искусственный интеллект: Справочник. М.: Радио и связь, 1990. -Т.1.-Системы общения и экспертные системы/Под ред. Э.В. Попова- 464 с.
51. Т.2. Модели и методы /Под ред. Д.А. Поспелова - 304 с.
52. Т.З. Программные и аппаратные средства /Под ред. В.Н. Захарова,1. В.Ф. Хорошевского 368 с.
53. Picone J. W. Signal Modeling Techniques in Speech Recognition //Proceedings of IEEE. 1993. Vol. 81, №9 - P. 1215-1247
54. Косарев Ю.А. Естественная форма диалога с ЭВМ. JL: Машиностроение, 1989.- 143 с.
55. Организация взаимодействия человека с техническими средствами АСУ /Ю.Н. Филиппович, Е.В. Родионов, Г.А. Черкасова; Под ред. В.Н. Четверикова. М.: Высшая школа, 1990. - Т.2. - Языковые средства диалога человека с ЭВМ. -159 с.
56. Пупков К.А., Коньков В.Г. Интеллектуальные системы М.: Изд. МГТУ им. Н.Э.Баумана, 2003. - 347 с.
57. Пупков К.А. Динамические экспертные системы в управлении //Вестник МГТУ. Приборостроение. 1996. - № 8-9 - С. 39-50.
58. Hermansky Н. Automatic speech recognition and human auditory perception //Eur. Conf. On speech Technology. Edinburgh, 1987. - Vol.1, -P. 79-82.
59. Cohen J.R. Application of an auditory model to speech recognition //J. Acoust. Soc. Am., 1989. № 6, - P. 2623-2629.
60. Furui S. Speaker-independent isolated word recognition based on emphasized spectral dynamics // Int. Conf. On Acoustic, Speech and Signal processing. Tokyo, 1986.-P. 1991-1994.
61. Abut H., Gray R.M., Rebolledo G. Vector quantization of speech-like waveforms //IEEE Trans. On Acoustic, Speech and Signal Processing. -1982. Vol. 30, - № 3. - P. 423-435.
62. Ney H. A data-driven organization of the dynamic programming beam-search for continuous speech recognition //Proc. IEEE Int'l. Conf. On Acoustic, Speech and Signal Processing. Dallas, 1987. - P. 833-836.
63. Ney H. Dynamic programming as a technique for pattern recognition //Proc. 6th Int'l Conf. On Pattern recognition. Munich. - 1982. - P. 11191125.
64. Pearl J. Knowledge vsrsus search: A quantitative analysis using A* //Artificial Intelligence. 1983. - Vol. 20, - P. 1-13.
65. Pearl J. Some recent results in heuristics search theory //IEEE Trans. On Pattern Analysis and Machine Intelligence. 1984. - Vol. PAMI-6, - P. 113.
66. Gorin A.L., Roe D.B. Parallel level building on a tree machine // Proc. IEEE Int'l. Conf. On Acoustic, Speech and Signal processing. New York, 1988.-P. 295-298.
67. Forney G.D. The Viterby algorithm //Proceedings of the IEEE. 1973. -Vol. 61,-P. 268-278.
68. Averbuch A. Experimrnts with the Tangora 20.000 word speech recognizer //Proc. Int'l Conf. on Acoustic, Speech and Signal Processing. Dallas, 1987.-P. 701-704.
69. Large vocabulary natural language continuous speech recognition / L.R. Bahl, S. V. Gennaro, P. S. Gopalakrishnan, et.al. //Proc. IEEE Int'l. Conf. on Acoustic, Speech and Signal Processing. Glasgow, 1989. - P. 465-467.
70. Cerf-Dannon H. Speech recognition in French with a very large dictionary // Proc. Eurospeech, European Conf. on Speech Communication and Technology.-Paris, 1989.-P. 150-153.
71. Microsoft Speech SDK 3.0 Documentation (www.microsoft.com).
72. Кельманов A.B. О некоторых проблемах построения систем распознавания инвариантных к диктору //Тезисы докл. Всесоюзной Школы-семинара. Таллинн, 1989. - С. 103-104.
73. Жирков А.О. Нейросетевой анализ и сопоставление частотно-временных векторов на основе краткосрочного спектрального представления и адаптивного преобразования Эрмита М: ИПМ им. Келдышева, 2001. (http://audio.rightmark.org/lukin/pub/rffineuro.pdf)
74. Егоров А.И., Дубровский В.В. Об анализе слуховых образов речевого сигнала. Иркутск, 1997.http://fccl.ksu.ru/issue001/confspe.97/egordub.pdf).
75. Дубровский В.В., Егоров А.И. О проблеме дикторонезависимости при распознавании речи на фонемном уровне //Диалог-2003: материалы международной конф. Москва, 2003. (http://www.dialog21 .ru/Archive/2003/Dubro vskij.pdf).
76. Бочаров И.В., Акатьев И.Ю. Распознавание речевых сигналов на основе корреляционного метода //Исследовано в России: электронный журнал.-2003.-С. 1547-1557
77. Федяев О.И., Гладунов С.А. Организация ввода речевой информации на основе нейросетевой аппроксимации фонем. (http://www.ulstu.ru/conf/is/doclads/is2003/rus230.doc)
78. Сорокин В.Н., Циплихин А.И. Сегментация и распознавание гласных // Информационные процессы. 2004. - №2 - С. 202-220.
79. Трофимов А.Т., Горячев А.Г. Адаптивный координатный базис для обработки речевых сигналов //Вестник Новгородского Государственного университета. 2001. - №19 (http://www.admin.novsu.ac.ru/uni/uni.nsf)
80. Kaneda Y., Ohga J. Adaptive microphone-array system for noise reduction. //IEEE trans. ASSP.- 1986. -Vol. 34, №6.-P. 1931-1400.
81. Винцюк Т.К. Распознавание слов речи с помощью динамического программирования //Кибернетика -1968.-№1-С.81-88.
82. Федяев О.И., Гладунов С.А. Фонетический анализ речи на основе нейросетевой аппроксимации сигнала //Нейрокомпьютеры и их применение: Труды VIII всероссийской конференции НКП-2002 -Москва, 2002.-С. 435-438.
83. Федяев О.И., Гладунов С.А. Распознавание речевых слов при помощи искусственных нейронных сетей //Информатика, кибернетика ивычислительная техника: Научн. тр. Донецкого гос. унив. -1999. № 1. -С. 145-150.
84. Иванов А.В., Петровский А.А. Методы построения устройств распознавания речи на базе гибрида нейронная сеть марковская модель //Нейрокомпьютеры и их применение: Труды VIII всероссийской конференции НКП-2002 Москва, 2002. - С. 423-434
85. Система распознавания изолированных рукописных символов на основе иерархической структуры из динамических ассоциативных запоминающих устройств /А.А. Харламов, P.M. Жаркой, В.И. Волков, Г.Н. Мацаков //Информационные технологии. 1998. - №5. - С. 27-31.
86. Baker J. К. The dragon system An overview //IEEE Trans. Acoust. Speech Signal Process. - 1975. - Vol. 23 -P. 24-29
87. Rabiner L., Juang B. An introduction to Hidden Markov Models //IEEE Acoustic, Speech, and Signal Processing Magazine. 1986. - №3, -P. 4-16.
88. Huang X., Acero A., Hon H. Spoken Language Processing: A guide to theory, algorithm, and System Development. Prentice Hall, 2001.- 965 p.
89. Электронные страницы фирмы 21st Sentury Eloquence (http://www.voicerecognition.com)
90. Dal Degan-N. Prati-C. Acoustic Noise Analysis and Speech Enhancement Techniques for Mobile Radio Applications. //Signal Processing. -1988. -Vol. 15,-P. 43-56.
91. Frost-O-L. An algorithm for linearly constrained adaptive array processing. // Proc. Of IEEE. 1972. - Vol. 60, - № 8. - P. 926-935.
92. Hermansky Hynek Should Recognizers Have Ears? //Proc. ESCA Tutorial and Research Workshop on Robust Speech Recognition for Unknown Communication Channels. Pont-a-Mousson, 1997. - P. 1-10
93. Hermansky Hynek Perceptual linear predictive (PLP) analysis of speech //Journal Acoust. Soc. Am., 1990. - Vol. 87, № 4. - P. 1738-1752
94. Анохин П.К. Проблема центра и периферии в современной физиологии нервной деятельности //Проблема центра и периферии в нервной деятельности. -Горький, 1935. С. 9-70
95. Дорохина Г.В. Модуль морфологического анализа слов русского языка //Искусственный интеллект: научно-теоретический журнал. -2004.-№3-С. 636-642
96. Совпель И. В. Система автоматического извлечения знаний из текста и её приложения //Искусственный интеллект: научно-теоретический журнал. 2004. - №3 - С. 668-677
97. Иконин С. Ю., Сарана Д.В. Система автоматического распознавания речи SPIRIT ASR Engine //Цифровая обработка сигналов: научно-технический журнал. 2003. - №3 - С. 11-21
98. Санников В.Г., Журавский Ю.И., Прохоров Ю.Н. Формирование банка априорных данных о речи диктора //АРСО-12: Материалы всесоюзного семинара. Киев, 1982. - С. 49-52
99. Прохоров Ю.Н. Рекуррентное оценивание параметров //Проблемы построения систем понимания речи М.: Наука, 1980. - С. 97-109.
100. Hermansky Н., Morgan N. //RASTA Processing of speech. IEEE Trans. On ASSP. 1994. - Vol. 2, - P. 578-589
101. Sheikhzadeh H., Sameti H., Deng L. Comparative performance of spectral subtraction and HMM Based speech enhancement strategies with application to hearing aid design //Proc. ICASSP-94. Adelaide, 1994. - P. 1-13 -1-17
102. Malah D., Cox R.V. A Generalized comb filtering technique for speech enhancement //Proc. IEEE Int. Conf ASSP. Paris, 1982. - Vol.l, - P. 160163
103. Key-phrase spotting using an integrated language model of n-grams andfinite-state grammar /Qiguang Lin, Dave Lubensky, Michael Picheny et. al.th
104. European Conference on Speech Communication and Technology. Rhodes, 1997.-P. 255-258.
105. Caroline Bousquet-Vernhettes Context Use to Improve the Speech Understanding Processing //Speech and Computer. Moscow, 2001. - P. 89-92.
106. Refining the N-best Hypotheses List in Large Vocabulary Speech Recognition by applying Lexical Rules / K. Georgila, A. Tsopanoglou, N. Fakotakis, et al. //Speech and Computer. Moscow, 2001. - P. 97-102.
107. Brigitte Bigi, Armelle Brun A Hierarchical Approach for Topic Identification//Speech and Computer. Moscow, 2001. - P. 85-88.
108. McWhirter J.S., Palmer K.J., Roberts J.B. A Digital Adaptive Noise-Canceller Based on a Stabilizer Version of the Widrow L.M.S. Algorithms //Proc. of IEEE Int. Cong. ASSP. New York, 1982. - P. 1384-1387
109. Гурьев Ю.Ю., Прохоров Ю.Н., Алгоритм рекуррентной фильтрации речевых сигналов //АРСО-12: Материалы всесоюзного семинара. -Киев, 1982.-С. 39-42
110. Hansen J.H.L., Pellom B.L. Text-directed speech enhancement employing phone class parsing and feature map constrained vector quantization //Speech Communication. 1997. Vol. 21, - P. 169-189
111. Hansen J.H.L. Analysis and compensation of speech under stress and noise for environmental robastness in speech recognition //Speech Communication. 1996. Vol. 20,-P. 151-173
112. Laughans Т., Strube H. W. Speech enhancement by nonlinear multiband envelop filtering //Proc. IEEE Trans ASSP. Paris, 1982. - P. 156-159
113. Трауготт H.H. О механизмах нарушения памяти. Л.:Наука. - 1973. -133 с.
114. Данилова Н.Н. Психофизиология. М.: Аспект Пресс, 2000. - 373 с.
115. Аграновский А. В., Леднов Д. А. Математическая модель распознавания речи с использованием протяженных контекстов // Информационные технологии. 1997. - № 7. - С. 33-36.
116. Метан Г.Н. Динамические и статические нейронные сети и адаптивные фильтры в задаче подавления шума // Нейроинформатика: научная сессия МИФИ. Москва, 2004. - С. 173-182
117. Burr D.J. A Neural Network Digit Recognizer //Proceedings of the IEEE Conference on Systems, Man, and Cybernetics. Atlanta, 1986. - P. 16211625.
118. Huang W., Lippmann R. Comparisons between neural net and conventional classifiers //Proceedings IEEE First International Conference on Neural Networks. San Diego, 1987. - P. 485-493
119. Bengio Y., Simard P., Frasconi P. Learning long-term dependencies with gradient descent is difficult //IEEE Trans, on Newral Networks. New York, 1994. - Vol.5, - № 2. - P. 157-166.
120. Lippman R.P., Gold В. Neural-net classifiers useful for speech recognition //IEEE Int. Conf. Neural Networks. San Diego, 1984. - P. 417-425.
121. R. Folk, A. Kartashov, A simple elastic model for self-organizing topological mappings //Computation in Neural Systems. 1994. №5 - P. 369-387
122. Huang W., Lippman R.P., GoldB. A neural net approach to speech recognition //Proc. IEEE Int'l Conf. on Acoustic, Speech and Signal Processing. New York, 1988. - P. 99-102.
123. Rosenblatt F. Principles of Neurodynamics. New York: Spartan. - 1962.
124. Харламов А.А. Статические и динамические нейронные сети на примере задачи распознавания образов //Приборостроение. Интеллектуальные системы автоматического управления. -1991. №1 -С. 58-66.
125. Phoneme recognition: neural networks vs. hidden Markow model / A. Waibel, T. Hanazava, G. Hinton, K. Shikano, K. Lang //ICASSP-88. New York, 1988.-P. 107-110
126. Robinson A.J., Fallside F. Static and dynamic error propagation networks with application to speesh coding //Neural Inf. Procsess. New York, 1988. -P. 632-641
127. Sholl D.A. Dendritic organization in the neurons of the visual and motor cortices //Journal of Anatomy. 1953. - № 87 - P. 387-406.
128. Представление и использование знаний /Пер с япон.; Под ред. Н.Г. Волкова М.: Мир, 1989. - 220 с.
129. УинстонП. Искусственный интеллект/Пер. с англ.; Под ред. Д.А. Поспелова-М.: Мир, 1980. 519 с.
130. Нильсон Н. Принципы искусственного интеллекта: Пер. с англ. М.: Радио и связь, 1985. - 376 с.
131. Рубашкин В.И. Представление и анализ смысла в интеллектуальных информационных системах М.: Наука, 1989. - 189с.
132. Cover Т. Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition //IEEE Trans. Electronic computers. 1965. - Vol. 14, - P. 326-334
133. СегаловичИ. Как работают поисковые системы /Мир Интернет: Электронный журнал. 2002. - №2 (http://old.company.yandex.ru/articles/articlelO.html)
134. Phoneme Recognition Using Time-Delay Neural Networks / A. Waibel, T. Hanazawa, G. Hinton, K. Shikano, K. Lang //IEEE Trans, on Acoustics, Speech, and Signal Processing. 1989. -Vol. 37, № 3. - P. 1888-1898.
135. McDermott, E. and Katagiri, S. LVQ-Based Shift-Tolerant Phoneme Recognition //IEEE Trans, on Signal Processing. 1991. -Vol. 39, №6. - P. 1398-1411.
136. Ostendorf M. Moving beyond the beads-on-a-string model of speech //Proc. of IEEE ASRU Workshop. Keystone, 1999. - P. 79-84.
137. Peeling S M and Moore R K. Isolated digit recognition experiments using the multi-layer perceptron //Speech Communication. 1988. - № 7, -P. 403409.
138. Kammerer B, Kupper W. Experiments for isolated-word recognition using single and two-layer perceptrons //Neural Networks. 1990. - №3. - P. 693706.
139. Huang, X.D. Speaker Normalization for Speech Recognition //in Proc. of ICASSP-92. San Francisco 1992. - Vol. 1, - P. 465-468.
140. Ariki Y., Tagashira S., Nishijima M. Speaker recognition and speaker normalization by projection to speaker subspace //ICASSP-96. Atlanta, 1996.-P. 1859-1862.
141. Ariki Y., Doi K., Speaker recognition based on subspace methods //ICSLP-94.-Pittsburgh, 1994.-P. 1859-1862.
142. Гордеев A.B., Молчанов А.Ю. Системное программное обеспечение -СПб.: Питер, 2001.- 736 с.
143. Рабинер JI.Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи //Обзор ТИИЭР. -1989. Т.77, №2 - С. 86-120.
144. Domouchel P. Three probabilistic language models for a large-vocabulary speech recognizer //Proc. IEEE Int'l. Conf. on Acoustic, Speech and Signal Processing. New York, 1988. - P. 513-516.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.