Синтез, анализ и практическая реализация алгоритмов распознавания и предобработки речевых сообщений тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Выборнов, Сергей Владимирович
- Специальность ВАК РФ05.13.17
- Количество страниц 171
Оглавление диссертации кандидат наук Выборнов, Сергей Владимирович
СОДЕРЖАНИЕ
Список принятых сокращений
Введение
1 Распознавание изолированных слов на основе динамического искажения времени
1.1 Первичное речевое сообщение
1.2 Методы формирования вектора параметров речевого сообщения
1.3 Динамическое искажение времени
1.4 Алгоритм распознавания изолированных слов с настройкой на диктора
1.5 Выводы
2 Дикторонезависимое распознавание изолированных слов на основе скрытых марковских моделей
2.1 Скрытые марковские модели
2.2 Типы скрытых марковских моделей
2.3 Практическое применение скрытых марковских моделей
2.4 Система распознавания речи на основе скрытых марковских моделей
2.5 Выводы
3 Распознавание изолированных слов на основе нейросетевых технологий
3.1 Вейвлет-преобразование речевого сигнала
2.2 Алгоритм распознавания изолированных слов на основе однослойной нейронной сети
3.3 Алгоритм распознавания изолированных слов на основе радиально-базисной нейронной сети встречного распространения
3.4 Выводы
4 Предобработка речевых сообщений в аудиоинформационных системах
4.1 Выделение речевых сообщений на фоне аддитивных флуктуа-ционных помех
4.2 Кодирование речевых сообщений на основе метода линейного предсказания со смешанным возбуждением
4.3 Векторное Фурье-кодирование речевых сообщений
4.4 Выводы
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
ПРИЛОЖЕНИЕ А
ПРИЛОЖЕНИЕ Б
СПИСОК СОКРАЩЕНИЙ
АЦП - аналогово-цифровой преобразователь
АЧХ - амплитудно-частотная характеристика
ВЧ - высокочастотный
ДВП - дискретное вейвлет-преобразование
ДИВ - динамическое искажение времени
ДПФ - дискретное преобразование Фурье
ИКМ - импульсно-кодовая модуляция
КГА - код голосовой активности
КЛП - коэффициенты линейного предсказания
КСВ - код сигнала возбуждения
КУ - коэффициент усиления
ЛП - линейное предсказание
ДСП - линейные спектральные пары
МПО - максимально-правдоподобная оценка
НВП - непрерывное вейвлет-преобразование
НСК - наименьших средних квадратов
НФП - непрерывное преобразование Фурье
НЧ - низкочастотный
ОПФ - оконное преобразование Фурье
ОСШ - отношение сигнал/шум
ОТ - основной тон
ПКО - процент канальных ошибок
РБНС ВР -радиально-базисная нейронная сеть встречного распространения
РБС - радиально-базисная сеть
РБЭ - радиально-базисный элемент
СКО - среднеквадратическая ошибка
СММ - скрытая марковская модель
ФОП - функционал отношения правдоподобия
ФСВ - форма сигнала возбуждения ЦОС - цифровая обработка сигналов ЦПОС - цифровой процессор обработки ШМД - шумоподавитель
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Оптимальные и субоптимальные алгоритмы обработки речевых сообщений при наличии аддитивных искажений2009 год, кандидат технических наук Максимов, Максим Игоревич
Методы, алгоритмы и программы решения задач идентификации языка и диктора2014 год, кандидат наук Ермилов, Алексей Валерьевич
Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи2006 год, кандидат технических наук Кушнир, Дмитрий Алексеевич
Оценка параметров дикторонезависимых признаков фонем с применением адаптивного частотно-временного анализа2005 год, кандидат технических наук Киселев, Алексей Николаевич
Алгоритмы поиска ключевых слов в радиотехнических устройствах обработки речевой информации, устойчивые к воздействию мешающих факторов2013 год, кандидат наук Баландин, Иван Васильевич
Введение диссертации (часть автореферата) на тему «Синтез, анализ и практическая реализация алгоритмов распознавания и предобработки речевых сообщений»
ВВЕДЕНИЕ
В настоящее время одной из важных теоретических и практических задач технической информатики является разработка новых методов и алгоритмов обработки речевых сообщений. В качестве основных направлений исследований здесь можно выделить три направления: распознавание речевых сообщений (в том числе аутентификация личности по голосу), фильтрация речевых сообщений на фоне помех различной природы и эффективное (низкоскоростное) кодирование речи.
К сожалению, известные на текущий момент алгоритмы обработки речевых сообщений не свободны от недостатков. Так приводимые в литературе [7,33,72,80,82,108,120,125 и др.] алгоритмы распознавания речи обладают существенным количеством ограничений, сравнительно большой вычислительной сложностью и, как следствие, плохой разборчивостью для схожих по звучанию изолированных слов и коротких речевых сегментов. В результате точность современных систем распознавания реально не превышает 98 %. Известные к настоящему моменту алгоритмы адаптивной линейной и нелинейной фильтрации [20,36,45,46,83,84 и др.], в частности, предполагающие наличие марковской модели сообщения, требуют достаточно большого объема априорной информации, либо существенно зависят от выбора начальных параметров модели и не всегда обеспечивают достаточно высокое выходное отношение сигнал/шум (ОСШ). Применение же рекомендуемых алгоритмов низкоскоростного кодирования речевых сообщений [29,36,37,47,122,133 и др.] для передачи информации по каналам с высоким процентом ошибок приводит к существенному ухудшению узнаваемости диктора и фразеологической разборчивости речи. Таким образом, ряд вопросов по синтезу и практической реализации эффективных алгоритмов обработки речевых сообщений до сих пор остается открытым.
Цель работы. Целью работы является
1. На основе современных подходов разработать эффективные дик-торонезависимые и с настройкой на диктора алгоритмы распознавания изолированных слов.
2. Синтезировать эффективные алгоритмы фильтрации речевых сигналов, искаженных аддитивными (квази)стационарными помехами с неизвестными статистическими характеристиками.
3. Разработать эффективные алгоритмы низкоскоростного (до 375 бит/с и ниже) кодирования речевых сигналов. Найти структуру алгоритма для канала передачи информации с высоким (до 10 %) процентом ошибок.
4. Выполнить практическую реализацию предложенных алгоритмов обработки речевых сообщений в реальном масштабе времени на современной элементной базе.
Методы проведения исследований. При решении поставленных в диссертации задач использовались аналитические и вычислительные методы технической информатики и радиотехники, а именно: аппарат теории вероятностей и математической статистики, марковских процессов и систем, теории распознавания образов, методы цифровой обработки сигналов, в том числе теории линейных дискретных систем, спектрального анализа и его приложений, нейросетевых технологий, а также современные методы моделирования на ЭВМ и цифровых процессорах обработки сигналов (ЦПОС) информационных процессов и алгоритмов их анализа.
Научная новизна. В работе получены следующие новые научные результаты:
■ новые параметрические представления речевых сообщений, позволяющие обеспечить более высокую точность дикторонезависимого и с настройкой на диктора распознавания изолированных слов и упростить его техническую реализацию;
новые подходы к синтезу эффективных дикторонезависимых и с настройкой на диктора алгоритмов распознавания изолированных слов;
■ усовершенствование методов фильтрации речевых сообщений на фоне аддитивных помех с целью получения новых практически реализуемых в реальном масштабе времени алгоритмов фильтрации речевых сообщений на фоне помех, работоспособных в отличие от известных прототипов в более широком диапазоне входных отношений сигнал/шум;
■ комплексные модификации методов низкоскоростного кодирования аудиоинформации, в том числе, применительно к информационным каналам связи с высоким процентом ошибок, позволяющие снизить скорость передачи сообщений и улучшить качество синтезированной речи;
■ полученные с помощью указанных методов алгоритмы обработки речевых сообщений, а именно:
- алгоритм распознавания изолированных слов на основе динамического искажения времени (ДИВ) с настройкой на диктора и объемом словаря до 500 единиц, обеспечивающий точность распознавания порядка 99 %;
- дикторонезависимый алгоритм распознавания изолированных слов на основе скрытых марковских моделей (СММ) с объемом словаря до 500 единиц, обеспечивающий точность более 98 %;
- дикторонезависимый алгоритм распознавания изолированных слов на основе однослойной нейронной сети с объемом словаря до 500 единиц, обеспечивающий точность распознавания более 98 %;
- дикторонезависимый алгоритм распознавания изолированных слов на основе радиально-базисной нейронной сети встречного распространения с объемом словаря до 1000 единиц, обеспечивающий точность распознавания более 98 %;
- алгоритм фильтрации речевых сообщений на фоне аддитивных квазистационарных помех с неизвестными статистическими характеристиками;
- алгоритмы низкоскоростной (до 375 бит/с) передачи речевых сообщений на основе метода линейного предсказания со смешанным возбуждением и Фурье-кодирования, в том числе для каналов с высоким (до 10 %) процентом ошибок,
а также возможности практической реализации этих алгоритмов;
■ развитие методов моделирования на ЭВМ и ЦПОС алгоритмов обработки речевых сообщений для различных информационных и радиотехнических приложений.
Достоверность. Достоверность основных положений и результатов подтверждается экспериментальными данными, полученными с помощью моделирования синтезированных алгоритмов на ЭВМ (в системе МАТЬАВ и на языке высокого уровня «СИ») и их практической реализации на базе цифрового процессора обработки сигналов (ЦПОС) семейства ТМ8320.
Практическая ценность результатов диссертационной работы
состоит в том, что они позволяют внедрять в практические разработки современных информационных систем новые эффективные практически реализуемые алгоритмы обработки (распознавания, фильтрации, кодирования) речевых сообщений. Найденные в работе характеристики функционирования предложенных алгоритмов позволяют сделать обоснованный выбор между этими и другими алгоритмами в зависимости от имеющейся априорной информации и в соответствии с требованиями, предъявляемыми к качеству алгоритма обработки и к степени простоты его аппаратурной реализации. Результаты работы могут найти практическое применение при проектировании
- автоматических систем с голосовым управлением,
- перспективных систем распознавания речевых сообщений,
- цифровых систем передачи речевых сообщений промышленного и военного назначения,
- систем аппаратурного анализа случайных процессов.
Апробация работы. Результаты исследований, приведенные в данной диссертации, были представлены в виде докладов и обсуждались на
1. ЬХ и ЬХШ Научной сессии, посвященной дню радио, Москва, 2005 г., 2008 г.
2. 1-й Московской отраслевой научно-технической конференции, Москва, 2007 г.
3. 5-й Международной конференции "Телевидение: передача и обработка изображений", С.-Петербург, 2007 г.
4. 10-й Международной выставке и конференции "Цифровая обработка сигналов и ее применение", Москва, 2008 г.
5. Международной научно-технической конференции "Фундаментальные проблемы радиоэлектронного приборостроения", Москва, 2011 г.
а также использовались при выполнении грантов Министерства образования и науки РФ (Соглашения 14.В37.21.2015, 14.В37.21.2032, 14.В37.21.2102) и в разработках ЗАО "НПО СПЭЛТ" (г. Москва), ЗАО "Специальные системы" (г. Москва).
Публикации. По теме диссертации опубликовано 11 научных работ [139-149], в том числе 6 статей [139,142,145,147-149], 2 из которых в журнале из Перечня ведущих научных журналов и изданий ВАК [142,147], и 5 тезисов докладов [140,141,143,144,146].
Основные результаты и положения, выносимые на защиту:
- способы описания информационных сигналов в виде наборов оптимизированных векторов параметров для синтеза эффективных алгоритмов распознавания речевых сообщений;
- способы построения эффективных систем распознавания речевых сообщений;
- адаптивные методы выделения речевых сообщений на фоне аддитивных квазистационарных помех;
- методы низкоскоростного кодирования речевых сообщений, в том числе для каналов с высоким процентом ошибок;
- новые алгоритмы распознавания, фильтрации и кодирования речевых сообщений;
- результаты программного и аппаратного моделирования алгоритмов распознавания, фильтрации и кодирования речевых сообщений.
Краткое содержание диссертации. Диссертация состоит из введения, 4 разделов, заключения, списка литературы, состоящего из 155 наименований, и 2 приложений.
В первом разделе диссертации рассмотрены особенности формирования и структуры первичного речевого сигнала. Показано, что речевое сообщение представляет собой сложный многочастотный квазистационарный случайный процесс, требующий должной обработки для выделения информационной части. Приведены основные методы цифровой обработки речевых сигналов и этапы построения систем распознавания речи. Предложена модифицированная структура параметрического описания речевых реализаций в терминах векторов параметров, формируемых на основе покадрового анализа с перекрытием и гомоморфной обработки. Исследованы способы сравнения двух произвольных речевых сигналов с использованием ДИВ. Путем сопоставления характеристик различных алгоритмов ДИВ между собой найдена структура алгоритма распознавания изолированных слов с настройкой на диктора, а также определены значения корректирующих весовых коэффициентов для элементов векторов параметров. Показано, что предложенный алгоритм распознавания обладает точностью порядка 99 % и требует для своей реализации существенно меньших аппаратных затрат по сравнению с известными прототипами.
Для синтеза дикторонезависимого алгоритма распознавания во втором разделе рассмотрен подход, основанный на представлении речевого сигнала в виде СММ с числом состояний, равным 10. Приведены процеду-
ры расчета параметров таких моделей, а также их адаптации при поступлении новых данных (обучения). Методами программного и аппаратного моделирования установлено, что данная система распознавания обладает средней точностью более 98 % и превосходит по своим характеристикам имеющиеся аналоги.
В третьем разделе диссертации исследованы способы распознавания речевых сообщений на основе нейросетевых технологий. Показано, что для построения дикторонезависимой системы распознавания изолированных слов с ограниченным объемом словаря (до 500 единиц) эффективным оказывается применение однослойной персептронной нейронной сети и параметрического описания речевых сигналов в виде отсчетов их вейвлет-преобразований. При числе персептронов, равным числу распознаваемых слов, ошибка распознавания такой системы не превышает 1,5 % . В случае достаточно большого объема словаря (до 1000 слов) для синтеза алгоритма распознавания может быть использована радиально-базисная нейронная сеть встречного распространения (РБНС ВР), где в качестве векторов параметров также выступают отсчеты вейвлет-преобразования речевых сигналов. В результате удается обеспечить среднюю точность распознавания более 98 %.
В четвертом разделе рассмотрена методика выделения речевых сообщений на фоне аддитивных квазистационарных помех в условиях минимального объема априорной информации (в том числе, когда статистические характеристики помех неизвестны). Показано, что синтезированный на ее основе алгоритм фильтрации является достаточно универсальным и позволяет улучшить качество звучания (восприятия) по сравнению с существующими аналогами. Выполнена его программная (с помощью системы МАТНЬАВ 8.0) и аппаратная (на базе ЦПОС серии ТМ8320) реализация в реальном масштабе времени.
Для эффективной передачи и хранения аудиоинформации рассмотрены принципы построения и работы речевых кодеков на основе метода линейного предсказания со смешанным возбуждением (МЕЬР-вокодера) и векторного квантования амплитудного Фурье-спектра исходного речевого сообщения. Исходя из критериев желаемого качества кодированной речи, скорости битового потока, устойчивости речевого преобразования к канальным ошибкам, минимума затрачиваемых ресурсов цифрового сигнального процессора синтезированы и практически реализованы МЕЬР-вокодеры со скоростями 800-2400 бит/с и удовлетворительным качеством речи, сохраняющимся при 1 % ошибок в канале; МЕЬР-вокодер со скоростью до 2400 бит/с и удовлетворительным уровнем разборчивости речи, сохраняющимся при числе ошибок в канале до 10 %; вокодер на основе векторного Фурье-кодирования со скоростью передачи данных до 375 бит/с и ниже и уровнем словесной разборчивости не менее 90 %. Экспериментально с помощью программного (на языке высокого уровня «СИ») и аппаратного (на базе ЦПОС серии ТМЭ320) моделирования установлена работоспособность и эффективность предложенных речепреобразующих устройств.
В заключении подводятся итоги проведенных исследований, сформулированы выводы по работе в целом.
В приложении А исследованы различные полиномиальные аппроксимации наиболее часто встречающихся на практике нелинейных функций. Выполнен сравнительный анализ этих аппроксимаций между собой, а также с аппроксимациями, приведенными в литературе. Сформулированы критерии в пользу выбора того или иного полиномиального приближения заданной нелинейной функции, исходя из специфики задачи, а также с учетом ограничений, определяемых точностью алгоритма и быстродейст-, вием системы.
В приложении Б получено общее выражение для логарифма функционала отношения правдоподобия (ФОП) стохастического импульсного сигнала с огибающей произвольной формы в предположении, что его субструктура описывается быстрофлуктуирующим гауссовским случайным процессом. Показано, что для полосового случайного импульса (когда спектральная плотность его флуктуационной составляющей допускает прямоугольную аппроксимацию), приемник максимального правдоподобия имеет достаточно простую одноканальную структуру.
1 РАСПОЗНАВАНИЕ ИЗОЛИРОВАННЫХ СЛОВ НА ОСНОВЕ ДИНАМИЧЕСКОГО ИСКАЖЕНИЯ ВРЕМЕНИ
1.1 Первичное речевое сообщение
Речь с физической точки зрения состоит из последовательности звуков с паузами между их группами [18,54,61,69]. При нормальном темпе речи паузы появляются между отрывками фраз, так как обычно слова произносятся слитно (хотя слух, как правило, воспринимает их по отдельности). При замедленном темпе речи, например при диктовке, паузы могут делаться между словами и даже их частями. Предлоги, союзы звучат всегда слитно с последующим словом.
Один и тот же звук речи разные люди произносят по-разному. Каждому человеку свойственна своя манера произнесения звуков речи. Произношение звуков речи зависит от ударения, соседних звуков и т. п. Но при всем многообразии в их произношении они являются физическими реализациями (произнесением) ограниченного числа обобщенных звуков речи, называемых фонемами. Фонема - это то, что человек хочет произнести, а звук речи - это то, что человек фактически произносит. Фонема по отношению к звуку речи играет ту же роль, что и образцовая буква по отношению к ее рукописной форме в конкретном написании. В русском языке насчитывается 42 основные и 3 неопределенные фонемы [61].
Звуки речи делятся на звонкие и глухие. Звонкие звуки образуются с участием голосовых связок, находящихся в этом случае в напряжен-ч ном состоянии. Под напором воздуха, идущего из легких, они периоди-
чески раздвигаются, в результате чего создается прерывистый поток воздуха. Импульсы потока воздуха, создаваемые голосовыми связками, с достаточной степенью точности могут считаться периодическими [45,59]. Соответствующий период повторения импульсов называют пе-
риодом основного тона (ОТ) голоса Т0. Обратную Т0 величину, т.е. 1/Т0 , называют частотой ОТ. Если связки тонкие и сильно напряжены, то период получается коротким, а частота ОТ высокой; для толстых, слабо напряженных связок частота ОТ получается низкой. Частота ОТ для всех голосов, как правило, лежит в пределах 60...450 Гц (от 60 до 300 Гц у мужчин и от 70 до 450 Гц у женщин), однако в отдельных ситуациях, например, при пилотировании реактивного самолета, может возрастать до 600-700 Гц [4,39,59,60]. При произнесении речи частота ОТ непрерывно меняется в соответствии с ударением и подчеркиванием звуков и слов, а также для проявления эмоций (вопрос, восклицание, удивление и т.д.). Изменение частоты ОТ называется интонацией. У каждого человека свой диапазон изменения ОТ (обычно он бывает немногим более октавы) и своя интонация. Последняя имеет большое значение для узнаваемости говорящего. ОТ, интонация, устный почерк и тембр голоса служат для опознавания человека, причем степень достоверности данного опознавания выше, чем по отпечаткам пальцев. Импульсы ОТ имеют форму, близкую к пилообразной, в связи с чем при их периодическом повторении получается дискретный спектр с большим числом гармоник (до 40), частоты которых кратны частоте ОТ. Огибающая спектра ОТ имеет спад в сторону высоких частот с крутизной около 6 дБ/окт, поэтому, например, уровень составляющих около 3000 Гц ниже уровня спектральных составляющих около 100 Гц примерно на 30 дБ [39,59,123]. При произнесении глухих звуков, связки находятся в расслабленном состоянии, поток воздуха из легких свободно проходит в полость рта. Встречая на своем пути различные преграды в виде языка, зубов, губ, он образует завихрения, создающие шум со сплошным спектром.
Согласные, по способу образования, делятся на сонорные (л, ль, р, рь, м, мь, н, нь, й), щелевые (ж, з, зь, в, вь, ш, с, сь, ф, фь, х, хь), взрывные (б, бь, д, дь, г, гь, п, пь, т, ть, к, кь) и аффрикаты, представ-
ляющие собой комбинацию глухих взрывных и щелевых (ц, ч) [54,61]. Гласных фонем всего шесть: а, о, у, э, и, ы (гласные е, я, ё, ю - составные из й и гласных э, а, о, у). По месту образования фонемы делятся на губные, зубные, небные, гортанные, передние и задние. При произнесении звуков речи язык, губы, зубы, нижняя челюсть, голосовые связки должны находиться для каждой фонемы в строго определенном положении или движении. Эти движения называют артикуляцией органов речи. При этом в речеобразующем тракте создаются резонансные полости, определенные для данной фонемы, а для слитного звучания фонем в речи -определенные переходы от одной формы тракта к другой. При произнесении звуков речи через речевой тракт проходит или тональный импульсный сигнал, или шумовой, или тот и другой вместе. Речевой тракт представляет собой сложный акустический фильтр с рядом резонансов, создаваемых с помощью артикуляционных органов речи (полостями рта носа и носоглотки). Вследствие этого равномерный тональный или шумовой спектр превращается в спектр с рядом максимумов и минимумов. Максимумы спектра называют формантами, а нулевые провалы - антиформантами. Для каждой фонемы огибающая спектра имеет индивидуальную и вполне определенную форму. При произнесении речи спектр ее непрерывно изменяется, и образуются формантные переходы. Частотный диапазон речи находится в пределах 70..7000 Гц [59]. Звонкие звуки речи, особенно гласные, имеют высокий уровень интенсивности, глухие - самый низкий. При произнесении речи громкость ее непрерывно изменяется. Особенно резко она изменяется при произнесении взрывных звуков речи. Динамический диапазон уровней речи (т.е., разность между максимальным и минимальным уровнями) находится в пределах 30..40 дБ [7,99,123]. Гласные звуки речи имеют в среднем длительность около 0,15 с, согласные - около 0,08 (звук п — около 30 мс). Звуки речи неодинаково информативны. Так, гласные звуки содержат малую информацию о смысле речи, а глухие согласные - основную (на-
пример, в слове "посылка" последовательность "о, ы, а" ничего не говорит, а "п, с, лк" дает почти однозначный ответ о смысле. Поэтому разборчивость речи снижается при действии шумов, в первую очередь из-за маскировки глухих звуков.
Известно, что для передачи одного и того же сообщения по телеграфу и по речевому тракту требуется различная пропускная способность тракта. Для телеграфного сообщения достаточна пропускная способность не более 100 бит/с, а для речевого - около 100000 бит/с (полоса равна 7000 Гц, динамический диапазон 42 дБ, следовательно, требуется семизначных код, откуда имеем 2-7000-7=98000 бит/с), т.е. в 100 раз большая. Образование звуков речи происходит путем подачи команд к мускулам артикуляционных органов речи от речевого центра мозга. Общий поток сообщений от него составляет в среднем не более 100 бит/с. Вся остальная информация в речевом сигнале называется сопутствующей.
Речевое сообщение представляет собой своего рода модулированную несущую [45,59]. Его спектр 8(со) = Е(со)-р(со), где Е(со) - спектр генераторной функции, т.е. импульсов ОТ или шума; р(со) - фильтровая функция речевого тракта (модулирующая кривая). Эта модуляция особая - спектральная. При ней несущая имеет широкополосный спектр, а в результате модуляции изменяется соотношение между частотными составляющими, т.е. изменяется форма огибающей спектра. Почти вся информация о звуках речи заключена в спектральной огибающей речи и ее временном изменении (частично информация о звуках речи заключена в переходах от тонального спектра к шумовому и обратно - по этим переходам узнают о смене звонких звуков на глухие, и наоборот). Все эти изменения происходят медленно (в темпе речи). Для передачи смысла речи достаточно передавать сведения о форме огибающей спектра речи и ее временном изменении в темпе смены звуков речи, а также изменение ОТ речи и переходов тон-шум.
Рассмотренные закономерности построения речи позволяют сделать вывод о том, что речь представляет собой сложный многочастотный сигнал, который нужно должным образом обработать для выделения информационной части.
1.2 Методы формирования вектора параметров речевого сообщения
В общем случае распознавание речи можно представить как неоднородную многоступенчатую процедуру, основанную на преобразовании исходных данных, выработке гипотез и принятии решений согласно некоторому критерию оптимальности. Для большинства современных параметрических систем распознавания речи характерно наличие двух последовательных этапов, представленных на рис. 1.1 [7,57,125].
Речевой сигнал
Цифровая обработка речевого сигнала и формирование вектора параметров
Первый этап
Моделирование и принятие решений
Транскрипция ->
выражения
Второй этап
Рисунок 1.1- Схема этапов обработки речевого сигнала в параметрических системах распознавания речи
Удачное построение модели сообщения, во многом предопределяющее успех распознавания, немыслимо без использования адекватного параметрического представления речевых данных, что выделяет осо-
бую важность первого этапа - этапа цифровой обработки речевого сообщения и формирования параметров.
Выбор структуры алгоритмов первого этапа обуславливается тремя основными причинами. Во-первых, первичное (аналоговое) речевое сообщение от некоторого источника необходимо преобразовать в цифровой с максимальным отношением сигнал/шум (ОСШ). Большая акустическая изменчивость речевого сигнала и широкое разнообразие внешних условий записи требуют использования различных фильтров для устранения некоторых нежелательных явлений в речевом сообщении. Во-вторых, по вполне понятным причинам в качестве параметров для распознавания речи невозможно использовать временные отсчеты речевого сообщения. Действительно, две временные реализации одного и того же речевого сообщения могут значительно отличаться как по форме, так и по амплитуде. В этой связи обычно применяют различные методы анализа для получения состоятельного набора параметров, отражающего внутренние характеристики речевого сообщения. В-третьих, зачастую полное описание речевого сообщения только в терминах основных параметров невозможно, поскольку, эти параметры, заключая в себе всю значимую информацию о сообщении, не способны учесть его динамику (характер изменения во времени). С этой целью в качестве дополнительных параметров широко используются так называемые дельта-параметры, представляющие собой производные по времени разных порядков от основных параметров.
Согласно сказанному выше блок цифровой обработки и формирования параметров должен содержать три ступени (уровня) обработки: блок временной обработки речевого сообщения, блок формирования параметров и блок преобразования параметров (рис. 1.2). Основная функция данного блока состоит в формировании массива параметров, адекватно соответствующего входному речевому сообщению.
Временная обработка > Формирование Преобразование
речевого сообщения параметров параметров
Рисунок 1.2- Схема блока цифровой обработки и формирования параметров
Временная обработка речевых сообщений. Процедура временной обработки речевых сообщений состоит, как правило, из ряда последовательных операций, показанных на рис. 1.3. Первые четыре блока обеспечивают наиболее полное представление речевого сообщения в цифровой форме с минимальной потерей полезной информации. С этой целью в качестве датчиков обычно используют высокочувствительные микрофоны с широкой полосой частот и низким собственным сопротивлением. Для предотвращения потери информации при дискретизации путем подмены (наложения) частот служит противоподменный фильтр. Характеристики таких фильтров, а также характеристики аналого-цифровых преобразователей (АЦП) и вносимые ими искажения достаточно подробно исследованы в [123]. Отметим, что для получения устойчивых оценок параметров необходимо обеспечить соотношение сигнал/шум не менее 30 дБ. Это сравнительно легко достигается даже при использовании стандартных аппаратных средств [7,123].
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Разработка и исследование алгоритмов распознавания речи для голосового управления через телефонную сеть2001 год, кандидат технических наук Кисельман, Бронеслав Арнольдович
Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума2017 год, кандидат наук Калашников, Дмитрий Михайлович
Сегментация речевых сигналов для задач автоматической обработки речи2017 год, кандидат наук Томчук, Кирилл Константинович
Математические модели и комплекс программ для автоматического распознавания дикторов2004 год, кандидат технических наук Адель Саллам Мохамед Хайдер
Алгоритмы распознавания речевых команд в управляющих системах2006 год, кандидат технических наук Литвиненко, Сергей Леонидович
Список литературы диссертационного исследования кандидат наук Выборнов, Сергей Владимирович, 2013 год
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1. Акоев Г.Н., Андрианов Ю.Н. Синаптическая передача в рецепторах акустико-латеральной системы. - Л.: Наука, 1989. - 139 с.
2. Акулич И.Л. Математическое программирование в примерах и задачах. -М.: Высшая школа, 1986. - 319 с.
3. Аллен Дж. Перспективы развития систем речевой связи человека с машиной. -ТИИЭР, 1985.-Т. 73.-№ 11.-С. 7-18.
4. Анализ и синтез речи (сб. научных трудов) / под ред. Б.М. Лобанова. Минск, 1991.-87 с.
5. Андерсон Т. Статистический анализ временных рядов. - М.: Мир, 1976. -775 с.
6. Блаттер К. Вейвлет-анализ. Основы теории: Пер. с нем. Учебное пособие. - М.: Техносфера, 2004. - 273 с.
7. Бовбель Е.И., Хейдоров И.Э. Статистические методы распознавания речи: скрытые марковские модели // Зарубежная радиоэлектроника. Успехи современной радиоэлектроники, 1998. - № 3. - С.45-65.
8. Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. - М.: Мир, 1974. Вып. 2.-408 с.
9. Борискевич A.A., Антончик A.B. Технология векторного низкоскоростного Фурье-кодирования речевого сигнала // Специальная техника, 2010. - № 3. -С. 40-48.
10. Ван-Трис Г. Теория обнаружения, оценок и модуляции. : Пер. с англ. - М.: Сов. радио, 1977. - Т. 3. - 644 с.
11. Винцюк Т.К. Распознавание слов устной речи методами динамического программирования // Кибернетика, 1968. - № 1. - С.81-88.
12. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов - Киев: Наукова думка, 1987. - 262 с.
13. Волошин В .Я. Распознавание образов: Учеб. пособие для студентов специальности Вычислит, машины, системы, комплексы и сети. - Владивосток: ВГУЭС, 2000.- 138 с.
14. Гаврилов A.B. Системы искусственного интеллекта - Новосибирск: изд. НГТУ, 2001.-78 с.
15. Галушкин А.И. Теория нейронных сетей. - М.: Радиотехника, 2000. -415 с.
16. Гоноровский И.С. Радиотехнические цепи и сигналы: Учебник для вузов. - М.: Изд. «Дрофа», 2006. - 719 с.
17. Градштейн И.С., Рыжик И.М. Таблицы интегралов, сумм, рядов и произведений. - М.: Наука. ГР ФМЛ, 1971. - 1108 с.
18. Гробман М.З., Тумаркин В.И., Выделение скрытых периодичностей и формантный анализ речи // Распознавание образов: теория и приложения. -М.: Наука, 1977.- 128 с.
19. Громаков Ю.А. Стандарты и системы подвижной радиосвязи. - М.: ЭкоТрендз Ко, 2000. - 239 с.
20. Гурьев Ю.Ю. Марковская нелинейная фильтрация речевого сигнала из смеси со стационарным шумом // Радиотехника, 1983. - № 12. - С. 48-51.
21. Девятков В.В. Системы искусственного интеллекта. - М.: МГТУ им. Н.Э.Баумана, 2001.-352 с.
22. Дженкинс Г., Ватте Д. Спектральный анализ и его приложения - М.: Мир, 1972. Вып. 1.-316 с. Вып. 2.-287 с.
23. Дмитриенко С.Н. Фонемы русского языка, их сочетаемость и функциональная нагрузка. - М.: Наука, 1985. - 232 с.
24. Елинек Ф. Распознавание непрерывной речи статистическими методами // ТИИЭР, 1976.-Т. 64.-№4.-С. 131-160.
25. Иллюстрированный самоучитель по цифровой графике. - М., 2007. - 150 с.
26. Классификация и кластер / Пер. с англ.; Под ред. Ю.И. Журавлева. -М.: Мир, 1980.-309 с.
27. Комарцова Л.Г., Максимов A.B. Нейрокомпьютеры - М.: Изд. МГТУ им. Н. Э. Баумана, 2001. - 320 с.
28. Корн Г., Корн Т. Справочник по математике для научных работников. - М.: Наука, 1984. - 831 с.
29. Коротаев Г.А. Эффективный алгоритм кодирования речевого сигнала на скорости 4.8 кбит/с и ниже // Зарубежная радиоэлектроника, 1996. -№ 3. - С. 52-68.
30. Красильников В.В. Статистика объектов нечисловой природы. -Набережная Челны: Изд-во Камского политехнического института, 2001. -144 с.
31. Круглов В.В., Дли М.И., Голунов Р.Ю. Нечеткая логика и искусственные нейронные сети. - М.: Физматлит, 2001. - 224 с.
32. Купер Дж., Макгиллем К. Вероятностные методы анализа сигналов и систем: Пер. с англ. - М.: Мир, 1989. - 376 с.
33. Кушнир Д.А. Радиально-базисная нейронная сеть встречного распространения // Искусственный интеллект, 2005. - № 4. - С. 364-370.
34. Кушнир Д.А. Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи // дисс. на соиск. уч. ст. канд. техн. наук. - М.: Московский государственный технический университет им. Н.Э.Баумана, 2006. - 182 с.
35. Мазуренко И.Л. Компьютерные системы распознавания речи // Интеллектуальные системы, 1998. - Т. 3. - № 1-2. - С. 117-134.
36. Максимов М.И. Оптимальные и субоптимальные алгоритмы обработки речевых сообщений при наличии аддитивных искажений // Дисс. на соиск. уч. ст. канд. техн. наук. - Воронеж: Воронежский государственный унивверситет, 2009. - 165 с.
37. Максимов М.И., Сидорова H.A., Чернояров О.В. Проектирование низкоскоростных речепреобразующих устройств для каналов с высоким процентом ошибок // Электросвязь. - 2008. - № 7. - С. 48-50.
38. Макхоул Дж., Рунос С., Гиш Г. Векторное квантование при кодировании речи //ТИИЭР, 1985. -Т. 73. -№ 11. -С. 19-61.
39. Маркел Дж., Грэй А.Х. Линейное предсказание речи: Пер. с англ. -М.: Связь, 1980.-308 с.
40. Марпл-мл. С.Л. Цифровой спектральный анализ и его приложения: Пер. с англ. - М.: Мир, 1990. - 584 с.
41. Методы автоматического распознавания речи /Пер. с англ. под ред. У. Ли.-М.: Мир, 1983.-Т. 1.-328 е.;-Т. 2.-392 с.
42. Методы классической и современной теории автоматического управления / Под общей ред. К.А. Пупкова. - М.: МГТУ им. Н. Э. Баумана, 2000. - Т. 1. - 747 е.; Т. 2. - 735 е.; Т. 3. - 747 с.
43. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео / Д. Ватолин, А. Ратушняк, М. Смирнов, В. Юкин. - М.: Диалог-МИФИ, 2003.-384 с.
44. Мысовских И.П. Лекции по методам вычислений. - СПб.: Изд. СПбГУ, 1998.-472 с.
45. Назаров М.В., Прохоров Ю.Н. Методы цифровой обработки и передачи речевых сигналов. - М.: Радио и связь, 1985. - 176 с.
46. Назаров М.В., Прохоров Ю.Н., Ковязин В.И. Алгоритмы адаптивной марковской фильтрации зашумленных речевых сигналов // Радиотехника, 1983. -№ 12.-С. 10-15.
47. Невдяев Л.М. CDMA: IS-95 // Сети. - 2000. - № 3. - С. 6-8.
48. Новиков Л.В. Основы вейвлет-анализа сигналов. - СПб.: Модус, 1999.- 152 с.
49. Оппенгейм A.B., Шафер Р.В. Цифровая обработка сигналов. - М.: Связь, 1979.-416 с.
50. Оппенгейм А., Шафер Р., Стокхэм-мл Т. Нелинейная фильтрация сигналов, представленных в виде произведения и свертки // ТИИЭР, 1968. -Т. 56.-№ 8.-С. 5-34.
51. Осовский С. Нейронные сети для обработки информации / Пер. с польского И.Д. Рудинского - М.: ФиС, 2002. - 343 с.
52. Плотников В.Н., Суханов В.А., Жигулевцев Ю.Н. Речевой диалог в системах управления. - М.: Машиностроение, 1988. - 224 с.
53. Попков Ю.С., Ашимов A.A., Асаубаев К.Ш. Статистическая теория автоматических систем с динамической частотно-импульсной модуляцией. -М.: Наука, 1988.-256 с.
54. Потапова Р. К. О типологических особенностях слога // Распознавание образов: теория и прил.: сб. ст. / АН СССР, Ин-т проблем передачи информации. - М.: Наука, 1977. - С. 60-67.
55. Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов. - М.: Радио и связь, 1984. - 240 с.
56. Пупков К.А., Коньков В.Г. Интеллектуальные системы. - М.: Изд. МГТУ им. Н.Э.Баумана, 2003. - 347 с.
57. Рабинер JI.P. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи: Обзор // ТИИЭР, 1989. - Т. 77.-№2.-С. 86-120.
58. Рабинер Л., Голд Б. Теория и применение цифровой обработки сигналов. -М.: Мир, 1978.-440 с.
59. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ. -М.: Радио и связь, 1981. -495 с.
60. Рамишвили Г.С. Автоматическое опознавание говорящего по голосу. - М.: Радио и связь, 1981. - 224 с.
61. Родионова Г.Г., Трунин-Донской В.Н. Акустические корреляты фонетических категорий русского языка. - М.: ВЦ АН СССР, 1986. - 32 с.
62. Самарский A.A., Гулин A.B. Численные методы. - М.: Наука, 1989. -429 с.
63. Сеге Г. Ортогональные многочлены. - М.: Физматгиз, 1962. - 500 с.
64. Сигеру Омату, Марзуки Халид, Рубия Юсоф Нейроуправление и его приложения / Пер. с японского; под. ред. А.И. Галушкина. - М.: Радиотехника, 2000. - 272 с.
65. Слепов Н. Оценка показателей ошибок цифровых линий передачи // Электроника: Наука, Технология, Бизнес, 2002. - №5. - С. 22-28.
66. Слуховая система/Под ред. Я.А. Альтман.-Л.: Наука, 1990.-620 с.
67. Солонина А.И., Улахович Д.А., Яковлев Л.А. Алгоритмы и процессоры цифровой обработки сигналов. - СПБ.: БХВ-Петербург, 2002. - 464 с.
68. Сорокин В.Н. Синтез речи. - М.: Наука, 1992. - 392 с.
69. Сорокин В.Н., Элементы кодовой структуры речи // Распознавание образов: теория и приложения. - М.: Наука, 1977. - С. 42-60.
70. Сорокин В.Н., Циплихин А.И. Сегментация и распознавание гласных // Информационные процессы, 2004. - № 2. - С. 202-220.
71. Трифонов А.П., Нечаев Е.П., Парфенов В.И. Обнаружение стохастических сигналов с неизвестными параметрами. - Воронеж: ВГУ, 1991. -246 с.
72. У Вэньцань Разработка алгоритмов для распознавания речи // дисс. на соиск. уч. ст. канд. техн. наук. -М.: Московский энергетический институт, 1999.- 133 с.
73. Уоссермен Ф. Нейрокомпьютерная техника: теория и практика. М.: Мир, 1992.- 184 с.
74. Фант Г. Акустическая теория речеобразования. - М.: Наука, 1964. -
284 с.
75. Фант Г. Анализ и синтез речи. - Новосибирск: Наука, 1970. - 306 с.
76. Фихтенгольц Г.М. Основы математического анализа: Учебник для вузов. - СПб.: Лань, 1999. - 448 с.
77. Фланаган Дж. Анализ, синтез и восприятие речи. - М.: Связь, 1968. -396 с.
78. Фланаган Дж. Вычислительные машины говорят и слушают. Речевое сообщение человека с машиной // ТИИЭР, 1976. - Т. 64. - № 4. - С. 78-91.
79. Форни-мл. Дж.Д. Алгоритм Витерби // ТИИЭР, 1973. - Т. 81. - № 3. -С. 12-25.
80. Фролов А., Фролов Г. Синтез и распознавание речи. Современные решения [Электронный ресурс] / Электронный журнал, 2003. -http://www.frolov-lib.ru
81. Цифровая обработка компьютерных и телевизионных изображений / под ред. Ю.Б. Зубарева, В.П. Дворковича. - М.: МЦНТИ, 1997. - 442 с.
82. Чесебиев И.А. Компьютерное распознавание и порождение речи. -М.: Спорт и культура, 2008. - 128 с.
83. Чучупал В.Я., Чичагов А.С., Маковкин К.А. Цифровая фильтрация зашумлённых речевых сигналов. - М.: ВЦ РАН, 1998. (http://www.ccas.ru/DCM/Chichag/index.htm)
84. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи. - М.: Радио и связь, 2000. - 456 с.
85. Шельгов В.И. Новое в технологии TETRA // Сети и системы связи, 2004.-№ 5.-С. 76-77.
86. R. Abouchakra Delay Estimation for Transform Domain Acoustical Echo Cancellation. Department of Electrical Engineering, McGill University, Montreal, Canada, September 1997. - 89 p.
87. R. Bakis "Continuous speech word recognition via centi-second acoustic states" // Proc. ASA Meeting (Washington DC), April 1976.
88. L.E. Baum and J.A. Egon "An inequality with applications to statistical estimation for probabilistic functions of a Markov process and to a model for ecology" // Bull. Amer. Meteorol. Soc., vol. 73, pp. 360-363, 1967.
89. L.E. Baum and G.R. Sell "Growth functions for transformations on manifolds" // Рас. J. Math., vol. 27, no. 2, pp. 211-227, 1968.
90. G. von Bekesy Experiments in Hearing. McGraw-Hill Book Company. New York, 1960.-37 p.
91. S.F. Boll "A spectral subtraction algorithm for suppression of acoustic noise in speech" // Proc. IEEE Int. Conf. on Acoustics, Speech, Signal Processing, (Washington, DC), pp. 200-203, Apr. 1979.
92. D.S. Broodhead, D. Lowe "Multivariable functional interpolation and adaptive networks" // Complex Systems, vol. 2, pp. 321-355, 1988.
93. S. Burger, Z. Sloane, J. Yang Competitive Evaluation of Commercially Available Speech Recognizers in Multiple Languages. - Pittsburgh: Carnegie Mellon University, 2006. - 6 p.
94. Ching Wai-Ki, K.Ng. Michael "Markov Chains: Models, Algorithms and Applications" // Springer, 2006. - P. 112.
95. Ching Wai-Ki, K.Ng. Michael, Eric S. Fung "Higher-order Multivaria-tive Markov Chains and Their Applications" // Linear Algebra and its Applications, 2008, vol. 428, issues 2-3, pp. 492-507.
96. D. van Compernolle "Hearing aids using binaural processing principles" // Acta Otolaryngologica Suppl., vol. 469, pp. 76-84, 1990.
97. D. van Compernolle, W. Ma, F. Xie, and M. van Diest "Speech recognition in noisy environments with the aid of microphone arrays" // Speech Commun., vol. 9, pp. 433-442, Dec. 1990.
98. T. Cover "Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition" // IEEE Trans. Electronic computers, vol. 14, pp. 326-334, 1965.
99. J.R. Deller, Jr., J.H.L. Hansen, and J.G. Proakis Discrete Time Processing of Speech Signals (2d ed.). New York: IEEE Press, 2000. - 800 p.
100. Digital Signal Processing Applications Using the ADSP-2100 Family. Volume 1 / Prentice Hall, Englewood Cliffs, NJ 07632, 1992. - 591 p.
101. Digital Signal Processing Laboratory Using the ADSP-2101 Microcomputer / Analog Devices, Inc., Norwood, MA 02062, 1991. - 300 p.
102. N. Dillier et al. "Digital signal processing (DSP) applications for multiband loudness correction digital hearing aids and cochlear implants" // J. Rehab. Res. Dev., vol. 30, pp. 95-109, 1993.
103. A. Gersho, S. Wang, and K. Zeger "Vector Quantization Techniques in Speech Coding, Advances in Speech Signal Processing" // S. Furui and M. Sondhi editors, Marcel Dekker, Inc., New York, pp. 49-84, 1992.
104. S. Goldenstein "Time Warping of Audio Signals", University of Pen-silvania, VAST Lab, http://www.graphics.cis.upenn.edu/.
105. W.A. Harrison, J.S. Lim, and E. Singer "A new application of adaptive noise cancellation" // IEEE Trans. Acoust., Speech and Signal Processing, vol. 34, pp.21-27, Feb. 1986.
106. W.M. Hartmann Signals, Sound, and Sensation. Springer Verlag, 1997. - 168 p.
107. H. Hermansky Automatic speech recognition and human auditory perception // Eur. Conf. On speech Technology. - Edinburgh, 1987. - Vol. 1. - P. 7982.
108. X. Huang, A. Acero, H. Hon Spoken Language Processing: A Guide to Theory, Algorithm, and System Development. - New Jersey: Prentice Hall PTR. -965 p.
109. F. Itakura and N. Sugamura "LSP Speech Synthesizer, its Principle and Implementation" // ASJ Trans, of the Com. on Speech Res., S79-46, pp. 349-356, Nov. 1979.
110. B.H. Juang and L.R. Rabiner "A probabilistic distance measure for hidden Markov models" // AT&T Tech. J., vol. 64, no. 2, pp. 391-408, Feb. 1985.
111. B.H. Juang, L.R. Rabiner, and J.G. Wilson "On the Use of Bandpass Liftering in Speech Recognition" // IEEE Trans, on Acoust., Speech and Signal Processing, vol. 35, no. 7, pp. 947-954, July 1987.
112. H. Hassaniech, P. Indyk, D. Katabi, E. Price "Nearly Optimal Sparce Fourier Transform" // http://arxiv.org/abs/1201.2501vl
113. E.J. Keogh, M.J. Pazzani "Derivative Dynamic Time Warping", Department of Information and Computer Science, University of California, Irvine, http://www.ics.uci.edu/.
114. E.J. Keogh, M.J. Pazzani "Scaling up Dynamic Time Warping to Massive Datasets", Department of Information and Computer Science, University of California, Irvine, http://www.ics.uci.edu/.
115. B.P. Lathi Linear Systems and Signals. Carmichael, Calif: BerkeleyCambridge Press, 1992. - 656 pp.
116. S.E. Levinson, L.R. Rabiner and M.M. Sondhi "An introduction to the application of the theory of probabilistic functions of a Markov process to automatic speech recognition" // Bell Syst. Tech. J., vol. 62, no. 4, pp. 1035-1074, Apr. 1983.
117. Y. Linde, A. Buzo, and R.M. Gray "An Algorithm for Vector Quantization Design" // IEEE Trans, on Comm., vol. 28, pp. 84-95, Jan. 1980.
118. N. Morgan and H.A. Bourland "Neural Networks for Statistical Recognition of Continuous Speech" // Proc. of the IEEE, vol. 83, no. 5, pp. 742-770, May, 1995.
119. M. Mouly, M.-B. Pautet The GSM System for Mobile Communication. Europe Media Duplication, 1992. - 702 p.
120. H. Ney "Perspectives of Speech Technologies Research Highlighted in Eurospeech'99" // Proc. of the 6th European Conference on Speech, Communication and Technology, September 5-9, 1999, Budapest, Hungary. Vol.1.
121. D. O'Shaughnessy Speech Communication: Human and Machine. Addison Wesley, New York, NY, USA, 1987. - 237 p.
122. Panos E. Papamichalis "Practical Approaches to Speech Coding". Prentice-Hall, Inc. Upper Saddle River, NJ, USA, 1987. - 322 p.
123. J. Picone "Signal Modeling Techniques in Speech Recognition" // IEEE Proceedings, vol. 81, no. 9, pp. 1215-1247, September 1993.
124. L. Rabiner and B. Juang An introduction to hidden Markov model // IEEE Trans. Acoust., Speech Signal Processing, vol. 3, no. 1, pp. 4-16, Janiary 1986.
125. L.R. Rabiner, B.H. Juang Fundamentals of Speech Recognition. Prentice-Hall, Inc., Englewood Cliffs, N.J., 2nd edition, 1999. - 496 pp.
126. L.R. Rabiner, B.H. Juang, S.E. Levinson, and M.M. Sondhi "Recognition of isolated digits using hidden Markov models with continuous mixture densities" // AT&T Tech. J., vol. 64, no. 6, pp. 1211-1222, July-Aug. 1986.
127. M. Rainer Speech Enhancement // Springer Berlin Heidelberg, 2005. -P. 406.
128. C. Redding, N. DeMinco, J. Lindner Voice Quality Assessment of Vocoders in Tandem Configuration // National Communications System's Office of Standards and Technology, Washington, DC, No. DNRO 66008. - 2001. - 21 p.
129. S. Renals, N. Morgan, H. Bourland, M. Cohen and H. Franco "Connec-tionist Probability Estimators in HMM Speech Recognition" // IEEE Trans. On Speech and Audio Processing, vol. 2, no. 1, Part II, pp. 161-174, January 1994.
130. G. Rigoll "Maximum Mutual Information Neural Networks for Hybrid Connectionist-HMM Speech Recognition Systems" // IEEE Trans on Speech and Audio Processing, vol. 2, no. 1, Part II, pp. 175-184, January 1994.
131. T. Robinson Speech Analysis. Lent Term, 1995. - 44 p.
132. H. Sakoe "Two level DP matching - a dynamic programming based pattern matching algorithm for connected word recognition" // IEEE Trans. Acoustics, Speech, Signal Proc., vol. 27, pp. 588-595, December 1979.
133. A.S. Spanias "Speech coding: A tutorial review" // Proc. of the IEEE, vol. 82, no. 10, October 1994, pp.1541-1582.
134. Specifications for the Analog to Digital Conversion of Voice by 2,400 Bit/Second Mixed Excitation Linear Prediction // Department of Defense Telecommunication Systems Standard, USA, MIL-STD-3005, 20 December 1999. - 65 p. / http://www.everyspec.com/MIL-STD/MIL-STD-3000-9999/MIL-STD-300517601/
135. Lynn M. Supplee, Alan V. McCree "Melp: The New Federal Standart at 2400 bps" // International conference on acoustics, speech, and signal processing, Munich, ALLEMAGNE (21/04/1997), pp. 1591-1594.
136. S.V. Vaseghi Advanced Signal Processing and Digital Noise Reduction. Wiley Teubner, 1996. - 141 p.
137. A.J. Viterbi "Error bounds for convolutional codes and an asymptotically optimal decoding algorithm" // IEEE Trans. Informat. Theory, vol. IT-13, pp. 260-269, Apr. 1967.
138. B. Widrow, S.D. Stearns Adaptive Signal Processing. Prentice-Hall, Inc., Englewood Cliffs, N. J., 1985. - 99 p.
139. Чернояров O.B., Черноярова E.B., Выборнов C.B. Функционал отношения правдоподобия случайного импульсного сигнала произвольной формы // Материалы 60 Научной сессии, посвященной дню радио. - Т.П. -Москва: РНТОРЭС им. A.C. Попова, 2005. - С. 251-254.
140. Чернояров О.В., Черноярова Е.В., Выборнов C.B. Способы практической реализации нелинейных преобразований в системах цифровой обработки сигналов // Технологии информационного общества: Тезисы докладов московской отраслевой научно-технической конференции. - М.: Ин-связьиздат, 2007. - С. 173-174.
141. Чернояров О.В., Выборнов C.B., Шепелев Д.Н. Полиномиальная аппроксимация нелинейных функций на основе ортогональных многочленов // Телевидение: передача и обработка изображений / Материалы 5-й Международной конференции. - СПб.: СПбГЭТУ, 2007. - С. 78-80.
142. Выборнов C.B. Адаптивное подавление стационарных помех в речевых сигналах // Научно-технические ведомости СПбГТУ. Серия "Информатика. Телекоммуникации. Управление". - 2007. - Т. 1. - № 4-1(52). - С. 144-150.
143. Выборнов C.B., Сидорова H.A. Построение низкоскоростных ре-чепреобразующих устройств // Труды РНТОРЭС им. A.C. Попова, серия: Научная сессия, посвященная дню радио. - Выпуск: LXIII. - Москва: ООО «Ин-связьиздат», 2008. - С. 124-126.
144. Выборнов C.B. Адаптивное подавление помех в речевых сигналах // Технологии информационного общества: Труды московской отраслевой научно-технической конференции. -М.: Инсвязьиздат, 2008. - С. 173-174.
145. Выборное C.B., Сидорова H.A. Практическая реализация низкоскоростных вокодеров для каналов с высоким процентом ошибок // Труды РНТОРЭС им. A.C. Попова, серия Цифровая обработка сигналов и ее применение / 10-я Международная выставка и конференция. - Выпуск Х-1. - Москва: ООО «Инсвязьиздат», 2008. - С. 225-228.
146. S.V. Vybornov, N.A. Sidorova Practice realization of the low-speed vocoders for channels with high percent of errors // Труды РНТОРЭС им. A.C. Попова, серия Цифровая обработка сигналов и ее применение / 10-я Международная выставка и конференция. - Выпуск Х-1. - Москва: ООО «Инсвязьиздат», 2008. - С. 228.
147. Выборное C.B., Сидорова H.A., Чернояров О.В. Построение рече-преобразующих устройств на скорости 2,4 кбит/с и ниже // Научно-технические ведомости СПбГПУ. Серия "Информатика. Телекоммуникации. Управление". - 2008. - № 4(62). - С. 82-86.
148. Выборнов C.B., Терехов A.B. Распознавание изолированно произнесенных слов на основе вейвлет-преобразований // Фундаментальные проблемы радиоэлектронного приборостроения / Материалы Международной научно-технической конференции «INTERMATIC - 2011». - М.: МГТУ МИРЭА - ИРЭ РАН, 2011, часть 3. - С. 19-22.
149. Выборнов C.B. Алгоритм распознавания изолированных слов с настройкой на диктора // Радиотехнические тетради. - 2012. - № 48. - С. 59-68.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.