Алгоритмы распознавания речевых команд в управляющих системах тема диссертации и автореферата по ВАК РФ 05.11.16, кандидат технических наук Литвиненко, Сергей Леонидович

  • Литвиненко, Сергей Леонидович
  • кандидат технических науккандидат технических наук
  • 2006, Волгоград
  • Специальность ВАК РФ05.11.16
  • Количество страниц 180
Литвиненко, Сергей Леонидович. Алгоритмы распознавания речевых команд в управляющих системах: дис. кандидат технических наук: 05.11.16 - Информационно-измерительные и управляющие системы (по отраслям). Волгоград. 2006. 180 с.

Оглавление диссертации кандидат технических наук Литвиненко, Сергей Леонидович

Введение.

1 Анализ систем и методов распознавания речевого сигнала.

1.1 Анализ структур систем распознавания речи.

1.2 Анализ методов спектрального представления речевого сигнала.

1.3 Анализ методов подавления помех в речевом сигнале.

1.4 Анализ методов сегментации речевого сигнала.

1.5 Анализ методов распознавания речи.

2 Математическое описание частотно-временной структуры речевого сигнала.

2.1 Анализ речевого сигнала на разных частотно-временных масштабах.

2.2 Пакетное вейвлет-преобразование как способ представления сигнала на разных частотно-временных масштабах.

2.3 Метод сегментации спектрограмм речевого сигнала.

3 Разработка алгоритмов распознавания речевых команд.

3.1 Разработка алгоритмов получения пакетной вейвлет-спектрограммы речевого сигнала.

3.2 Разработка алгоритмов формирования эталона.

3.3 Разработка алгоритмов сравнения текущего образа с эталоном.

4 Экспериментальное исследование работы алгоритмов распознавания.

4.1 Методика и средства проведения экспериментов.

4.2 Цель экспериментальной работы и выбор критериев качества.

4.3 Исследование работы алгоритмов, выполняющих распознавание путем сопоставления спектрограмм пакетного вейвлет-преобразования.

4.4 Исследование работы алгоритмов, выполняющих распознавание путем сопоставления функций ошибки моделирования спектрограмм пакетного вейвлет-преобразования.

4.5 Исследование работы алгоритмов, выполняющих распознавание путем сопоставления функций ошибки моделирования при двухмасштабном частото-временном представлении сигнала.

4.6 Результаты экспериментов по распознаванию изолированных слов.

Рекомендованный список диссертаций по специальности «Информационно-измерительные и управляющие системы (по отраслям)», 05.11.16 шифр ВАК

Введение диссертации (часть автореферата) на тему «Алгоритмы распознавания речевых команд в управляющих системах»

На всех этапах развития техники делаются попытки возложения на машины функций выполняемых человеком. Сначала это были только наиболее трудоемкие функции, связанные с большими затратами энергии. Затем, с дальнейшим развитием техники, появилась возможность выполнения машинами различных интеллектуальных функций, т.е. в некоторых областях интеллектуальной деятельности, например обработки больших объемов информации, человек заменяется машиной. Какие бы не были простые или сложные эти технические средства всегда существует необходимость управления ими. Человек может передавать управляющее воздействие с помощью органов движения и речи. Наиболее простым оказалось решение задачи передачи управляющего воздействия с использованием рук человека. Однако более удобной и естественной для человека является речевая коммуникация. Поэтому уже много десятилетий развивается область науки связанная с проблемой организации речевого управления техническими системами. Попытка решения этой проблемы привела к формулировке и решению огромного числа задач связанных с моделированием и обработкой, передачей и распознаванием человеческой речи.

Системы распознавания речи получают, в настоящее время, все более широкое распространение в тех приложениях, где естественный речевой диалог позволяет повысить удобство управления и обмена информацией с различными информационными системами. Повышение достоверности распознавания ведет, как правило, к усложнению систем распознавания и стоимости их изготовления. Вместе с тем в некоторых приложениях требуется реализовать компактную и простую систему распознавания речевых команд с небольшим словарем, которую достаточно просто реализовать аппаратно и встроить в уже имеющуюся или разрабатываемую систему. Такие системы распознавания могут потребоваться, например, для речевого запроса информации в какой-либо информационной системе; для запроса оперативной информации о состоянии объекта управления; для подачи речевых команд системе управления, в тех случаях, когда руки оператора заняты контролем других функций управляемого процесса; или в случае, когда оператор находится в скафандре и ему неудобно руками воздействовать на органы управления. Для таких систем требуется узко специализированный словарь командного языка и контекстно-зависимая грамматика, а от блока распознавания требуется высокая достоверность идентификации команды.

В настоящее время сложные системы распознавания речи, имеющие большой словарный запас, основываются на применении скрытых Марковских моделей в качестве средства стохастического моделирования сложного речевого сигнала, для обучения которых используются обширные базы данных сегментированной речи, а свободно распространяемых русскоязычных обучающих баз данных для создания таких систем в России нет. В случае же создания системы для распознавания определенного набора команд, состоящих из изолированных слов, требуется небольшой словарь, порядка сотни слов, с контекстно-зависимой грамматикой. Эти два фактора сильно облегчают создание системы распознавания. В то же время система должна иметь возможность быть быстро перенастроена на другую задачу. Указанные факторы позволяют создавать в данном случае системы без использования Марковских моделей, но в этом случае существующие методы распознавания не дают такого высокого качества распознавания.

В связи с вышеизложенным, представляется актуальной задача разработки алгоритмов распознавания речевого сигнала просто реализуемых аппаратно и позволяющих достигнуть высокой достоверности распознавания.

Развитие области знаний, связанной с анализом и распознаванием речевого сигнала началось с решения задач передачи человеческой речи по узкополосным каналам связи с полосой пропускания меньшей, чем у обычной телефонной линии. Решение этой задачи привело к созданию вокодеров, устройств выполняющих сокращение частотной полосы речевых сигналов для линий дальней связи. Первым успехом в данной области считается полосный вокодер Дадли, созданный в 1936 году [9]. В настоящее время, каждый человек, разговаривая по сотовому телефону, пользуется так называемыми липредерами - вокодерами, работающими на основе линейного предсказания речевого сигнала, используемыми в стандарте GSM. Однако, до сих пор, в области вокодерной связи не решена задача максимального сжатия речевого сигнала до фонемного уровня и передачи его с наименьшей скоростью 60 бит/с, что соответствует письменной передачи речи произносимой со средней для человека скоростью 10 фонем в секунду. Т.е. мечта замены двух телеграфисток, первая из которых слушает абонента на одном конце линии связи и передает его речь телеграфным способом второй, которая просто читает телеграмму абоненту на другом конце линии связи, остается пока задачей ближайшего, но все же будущего. Решение этой задачи непосредственно связано с распознаванием непрерывной человеческой речи.

Достижения в области анализа и передачи речевого сигнала впервые в нашей стране были широко изложены в монографии М.А. Сапожкова «Речевой сигнал в кибернетике и связи» в 1963 году, дальнейшим развитием которой стала работа [44]. Затем вышла работа большого коллектива авторов «Вокодерная телефония. Методы и проблемы» под. редакцией А.А. Пирогова [9]. За рубежом методы анализа речевого сигнала были опубликованы Дж. Фланаганом в своей монографии немного позже М.А. Сапожкова.

Несмотря на то, что в начале исследований по анализу и распознаванию речи работы отечественных ученых и инженеров, направленные в основном на создание эффективных вокодерных систем связи, выполнялись одновременно или с опережением западных, в основном американских, в области распознавания речи наметилось серьезное отставание отечественной техники и технологии. Серьезные работы по распознаванию речи начались в основном после Второй мировой войны. В AT&T Bell Labs была создана система распознавания отдельных цифр с помощью простого согласования акустических характеристик с шаблонами. Система распознавания на основе вероятностного подхода была создана Фраем и Денесом в лондонском

University College. В этой системе впервые использовались вероятности переходов между фонемами. Начиная с 1971 года Агентство перспективных исследовательских программ (DARPA) Министерства обороны США финансировало четыре конкурирующих пятилетних проекта по разработке высоко эффективных систем распознавания речи. Победителем этой программы и единственной системой, соответствующей требованиям по распознаванию словаря из 1000 слов с точностью 90%, стала система HARPY, разработанная в университете CMU. Окончательная версия этой системы была создана на основе системы Dragon, разработанной аспирантом того же университета Дж. Бейкером [42]. В этой системе для вероятностного моделирования слов речи впервые были использованы скрытые Марковские модели [88]. Почти одновременно с системой Dragon в компании IBM была разработана еще одна система на основе скрытых Марковских моделей. Начиная с этих двух разработок, вероятностные методы в целом и скрытые Марковские модели в частности стали доминировать в исследованиях и разработках по распознаванию речи [3, 24, 57, 58, 59, 73, 82, 83, 88]. Использование данного подхода, ввиду своей эффективности, стало в настоящее время почти промышленным стандартом. г

Основой всех систем передачи и распознавания речевого сигнала являются модели генерации речевого сигнала [40, 41, 44, 29, 52] и его восприятия [52, 61]. Наиболее полный охват исследований, производившихся в области анализа речевого сигнала, приведен в работе [52], написанной коллективом авторов под редакцией JI.A. Чистович.

Модель генерации речевого сигнала основана на прямых сведениях из физиологии человека, представляющей речевой аппарат человека в виде трубы с различными изменяющимися сечениями, через которую проходит либо тональный, либо шумовой сигнал [40, 41, 44]. Хотя эта модель является несколько упрощенной линейной системой, все же она с достаточной степенью точности описывает процессы, происходящие в речевоспроизводящем аппарате человека, и позволяет с высокой степенью точности описывать речевой сигнал.

Модель восприятия речи, в отличие от модели генерации, не может быть в полной мере построена на прямых сведениях по физиологии, так как помимо процессов происходящих в слуховом аппарате затрагивает процессы, происходящие в мозге человека, поэтому не существует единого мнения о структуре данной модели. Более того, не существует единого мнения о том, какие признаки речевого сигнала являются информативными. Однако наиболее общепринятым считается, что речевой сигнал представляется в слуховой системе человека в виде аналогичном спектрограммам сигнала (см. [52]), а информация заключается в положении спектральных максимумов. Альтернативная точка зрения на процесс восприятия и представления речевого сигнала в системе слуха человека представлена в работе [61], где приводятся данные «временной теории слуха» и анализ сигнала проводится на базе функций аналогичных по своей природе функциям корреляции. Альтернативное мнение об информативных признаках было высказано А.А. Пироговым в его теории фонетической функции речи (см. [9]), где говорится о том, что человек воспринимает речевые элементы по их относительным, а не абсолютным спектрам. В пользу этой незаслуженно забытой теории выступает тот факт, что человек хорошо распознает искаженную каналами связи речь, с сильно смещенными и искаженными спектральными максимумами [9].

В основу современных систем распознавания речи положены в основном данные по моделированию процесса генерации речи, а из модели слухового восприятия в основном используется информация о логарифмической шкале восприятия интенсивности звука и факт неравномерности частотного разрешения слуховой системы [86, 88].

В системах распознавания речи используются несколько основных этапов обработки сигнала, это получение представления речевого сигнала в признаковом пространстве, статистическая обработка полученных векторов наблюдений и собственно стадия распознавания

57,58,59,73,82,83,88,90,91,97,99].

Для качественной работы системы распознавания очень важна первая из указанных стадий, основанная на методах цифровой обработки сигналов (см. [1, 4, 5, 6, 8, 13, 16, 38, 40, 41, 43, 48]). На этой стадии, называемой параметризацией оцифрованного речевого сигнала [86, 88], как правило, применяются методы преобразования его временного представления в частотное, а также выполняется фильтрация сигнала. Для этого можно использовать спектры мощности, полученные с помощью Фурье преобразования, различных банков фильтров и т.д. Широкое распространение в области распознавания и передачи речевого сигнала получил метод линейного предсказания речи основанный на модели речеобразования (см. [29]). А также метод кепстрального анализа - обратное Фурье преобразование спектра мощности сигнала [86]. В этом случае для классификации речевого сигнала используют линейно предсказанные кепстральные коэфиициенты (см. [86]). Наибольшее распространение в системах распознавания речи получили кепстральные коэффициенты отфильтрованные с использованием мел-шкалы (MFCC) [86, 88].

В настоящее время в задачах обработки и сжатия аудио сигналов и изображений широкое распространение получил математический аппарат вейвлет-преобразования [56, 100, 2, 7, 10, 12, 20]. Теория вейвлетов наиболее бурно развивалась в 80-90-е годы XX века, хотя на практике в теории фильтрации, при обработке и передаче информации вейвлеты фактически применялись уже в 40-50-х годах [56]. Вейвлет-анализ является обобщением концепций функционального анализа, теории ортогональных рядов и разложений. На первый взгляд, Вейвлет-анализ имеет много общего с кратковременным Фурье-анализом, широко используемым для обработки сигналов, но в тоже время он является намного более мощным, удобным и универсальным аппаратом. Первые результаты по теории вейвлетов и ее применению были получены представителями французской научной школы: А. Коэном, Р. Кауфманом, И. Мейером, С. Мала, И. Добеши и др. В 1987 году С. Мала было показано, что вейвлеты могут быть положены в основу нового мощного метода обработки и анализа сигналов - кратномасштабного анализа, теория которого объединяет в себе методы субполосного кодирования из теории обработки сигналов, квадратурно-зеркальную фильтрацию из теории распознавания речи и пирамидальную обработку изображений [14]. Теории и применению вейвлет-анализа посвящены работы [56, 100, 2, 7, 10, 12, 20, 68, 102, 101,92, 95, 97, 98].

В настоящее время наиболее эффективные и многочисленные применения вейвлет-анализа относятся к области сжатия и анализа изображений [14]. Вейвлет-анализ широко применяется и в физике, а также для решения различных инженерных задач (см. [2, 17]). Наиболее масштабное практическое применение вейвлетов реализовано в ФБР США для организации огромной базы данных оцифрованных и сжатых дактилоскопических изображений [14]. Примеры практического применения вейвлетов в задачах обработки сигналов и изображений можно найти в [14, 102, 101, 92, 95, 97, 98].

Ввиду успешного применения алгоритмов обработки и сжатия сигналов на основе вейвлет-анализа сейчас делаются попытки использовать его в задачах распознавания речи. Делаются попытки использовать дискретный вариант вейвлет-преобразования, реализуемый с помощью алгоритма вычисления быстрого вейвлет преобразования, для параметризации речевого сигнала [78, 97]; распознавания фонем и оценки основного тона речевого сигнала [97]; для идентификации диктора [65, 85]; в задачах подавления шума в речевом сигнале [70]; а также в таких задачах, как анализ аудио записей [98]; для распознавания музыкальных инструментов [74]; и даже для распознавания звуков, издаваемых китами [92].

Однако в работе [97] говорится о недостаточно полном описании речевого сигнала с использованием обычного дискретного вейвлет-преобразования и предлагается использовать дискретизированное непрерывное вейвлет преобразование полнее описывающее сигнал, однако для такого преобразования нет быстрого алгоритма вычисления. Поэтому в других работах [65, 91] для анализа речевого сигнала делаются попытки применения пакетного вейвлет-преобразования, которое разбивает частотный диапазон на одинаковые участки, в отличие от обычного быстрого вейвлет-преобразования, в котором низкочастотные участки более детализированы.

Пакетное вейвлет-преобразования было введено Койфманом и Викерхаузером. Подробное описание вейвлет-пакетов можно найти в [100]. Пример применения пакетного вейвлет-преобразования для параметризации речевого сигнала можно найти в [65, 91]. Здесь, также как и в других вариантах применения пакетного вейвлет-преобразования [42, 67, 100, 60, 102], производится поиск наилучшего базиса разложения сигнала на частотные полосы с точки зрения критерия минимума количества информации. Описание алгоритмов поиска наилучшего базиса приводится в [100, 93, 72, 67].

В данной работе предлагается применение пакетного вейвлет-преобразования для представления речевого сигнала в признаковом пространстве не только из-за эффективности его применения для анализа сигналов, но в основном по двум следующим причинам. Первая заключается в том, что речевой сигнал представляет собой чередование быстро и медленно протекающих процессов. К первой группе относятся переходы между звуками и взрывные звуки, ко второй - устойчивые гласные и согласные звуки. При анализе быстротекущих процессов необходимо высокое временное разрешение, а при анализе медленно текущих процессов достаточно низкого временного разрешения, зато характеристики продолжительных звуков сконцентрированы в основном в частотной области и для их анализа и сравнения звуков необходимо высокое частотное разрешение. Вторая причина - это требование разного частотно-временного разрешения для разных задач анализа речевого сигнала. Например, детектирование тон/шум, выделение фрагмента с речью можно выполнять при низком частотном разрешении, а распознавание звуков, наоборот, при высоком частотном разрешении. Таким образом, необходимо сразу несколько различных частотно-временных масштабов представления сигнала, так как ввиду принципа неопределенности мы не можем одновременно получить высокое частотное разрешение одновременно с высоким временным разрешением. При использовании обычных методов, например, кратковременного Фурье-преобразования пришлось бы выполнить несколько преобразований с различными размерами окон анализа и шага смещения окна. Пакетное вейвлет-преобразование позволяет представить сигнал сразу на разных масштабах, так как коэффициенты каждого следующего уровня, ведущего к увеличению частотного разрешения и уменьшению временного, вычисляются на основе коэффициентов предыдущего уровня, поэтому нет необходимости в повторных вычислениях.

Кроме использования метода пакетной вейвлет-параметризации для реализации системы распознавания в данной работе предлагается использовать информацию о сегментации речевого потока на звуки. Использование этой информации должно повысить достоверность распознавания слов.

Задача сегментации речевого сигнала является очень важной в теории распознавания речи. Так как в настоящее время системы распознавания речи в основном строятся с использованием скрытых Марковских моделей, с помощью которых слово представляется в виде Марковской цепи состояний (см. [88]), то для обучения таких систем распознавания необходима обучающая база данных, содержащая фразы с информацией об их сегментации на звуки. Для упрощения создания таких баз данных необходимо использовать автоматическую сегментацию речевого потока. Кроме того, задача сегментации решается и во время работы системы распознавания слитной речи, основанных на фонемном подходе для выделения из речевого потока конкретных звуков.

Для сегментации речевого потока в настоящее время применяется большое количество разнообразных алгоритмов (см. [71]), во многих из них система должна быть предварительно обучена.

То, что слуховая система человека выполняет сегментацию речевого потока еще на начальных стадиях обработки речевого сигнала до его распознавания можно судить по данным из нейрофизиологии слуха, опубликованных в [52] где показано, что 1) акустический сигнал представляется в нервной системе в форме аналогичной спектру; 2) слуховая система выделяет в спектре неравномерности как по времени так и по шкале частот. Неравномерности по частоте называются особенностями сигнала, а неравномерности по времени - событиями. Примером особенностей можно считать спектральные максимумы, называемые в теории обработки речи формантами. Событиями можно считать переходы от одного звука к другому, при этом, в общем случае, изменяются статистические характеристики распределения энергии сигнала по шкале частот.

Исходя из вышесказанного, на начальных этапах обработки акустического сигнала в системах распознавания речи более предпочтительны алгоритмы сегментации на основе анализа свойств текущего сигнала. Обзор таких алгоритмов сегментации и обнаружения изменений в поведении функций приведен в [71].

Задача сегментации сигнала тесно связана с задачей его классификации (см. [34, 35, 42, 53, 54]). Наилучшие результаты работы показывают алгоритмы сегментации, использующие для своей работы классификацию сигнала (многомодельный подход в детектировании переходов и методы кластеризации) [71]. Однако эти алгоритмы не используют информацию об изменении характеристик сигнала при переходе между сегментами, которую можно получить, анализируя всего лишь два соседних сегмента сигнала.

В данной работе предлагается метод сегментации, который сочетает в себе одновременно два подхода, с одной стороны сигнал рассматривается как набор векторов признаков, которые можно классифицировать, с другой стороны окончательная классификация сегментов не производится, а вычисляется только функция ошибки с выхода простейшей модели сигнала. При этом информация извлекается из текущего кадра анализа сигнала, а не при сопоставлении двух кадров. Модель строится на основе анализа энергетического спектра сигнала с использованием метода главных компонент. В данном случае важен тот факт, что используется наиболее грубая модель, которая может описать только один звук речи, а два и более нет, в результате чего возникает большая ошибка описания сигнала. Разрабатываемый автором алгоритм извлекает из речевого сигнала информацию о его разбиении на устойчивые сегменты на основе функции ошибки восстановления спектрограммы по первой главной компоненте. Локальным максимумам данной функции соответствуют моменты переходов от одного устойчивого сегмента сигнала к другому, как правило, соответствующего одному звуку речи.

Итак, в данной работе предлагается реализовать систему распознавания речевых команд с учетом указанных ранее требований с применением разномасштабного частотно-временного описания речевого сигнала на основе пакетного вейвлет-преобразования сигнала, и использовать на стадии распознавания информацию о переходах между звуками речи.

Целью настоящей работы является повышение качества распознавания речевых команд системами распознавания речи.

В соответствие с указанной целью работы и приведенными выше основными положениями данной работы, были поставлены следующие задачи диссертационного исследования:

Разработка математической модели спектрального представления речевого сигнала и модели детектирования переходов между звуками речи;

Разработка алгоритмов спектрального представления, детектирования переходов между звуками речи и распознавания речевых команд;

Разработка программного комплекса для речевого управления конечным автоматом.

Для решения поставленных задач и достижения намеченной цели использовались методы математического моделирования, теории вероятностей, теории случайных процессов, математической статистики, спектрального и вейвлет анализа, теории цифровой обработки сигналов, а также методы теории распознавания образов. При проведении экспериментов для организации экспериментов, статистических расчетов, отображения результатов и формирования зависимостей была использована система MATLAB, а процедуры, реализующие разработанные автором алгоритмы были реализованы на языке С++ с использованием интегрированной среды разработки Borland С++ Builder.

Основные результаты диссертационного исследования, имеющие научную новизну, заключаются в следующем:

- Предложен метод анализа свойств речевого сигнала одновременно на различных частотно-временных масштабах с использованием пакетного вейвлет-преобразования;

- Предложен метод сегментации речевого сигнала на основе вычисления функции ошибки моделирования спектрограммы сигнала нейросетевой моделью, выполняющей вычисление первой главной компоненты;

- Предложен метод сравнения спектрограмм речевого сигнала по функции ошибки моделирования спектрограмм сигнала нейросетевой моделью, выполняющей вычисление первой главной компоненты.

В соответствие с указанными результатами исследования, диссертационная работа содержит следующие положения, выносимые на защиту:

1. Метод распознавания изолированных слов на основе сопоставления функций ошибки моделирования нейронной моделью спектрограмм полученных по коэффициентам пакетного вейвлет-преобразования;

2. Алгоритмы распознавания изолированных слов путем получения многоуровневого спектрального представления речевого сигнала на основе пакетного вейвлет-преобразования, вычисления функции ошибки моделирования спектрограмм нейронной моделью, и двухуровневого сопоставления спектрограмм на основе информации полученной нейронной моделью;

3. Результаты экспериментов подтверждающих эффективность разработанных алгоритмов распознавания изолированных слов речи.

Практическое применение имеет созданная автором система речевого управления система речевого управления роботизированным комплексом. Разработанные автором при создании данной системы алгоритмы и методы могут использоваться в компактных встраиваемых системах распознавания речевых команд. Простота алгоритмов позволяет реализовывать их аппаратно и оснащать блоком речевого управления различную бытовую и промышленную аппаратуру. Разработанный алгоритм сегментации речевого сигнала может использоваться в системах передачи речевого сигнала (например, в IP телефонии, сотовой связи) с целью увеличения степени сжатия потока информации, а также при создании обучающих баз данных сегментированной речи. Собственное применение может иметь и разработанная для проведения экспериментов база данных слов входящих в командный язык разрабатываемой системы распознавания речевых команд.

Обоснованность и достоверность полученных результатов подтверждается корректным использованием современного математического аппарата и экспериментальной проверкой разработанных алгоритмов.

Разработанные методы и алгоритмы легли в основу системы речевого управления роботизированным комплексом. Созданный при разработке данной системы программный экспериментальный комплекс используется для формирования лабораторного практикума по дисциплинам «Моделирование систем» и «Системы искусственного интеллекта». f,

Основные результаты диссертационной работы докладывались и обсуждались на 8-й Международной конференции «Цифровая обработка сигналов и ее применение» (DSPA-2006) (Москва, Институт проблем управления РАН, 2006); V Международной научно-практической конференции «Моделирование. Теория, методы и средства» (Новочеркасск, ЮРГТУ, 2005); Всероссийской научно-технической конференции «Актуальные проблемы радиоэлектроники и телекоммуникаций» (Самара, СГАУ, 2005); Одиннадцатой Международной научно-технической конференции студентов и аспирантов «Радиоэлектроника, электротехника и энергетика» (Москва, МЭИ, 2005); Международной научно-технической конференции «Системные проблемы надежности, качества, информационных и электронных технологий в инновационных проектах» (Инноватика - 2005) (Сочи, 2005); III и IV научнопрактических конференциях профессорско-преподавательского состава ВПИ (Волжский, ВПИ (филиал) ВолгГТУ, 2004, 2005).

Диссертационная работа состоит из введения четырех глав, заключения, библиографического списка используемой литературы.

Похожие диссертационные работы по специальности «Информационно-измерительные и управляющие системы (по отраслям)», 05.11.16 шифр ВАК

Заключение диссертации по теме «Информационно-измерительные и управляющие системы (по отраслям)», Литвиненко, Сергей Леонидович

ЗАКЛЮЧЕНИЕ

В работе был предложен метод разномасштабного описания речевого сигнала с помощью пакетного вейвлет-преобразования, и метод получения информации о переходах между звуками речи на основе нейросетевой модели, выполняющей моделирование сигнала с помощью первой главной компоненты. Эти методы были реализованы в виде алгоритмов, позволяющих получить спектральное представление речевых команд, сформировать эталоны и выполнить сравнение текущей команды с эталоном. Для настройки параметров и исследования эффективности работы алгоритмов был разработан программный комплекс, с помощью которого была проведена серия экспериментов, в которых была доказана эффективность разработанных алгоритмов.

В работе показана возможность эффективного применения аппарата пакетного вейвлет-преобразования для анализа речевого сигнала, в тех случаях, когда необходимо решать одновременно несколько задач обработки сигнала, для решения каждой из которых требуется свой частотно-временной масштаб. Показана также важность использования в системах распознавания информации о сегментации речевого сигнала. Следует отметить, что разработанный метод позволяет получать такую информацию без предварительного обучения системы, а значит, применим при анализе спектрограмм неизвестного сигнала и может найти применение для анализа неречевых сигналов. Таким образом, основными результатами работы стали:

Математическая модель спектрального представления речевого сигнала;

Математическая модель детектирования переходов между звуками речи;

Алгоритм получения спектрального представления речевого сигнала;

Алгоритм детектирования переходов между звуками речи;

Алгоритм распознавании речевых команд по их пакетным вейвлет-спектрограммам;

Программный комплекс для голосового управления конечным автоматом;

Проведенное исследование работоспособности предлагаемых алгоритмов показало их эффективность для реализации систем распознавания изолированных слов речи.

Разработанный в данной работе метод получения информации переходах между соседними звуками речи может применяться при автоматическом сегментировании обучающих речевых баз данных.

Метод получения информации о переходах между звуками может быть использован при реализации системы распознавания речи основанной на теории А.А. Пирогова о фонетической функции речи, в которой говорится о том, что человек воспринимает речевые элементы по их относительным, а не абсолютным спектрам. Выделяя стационарные сегменты и переходы между ними можно затем вычислять усредненные значения относительных спектров стационарных сегментов. Использование такого подхода, возможно позволит распознавать искаженную каналами связи речь, а также речь произнесенную шепотом.

Весьма интересной представляется возможность создания систем сжатия речевого сигнала на основе совместного применения пакетного вейвлет-представления речевого сигнала и информации о стационарных и нестационарных участках этого сигнала, получаемой разработанным алгоритмом вычисления функции ошибки моделирования. На основе данной информации можно определять сегменты с постоянными характеристиками и выполнять поиск наилучшего базиса пакетного вейвлет-преобразования для указанных сегментов. На разработке таких алгоритмов сжатия автор планирует сконцентрировать свое внимание в дальнейшем.

Список литературы диссертационного исследования кандидат технических наук Литвиненко, Сергей Леонидович, 2006 год

1. Адаптивные фильтры / под. ред. Коуэна К.Ф.Н., Гранта П.М. М.: Мир,1988.-392 с.

2. Астафьева Н.М. Вейвлет-анализ: основы теории и примеры применения / Успехи физических наук, т. 166, №11, 1996. С. 1145 - 1170.

3. Афанасьев А.А. Адаптивный кодек речевых сигналов на основе систем с переменной структурой. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

4. Ахмед Н., Рао К. Р. Ортогональные преобразования при обработке цифровых сигналов. М.: Связь, 1980

5. Бендат Дж., Пирсол А. Прикладной анализ случайных данных. М.: Мир,1989.-540 с.

6. Блейхут Р. Быстрые алгоритмы цифровой обработки сигналов. М.: Мир, -1989.-448 с.

7. Введение в цифровую фильтрацию / Под. ред. Р. Богнера, А. Константинидиса. -М.: Мир, 1976.-216 с.

8. Вокодерная телефония. Методы и проблемы / Под ред. А. А. Пирогова. -М.: "Связь", 1974.-536 с.

9. Воробьев В.И., Грибунин В.Г. Теория и практика вейвлет-преобразования. -СПб.: НИН В.Г. ВУС, 1999. 204 с.

10. Выхованец B.C. Адаптивная алгебра в цифровой обработке сигналов. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

11. Ганин А.Н. Модель квантования вейвлет коэффициентов. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

12. Гольденберг JI. Цифровая обработка сигналов: Справочник. М.: Радио и связь. - 1985. -312 с.

13. Гонсалес Р., Вудс Р. Цифровая обработка изображений. М.: Техносфера. — 2006.- 1072 с.

14. Гурьев Ю.Ю. Марковская нелинейная фильтрация речевого сигнала из смеси со стационарным шумом // Радиотехника. 1983. № 12, с. 48 - 51.

15. Дженкинс Г., Ватте Д. Спектральный анализ и его приложения, т.1, т. 2 — М.: Мир, 1983.

16. Дремин И.М., Иванов О.В., Нечитайло В.А. Вейвлеты и их использование / Успехи физических наук, т. 171, №5, 2001. С. 466 - 501.

17. Дуда Р., Харт П. Распознавание образов и анализ сцен. М.: Мир, 1976. -512 с.

18. Дыранов Ю.В., Костров В.В., Власов С.Ю. Векторное квантование коэффициентов усиления в CELP-кодере речи. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

19. Дьяконов В.П. Вейвлеты. От теории к практике. М.: COJIOH-P, - 2002. -448 с.

20. Дюран Б., Одел П. Кластерный анализ. М.: Статистика, 1977, 128 с.

21. Жиляков Е.Г., Байдиков А.Н. Об обработке речевых сигналов. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

22. Иванов А.В., Петровский А.А. Методы построения устройств распознавания речи на базе гибрида нейронная сеть/скрытая Марковская модель. // Труды 8-ой всеросийской конференции «Нейрокомпьютеры и их применение» НКП-2002. Москва, 2002.

23. Кастельянс Г., Кочетков Ю.А., Суарез X. Цифровая обработка речевых сигналов для их классификации. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

24. Кобелев В.Ю. Адаптивное вейвлет-преобразование сигналов. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

25. Ласточкин А.В., Кобелев В.Ю. Метод удаления шума на основе вейвлет обработки, адаптирванный к разрывным сигналам. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

26. Мальцев А.А., Польдин О.В., Силаев A.M. Оптимальная цифровая фильтрация сигналов с учетом воздействия случайных импульсных возмущений. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

27. Маркел Дж.Д., Грэй А.Х. Линейное предсказание речи. М.: Связь, 1980. -308 с.

28. Методы автоматического распознавания речи / под ред. У. Ли. т.1, т. 2.- М.: Наука, 1983.

29. Назаров М.В., Прохоров Ю.Н., Ковязин В.И. Алгоритмы адаптивной Марковской Фильтрации зашумленных речевых сигналов // Радиотехника. 1983. № 12, с. 10-15.

30. Нейроинформатика / А.Н.Горбань, В.Л.Дунин-Барковский, А.Н.Кирдин и др. Новосибирск: Наука. Сибирское предприятие РАН, 1998. - 296с.

31. Оссовский С. Нейронные сети для обработки информации. -М.: Финансы и статистика, 2002. 344с.

32. Патрик Э. Основы теории распознавания образов. М.: Сов. радио, 1980. — 480 с.

33. Пересада В. Автоматическое распознавание образов. JL: Энергия, 1970. — 92 с.

34. Перов А.И., Соколов Г.Г. Сравнительный анализ нейросетевых и статистических алгоритмов в задачах обнаружения сигналов. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

35. Пономарев Е.П., Прохоров Ю.Н. Адаптивная линейная фильтрация речевых сигналов. В кн.: Описание и распознавание объектов в системах искусственного интеллекта. М.: Наука., 1980, с. 32 - 41.

36. Применение цифровой обработки сигналов / Под. ред. Э. Оппенгейма. М.: Мир, 1980.-550 с.

37. Прохоров Ю.Н. Оценка параметров и фильтрация речевых сигналов при действии широкополосных помех. В кн. Речевая информатика: Сб. науч. трудов. Киев.: Ж, 1989, с. 81 - 86.

38. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. М. : Радио и связь, 1981. - 496 с.

39. Рабинер Р., Гоулд Б. Теория и применения цифровой обработки сигналов. — М.: Мир, 1978.-848 с.

40. Рассел С., Норвиг П. Искусственный интеллект: современный подход. -М.: Изд. Дом «Вильяме», 2006. 1408 с.

41. Робинсон Э. История развития спектрального оценивания // ТИИЭР. 1982. -т. 70, №9. - С. 6 - 32.

42. Сапожков М.А., Михайлов В.Г. Вокодерная связь. М.: Радио и связь, 1983. -248 с.

43. Сергиенко А.Б. Цафровая обработка сигналов. СПб.: Питер, 2003. - 608 с.

44. Стефанов A.M., Стефанова И.А. Эффективное использование интегрирующей способности слуха при цифровой обработке сигналов. //докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

45. Терентьев В.М., Илюхин А.А. Алгоритмы оптимальной фильтрации состояний цепей Маркова с зашумленными наблюдениями. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

46. Уидроу Б., Стирнз С. Адаптивная обработка сигналов. М.: Радио и связь. -1989.-440 с.

47. Уоссермен Ф. Нейрокомпьютерная техника. 1992. -230 с.

48. Уэлстид С. Фракталы и вейвлеты для сжатия изображений в действии. М.: Изд. Триумф, 2003. - 320 с.

49. Федяев О.Н., Гладунов С.А. Распознавание речевых слов по низкочастотным гармоникам с помощью нейросетей. // Труды 8-ой всеросийской конференции «Нейрокомпьютеры и их применение» НКП-2002. Москва, 2002.

50. Физиология речи. Восприятие речи человеком. JL: Наука, 1976. - 388 с.

51. Фу К. Последовательные методы в распознавании образов. М.: Наука, 1971.-256 с.

52. Фукунага К. Введение в статистическую теорию распознавания. М.: Наука, 1979.-368 с.

53. Хайкин С. Нейронные сети. М.: Изд. Дом «Вильяме», 2006. - 1104 с.

54. Чуй К. Введение в вэйвлеты. М.: Мир, 2001. - 412 с.

55. Acero S. Acoustical and Environmental Robustness in Automatic Speech Recognition. The Ph. D. thesis. Carnegie Mellon University. USA. 1990.

56. Alphonso I.J. Network training for continuous speech recognition. The Master thesis. Mississippi Sate University. USA. 2001.

57. Backstrom T. Time-Delay Neural Networks and NN/HMM Hybrids: A Family of Connectionst Continuous-Speech Recognition Systems. Laboratory of Acoustics and Audio Signal Processing Helsinki University of Technology. 2002.

58. Bultheel A. Wavelets with applications in signal and image processing, NALAG, 2003.

59. Cariani P. Temporal codes, timing nets, and music perception // Jornal of New Music Research, 2001. Vol. 30. - Pp. 107-135.

60. Edwards R.T. An Overview of Temporal Backpropagation Standford University. USA. 1991.

61. Fu-Hua Liu Environmental Adaptation for Robust Speech Recognition. The Ph. D. thesis. Carnegie Mellon University. USA. 1994.

62. Goodwin M.M. Adaptive Signal Models: Theory, Algorithms, and Audio Applications. The Ph. D. thesis. University of California. USA. 1997.

63. Gopinath R.A., Burrus C.S. Wavelets and filter banks. In Charles K. Chui, editor, Wavelets: A Tutorial in Theory and Applications , pp. 603 654. Academic Press, San Diego, CA, 1992.

64. Goswami J., Chan A. Fundamentals of Wavelets: Theory, Algorithms, and Applications, John Wiley & Sons Inc., NY, 1998.

65. Gouvea E.B. Acoustic-Feature-Based frequency Warping for Speaker Normalization. The Ph. D. thesis. Carnegie Mellon University. USA. 1998.

66. Gupta M., Gilbert A., Robust speech recognition using wavelet coefficient features, Proc. of IEEE Automatic Speech Recognition and Understanding Workshop, Italy, 2001.

67. Gustafsson F. Adaptive Filtering and Change Detection. Cloth, Wiley, 2001.

68. Herley С., Vetterli M. Wavelets and Recursive Filter Banks, IEEE Trans. Signal Processing, vol. 41, no. 8, pp. 2536 2556, Aug. 1993.

69. Huerta J.M. Speech Recognition in Mobile Environments. The Ph. D. thesis. Carnegie Mellon University. USA. 2000.

70. Huseyin H., Nishan C. Musical instrument recognition with wavelet envelopes. European Acoustics Association (Hg). in: Proceedings of Forum Acusticum Sevilla 2002.

71. Jian Lu Signal Recovery and Noise Reduction with Wavelets. The Ph. D. thesis. Dartmouth College. USA. 1993.

72. Kasper K., Reininger H., Wust H. Strategies for Reducing the Complexity of a RNN Based Speech Recognizer, IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol.6, pp.3354-3357 (1996).

73. Kurth F., Clausen M., "Filter bank tree and M-band wavelet packet algorithms in audio signal processing," IEEE Trans. Signal Processing, vol. 47, pp. 549-554, Feb. 1999.

74. Long C., Datta S. Wavelet Based Feature Extraction for Phoneme Recognition. Proc. Of 4th Int. Conf. of Spoken Language Processing, Philadelphia, USA, Vol. 1 (1996)264-267

75. Mertins A. Signal Analisys: Wavelets, Filter Banks, Time Frequency Transforms and Applications, John Wiley & Sons Ltd., NY, 1999.

76. Micheli-Tzanakou E. Supervised and unsupervised pattern recognition: feature extraction and computational intelligence, CRC Press LLC, 2000.

77. Minker W. Speech And Human-Machine Dialog, Kluwer Academic Publishers, NY, 2004.

78. Morena P. Speech Recognition in Noisy Environments. The Ph. D. thesis. Carnegie Mellon University. USA. 1996.

79. Narayanaswamy S. Pen and Speech Recognition in the User Interface for Mobile Multimedia Terminals. The Ph. D. thesis. University of California. USA. 1996.

80. Oja E. Principal components, minor components and linear neural networks // Neural Networks, 1992. Vol 5. - Pp.927 - 935.

81. Picone J. Signal Modeling Techniques In Speech Recognition. Proc. of the IEEE. 1993.

82. Potamianos G., Graf H., Cosatto E. An Image Transform Approach for HMM Based Automatic Lipreading. In Proc. IEEE International Conference on Image Processing, volume III, pages 173-177, Chicago, 1998.

83. Rabiner L.R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. In Рос. of the IEEE, vol. 77, no 2, pp. 257 286.

84. Ramakrishnan B.R. Reconstruction of Incomplete Spectrograms for Robust speech Recognition. The Ph. D. thesis. Carnegie Mellon University. USA. 2000.

85. Rudnicky A.I., Hauptmann A.G. Survey of Current speech Technology. Carnegie Mellon University. USA. 1994.

86. Sarikaya R., Hansen J.H.L., "High Resolution Speech Feature Parameterization for Monophone Based Stressed Speech Recognition," IEEE Signal Processing Letters, Vol. 7, No. 7, Pages 182-185, July 2000.

87. Seekings P., Potter J. Classification of marine acoustic signals using Wavelets & Neural Networks Proceeding of 8th Western Pacific Acoustics conference (Wespac8), Australia, April 7-9, 2003.

88. Shapiro J. Embeded Image Coding Using Zerotrees Of Wavelet Coefficients. IEEE Transactions on Signal Processing, Vol. 41, No. 12 (1993), p. 3445-3462.

89. Stergiopoulos S. Signal Processing Concept Similarities among Sonar, Radar, and Medical Imaginging Systems, CRC Press LLC, 2001.

90. Storm H. Noise Reduction of Speech Signals with Wavelets. The Ph. D. thesis. Goteborg University. Sweden. 1997.

91. Sullivan T.M. Multi-Microphone Correlation-Based Processing for Robust Automatic Speech Recognition. The Ph. D. thesis. Carnegie Mellon University. USA. 1996.

92. Tan В., Fu M., Spray A., Dermody P. The Use of Wavelet Transforms in Phoneme Recognition. The Fourth International Conference on Spoken Language Processing (ICSLP), Philadelphia, October, 1996.

93. Tzanetakis G., Essl G., Cook P. R. "Audio Analysis Using the Discrete Wavelet Transform," In Proceedings of of WSES International Conference, Acoustics and Music: Theory and Applications (AMTA), Skiathos, Greece, 2001.

94. Wei Xu, Rudnicky A. Can Artificial Neural Networks Learn Language Models. Carnegie Mellon University. USA. 2000.

95. Wickerhauser, M.V. (1991), "INRIA lectures on wavelet packet algorithms," Proceedings ondelettes et paquets d'ondes, 17-21 June, Rocquencourt France, pp. 31-99.

96. Wornell G. Signal Processint with Fractals: A Wavelet-based Approach, Prentice Hall, NJ, 1996.

97. Xiong Z., Ramchandran K., Orchard M. Wavelet Packet Image Coding Using Space-Frequency Quantization. IEEE Trans, on Image Processing, vol. 7, no. 6., pp. 892-898, June 1998.

98. Yosiaki Ohshima Environmental Robustness in Speech Recognition using Physiologically-Motivated Signal Processing. The Ph. D. thesis. Carnegie Mellon University. USA. 1993.169

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.