Выделение и предобработка сигналов в системах автоматического распознавания речевых команд тема диссертации и автореферата по ВАК РФ 05.12.04, кандидат технических наук Новоселов, Сергей Александрович

  • Новоселов, Сергей Александрович
  • кандидат технических науккандидат технических наук
  • 2011, Владимир
  • Специальность ВАК РФ05.12.04
  • Количество страниц 146
Новоселов, Сергей Александрович. Выделение и предобработка сигналов в системах автоматического распознавания речевых команд: дис. кандидат технических наук: 05.12.04 - Радиотехника, в том числе системы и устройства телевидения. Владимир. 2011. 146 с.

Оглавление диссертации кандидат технических наук Новоселов, Сергей Александрович

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

ГЛАВА 1. АНАЛИТИЧЕСКИЙ ОБЗОР МЕТОДОВ ОБРАБОТКИ И

РАСПОЗНАВАНИЯ РЕЧИ

1.1. Задача автоматического распознавания речи

1.2. Речь, природа слуха, модели восприятия речевых сигналов

1.2.1. Речь

1.2.2. Природа слуха

1.2.3. Модели восприятия речевых сигналов

1.3. История развития систем распознавания речи

1.4. Голосовое управление, как цель распознавания речи

1.5. Методы детектирования речевой активности. Задача

выделения команд

1.6. Цифровые методы повышения качества и разборчивости речи

1.6.1. Методы, основанные на использовании статистических моделей речевых сигналов во временной области

1.6.2. Методы, основанные на обработке речевого сигнала^ использованием аппарата скрытых марковских моделей

1.6.3. Методы, основанные на применении искусственных нейронных сетей

16.4. Методы, основанные на оценке параметров шума, минимизации среднеквадратичной ошибки и пороговой обработке в области трансформант

1.6.5. Методы пороговой обработки в области вейвлет-преобразования

13

14

14

15

16 19 27

38

39

40

42

43

1.6.6. Методы разделения подпространств сигнала и шума 1.7. Краткие выводы

ГЛАВА 2. АЛГОРИТМ ВЫДЕЛЕНИЯ РЕЧЕВЫХ КОМАНД

2.1. Оценка влияния ошибок сегментации на распознавание команд

2.2. Проблема детектирования речевой активности

2.3. Параметризация речевых сигналов с помощью вейвлет-преобразования и метода главных компонент

2.3.1. Вейвлет-пакетное разложение, адаптированное к мел шкале

2.3.2. Энергия Тегера-Кайзера

2.3.3. Метод главных компонент

2.3.4. Помехоустойчивость коэффициентов главных компонент мел вейвлет-пакетных параметров

2.3.5. Классификация сегментов речевого сигнала

2.4. Модели смесей гауссовских распределений

2.4.1. Алгоритм максимизации правдоподобия

2.4.2. Сложности построения моделей

2.4.3. Определение решающего правила

2.4.4. Обучение моделей

2.5. Алгоритм выделения речевых команд

2.6. Ошибки выделения команд

2.7. Тестирование

2.8. Краткие выводы

48

50

53

58

62

69

70 72 74 76 78 81

85

86

ГЛАВА 3. РАСПОЗНАВАНИЕ РЕЧЕВЫХ КОМАНД В УСЛОВИЯХ СТАЦИОНАРНЫХ ШУМОВ

3.1. Оценка влияния наличия шумов на распознавание команд

3.2. Метод нелокального усреднения

3.3. Описание предлагаемого метода фильтрации

3.3.1. Выбор опорного сигнала

3.3.2. Поиск похожих фрагментов

3.3.3. Нелокальное усреднение

3.3.4. Верхняя граница эффективности метода нелокального усреднения для речевых сигналов

3.4. Результаты применения алгоритма шумоподавления

3.5. Применение алгоритмов подавления шума для повышения вероятности верного распознавания голосовых команд

3.6. Система голосового управления мобильным роботом Ыоую

3.7. Краткие выводы ЗАКЛЮЧЕНИЕ СПИСОК ЛИТЕРАТУРЫ

98 101

105

106 110

113

123

127

128

Рекомендованный список диссертаций по специальности «Радиотехника, в том числе системы и устройства телевидения», 05.12.04 шифр ВАК

Введение диссертации (часть автореферата) на тему «Выделение и предобработка сигналов в системах автоматического распознавания речевых команд»

Введение

Актуальность темы. В настоящее время системы распознавания речи получают все большее распространение, особенно в тех приложениях, где речевой диалог является наиболее удобным средством управления и обмена информацией с техническими средствами. Но чем выше достоверность распознавания, тем сложнее такая система, и тем выше ее стоимость. Получение эффективной системы голосового управления в настоящее время является важной задачей, требующей создания методов, позволяющих получать высокую достоверность распознавания речевых команд.

Речевые сигналы, с которыми приходится иметь дело на практике, всегда в той или иной степени зашумлены. Начальные этапы выделения и фильтрации речевой команды являются важными и определяющими в решении задачи организации системы управления. Ошибки в выделении команды, а также наличие посторонних шумов в ней, приводят к значительному снижению вероятности правильного распознавания. Для разработки системы голосового управления необходимо уделить особое внимание процессу выделения «чистого» речевого сигнала из входного зашумленного. Сложным моментом является также выделение команды на

фоне нестационарных шумов.

Для решения задачи выделения команд используют различные методы детектирования речевой активности (ДРА). Алгоритм ДРА обеспечивает классификацию сегментов речевого сигнала по типу «речь» или «не речь». В большинстве случаев используют простые и быстрые алгоритмы, построенные на основе пороговых сравнений кратковременных энергий, количества переходов через ноль, корреляционных параметров, энергий спектральных подполос и т.п. На практике чаще имеют дело с нестационарными фоновыми шумами (паразитные хлопки, щелчки и др.), иногда - с шумами значительной интенсивности, например, шум в кабине самолета, автомобиля. В этих случаях задача правильной сегментации

речевого сигнала на команды значительно осложняется. Установлено, что простой детектор речевой активности на основе пороговой классификации не способен качественно решить указанную проблему.

Алгоритмы распознавания незашумленных речевых команд уже сегодня показывают хорошие результаты, но при наличии внешних шумов результаты автоматического распознавания существенно ухудшаются. Это обстоятельство ограничивает сферу применения систем распознавания речи и приводит к постановке задачи предобработки речевого сигнала до стадии

его распознавания.

На сегодняшний момент известно множество методов повышения качества и разборчивости речи. Но дело в том, что алгоритмы, обеспечивающие повышение качества звучания речи и ее разборчивости для восприятия человеком, могут оказаться неподходящими для решения задачи повышения вероятности верного распознавания в современных системах

голосового управления.

Таким образом, проблема разработки новых алгоритмов выделения и фильтрации речевых команд в системах голосового управления является актуальной.

Основополагающие работы по обработке и анализу речевых сигналов связаны с именами таких известных зарубежных ученых как Рабинер Л., Шафер Р., Янг Б., Мермелштейн П., Левинсон С. и др. Большой вклад в развитие статистического и регрессионного анализа речевых сигналов внесли работы зарубежных и отечественных ученых Парзена Э., Розенблатта М., Репина В .Г., Тартаковского Г.П., Прохорова Ю.Н., Санникова В.Г. и др.

В настоящее время в радиотехнике широкое распространение получили методы цифровой обработки сигналов, использующие различные варианты вейвлет-преобразований. Это объясняется тем, что вейвлет-функции обеспечивают частотную и временную локализацию, а так же возможность обрабатывать сигнал на разных масштабах. В этой области широко используются работы Малла С., ДобешиИ., Чуй К., Блаттера К. Метод

главных компонент, предложенный Пирсоном К., также широко применяется в решении задач обработки и распознавания речевых сигналов.

Работы по обнаружению речевых сигналов связаны с именами таких ученых и исследователей как Самбур М., Жао Ю., Мекурла Ф., Рабинер Л., Крашенинников В.Р., Хвостов A.B. и др. Статистические методы детектирования речи тесно связаны с решением задачи об обнаружении разладки. Основополагающие работы в этой области принадлежат отечественным ученым Колмогорову А.Н., Ширяеву А.Н.

В области шумоподавления в речевых сигналах наибольшую известность получили работы ученых Ефрайма Я., Малла Д., Скаларта П., Коэна И. Наиболее применяемыми в этой области являются способы коррекции спектра сигнала, основанные на фильтрации Винера и минимизации среднеквадратичной ошибки.

Необходимым условием эффективной работы систем голосового управления является их устойчивость к воздействию внешних шумов. Данная работа посвящена исследованию ряда задач, связанных с правильным выделением речевых команд и шумоподавлением в них для повышения

вероятности верного распознавания.

Целью работы является разработка и исследование методов анализа и обработки речевых сигналов, позволяющих эффективно решать задачи выделения и распознавания речевых команд на фоне внешних акустических

шумов.

В соответствии с указанной целью в работе поставлены и решены

следующие основные задачи:

- исследование влияния ошибок в определении границ команд на вероятность их верного распознавания в системах голосового управления;

- исследование влияния наличия шумов в командах на вероятность верного распознавания в системах голосового управления;

- исследование помехоустойчивости информативных параметров речевого сигнала и разработка помехоустойчивого метода параметризации

речевых сигналов;

- разработка алгоритмов детектирования речевой активности и выделения речевых команд на фоне стационарных и нестационарных шумов;

- разработка алгоритма шумоподавления в речевых командах

методом нелокального усреднения;

- разработка метода поиска похожих фрагментов на интервалах

стационарности речевого сигнала.

Методы исследования. При решении поставленных задач использованы методы цифровой обработки сигналов, теории вейвлет-преобразований, линейной алгебры, теории факторизации матриц, теории вероятностей и математической статистики. Широко использовались

методы компьютерного моделирования.

Объектом исследования является помехоустойчивая система распознавания речевых команд, применяемая в системах голосового управления техническими устройствами.

Предметом исследований являются методы, обеспечивающие правильное выделение речевых команд на фоне стационарных нестационарных шумов, а также методы предобработки речевых команд целью шумоподавления, обеспечивающие повышение вероятности их верного распознавания в условиях стационарных помех. Научная новизна

1. Разработан метод параметризации речевых сигналов с помощью адаптированного к мел-шкале вейвлет-пакетного преобразования, оператора вычисления энергии Тегера-Кайзера и метода главных компонент.

2. Разработан алгоритм детектирования речевой активности на фоне стационарных и нестационарных шумов с помощью предложенного

и с

метода параметризации речевого сигнала и смесей гауссовских распределений.

3. Разработан алгоритм шумоподавления в речевых сигналах методом нелокального усреднения.

4. Разработан метод поиска похожих фрагментов на интервалах стационарности речевого сигнала.

Практическая значимость

1. Предложенный метод параметризации речевого сигнала является помехоустойчивым и позволяет решать задачу выделения речевой активности на фоне интенсивных шумов.

2. Разработанный детектор речевой активности позволяет эффективно проводить классификацию сегментов сигнала по типу «речь» и «не речь» на фоне стационарных и нестационарных помех при отношении сигнал/шум -5дБ.

3. Разработанный алгоритм выделения речевых команд на основе предложенного ДРА обеспечивает качественное выделение команд на фоне стационарных и нестационарных помех и позволяет снизить вероятность появления ошибок 1-го и П-го родов по сравнению с существующими методами.

4. Предложенный алгоритм шумоподавления в речевых сигналах позволяет улучшить вероятность правильного распознавания в системе голосового управления в условиях стационарных шумов. Оценка вероятности правильного распознавания цифр при стационарном шуме в

10 дБ составляет 98%.

Результаты работы внедрены в соответствующие разработки ОАО «СеверТрансКом» и МОО «Союз криминалистов» г. Ярославль. Отдельные результаты диссертационной работы внедрены в учебный процесс ЯрГУ в рамках дисциплин «Цифровая обработка речевых сигналов», «Цифровые фильтры», а также в научно-исследовательские работы при выполнении исследований в рамках грантов «Развитие теории

цифровой обработки сигналов и изображений в технических системах» (грант РФФИ №06-08-00782, 2006-2008 гг.), «Развитие нелинейной теории обработки сигналов и изображений в радиотехнике и связи» (Программа «Развитие научного потенциала высшей школы (2009-2010 годы)», №2.1.2/7067). Все результаты внедрения подтверждены соответствующими актами.

Достоверность материалов диссертационной работы подтверждена результатами компьютерного моделирования, демонстрирующими эффективность предложенных алгоритмов в задачах выделения и распознавания речевых команд на фоне шумов.

Апробация работы. Результаты работы докладывались и обсуждались на следующих научно-технических конференциях и семинарах:

- 9-13 Международной конференции «Цифровая обработка сигналов и ее применение», Москва, 2007-2011.

- 61, 64-65 Научной сессии, посвященной Дню радио, РНТОРЭС им. A.C. Попова, Москва, 2006, 2009, 2010.

- VI Всероссийской научно-технической конференции «Информационные технологии в электротехнике и электроэнергетике», Чебоксары, 2004.

- 16 Международной научно-технической конференции «Проблемы передачи и обработки информации в сетях и системах

телекоммуникаций», Рязань, 2009.

- XVIII Международной научно-технической конференции «Информационные средства и технологии», Москва, МЭИ, 2010.

- XVI Международной научно-технической конференции «Радиолокация, навигация, связь», Воронеж, 2010.

- Всероссийской конференции «Радиоэлектронные средства передачи и приема сигналов и визуализации информации», Таганрог, 2011.

- Международной научно-практической конференции студентов и молодых ученых «Молодежь и наука: модернизация и инновационное развитие страны», Пенза, 2011.

- IX Международной научно-технической конференции «Перспективные технологии в средствах передачи информации», Суздаль, 2011.

Публикации. По теме диссертации опубликована 21 научная работа, из них 5 статей в рецензируемых журналах, в том числе 3 статьи в журналах из перечня ВАК, и 1 свидетельство о регистрации программного обеспечения.

Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка литературы. Содержание работы изложено на 142 страницах. Список литературы включает 132 наименования. В работе представлено 30 рисунков и 29 таблиц.

Основные научные положения и результаты, выносимые на

защиту:

1. Метод параметризации речевых сигналов с помощью адаптированного к мел шкале вейвлет-пакетного преобразования, оператора вычисления энергии Тегера-Кайзера и метода главных компонент.

2. Алгоритм выделения речевой активности на основе разработанного метода параметризации и классификации с помощью статистического метода смесей гауссовских распределений.

3. Алгоритм шумоподавления в речевых сигналах на основе метода

нелокального усреднения.

4. Метод поиска похожих фрагментов на интервалах

стационарности речевого сигнала.

Благодарности. Автор выражает искреннюю признательность своему научному руководителю - д.т.н., доценту Приорову А.Л., а так же заведующему кафедрой динамики электронных систем Ярославского

государственного университета им. П.Г. Демидова, д.т.н., профессору Брюханову Ю.А.

Благодарю своих коллег по лаборатории «Цифровые цепи и сигналы» за формирование взглядов в совместной работе.

Отдельная благодарность родным и знакомым за предоставленную возможность заниматься научной деятельностью.

Похожие диссертационные работы по специальности «Радиотехника, в том числе системы и устройства телевидения», 05.12.04 шифр ВАК

Заключение диссертации по теме «Радиотехника, в том числе системы и устройства телевидения», Новоселов, Сергей Александрович

Заключение

На сегодняшнем этапе развития техники автоматического распознавания речи основными проблемами при создании эффективных систем голосового управления стали шумы и помехи. Для расширения области использования таких систем необходимо решать задачи выделения и распознавания речевых команд в условиях стационарных и нестационарных шумов.

На основании проведенных исследований в области обработки речевых сигналов в работе получены следующие основные результаты:

Представлен алгоритм вычисления новых информативных параметров для речевых сигналов - коэффициентов главных компонент мел-вейвлет-пакетных коэффициентов, произведена оценка их помехоустойчивости. Данные параметры являются более устойчивыми к шумам, чем спектрограммы и кепстральные коэффициенты, приведенные в мел-шкалу. Результаты проведенных исследований показывают эффективность использования параметров ГК МВП для описания различных классов звуковых колебаний (например, «речь» и «не речь»).

На основе использования ГК МВП и статистических моделей гауссовских смесей разработан алгоритм детектирования речевой активности. Алгоритм является обучаемым и дает возможность учитывать несколько типов фоновых шумов и несколько типов голосов дикторов одновременно для обеспечения требуемой надежности обнаружения речи. Предложенный алгоритм детектирования речевой активности при этом способен эффективно определять положение речевых и неречевых участков сигнала.

Предложен алгоритм выделения речевых команд из потока звуковых колебаний с использованием разработанного метода детектирования речевой активности.

Проведена оценка вероятности правильного выделения команд на фоне стационарных и нестационарных помех. Выполнено сравнение эффективности выделения команд с аналогичным алгоритмом, работающим на основе информативных параметров МРСС, предложенным в работе [75]. Оба варианта показывают хорошую надежность выделения команд. Однако применение параметров ГК МВП позволяет надежнее проводить выделение в случае нестационарного шума и на фоне шумов значительной интенсивности (ОСШ = -5 дБ).

Разработан алгоритм шумоподавления в речевых сигналах на основе нелокального усреднения. Предложен метод поиска похожих фрагментов на интервалах стационарности речевого сигнала с помощью нахождения локальных минимумов евклидовою расстояния между фрагментами опорного речевого сигнала. Опорный речевой сигнал при этом может быть получен из исходного зашумленного путем шумоподавления с помощью метода спектрального вычитания.

Проведена оценка качества шумоподавления в речевых сигналах с помощью предложенного алгоритма. При использовании алгоритма можно значительно снизить уровень шума, при этом улучшается разборчивость речи и не возникает артефактов, получивших название «музыкальный шум». Сравнение спектрограмм речевого сигнала до добавления шума, после его добавления, а также при обработке с помощью предложенного алгоритма и алгоритма, реализующего метод спектральных вычитаний, подтверждают сделанные выводы. При использовании предложенного алгоритма хорошо сохраняются все значимые детали спектра и отсутствуют нежелательные всплески, приводящие к возникновению «музыкального шума», что характерно для методов фильтрации в спектральной области.

Проведен анализ возможности применения разработанного алгоритма подавления шумов на этапе предобработки в дикторозависимой системе распознавания цифр русского языка. Предложенная схема подавления шума позволяет повысить вероятность верного распознавания цифр. Особенно заметен выигрыш для ОСШ 3-12 дБ. Например, вероятность правильного распознавания при стационарном шуме в 10 дБ составляет 98%.

На основе предложенных алгоритмов выделения и предобработки речевых команд разработана и реализована система голосового управления мобильным роботом.

Список литературы диссертационного исследования кандидат технических наук Новоселов, Сергей Александрович, 2011 год

Список литературы

1. Рабинер JI.P., Шафер Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - 496 с.

2. Рабинер Л., Гоулд Б. Теория и применение цифровой обработки сигналов. - М.: Мир, 1978. - 848 с.

3. Rabiner L.R., Juang В-Н. Fundamentals of speech recognition / PTR Prentice Hall, Englewood Cliffs, New Jersey, 1993.

4. Lee C.H., Rabiner L.R., Pieraccini R., Wilpon J.G. Acoustic Modeling for Large Vocabulary Speech Recognition / Computer Speech and Language, 1990, pp. 127-165.

5. Myers C.S., Rabiner L.R., A Level Building Dynamic Time Warping Algorithm for Connected Word Recognition // IEEE Trans. Acoustic, Speech, Signal Proc, ASSP-29, 1981, pp 284-297.

6. Sondhi M.M., Schmidt C.E., Rabiner L.R. Improving the Quality of Noisy Speech Signal // Bell Syst. Tech Journ., 1981, Vol. 61, No 8, pp. 1847-1858.

7. Оппенгейм А., Шафер P. Цифровая обработка сигналов. - M.: Связь, 1979.-416 с.

8. Левинсон С.Е. Структурные методы автоматического распознавания речи // ТИИЭР. 1985. Т. 73, №11. С. 100-128.

9. Davis S.B., Mermelstein P. Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences // IEEE Transactions on Acoustics, Speech, and Signal Processing, 28(4), 1980.

10.Parsen E. On the estimation of a probability density function and mode // Annals of Mathematical Statistics. 1962, vol. 33. pp. 1065-1076.

11.Herley C., Vetterli M. Wavelets and Recursive Filter Banks // IEEE Trans. Signal Processing, 1993, vol. 41, no. 8. pp. 2536-2556.

130

12.Репин В.Г., Тартаковский Г.П. Стохастический анализ при априорной неопределенности и адаптация информационных систем. - М.: Советское радио, 1977. - 432 с.

13.Назаров М.В., Прохоров Ю.Н. Методы цифровой обработки и передачи речевых сигналов. - М.: Радио и связь, 2005.

14.Прохоров Ю.Н. Статистические модели и рекуррентное представление речевых сигналов. -М.: Радио и связь, 1984.

15.Назаров М.В., Прохоров Ю.Н., Ковязин В.И. Алгоритмы адаптивной марковской фильтрации зашумленных речевых сигналов // Радиотехника. 1983. № 12. С. 10-15.

16.Гурьев Ю.Ю., Прохоров Ю.Н. Алгоритм рекуррентной фильтрации речевых сигналов / Материалы Всесоюзного семинара АРСО-12, Киев, 1982.

17.Санников В.Г. Устойчивый алгоритм статистической идентификации авторегрессионной модели речевого сигнала // Цифровая обработка сигналов. 2001. №2. С. 10-14.

18.Гоулд Б., Рейдер Ч. Цифровая обработка сигналов / Под ред. Трахтмана A.M. - М.: Сов. радио, 1973.-368 с.

19.Гольденберг JI.M. и др. Цифровая обработка сигналов: Справочник.

- М.: Радио и связь, 1985. - 323 с.

20.Брюханов Ю.А. Цифровые цепи и сигналы: учеб. пособие. / 2-е изд., перераб. и доп. - Ярославль: ЯрГУ, 2005. - 154 с.

21.Баскаков С.И. Радиотехнические цепи и сигналы. - М.: Высшая школа, 2000.

22.Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи.

- М.: Радио и связь, 2000.

23.Смоленцев Н.К. Основы теории вейвлетов. Вейвлеты в MATLAB. - М.: ДМК, 2005.

24.Дьяконов В .П. MATLAB 6.0/6.1/6.5/6.5+SPI + Simulink 4/5. Обработка сигналов и изображений. - М.: СОЛОН-Пресс, 2005. - 592 с.

25.Дьяконов В.П. Вейвлеты. От теории к практике. - М.: COJIOH-Пресс, 2004. - 400 с.

26.Яковлев А.Н. Основы вейвлет-преобразования сигналов: Учебное пособие. - М.: САЙНС-Пресс, 2003. - 80 с.

27.Яковлев А.Н. Введение в вейвлет-преобразования: Учебное пособие. -Новосибирск: издательство НГТУ, 2003. - 104 с.

28.Леонович А.А. Вейвлет-обработка речевых сигналов в распознавании речи // Конференции ИВТ СО РАН, Красноярский государственный технический университет, 2004.

29. Новиков Л.В. Основы вейвлет-анализа сигналов: Учебное пособие.

ИАнП РАН, 1999. - 152 с.

30.Малла С. Вейвлеты в обработке сигналов. - М.: Мир, 2005. - 671 с.

31.Добеши И. Десять лекций по вейвлетам. - Москва-Ижевск: НИЦ Регулярная и хаотическая динамика, 2004. - 464 с.

32.Чуи К. Введение в вейвлеты. Пер. с англ. - М.: Мир, 2001. - 412 с.

33. Блатер К. Вейвлет-анализ. Основы теории. - М.: Техносфера, 2004. - 280 с.

34.Pearson К. On lines and planes of closest fit to systems of points in space // Philosophical Magazine. - 1901, no. 2. pp. 559-572.

35.Lamel L.F., Rabiner L.R., Rosenberg A.E., Wilpon J.G. An Improved Endpoint Detector for Isolated Word Recognition // IEEE Trans. On Acoustics, Speech, and Signal Processing, Vol. ASSP-29, no. 4,1981.

36. Rabiner L.R., Sambur M.R. An Algorithm for Determining the Endpoints of Isolated Utterances // Bell Systems Tech. Journ. - 1975, Vol. 54. no. 2. pp. 297-315.

37.Zhao Y., Junqua J-C. Speech detection for noisy conditions // US Patent №6,480,823 Bl.

38.Mekurla F. Method and apparatus for detecting voice activity // US Patent №6,182,035.

39.Крашенинников В.Р., Хвостов А.В. Комбинированный детектор речевой активности // «Электронная техника». Межвузовский сборник научных трудов. Выпуск седьмой. - Ульяновск, 2005. С. 45-48.

40.Вайнштейн JI.A., Зубаков В.Д. Выделение сигналов на фоне случайных помех. - М.: Советское радио, 1960. - 447 с.

41. Ширяев А.Н. Об оптимальных' методах в задачах скорейшего обнаружения// Теория вероятности и ее применение. 1963. Т. 8, В. 1. С. 26-51.

42.Ширяев А.Н. Статистический последовательный анализ. - М.: Наука, 1976.

43.Ephraim Y., Malah В. Speech Enhancement using a minimum mean-square error short-time spectral amplitude estimator // IEEE Trans. Acoust., Speech and Signal Proc., ASSP, 1984.

44.Scalart P. Speech Enhancement Based on a Priori Signal to Noise Estimation // Proc. Int. Conf. on Acoustics, Speech and Signal Proc. ICASSP-96, 1996, pp. 629-632.

45.Cohen I., Gannot S. Spectral Enhancement Methods // Jacob Benesty, Sondhi M., Huang Y., Springer Handbook of Speech Processing, Springer, 2008, PartH, Ch. 44. pp. 873-901.

46.Boll S.F. Suppression of Acoustic Noise in Speech Using Spectral Subtraction // IEEE Trans. ASSP, 1979. Vol. 27, No 2. pp. 113-120.

47.http://info-kart.ru/gipoteza_lyudei_izobretateleijzyka.html

48.Rabiner L.R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition // Proc. IEEE, 1989. Vol. 77, No. 2. pp. 257-286.

49.Меркулов Д. Процессор в ухе // «Наука и жизнь», 2006. №10.

50.Liberman A.M., Mattingly I.G. The motor theory of speech perception revised // Cognition. 1986. Vol. 21. N 1.

51 .Бондарко Л.В., Загоруйко Н.Г, Кожевников В.А, Молчанов А.П., Чистович JI.A. Модель восприятия речи человеком. - Новосибирск, 1968.

52.Чистович JI.A., Венцов А.В., Ганстрем A.M. и др. Физиология речи. Восприятие речи человеком. - Л.: Наука, 1976. - 388 с.

53.Сорокин В.Н. Моторная теория восприятия речи и теория внутренней модели. - М.: Институт проблем передачи информации РАН, 2007.

54. Леонтьев А.А. Основы психолингвистики. - М.: Смысл, 1997. - 287 с.

55.Halle М., Stevens K.N. Speech recognition: a model and a program for research // The Structure of Language. Readings in the Philosophy of Language. - Englewood Cliffs, 1964.

56.Литвиенко СЛ. Алгоритмы распознавания речевых команд в управляющих системах // Автореферат диссертации, специальность 05.11.16 Информационно-измерительные и управляющие системы (по отраслям). - Волгоград, 2006.

57.Марквел Дж.Д., Грэй А.Х., Линейное предсказание речи: пер с англ. - М.: Связь, 1980.

58.Davis К.Н., Biddulph R., Balashek S. Automatic Recognition of Spoken Digits /J.Acoust. Soc. Am., 1952, pp 637-642.

59.Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. - Киев: Наукова Думка, 1987. - 262 с.

60.Sakoe Н., Chiba S. Dynamic Programming Algorithm Optimization for Spoken Word Recognition // IEEE Trans. Acoustic, Speech, Signal Proc.,

ASSP-26, 1978. pp. 43-49.

61.Bridle J.S., Brown M.D. An Experimental Automatic Word-Recognition System // JSRU Report No. 1003, Joint Speech Research Unit, Ruislip,

England, 1974.

62.Воробьёв В.П., Грибунин В.Г. Теория и практика вейвлет-преобразования. - СПб.: Военный университет связи, 1999. - 204 с.

63.Huang X.D., Ariki Y., Jack M.A. Hidden Markov Models for Speech Recognition // Edinburgh University Press, 1990.

64.Fink G.A. Markov Models for Pattern Recognition: from Theory to Applications // Springer, Heidelberg, 2008. - 248 p.

65.Gales M., Young S. The Application of Hidden Markov Models in Speech Recognition // Now Publishers Inc, 2008. - 124 p.

66.Lippmann P. An introduction to computing with neural nets // IEEE ASSP Mag., 1987. no. 4, - pp. 4-22.

67 .http ://ru. wikipedia. org/

68 .http ://www.ford.m/AboutFord/News/V ehicle/Vhcl_l 10301 12

69.http://www.avtobanda.ru/Kompaniya-BMW-obyavila-o-vypuske-novojj-golosovojj-sistemy-kontrolya-nastroek-multimedia-i-navigacionnojj-sistemy-avtomobilya.html

70.http://www.macdigger.ru/iphone-ipod/apple-dogovarivaetsya-s-nuance-ob-usovershenstvovanii-golosovogo-upravleniya-v-ios-5 .html

71 .http://voicefabric.ru/concepts/google_speechpol/

72.http://www.speechpro.ru/media/news/2010-09-20

73 .ITU-T Recommendation G.729 annex В

74.ETSI (1999). Digital cellular telecommunications system (Phase 2+) Half rate speech; Voice Activity Detector (VAD) for half rate speech traffic channels (GSM 06.42. 8.0.1. ETSI

75.Grar R. СГР - Based Voice Activity Detector, 2004.

76.Pasanen A. Voice Activity Detection in Noise Robust Speech Recognition // M.sc. Thesis, Tampere University of Technology, 2002.

77.Чучупал В .Я., Чичагов А.С., Маковкин К.А. Цифровая фильтрация зашумлеииых речевых сигналов. - М.: Вычислительный центр РАН, 1998.52 с.

78.Hansen G.H.L., Pellom B.L. Text-directed speech enhancement employing phone class parsing and feature map constrained vector quantization // Speech Communication, 1997. Vol. 21. pp. 169-189.

79.Le T.T., Mason J.S. Artificial neural networks for nonlinear time-domain filtering of speech // IEE Proc on Vis Image Signal Processing, 1996. Vol. 143, No 3. pp. 149-154.

80.Fei Li, Guobiao Xu. A Novel Scheme of Speech Enhancement Based on Quantum Neural Network // Intelligent Interaction and Affective Computing, International Asia Symposium on, - ASIA, 2009. pp. 141-144.

81.Овчинникова О.П. Повышение разборчивости речи путем цифровой фильтрации / Всесоюзная акустическая конференция. - М., 1977.

82.Donoho D.L., Johnstone М. Threshold selection for wavelet shrinkage of noisy data // Proc. 16th Annual Conf. of the IEEE Engineering in Medicine and Biology Society, 1994, 24a - 25a, IEEE Press.

83.Soon I.Y., Koh S.N., Yeo C.K. Wavelets for Speech Denoising // IEEE TENCON 97, Brisbane, Australia, 1997, pp. 479-482.

84.Ephraim Y., Van Trees H.L. A signal subspace approach for speech enhancement // IEEE Trans. Speech and Audio Proc., 1995. vol. 3. pp. 251-266.

85.Rosenblatt M. Remarks on some nonparametric estimates of a density function // Annals of Mathematical Statistics. 1956. vol. 27, no. 3. pp. 832-837.

86.Reynolds, D.A., Rose R.C., Robust Text-Independent Speaker Identification using Gaussian Mixture Speaker Models // IEEE Transactions on Speech and Audio Processing, 1995. Vol. 3, No. 1. pp. 72-83.

87.Reynolds, D. A., Gaussian Mixture Models // Encyclopedia of Biometric Recognition, Springer, Journal Article, 2008.

88.Torres-Carrasquillo P.A., Singer E., Kohler M.A., Greene R.J., Reynolds D. A., Deller Jr. J.R. Approaches to Language Identification Using Gaussian Mixture Models and Shifted Delta Cepstral Features // In Proc. International Conferenec on Spoken Language Processing in Denver, CO, ISCA, 2002. pp. 33-36, 82-92.

89.Gupta M., Gilbert A., Robust speech recognition using wavelet coefficient features // Proc. of IEEE Automatic Speech Recognition and Understanding Workshop, Italy, 2001.

90.Tan В., Fu M., Spray A., Dermody P. The Use of Wavelet Transforms in Phoneme Recognition // The Fourth International Conference on Spoken Language Processing (ICSLP), Philadelphia, 1996.

91.Уэлстид С. Фракталы и вейвлеты для сжатия изображений в действии. - М.: Изд. Триумф, 2003 .-320 с.

92.Ying G.S., Mitchell C.D., Jamicson L.H. Endpoint Detection of Isolated Utterances Based on a Modified Teager Energy Measurement // School of Electrical Engineering Purdue University West Lafayette.

93.Леднов Д.А., Хацкевич A.B. Модель идентификации дикторов на основе смеси нормальных плотностей вероятности с авторегрессией.

94.Иващенко Ю.С., Леднов Д.А., Любимов Н.А. Система автоматического распознавания языков на основе гауссовских и авторегрессионных моделей // Речевые технологии. - М.: Народное образование. 2008. С. 36-42.

95.Садыхов Р.Х., Ракуш В.В. Модели гауссовских смесей для верификации диктора по произвольной речи // Доклады БГУИР, Минск, 2003.

96.Buades A., Coll В., Morel J.M. A review of image denoising algorithms, with a new one // Multiscale modeling and simulation, 2005. V. 4. pp. 490-530.

97.Buades A., Coll В., Morel J.M. Nonlocal image and movie denoising // International journal of computer vision, 2008. V. 76, No. 2. pp. 123-139.

98.Katkovnik V., FoiA., Egiazarian K., DabovK. From local kernel to nonlocal multiple-model image denoising// International journal of computer vision, 2010. V. 86, No. 8. pp. 1-32.

99.Haitian X., Zheng-Hua T., Dalsgaard P., Lindberg B. Robust speech recognition by nonlocal means denoising processing // IEEE signal processing letters, 2008. V. 15. pp. 701-704.

100. Szlam A. Non-local means for audio denoising//Recent UCLA computational and applied mathematics reports, 2008. - P. 5.

Список опубликованных работ по теме диссертации

101. Новоселов С.А., Волохов В.А. Метод вейвлет-сжатия звука, учитывающий частотное маскирование // VI всерос. науч.-техн. конф. «Информационные технологии в электротехнике и электроэнергетике» (ИТЭЭ-2006). Чебоксары, 2006. С. 346-347.

102. Новоселов С.А., Приоров АЛ. Согласованные одномерные вейвлет-фильтры в задаче распознавания речевых сигналов // Тр. LXII науч. сессии, посвященной Дню Радио. М., 2007. С. 160-161.

103. Новоселов С. А. Применение согласованных одномерных вейвлет-фильтров в задаче распознавания речевых сигналов // Докл. 9-й междунар. конф. «Цифровая обработка сигналов и ее применение». М., 2007. С. 147-149.

104. Новоселов С. А. Распознавание речевых сигналов с использованием вейвлет-преобразования (тезисы) // Тез. докл. 60-й науч.-техн. конф. студентов и магистрантов. ЯГТУ. Ярославль, 2007. С. 62.

105. Новоселов С. А. Применение согласованных одномерных вейвлет-фильтров в задаче распознавания речевых сигналов // Сб. матер. VIII обл. науч.-практ. конф. студентов, аспирантов и молодых ученых вузов «Ярославский край. Наше общество в третьем тысячелетии». Ярославль, 2007. С. 28.

106. Новоселов С.А., Ульдинович C.B., Приоров A.JI Распознавание фонем на основе согласованных вейвлет-фильтров // Докл. 10-й междунар. конф. «Цифровая обработка сигналов и ее применение». М., 2008. Т. 1. С. 242-245.

107. Новоселов С.А., Ульдинович C.B. Распознавание изолированных фонем на основе согласованных вейвлет-фильтров и нейронной сети // Вестн. Яросл. гос. ун-та. Сер. Физика. Радиотехника. Связь. 2008. С. 152-155.

108. Новоселов С.А., Топников А.И. Разработка перспективных алгоритмов распознавания речи // Сб. матер. IX обл. науч.-практ. конф. студентов, аспирантов и молодых ученых вузов «Ярославский край. Наше общество в третьем тысячелетии». Ярославль, 2008. С. 99-100.

109. Новоселов С.А. Синтез согласованных вейвлет-фильтров // Сб. матер. IX обл. науч.-практ. конф. студентов, аспирантов и молодых ученых вузов «Ярославский край. Наше общество в третьем тысячелетии». Ярославль, 2008. С. 94.

110. Новоселов С.А., Веселов И.А., Новиков А.Е., Топников А.И Применение вейвлет-преобразования и скрытых марковских моделей в задаче распознавания речевых команд // Докл. 11-й междунар. конф. «Цифровая обработка сигналов и ее применение». М., 2009. Т. 1. С.244-247.

111. Новоселов С.А., Максимов В.И., Кравцов С.А., Гречко P.C. Алгоритм идентификации диктора с помощью метода динамического искажения времени и вейвлет-преобразования // Докл. 11-й междунар. конф. «Цифровая обработка сигналов и ее применение». М., 2009. Т. 1. С.269-270.

112. Новоселов С.А., Топников А.И. Методы анализа независимых компонент для задачи слепой декомпозиции сигналов // Сб. матер. 62-й регион, науч.-техн. конф. студентов, магистрантов и аспирантов. Ярославль, 2009. С. 175.

113. Новоселов С.А., Веселов И.А., Новиков А.Е. Распознавание речевых команд на основе вейвлет-преобразования и скрытых марковских моделей // Сб. матер. 62-й регион, науч.-техн. конф. студентов, магистрантов и аспирантов. Ярославль, 2009. С. 182.

114. Новоселов С.А., Топников А.И. К вопросу о методах измерения взаимной информации // Сб. матер. 62-й регион, науч.-техн. конф. студентов, магистрантов и аспирантов. Ярославль, 2009. С. 234.

115. Новоселов С.А., Веселов И.А., Новиков А.Е. Распознавание речевых команд с помощью скрытых марковских моделей на основе вейвлет-параметров сигналов // Тр. LXIY науч. сессии, посвященной Дню Радио. М., 2009. С. 210-212.

116. Новоселов С.А., Максимов В.И., Кравцов С.А., Гречко P.C. Алгоритм идентификации диктора с помощью метода динамического искажения времени и вейвлет-преобразования // Тр. LXIV науч. сессии, посвященной Дню Радио. М., 2009. С. 215-216.

117. Новоселов С.А., Новиков А.Е., Веселов И.А., Топников А.И. Вейвлет-преобразование и скрытые марковские модели в задаче распознавания речевых команд // Матер. 16-й междунар. науч.-техн. конф. «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций». Рязань, 2009. С. 124-125.

118. Новоселов С.А., Ульдинович C.B., Новиков А.Е., Веселов И.А. Классификация речевых команд с использованием аппарата скрытых марковских моделей // Проектирование и технология электронных средств. 2009. № 1, С. 40-44.

119. Новоселов С.А., Веселов И.А., Новиков А.Е. Расстояние между скрытыми марковскими моделями в задаче распознавания речевых команд // Тр. LXV науч. сессии, посвященной Дню Радио. М., 2009. С. 215-216.

120. Новоселов С.А., Савватин А.И., Приоров A.JI. Использование цифровых вейвлет-фильтров в задаче построения защищенного канала передачи речевой информации // Проектирование и технология электронных средств. 2009. №2. С. 39-43.

121. Новоселов С.А., Веселов И.А., Новиков А.Е. Применение скрытых марковских моделей для схемы иерархической

классификации речевых команд // Докл. 12-й междунар. конф. «Цифровая обработка сигналов и ее применение». М., 2010. Т. 1. С. 195-197.

122. Новоселов С.А., Топников А.И. Анализ независимых компонент в задаче разделения смесей речевых сигналов // Докл. 12-й междунар. конф. «Цифровая обработка сигналов и ее применение». М., 2010. Т. 1. С. 197-199.

123. Новоселов С.А., Савватин А.И. Использование согласованных вейвлет-фильтров в задаче защиты речевой информации // Докл. 12-й междунар. конф. «Цифровая обработка сигналов и ее применение». М., 2010. Т. 2. С. 209-212.

124. Новоселов С. А., Веселов И. А., Новиков А.Е. Метод иерархической классификации речевых команд на основе скрытых марковских моделей // Вестн. Яросл. гос. ун-та. Сер. Физика. Радиотехника. Связь. 2009. С. 81-86.

125. Новоселов С.А., Савватин А.И. Использование согласованных вейвлет-фильтров в задаче защиты речевой информации // Сб. матер. ХУ1-Й междунар. науч.-техн. конф. «Радиолокация, навигация, связь». Воронеж, 2010. С. 388-396.

126. Новоселов С. А., Веселов И. А., Новиков А.Е. Схема согласованного синтеза вейвлетов с необходимым числом нулевых моментов // Сб. матер. 63-й региональной науч.-техн. конф. студентов, магистрантов и аспирантов. Ярославль, 2010. С. 256-257.

127. Новоселов С. А., Савватин А.И. Использование цифровых вейвлет-фильтров для передачи закрытой речевой информации // Сб. тез. участников конф. «Ярославский край. Наше общество в третьем тысячелетии». Ярославль, 2010. С. 82-83.

128. Новоселов С.А., Топников А.И. Оценка качества работы алгоритмов слепой декомпозиции сигналов // Тр. II междунар. молодежной науч.-практ. конф. Елабуга, 2010. Т. 3. С. 110-114.

129. Новоселов С.А., Савватин A.A., Приоров A.JI. Применение банков фильтров для построения системы защищенной передачи речевой информации // Электросвязь. 2011. №9. С. 48-51.

130. Новоселов С.А., Савватин А.И. Метод построения цифровой системы защищенной передачи речевой информации // Тр. XVIII междунар. науч.-техн. конф. «Информационные средства и технологии». М.: МЭИ, 2010. С. 120-127.

131. Новоселов С.А., Топников А.И., Савватин А.И. Алгоритм шумоочистки речевых команд методом спектрального слежения // Докл. 13-й междунар. конф. «Цифровая обработка сигналов и её применение». М., 2011. Т. 2. С. 224-226.

132. Новоселов С.А., Приоров А.Л. Метод удаления шума из речевых команд методом спектрального слежения // Сб. матер, всерос. конф. «Радиоэлектронные средства передачи и приема сигналов и визуализации информации». Таганрог, 2011. С. 104-107.

УТВЕРЖДАЮ

Технический директор ОАО «СеверТрансКом»

^¿.iu

<< » 2011г.

АКТ

Внедрения результатов диссертационной работы Новоселова Сергея Александровича, выполненной в Ярославском государственном университете имени П.Г. Демидова (ЯрГУ), на тему «Выделение и предобработка сигналов в системах автоматического распознавания речевых команд».

Комиссия в составе: председатель комиссии - начальник отдела эксплуатации телефонных систем Бухтояров С.С., члены комиссии -руководитель центра поддержки клиентов Сурикова А.Н., инженер эксплуатации IP - сети Голубев M.H., рассмотрев диссертационную работу Новоселова С. А., составила настоящий акт о том, что ее результаты нашли применение в работе ОАО «СеверТрансКом».

Разработанные и реализованные автором алгоритмы выделения и предобработки речевых сигналов применяются в отделе эксплуатации телефонных систем ОАО «СеверТрансКом» с целью получения качественных голосовых записей для систем IVR (Interactive Voice Responce), организованных на базе сервера телефонии InfraCallCenter. Озвучивание IVR - важная составляющая успеха звонкового центра. Использование предложенных алгоритмов позволило получать качественные звуковые записи в отсутствие специальной звукозаписывающей студии.

Члены комиссии

Председатель комиссии

Голубев М.Н.

представительства

-v./-"/ ,

/> 2011г.

С> «Союзлгоиминалистов»

^ослйвской области

/,г7___Малютина Е.Г.

АКТ

Внедрения результатов диссертационной работы Новоселова Сергея Александровича, выполненной в Ярославском государственном университете имени П.Г. Демидова (ЯрГУ), на тему «Выделение и предобработка сигналов в системах автоматического распознавания речевых команд».

Комиссия в составе: председатель комиссии, директор представительства - Малютина Е.Г, члены комиссии - специалист Пузырев Ю.В., эксперт ЭКЦ УВД по Ярославской области Скопинцев Я.М., рассмотрев диссертационную работу Новоселова С.А., составила настоящий акт о том, что ее результаты нашли применение в работе МОО «Союз криминалистов».

Особый практический интерес представляют разработанные автором алгоритмы обработки речевых сигналов, которые используются в МОО «Союз криминалистов» с целью подавления шумов в речевых сигналах для повышения качества речи. Предложенные автором алгоритмы позволяют значительно снизить уровень шума при сохранении разборчивости речи.

Председатель комиссии: Е.Г.Малютина

г

Члены комиссии:

(,

К).В. Пузырев

Я.М. Скопинцев

"УГВПРЖДЛТи"

!1ервый проректор Ярославского государа венного университета им. Ш . . (емндсжа

______ ___ С. А. Кащенко

" \ " ~ ...................2011 г.

АКТ

внедрения ре плы шов диссертационной работы Новоселова Сергея \ кьеаидровича на г см у «Выделение и предобработка сигналов в системах .тнпкничсскою распознавания речевых команд» в научно-исследовательские роботы

Результаты диссертационной работы Новоселова СЛ.. представленной на соискание ученой степени кандидата технических наук по специальности 05.12.04 «Радиотехника, в том числе системы и устройства телевидения» были использованы в научно-исследовательских работах;

- При выполнении НИР «Развитие нелинейной теории обработки си ¡налов и изображений в радиотехнике и связи» (Программа «Развитие научного потенциала высшей школы (2009-2010 годы)», № 2.1.2/7067) внедрен алгоритм подавления шума в речевых сигналах методом нелокального усреднения.

При выполнении НИР «Развитие теории цифровой обработки сигналов и изображений в технических системах» н рамках фундаментальных исследований в области технических наук в 2006-2008 гг. (грант РФФИ Лй 06-08-00782) внедрен алгоритм детектирования речевой активности.

ЗаведуюI ни й кафедрой динами ки

электронных систем, профессор, д.т.н. * • ЮЛ. Брюханов

"УТВЕРЖДАЮ" Проректор но учебной и социальной работе Ярославского государственного университета ту П.Г. Демидова

м в Ястребов

" __2011г.

АКТ

внедрения результатов диссертационной работы Новоселова С.А. на тему

«Выделение и предобработка сигналов в системах автоматического распознавания речевых команд» в учебный процесс

Мы, нижеподписавшиеся, заведующий кафедрой динамики электронных систем, профессор, д.т.н. Брюханов Ю.А. и доцент кафедры динамики электронных систем, к.т.н. Тараканов А.Н. составили настоящий акт о том, что результаты диссертационной работы Новоселова С.А. внедрены в учебный процесс на кафедре динамики электронных систем физического факультета ЯрГУ (специальность «Радиотехника»):

- в курсе «Цифровая обработка речевых сигналов» - результаты детектирования речевой активности с помощью статистических моделей смесей гауссовских распределений;

- в курсе «Цифровые фильтры» - результаты шумоподавления в речевых сигналах, зашумленных аддитивным белым гауссовским шумом, с помощью метода нелокального усреднения;

- при выполнении студентами курсовых и дипломных проектов используется разработанная Новоселовым С.А. программа для восстановления и фильтрации речевых сигналов.

Ю.А. Брюханов

А.Н. Тараканов

Заведующий кафедрой динамики ■■/

электронных систем, профессор, д.т.н. ' ; ' "

Доцент кафедры динамики

электронных систем, к.т.н. Ж

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.