Быстрые алгоритмы оценки параметров полигармонической модели голосового сигнала тема диссертации и автореферата по ВАК РФ 01.01.09, кандидат наук Мельников Александр Алексеевич

  • Мельников Александр Алексеевич
  • кандидат науккандидат наук
  • 2016, ФГБОУ ВО «Санкт-Петербургский государственный университет»
  • Специальность ВАК РФ01.01.09
  • Количество страниц 131
Мельников Александр Алексеевич. Быстрые алгоритмы оценки параметров полигармонической модели голосового сигнала: дис. кандидат наук: 01.01.09 - Дискретная математика и математическая кибернетика. ФГБОУ ВО «Санкт-Петербургский государственный университет». 2016. 131 с.

Оглавление диссертации кандидат наук Мельников Александр Алексеевич

Введение

0.1 Кодирование речевого сигнала

0.2 Фонемы

0.3 Первые попытки

0.4 Высота звука

0.4.1 Величина высоты звука

0.4.2 Высота звука и частота основного тона

Глава 1. Основные понятия и описание существующих методов

определения ЧОТ

1.1 Основные понятия в цифровой обработке сигналов

1.1.1 Импульсно-кодовая модуляция

1.1.2 Дискретное преобразование Фурье

1.1.3 Быстрое преобразование Фурье

1.1.4 Оконные преобразования

1.2 Алгоритмы оценивания ЧОТ

1.2.1 Классические алгоритмы во временной области

1.2.2 Классические алгоритмы в частотной области

1.2.3 Алгоритм YAAPT

1.2.4 Алгоритм MBSC

1.2.5 Алгоритм SWIPE

1.2.6 Алгоритм WU

1.2.7 Алгоритм YIN

1.2.8 Алгоритм PEFAC

1.2.9 Алгоритм High accuracy and octave immune pitch detection

1.2.10 Алгоритм Pitch estimation using models of voiced speech on three levels

1.2.11 Алгоритм IRAPT

Глава 2. Определение параметров модели голосового сигнала

2.1 Оценивание комплексных амплитуд голосового сигнала по МНК

2.1.1 Аффинные колокольчики

2.1.2 Вычисление коэффициентов квадратичных форм

2.1.3 Нормализованные колокольчики

2.1.4 Решение предельных уравнений МНК

2.2 Несмещённый критерий оценки периода основного тона

2.2.1 Модель измерения с белым шумом

2.2.2 Расчёт подавляемой части шума

2.2.3 Критерий оценки периода основного тона по эмпирической дисперсии шума

2.2.4 Стационарная аппроксимация

2.3 Вычисление показателей качества для целых значений периода

2.3.1 Аффинная модель с целым периодом основного тона

2.3.2 Стационарная модель с целым периодом основного тона

2.3.3 Большой целый период

2.4 Локальные вычислительные алгоритмы

2.4.1 Решение системы линейных уравнений

2.4.2 Локальная подстройка оценки ЧОТ

Глава 3. Алгоритм быстрого оценивания ЧОТ

3.1 Постановка задачи

3.1.1 Минимизируемая функция

3.1.2 Частный случай

3.2 Свойства функции «колокольчик»

3.2.1 Расчёт предельного колокольчика

3.2.2 Точность предельного колокольчика

3.2.3 Полиномиальная аппроксимация

3.3 Аппроксимация функции ф(Р)

3.3.1 Факторизация знаменателя

3.3.2 Аппроксимация фо(Р) при помощи сглаживающей функции

3.3.3 Аппроксимация функции ф0(Р) при помощи ряда Лорана

Глава 4. Экспериментальные результаты

4.1 Демонстрация работы алгоритма определения ЧОТ

4.2 Сравнение с существующими алгоритмами определения ЧОТ

Заключение

Список литературы

Список рисунков

Список таблиц

Рекомендованный список диссертаций по специальности «Дискретная математика и математическая кибернетика», 01.01.09 шифр ВАК

Введение диссертации (часть автореферата) на тему «Быстрые алгоритмы оценки параметров полигармонической модели голосового сигнала»

Введение

Речь является основным инструментом общения между людьми. В обыденном понимании человеческая речь это звуковая волна, испускаемая человеческим ртом и слышимая человеческим ухом. Такая волна называется речевым сигналом. Речевой сигнал может быть преобразован в осциллограмму (см. рис. 1) при помощи микрофона. Обратное преобразование осуществляется при помощи динамиков.

За этими понятиями стоит сложный механизм синтеза и восприятия речевого сигнала человеческим организмом. На рис. 2 продемонстрирован процесс синтеза и восприятия речи. В классической работе [1] авторы называют это процесс как «речевая цепь» (speech chain). Он начинается с текста, каким-то образом представленного в мозге человека. Для того, чтобы произнести этот текст, человек неявно преобразует его в символьное представление последовательности звуков соответствующей звуковой версии текста. На этом этапе текстовые символы преобразуются в фонетические (с ударениями и продолжительностями). Они описывают базовые звуки звуковой версии текста и манеру, в которой это сообщение будет произнесено (скорость, окрас). Следующий шаг — генерация последовательности мышечных команд, которые приводят в действие артикуляционную систему человека (язык, губы и т.д.). На последнем шаге физически извлекается звук при помощи движения воздуха через органы и изменения во времени их положения. Многие органы вовлечены в синтез речевого сигнала. Лёгкие обеспечивают необходимое давление воздуха. Воздух проходит через вокальный тракт (трубка, соединяющая легкие и горло), голосовые связки, глотку, надгортанник и другие органы в полости рта. Затем, он выходит через рот и носовые полости в виде акустической волны. Получающийся речевой сигнал кодирует сообщение, сформированное в мозге человека. Когда мы говорим, выдыхаемый воздух из легких движется вверх через трахею и входит гортань. В гортани движение воздуха ограничено губообразной тканью, называемой голосовыми связками. Это очень важные мембраны в голосовом аппарате. Они задают высоту речи. Как правило, мужчины имеют низкий голос с большей гортанью по сравнению с высоким голосом женщин с маленькой гортанью. Голосовые связки служат для синтеза звонких и глухих звуков. Существуют различные виды звуков, называемые фонемами. Для каждой из фонем голосовые связки открываются или закрываются в различных состояниях, чтобы пропустить воздух через себя в верхнюю часть голосового тракта. Воздух, покинув голосовые связки, входит в глотку, полость рта и носа, которые, резонируя, усиливают некоторые из частот и ослабляют другие. Остальные органы в полости рта, такие как нёбо, зубы, язык, губы, изменяют свою форму и двигаются, обеспечивая возможность пропускать или блокировать воздушный поток, выходящий из рта и носа. Тем самым они модулируют звук, чтобы придать необходимую форму и задать амплитуду. Из-за разницы в размерах и форме речевых органов речь человека уникальна. Красота системы артикуляции заключается в том, что даже такая сложная система способна очень быстро реагировать и изменять параметры речи.

0 0.2 0.4 0.6 0.8 1

1.2 -

1.4

1.6

0

0.05

0.1

0.25

0.3

0.35

0.15 0.2

время, сек

Рисунок 1 — Осциллограмма речевого сигнала для фразы «пять четыре один»

Синтез речи

речевой

Рисунок 2 — Речевая цепь: от формулировки до восприятия

В свою очередь, восприятие речи происходит следующим образом. На первом шаге при помощи внутреннего уха и мембраны звук преобразуется в своё частотное представление. Так называемая базилярная мембрана работает как спектральный анализатор. Волоски на ней колеблются при поступлении звукового сигнала и генерируют нервные импульсы. Стоит отметить, что такое преобразование напоминает принцип действия преобразования Фурье. Последующие шаги обеспечивают преобразование входящих нервных импульсов в осмысленное предложение.

Изучение синтеза и механизма восприятия речевых сигналов необходимо в задачах распознавания речи, коррекции речи, синтеза речи и прочих.

0.1 Кодирование речевого сигнала

Возможно, самое распространённое применение алгоритмов обработки речевых сигналов наблюдается в области цифровой передачи голосовых сигналов и их хранении. Основная задача там — сжатие информации. Этот процесс принято называть кодированием речевого сигнала, или сжатием.

Рисунок 3 — Диаграмма процесса кодирования / декодирования речи

Рис. 3 демонстрирует общую схему работы голосового кодера/декодера. В начале аналоговый сигнал конвертируется в цифровой при помощи специализированного конвертора. Цифровой сигнал анализируется и кодируется специальными алгоритмами, после чего получившийся сжатый сигнал можно передать через канал связи. Декодирование сигнала происходит в обратном порядке.

Речевые кодеры используются в множестве прикладных задач: проводная и беспроводная связь, сотовая связь, интернет-каналы, защита и шифрование голосовой информации.

Большинство кодеров используют в своей работе характерные свойства речевых сигналов, и поэтому не могут применяться для звукового сигнала в общем случае. Универсальные кодеры, которые используют только общую информацию о звуке не достигают качества работы специализированных версий.

0.2 Фонемы

Обычно, люди говорят на языке своего региона, своего окружения. Дети начинают учиться говорить уже к первому году своей жизни. Любые языковые выражения могут быть произнесены с использованием символов, называемых фонемами. Все слова в любом языке можно произносить, используя минимальный набор фонем. Любой из языков, на котором говорят в мире, содержит от 20 до 60 фонем [2; 3]. В английском языке любая вербальная информация может быть выражена с использованием всего 40 фонем [4].

Фонетика любого языка содержит два типа фонем: гласные и согласные. Гласные всегда озвучивают звонкие звуки, в то время как согласные могут быть звонкими и глухими. Звонкие звуки возникают, когда голосовые связки вибрируют почти периодически при прохождении воздуха через них. Воздух, проходя через связки, формируется в звук с некоторой основной частотой, около 110 Гц для мужчин, 200 Гц для женщин и 300 Гц для детей. Помимо основной частоты, артикуляционные движения органов порождают резонансные частоты в зависимости от фонемы. Эти N резонансных частот, Fi, F2,..., Fn называют формантами. Нормальный диапазон формант для взрослых мужчин Fi = 180 — 800 Гц, F2 = 600 — 2500 Гц, F3 = 1200 — 3500 Гц, и F4 = 2300 — 4000 Гц. Глухой звук, с другой стороны, имеет полностью случайный характер. При синтезе глухого звука голосовые связки полностью открыты, полностью закрыты или частично открыты.

Самый популярный и широко используемый формат фонем для американского английского языка в ASCII кодировке называется ARPAbet [5]. Эти звуки представлены набором из 39 фонем.

Как уже упоминалось ранее, в широком смысле речевой сигнал делится на две категории, звонкий и глухой. Звонкие речевые сигналы носят периодический характер, тогда как глухие выглядят как случайный сигнал. Эти два типа речевых сигналов показаны на рис. 5

При проведении анализа, речевые сигналы могут быть представлены в различных формах, таких как представление во временной области, в частотной области, спектрограммы и пр.. Пример спектрограммы сигнала приведён на рис. 4.

0.3 Первые попытки

Первую попытку выделения гармоник из сигнала совершил в 1860 году Гельмгольц с помощью резонаторов [6; 7]. Резонатор выглядел как сфера с вытянутым вверх горлышком, см. рис. 7. В зависимости от размера и формы такое устройство резонирует на определённых частотах. В негармоническом звуковом поле такой прибор реагирует только на колебания с частотой /я, амплитуда возникающих колебаний во много раз превышает амплитуду

х104

Время (сек) Рисунок 4 — Спектрограмма сигнала

0.3 Р г

5.88 5.89 5.9 5.91 5.92 5.93

Время (сек)

Рисунок 5 — Звонкий звук

Рисунок 6 — Глухой звук

Рисунок 7 — Модель резонатора Гельмгольца

звукового поля. Поэтому набор резонаторов с различными собственными частотами может применяться для анализа звука.

Собственная частота резонатора вычисляется по формуле

где /я — частота резонанса, Гц, V — скорость звука в воздухе (340 м/с), Б — сечение отверстия, м2, Ь — длина отверстия, м, У0 — объем резонатора, м3. С помощью резонаторов Гельмгольц доказал, что сложные сигналы состоят из набора различных гармоник.

0.4 Высота звука

Высота звука является одним из основных параметров звукового сигнала. В голосовом сигнале высота позволяет определить пол говорящего [8] (чем выше звук, тем вероятнее мы слышим женский голос), передаёт интонацию фразы (в вопросительной интонации наблюдается увеличение высоты звука). Так же высота отвечает за эмоциональный окрас речи [9] (возбуждение характеризуется повышенной высотой звука с большим диапазоном, когда как

грусть описывается пониженной высотой звучания и её низкой вариативностю). В музыке высота звука напрямую связана с понятием нот.

Задача оценки высоты звука встречается в различных прикладных областях: музыка, голосовая связь, лингвистика. В музыке, одним из основных приложений являются системы автоматической транскрипции музыки [10]. Часто встречается, что для музыкального произведения не существует нотной транскрипции. Существуют инструменты, которые позволяют в автоматическом режиме формировать нотное описание для музыкальных произведений. Ещё одним примером в музыке являются системы автоматического поиска мелодий [11]. Когда человек слышит песню, но не знает её названия и автора, он может воспользоваться сервисами поиска музыки по её звучанию. Для этого достаточно записать фрагмент искомой мелодии и произвести поиск по базе данных.

В системах связи, высота звука используется для кодирования голосовых сигналов [12]. Некоторые системы кодирования основаны на моделях, которые представляются как комбинация исходного звукового сигнала, образуемого связками, и линейного фильтра, который представляет собой модель голосового тракта [13].

Определение высоты звука применяется в лингвистике для поиска шаблонов в интонации. Этот процесс может быть полезен в системах изучения иностранных языков [14]. Имеются приложения в медицине, позволяющие определять расстройства в речевой системе человека, определяя зашумленность речи [15].

0.4.1 Величина высоты звука

Количественная оценка высоты звука производится на слух. Участнику эксперимента дают прослушать сигнал и соотнести его с одной из чистых гармоник. Собирается статистика, на её основе строятся распределения ответов участников. По этим распределениям принимается решение о выборе значения частоты для высоты звука. Средняя частота гармоник и будет определять высоту звука.

Тепрь попытаемся ввести определение высоты звука и введём определение частоты основного тона.

0.4.2 Высота звука и частота основного тона

Приведем неформальные определения, которые даются для высоты звука. Американская ассоциация стандартов приводит следующее определение (ASA, 1960):

140

LO

Ct

of 120

1100 m

03

? 80 о

Ш

0 60 со

2 40

1

CD

§ 20

Cl >

0

20 50 100 200 500 1000 2000 500010000

Частота, Гц

Рисунок 8 — Зависимость уровня громкости от звукового давления и частоты. Кривые

равной громкости. [17]

"Высота звука это тот атрибут слухового восприятия, согласно которому звуки могут быть упорядочены человеком."

Позже, американский национальный институт стандартов пишет (ANSI, 1994):

"Высота звука это такая характеристика звука, в соответствии с которой звуки можно упорядочить на шкале от низкой до высокой. Высота зависит главным образом от содержащихся в звуке частот, а так же от звукового давления и осциллограммы сигнала." И ещё некоторые определения:

"Высота звука — как качество звука, определяемое человеком субъективно на слух и зависящее в основном от его частоты, т. е. от числа колебаний в секунду". С ростом частоты высота звука повышается. В небольших пределах высота звука изменяется также в зависимости от громкости звука и от его тембра.

"Высота звука — субъективное качество слухового ощущения, наряду с громкостью и тембром, позволяющее располагать все звуки по шкале от низких к высоким." Для чистого тона высота зависит главным образом от частоты (с ростом частоты высота звука повышается), но при субъективном восприятии также и от его интенсивности — при возрастании интенсивности высота звука кажется ниже. Высота звука со сложным спектральным составом зависит от распределения энергии по шкале частот [16]. Нелинейность восприятия звука продемонстрирована на рис. 8.

Эти определения дают понимание о некой характеристике звука, с помощью которой можно упорядочить сигналы. Но в этих определениях ничего не говорится о том, что это за характеристика и никак не характеризует её величину.

Существует определение высоты звука через т.н. частоту основного тона (ЧОТ) сигнала. ЧОТ f0 существует только для периодического сигнала и определяется как обратная

фон 120

100

80

\\ \ \ \ \ 60

N \ \ \ \ \ 40

ч % ч ч * ч s 20 Ч^ |

Пор юг ель 1ШИМ \ ости — ._ 0 / / / 1

^—/

величина к периоду основного тона (ПОТ). В свою очередь, ПОТ определен для периодического сигнала как минимальный период повторения сигнала:

T0 = min[T > 0|Vt : x(t) = x(t + T)]. Частота основного тона (ЧОТ) определяется как

/о = i (1)

T0

ЧОТ можно так же определить следующим образом:

те

fo = max[f > 0|3afc,3фк : x(t) = ^ a sin(2nkft + фк)]. (2)

k=0

Эти два определения математически эквивалентны, однако, несут в себе существенно различный смысл. Первое описывает свойство сигнала во временной области, когда как второе описывает сигнал в частотной области. Основным принципом для определения 1 является периодичность сигнала x(t) = x(t + T). А для определения 2 — существование разложения по кратным частотам.

На практике не существует идеально периодических сигналов. В реальных сигналах существует вариативность как в амплитудах и частотах, так и в наличии различных видов шумов. Тем не менее мы слышим высоту звука, человеческий мозг способен воспринимать ЧОТ из формул 1,2 с некоторыми допущениями и аппроксимациями. Таким образом, корректно будет заменить равенство x(t) = x(t + T) на приближённое. А в определении 2 ввести компоненту, отвечающую за шум.

Таким образом, целесообразно определить высоту звука как воспринимаемую нашим мозгом ЧОТ. Однако, нельзя утверждать, что воспринимаемая высота звука полностью характеризуется ЧОТ.

Целью данной работы является создание алгоритмов оценивания параметров полигармонических моделей речевого сигнала. Отдельно рассматривается задача быстрого расчёта ЧОТ на коротких временных интервалах для стационарных моделей. Для достижения поставленной цели в работе решаются следующие задачи:

1. получить алгоритм оценивания комплексных амплитуд для стационарной и аффинной полигармонической модели речевого сигнала,

2. получить алгоритм оценивания ЧОТ для стационарной и аффинной полигармонической модели речевого сигнала,

3. получить алгоритм расчёта ЧОТ для стационарной полигармонической модели речевого сигнала на коротких фреймах, имеющий сложность N log N,

4. вывести оценку точности аппроксимации для быстрого алгоритма оценивания ЧОТ и установить взаимосвязь между точностью и скоростью работы алгоритма,

5. сформулировать общую схему алгоритма оценивания ЧОТ,

6. провести сравнение с существующими алгоритмами оценивания ЧОТ. Решение этих задач выносится на защиту. Они содержатся в лемме 12, следствиях 2, 3 и теоремах 2, 5, 6, 9, 10. Так же на защиту выносятся алгоритмы локальной настройки ЧОТ и решения линейной системы (раздел 2.4).

В первой главе диссертационной работы приводятся основные понятия и описание наиболее популярных алгоритмов оценивания ЧОТ.

Во второй главе диссертационной работы сформулированы результаты, позволяющие получать оценки комплексных амплитуд и ЧОТ для стационарной и аффинной полигармонической моделей речевого сигнала.

В третьей главе диссертационной работы сформулированы результаты, позволяющие для стационарной полигармонической модели речевого сигнала получить эффективный алгоритм оценивания ЧОТ. Так же представлены утверждения, устанавливающие связь между скоростью и точностью работы эффективного алгоритма оценивания ЧОТ.

В четвёртой главе диссертационной работы продемонстрирована работа алгоритма оценивания ЧОТ из главы 3, а так же проведено сравнение качества оценивания ЧОТ с наиболее известными существующими алгоритмами.

В Заключении перечислены основные результаты работы.

Полученные результаты являются оригинальными, аналогичных по скорости работы и точности алгоритмов в литературе не представлено.

По теме диссертации опубликовано 4 работы [18—21], в том числе 3 в изданиях из перечня научных журналов, рекомендованных Высшей аттестационной комиссией для публикации основных научных результатов диссертаций.

Работа поддержана Санкт-Петербургским государственным университетом, проект номер 6.37.349.2015.

Основные результаты работы внедрены при выполнении прикладных научных исследований по теме «Разработка методов лингвистического и семантического анализа для интеллектуальной обработки текстов, полученных в результате автоматического распознавания звучащей спонтанной русской речи» в рамках Соглашения с Министерством образования и науки РФ №14.579.21.0008 от 05.06.2014 (ГО проекта КЕМЕИ57914Х0008).

Глава 1. Основные понятия и описание существующих методов

определения ЧОТ

1.1 Основные понятия в цифровой обработке сигналов 1.1.1 Импульсно-кодовая модуляция

Прежде чем переходить к алгоритмам, важно иметь представление о том, как звук записывается в цифровом виде. Основным методом оцифровки звука является импульсно-кодовая модуляция, или ИКМ. При таком представлении аналоговый сигнал хранится в дискретных временных шагах с дискретными амплитудами. В то время как аналоговая звуковая волна непрерывна, компьютер может хранить только дискретные значения. Процесс оцифровки происходит следующим образом: исходный звук записывается микрофоном, который индуцирует ток в проводе. Аналого-цифровой преобразователь (АЦП) принимает входящий сигнал и производит дискретизацию с заданной частотой еб. Каждый отсчёт хранится в виде определенного значения. Количество доступных значений определяется разрешающей способностью АЦП. К примеру, 16-ти битный АЦП может иметь 216 различных значений.

Такое представление аудиозаписей в цифровом формате означает, что допускаются некоторые приближения. Процесс сопоставления аналоговому сигналу определенных значений в пределах диапазона, доступного в момент кодирования, называется квантованием. Квантование допускает появление в записанном сигнале частотных компонент, которые могли не присутствовать в исходном сигнале. Из-за этого обычной практикой является обработка сигналов фильтром низких частот, который убирает высокочастотные компоненты. Иллюстрация сигнала после ИКМ с ошибкой квантования показана на рис. 1.1.

1.1.2 Дискретное преобразование Фурье

Фурье-анализ является основным математическим инструментом при обработке сигналов. Преобразование Фурье позволяет получать представление сигнала в частотной области. Результатом преобразования Фурье голосового сигнала будет набор комплексных чисел, представляющий амплитуды и фазы гармоник сигнала.

Так как в машинном представлении сигнал это набор дискретных значений, то для таких случаев используется инструментарий дискретного преобразования Фурье (ДПФ) [22]. ДПФ определяется следующим образом.

Рисунок 1.1 — Ошибка квантования при ИКМ. Такой сигнал будет иметь большое количество высоких частот в спектре. Поэтому применяется низкочастотные фильтры.

Прямое преобразование:

N-1

Хк = хпе~^кп к = 0,..., N - 1,

п=0

и обратное преобразование:

1 N-1

= п = 0,...,ЛГ-1,

к=0

где N — количество значений сигнала, а также количество компонент разложения, хп — измеренные значения сигнала, Хк — N комплексных амплитуд синусоидальных сигналов, слагающих исходный сигнал, являются выходными данными для прямого преобразования и входными для обратного. Поскольку амплитуды комплексные, то по ним можно вычислить одновременно и амплитуду, и фазу. — обычная (вещественная) амплитуда А:-го синусоидального сигнала, arg(Xk) — фаза к-го синусоидального сигнала (аргумент комплексного числа), к — индекс частоты. Частота А:-го сигнала равна где Т — период времени, равный длительности обрабатываемого сигнала. ДПФ позволяет получить информацию о частотах сигнала, не превышающих частоту Найквиста /пу, равную половине частоты дискретизации.

1.1.3 Быстрое преобразование Фурье

Быстрое преобразование Фурье (БПФ) это реализация алгоритма ДПФ. Своё название эта реализация получила из-за того, что она позволяет очень быстро рассчитывать ДПФ. Сложность ДПФ для сигнала в N отсчётов оценивается через N2 комплексных умножений и сложений. БПФ сводит эту сложность к N log2(N).

1.1.4 Оконные преобразования

При использовании ДПФ часто возникают трудности, обусловленные конечностью интервала обработки. Конечная длительность временного окна при анализе периодического сигнала приводит к тому, что результат получается не в виде идеальных спектральных линий, а каждая линия «размывается» и сопровождается боковыми выбросами. Эти ложные выбросы можно значительно ослабить, устраняя разрывы сигнала и его производных на границах окна. Этого можно добиться путём умножения сигнала на плавно изменяющуюся функцию, обращающуюся в нуль на краях рассматриваемого интервала. Пусть задан сигнал s(n), n £ [0 ... N — 1]. Широко известной оконной функцией является окно Ханна (Ханнинга):

w(n) = 0.5 - cos (jfZjj^j ■ Пример использования такого окна приведён на рис.1.2. Тут sw(n) = s(n)w(n).

1.2 Алгоритмы оценивания ЧОТ

В этом разделе будут коротко описаны основные известные алгоритмы определения ЧОТ (АОЧОТ).

Многие исследователи занимались вопросом определения ЧОТ голосового сигнала. Первые шаги в этом направлении были сделаны ещё в 19 веке. Как уже было упомянуто, Гельмгольц с помощью специальных резонаторов [6] выделял гармоники, содержащиеся в речевом сигнале.

Первыми математическими подходами можно считать семейство методов, основанных на выборе маркеров ЧОТ с последующей их обработкой. Простейший из них — zero-crossing rate (см. раздел 1.2.1).

На следующем этапе развития алгоритмов можно выделить автокорреляционные методы и методы, основанные на вычислении функции расстояния (см. раздел 1.2.1).

Часть алгоритмов нацелена на определение параметров полигармонической модели речевого сигнала. Общая идея здесь такова: оценить параметры модели речевого сигнала так, чтобы модель наилучшим образом аппроксимировала анализируемый сигнал (см. раздел 1.2.1).

Ещё одно семейство методов переносит обработку речевого сигнала в частотную область. Тут можно отметить такие методы, как детектирование пиков спектра, методы спектральной корреляции, harmonic product spectrum, методы на основе кепстра (см. раздел 1.2.2).

Отдельно можно выделить методы, являющиеся наиболее успешными и популярными в наше время. Они вобрали в себя идеи из разных типов предшествующих алгоритмов. Краткое описание таких методов см. в разделах 1.2.3 — 1.2.10.

Традиционно, АОЧОТ делятся на два типа: алгоритмы во временной области и алгоритмы в частотной области. Алгоритмы во временной области анализируют сигнал в его исходной форме — амплитуды как функция времени. Основной концепцией здесь является поиск повторяющихся шаблонов, и соотнесение периода повторения с ЧОТ.

Частотные методы, с другой стороны, анализируют спектральный состав сигнала. И уже по результатам такого анализа происходит выбор ЧОТ.

Основные шаги АОЧОТ схематически изображены на рис. 1.3. В первую очередь, сигнал разделяется на сегменты. Затем, каждый из сегментов обрабатывается следующим образом: применяется оконное преобразование Фурье для получения спектра сигнала, вычисляются кандидаты на ЧОТ, выбираются кандидаты с наибольшим уровнем достоверности.

Сигнал

Окна

Спектр

Функция стоимости

I

ЧОТ

Рисунок 1.3 — Диаграмма стандартной системы оценивания ЧОТ

1.2.1 Классические алгоритмы во временной области

Как уже было сказано, алгоритмы во временной области опираются на идею, что голосовой сигнал имеет высокую степень периодичности. Так же основным предположением является то, что в соседних периодах форма сигнала меняется слабо. Путём сравнения сигнала со своей смещённой копией можно выявить периодичность сигнала, а отсюда и ЧОТ.

Пересечение нулевого уровня

Алгоритм пересечения нулевого уровня (zero-crossing) является простейшим способом определения ЧОТ. Целое семейство аналогичных методов освещено в литературе [23—28]. Методы используют информацию о том, в какие моменты времени значение отсчёта звукового сигнала меняет знак. Расстояние между этими отсчётами принимается за период основного тона. Этот алгоритм перестаёт работать, как только сигнал начинает содержать в себе частоты, отличные от ЧОТ. В этом случае возникают дополнительные пересечения нуля внутри периода. Однако, возможно применение алгоритмов распознавания повторяющихся шаблонов для выделения групп пересечений. В этом случае за период принимается расстояние между такими группами. Эта идея была расширена в работе [29], где авторы в качестве опорных точек выбирают не только точки смены знака, но и некоторые дополнительные точки.

Средняя невязка, квадратичная невязка, автокорреляционный метод

Похожие диссертационные работы по специальности «Дискретная математика и математическая кибернетика», 01.01.09 шифр ВАК

Список литературы диссертационного исследования кандидат наук Мельников Александр Алексеевич, 2016 год

Список литературы

1. Denes P. B., Pinson E. The speech chain. — Macmillan, 1993.

2. O'shaughnessy D. Speech communication: human and machine. — Universities press, 1987.

3. Breen A., Bowers E., Welsh W. An investigation into the generation of mouth shapes for a talking head // Spoken Language, 1996. ICSLP 96. Proceedings., Fourth International Conference on. Т. 4. — IEEE. 1996. — С. 2159—2162.

4. Rossing T. D. [и др.] The Science of Sound/Edition 3. — Addison Wesley, 2009.

5. Rabiner L. R., Schafer R. W. Introduction to digital speech processing // Foundations and trends in signal processing. — 2007. — Т. 1, № 1. — С. 1—194.

6. Von Helmholtz H. On the Sensations of Tone as a Physiological Basis for the Theory of Music. — Longmans, Green, 1912.

7. Резонатор Гельмгольца. — https://en.wikipedia.org/wiki/Helmholtz_resonance.

8. Zeng Y.-M., Wu Z.-Y., Falk T., Chan W.-Y. Robust GMM based gender classification using pitch and RASTA-PLP parameters of speech // Machine Learning and Cybernetics, 2006 International Conference on. — IEEE. 2006. — С. 3376—3379.

9. Ververidis D., Kotropoulos C., Pitas I. Automatic emotional speech classification // Acoustics, Speech, and Signal Processing, 2004. Proceedings.(ICASSP'04). IEEE International Conference on. Т. 1. — IEEE. 2004. — С. I—593.

10. Ryynanen M. P., Klapuri A. Polyphonic music transcription using note event modeling // Applications of Signal Processing to Audio and Acoustics, 2005. IEEE Workshop on. — IEEE. 2005. — С. 319—322.

11. Fu Z., Lu G., Ting K. M., Zhang D. A survey of audio-based music classification and annotation // Multimedia, IEEE Transactions on. — 2011. — Т. 13, № 2. — С. 303—319.

12. Griffin D. W., Lim J. S. Multiband excitation vocoder // Acoustics, Speech and Signal Processing, IEEE Transactions on. — 1988. — Т. 36, № 8. — С. 1223—1235.

13. Fant G., Lijencrants J., Lin Q.-g. A four-parameter model of glottal flow // STL-QPSR. -1985. — Т. 4, № 1985. — С. 1—13.

14. Neri A., Cucchiarini C., Strik H., Boves L. The pedagogy-technology interface in computer assisted pronunciation training // Computer assisted language learning. — 2002. — Т. 15, № 5. — С. 441—467.

15. Aronson A. E., Bless D. Clinical voice disorders. — Thieme, 2011.

16. Houtsma A. J. Pitch and timbre: Definition, meaning and use // Journal of New Music Research. — 1997. — Т. 26, № 2. — С. 104—115.

17. Психоакустика. — https://en.wikipedia.org/wiki/Psychoacoustics.

18. Мельников А. Быстрый алгоритм идентификации параметров модели голосового сигнала // Сборник трудов XII Всероссийского совещания по проблемам управления (ВСПУ-2014). - 2014. - С. 3090-3101.

19. Melnikov A., Akhunzyanov R., Kudashev O., Luckyanets E. Audiovisual Liveness Detection // Lecture Notes in Computer Science. Т. 9280. — Springer, 2015. — С. 643— 652.

20. Barabanov A., Melnikov A., Magerkin V., Vikulov E. Fast Algorithm for Precise Estimation of Fundamental Frequency on Short Time Intervals // Lecture Notes in Computer Science. Т. 9319. — Springer, 2015. — С. 217—225.

21. Melnikov A., Barabanov A. Guaranteed estimation of speech fundamental frequency with bounded complexity algorithm // Cybernetics and Physics. — 2016. — Т. 5, № 1.

22. Bosi M., Goldberg R. E. Introduction to digital audio coding and standards. Т. 721. — Springer Science & Business Media, 2012.

23. Dologlou I., Carayannis G. Pitch detection based on zero-phase filtering // Speech Communication. — 1989. — Т. 8, № 4. — С. 309—318.

24. Hess W. J. An algorithm for digital time-domain pitch period determination of speech signals and its application to detect F 0 dynamics in VCV utterances // Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'76. Т. 1. — IEEE. 1976. — С. 322—325.

25. Ananthapadmanabha T., Yegnanarayana B. Epoch extraction of voiced speech // Acoustics, Speech and Signal Processing, IEEE Transactions on. — 1975. — Т. 23, № 6. — С. 562—570.

26. Dolansky L. O. An Instantaneous Pitch-Period Indicator // The Journal of the Acoustical Society of America. — 1955. — Т. 27, № 1. — С. 67—72.

27. Howard I. S., Walliker J. The implementation of a portable real-time multilayer-perceptron speech fundamental period estimator. // EUROSPEECH. — 1989. — С. 1206—1209.

28. Hess W. J. A pitch-synchronous digital feature extraction system for phonemic recognition of speech // Acoustics, Speech and Signal Processing, IEEE Transactions on. — 1976. — Т. 24, № 1. — С. 14—25.

29. Cooper D., Ng K. A monophonic pitch tracking algorithm. — Citeseer, 1994.

30. Ross M. [и др.] Average magnitude difference function pitch extractor // Acoustics, Speech and Signal Processing, IEEE Transactions on. — 1974. — Т. 22, № 5. — С. 353—362.

31. Sobolev V., Baronin S. Investigation of the shift method for pitch determination // Elektrosvyaz. — 1968. — Т. 12. — С. 30—36.

32. Moorer J. A. The optimum comb method of pitch period analysis of continuous digitized speech // Acoustics, Speech and Signal Processing, IEEE Transactions on. — 1974. — Т. 22, № 5. — С. 330—338.

33. Cheveigne A. de, Kawahara H. YIN, a fundamental frequency estimator for speech and music // The Journal of the Acoustical Society of America. — 2002. — Т. 111, № 4. -С. 1917. — DOI: 10.1121/1.1458024.

34. Shimamura T., Kobayashi H. Weighted autocorrelation for pitch extraction of noisy speech // IEEE transactions on speech and audio processing. — 2001. — Т. 9, № 7. — С. 727—730.

35. Hirose K., Fujisaki H., Seto S. A scheme for pitch extraction of speech using autocorrelation function with frame length proportional to the time lag // Acoustics, Speech, and Signal Processing, 1992. ICASSP-92., 1992 IEEE International Conference on. Т. 1. — IEEE. 1992. — С. 149—152.

36. Talkin D. A robust algorithm for pitch tracking (RAPT) // Speech coding and synthesis. — 1995. — Т. 495. — С. 518.

37. Terez D. E. Robust pitch determination using nonlinear state-space embedding // Acoustics, Speech, and Signal Processing (ICASSP), 2002 IEEE International Conference on. Т. 1. — IEEE. 2002. — С. I—345.

38. Hess W. J. Algorithms and devices for pitch determination of speech signals // Automatic Speech Analysis and Recognition. — Springer, 1982. — С. 49—67.

39. Rader C. M. Vector pitch detection // The Journal of the Acoustical Society of America. — 1964. — Т. 36, № 10. — С. 1963—1963.

40. Yaggi Jr L. A. Full-duplex digital vocoder: тех. отч. / DTIC Document. — 1962.

41. Rabiner L. On the use of autocorrelation analysis for pitch detection // IEEE Transactions on Acoustics, Speech, and Signal Processing. — 1977. — Т. 25, № 1. — С. 24—33. — DOI: 10.1109/TASSP.1977.1162905.

42. Sondhi M. M. New methods of pitch extraction // Audio and Electroacoustics, IEEE Transactions on. — 1968. — Т. 16, № 2. — С. 262—266.

43. Markel J. D. The SIFT algorithm for fundamental frequency estimation // Audio and Electroacoustics, IEEE Transactions on. — 1972. — Т. 20, № 5. — С. 367—377.

44. Rabiner L., Cheng M. J., Rosenberg A. E., McGonegal C. A. A comparative performance study of several pitch detection algorithms // Acoustics, Speech and Signal Processing, IEEE Transactions on. — 1976. — Т. 24, № 5. — С. 399—418.

45. VON OBERFLACHEN A. S. Das wichtigste Einsatzgebiet von Bildverarbeitungssystemen in der Industrie ist die automatische Sicht-präfung/1/. Eine komplexe Applikation stellt die Sichtprufung von Bremszylindergehausen dar/2/. Ne // Mustererkennung 1990: 12. DAGM-Symposium Oberkochen-Aalen, 24.-26. September 1990. Proceedings. Т. 254. — SpringerVerlag. 2013. — С. 114.

46. Noll A. M. Pitch determination of human speech by the harmonic product spectrum, the harmonic sum spectrum, and a maximum likelihood estimate // Proceedings of the symposium on computer processing communications. Т. 779. — 1969.

47. McAulay R. J., Quatieri T. F. Pitch estimation and voicing detection based on a sinusoidal speech model // Acoustics, Speech, and Signal Processing, 1990. ICASSP-90., 1990 International Conference on. - IEEE. 1990. - C. 249-252.

48. McLeod P., Wyvill G. Visualization of musical pitch // Computer Graphics International Conference. - IEEE Computer Society. 2003. - C. 300-300.

49. Dziubinski M., Kostek B. High accuracy and octave error immune pitch detection algorithms // Archives of Acoustics. - 2004. - T. 29, № 1.

50. Kondoz A. M. Digital speech: coding for low bit rate communication systems. — John Wiley & Sons, 2005.

51. Lahat M., Niederjohn R. J., Krubsack D. A. A spectral autocorrelation method for measurement of the fundamental frequency of noise-corrupted speech // Acoustics, Speech and Signal Processing, IEEE Transactions on. — 1987. — T. 35, № 6. — C. 741—750.

52. Schroeder M. R. Period Histogram and Product Spectrum: New Methods for Fundamental-Frequency Measurement // The Journal of the Acoustical Society of America. — 1968. -T. 43, № 4. - C. 829-834.

53. Martin P. A logarithmic spectral comb method for fundamental frequency analysis" // Proceedings of the 11th Intern. Congr. on Phonetic Sciences. — 1987.

54. Brown J. C. Musical fundamental frequency tracking using a pattern recognition method // The Journal of the Acoustical Society of America. - 1992. - T. 92, № 3. - C. 1394-1402.

55. Hermes D. J. Measurement of pitch by subharmonic summation // The journal of the acoustical society of America. - 1988. - T. 83, № 1. - C. 257-264.

56. Duifhuis H., Willems L. F., Sluyter R. Measurement of pitch in speech: An implementation of Goldstein's theory of pitch perception // The Journal of the Acoustical Society of America. -1982. - T. 71, № 6. - C. 1568-1580.

57. Sun X. Pitch determination and voice quality analysis using subharmonic-to-harmonic ratio // Acoustics, Speech, and Signal Processing (ICASSP), 2002 IEEE International Conference on. T. 1. - IEEE. 2002. - C. I-333.

58. Noll A. M. Cepstrum pitch determination // The journal of the acoustical society of America. - 1967. - T. 41, № 2. - C. 293-309.

59. Indefrey H., Hess W. J., Seeser G. Design and evaluation of double-transform pitch determination algorithms with nonlinear distortion in the frequency domain // Proceedings of the 1985 International Conference on Acoustics, Speech and Signal Processing. T. 2. -1985. - C. 11-12.

60. Martin P. Comparison of pitch detection by cepstrum and spectral comb analysis // Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'82. T. 7. - IEEE. 1982. - C. 180-183.

61. Zahorian S. A., Hu H. A spectral/temporal method for robust fundamental frequency tracking // The Journal of the Acoustical Society of America. — 2008. — T. 123, № 6. -C. 4559—4571.

62. Hess W. Pitch determination of speech signals. — Springer, 1983.

63. Tan L. N., Alwan A. Multi-band summary correlogram-based pitch detection for noisy speech // Speech communication. — 2013. — T. 55, № 7. — C. 841—856.

64. Camacho A., Harris J. G. A sawtooth waveform inspired pitch estimator for speech and music // The Journal of the Acoustical Society of America. — 2008. — T. 124, № 3. — C. 1638—1652.

65. Wu M., Wang D., Brown G. J. A multipitch tracking algorithm for noisy speech // Speech and Audio Processing, IEEE Transactions on. — 2003. — T. 11, № 3. — C. 229—241.

66. De Cheveigne A., Kawahara H. YIN, a fundamental frequency estimator for speech and music // The Journal of the Acoustical Society of America. — 2002. — T. 111, № 4. — C. 1917—1930.

67. Gonzalez S., Brookes M. A pitch estimation filter robust to high levels of noise (PEFAC) // Proc. Euro. Sig. Process. Conf. — 2011. — C. 451—455.

68. Byrne D. [n gp.] An international comparison of long-term average speech spectra // The Journal of the Acoustical Society of America. — 1994. — T. 96, № 4. — C. 2108—2120.

69. Joho D., Bennewitz M., Behnke S. Pitch estimation using models of voiced speech on three levels // Acoustics, Speech and Signal Processing, 2007. ICASSP 2007. IEEE International Conference on. T. 4. — IEEE. 2007. — C. IV—1077.

70. Azarov E., Vashkevich M., Petrovsky A. Instantaneous pitch estimation based on RAPT framework // Signal Processing Conference (EUSIPCO), 2012 Proceedings of the 20th European. — IEEE. 2012. — C. 2787—2791.

71. Petrovsky A., Azarov E. Instantaneous Harmonic Analysis: Techniques and Applications to Speech Signal Processing // Speech and Computer. — Springer, 2014. — C. 24—33.

72. Matlab. — http://www.mathworks.com/.

73. Kasi K., Zahorian S. A. Yet another algorithm for pitch tracking // Acoustics, Speech, and Signal Processing (ICASSP), 2002 IEEE International Conference on. T. 1. — IEEE. 2002. — C. I—361.

74. Pirker G., Wohlmayr M., Petrik S., Pernkopf F. A Pitch Tracking Corpus with Evaluation on Multipitch Tracking Scenario. // INTERSPEECH. — 2011. — C. 1509—1512.

Список рисунков

1 Осциллограмма речевого сигнала для фразы «пять четыре один»..............5

2 Речевая цепь: от формулировки до восприятия....................................5

3 Диаграмма процесса кодирования / декодирования речи..........................6

4 Спектрограмма сигнала................................................................8

5 Звонкий звук............................................................................8

6 Глухой звук..............................................................................9

7 Модель резонатора Гельмгольца......................................................9

8 Зависимость уровня громкости от звукового давления и частоты. Кривые равной громкости. [17]..................................................................11

1.1 Ошибка квантования при ИКМ. Такой сигнал будет иметь большое количество высоких частот в спектре. Поэтому применяется низкочастотные фильтры..................................................................................15

1.2 Пример использования оконной функции ............................................16

1.3 Диаграмма стандартной системы оценивания ЧОТ................................18

1.4 Исходный сигнал, автокорреляция исходного сигнала, автокорреляция предобработанного сигнала ............................................................21

1.5 Исходный сигнал, найти гармоники невозможно ..................................22

1.6 Спектр исходного сигнала, видны характерные пики 90 Гц и 150 Гц..............23

1.7 Спектр голосового сигнала..............................................................23

1.8 Исходный сигнал, спектр сигнала, сжатые спектры ................................26

1.9 Исходный сигнал, натуральный логарифм квадрата спектра сигнала............27

1.10 Кепстр, составляющие сигнала Н(ш) и Б(ш)..........................................28

1.11 Принцип работы алгоритма УААРТ ................................................29

1.12 Принцип работы алгоритма МББС ..................................................30

1.13 Алгоритм ШИ............................................................................31

2.1 Функция ..........................................................................41

2.2 Мнимая часть функции (ж)..........................................................42

2.3 Нормированные функции и ....................................................47

2.4 Корреляционные функции..............................................................48

2.5 Функции первых столбцов тёплицевых подматриц матрицы к....................59

2.6 Функция М) при М =10 и при М = 100........................................60

2.7 Множитель при )................................................................62

2.8 Функция (Р, М) при М =10 и при М = 100......................................63

2.9 Множитель при /т¡п(Р)................................................................64

2.10 Нижний график: сигнал, содержащий = 2.08 периода. Верхний график: нормированная функция ¡п(Р) и функция а2(Р)..................................65

2.11 Функции С0, С0, С2 при фиксированном Р«4.5 и при N =1024 и N=256. . . 77

2.12 Функции С0, С0, С2 при N = 1024 и разных целых Р............................78

2.13 Норма матрицы д в методе простой итерации........................................80

2.14 Норма матрицы др в методе простой итерации в стационарном случае..........81

2.15 Функции ХП°..............................................................................86

3.1 Предельный колокольчик ..........................................................91

3.2 Нормированная функция г]о(х) = ..............................................102

3.3 Множитель Кр..........................................................................102

3.4 Коэффициент фильтра первого порядка ар..........................................103

4.1 Влияние ошибки определения ЧОТ на спектр восстановленного сигнала ... 118

4.2 Участок голосового сигнала..........................................................119

4.3 Результат аппроксимации ф0(Р)......................................................120

4.4 Результат аппроксимации /тт(Р)....................................................120

4.5 Результат аппроксимации ) ......................................................120

Список таблиц

1 Среднее значение для /т;п(Р0) после высокочастотной фильтрации ...... 122

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.