Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат наук Вольф Данияр Александрович

  • Вольф Данияр Александрович
  • кандидат науккандидат наук
  • 2015, ФГБОУ ВО «Томский государственный университет систем управления и радиоэлектроники»
  • Специальность ВАК РФ05.13.18
  • Количество страниц 149
Вольф Данияр Александрович. Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа: дис. кандидат наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. ФГБОУ ВО «Томский государственный университет систем управления и радиоэлектроники». 2015. 149 с.

Оглавление диссертации кандидат наук Вольф Данияр Александрович

ВВЕДЕНИЕ

ГЛАВА 1. Обзор существующих методов и алгоритмов оценивания частоты основного тона речи. Обзор моделей вокализированного сегмента речевого сигнала. Постановка задачи

1.1. Анализ состояния проблемы оценки частоты основного тона речи

1.1.1. Методы оценки частоты основного тона речи

1.1.2. Обзор отечественных алгоритмов оценивания ЧОТ

1.1.3. Обзор зарубежных алгоритмов оценивания ЧОТ

1.1.4. Оценка существующих алгоритмов оценивания ЧОТ

1.2. Модели вокализированного сегмента речевого сигнала

1.2.1. Волновая модель Келли-Локбаума

1.2.2. Модель речевого тракта на основе уравнения Вебстера

1.2.3. Гармоническая модель вокализированного сегмента речи

1.3. Сингулярная модель вокализированного сегмента речи

1.3.1. Прямая задача

1.3.2. Обратная задача

1.4. Постановка задачи и требования к сингулярному оцениванию частоты основного тона речи

1.5. Выводы по главе

ГЛАВА 2. Модель и численная реализация сингулярного оценивания частоты основного тона речевого сигнала. Оценка методов и алгоритмов сингулярного спектрального анализа речи

2.2. Построение концептуальной модели сингулярного оценивания мгновенной частоты основного тона речи

2.2.1. Общий вид модели сингулярного оценивания ЧОТ

2.2.2. Анализ модели общего вида

2.2.3. Переход к частному случаю

2.3. Построение математической модели сингулярного оценивания мгновенной частоты основного тона речевого сигнала

2.3.1. Численная реализация модели

2.3.2. Математическая модель сингулярного оценивания частоты основного тона

2.4. Сингулярный спектральный анализ речевого сигнала

2.4.1. Решение проблемы собственных чисел в задачах анализа речи

2.4.2. Преобразования Хаусхолдера с ротацией Гивенса

2.4.3. Метод Ланцоша для аппроксимации края сингулярного спектра

2.5. Выводы по главе

ГЛАВА 3. Комплекс алгоритмов для программной реализации сингулярного оценивания частоты основного тона речи

3.1. Реализация генератора сингулярного спектра речевого сигнала

3.1.1. Синтез генератора сингулярного спектра речи

3.1.2. Процедура Ганкелизации фонемного ряда

3.1.3. Алгоритмизация метода Ланцоша для задачи аппроксимации края сингулярного спектра речи

3.1.4. Алгоритмизация РЯ-ЯР цепочки для отыскания собственных пар Ритца

3.1.5. Реконструкция квазигармонического сингулярного спектра речи

3.1.6. Компоновка генератора сингулярного спектра речи

3.2. Реализация средства выбора квазигармонической составляющей

3.1.1. Синтез селектора

3.2.2. Алгоритмизация измерителя частоты временного спектра

3.2.3. Процедура выбора наилучшего кандидата с ЧОТ

3.2.4. Процедура уточнения значения ЧОТ

3.2.5. Компоновка селектора

3.3. Алгоритм сингулярного оценивания частоты основного тона

3.4. Выводы по главе

ГЛАВА 4. Программная реализация сингулярного оценивания частоты основного тона речевого сигнала. Экспериментальные исследования с моделью

4.1. Программная реализации сингулярного оценивания ЧОТ

4.1.1. Структура программного комплекса

4.1.2. Программная реализация алгоритмов на уровне методов

4.1.3. Общий вид работы программного комплекса

4.2. Экспериментальные исследования с моделью

4.2.1. Оценка временных характеристик сингулярного оценивания ЧОТ

речи

4.2.2. Оценка адекватности модели сингулярного оценивания ЧОТ

4.2.3. Оценка достоверности модели сингулярного оценивания ЧОТ

4.3. Выводы по главе

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

Приложение А. Свидетельство о государственной регистрации программы для

ЭВМ

Приложение Б. Акт о внедрении в Томском НИИ онкологии

Приложение В. Протокол испытания сингулярного измерителя частоты

основного тона речевого сигнала

Приложение Г. Акт о внедрении в МКУ «Единая дежурно-диспетчерская

служба Сургутского района»

Приложение Д. Акт о внедрении в учебный процесс (ТУСУР)

ВВЕДЕНИЕ

Из всего живого только человека Создатель наградил даром речи [1], благодаря чему ему удалось столь значительно развить свои интеллектуальные способности и, по мнению многих философов, стать человеку человеком. Можно предположить, что нечто подобное происходит на наших глазах и с компьютером, интенсивно овладевающим широким спектром речевых технологий от работы со звуковыми файлами до синтеза, распознавания и понимания речи [2].

Создание систем распознавания речи, вокодерной телефонии, идентификации диктора по голосу связано с необходимостью выделения первичных признаков речевого сигнала в условиях реальной речевой обстановки [3]. Важнейшим параметром речевого сигнала является основной тон, содержащий информацию об интонационной структуре произнесения, индивидуальности голоса диктора и его эмоциональном состоянии, возрастных и патологических изменениях голосового аппарата [4, 5]. Данная научная работа направленна на решение проблемы оценивания частоты основного тона (ЧОТ) речевого сигнала. Задача определения ЧОТ речи, включая распределение амплитуд, периодов и начальных фаз гармоник, образующих сложный полигармонический сигнал, относится к классу сложных.

Существующие системы оценивания ЧОТ не позволяют проводить анализ речевой информации с учетом особенностей речеобразования и речевосприя-тия, связанных с анатомией и физиологией человека, так как методы анализа, лежащие в их основе, ограничены периодической (стационарной) моделью речевого сигнала, которая подразумевает точное повторение периода и амплитуды основного тона и не допускает их изменения на протяжении окна анализа. В свою очередь, это влияет на точность результатов оценивания ЧОТ. В данной научной работе предлагается модель речевого сигнала на основе сингулярного спектрального анализа (далее - сингулярная модель), которая позволяет рассматривать речеобразующий тракт как систему акустических резонаторов, в которой параметрами выступают собственные значения и собственные векторы,

содержащие информацию о структуре речевого сигнала с учетом нестационарных амплитуд, периодов и фаз гармоник, входящих в его состав. Данное свойство обусловлено тем, что пространство собственных векторов образует нестационарный базис, в который проецируется речевой сигнал.

В медицинских приложениях речевых технологий повышение точности вычислений является актуальной задачей. Однако повышение точности вычисления ЧОТ приводит к увеличению вычислительной сложности. Разработанная новая модель оценивания частоты основного тона на основе сингулярного спектрального анализа (далее - сингулярное оценивание ЧОТ) позволяет сократить временную обработку речевого сигнала за счет аппроксимации края сингулярного спектра, выделяя главные компоненты, образующие речевой сигнал для случая неизвестных априорных распределений амплитуд, периодов и начальных фаз гармоник.

В качестве математического инструмента для исследования речевых сигналов выбран аппарат сингулярного спектрального анализа (ССА «Гусеница»), разработанного и обоснованного в конце XX века сотрудниками Санкт-Петербургского государственного университета [6, 7]. В современной зарубежной литературе описан широкий класс методов, алгоритмически и идейно близких к методу «Гусеница», в основном метод известен как Singular Spectrum Analysis (SSA) [8-10]. Метод основан на анализе главных компонент и позволяет исследовать стационарные и не стационарные временные ряды.

Связь между классическими методами анализа стационарных временных рядов и методом главных компонент рассматривается в работах Бриллинджера [11]. Например, в работе Bagshaw [12] утверждается, что методы, работающие во временной области, обладают наименьшей ошибкой, по сравнению с другими методами (частотными), принятия решения о присутствии голоса в речи (voicing decision error rate) - не более 17%. Кроме того, в работе [13] показано, что такие методы являются наиболее робастными в отношении принятия решения о вокализованном или невокализованном сегменте речи в условиях шума (voiced-unvoiced decision), искажений и побочных помех в сигнале.

Проблематикой эффективного оценивания ЧОТ речевого сигнала занимались такие ученые как Г. Фант, Дж. Фланаган, М.А. Сапожков, В.Н. Сорокин, В.И. Галунов, Б.М. Лобанов, Т.К. Винцюк, Л.В. Златоустова, А.В. Аграновский, Н.Г. Загоруйко, Ю.А. Косарев, А.Л. Ронжин, М.В. Хитров, С.Л. Коваль, В.Г. Михайлов, В.П. Бондаренко, М.Б. Столбов, др. Поэтому настоящая научная работа посвящена решению проблемы оценивания частоты основного тона, так как разработка новых методов оценивания ЧОТ речи является актуальной задачей.

Цель исследования

Целью исследования является уменьшение вычислительной сложности алгоритмов анализа речевого сигнала при оценивании частоты основного тона с учетом особенностей речеобразования и речевосприятия, связанных с анатомией и физиологией человека для случая неизвестных априорных распределений амплитуд, периодов, начальных фаз гармоник.

Для достижения поставленной цели в данной научной работе решается задача разработки модели оценивания частоты основного тона речевого сигнала, которая позволяет:

— уменьшить вычислительную сложность алгоритмов анализа речевого сигнала;

— учитывать особенности речеобразования и речевосприятия, связанных с анатомией и физиологией человека для случая неизвестных априорных распределений амплитуд, периодов, начальных фаз гармоник, а также численная и программная реализация модели.

Методика исследования

Для решения задач, сформулированных в данной научной работе, использовались методы системного анализа, сингулярного спектрального анализа, цифровой обработки сигналов, математической статистики, фонетики, психоакустики.

Степень достоверности результатов работы

Достоверность полученных результатов обеспечивается строгостью используемого математического аппарата, адекватностью и достоверностью модели, установленной путем сравнения реакции модели и известных аналогов на тестовые сигналы, большим количеством экспериментальных данных, подтверждающих теоретические результаты, а также внедрением разработанного комплекса алгоритмов в практику.

Научная новизна

Научную новизну настоящей работы определяют:

1. Модель оценивания частоты основного тона, основанная на сингулярном спектральном анализе, в отличие от классических моделей позволяет уменьшить вычислительную сложность алгоритмов анализа речевого сигнала.

2. Численный метод расчета частоты основного тона, использующий метод главных компонент для анализа временных рядов, в отличие от известных в литературе численных методов, учитывает особенности генерации речевого сигнала человеком и элементы психоакустики.

3. Комплекс алгоритмов, позволяющий разрабатывать программы, обеспечивающие меньшее количество ошибок оценивания частоты основного тона за счет использования сингулярной модели вокализированного сегмента речи, учитывающей нестационарные параметры основного тона с помощью собственных чисел.

Практическая значимость работы

Разработанные модель и алгоритмы позволят:

1) разрабатывать программное обеспечение для детального анализа параметров основного тона речевого сигнала в режиме реального времени;

2) формировать описание речевого сигнала для его распознавания, идентификации диктора и кодирования речи в цифровых системах связи.

Положения, выносимые на защиту

1. Использование модели сингулярного оценивания частоты основного тона позволяет уменьшить вычислительную сложность алгоритмов анализа речевого сигнала на 37% путем аппроксимации края сингулярного спектра.

2. Численный метод расчета частоты основного тона, использующий метод главных компонент, позволяет проводить анализ речевого сигнала человека с погрешностью не более 0,2%.

3. Комплекс алгоритмов сингулярного оценивания частоты основного тона позволяет разрабатывать программы, обеспечивающие меньшее количество ошибок оценивания частоты основного тона за счет использования сингулярной модели вокализированного сегмента речи, учитывающей нестационарные параметры основного тона с помощью собственных чисел.

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа»

Апробация работы

По материалам диссертации опубликовано 16 работ, из них 5 статей в журналах, входящих в перечень рецензируемых научных журналов и изданий, 11 публикаций в материалах международных и всероссийских научных конференциях.

Внедрение результатов

Разработанные модель и алгоритмы сингулярного оценивания частоты основного тона речи используются:

— в комплексе программ реабилитации пациентов после полной или частичной потери звучной речи в результате ларингоэктомии (Свидетельство о государственной регистрации программы для ЭВМ № 2015618857 - "Программа речевой реабилитации больных после резекции гортани"). Данный комплекс программ используется в кабинете логопеда отделения опухолей органов головы и шеи в Федеральном государственном бюджетном научном учреждении «Томский научно-исследовательский институт онкологии»;

— в качестве одного из модулей вокодера системы записи телефонных разговоров муниципального казенного учреждения «Единой дежурно-диспетчерской службы Сургутского района» - органа повседневного управления Сургутского районного звена территориальной подсистемы РСЧС (МКУ «ЕДДС Сургутского района»);

— в учебном процессе при выполнении научно-исследовательской работы студентами кафедры комплексной информационной безопасности электрон-

но-вычислительных систем Томского государственного университета систем управления и радиоэлектроники (КИБЭВС) в части проведения группового обучения студентов кафедры КИБЭВС (Проект ФВС ГПО.5711305 -01 81 01 ПЗ «Сегментация речевых сигналов с применением быстрых численных методов») для подготовки специалистов по специальности 10.05.03 - Информационная безопасность автоматизированных систем, и 21.02.02 - Проектирование и технология электронно-вычислительных средств. Эффективная программная реализация алгоритмов сингулярного спектрального анализа речи позволила повысить скорость и объемы вычислительных экспериментов, проводимых в рамках базовой части государственного задания ТУСУР - проект № 3657 (2015г.) на базе лаборатории речевых технологий Центра технологий безопасности ТУСУР.

Личное участие автора в получении результатов

Основные научные результаты получены лично автором. Постановка изложенных в диссертации задач сделана совместно с научным руководителем аспиранта профессором Мещеряковым Р.В. На основе проведенного анализа возможности снижения вычислительной сложности существующих алгоритмов оценивания частоты основного тона, автором были разработаны новые эффективные численные методы и алгоритмы, реализованные в виде комплекса программ. Автор применяет сингулярную модель вокализированного сегмента речевого сигнала с помощью которой разрабатывает модель, алгоритмы и программную реализацию сингулярного оценивания частоты основного тона речи. С 2012 г. автор занимается решением прикладных задач анализа и синтеза речевых сигналов с помощью математического аппарата сингулярного спектрального анализа.

Теоретическая ценность научной работы.

Теоретическая ценность работы заключается в развитии теории математического моделирования процессов речеобразования и речевосприятия, численных расчетах обработки речевых сигналов с использованием сингулярного спектрального анализа.

Обоснование структуры работы

В первой главе проводится анализ состояния проблемы оценки частоты основного тона речи, в котором рассматриваются существующие методы оценивания частоты основного тона речи с последующим обзором наиболее популярных алгоритмов RAPT, YIN, AC-P, AC-S, ANAL, CC, CEP, ESRPD, SHS, SHR, TEMPO, SWIPE'. Для получения собственных результатов проводится постановка эксперимента по оцениванию эффективности измерения частоты основного тона известными алгоритмами. В эксперименте рассматривается процент грубых ошибок (gross pitch errors - GPE), допускаемых в процессе оценивания ЧОТ речи. В качестве исходного материала для проведения акустического анализа выбираются базы данных: Disordered Voice Database (DVD); Keele Pitch Database (KPD); Paul Bagshaw's Database (PBD). Далее рассматриваются различные модели вокализированного сегмента речевого сигнала. На основе гармонической модели осуществляется переход к сингулярной модели вокализированного сегмента речи, в которой рассматривается прямая и обратная задача. Осуществляется постановка главной задачи, где формулируются требования к модели сингулярного оценивания частоты основного тона речи.

Во второй главе осуществляется эвристическое построение концептуальной модели сингулярного оценивания частоты основного тона речи. Далее осуществляется переход к численному представлению модели. Рассматривается сингулярный спектральный анализ речевого сигнала, в котором прорабатывается вопрос о быстром численном методе спектрального разложения речи, далее проводятся оценки численных методов.

В третьей главе рассматривается реализация алгоритмов сингулярного оценивания частоты основного тона речевого сигнала в составе:

- генератора сингулярного спектра речевого сигнала;

- процедуры выбора квазигармонической составляющей, соответствующей частоте основного тона речи из спектра квазигармоник фонемного ряда.

В заключительной части главы полученные алгоритмы компонуются в главный алгоритм сингулярного оценивания частоты основного тона речевого сигнала.

В четвертой главе представлена программная реализация разработанной модели и алгоритмов. Приведена структура программного комплекса сингулярного оценивания частоты основного тона речи. Далее проводятся экспериментальные исследования с моделью, в которых даются оценки адекватности и достоверности модели. Обосновывается возможность применения комплекса в исследованиях, направленных на получение параметров основного тона речевого сигнала в режиме реального времени. Проводятся экспериментальные исследования с моделью, в результате которого даются оценки адекватности и достоверности.

ГЛАВА 1. Обзор существующих методов и алгоритмов оценивания частоты основного тона речи. Обзор моделей вокализированного сегмента речевого сигнала. Постановка задачи

В главе проводится анализ состояния проблемы оценивания частоты основного тона речевого сигнала. Рассматриваются существующие методы оценивания частоты основного тона речи, осуществляется обзор наиболее популярных алгоритмов и проводится их оценка. Далее рассматриваются модели вокализированного сегмента речевого сигнала, где на основе гармонической модели осуществляется переход к сингулярной модели вокализированного сегмента речи. Осуществляется постановка главной задачи, в которой выдвинуты требования к модели сингулярного оценивания частоты основного тона речи.

1.1. Анализ состояния проблемы оценки частоты основного тона речи

1.1.1. Методы оценки частоты основного тона речи

Известно, что участки вокализированной речи человека характеризуются энергией периодических колебаний голосовых складок. Голосовой источник может быть представлен в виде пульсирующего воздушного потока, где частота (период) повторения импульсов голосового источника носит название частоты (периода) основного тона. Основной тон (ОТ), являясь одним из основных параметров речевого сигнала, в существенной мере определяет структуру речевого сообщения [14]. Интонационный контур высказывания есть траектория изменения мелодии частоты ОТ. Просодика высказывания, одной из составляющих которой служит интонация, есть существенное отличие акустического сигнала речи от письменной речи. Частота (период) ОТ переносит существенное количество информации, содержащейся в речевом сигнале. Выделение частоты ОТ, с точки зрения представленной в нем информации, представляет самостоятельный интерес [14]. При этом необходимо определять, как относительно мед-

ленные изменения (мелодия) траектории частоты ОТ, так и быстрые ее изменения, моменты включения и отключения голосового источника. С другой стороны, и при построении систем анализа, синтеза, распознавания и сжатия речи, необходимо измерять частоту ОТ, которую используют как один из основных признаков, необходимых для описания речевого сигнала. При работе с реальным речевым сигналом оцениватель ЧОТ должен [14]:

1) быть шумозащищенным;

2) быть нечувствителен к линейным и нелинейным искажениям;

3) обеспечивать высокую точность оценивания частоты ОТ;

4) сохранять точность при больших пределах изменения частоты ОТ, при смене диктора, при смене условий передачи, при наличии микровариаций ЧОТ;

5) работать на сигнале непрерывной речи;

6) иметь адекватный детектор вокализации;

7) работать в реальном масштабе времени.

Для извлечения максимального количества информации, содержащейся в контуре сигнала ОТ, следует предъявить следующее дополнительное требование к системам выделения ЧОТ: оцениватель ЧОТ должен оценивать мгновенные значения периода (частоты) ОТ. Основные методы оценивания ЧОТ речевого сигнала можно рассматривать в следующей классификации [15]:

1. Методы, основанные на амплитудной селекции (амплитудные методы).

2. Корреляционные методы.

3. Методы, основанные на частотной селекции (спектральные методы):

— оконное преобразование Фурье;

— вейвлет-преобразования.

4. Методы, основанные на кепстральном анализе.

5. Методы на основе линейного предсказания.

Из данной классификации можно выделить два типа подходов: спектральные и временные. Спектральные обычно основаны на извлечении спектральных пиков. Временные используют, как правило, корреляционный подход. В последнее время было предложено несколько методов, которые по ха-

рактеристикам превосходят традиционные. Какие-то методы обладают большей точностью, а какие-то большей устойчивостью к шумам. Рассмотрим принципы работы наиболее популярных методов из классификатора.

В методах, основанных на амплитудной селекции вычисляется расстояние между глобальными максимумами результаты которого можно принять за период ОТ. Необходимость подавления локальных ложных максимумов является проблемой алгоритмов амплитудной селекции [15, 16, 17]. Для решения данной проблемы обычно повышается порог срабатывания в схеме поиска максимумов. Однако при этом увеличивается вероятность пропуска истинного максимума. Пропуск и потеря максимума может привести к существенным искажениям звука в процессе синтезирования. Добавление второго канала амплитудной селекции, выделяющей положение минимумов речевого сигнала, увеличивает надежность определения периода ОТ. Тем не менее даже при относительно небольшом уровне шумов проявляются неустойчивость метода и существенное снижение точности определения ОТ. Достоинством данного метода является простота в реализации.

В основе корреляционных методов определения периода ОТ речевого сигнала заложены принципы оценки среднего значения периода пульсаций квазипериодической корреляционной функции [15, 18]. В частном случае вычисляется первый глобальный максимум корреляционной функции [15, 19]. Частота основного тона / рассчитывается в виде соотношения

£ _ /1 1 о _ ТГ

0 17

N р-1 где

- частота дискретизации; N р-1 - среднее число отсчетов корреляционной функции, через которое повторяются пульсации [20];

р - число глобальных максимумов корреляционной функции взятых для усредненной оценки Np-\.

Для поиска первого глобального максимума применяется следующий подход. Пусть речевой сигнал представлен в виде последовательности отсчетов Si, /=1,2,..., тогда для вокализированных звуков можно считать, что временной вид речевого колебания почти точно повторяется на каждом очередном периоде ОТ

Sn ~ Sn-T ,

где T - период ОТ, выраженный в числе отсчетов.

В качестве оценки периода ОТ T=1/f выбирается значение, минимизирующее целевую функцию, которая определяется как сумма квадратов разностей между отсчетами сигнала (n+i) и отсчетами сигнала (n-k+i), смещенными на некоторое число отсчетов [15, 19]. Т.е. в момент времени n выбирается значение k, минимизирующее функцию

N

L(n,k) = £(S^ -Sn_k+1 )2. i=\

Если предположить, что энергия речевого сигнала не меняется на участке квазистационарности, то оценка периода ОТ должна максимизировать корреляционную функцию

N

R(n,k) = ZSnA-k+I.

i=\

Данный подход обеспечивает существенно более высокую достоверность определения периода ОТ по сравнению с методами амплитудной селекции. При этом следует отметить значительную вычислительную сложность данного подхода. Корреляционные методы оценивания периода ОТ имеют общий недостаток, заключающийся в неустойчивой работе в случае, когда речевой сигнал модулирован по амплитуде. Энергия реальной, эмоционально окрашенной речи изменяется даже на квазистационарных участках, соответствующих одной фонеме. Так, например, в стандарте G.723 (регламентирующий способ сжатия речевого сигнала для видеоконференций) целевая функция модифицируется как

N

L(n,k) = £-$kSn-k)2,

i=\

где параметр рк имеет смысл коэффициента усиления. Для сдвига к оптимальное значение рк вычисляется по формуле

N

2 Ип+,Ип

-к+1

Р к " "

к N

12

2 И

п-к +1

В этом случае в качестве периода ОТ в момент времени п выбирают такое значение к, которое максимизирует функцию

12 и + и

¿^ П+1 У

М (п,к) = -

12

п-к+1

N

И2

п-к+1

1=1

Данный подход позволяет получить достаточно точную оценку ОТ, которая плавно меняется во времени в соответствии с изменением речи.

Спектральный метод оценивания основан на том, что при вокализованном возбуждении речевого тракта в спектре сигнала присутствуют пики на частотах, кратных частоте ОТ. Если построить дискретное преобразование Фурье с достаточно малым шагом дискретизации по частоте, то можно попытаться в качестве оценки частоты ОТ использовать частоту, соответствующую максимальному значению энергии спектра. Поиск максимума обычно производится в интервале {70-80} - {350-500} Гц. Однако часто возникает ситуация, когда в указанной полосе лежит и вторая гармоника ОТ, иногда даже с большей энергией. В этом случае она будет ошибочно принята за оценку ОТ. Решение данной проблемы описано в [21]. Поэтому ищут не максимум спектраХп(к), а некоторую функцию уплотнения спектра.

я 2

Р(к)=пки ,

г=1

где индекс п указывает на то, что и спектр Хп(к) и функция Рп(к) вычислены в момент времени п. Учитывая то, что логарифм монотонно возрастает в области допустимых значений, целевая функция принимает вид

1 я

Рп (к)=- 1п( Рп (к)) = 2Ч\ X (кг)\).

2 г=1

1=1

Эта функция представляет собой сумму Я сжатых по частоте в г раз логарифмов спектра мощности. Суть идеи состоит в том, что для истинной частоты основного тона вторая гармоника второго слагаемого сложится с первой гармоникой первого слагаемого и усилит ее. Аналогично для третьего слагаемого и т. д. В результате для вокализованного звука будет иметь место ярко выраженный пик функции Рп (к) на частоте ОТ. Для невокализованного звука суммирование будет иметь хаотический характер.

В общем случае оценка значений спектра является несостоятельной и может иметь большие погрешности. Для уменьшения ошибки оценки спектральных составляющих, например, нормированной спектральной плотности мощности, применяют методику спектральных окон. Выбор спектрального окна (весовой функции) при анализе определяется в результате компромисса между разрешающими способностями по частоте и во времени [15, 17, 21, 22]. Однако применение нелинейного преобразования спектра и окон может вносить большие смещения, что существенно снижает точность оценки.

Метод оценки ЧОТ на основе вейвлет преобразования относительно новый и развивающийся метод, базирующийся на применении непрерывного или дискретного вейвлет анализа. Положительная сторона данного метода для генерированного эталонного четырехгармонического сигнала относительная погрешность оценки ЧОТ и формантных частот не превышала 0,38% [15, 23]. Недостатком данного метода является:

— необходимость корректировки окна преобразования под каждую оцениваемую частоту;

— большие вычислительные затраты (особенно для систем реального времени).

Кепстральный метод оценивания ЧОТ состоит в вычислении и анализе кепстра - обратного преобразования Фурье комплексного логарифма спектра мощности речевого сигнала [21, 24-27]. Для увеличения скорости вычисления ЧОТ в данном методе преобразование Фурье выполняют с помощью алгоритма быстрого преобразования [28]. Длительность анализируемого речевого кадра не

должна превышать длительности, по крайней мере, двух-трех наиболее длинных для данной фонограммы периодов основного тона и быть кратной степени двух, что составляет обычно 512 отсчетов для низких мужских голосов и 256 для женских и высоких мужских голосов (при частоте дискретизации, равной 10кГц). В то же время, чем больше окно, тем дольше вычисляется основной тон и тем хуже отслеживаются быстрые изменения частоты ОТ. Для снятия эффекта наложения частот используют окно Ханна [29]. Наличие выраженного максимума в кепстре в диапазоне от 2мс до 20мс очень точно указывает на то, что данный кадр является вокализованным, а положение максимума определяет период анализируемого сигнала. Алгоритм вычисления периода основного тона кепстральным методом заключается в следующем. Длина кадра, анализируемого с помощью кепстра, обычно равна 512 отсчетам для мужских голосов и 256 -для женских голосов. Сдвиг от кадра к кадру обычно задают равным 1/16-1/4 длины кадра анализа. Для оптимизации выделения ОТ, особенно на зашумлен-ных или хриплых сигналах, можно задать значения границ полосы частот спектра, по которой вычисляют кепстр сигнала и на его основе - значение периода ОТ. Для каждого анализируемого кадра полученный кепстр исследуется с целью отыскания пика в области возможных значений ОТ. Если пик в кепстре превышает порог, то кадр классифицируется как вокализованный, а положение пика дает оценку периода основного тона [30]. Однако алгоритмы использующие данный метод имеют ряд существенных недостатков:

— необходимость применения дополнительной методики вычисления порога для оценки периода ОТ в области возможных значений;

— невозможность работы в реальном масштабе времени;

— необходимость применения временных окон и операций сглаживания;

— низкая точность оценки при сильной узкополосности гармоники основного тона [21].

Алгоритмы оценки ЧОТ основанные на методе линейного предсказания, используют принцип обратной фильтрации (обратный линейный фильтр). В основе данного метода используется приближенная модель речеобразования, в

которой отсчет речевого сигнала 8п связан с некоторым сигналом возбуждения ип разностным уравнением

р

я = У а, я , + Ои ,

п / ' к п-к п 7

к=1

где

- &-й коэффициент линейного предсказания в пределах сегмента речевого сигнала;

О - коэффициент усиления.

Линейный предсказатель с коэффициентами а^ определяется как система, на выходе которой имеется

р

=УакЯп-к •

к=1

Исходя из этого, системная функция предсказателя р-го порядка представляет собой полином вида

р

Р. =Уа к2

к=1

где погрешность предсказания определяется как

е = я -= я -Уая ,

п п п п / : к п-к

к=1

Из данного выражения видно, что погрешность предсказания представляет собой сигнал на выходе системы с передаточной функцией

р

к

А( 2) = 1 -Уак2

к

к=1

где Л(г) - является обратным фильтром для отношения

н = О,

А

г ^

2

которое возбуждается импульсной последовательностью для вокализованных звуков речи и шумом для невокализованных. Таким образом, основная задача анализа на основе линейного предсказания сводится к непосредственному вычислению параметров а^ по речевому сигналу с целью получения хороших оценок его спектральных свойств путем использования данного отноше-

ния выше. При приближении частоты повторения в обратном фильтре к частоте ОТ происходит все более и более сильное выравнивание спектра. Таким образом, трудность заключается в постоянном расчете спектра речевого сигнала при подстройке частоты повторения в обратном фильтре Л(г). Метод дает достаточно удовлетворительные оценки, пока спектр выравнивается достаточно хорошо, однако появляется новая задача определения степени равномерности спектра после обратной фильтрации, а при частотах ОТ выше 200Гц данный метод оценки приводит к плохим результатам [19].

Подводя итог относительно рассмотренных методов заключим, что корреляционная функция является Фурье-преобразованием энергетического спектра, и положения ее пиков соответствуют расстояниям между равномерно расположенными гармониками спектра. В кепстральном анализе в место энергетического спектра используется логарифм амплитудного спектра. Таким образом, уменьшается влияние высокоамплитудных участков спектра. Это особенно важно для области частот первой форманты, которая часто отрицательно влияет на качество работы корреляционного анализа. Схожие эффекты "спектральной очистки" могут быть получены с помощью обратной фильтрации с предсказанием или центрального клиппирования [21], либо с помощью разделения сигнала на несколько частотных полос, и вычислением корреляционной функции в каждой полосе с последующей нормировкой и суммированием [31]. Использование моделей слуха на основе корреляционных методов на сегодняшний день является одним из самых популярных подходов к объяснению восприятия основного тона [32, 33].

На основе представленных методов оценивания ЧОТ разработано достаточно много алгоритмов как отечественных, так и зарубежных аналогов. Ниже рассмотрим наиболее популярные алгоритмы и попробуем сформулировать некоторую оценку.

1.1.2. Обзор отечественных алгоритмов оценивания ЧОТ

Известны различные способы оценивания ЧОТ. Некоторые из них используются в современной технике, предназначенной для импульсного кодирования телефонных переговоров. Технология выделения ЧОТ обычно сопровождается процессом фильтрации с частотно-зависимым затуханием и фазовой коррекцией в полосе пропускания. Фильтровые методы выделения основного тона, используемые в отечественной аппаратуре, вносят значительные замедления для выделяемого сигнала основного тона, искажают истинную величину периода основного тона в динамике речи.

Так, например, известен способ оценивания частоты основного тона [34], основанный на преобразовании речевых колебаний в импульсную последовательность. Каждый импульс соответствует переходу через ноль речевого колебания (берется однополярный переход). Используется свойство, что на периоде основного тона последовательности межимпульсных интервалов повторяются. Однако данный способ обладает существенным недостатком, который связан с пропусками интервалов, обладающих основным тоном, при смене одной фонемы другой. Это происходит благодаря тому, что при смене одной звучащей фонемы другой между двумя соседними периодами основного тона изменения межимпульсных интервалов становятся значительными.

Известен также способ оценивания ЧОТ с помощью узкополосного фильтра [35], следящего за изменением частоты первой гармоники речевого сигнала, причем ширина полосы итерационно подстраивается под среднюю частоту основного тона, рассчитываемую на основании выходной функции этого фильтра и передаваемую на фильтр благодаря обратной связи. Данный способ проявляет хорошую работоспособность при условии, что фильтр подстраивается под диктора в течение нескольких минут. Однако способ не пригоден для выявления частоты основного тона в коротких сообщениях, длительность которых составляет несколько секунд.

Известен также способ оценивания частоты основного тона с использованием трехканального метода обработки речевого сигнала [36]. В первом канале

проводится амплитудная селекция по схеме Голда, во втором канале используется аппроксимация первой гармоники основного тона экспоненциальной функцией, и в третьем канале проводится вычисление корреляционной функции по схеме Медана. Считается, что частота основного тона найдена, если разность между полученными значениями оценок частоты основного тона для различных каналов не превышает заданную величину. Недостаток данного способа проявляется в невозможности обнаружения речи на фоне стационарных и нестационарных шумов, обладающих сплошным спектром, без априорных знаний о статистических свойствах шума, а также невозможность формирования вектора признаков сигналов для систем распознавания речи, идентификации дикторов и идентификации языка, устойчивого к изменению статистических свойств шума, на фоне которого проводится распознавание или идентификация.

Также известна система оценивания ЧОТ, представленная в патенте [37]. В ее состав входят последовательно соединенные блок вычисления спектра Фурье, интегратор, вычислитель значений определителя автокорреляционной матрицы, блок проверки синхронности и блок аппроксимации подпоследовательностей квадратичной функцией, а также выделитель ОТ по схеме Голда и блок выделения ОТ с полосовым фильтром, включенные между выходом указанного вычислителя и соответствующими входами блока проверки синхронности. Принцип действия данной системы основан на разложении речевого сигнала в последовательность спектров Фурье, нахождении абсолютного максимума, вычислении среднего значения аргумента последовательности полученных максимумов, оценке средней ЧОТ исследуемого речевого сигнала, амплитудной селекции сигналов, вычислении значений определителя автокорреляционной матрицы и фильтрации этих значений. Недостатком данного способа является низкая точность, которая связана с сильной зависимостью схемы в целом от точности каждого алгоритма, входящего в его состав, например, в данном изобретении используется блок дискретного преобразования Фурье, который не лишен проблем, связанных с эффектом Гиббса и ложными результатами при анализе не стационарных временных рядов. А амплитудная селекция

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Список литературы диссертационного исследования кандидат наук Вольф Данияр Александрович, 2015 год

СПИСОК ЛИТЕРАТУРЫ

1. Св. Евангелие от Иоанна: НОВЫЙ ЗАВЕТ [Электронный ресурс] // От Иоанна святое благовествование: [сайт]. [2015]. URL: http://days.pravoslavie.ru/Bible/B_in1.htm (дата обращения: 05.03.2015).

2. Лобанов Б. М., Цирульник Л. И. Компьютерный синтез и клонирование речи // Нац. акад. наук Беларуси. Объединенный институт проблем информатики. - Минск: Белорусская наука, 2008. - 316 с.

3. Михайлов В.Г. Из истории исследований преобразования речи / В.Г. Михайлов // Речевые технологии, 2008. - № 1. - С. 93-113.

4. Гитлин В.Б., Лузин Д. А. Совместный алгоритм выделения основного тона речи по методам ОБ и автокорреляционной функции спектра // Речевые технологии, 2008. - № 3. - С. 39-49.

5. Голубинский А.Н. Оценка частоты основного тона речевого сигнала при априори неизвестных амплитудах и начальных фазах полигармонического несущего колебания // Вестник Воронежского института МВД России, 2010. - № 3. - С. 110-117.

6. Golyandina N., Zhigljavsky A. Singular Spectrum Analysis for Time Series // SpringerBriefs in Statistics. Springer. - Berlin: Heidelberg, 2013. - P. 120.

7. Данилов Д.Л., Жиглявский А.А. Главные компоненты временных рядов: метод "Гусеница" / Под ред. Д.Л. Данилова, А.А. Жиглявского. - СПб: Прес-ском, 1997. - 308 с.

8. Gene H.G., Charles F.L. Matrix computations // Third Edition. U.S.A. Baltimore. - Maryland: The Johns Hopkins University Press, 1996. - 694 p.

9. Tony F.C. An Improved Algorithm for Computing the Singular Value Decomposition // ACM Transaction on Mathematical Software, 1982. - V. 8. - № 1. - P. 72-83.

10. Panju M. Iterative Methods for Computing Eigenvalues and Eigenvectors // The Waterloo Mathematics Review, 2011. - V. 1. - P. 9-18.

11. Brillinger D.R. Time Series: Data Analysis and Theory // Society for Industrial and Applied Mathematics (SIAM). - Philadelphia: PA, 2001. - 540 p.

12. Bagshaw P.C. Automatic prosodic analysis for computer aided pronunciation teaching // PhD Thesis. - Edinburgh: Univ. of Edinburgh, 1994.

13. Rabiner L.R., Cheng M.J., Rosenberg A.E. A comparative study of several pitch detection algorithms // IEEE Trans. Acoust. Speech, 1976. - № 24. - Р. 399423.

14. Гитлин В.Б. Разработка концепции выделения основного тона речи в информационно-измерительных системах реального времени // Диссертация на соискание ученой степени доктора технических наук. - Ижевск: ИГТУ, 2000. -306 с.

15. Голубинский А.Н. Расчет частоты основного тона речевого сигнала на основе полигармонической математической модели // Вестник Воронежского института МВД России, 2009. - № 1. - С. 81-90.

16. Фант Г. Анализ и синтез речи / Г. Фант. - Новосибирск: Наука, 1970. -306 с.

17. Фланаган Дж. Анализ, синтез и восприятие речи / Дж. Фланаган. - М.: Связь, 1968. - 392 с.

18. Назаров М.В. Методы цифровой обработки и передачи речевых сигналов / М.В. Назаров, Ю.Н. Прохоров. - М.: Радио и связь, 1985. - 176 с.

19. Маркел Дж. Линейное предсказание речи / Дж. Маркел, А.Х. Грей. - М.: Связь, 1980. - 308 с.

20. Ролдугин С.В. Модели речевых сигналов для идентификации личности по голосу / С.В. Ролдугин, А.Н. Голубинский, Т.А. Вольская // Радиотехника, 2002. -№11. - С. 79-81.

21. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - 496 с.

22. Голубинский А.Н. Модель речевого сигнала в виде импульса АМ-колебания с несколькими несущими для верификации личности по голосу /

A.Н. Голубинский // Системы управления и информационные технологии, 2007. -№ 4. - С. 86-91.

23. Рассказова С.И. Метод формантного анализа на основе вейвлет-преобразования в системах распознавания речи / С.И. Рассказова, А.И. Власов // Наукоемкие технологии и интеллектуальные системы. Сборник трудов IX Научно-технической конференции. - М.: МГТУ им. Н.Э. Баумана, 2007. - С. 38-43.

24. Chu W.C. Speech coding algorithms: Foundation and evolution of standardized coders / W.C. Chu.-John Wiley & Sons, 2003. - 582 p.

25. Аграновский A.B. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов / A.B. Аграновский, Д.А. Леднов. - М.: Радио и связь, 2004. - 150 с.

26. Сорокин В.Н. Распознавание личности по голосу: аналитический' обзор /

B.Н. Сорокин, В.В. Вьюгин, А.Н. Тананыкин // Информационные процессы, 2012. - № 1. - Т. 12. - С. 1-30.

27. Huang X. Spoken language processing: a guide to theory, algorithm and system development / X. Huang, A. Acero, H.W. Hon. - Prentice-Hall, 2001. - 965 p.

28. Cooley J. W., Tukey J.W. An Algorithm for the Machine Calculation of Complex Fourier Series // Mathematics of Computation, 1965. - Is. 90. - V. 19. - P. 297301.

29. Atal B.S., Rabiner L.R. A pattern recognition approach to voiced-unvoiced-silence classification with application to speech recognition // IEEE Trans. Acoust., Speech and Signal Process, 1976. - 24. - № 3. -P. 201-202.

30. Архипов И.О. Разработка критериев и алгоритмов сегментации речевого сигнала на участки "ТОН/НЕ ТОН" для метода выделения основного тона в информационно-измерительных системах речевой технологии// Диссертация на соискание ученой степени кандидата технических наук. - Ижевск: ИГТУ, 2000. - 152 с.

31. De Cheveigne A. Speech f0 extraction based on Lickli- der's pitch perception model // Proc. ICPhS, 1991. - P. 218-221.

32. Meddis R., Hewitt M.J. Virtual pitch and phase sensiti- vity of a computer model of the auditory periphery. I: Pitch identification // J. Acoust. Soc. Amer, 1991. - V. 89. - P. 2866-2882.

33. Цыплихин А.И. Анализ импульсов голосового источника // Акустический журнал, 2007. - T. 53. - № 1. - С. 119-133.

34. Патент на изобретение № 2007763 РФ: МПК 7 G10L5/00, G10L9/12. Способ выделения основного тона из речевого сигнала / Г.В. Дедков - № 4925363/24; Заявл. 04.04.1991; Опубл. 15.02.1994.

35. Патент на изобретение № 773689 SU: МПК 7 G10L1/02. Устройство для выделения частоты основного тона / О. Н. Карпов, Э. Л. Носенко и А. А. Чугай -№ 2758958/18-10; Заявл. 26.04.1979; Опубл. 23.10.1980.

36. Патент на изобретение № 2184399 РФ: МПК 7 G10L015/00, G10L101/02. Способ выделения основного тона из речевого сигнала / Аграновский А.В., Леднов Д.А., Потапенко А.М., Репалов С.А., Сулима П.М. - № 2000124181/09; Заявл. 22.09.2000; Опубл. 27.06.2002.

37. Патент на изобретение № 2385272 РФ: МПК B64D47/00, B60R25/00, G10L15/00. Система голосовой идентификации диктора / Зыков А. П., Леднов Д. А., Меркулов М. Н. - № 2009116345/11; Заявл. 30.04.2009; Опубл. 27.03.2010.

38. D. Talkin, "A Robust Algorithm for Pitch Tracking (RAPT)" in "Speech Coding & Synthesis", W B Kleijn, K K Paliwal eds, Elsevier ISBN 0444821694, 1995.

39. Cheveigne A., Kawahara H. YIN, a fundamental frequency estimator for speech and music // Jour. Acoust. Soc. Am, 2002. - V. 111.- № 4. - P. 1917-1930.

40. Camacho A., Harris J.G. A sawtooth waveform inspired pitch estimator for speech and music // Journal Acoust. Soc. Am, 2008. - V. 123 - № 4. P. 1638-1652.

41. Hermes D. J. Measurement of pitch by subharmonic summation // Jour. Acoust. Soc. Am, 1988. - № 83. - P. 257-264.

42. Azarov E., Vashkevich M., Petrovsky A. Instantaneous pitch estimation based on RAPT framework // Signal Processing Conference (EUSIPCO). Proceedings of the 20th European. Bucharest, 2012. - P. 2787-2791.

43. Bellman R. Dynamic Programming. - Princeton: N.J. Princeton University Press, 1957.

44. Brookes D. M. VOICEBOX: A speech processing toolbox for MATLAB [Электронный ресурс] // VOICEBOX: [сайт]. [2015]. URL: http://www.ee.imperial.ac.uk/hp/staff/dmb/voicebox/voicebox.html (дата обращения: 05.03.2015).

45. Camacho A. SWIPE: A sawtooth waveform inspired pitch estimator for speech and music // Ph.D. dissertation. - Florida: Univ. of Florida, 2007.

46. Boersma P. Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampled sound // Proc. Institute of Phonetic Sciences 17, 1993. - P. 97-110.

47. Boersma P., Weenink D. PRAAT a computer program: analyse, synthesize, and manipulate speech, and create high-quality pictures for articles and thesis [Электронный ресурс] // Phonetic Sciences, Amsterdam: [сайт]. [2015]. URL: http://www.fon.hum.uva.nl/praat/download_win.html (дата обращения: 16.03.2015).

48. Speech Filing System [Электронный ресурс] // UCL Psychology & Language sciences Faculty of Brain Sciences: [сайт]. [2015]. URL: http://www.phon.ucl.ac.uk/resource/sfs/ (дата обращения: 20.03.2015).

49. Estimate fx from sp using autocorrelation [Электронный ресурс] // Speech Filing System Function: [сайт]. [2015]. URL:

http: //www. phon. ucl. ac. uk/resource/sfs/help/man/fxac. htm (дата обращения: 20.03.2015).

50. Secrest B. G., Doddington G. R. An integrated pitch tracking algorithm for speech systems //Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'83. - IEEE, 1983. - Т. 8. - С. 1352-1355.

51. Estimate fx from sp using autocorrelation and tracking [Электронный ресурс] // Speech Filing System Function: [сайт]. [2015]. URL:

http: //www. phon. ucl. ac. uk/resource/sfs/help/man/fxanal. htm (дата обращения: 20.03.2015).

52. To Pitch (cc) [Электронный ресурс] // Phonetic Sciences, Amsterdam: [сайт]. [2015]. URL:

http: //www. fon. hum. uva. nl/praat/manual/Sound_To_Pitch_cc_. html (дата обращения: 20.03.2015).

53. Fx estimation by cepstrum algorithm [Электронный ресурс] // Speech Filing System Function: [сайт]. [2015]. URL:

http: //www. phon. ucl. ac. uk/resource/sfs/help/man/fxcep.htm (дата обращения: 20.03.2015).

54. Bagshaw P. C., Hiller S. M., Jack M. A. Enhanced pitch tracking and the processing of F0 contours for computer and intonation teaching // Proc. European Conf. on Speech Comm. (Eurospeech), 1993. - P. 1003-1006.

55. Medan Y., Yair E., Chazan D. Super resolution pitch determination of speech signals // IEEE Trans. Signal Process. 39, 1991. - P. 40-48.

56. Taylor P., Black A., Caley R. The Architecture of the Festival Speech Synthesis System // Proceedings of the Third ESCA Workshop in Speech Synthesis, 1998. -P. 147-151.

57. Sun X. A pitch determination algorithm based on subharmonic-to-harmonic ratio // Proc. Int. Conf. Spoken Language Process 4, 2000. - P. 676-679.

58. Kawahara H., Katayose H., de Cheveigne A., Patterson R. D. Fixed Point Analysis of Frequency to Instantaneous Frequency Mapping for Accurate Estimation of F0 and Periodicity // Proc. EUROSPEECH 6, 1999. - P. 2781-2784.

59. Sebastian B., Florian K., Markus S. Evaluating the Online Capabilities of Onset Detection Methods // 13th International Society for Music Information Retrieval Conference. Porto. Portugal, 2012. - P. 494-54.

60. Kasi K., Zahorian S.A. Yet another algorithm for pitch tracking // Acoustics, Speech, and Signal Processing (ICASSP). IEEE International Conference on, 2002. -V. 1. - P. 3614-364

61. Ghahremani P., BabaAli B., Povey D., Riedhammer K., Trmal J., Khudanpur S. A pitch extraction algorithm tuned for automatic speech recognition // Acoustics,

Speech and Signal Processing (ICASSP). IEEE International Conference on, 2014. -P. 24944-2498.

62. Речевая база данных DVD [Электронный ресурс] // Disordered Voice Database and Program: [сайт]. [2015]. URL: http:// http://kayelemetrics.com (дата обращения: 20.03.2015).

63. Речевая база данных KPD [Электронный ресурс] // Keele Pitch Database: [сайт]. [2015]. URL: http://www.icocla.it/keele.html (дата обращения: 20.03.2015).

64. Речевая база данных PBD [Электронный ресурс] // Paul Bagshaw's Database: [сайт]. [2015]. URL: http://www.cstr.ed.ac.uk/research/projects (дата обращения: 20.03.2015).

65. Бондаренко В.П., Конев А.А., Мещеряков Р.В. Сегментация и параметрическое описание речевого сигнала // Известия высших учебных заведений. Приборостроение, 2007. - Т. 50. - № 10. - С. 3-7.

66. Голубинский А. Н., Гущина А. А. Математическая модель вокализованных сегментов речевого сигнала, основанная на модели речевого тракта // Вестник Воронежского института МВД России, 2012. - № 4. - С. 72-80.

67. Бондаренко В. П. Адаптивный анализ голосового сигнала / В. П. Бондаренко, В. П. Коцубинский, Р. В. Мещеряков // Интеллектуальные системы в управлении, конструировании и образовании. - Томск, 2004. - Вып.3. - С. 5861.

68. Karpov A., Ronzhin A., Kipyatkova I. An Assistive Bi-Modal User Interface Integrating Multi-Channel Speech Recognition and Computer Vision // In Proc. 14th International Conference on Human-Computer Interaction HCI International-2011, USA, Orlando, Springer, 2011. - LNCS, Vol. 6762. - pp. 454-463.

69. Basov O.O., Ronzhin A.L., Budkov V.Yu., Saitov I.A. Method of Defining Multimodal Information Falsity for Smart Telecommunication Systems // Internet of Things, Smart Spaces, and Next Generation Networks and Systems: NEW2AN 2015/ruSMART, St. Petersburg, Russia, Springer, 2015. - LNCS, Vol. 9247. - pp. 163-173.

70. Ронжин А.Л., Басов О.О. Определение степени алкогольной интоксикации человека на основе автоматического анализа речи // Вестник Московского университета МВД России, 2015. - № 5. - С. 216-220.

71. Basov O.O., Ronzhin A.L., Budkov V.Yu. Optimization of Pitch Tracking and Quantization // Speech and Computer. LNCS. - Springer, 2015. - V. 9319. -p. 65-72.

72. Фант Г. Акустическая теория речеобразования. // Пер. с англ. - М.: Связь, 1968. - 396 с.

73. Сорокин В.Н. Теория речеобразования. - М.: Радио и связь, 1985. - 312 с.

74. Квасов А. Н. Модель голосообразования и анализ речевого сигнала в норме и при патологии // Диссертация на соискание ученой степени кандидата технических наук. - Томск: ТУСУР, 2007. - 119 с.

75. Азаров И.С., Вашкевич М.И., Лихачев Д.С., Петровский А.А. Изменение частоты основного тона речевого сигнала на основе гармонической модели с нестационарными параметрами // Труды СПИИРАН, 2014. - Вып. 32. - C. 5-26.

76. Конев А. А. Модель и алгоритмы анализа и сегментации речевого сигнала // Диссертация на соискание ученой степени кандидата технических наук. -Томск: ТУСУР, 2007. - 150 с.

77. Strube H. W. The meaning of the Kelly-Lochbaum acoustic-tube model // JASA, vol. 108, no. 4, 2000. - pp. 1850-1855.

78. Drakos N. Kelly-Lochbaum Vocal Tract Model [Электронный ресурс] // Center for Computer Research in Music and Acoustics. Stanford University: [сайт]. [2015]. URL:

https://ccrma.stanford.edu/~jos/SMAC03S/Kelly_Lochbaum_Vocal_Tract_Model.ht ml (дата обращения: 15.03.2015).

79. Valimaki V., Karjalainen M. Improving the Kelly-Lochbaum vocal track model using conical tube section and fractional delay filtering techniques // International Conference on Spoken Language Processing (ICSLP'94), Yokohama, Sept. 18-22, 1994.

80. Rasilo H. Estimation of vocal tract shape trajectory using lossy KellyLochbaum model [Электронный ресурс] // Thesis of Master of Science in Technol-

ogy. Aalto University School of Science and Technology. Finland. Aalto: [сайт]. [2010]. URL: http://users.spa.aalto.fi/hrasilo/papers/Thesis_rasilo.pdf (дата обращения: 15.03.2015).

81. Квасов А.Н. Влияние параметров системы речеобразования на структуру речевого сигнала / А.Н. Квасов // Вестник СибГАУ. - Красноярск, 2006. - с. 1517.

82. Мясникова Е.Н. Объективное распознавание звуков речи // - М.: Рипол Классик, 2013. - 156 с.

83. Леонов А.С. Макаров И.С., Сорокин В.Н., Цыплихин А.И. Артикулятор-ный ресинтез фрикативных // Информационные процессы, 2004. - Т. 4. - № 2. -С. 141-159.

84. Gupta A., Lim K-M., Hengb C. C. Sound Propagation in Two-Dimensional Waveguide // Acoustical Physics, Vol. 59, No. 5, 2013. - pp. 493-497.

85. Pertti P. A wave equation model for vowels: Measurements for validation [Электронный ресурс] // Licentiate Thesis: Aalto University School of Science and Technology: [сайт]. [2011]. URL: http://math.aalto.fi/~jpalo/isoL.pdf (дата обращения: 15.03.2015).

86. Леонов А.С., Сорокин В.Н. О точности определения параметров голосового источника // Акуст. журн., 2014. - № 60. - С. 656-662.

87. Сорокин В.Н. Фундаментальные исследования речи и прикладные задачи речевых технологий // Речевые технологии, 2008. - № 1. - С. 18-49.

88. Балонин Н. А. Компьютерные методы анализа линейных динамических систем // Диссертация на соискание ученой степени доктора технических наук. Санкт-Петербургский государственный университет аэрокосмического приборостроения. - Санкт-Петербург, 2008. - 207 с.

89. Лоусон Ч., Хэнсон Р. Численное решение задач метода наименьших квадратов. - М.: Наука, 1986. - 230 c.

90. Воеводин В.В. Линейная алгебра. - М.: Наука, 1980. - 400 c.

91. Glover K. All optimal Hankel-norm approximations of linear multivariables systems // Intern. J. Control, 1984. - V. 39. - №. 6. - P. 1115-1193.

92. Бодуэн де Куртенэ И.А. Избранные труды по общему языкознанию // Том

I. - М.: Изд-во Академии наук СССР, 1963. - 384 с.

93. Бодуэн де Куртенэ И.А. Избранные труды по общему языкознанию // Том

II. - М.: Изд-во Академии наук СССР, 1963. - 391 с.

94. Budkov V.Yu., Ronzhin Al.L., Glazkov S., Ronzhin An.L. Event-Driven Content Management System for Smart Meeting Room // Springer-Verlag Berlin Heidelberg, S. Balandin et al. (Eds.): NEW2AN/ruSMART, 2011. - LNCS, Vol. 6869. - pp. 550-560.

95. Голяндина Н. Э. Метод «Гусеница» - SSA: анализ временных рядов // Учебное пособие. - Санкт-Петербург, 2004. - 76 с.

96. Александров Ф.И. Автоматизация выделения трендовых и периодических составляющих временного ряда в рамках метода "Гусеница'-SSA / Ф.И. Александров, Н.Э. Голяндина // Exponenta Pro Математика в приложениях, 2004. -Вып. 3-4. - С. 54-61.

97. Вольф Д.А. Выделение частоты основного тона речи методом сингулярного спектрального анализа // Системы управления и информационные технологии, 2014. - №2.1 (56). - С.114-120.

98. Биккенин Р.Р., Чесноков М. Н. Теория электрической связи. - М.: Академия, 2010. - 329 с.

99. Вольф Д.А. Автоматизация детектирования квазигармонических компонент, содержащих частоту основного тона речи в методе сингулярного спектрального анализа SSAPD // Системы управления и информационные технологии, 2014. - №3(57). - С.69-75.

100. Вольф Д.А. Построение концептуальной модели сингулярного эстимато-ра мгновенной частоты основного тона речи // Молодой ученый, 2014. - №21. -С. 124-128.

101. Вольф Д.А. Построение математической модели генератора сингулярного спектра сингулярного эстиматора мгновенной частоты основного тона речи // Научная дискуссия: вопросы технических наук. Сборник статей по материалам XXVIII-XXIX международной заочной научно-практической конференции. -

М.: Изд. «Международный центр науки и образования», 2014. - № 11-12 (22). -С. 28-36.

102. Вольф Д.А. Построение математической модели селектора сингулярного эстиматора мгновенной частоты основного тона речи // Технические науки - от теории к практике. Сб. ст. по материалам XLI междунар. науч.-практ. конф. -Новосибирск: Изд. «СибАК», 2014. - № 12 (37). - С. 12-23.

103. Вольф Д.А. Программная реализация подсистемы быстрого сингулярного спектрального анализа речи // Системы управления и информационные технологии, 2013. - №4 (54). - С. 81-86.

104. Дементьев В.А. Многомерное вращение Якоби для диагонализации колебательного гамильтониана протяженной молекулярной среды в режиме параллельных вычислений // Информационно-вычислительные технологии в решении фундаментальных и прикладных научных задач: Сборник материалов, сессия ИВТН. - Москва, 2005. - с 42.

105. Усевич К.Д. Анализ сингулярного спектра в задачах обработки временных и пространственных данных // Диссертация на соискание степени кандидата физико-математических наук. - Санкт-Петербург:СПГУ, 2011. - 226 с.

106. Фаддеев Д.К., Фаддеева В.Н. Вычислительные методы линейной алгебры // Учебники для вузов. Специальная литература. - Санкт-Петербург: Лань, 2009. - 736 с.

107. Видяева К.О., Ермаков С. М. К обобщению метода Крылова вычисления коэффициентов минимального многочлена // Журнал вычислительной математики и математической физики. - Санкт-Петербург, 2013. - Т. 53. - № 5. - С. 691-700.

108. Мицель А.А. Вычислительные методы // Учебное пособие. - Томск: В-Спектр, 2012. - 264с.

109. Воеводин В.В. Численные методы алгебры (теория и алгоритмы). - М.: Наука, 1966. - 248 с.

110. Ильин В.А., Позняк Э.Г. Линейная алгебра // Учебное пособие. - М.: Физматлит, 2014. - 280 с.

111. Голуб Дж., Ван Лоун Ч. Матричные вычисления // Учебное пособие, пер. с англ. - М.: Мир, 1999. - 548 с.

112. Богачев К.Ю. Практикум на ЭВМ. Методы решения линейных систем и нахождения собственных значений // Учебное пособие. - Москва: Московский Государственный университет имени М. В. Ломоносова, 1998. - 137c.

113. Ильин В.П., Карпов В.В., Масленников А.М. Численные методы решения задач строительной механики // Справочное пособие. - Минск: Выш. шк., 1990. - 349 c.

114. Борзых А. Н. О новых методах решения частичной проблемы собственных значений // Диссертация на соискание ученной степени кандидата физико-математических наук. - Санкт-Петербург: Санкт-Петербургский Государственный университет, 2008. - 109 с.

115. Sleijpen G., Van Der Vorst H. A Jacobi-Davidson iteration method for linear eigenvalue problems // SIAM J. Matrix Anal. Appl. 17, 1996. - P. 401-425.

116. Saad Y. Iterative methods for sparse linear systems // Second Edition. SIAM, 2003. - 528 p.

117. Saad Y., Van Der Vorst H. A. Iterative solution of linear systems in the 20th century // Journal of Computational and Applied Mathematics 123, 2000. - P. 1-33.

118. Bathe K-J., Wilson E. L. Numerical methods in finite element analysis // Prentice-Hall. Englewood Cliffs. New Jersey, 1976. - 528 p.

119. Lobos T., Kozina T., Koglin H.-J. Power system harmonics estimation using linear least squares method and SVD // Generation, Transmission and Distribution. IEE Proceedings, 2001. - Is. 6. - V. 148. - P. 567-572.

120. Comon P., Golub G. H. Tracking a few extreme singular values and vectors in signal processing // Proceedings of the IEEE, 1990. - V. 78. - № 8. - P. 1327-1343.

121. Hua Y., Xiang Y., Chen T., Abed-Meraim K., Miao Y. A New Look at the Power Method for Fast Subspace Tracking // Digital Signal Processing 9, 1999. - P. 297-314.

122. Chen T., Hua Y.,Yan W. -Y. Global convergence of Oja's subspace algorithm for principal component extraction // Neural Networks, IEEE Transactions on, 1998. - V. 9. - № 1. - P. 58-67.

123. Strobach P. Bi-iteration SVD subspace tracking algorithms // Signal Processing, IEEE Transactions on, 1997. - V. 45. - № 5. - P. 1222-1240.

124. Maurer D. Numerical Methods [Электронный ресурс] // Prof. Dr.-Ing. D. Maurer: Location of Eigenvalues of a Hermitian Tridiagonal Matrix by Bisection [сайт]. [2012]. URL: https://people.fh-landshut.de/~maurer/numeth/node91.html (дата обращения: 10.05.2015).

125. Persson P-O. Introduction to Numerical Methods [Электронный ресурс] // MIT 18.335J / 6.337J: Lecture 17, Other Eigenvalue Algorithms [сайт]. [2007]. URL: http://persson.berkeley.edu/18.335/lec17handout6pp.pdf (дата обращения: 22.05.2015).

126. Lee C-R., Yu C. Advanced Numerical Methods [Электронный ресурс] // Lecture Notes 10: 3.5 & 3.6 Eigenvalue problems: [сайт]. [2005]. URL: http://www.cs.nthu.edu.tw/~cherung/teaching/2011anm/note11.pdf (дата обращения: 15.05.2015).

127. Demmel J. W., Dhillon I., Ren H. On the correctness of some bisection-like parallel eigenvalue algorithms in floating point arithmetic // Electronic Transactions on Numerical Analysis, 1995. - V. 3. - P. 116-149.

128. Кориков А.М., Симонов В.В. Гибридная архитектура параллельных вычислительных систем // Доклады Томского государственного университета систем управления и радиоэлектроники, 2012. - Т. 1. - № 2 (26). - С. 178-183.

129. Калиткин Н.Н. Численные методы // Главная редакция физико-математической литературы изд-ва «Наука», 1978. - 512 c.

130. Larson R., Edwards B. H., Falvo D. C. Elementary Linear Algebra // Brooks Cole. 6 edition, 2008. - 256 p.

131. Парлетт Б. Симметричная проблема собственных значений. - М.: Мир, 1983. - 384с.

132. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. - М.: Финансы и статистика, 1989. - 607 с.

133. Jolliffe I.T. Principal Component Analysis, Series: Springer Series in Statistics // 2nd ed.. Springer. NY, 2002. - 487 p.

134. Gorban A. N., Kegl B., Wunsch D., Zinovyev A. Y. Principal Manifolds for Data Visualisation and Dimension Reduction // Series: Lecture Notes in Computational Science and Engineering 58. Springer. Berlin - Heidelberg - New York, 2007. - 340 p.

135. Грегори Р., Кришнамурти Е. Безошибочные вычисления: Методы и приложения // - М.: Мир, 1988. - 208 с.

136. Тарасов В. Н. Численные методы. Теория. Алгоритмы. Программы // Фе-дер. агентство связи РФ, Поволж. гос. ун-т телекоммуникаций и информатики. -2-е изд., перераб. - Самара: ПГУТИ, 2006. - 263 с.

137. Pang T. An Introduction to Computational Physics // - United Kingdom: Cambridge University Press, 2006 - 402 p.

138. Андреев Г.Н. Вычислительная математика // Учебное пособие. - М.: МГУИ, 2007. - 164 с.

139. Канатников А.Н., Крищенко А.П. Линейная алгебра: Учеб. для вузов. 3-е изд. стереотип. / Под ред. B.C. Зарубина, А.П. Крищенко. - М.: МГТУ им. Н.Э. Баумана, 2002. -336 с.

140. Колобов А.Г., Молчанова Л.А. Численные методы линейной алгебры // Учебно-методическое пособие. - Владивосток: Дальневост. ун-та, 2008. - 36 с.

141. Гельфанд И.М. Лекции по линейной алгебре // - М.: Добросвет, МЦНМО, 1998. - 320 с.

142. Вольф Д.А. Спектральная теорема для решения частичной проблемы собственных чисел степенным методом в задачах сингулярного спектрального анализа речи // Системы управления и информационные технологии, 2014. -№3.1 (57). - С. 129-135.

143. Chan T. F. An Improved Algorithm for Computing the Singular Value Decomposition // ACM Transaction on Mathematical Software. U.S.A. Yale University, 1982. -V. 8. - № 1. - P.72-83.

144. Intel Corp. LAPACK Linear Algebra PACKage Intel(R): Math Kernel Library provides multi-core optimized high performance LAPACK functionality consistent with the standard [Электронный ресурс] // Intel Corporation: [сайт]. [2012]. URL: http://so^ware.intel.com/sites/products/documentation/doclib/mkl_sa/11/mkl_lapack _examples/dgesdd_ex.c.htm

145. Богомолов С.И. Введение в специальность «Радиосвязь, радиовещание и телевидение»: Учебное пособие. - Томск: факультет дистанционного обучения ТУСУР, 2010. - 163 с.

146. Borcea L., Druskin V., Knizhnerman L. On the sensitivity of Lanczos recursions to the spectrum // Linear Algebra with Appl., 2005. - V. 396. - P. 103-125.

147. Knizhnerman L., Simoncini V. A new investigation of the extended Krylov subspace method for matrix function evaluations // Numerical Linear Algebra with Applic, 2010. - V. 17. - №. 4.- P. 615-638.

148. Bhat R.B. Natural frequencies of rectangular plates using characteristic orthogonal polynomials in rayleigh-ritz method //Journal of Sound and Vibration, 1985. -V. 102. - Issue 4. - P. 493-499.

149. Jolliffe I. Principal component analysis // Springer Series in Statistics, Springer, 2002. - 488 p.

150. Вольф Д.А. Предварительная обработка речевого сигнала для интерфейса цифрового анализа // Системы управления и информационные технологии, 2013. - №3.1 (53). - С. 120-124.

151. Вольф Д.А. Тестирование интерфейса программирования прикладных приложений быстрых параллельных алгоритмов анализа речи // Научная сессия ТУСУР-2013: Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых. -Томск: В-Спектр, 2013. - Т. 4. - С. 54-56.

152. Volf D.A. Voice signal pre-processing for the digital analysis interface // Modern informatization problems in economics and safety: Proceeding of the XVIII-th International Open Science Conference Editor in Chief Dr. Sci., Prof. O.Ya. Kravets.

- Lorman, MS, USA: Science Book Publishing House, 2013. - P. 53-58.

153. Вольф Д.А. Реализация интерфейса программирования прикладных приложений (API), быстрых параллельных алгоритмов анализа речи // Многоядерные процессоры, параллельное программирование, ПЛИС, системы обработки сигналов. Сборник статей всероссийской научно-практической конференции. -Барнаул: Изд-во АГУ, 2013. - С. 127-132.

154. Вольф Д.А., Мещеряков Р.В. Применение сингулярного генератора функций кандидатов в кросскорреляционных методах оценивания частоты основного тона речи // Молодежь и современные информационные технологии. Сборник трудов XII Международной научно-практической конференции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии». - Томск: Изд-во ТПУ, 2014. - Т. 1 - С. 240-241.

155. Volf D.A. Building a conceptual model of process singular estimation pitch tracking // Modern informatization problems in simulation and social technologies: Proceedings of the XX-th International Open Science Conference. Editor in Chief Dr. Sci., Prof. O.Ja. Kravets. - Yelm, WA, USA: Science Book Publishing House, 2015.

- P. 230-235.

156. Вольф Д.А. Модель сингулярного эстиматора частоты основного тона речи // Технические науки в России и за рубежом: материалы IV междунар. науч. конф. - М.: Буки-Веди, 2015. - С. 5-9.

157. Налимов В.В. Теория эксперимента. - М.: Наука, 1971. - 208 с.

158. Силич В. А., Комагоров В. П., Савельев А. О. Принципы разработки системы мониторинга и адаптивного управления разработкой «интеллектуального» месторождения на основе постоянно действующей геологотехнологической модели //Известия Томского политехнического университета. 2013. Т. 323. №. 5. С. 94-100.

159. Силич В. А. и др. Применение методологии OMSD для моделирования системы планирования геологотехнических мероприятий //Известия Томского политехнического университета. - 2012. - Т. 321. - №. 5-C. - С. 42-46.

160. William H. Kruskala, W. Allen Wallisa Use of ranks in one-criterion variance analysis // Journal of the American Statistical Association, 1952. - V. 47. - №. 260. -P. 583-621.

161. Chaddock R.E Principles and Methods of Statistics // Houghton Mifflin Company, 1925. - 471 p.

162. Мещеряков Р.В., Бондаренко В.П. Диалог как основа построения речевых систем // Кибернетика и системный анализ, 2008. - № 2. - С. 30-41.

163. Сорокин В.Н., Макаров И.С. Определение пола диктора по голосу // Акуст. журн., 2008. - Т. 54. - № 4. - С. 659-668.

164. Pirker G., Wohlmayr M., Petrik S., Pernkopf F. A Pitch Tracking Corpus with Evaluation on Multipitch Tracking Scenario // Proceedings of INTERSPEECH, 2011. - P. 1509-1512.

165. Вольф Д.А. О новом подходе оценки частоты основного тона речи // Научная дискуссия: инновации в современном мире: сборник статей по материалам XXXII международной заочной научно-практической конференции. — М., Изд. «Международный центр науки и образования», 2014. - № 12 (32). - С.30-37.

166. Volf D., Meshcheryakov R., Kharchenko S. The Singular Estimation Pitch Tracker //Speech and Computer. LNCS. - Springer, 2015. - V. 9319. - P. 454-462.

Приложение А. Свидетельство о государственной регистрации программы для ЭВМ

Приложение Б. Акт о внедрении в Томском НИИ онкологии

Приложение В. Протокол испытания сингулярного измерителя частоты основного тона речевого сигнала

Институт системной интеграции и {¡безопасности Томский государственный университет систем управления н радиоэлектроники Адрес: 634050. г. Томск, пр. Ленина, 40 Тел.: (3822) 51-05-30 Факс: (3822)51-32-62, 52-63-65

П Р О Т О К О Л № 1 от 20 мая 2015 г.

испытания оценивателя частоты основного тона речевого сигнала на процент грубых и средний процент мелких ошибок для натуральной речи

1 Наименование программного обеспечения: Оценнватель частоты основного тона речевого сигнала на основе сингулярного спектрального анализа речи.

2. Заказчик, адрес: Федеральное государственное бюджет ное научное учреждение «Томский научно-исследовательский институт онкологии», 634028, г Томск, ул. Савиных, 12/1.

3. Дата испытания 20 мам 2015г.

4. Требования заказчика к речевой базе: PTDB-TUG [hUps:/Mww.spsc.tugraz.at/tools/ptdb-tug]-

5. Требования заказчика к оцениванию процента грубых ошибок (GPE): Величина GPE оценивается но формуле

GPE(%)=^.100. N

Л у

где

ЛгОР£ - число фреймов с отклонением полученной оценки более чем па ±20% от настоящего значения основного тона:

/Vv - общее число вокализированных фреймов.

6. ¡реоования заказчика к оцениванию среднего процента мелких ошибок (MFPE): Bei] и чин a MFPE оценивается по формуле

ЛГЧ«)

где

•Vite - число вокализированных фреймов без грубых ошибок; Я I'""(«) - действительные значения основного тона; Л)ы,(и)- оценочные значения основного тона.

7. Результаты испытания;

Мужчины Женщины Среднее

G РЕ MFPE GPE МЕРЕ GPE МЕРЕ

0,592 1,201 3,126 0,701 1.859 0,951

*ОРЕ ■ процент грубых ошибок. •MFPE- средним процента мелких ошибок

Приложение Г. Акт о внедрении в МКУ «Единая дежурно-диспетчерская служба Сургутского района»

муниципальное образование сургутский район МУНИЦИПАЛЬНОЕ КАЗЁННОЕ УЧРЕЖДЕНИЕ «ЕДИНАЯ ДЕЖУРНО-ДИСПЕТЧЕРСКАЯ СЛУЖБА СУРГУТСКОГО РАЙОНА»

ул.Ме.'Шк-Карамава.З" !, с Сургут, Тюменская область. Ханты-Мансийский автонимиыи округ - Югра. 628402 тел. (3462) 52-91-17. факс (3462! 52-91-18: e-mail: mkueddstiiadmsr.ru ИНН/КПП 8602199469/860201001

АКТ

о внедрении результатов диссертационной работы Вольф Д.А.

Настоящий акт составлен о том, что в кабинете диспетчерской мониторинга чрезвычайных ситуаций Муниципального казенного учреждения «Единая дежурно-диспетчерская служба Сургутского района» - органа повседневного управления Сургутского районного звена территориальной подсистемы РСЧС, были внедрены результаты диссертационной работы Вольф Д.А. Предложенный комплекс алгоритмов сингулярного оценивания частоты основного тона речи используется в качестве одного из модулей вокодера системы записи телефонных разговоров.

Примененный алгоритм сингулярного оценивания частоты основного тона речевого сигнала позволил сократить процент выдаваемых ошибок в 2.4 раза, а время отклика анализатора уменьшить на 37% по сравнению с ранее используемым алгоритмом.

Кандидат технических на^к,

заместитель директора

Приложение Д. Акт о внедрении в учебный процесс (ТУСУР)

ТУСУР

ОКЛО 02069326, ОГРН 1027000867068 ИНН 7021000043, КПП 7017« 1001

634050, г.Томск, гтр.Ленина, 40

Министерство образования и науки Федеральное государственное образовательное учреждение высшего профессионального образования

Томский государственный университет систем управления и радиоэлектроники

тел.: (3822)510530 факс; (3822) 513262,526365 е-таН: officc@tusur.ru Ьпр:// илучМиялг.ги

№__

на №

«УТВЕРЖДАЮ»

11рорекгор по учебной работе Томского государственного университета систем,управления и гщоэлектроники ¿1.А. Боков « 2015 г.

[АКТ]

АКТ

о внедрении результатов диссертационной рЖты Вольф Данияра Александровича в учебный процесс

Комиссия в составе: Председателя:

Давыдовой Е.М., к.т.н., доцента, декана факультета безопасности ТУСУР; Членов комиссии:

Костюченко Е.Ю.. к.т.н., доцента каф. КИБЭВС ТУСУРа

Сопова М.А., к.т.н., доцента каф. КИЕЭВС ТУСУРа;

составила настоящий акт о нижеследующем:

Результаты диссертационной работы Д. А. Вольф используются в учебном процессе на факультете безопасности ТУСУР при выполнении научно-исследовательской работы студентами кафедры комплексной информационной безопасности электронно-вычислительных систем Томского государственного университета систем управления и радиоэлектроники (КИБЭВС) в части проведения группового обучения студентов кафедры КИБЭВС (Проект ФВС ГПО.5711305 -01 81 01 ПЗ «Сегментация речевых сигналов с применением быстрых численных методов») для подготовки специалистов по специальности 10.05.03 - Информационная безопасность автоматизированных систем, и 21.02.02 - Проектирование и технология электронно-вычислительных средств.

Эффективная программная реализация алгоритмов сингулярного спектрального анализа речи позволила повысить скорость и объемы вычислительных экспериментов, проводимых в рамках Государственного задания ТУСУР - проект № 3657 (2015г.) на базе лаборатории речевых технологий Центра технологий безопасности ТУСУР.

Давыдова Е.М.

Костюченко Е.Ю.

Сопов М.А.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.