Разработка и совершенствование математических моделей речевых сигналов для задач анализа и синтеза речи тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат наук Гущина, Анастасия Александровна

  • Гущина, Анастасия Александровна
  • кандидат науккандидат наук
  • 2014, Воронеж
  • Специальность ВАК РФ05.13.18
  • Количество страниц 173
Гущина, Анастасия Александровна. Разработка и совершенствование математических моделей речевых сигналов для задач анализа и синтеза речи: дис. кандидат наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Воронеж. 2014. 173 с.

Оглавление диссертации кандидат наук Гущина, Анастасия Александровна

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

ГЛАВА 1.Проблемы анализа и синтеза речи

1.1. Вопросы анализа и синтеза речи человека

1.1.1. Классификация задач анализа речи

1.1.2. Состояние разработок систем анализа речи

1.1.3. Классификация задач синтеза речи

1.1.4. Состояние разработок систем синтеза речи

1.2. Способы параметризации речевого сигнала для задач анализа и синтеза речи

1.2.1. Общие подходы к параметризации речевого сигнала для задач анализа речи

1.2.2. Параметризация речевого сигнала на основе спектрального анализа

1.2.3. Параметризация речевого сигнала на основе линейного предсказния

1.2.4. Параметризация речевого сигнала на основе кепстрального анализа

1.2.5. Параметризация речевого сигнала на основе вейвлет-анализа

1.2.6. Подходы к параметризации речевого сигнала для задач синтеза речи

1.3. Математические модели принятия решений для задач анализа речи

1.3.1. Критерии вычисления расстояний между параметрами

1.3.2. Применение скрытых марковских моделей для задач анализа

речи

1.3.3. Применение искусственных нейронных сетей для задач анализа речи

1.3. Сходство и различия математического аппарата, используемого при

описании речевого сигнала для задач анализа и синтеза речи

Выводы к главе 1

ГЛАВА 2. Математические модели речевых сигналов для анализа и синтеза вокализованных сегментов речи

2.1. Характеристика звуков русской речи и фонем русского языка

2.2. Подходы к описанию вокализованных сегментов речи

2.2.1. Математические модели и особенности описания гласных и сонорных звуков

2.2.2. Математическая модель в виде импульса колебания с амплитудно-частотной модуляцией со сложным несущим колебанием

2.3. Методы оценки параметров математических моделей речевых сигналов

2.3.1. Анализ частоты основного тона оптимальным методом

2.3.2. Точностные характеристики оценки частоты основного тона

2.3.3. Анализ амплитудных коэффициентов математической модели вокализованного сегмента речи

2.4. Математическая модель принятия решения для распознавания гласных звуков

2.5.Алгоритм дикторонезависимого распознавания гласных звуков

Выводы к главе 2

ГЛАВА 3. Математическая модель речевого сигнала для задач анализа

и синтеза невокализованных сегментов импульсного источник

3.1. Подходы к описанию невокализованных сегментов речи

3.2. Математическая модель импульсного источника речевого сигнала применительно к описанию взрывных звуков речи

3.3. Расчет параметров полигауссовской математической модели

3.4. Проверка на адекватность полигауссовской математической модели

импульсного источника речевого сигнала

Выводы к главе 3

ГЛАВА 4. Обобщенная математическая модель речевого сигнала для

задач анализа и синтеза речи

4.1. Математическая модель вокализованных сегментов речевого

сигнала, основанная на модели речевого тракта

4.2. Проверка на адекватность математической модели речевого сигнала в виде частотно-модулируемого колебания со сложной несущей

4.2.1. Сравнительный анализ аналитического решения дифференциального уравнения анализ с численным решением методом Рунге-Кутта

4.2.2. Сравнительный анализ аналитического решения дифференциального уравнения с полигармонической математической моделью с частотной модуляцией

4.2.3. Метод расчета индекса частотной модуляции математической модели речевого сигнала

4.3. Обобщенная математическая модель речевого сигнала

4.3.1. Способы и критерии сепарации речевого сигнала на вокализованные и невокализованные сегменты речи

4.3.2. Метод сепарации речевого сигнала для обобщенной математической модели

Выводы к главе 4

ЗАКЛЮЧЕНИЕ

ЛИТЕРАТУРА

ПРИЛОЖЕНИЯ

Приложение 1. Таблицы значений точностных оценок частоты

основного тона

Приложение 2. Таблицы значений амплитудных коэффициентов математической модели вокализованного сегмента речи

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка и совершенствование математических моделей речевых сигналов для задач анализа и синтеза речи»

ВВЕДЕНИЕ

Актуальность темы. Использование речевого интерфейса актуально для таких задач, как распознавание и анализ речи, аутентификация личности по голосу (например, в интегрированных системах безопасности), возможность голосового ответа на запрос информационной системы (например, о состоянии технологического процесса), повышение эффективности преобразователей «речь-текст». Голосовой интерфейс является одним из условий создания безбарьерной среды для людей с ограниченными возможностями. Все большую актуальность приобретает использование речевых технологий для создания диалога человек-машина.

Основным направлением современных речевых технологий является разработка единых алгоритмов параметризации речевого сигнала, основанных на физической модели речевого тракта и природе речевого сигнала - определение существенных параметров и разработка математических моделей, применимых как для синтеза, так и для анализа речи. Определение отличительных существенных параметров осложняется тем, что речевой сигнал имеет двойственную природу: с одной стороны, это акустический сигнал, отражающий процесс распространения энергии акустических колебаний в упругой среде, с другой стороны, речевой сигнал несет смысловую информацию, информацию об эмоциональном состоянии диктора, а также содержит индивидуальные параметры, позволяющие отличать одного диктора от другого. В настоящее время не существует единого мнения о природе формы спектра речевых сигналов, методах их анализа и синтеза.

Используемые в диссертации математический аппарат, подходы к анализу и синтезу речи основываются на трудах отечественных и зарубежных исследователей, таких как: A.B. Аграновский, Т.К. Винцюк, В.И. Галунов, Б. Го-улд, C.B. Дворянкин, В.Р. Женило, Б.М. Лобанов, Д.Д. Маркел, М.В. Назаров, A.A. Петровский, Ю.Н. Прохоров, Л.Р. Рабинер, М.А. Сапожков, В.Н. Сорокин, Г. Фант, Дж. Фланаган, Л.А. Чистович, В. Чу, Р.В. Шафер и др.

Анализ научных работ [2, 30, 32, 38, и др.] позволил установить, что для организации человеко-машинного взаимодействия при помощи речевых команд

системы анализа и синтеза речи должны отвечать следующим требованиям:

- возможность работы в режиме реального времени (не требуется сложный математический аппарат, с долгим вычислительным процессом);

- достаточное качество распознавания (не менее 95% правильно распознанных команд в условиях отсутствия шумовой составляющей) и синтезе (естественность звучания);

- дикторонезависимость;

- возможность определения индивидуальных акустических параметров голоса для последующего применения.

Современное состояние развития науки и техники позволяет создавать системы, основанные на сложном математическом аппарате, но работающие в режиме реального времени, благодаря виртуальным сетям. Данный математический аппарат дает возможность оперирования большими объемами информации при его несоответствии акустической теории. При этом один и тот же математический аппарат использует разные данные в системах анализа и синтеза речи.

Наибольшей точностью описания речевого сигнала обладают математические модели, основанные на физике протекающих явлений, что приводит к требованиям высокой точности, компактности (в смысле параметризации) и адекватности математических моделей речевого сигнала акустической теории рече-образования.

Современное состояние исследований в области речевых технологий обуславливает актуальность решения научной задачи создания математических моделей и методов параметризации речевых сигналов, основанных на физической теории речеобразования и универсальных для систем анализа и синтеза речи.

Цели и задачи исследования. Целью работы является разработка и совершенствование математических моделей речевых сигналов для анализа и синтеза речи и методов их построения.

Для достижения данной цели в работе решены следующие задачи: 1. Систематизация математических моделей речевых сигналов для анализа и синтеза речи, подходов к анализу и синтезу речи, включающих в себя систему отличительных параметров речевого сигнала, методов их определения и оценки точности расчетов.

2. Анализ реальной точности оценки частоты основного тона речевого сигнала оптимальным методом.

3. Разработка математических моделей принятия решения для диктороне-зависимого детектирования гласных звуков.

4. Создание и программная реализация алгоритмов дикторонезависимого распознавания гласных звуков и оценки параметров математических моделей речевого сигнала.

5. Разработка математической модели импульсного источника речевого сигнала.

6. Разработка математической модели вокализованных сегментов речевого сигнала, основанной на модели речевого тракта.

7. Разработка метода расчета индекса частотной модуляции математической модели речевого сигнала.

8. Разработка математической модели и метода сепарации речевого сигнала на периодические, импульсные и шумовые сегменты.

Методы исследования. При решении поставленных задач использовались аналитические и вычислительные методы теории речеобразования, математического анализа, цифровой обработки сигналов, численные методы, методы программирования и моделирования на ЭВМ. Для проведения и выполнения инженерных и научных расчетов применялась программа МаШСАХ).

Новые научные результаты, выносимые на защиту:

1. Точностные характеристики оценки частоты основного тона речевого сигнала оптимальным методом, полученные экспериментально.

2. Математическая модель принятия решения для дикторонезависимого детектирования гласных звуков, использующая компактный набор существенных параметров на основе спектральных составляющих.

3. Алгоритмы дикторонезависимого детектирования гласных звуков и оценки существенных параметров, основанные на математических моделях речевого сигнала.

4. Математическая модель импульсного источника речевого сигнала на основе полигауссовской математической модели применительно к описанию взрывных звуков речи.

5. Математическая модель вокализованных сегментов речевого сигнала, основанная на модели речевого тракта, учитывающая вариации частоты основного тона голосового источника в виде частотной модуляции.

6. Метод расчета индекса частотной модуляции математической модели речевого сигнала, основанный на использовании практической полосы частот обертонов.

7. Метод сепарации речевого сигнала на периодические, импульсные и шумовые сегменты обобщенной математической модели.

Практическая ценность результатов работы заключается в возможности применения разработанных математических моделей речевого сигнала, и методов параметризации для совершенствования систем анализа и синтеза речи, в том числе для повышения надежности систем аутентификации личности по голосу, а также для разработки систем поэлементного синтеза речи.

Полученные результаты могут быть использованы для совершенствования алгоритмов вычисления существенных параметров речевого сигнала, оценки их точности, в том числе в аппаратуре связи специального назначения органов внутренних дел.

Реализация результатов исследований. Полученные в диссертации результаты использовались при разработке технического задания и рекомендаций по охране особо важных объектов с применением интегрированных систем безопасности в ФКУ НИЦ «Охрана» МВД России; при разработке рекомендаций производителям защищенных систем конфиденциальной радиосвязи для органов внутренних дел в управлении связи ДИТСиЗИ МВД России; при разработке систем распознавания и синтеза речи в ОАО «Концерн «Созвездие». Кроме того, результаты внедрены в учебный процесс в Воронежском институте МВД России.

Соответствие паспорту специальности. Содержание диссертации соответствует п. 3. «Разработка, обоснование и тестирование эффективных вычислительных методов с применением современных компьютерных технологий», п. 4. «Реализация эффективных численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для проведения вычислительного эксперимента», п. 5. «Комплексные исследования научных и техни-

ческих проблем с применением современной технологии математического моделирования вычислительного эксперимента», п. 7. «Разработка новых математических методов и алгоритмов проверки адекватности математических моделей объектов на основе данных натурного эксперимента» паспорта специальности 05.13.18 - Математическое моделирование, численные методы и комплексы программ.

Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались на следующих конференциях: XX Между парод пая научно-техническая конференция «Радиолокация, навигация, связь» (Воронеж, 2014), XXII Международная научная конференция «Информатизация и информационная безопасность правоохранительных органов» (Москва, 2013), Международная научно-техническая конференция «Наука и образование - 2012» (Мурманск, 2012), XVI Международная научно-практическая конференция «Наука и современность» (Новосибирск, 2012), XVI Международная научная конференция: «Математические Методы в Технике и Технологиях - ММТТ-26» (Нижний Новгород, 2013), III Международная научная конференция: «Проблемы управления, обработки и передачи информации (АТМ-2013)» (Саратов, 2013), Международная научно-практическая конференция «Общественная безопасность, законность и правопорядок в III тысячелетии» (Воронеж, 2012, 2013), I Международная научно-практическая конференция «Проблемы современных, экономических, правовых и естественных наук в России» (Воронеж, 2013), Всероссийская научно-практическая конференция «Охрана, безопасность и связь» (Воронеж, 2012, 2013), Всероссийская научно-практическая конференция курсантов, слушателей, студентов, адъюнктов и молодых специалистов «Актуальные вопросы эксплуатации систем охраны и защищенных телекоммуникационных систем» (Воронеж, 2012, 2013), Всероссийская научно-практическая конференция «Современное состояние и перспективы развития систем связи и радиотехнического обеспечения в управлении авиацией» (Воронеж, 2013).

Публикации по материалам диссертации. По теме диссертации опубликовано 22 научные работы, в том числе пять статей в научных журналах, которые входят в утвержденный ВАК при Минобрнауки России Перечень российских рецензируемых научных журналов, в которых должны быть опубли-

кованы основные научные результаты диссертаций на соискание ученых степеней доктора и кандидата наук; 14 материалов международных и всероссийских научных конференций, 1 свидетельство о регистрации программы в государственном фонде неопубликованных документов, 1 заявка на выдачу патента на изобретение Российской Федерации, 1 заявка на регистрацию программы для ЭВМ в ФБГУ «Федеральный институт промышленной собственности».

Личный вклад автора. Основные научные результаты получены автором лично. Из 19 работ по теме диссертации 4 написаны без соавторов. В приведенном списке научных работ из опубликованных в соавторстве автору принадлежат основные идеи по методам построения и расчета параметров математических моделей речевых сигналов, постановке экспериментов, анализу и интерпретации полученных результатов и выводов, а также алгоритмы и структурная схема устройства распознавания звуков.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, двух приложений, списка литературы, включающего 174 наименования. Общий объем диссертации составляет 150 страниц машинописного текста, включая 26 рисунков и 26 таблиц, а также 16 страниц литературных источников и 7 страниц приложений.

Результаты диссертации изложены в четырех главах.

В первой главе приведен анализ существующих подходов и нерешенных проблем в области анализа и синтеза речи.

Рассмотрены и проанализированы основные подходы к параметрическому описанию и построению математических моделей речевых сигналов для задач анализа и синтеза речи, которые можно классифицировать следующим образом: модели параметризации речевого тракта (решение волнового уравнения, передаточная функция и др.); модели параметризации речевого сигнала (спектральный, кепстральный анализ, вейвлет-преобразование, линейное предсказание, гармонические модели и т.д.); модели принятия решений (вычисление расстояний, скрытые марковские модели, искусственные нейронные сети и др.). Приведены особенности и недостатки существующих методов параметризации речевых сигналов, основные существующие программные реализации систем синтеза и анализа речи. Выявлено, что перспективным на-

правлением развития систем анализа и синтеза речи является построение математических моделей, основанных на акустической теории речеобразования, записанных в явном виде, которые компактно характеризуют существенные параметры речевого сигнала. Установлено, что основной тон (частота основного тона) является первичным параметром в процессе артикуляции, в акустическом спектре фонем, и определяет, согласно спектральной теории распознавания речи, индивидуальные идентификационные параметры, характеристики звуков, фонем и морфем речевого сигнала. Повышение эффективности систем анализа и синтеза речи может решаться на основе развития (полигармонических) гармонических математических моделей речевого сигнала, представляющих сигнал в форме «гармоника плюс шум», а также совершенствования математических моделей принятия решения и мер различимости.

Во второй главе проведен анализ существующих гармонических (полигармонических) моделей применительно к вокализованным сегментам речи. В частности, рассмотрена математическая модель в виде импульса колебания с амплитудно-частотной модуляцией со сложным несущим колебанием. Выявлено, что данная модель более точно характеризует вокализованный сегмент речи, а также учитывает индивидуальные особенности голоса диктора: тембр — форму спектра, образуемую амплитудами несущих гармоник, и тон - усредненное значение частоты основного тона. Установлено, что для вокализованного сегмента целесообразно использовать в качестве существенных параметров частоту основного тона (ЧОТ) и амплитуды гармоник несущего колебания. Проведена экспериментальная оценка точности алгоритма расчета ЧОТ при оптимальной временной обработке на основе полигармонической математической модели при неизвестных априорных распределениях амплитуд и начальных фаз несущих гармоник путем осуществления максимизации логарифма функционала отношения правдоподобия по неизвестным несущественным параметрам. Рассчитаны точностные характеристики данного метода для ряда значений ЧОТ. Проанализированы значения амплитуд несущих гармоник гласных звуков, выявлено число гармоник, влияющих па фонетический смысл звука. Проведена верификация количества существенных параметров для гласных звуков, путем синтеза и проверки «на слух». Предложен способ дикторонезависимого детектирования

гласных звуков на основе меры различимости спектральных составляющих, учитывающей вариации ЧОТ.

В третьей главе разработана математическая модель импульсного голосового источника речи в виде суммы гауссовских функций, зависящих от времени (полигауссовская модель). Реализован алгоритм расчета параметров математической модели путем минимизации ошибки временного вида математической модели и реального речевого сигнала методом градиентного спуска, также представлена его программная реализация. Рассчитан набор ненормированных типовых значений параметров модели, полученных для каждого звука по реализациям одного диктора. В качестве критерия близости характеристик математической модели и речевого сигнала использовались нормированные автокорреляционные функции. Установлено, что данный критерий адекватно описывает как корреляционные связи, так и структурные свойства энергетического спектра сигнала.

В четвертой главе разработана математическая модель речевого сигнала в виде аналитического решения дифференциального уравнения, содержащая частотно-модулированное колебание со сложной несущей и основанная на физической модели речевого тракта. Проведена проверка на адекватность полученного аналитического решения на основе среднеквадратичной ошибки по спектральной плотности энергии с реальным речевым сигналом. Проведен сравнительный анализ математических моделей в виде аналитического решения дифференциального уравнения (ДУ) с численным решением ДУ методом Рунге-Кутта, а также с полигармонической моделью с частотной модуляцией. Разработан метод практического расчета индекса частотной модуляции и частоты модулирующей гармоники, вычислены оценки значений индекса модуляции для гласных звуков. Рассмотрены вопросы разработки обобщенной математической модели речевого сигнала в виде суммы моделей вокализованного, импульсного и невокализованного сегментов. Разработан критерий сепарации речевого сигнала на периодический, импульсный и шумовой сегменты на основе автокорреляционной функции и критических значений коэффициентов корреляции (КК). Определены границы критических значений КК для взрывных звуков.

В заключении подводятся итоги диссертационного исследования, сформулированы основные результаты и выводы.

ГЛАВА ПРОБЛЕМЫ АНАЛИЗА И СИНТЕЗА РЕЧИ

Современные речевые технологии являются совокупностью нескольких научно-практических направлений (областей). Основное направление представляют собой теории речеобразования, т.е. совокупность знаний о речевом сигнале, его свойствах, процессах, происходящих при формировании и восприятии речи. К этому же направлению относятся теории предполагаемых моделей речевого сигнала и методов их обработки [16]. Второе направление составляют собственно речевые технологии, т.е. достигнутый уровень аппаратно-программных решений обработки речевых сигналов, предлагаемых для осуществления практических (прикладных) задач. Третье направление образует практическая продукция, т.е. системы реального применения в настоящий момент времени. Таким образом, связь между указанными составляющими можно представить в виде логической цепочки (рис. 1.1).

Рис. 1.1. Структура современных речевых технологий

Теория речеобразования, как самостоятельная отрасль стала определяться в начале XX века и окончательно выделилась во второй половине столетия [92]. Необходимость разработки акустической теории звуков была обусловлена экспоненциальным развитием электронно-вычислительных машин (ЭВМ), так как одной из главных задач является создание программ и алгоритмов для диалога человека и машины на естественном языке. Использование ЭВМ уже затронуло практически все сферы жизнедеятельности, в связи с этим необходимость использования программ синтеза и анализа речи становится все более актуальной. Но для того чтобы обеспечить этот диалог, необходимо разработать не только методы и средства распознавания речи, но и методы и средства смысловой (семантической) интерпретации речевого сигнала [13].

Несмотря на то, что задача автоматического распознавания речи по голосу была поставлена более полувека назад, полностью и окончательно она не решена до сих пор и исследования в данной области продолжаются, так как стопроцентное распознавание слитной человеческой речи еще не достигнуто. Не решена также задача стопроцентной идентификации компьютером человека по его голосу, хотя известно, что хорошо знакомые между собой люди легко узнают друг друга по голосу, например при разговоре по телефону.

1.1. Вопросы анализа и синтеза речи человека

В широком смысле распознавание речи — автоматическое отнесение предъявленного речевого сигнала к одному из заранее выбранных классов (фонемное перекодирование речевого акустического сигнала) [19]. В узком смысле - это процесс автоматической обработки речевого сигнала с целью указания последовательности слов, которая передается этим сигналом [13].

Смысловая интерпретация речи - это процесс обработки речевого сигнала с целью указания смысла, а также его представления в канонической форме, удобной для последующего использования [13]. Т.е. смысловая интерпретация — это мотив, намерение передать определенную информацию, трансформированное в речевой сигнал.

Задача автоматического понимания речи также осложняется тем, что в языке существует множество омонимов и даже человеческое ухо не всегда может отделить одинаково произнесенные слова или фразы, например «bus» и «bath» в английском языке и «нет резвее» и «не трезвее» в русском языке. Различия в данных словах мы понимаем из контекста предложения, поэтому окончательной целью большинства исследований в области распознавания речи являются не только дикторонезависимые системы распознавания слитной речи, т.е. системы, которые без предварительного обучения на определенного диктора могли бы понять любого человека и распознать каждое слово обычной речи, но и системы смысловой интерпретации речи.

Учеными были предложены варианты психолингвистической теории порождения речи [88,89], одной из задач которой является изучение порождения и восприятия речевых высказываний во время речевого процесса. Цепь событий, используемых в передаче информации, представляет собой речевую цепочку, которая изображена на рис. 1.2 [104].

Говорящий

Ухо Слушатель

Чувствительный нерв

Рис 1.2. Речевая цепь

Диктор решает, что он хочет сказать, облачает мысли в языковую форму, выбирая соответствующие слова и фразы, и ставит эти слова в правильном порядке по грамматической структуре языка. Голосовая волна распространяется к уху слушателя и активирует его слуховой механизм. Слуховой механизм в ухе производит нервные импульсы, которые идут вдоль чувствительного нерва к мозгу слушателя. Мозг непрерывно сравнивает качество произведенных звуков со звуковыми характеристиками, которые должны были быть произведены, и вносит изменения, необходимые для сравнения результатов планируемой речи.

Психолингвистический подход к формированию речи показывает, как речь начинается на языковом уровне в мозге говорящего, через выборку подходящих слов и фраз, и заканчивается языковым уровнем в мозге слушателя

[104]. Недостатком данного подхода является его сложная доказуемость (все алгоритмы передачи и приема речевого сигнала являются предполагаемыми и основанными на медицинских знаниях о работе мозга). При этом человек способен передать и принять информацию, не связанную с пониманием смысла, например, дети воспроизводят и повторяют звуки до момента овладения речью [15,16]. В данном случае работает первичный фактор распознавания, когда слуховая система, получив отказ от системы осмысливания, классифицирует звуки в виде транскрипции [31].

Таким образом, первоначальный этап распознавания речи непосредственно связан с основной задачей обработки речевых сигналов — это обоснованный выбор признаков, позволяющих надежно опознавать речевой сигнал.

1.1.1. Классификация задач анализа речи

Обработка речевого сигнала подразумевает формирование описания физических параметров восприятия речи на основе некоторой модели с последующим преобразованием полученного представления в требуемую форму [3]. Задачи анализа речевого сигнала вытекают из целей обработки речевого сигнала и их специфики [2]:

1) минимизация потери информативности при передаче речевого сигнала по каналу связи, связанная с сжатием самого сигнала (уплотнение);

2) избежать искажения голоса диктора с сохранением разборчивости его речи;

3) сегментация речи;

4) разделение сигналов (расслоение) по принадлежности к диктору;

5) выделение характерных признаков диктора и его идентификация;

6) оценка эмоциональных составляющих речи;

7) распознавание речи;

8) идентификация языка.

Данные задачи необходимо решать комплексно, так как их последовательность взаимосвязана и непосредственно отражает условия надежных и

качественных алгоритмов распознавания речи. Рассмотрим подробнее каждую из них.

1. Надежность и точность распознавания речи (диктора, в частности) в большой степени зависит от минимизации потери информативности при передаче речевого сигнала по каналу связи. Данные потери могут быть связаны не только с видом записывающего микрофона и нормализации параметров для различных типов, но и с алгоритмом сжатия (кодирования) речевого сообщения. Поэтому одним из актуальных научных направлений является разработка моделей речевого сигнала, с минимальным набором параметров при сохранении ключевых свойств сигнала, для снижения ошибок при кодировании и потерь при передаче по каналу связи.

2. Искажения голоса при передаче по каналу связи могут быть обусловлены целым рядом причин: амплитудно-частотная характеристика линии связи, полоса пропускания, затухание, помехоустойчивость и т.д. Поэтому, когда определен способ передачи информации (протокол), необходимо определить, какой из множества существующих протоколов можно использовать на данной линии, с учетом всех его характеристик с целью минимального искажения при передаче сигнала (в нашем случае речевого), для последующей обработки информации с высокой точностью (минимизировать ошибку потери данных).

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Список литературы диссертационного исследования кандидат наук Гущина, Анастасия Александровна, 2014 год

ЛИТЕРАТУРА

1. Абрамовиц М. Справочник по специальным функциям / М. Абрамович, И.Стиган. - М.: Мир, 1979. - 832 с.

2. Аграновский A.B. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов / A.B. Аграновский, Д.А. Леднов. — М.: Радио и связь, 2004. - 150 с.

3. Айфичер Э. Цифровая обработка сигналов. Практический подход /

3.Айфичер, Б. Джервис. - М.: Вильяме, 2004. - 992 с.

4. Азаров И.С. Вычисление мгновенных гармонических параметров речевого сигнала / И.С. Азаров, A.A. Петровский // Речевые технологии. - 2008. -№ 1.-С. 67-77.

5. Азаров И.С. Алгоритм оценки мгновенной частоты основного тона речевого сигнала / И.С. Азаров, М.И. Вашкевич, A.A. Петровский // Цифровая обработка сигналов. - 2012. -№ 4. - С. 49-57

6. Алдошина И.А. Основы психоакустики / И. А. Алдошина. — М.Юборонгиз., 2000. - С. 154.

7. Бабкин А. В. Особенности применения технологии TD-PSOLA для модификации характеристик вокальных аллофонов / A.B. Бабкин // Диа-лог'2000: труды международного семинара по компьютерной лингвистике и ее приложениям. - Т.2.Прикладные проблемы. - Москва, 2000. - С.33-40.

8. Баскаков С.И. Радиотехнические цепи и сигналы: Учеб. для вузов по спец. «Радиотехника» / С.А. Баскаков. — 4-е изд., перераб. и доп. - М.: Высш.шк. - 2003. - 462 с.

9. Бокс Дж. Анализ временных рядов. Прогноз и управление / Дж. Бокс, Г. Дженкинс. - М.: Букинист. - Вып.2. - 1974. - 198 с.

10. Большая советская энциклопедия: в 30 т. / гл. ред. А. М. Прохоров.— 3-е изд. -М. : Советская энциклопедия, 1969-1978.

11. Бронштейн И.Н. Справочник по математике для инженеров и учащихся вузов / И.Н. Бронштейн, К.А. Семендяев. - М.: Гостехиздат, 1957. - Т. 1. - 486 с.

12. Бурнев В.Б. Электронный учебник по системе сотовой связи с временным разделением каналов стандарта GSM [Электронный ресурс] / В.Б. Бур-

нев, Е.В. Субботин. - ГОУ ВПО "УГТУ-УПИ": Екатеринбург. - 2004. - Режим доступа: http://study.ustu.гиЛпе\уЛпс1_у1е\у.а8рх?А1с11с1=50

13. Винцюк Т. К. Анализ, распознавание и интерпретация речевых сигналов / Т.К. Винцюк. - Киев: Наукова Думка, 1987. - 264 с.

14. Воробьев В.И. Теория и практика вейвлет-преобразования/ В.И. Воробьев, В.Г. Грибунин. - СПб.:ВУС, 1999. -208 с.

15. Выготский Л.С. Мышление и речь / Л.С. Выготский / Собр. соч.: в 8 т. -М., 1982.-Т. 2.- 242 с.

16. Галунов В.И. Современные речевые технологии: Обзорная статья [Электронный ресурс] / В.И. Галунов. - 1999. - 6 с. Режим доступа: http://auditech.ru/article/SpecomRus.doc

17. Галунов В.И. Современные проблемы в области распознавания речи /

B.И. Галунов. А.Н. Соловьев // Информационные технологии и вычислительные системы - 2004. - Вып. 2. - С. 41-45.

18. Галунов В.И. Речь как система / В. И. Галунов // Труды XIII сессии Российского акустического общества: сборник трудов. - М., 2003. - Т.З. - С. 19 -21.

19. Глушков В.М. Энциклопедия кибернетики / В.М. Глушков, Н.М. Амосов, И.А. Артеменко. - Киев, 1974 г. - Т. 2. - 620 с.

20. Голубинский А.Н. Методика аппроксимации речевого сигнала на основе особенностей его характеристик // Вестник ВИ МВД России. - 2008. - №1.

C. 128-134.

21. Голубинский А.Н. Математические модели речевого сигнала для верификации и идентификации личности по голосу / А.Н. Голубинский, О.М. Булгаков. - Воронеж: Воронежский Государственный Университет. - 2010. — 364 с.

22. Голубинский А.Н. Обобщенная математическая модель речевого сигнала в виде импульса колебания с амплитудно-частотной модуляцией / А.Н. Голубинский, О.М. Булгаков// Актуальные вопросы современной науки и образования: сборник материалов общероссийской научной конференции в научном журнале «В мире научных открытий». - №3. - Красноярск, 2010. -С. 62-65.

23. Голубинский А.Н. Оценка частоты основного тона речевого сигнала при априори неизвестных амплитудах и начальных фазах полигармоническо-

го несущего колебания / А.Н. Голубинский // Вестник ВИ МВД России. -2010.-№3.-С. 110-117.

24. Гоноровский И. С. Радиотехнические цепи и сигналы: Учебник для вузов / И.С. Гоноровский. - 4-е изд., перераб. и доп. - М.: Радио и связь, 1986. — 512 с.

25. Гребнов C.B. Двухуровневый метод распознавания голосовой команды / C.B. Гребнов. - Вестник ИГЭУ.- 2009. - Вып. 3. - С. 90-93.

26. Гребнов C.B. Аналитический обзор методов распознавания речи в системах голосового управления / C.B. Гребнов // Вестник ИГЭУ. - 2009. - Вып. З.-С. 83-85.

27. Гусев М.Н. Расчет и измерение качества речевых сигналов / М.Н. Гусев, В.М. Дегтярев. - СПб.: ГеликонПлюс, 2008. - 275 с.

28. Дегтяров Н.П. Параметрическое и информационное описание речевых сигналов / Н.П. Дегтяров. - Минск, 2003. - 216 с.

29. Дворянкин C.B. Речевая подпись / С. В. Дворянкин / Под ред. д.т.н. A.B. Петракова. -М.: РИО МТУСИ, 2004. - 184 с.

30. Дженкинс Г. / Спектральный анализ и его приложения / Г. Дженкинс, Д. Ватте. -М.: Мир, 1971.-316 с.

31. Дубровский В.В. О проблеме дикторонезависимости при распознавании речи на фонемном уровне / В.В. Дубровский, А.И. Егоров // ДИАЛОГ'2003: труды международной конференции. - Протвино, 2003. - С. 16-20.

32. Женило В.Р. Компьютерная фоноскопия / В.Р. Женило. - М.: Академия МВД России, 1995. - 208 с.

33. Запрягаев С.А. Распознавание речевых сигналов / С.А. Запрягаев, A.IO. Коновалов // Вестник Воронежского государственного университета. Сер. «Системный анализ и информационные технологии».- 2009 .-№ 2. - С. 39-48.

34. Иванов М.А. Применение вейвлет-преобразований в кодировании изображений / М.А. Иванов // Новые информационные технологии в науке и образовании. - Новосибирск: Ин-т систем информатики им. А.П. Ершова СОР АН, 2003.-С. 157-176.

35. Каргин А. А. О проблеме параметризации речевого сигнала в современных системах распознавания речи / А.А.Каргин, Т.В. Шарий / Вестник

Донецкого национального университета. Сер А. «Природные науки». — 2008. - Вып.2 (2).-С. 536-541.

36. Киселев В.В. Система пофонемного автоматического распознавания команд русской речи для произвольного словаря / В.В. Киселев, И.Б. Там-пель, М.Ю. Татарникова, Ю.Ю. Хохлов // «Диалог 2007»: труды международной конференции. - М., 2007.

37. Колмогоров A.M. Элементы теории функций и функционального анализа / А.Н. Колмогоров, C.B. Фомин. - М.: Наука, 1981. - 542 с (427 с).

38. Корн Г. Справочник по математике для научных работников и инженеров / Г. Корн, Т. Корн. - М.: Наука, 1973. - 368 с.

39. Косарев Ю.А. Естественная форма диалога с ЭВМ / Ю.А. Косарев. — М.: Машиностроение, Ленингр. отд., 1989. - 142 с.

40. Котов В.В. Основная проблема создания системы распознавания речи независимо от диктора / В.В. Котов, А.Н. Киселев // Фундаментальные исследования. - 2005. - №4. - С. 80-81.

41. Курочкин С.Н. Проблемы создания многоуровневой системы распознавания речи [Электронный ресурс]/С.Н.Курочкин, А.Г. Бродин// Автоматизация и управление в машиностроении. — 1997. - №1. — Режим доступа: http://magazine.stankin.ru/arch/n02/automation/art05.html

42. Леонов A.C. / К анализу резонансных частот речевого тракта / A.C. Леонов, В.Н. Сорокин // Информационные процессы. - 2007. - №4. — Т.7. — С. 386-400.

43. Леонов A.C. Частотные модуляции в речевом сигнале / А. С. Леонов, И.С. Макаров, В.Н. Сорокин // Акустический журнал. - 2009. - № 6. - С. 809-821.

44. Лобанов Б.М. Исследование и разработка методов автоматического синтеза речи по фонемному тексту: Автореферат дис.... д-ра. техн. наук/ Лобанов Борис Мефодьевич. - Рига, 1984. - С. 11.

45. Лобанов Б. М. Микроволновой синтез речи по тексту // Анализ и синтез речи. — Mil: Ин-ттехн. кибернетики АНБ, 1991. С. 57-73.

46. Лобанов Б.М. Модель фонемно-артикуляторного синтеза речи / Б. М. Лобанов, Б.В. Панченко // Доклады Всесоюзного симпозиума «Модели речевого процесса в норме и патологии». - Л., 1980. - С. 41-59.

47. Лобанов Б.М.Речевой интерфейс интеллектуальных систем: учеб. пособие / Б. М. Лобанов, О. Е. Елисеева ; под науч. ред. В. В. Голенкова. -Минск, БГУИР, 2006. - 152 с.

48. Лобанов Б. М. Компьютерный синтез и клонирование речи /Б. М. Лобанов, Л. И. Цирульник. - Мн.: Белорусская Наука. - 2008. - 316 с.

49. Маковкин К.А. Гибридные модели: скрытые марковские модели и нейронные сети, их применение в системах распознавания речи [Электронный ресурс] / К.А. Маковкин. - Вычислительный центр им. A.A. Дородницына, Москва, 2006. - Режим доступа: http://www.ccas.ru/depart/chuchu/publics/sbornikCCAS-2006.pdf~

50. Мандель Д.И. Кластерный анализ / Д.И. Мандель. - М.: Финансы и статистика. - 1988. - 176с.

51. Маркел Дж. Линейное предсказание речи / Дж. Маркел, А.Х. Грей - М.: Связь, 1980.— 308 с.

52. Марьев А. А. Метод интерпретации результатов измерений параметров речевого сигнала в задачах диагностики психоэмоционального состояния человека по его речи: Автореферат дис.... д-ра. техн. наук / Марьев Александр Александрович. - Таганрог, 2012. - С. 16.

53. Марьев A.A. Метод интерпретации результатов измерений параметров речевого сигнала в задачах диагностики психоэмоционального состояния человека по его речи [Электронный ресурс] / A.A. Марьев. - Инженерный Вестник Дона. - 2011. - №4. - Режим доступа: http://ivdon.ru/magazine/archive/n4y2011/538/ 6с.

54. Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / СПб.: Центр речевых технологий. - 1997. - 394с.

55. Мясникова E.H. Объективное распознание звуков речи / Мясникова Е. Н. - Ленинград: Энергия, 1967. - 150 с.

56. Назаров М.В. Методы цифровой обработки и передачи речевых сигналов / М.В. Назаров, Ю.Н. Прохоров. - М.: Радио и связь, 1985. - 176 с.

57. Назарова Т. В. Проблема создания методики идентификации иноязычных лиц / Т. В. Назарова // Судебная экспертиза. - 2008. - № 2. - С. 95 -105.

58. Павловец A.M. Конверсия голоса с использованием модели сепарации речевого сигнала на компоненты «гармоники+шум» и переходные фреймы / А.Н. Павловец, М.З. Лившиц, Д.С. Лихачёв, A.A. Петровский // Речевые технологии. - 2008. - №4. - С.37-50.

59. Патент на изобретение № 2103753 РФ, 6 G 10 L 5/06.Способ дикторо-независимого распознавания изолированных речевых команд / О.Г. Малеев, Ю.М. Козлов. -№ 97101846/09; Заявл. 03.02.1997; Опубл. 27.01.1998.

60. Патент на изобретение № 2466468 РФ, G 10 L 15/00. Система и способ распознавания речи / Д.А. Кочаров, А.Б. Хомяков. -№ 2011126653/08; Заявл. 30.06.2011; Опубл. 10.11.2012; Бюл. № 31.

61. Патент на изобретение № 2393549 РФ, G 10 L 15/14. Способ и устройство для распознавания речи / Е. Ольсен. - № 2009114596/09 Заявл. 17.10.2006; Опубл. 27.06.2010; Бюл. № 18.

62. Патент на изобретение № 2294024 РФ, G 10 L 15/10. Способ распознавания ключевых слов в слитной речи / A.A. Полков; A.A. Миняев; В.Л. Яковлев; В.А. Иванов. -№ 2005111457/09; Заявл. 18.04.2005; Опубл. 20.02.2007; Бюл. № 5.

63. Патент на изобретение № 2403628 РФ, G 10 L 15/10. Способ распознавания ключевых слов в слитной речи / В.И. Семенов; П.В. Желтов. - № 2008141558/09; Заявл. 20.10.2008; Опубл. 10.11.2010; Бюл. №31.

64. Патент на изобретение № 2403626 РФ: МПК 7 G10L11/04. Анализатор речи, обнаруживающий частоту основного тона, способ анализа речи и программа анализа речи / Ф. Монма, С. Мицуеси, К. Огата. - № 2007149237/09; Заявл. 02.06.2006; Опубл. 10.11.2010.

65. Патент на изобретение № 2421826 РФ: МПК 7 G10L11/04. Оценка периода основного тона / Л. Лааксонен, А. Рамо, А. Василаке. - № 2009117292/09; Заявл. 01.10.2007; Опубл. 20.06.2011.

66. Патент на изобретение № 2184399 РФ: МПК 7 G10L15/00, Gl0L101:02. Способ выделения основного тона из речевого сигнала / A.B. Аграновский, Д.А. Леднов, A.M. Потапенко, С.А. Репалов, П.М. Сулима - № 2000124181/09; Заявл. 22.09.2000; Опубл. 27.06.2002.

67. Первушин Е.А. Обзор основных методов распознаваниг дикторов / Е.А. Первушин // Математические структуры и моделирование. -2011. - Вып. 24. -С. 41-54.

68. Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов / Ю.Н. Прохоров.— М.: Радио и связь, 1984.— 240 с.

69. Рабинер J1. Р. Теория и применение цифровой обработки сигналов/ JI.P. Рабинер, Б. Гоулд. -М.: Мир, 1978. -848 с.

70. Рабинер Л.Р. Цифровая обработка речевых сигналов / Л.Р. Рабинер, Р.В. Шафер. - М.: Радио и связь, 1981. - 496 с.

71. Реформатский А. А.Введение в языковедение / А. А. Реформатский. М.: Аспект пресс. - 1996. - 536 с.

72. Ронжин А.Л. Автоматическое распознавание русской речи / А.Л. Рон-жин, И.В. Ли // Вестник Российской Академии Наук. - 2007. - №2. - Т. 77. -С. 133-138.

73. Русанова О. А. Исследование и разработка методов анализа и оценки качества синтезированной устной речи: дис. ... канд. техн. наук: 05.13.17 / Русанова Ольга Александровна. - Красноярск, 2004 -150 с.

74. Русанова O.A. Современные технологии синтеза устной речи [Электронный ресурс] / О.А.Русанова // Международная конференция Диа-лог'2003: Сборник трудов - Режим доступа: http://www.dialog 21 .ги/ Archive/2003/ Rusanova.htm

75. Рутковская Д. Нейронные сети, генетические алгоритмы и нечеткие системы / Д. Рутковская, М. Пилиньский, Л. Рутковский: Пер. с польск. И. Д. Рудинского. — М.: Горячая линия-Телеком, 2006. - 452 с.

76. Сапожков М.А. Речевой сигнал в кибернетике и связи // М.А. Сапожков — М.: Связьиздат, 1963.-452 с.

77. Ситник С.М. Приложения экспоненциальной аппроксимации по целочисленным сдвигам функций Гаусса / С.М. Ситник, A.C. Тимашов // Вестник Воронежского государственного университета инженерных технологий». — 2013.-№58:2.-С. 90-94.

78. Солонина А.И. Основы цифровой обработки сигналов: Курс лекций. Изд. 2-е испр. и перераб. / А.И. Солонина, Д.А.Улахович, С.М.Арбузов, Е.Б. Соловьева- СПб.: БХВ-Петербург, 2005. - 768 е.: ил.

79. Сорокин В.Н. Сегментация и распознавание гласных / В.Н. Сорокин. // Информационные процессы. - 2004. - Т.4. - №2. - С. 202-220.

80. Сорокин В.Н. Распознавание личности по голосу: аналитический обзор / В.Н. Сорокин, В.В. Выогин, А.Н. Тананыкин // Информационные процессы. -2012.-№ 1.-Т. 12.-С. 1-30.

81. Сорокин В.Н. Об автокорреляционном анализе речевого сигнала / В.Н. Сорокин, В.П. Трифоненков// Акустический журнал. -1996. -Т. 42. — № 3. — С. 418-425.

82. Сорокин В.Н. Обратная задача для голосового источника / В.Н. Сорокин, И.С. Макаров // Информационные процессы. - 2006. - Т.6. - №4. - С. 375-395.

83. Сорокин В.Н. Устойчивость оценок формантных частот // В.Н. Сорокин, А.С. Леонов, И.С. Макаров / Речевые технологии. - 2009. — № 1. — С.3-21.

84. Сорокин В.Н. Синтез речи / В.Н. Сорокин. - М.: Наука. - 1992. - 392 с.

85. Сорокин В.Н. Теория речеобразования / В.Н. Сорокин. - М.: Радио и связь, 1985.-312 с.

86. Сорокин В.Н. Фундаментальные исследования речи и прикладные задачи речевых технологий / В.Н. Сорокин // Речевые технологии. - 2008. - № 1. -С. 18-48.

87. Стаценко О.Н. Идентификация говорящего с учетом фактора перехода с родного языка на иностранный и viceversa: на материале русского и английского языков: Автореф. дис.... канд. филол. наук/ Стаценко Ольга Николаевна. - М., 2008. - 21 с.

88. Тарасов Е.Ф. Введение в психолингвистику (лекции) / Е.Ф. Тарасов. -Ч. I, П.-М., 1991.

89. Торндайк Э. Процесс учения у человека / Э. Торндайк: Пер. с англ. под ред. проф. С. Е. Гайсиновича и со вступительными статьями проф. П. П. Блонского и проф. С. Е. Гайсиновича. — М., 1935.

90. Тягунов Д. В. Обзор существующих методов синтеза речи по печатному тексту / Д.В. Тягунов // Научный вестник Черновицкого университета. Физика. Электроника. — 2008. — Вып. 423. — С. 138-142.

91. Тхай Чунг Киен. Система анализа-синтеза голоса на основе периодически-апериодической декомпозиции с авторегрессионной параметризацией. Доклады БГОУИР. - 2007. - №4(20). - С.35-40.

92. Фант Г. Акустическая теория речеобразования / Г. Фант — Новосибирск: Наука, 1964 - 284 с.

93. Фланаган Дж. Анализ, синтез и восприятие речи / Дж. Фланаган. - М.: Связь, 1968.-396с.

94. Фланаган Дж. Вычислительные машины говорят и слушают. Речевое общение человека с машиной / Дж. Фланаган // ТИИЭР. - 1976. - Т. 64. - № 4.

95. Фролов А.В., Г.В. Фролов Синтез и распознавание речи. Современные решения [Электронный ресурс] / А.В. Фролов, Г.В. Фролов //- Режим доступа: http://frolov-lib.ru/books/hi/index.html

96. Чистович JI.A. Физиология речи. Восприятие речи человеком / J1.A. Чистович, А.В. Венцов, М.П. Грамстрем и др. - JL: Наука, 1976. - 388 с.

97. Шелухин О.И. Цифровая обработка и передача речи / О.И. Шелухин, Н.Ф. Лукьянцев. - М.: Радио и связь, 2000. - С.479.

98. Anil К. Jain, Jianchang Мао, К.М. Mohiuddin. Artificial Neural Networks: ATutorial, IEEE Computer. Vol.29. No.3, March/1996, pp. 31-44.

99. Baum L.E., Petrie Т., Soldes G., and Weiss N. A maximization technique occuring in the statistical analysis of probabilistic functions of Markov chains // Ann. Math. Stat. 1970. Vol 41. No. 1. pp. 164-171.

100. Benedetto J. and M. Frazier, editors. Wavelets: Mathematics and Applications. CRC Press, 2000 Coiporate Blvd., N.W. Boca Raton, Florida 33431, 1993

101. Cheveigne A. and II. Kawahara. YIN, a fundamental frequency estimator for speech and music // Journal Acoust. Soc. Am. vol. 111. no. 4. pp 1917-1930, Apr. 2002.

102. Chu W.C. Speech coding algorithms: Foundation and evolution of standardized coders / W.C. Chu. - John Wiley & Sons, 2003, 582 p.

103. Demuynck K. Extracting, modeling and combining informationin speech recognition: PhD thesis, ESAT, 2001.

104. Goldberg, R. G. "Frontmatter" A Practical Handbook of Speech Coders Ed. Randy Goldberg Boca Raton: CRC Press LLC, 2000, 247 p.

105. Hazen T. Recognition confidence scoring and its use inspeech understanding systems // Computer Speech and Language. - 2002.

106. Hidden Markov Model Toolkit Book. - Cambridge University Engineering Department, 2001-2009

107. Huang X. Spoken language processing: a guide to theory, algorithm and system development / X. Huang, A; Acero, H.W. Hon. - Prentice-Hall, 2001, 965 p.

108. McAulay R.J., Quatieri T.F. «Speech analysis/synthesis based on a sinusoidal representation» // IEEE Trans. On Acoustics, Speech and Signal Process. 1986. vol. 34. no. 4. pp.744-754.

109. McCuIloch W.S. and W. Pitts, "A logical Calculus of Ideas Immanent in Nervous Activity" //Bull. Mathematical Biophysics. Vol. 5. 1943. pp. 115-133.

110. Novikoff, A. B. (1962). On convergence proofs on perceptrons. Symposium on the Mathematical Theory of Automata, 12, 615-622. Polytechnic Institute of Brooklyn.

111. Pavlovets A., Kien T., Zubrycki P., Petrovsky A. Speech analysis_synthesis based on the PTDFT for voice conversion, in Proc. of the 2007 Intern. TICSP Workshop on Spectral Methods and Miltirate Signal Processing (SMMSP'2007), Moscow, 2007. - Tampere International Center for Signal Processing, TICSP Series #37, Tampere, 2007. - pp.203-210.

112. Pierre Lison, Structured Probabilistic Modelling for Dialogue Management, Doctoral Dissertation, Faculty of Mathematics and Natural Sciences, University of Oslo. 2014. No. 1452.

113. Spanis A.S. Speech codingA a tutorial review / A.S. Spanias // Proc. of the IEEE, 1994. vol. 82. no. 10. pp.1541-1582.

114. Stylianou Y. Apply the harmonic plus noise model in concatenative speech synthesis // IEEE Trans, on Speech and Audio Process. 2001. Vol. 9. No. 1. P. 21-29.

115. Weber F., Manganaro L., Peskin B., Shriberg E. (2002). Using prosodic and lexical information for speaker identification. In: Proc. ICASSP, vol. 1, pp. 141-144.

116. Talkin D. A Robust Algorithm for Pitch Tracking (RAPT) in Speech Coding &Synthesis, W. B. Kleijn, К. K. Paliwaleds, Elsevier ISBN 0444821694, 1995.

117. YannisStyliano // IEEE Transactions on Speech and Audio Processing, vol. 9. No. 1. January 2001.

118. Zavarehei E., Vaseghi S., Yan Q. Noisy speech enhancement using harmonic-noise model and codebook-based post-processing // IEEE Trans, on Speech and Audio Process. 2007. vol. 15. No 4. P. 1194-1203.

119. Русская фонетика [Электронный ресурс]. - Режим доступа: http://fonetica.philol.msu.ru/ indexl.htm, свободный (17.05.2013).

120. DesCrypto [Электронный ресурс]. - Режим доступа: http://www.des-crypto.ru/itsecur/voice/, свободный (01.02.2014).

121. 7 нот. Теория музыки [Электронный ресурс]. - Режим дocтyпa:http://www.7not.ru/theory/consonans2.phtml, свободный (04.03.2013).

122. Центр Речевых Технологий [Электронный ресурс]. - Режим доступа: www.speechpro.ru, свободный (01.02.2013).

123. Phonexia Language Identification [Электронный ресурс]. - Режим доступа: http://www.phonexia.com/technologies/lid, свободный (21.01.2014).

124. Voice activity detector [Электронный ресурс]. - Режим доступа: http://celnet.ru/vad.php, свободный (12.10.2013).

125. ScienceDaily [Электронный ресурс]. - Режим доступа: http://www.sciencedaily.com/releases/2012/08/120821094125.htm, свободный (26.07.2013).

126. SAMOVAGroup [Электронный ресурс]. - Режим доступа: http://www.irit.fr/recherches/SAMOV A/Language-identification.html#acoustics

127. SpeereoSoftware UK Ltd. [Электронный ресурс]. - Режим доступа: http://www.speereo.com/, свободный (16.01.2014).

128. Julius [Электронный ресурс] — Режим доступа: http://julius.sourceforge.jp

129. Open Source Toolkit For Speech Recognition [Электронный ресурс] -Режим доступа: http://cmusphinx.sourceforge.net/, свободный (19.11.2013).

130. VoxForge [Электронный ресурс]. - Режим доступа: http://www.voxforge.org/, свободный (06.10.2013).

131. Синтез и распознавание речи [Электронный ресурс]. - Режим доступа: http://sakrament.com/, свободный (16.02.2013).

132. Nuance Communications [Электронный ресурс]. - Режим доступа: www.nuance.com/company/news-room/press-releases/dragonappsrussia.doc, свободный (01.02.2013).

133. Simon listen/ Voice controlled solutions [Электронный ресурс]. — Режим доступа: http://simon-listens.com/, свободный (05.03.2014).

134. ТИК «Политех» [Электронный ресурс]. - Режим доступа: http://polyteh.pro/index.php?id=46, свободный (24.08.2013).

135. Typie: голосовое управление компьютером [Электронный ресурс]. — Режим доступа: http://sovetfrom.net/poleznyie-programmyi/typle-golosovoe-upravlenie-kompyuterom.html, свободный (03.12.2013).

136. Речевые технологии [Электронный ресурс]. - Режим доступа: http://speech-soft.ru/, свободный (17.01.2013).

137. Распознавание речи [Электронный ресурс]. - Режим дос-Tyna:http://www. android-mobile.ru, свободный (11.12.2013).

138. Speechka. Распознавание русской речи [Электронный ресурс]. — Режим доступа: http://speechka.org/, свободный (17.05.2013).

139. Центр речевых технологий: продукты [Электронный ресурс]. — Режим доступа: http://www.speechpro.ru/product, свободный (17.05.2013).

140. Яндекс Технологии [Электронный ресурс]. - Режим доступа: http://api.yandex.ru/speechkit/, свободный (10.03.2014).

141. StatSoftRussia [Электронный ресурс]. - Режим доступа: http://www.statsoft.ru/, свободный (10.03.2014).

142. Компьютерные вести [Электронный ресурс]. - Режим доступа: http://www.kv.by/content/324083-kak-eto-rabotaet-sintez-rechi, свободный (18.01.2014).

143. Системы синтеза и распознавания речи [Электронный ресурс]. — Режим доступа: http://www.rvb.ru/soft/catalogue/c09.html, свободный (10.03.2014).

144. Acapela-group [Электронный ресурс]. - Режим доступа: http://www.acapela-group.com/, свободный (18.02.2014).

145. Vocalazier5 [Электронный ресурс]. - Режим доступа: http://www.nuance.com/vocalizer5/flash/index.html, свободный (16.12.2013).

146. Ivona Text to speech [Электронный ресурс]. - Режим дос-Tyna:http://www.ivona.com/us/, свободный (16.12.2013).

147. The Centre for Speech Technology Research [Электронный ресурс]. - Режим доступа: http://www.cstr.ed.ac.uk/projects/festival/, свободный (21.12.2013).

148. eSpeaktexttospeech [Электронный ресурс]. - Режим доступа: http://espeak.sourceforge.net/, свободный (12.11.2013).

149. RHVoice — многоязычный синтезатор речи [Электронный ресурс]. -Режим доступа: http://tiflo.info/rhvoice/, свободный (01.02.2014).

150. Речевые технологии [Электронный ресурс]. - Режим доступа: http://speech2b.ru/, свободный (14.02.2013).

151. Музыкальная студия "LaBellaClassic" [Электронный ресурс]. - Режим доступа: http://parkov5.narod.ru/gl2/gl2.html, свободный (07.11.2013).

152. Говорилка [Электронный ресурс]. - Режим доступа: http://www.vector-ski. ru/vecs/govorilka/, свободный (16.02.2014).

153. Голубинский А.Н. К вопросу о спектральном составе гласных звуков / А. Н. Голубинский, A.A. Гущина // Наука и образование - 2012: сборник материалов международной научно-технической конференции. - Мурманск, 2012.-С. 107-111.

154. Гущина A.A. Синтез гласных звуков на основе полигармонической математической модели / A.A. Гущина, А.Н. Голубинский // Актуальные вопросы эксплуатации систем охраны и защищенных телекоммуникационных систем: сборник материалов всероссийской научно-практической конференции. - Воронеж: Воронежский институт МВД России, 2012. - С. 66-68.

155. Голубинский А.Н. Анализ и синтез гласных звуков на основе математической модели в виде импульса колебания с амплитудно-частотной модуляцией со сложным несущим сигналом / А.Н. Голубинский, A.A. Гущина // Наука и современность: сборник материалов XVI международной научно-практической конференции. - Новосибирск, 2012. - С. 23-28.

156. Голубинский A.M. О дикторонезависимом распознавании гласных звуков / A.M. Голубинский, A.A. Гущина // Общественная безопасность, законность и правопорядок в III тысячелетии: сборник материалов международной научно-практической конференции. - Ч. 3. - Воронеж: Воронежский институт МВД России, 2012.-С. 8-14.

157. Гущина A.A. О мерах различимости для дикторонезависимого распознавания гласных звуков / A.A. Гущина, A.M. Голубинский // Охрана, безопасность, связь - 2012: сборник материалов международной научно-практической конференции. - Ч. 3. - Воронеж: Воронежский институт МВД России, 2012. — С. 97-101.

158. Заявка на изобретение № 2012138225 РФ: МПК 8 G 10 L 11/04. Способ оценки частоты основного тона речевого сигнала / О.М. Булгаков, А.Н. Голубинский, A.A. Гущина и др. - № 2012138225; Заявл. 06.09.2012; Опубл. 20.03.2014 (Бюл. №8).

159. A.A. Гущина, А.Н. Голубинский. Расчет частоты основного тона речевого сигнала оптимальным методом / Государственный фонд неопубликованных документов ФГАНУ «Центр информационных технологий и систем органов исполнительной власти». - Регистрационный номер № 50201251262 от 22.10.2012г.

160. Голубинский А.Н. Математическая модель вокализованных сегментов речевого сигнала, основанная на модели речевого тракта / А.Н. Голубинский, A.A. Гущина // Вестник Воронежского института МВД России. - 2012. - №4. - С. 72-80.

161. Гущина A.A. / К вопросу о развитии речевых технологий с учетом социокультурных аспектов / A.A. Гущина // Проблемы современных, экономических, правовых и естественных наук в России: сборник материалов I международной научно-практической конференции. - Воронеж, 2013. - С. 347-349.

162. Голубинский A.A. Оценка параметров частотной модуляции речевого сигнала на основе его математической модели / А.Н. Голубинский, A.A. Гущина, P.A. Асташов // Системы управления и информационные технологии. — 2013.-№ 1.1(51)- С. 127-131.

163. Гущина A.A. Расчет индекса частотной модуляции математической модели речевого сигнала / A.A. Гущина, А.Н. Голубинский // Математические Методы в Технике и Технологиях - ММТТ-26: сборник материалов XVI международной научной конференции. - Т.8 - Нижний Новгород, 2013 - С. 176-180.

164. Гущина A.A. К вопросу о математических моделях импульсного источника для описания взрывных звуков речи / A.A. Гущина, А.Н. Голубинский // Актуальные вопросы эксплуатации систем охраны и защищенных телекоммуникационных систем: сборник материалов всероссийской научно-практической конференции. - Воронеж: Воронежский институт МВД России, 2013. -С. 52-54.

165. Гущина A.A. Синтез и анализ взрывных звуков речи на основе полига-уссовской математической модели / A.A. Гущина, А.Н. Голубинский // Информатизация и информационная безопасность правоохранительных органов: сборник трудов XXII международной научной конференции. - М.: Академия управления МВД России, 2013. - С. 203-206.

166. Гущина A.A. Расчет параметров и проверка на адекватность математической модели импульсного источника при описании взрывных звуков / А.Н. Голубинский, A.A. Гущина // Общественная безопасность, законность и правопорядок в III тысячелетии: сборник материалов международной научно-практической конференции. - Ч. 2. - Воронеж: Воронежский институт МВД России,2013. - С. 16-24.

167. Голубинский А.Н. О полигауссовской математической модели речевого сигнала в задачах цифровой обработки речи / А.Н. Голубинский, A.A. Гущина // Проблемы управления, обработки и передачи информации (АТМ-2013): сборник материалов III международной научной конференции. — Саратов, 2013.-С. 137-142.

168. Гущина A.A. К вопросу о точностных характеристиках оценки частоты основного тона / A.A. Гущина // Современное состояние и перспективы развития систем связи и радиотехнического обеспечения в управлении авиацией: сборник материалов всероссийской научно-практической конференции. - Воронеж, 2013.- С. 131-133.

169. Гущина A.A. Точность оценки частоты основного тона оптимальным методом / A.A. Гущина, А.Н. Голубинский // Охрана, безопасность, связь -2012: сборник материалов международной научно-практической конференции. - 4.1. - Воронеж: Воронежский институт МВД России, 2013. - С. 161-167.

170. Голубинский А.Н. Дикторонезависимое распознавание гласных звуков на основе меры различимости спектральных составляющих // А.Н. Голубинский, A.A. Гущина // Телекоммуникации. - 2013. - № 12. - С. 4-10.

171. Гущина A.A. Математическая модель импульсного источника речевого сигнала, основанная на полигауссовской модели / A.A. Гущина, А.Н. Голубинский // Вестник Воронежского института МВД России. - 2013. — №4. - С. 175-181.

172. Гущина A.A. Проверка на адекватность математической модели речевого сигнала в виде частотно-модулируемого колебания со сложной несущей / A.A. Гущина, А.Н. Голубинский // Радиолокация, навигация, связь XX (RLNC*2014): сборник материалов международной научно-технической конференции. - Воронеж, 2014. -Т. 1-С. 308-313.

173. Гущина A.A. Обобщенная математическая модель речевого сигнала для задач анализа и синтеза речи / A.A. Гущина, А.Н. Голубинский // Системы управления и информационные технологии. - 2014. - №1.1(55). -С. 131-135.

174. Заявка на регистрацию программы для ЭВМ. Расчет параметров полигауссовской математической модели речевого сигнала для синтеза и анализа взрывных звуков речи // A.A. Гущина, А.Н. Голубинский, A.C. Меренков. - № 2014611965; Заявл. 11.03.2014.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.