Сжатие речевых данных на основе субполосного анализа и синтеза речевых сигналов в области определения их косинус-преобразования тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Трубицына Диана Игоревна

  • Трубицына Диана Игоревна
  • кандидат науккандидат наук
  • 2021, ФГАОУ ВО «Белгородский государственный национальный исследовательский университет»
  • Специальность ВАК РФ05.13.17
  • Количество страниц 145
Трубицына Диана Игоревна. Сжатие речевых данных на основе субполосного анализа и синтеза речевых сигналов в области определения их косинус-преобразования: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГАОУ ВО «Белгородский государственный национальный исследовательский университет». 2021. 145 с.

Оглавление диссертации кандидат наук Трубицына Диана Игоревна

ВВЕДЕНИЕ

ГЛАВА 1. ИНФОРМАЦИОННЫЙ ОБМЕН НА ОСНОВЕ РЕЧЕВЫХ СООБЩЕНИЙ В ИНФОРМАЦИОННО-ТЕЛЕКОММУНИКАЦИОННЫХ СИСТЕМАХ

1.1 Реализация информационного обмена на основе речевых сообщений

1.2 Модели генерации речевых сигналов и восприятия устной речи человеком

1.3 Частотные представления в задачах анализа и синтеза речевых сигналов

1.4 Постановка задач исследования

ГЛАВА 2. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ СУБПОЛОСНОГО АНАЛИЗА И СИНТЕЗА РЕЧЕВЫХ СИГНАЛОВ С ПОЗИЦИЙ РАЗБИЕНИЯ НА СУБПОЛОСЫ ОБЛАСТИ ОПРЕДЕЛЕНИЯ ИХ КОСИНУС-ПРЕОБРАЗОВАНИЯ

2.1 Субполосные характеристики речевых сигналов в области определения косинус-преобразования

2.2 Свойства собственных векторов и чисел субполосных матриц косинус-преобразования

2.3 Об информативности отрезков трансформант косинус-преобразования

2.4 Вычислительные эксперименты

2.5 Основные результаты и выводы главы

ГЛАВА 3. СУБПОЛОСНОЕ СЖАТИЯ/ВОССТАНОВЛЕНИЕ РЕЧЕВЫХ ДАННЫХ В ОБЛАСТИ ОПРЕДЕЛЕНИЯ КОСИНУС-ПРЕОБРАЗОВАНИЯ РЕЧЕВЫХ СИГНАЛОВ

3.1 Характеристика проблемы

3.2 Метод субполосного кодирования пауз между словами в речевых сигналах

3.3 Метод субполосного сжатия /восстановления отрезков речевых компонент речевого сигнала

3.4 Вычислительные эксперименты

3.5. Основные результаты и выводы главы

ГЛАВА 4. ПРОТОТИП ПРОГРАММНОЙ РЕАЛИЗАЦИИ СЖАТИЯ/ВОССТАНОВЛЕНИЯ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ СУБПОЛОСНОГО АНАЛИЗА/СИНТЕЗА В ОБЛАСТИ ОПРЕДЕЛЕНИЯ

КОСИНУС-ПРЕОБРАЗОВАНИЯ

4. 1 Архитектура прототипа программной реализации алгоритмов сжатия и восстановления речевых сообщений на основе субполосного анализа/синтеза в области определения косинус-преобразования

4.2 Структура пакета для хранения закодированных данных

4.3 Основные результаты и выводы главы

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ ДИССЕРТАЦИИ

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

ПРИЛОЖЕНИЕ А

ПРИЛОЖЕНИЕ Б

ПРИЛОЖЕНИЕ В

ПРИЛОЖЕНИЕ Г

ПРИЛОЖЕНИЕ Д

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Сжатие речевых данных на основе субполосного анализа и синтеза речевых сигналов в области определения их косинус-преобразования»

ВВЕДЕНИЕ

Актуальность работы. Обмен сообщениями на основе устной речи в настоящее время достаточно распространен ввиду естественности этой формы информационного взаимодействия для человека. Тенденция использования устной речи будет усиливаться, чему способствуют информационные технологии хранения и передачи речевых сообщений. Среди таких технологий можно отметить архивацию речевого обмена в диспетчерских службах, например на транспорте, видео и аудиоконференции в системах управления различными структурами и т.п. .

Поэтому возникает необходимость создания таких речевых информационных технологий, которые позволяют экономно расходовать ресурсы инфокоммуникационных систем при хранении и передаче речевых данных, которые представляют собой двоичные коды, позволяющие воспроизвести устную речь с применением специальных устройств. Отметим, что первоначальные двоичные коды получаются на основе аналого-цифрового преобразования речевых сигналов (РС), то есть колебаний электрических токов (напряжений) на выходах микрофонов при акустических воздействиях, создаваемых речевой системой человека. Эти двоичные коды могут быть преобразованы с целью уменьшения их объема. Именно такие преобразования называются сжатием речевых данных. В рамках данной работы рассматриваются процедуры сжатия, которые с позиций точности восстановления исходных отсчетов РС принято называть необратимыми

В свою очередь воспроизведение (синтез) речевых сообщений предполагает восстановление на основе двоичных кодов отсчетов речевых сигналов и использование цифро-аналоговых преобразователей для генерации непрерывных акустических колебаний, воспринимаемых слуховой системой человека. Ясно, что применяемые процедуры сжатия должны обеспечивать необходимое качество звучания синтезированной устной речи и прежде всего

разборчивости речи, например с позиций понимания смысла воспроизводимых сообщений.

Важность использования процедур сжатия данных об воспринимаемых слуховой системой человека акустических процессах иллюстрируется наличием достаточно большого количества печатных работ многих отечественных и зарубежных авторов, среди которых можно отметить Л. Р. Рабинер, О.Н. Шелухин, Е.Г. Жиляков, Р.В. Шафер, Э. Оппенгейм, А. А. Пирогов, Е. И. Прохоренко, А.В. Болдышев, В.С. Сергеенко, В.Г. Санников, М.А. Сапожников. Важно также иметь в виду наличие компаний, которые разработали конкретные технологии сжатия акустических данных, например кодеки музыкальных данных МР3, ООО, а также кодеки линейного предсказания при сжатии речевых данных.

Вместе с тем наличие достаточно широко применяемых в настоящее время кодеков акустических данных не снижает актуальности исследования возможностей совершенствования процедур сжатия речевых данных с позиций адекватности учета физических свойств РС.

Прежде всего отметим, что РС состоит из словных отрезков, порождаемых при произнесении слов (речевые компоненты), состоящих из различных звуков, и шумами в паузах между словами (отсутствие речи). Поэтому одним из направлений сжатия речевых данных служит исключение информации об отсчетах РС в паузах речи (кодирование пауз). Такие процедуры принято называть детекторами активности речи (ДАР) (латинская аббревиатура УЛО). Современные ДАР как правило используют различия в энергиях отрезков РС в паузах и при наличии речи. Основной недостаток такого подхода заключается в необходимости анализа достаточно длительных отрезков РС, что неэффективно с позиций сжатия. Так как в режиме диалога суммарная длительность пауз составляет порядка 50%, то целесообразно разработать такой ДАР, который позволяет повысить степень сжатия данных при отсутствии искажений речевых компонент. Для достижения такого

эффекта необходимо использовать признаки, более адекватно чем энергии отражают различия в свойствах шумов в паузах и речевых компонент РС.

Не вызывает сомнения утверждение о том, что для достижения наибольшего эффекта обработки эмпирических данных необходимо использовать математический аппарат, в явном виде адекватно отражающий их свойства с позиций решаемой задачи. Следует, однако, отметить, что используемые в настоящее время процедуры сжатия речевых данных, включая кодирование пауз, в явном виде не используют свойство сосредоточенности энергий речевых компонент в малой доле частотной полосы, определяемой половиной частоты дискретизации.

В данной работе предлагается осуществить такой учет в рамках косинус-преобразования отрезка исходных эквидистантных с шагом Дt центрированных отсчетов РС

N

Х(о) = 2 хк со$(ак) , 0 <о<ж, (1)

к=1

N

хк = х(Ш) - 2 х(Ш) / N. (2)

г=1

Ортогональность набора косинусов позволяет получить равенство, которое является субполосным аналогом равенства Парсеваля

N Я К К

| I х || 2=2 х^ = 2 р х) = 2 \ \х(р)\2 йо/ж, (3)

к=1 г=1 г=1 V

у г-1

где Ко = 0;Кк =ж .

Обработку сигналов с позиций разбиения области определения косинус-преобразования будем называть субполосной. Очевидно, что значения интегралов в (3) по субполосам Пг = \уг-1,Уг),г = 0, ...,й естественно интерпретировать как части энергий отрезков РС, попадающих в них. Среди субполос найдутся такие, которые будут в сумме содержать подавляющую долю энергии. Это позволяет при сжатии данных сохранять только информацию о компонентах РС, определяемых этими субполосами.

Именно такой принцип рассматривается в данной работе, что и определяет термин «субполосное сжатие».

Целью работы является совершенствование технологий обработки речевых сигналов на основе разработки метода и алгоритмов субполосного сжатия речевых данных в рамках разбиения на субполосы области определения косинус-преобразования отсчетов РС.

Для реализации сформулированного выше принципа сформулированы и решены следующие задачи.

1. Анализ моделей генерации и восприятия речевых сигналов с позиций сжатия речевых данных.

2. Разработка теоретических основ субполосного анализа и синтеза речевых сигналов в области определения косинус-преобразования при решении задач сжатия речевых данных.

3. Разработка субполосного метода и алгоритмов сжатия/восстановления речевых данных в области определения косинус-преобразования

4. Оценка работоспособности метода и алгоритмов на основе вычислительных экспериментов и оценки качества звучания восстановленных сообщений.

5. Разработка прототипа программной реализации сжатия/восстановления речевых сигналов на основе субполосного анализа/синтеза в области определения косинус-преобразования.

Объект и предмет исследования. Объектом исследования являются информационные технологии обработки речевых сигналов. Предмет исследования - методы субполосного сжатия речевых данных.

Методы исследований. В работе использованы методы: цифровой обработки сигналов, статистического анализа, линейного алгебры, субполосного анализа и синтеза, вычислительных экспериментов.

Научную новизну работы составляет следующее:

1. Математический аппарат субполосного анализа и синтеза сигналов в области определения косинус-преобразования;

2. Понятие информационных субполосных компонент речевых сигналов в области определения косинус-преобразования и метод их выделения;

3. Метод субполосного сжатия/восстановления речевых сообщений в области определения косинус-преобразования.

Теоретическая значимость исследований обусловлена развитием метода субполосного анализа и синтеза речевых сигналов на случай косинус-преобразования.

Практическая значимость исследований определяется возможностью создания программно-алгоритмической реализации субполосного сжатия речевых данных, которая позволяет достичь высокой степени сжатия с сохранением качественного звучания восстановленных сообщений.

Результаты работы используются в ООО «НПП «ЭИТ» БелГУ», в ООО «Нетком», а также в учебном процессе НИУ «БелГУ», что подтверждается соответствующими актами.

Область исследования. Содержание диссертации соответствует паспорту специальности 05.13.17 «Теоретические основы информатики» (технические науки) по следующим областям исследований:

п.3. Исследование методов и разработка средств кодирования информации в виде данных. Принципы создания языков описания данных, языков манипулирования данными, языков запросов. Разработка и исследование моделей данных и новых принципов их проектирования.

п.5 Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений.

Связь с научными и инновационными программами. Результаты диссертационного исследования использованы при выполнении проекта в

рамках программы «У.М.Н.И.К.» Фонда содействия развитию малых форм предприятий в научно-технической сфере.

Положения, выносимые на защиту:

1. Принцип сжатия речевых сообщений на основе субполосного анализа и синтеза речевых сигналов в рамках косинус преобразования отсчетов речевых сигналов.

2. Алгоритмы субполосной обработки речевых сигналов в задачах сжатия речевых данных и восстановления речевых сообщений.

3. Результаты вычислительных экспериментов, которые иллюстрируют работоспособность алгоритмов субполосного сжатия речевых данных при высоком качестве звучания восстанавливаемых речевых сообщений.

Достоверность и обоснованность результатов исследования обусловлена корректностью применяемых математических преобразований, отсутствием противоречий с известными положениями теории и практики, обработки речевых сигналов, и иллюстрируются результатами вычислительных экспериментов с реальными речевыми данными.

Личный вклад автора. Результаты исследований, изложенные в работе, были получены автором лично, либо при его участии.

Апробация результатов исследования.

Результаты, проведенных исследований, обсуждались на следующих научно-технических конференциях: 13-я Курчатовская молодежная научная школа (г. Москва, 2015г.); 18-ая международная научно-техническая конференция «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций» (г. Рязань, 2015г.); 14-я Курчатовская молодежная научная школа (г. Москва, 2016г.); 15-ая Курчатовская молодежная научная школа (Москва, 2017г.); IV Конгресс молодых ученых (г. Санкт-Петербург, 2017г).

Публикации. Основные положения диссертационной работы изложены в 10 печатных работах, из них 3 в журналах из списка ВАК и 2 в журналах,

индексируемых в базе Scopus, 5 публикаций в сборниках статей, трудах, материалах и докладах международных конференций.

Объем и структура работы. Диссертация состоит из Введения, четырех глав, Заключения, списка использованных источников из 126 источников, 5 приложений.

Работа была выполнена на кафедре информационно -телекоммуникационных систем и технологий института инженерных и цифровых технологий Белгородского государственного национального исследовательского университета.

ГЛАВА 1. ИНФОРМАЦИОННЫЙ ОБМЕН НА ОСНОВЕ РЕЧЕВЫХ СООБЩЕНИЙ В ИНФОРМАЦИОННО-ТЕЛЕКОММУНИКАЦИОННЫХ СИСТЕМАХ

Современный этап развития общества можно охарактеризовать постоянно растущим потоком разнообразной информации, всё более интенсивно использующейся в информационно-телекоммуникационные системы. Информационно-телекоммуникационные системы представляют собой комплекс программных и аппаратных средств, предназначенных для сбора, хранения, преобразования, передачи по каналам связи и отображения в нужном для пользователя виде данных, которые характеризуют некоторые процессы и объекты [20]. И большую часть информации составляют речевые данные. Это обусловлено тем, что устная речь является удобным и естественным способом информационного обмена между людьми.

Таким образом, представляется целесообразным подробно рассмотреть вопросы обработки и хранения речевых данных в существующих информационно-телекоммуникационных системах с целью определения возможностей минимизации ресурсов.

1.1 Реализация информационного обмена на основе речевых сообщений

Под информационным обменом понимается способ взаимодействия людей в процессе жизнедеятельности, реализуемый в самых разнообразных формах, от жестикуляции до речи. Наиболее естественным для человека способом представления информации является устная речь. При

использовании речевых сообщений, предметы и объекты кодируются с помощью сочетаний определенного количества звуков речи, которые предназначены для определенного адресата. Речевые сообщения состоят из двух типов сигналов: звуковых колебаний, порожденных речевым аппаратом человека (речь), и их отсутствие (пауза). При этом паузы составляют порядка 30% в слитных речевых сообщениях и до 70% в диалогах. Причем стоит отметить, что паузы также в некоторых случаях могут представлять собой информационную компоненту речевого обмена, например, их длительность и частота отражает эмоциональное состояние человека.

В ИТС информационный обмен реализуется с помощью некоторой системы кодирования/декодирования, в которой речевые сообщения подвергаются преобразованию в цифровой вид (АЦП) и дальнейшему преобразованию для хранения и передачи по каналам связи [20, 22, 29, 30, 53].

Можно выделить следующие основные направления развития технологий компьютерной обработки речевых сообщений:

1 Сжатие речевых данных при хранении и передаче (кодеки);

2. Синтез речи (вокодеры);

3. Идентификация дикторов;

4. Улучшение качества звучания устной речи;

5. Распознавание команд и слитной речи.

Особое значение для информационно- телекоммуникационных систем имеют компьютерные технологии сжатия речевых данных, так как они позволяет уменьшить затраты частотно- временных ресурсов при хранении и передаче речевых сообщений за счет уменьшения объемов их битовых представлений. Очевидно, что при этом реализуются некоторые преобразования (перекодирования) исходных цифровых представлений отсчетов РС.

Преобразование данных можно разделить на два вида:

1. Обратимые преобразования (без потерь);

2. Необратимые преобразования (с потерями).

Обратимые преобразования позволяют точно, без искажений, воспроизвести исходные данные и используются для «архивации» символьной информации, потери в которой не могут быть восполнены, а искажения приводят к замене одних символов другими.

Такие виды информации, как аудио-, видео-, графическая, обладают значительной избыточностью и позволяют осуществлять над ними преобразования с потерями. Т. е. допускается некоторая потеря данных, а, следовательно, искажения при воспроизведении (ухудшение качества).

Под избыточностью в речевых сообщениях понимают увеличение количества исходной информации, которое требуется для воспроизведения сообщения с заданным критерием качества. Например, если основным критерием качества является разборчивость, то наличие пауз приводит к сохранению избыточности, также в этом случае можно считать избыточной информацию о составе обертонов, которые влияют на узнаваемость дикторов.

С точки зрения сжатия речевых данных, прежде всего, необходимо обеспечить сохранность информационной составляющей речи. В зависимости от цели прослушивания речи, можно выделить несколько аспектов информационных составляющих. Наиболее важной из них является смысл воспринимаемого сообщения, что принято характеризовать термином разборчивость речи. Следует отметить, что разборчивость речи зависит так же от психофизических способностей человека, включая его состояние и степень сосредоточенности на воспринимаемых звуках речи. Вместе с тем необходимо ориентироваться на некоторый усредненный уровень обеспечения разборчивости [13, 42, 47, 51, 57].

Другим аспектом информационных составляющих, которые приобретают в настоящее время достаточно большое значение - сохранение узнаваемости говорящего, что приводит к необходимости сохранения индивидуальных, а не усреднённых характеристик. Узнаваемость говорящего, является важным свойством в системах аутентификации, идентификации

дикторов, в том числе в системах безопасности, как информационной, так и другой.

Вне зависимости от последующих процедур, реализующих те или иные задачи, в информационно-телекоммуникационных системах (ИТС) при обработке речевых сообщений осуществляются следующие информационные процессы: сбор, преобразование, использование. В свою очередь они распадаются на ряд подпроцессов: передача, поиск, кодирование, обработка, защита, хранение, отбор. Данные процессы взаимосвязаны, в частности, процесс преобразования информации включает в себя обработку информации, её кодирование, передачу и хранение. На рисунке 1.1 представлена взаимосвязь информационных процессов [29, 69, 73, 76].

Рисунок 1.1 - Взаимосвязь информационных процессов: линиями без стрелок показаны включения одних процессов в другие; линиями со стрелками -последовательность выполнения процессов

По завершению процедуры сбора информации РС преобразуется в последовательность бит, имеющую значительный объем. Поэтому актуальной является задача сжатия речевых данных для последующего хранения и передачи по каналам связи.

Хранение информации - это один из информационных процессов, который позволяет информации оставаться неизменной во времени и пространстве.

Можно выделить два вида информационных носителей: внутренние и внешние. Под внутренним носителем стоит понимать биологическая память человека, а под внешним носителем, например, бумага. Современными цифровыми носителями являются магнитные и оптические диски, Flash-память, облачные хранилища. Использование внешних носителей позволяет долговременно хранить информацию. В качестве примеров долгосрочного хранения речевых данных можно отметить следующее: звукозаписи лекций, аудиокниги, системы звукового оповещения в железно- и авто-вокзалах, аэропортах, голосовых помощниках, в системах навигации, диспетчерских службах и многое другое.

Однако количество информации, которое может быть размещено на информационном носителе, зависит от объема памяти носителя. Под объемом стоит понимать - количество бит, используемых для кодирования данных. В компьютере любые данные представляют собой набор бит, состоящих из элементов, которые принимают только два допустимых значения «0» и «1».

Как было отмечено ранее, для хранения двадцатичетырехчасовой записи переговоров диспетчерских служб при частоте дискретизации Ед = 8 кГц и уровню квантования равному 8 бит, потребуется порядка V = 5,5 • 109 бит, поэтому для повышения эффективности использования ресурсов памяти на жестких и облачных хранилищах, возникает необходимость выполнять процедуру сжатия. Под сжатием речевых данных следует понимать перекодирование отсчетов речевых сигналов исходного файла, при котором объем будет меньше, чем у исходного. Это позволит также разгрузить каналы связи и системы обработки речевых данных за счет исключения передачи избыточных сведений.

Под эффективностью в данной работе понимается отношение объемов памяти, которое необходимо для хранения исходных речевых данных к

объему памяти, которое занимают речевые данные после процедуры их сжатия (перекодирования).

Методы и алгоритмы сжатия речевых данных должны быть адекватны моделям генерации и восприятия человеком речевых сигналов, поскольку как источником, так и конечным потребителем звуков речи является человек, обладающий сложными системами речеобразования и речевосприятия. Исходя из этого, представляется целесообразным рассмотреть данные системы и свойства речевых сигналов.

1.2 Модели генерации речевых сигналов и восприятия устной речи человеком

Устная речь является наиболее удобным средством передачи информации, как вербальной (словесной), так и не вербальной (эмоциональной). Исследованиями процессов генерации и восприятия речевых сигналов, а также построением их моделей занимались многие ученые, как российские, так и зарубежные, их подробное описание представлено в различных литературных источниках [1, 2, 3, 4, 5, 74, 84, 88, 92, 101, 102, 104, 105].

Выделяют следующие модели генерации речевых сигналов:

1. Физиологическая модель;

2. Психоакустическая модель;

3. Математическая модель.

На рисунке 1.2 представлен процесс образования и восприятия речи человеком, который описан во многих публикациях [84, 88, 92, 101, 104, 105].

<>е чин и с

.Л1НАСННС Ы11И.1*Р^

НОИ !

Рисунок 1.2 - Процесс образования и восприятия речи

Модели генерации речевых сигналов являются результатом физиологических и акустических исследований. Физиологические модели основываются на описании механизмов речеобразования и процессов, которые в них протекают.

Речевой тракт человека - это сложный комплекс органов, изменяющийся с течением времени, который представляет собой неоднородную акустическую трубку, простирающуюся от голосовой щели до губ [100].

На рисунке 1.3 представлен речевой тракт человека.

Рисунок 1.3 - Речевой тракт человека

Голос человека возникает при прохождении воздуха из легких через трахею в гортань, мимо голосовых связок, и, далее в глотку и рот и носовую полость (Рисунок 1.4).

. Нос

Легкие Трахея Гортань

Рот

Рисунок 1.4 - Схема прохождения воздуха при образовании голоса

Легкие, под действием мускулатуры диафрагмы расширяются при вдохе, набирая воздух. При выдохе, легкие создают необходимый для звукообразования поток воздуха. Из лёгких воздух выходит через бронхи, тонкие разветвленные воздуховоды, в дальнейшем соединяющиеся вместе и образующие трахею. Трахея, с «механической» точки зрения, представляет собой воздушную трубу, усиленную каркасом из хрящевых полуколец. Трахея довольно подвижна, и соединена с гортанью. Форма гортани имеет большое значение для того, каков будет голос ее владельца [1, 2, 28, 35, 36, 100].

Гортань ближе к середине сужается, и в самом узком месте располагаются голосовые связки, представляющие собой две горизонтальные складочки. Отверстие между ними называется голосовой щелью. Над голосовыми связками располагаются - желудочки гортани, над каждым из которых находится складка, параллельная голосовым связкам. Верхние желудочковые складки называются ложными и состоят из рыхлой соединительной ткани, желёз и слабо развитых мышц. Железы в этих складочках обеспечивают увлажнение голосовых складок, что очень важно для певческого голоса. При звукообразовании голосовые складки соединяются или смыкаются, и щель закрывается. Связки могут изменять свою длину, толщину, и колебаться по частям, что придаёт голосу певца разнообразные окраски, богатство звука и подвижность.

Глотка выполняет функции резонатора. Она довольно объёмна, неправильной формы. Глотка отделяется от нёба "нёбной занавеской". Размеры глотки могут изменяться от движений нёбной занавески и языка. Также для правильного звукообразования имеет большое значение артикуляция.

При помощи губ, зубов, языка и неба звуки, формируемые в голосовых связках, преобразуются в гласные и согласные звуки человеческой речи

Тональность голоса разных людей различается, вследствие различных размеров и степени натяжения голосовых связок.

Человек изменяет частоту основного тона с помощью регулирования натяжения связок в процессе артикуляции.

Человек помимо голосовых звуков, может издавать и так называемые шумовые звуки, которые в свою очередь можно разделить на два типа: импульсные и турбулентные.

Образование турбулентных звуков происходит при прохождении звука через сужающийся речевой тракт, например, согласные с, ф, х, ц, ч, ш, щ.

Образование импульсных шумовых звуков происходит при резком изменении давления в процессе прерывания струи воздуха, например, когда человек произносит согласные звуки п, к, т, д.

К основным участникам звукообразования относят: голосовые связки; язык; губы;

мягкое небо; язычок;

задняя спинка зева; нижняя челюсть.

Также на характер звуков влияет строение так называемых «пассивных органов речи», а именно: • зубов;

• альвеол;

• твердого неба;

• верхней челюсти.

Пассивным органам речи отведена вспомогательная роли, но их значение достаточно велико, то есть отсутствие нескольких зубов может привести к значительным искажениям речи (шепелявое произношение).

Речевое сообщение, передаваемое с помощью речевого сигнала -дискретно, то есть состоит из конечного числа последовательности символов.

Стоит отметить, одинаковые звуки люди произносят по-разному. Произношение звуков русской речи зависит от различных параметров, таких как ударение, соседние слова и т.д. Но при всем многообразии в их произношении звуки являются физическими реализациями ограниченного числа обобщенных звуков речи (фонем). Фонема - это то, что человек должен произнести, а звук - то, что человек фактически произносит. Фонема по отношению к звуку речи играет ту же роль, что и образцовая буква по отношению к ее рукописной форме в конкретном написании. В русском языке насчитывается 42 основные и 3 неопределенные фонемы [100].

По месту образования фонемы могут быть разделены на губные, зубные, небные, гортанные, передние и задние. Фонемы - неделимые элементы речи (звуки или набор звуков воспринимается как единое целое). В качестве фонемы может выступать как один звук речи, так и сочетания звуков, идущих подряд. Гласных фонем шесть: а, о, у, э, и, ы (гласные е, ё, ю, я - составные из й и гласных э, о, у, я).

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Список литературы диссертационного исследования кандидат наук Трубицына Диана Игоревна, 2021 год

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. Аграновский, А.В. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов [Текст]/ А.В. Аграновский, Д.А. Леднов -М.: Радио и связь, 2004. - 164 с.

2. Алдошина, И.А. Основы психоакустики. Слух и речь. Часть 1 / И. А. Алдошина // Информационно-технический журнал «Звукорежиссер». -2002. - №1. - С. 38-44.

3. Алдошина, И. Основы психоакустики. Слух и речь. Часть 2 [Текст] / И. Алдошина // Информационно-технический журнал «Звукорежиссер». -2002. №3. - С.54-58.

4. Алдошина, И. Основы психоакустики. Слух и речь. Часть 3 [Текст] / И. Алдошина // Информационно-технический журнал «Звукорежиссер». -2002. №4. - С.38-44.

5. Алдошина, И. Основы психоакустики. Слух и речь. Часть 4 [Текст] / И. Алдошина // Информационно-технический журнал «Звукорежиссер». -2002. №5. - С.44-50.

6. Андерсон, Т. Статистический анализ временных рядов [Текст]: Пер. с англ. / Т. Андерсон; под. ред. Ю. К. Беляева. - М.: Мир, 1976. - 755 с.

7. Айфичер, Э.С. Цифровая обработка сигналов: практический подход, 2-е издание [Текст] / Пер. с англ. / Э.С. Айфичер, Б.У. Джервис М.: Вильяме, 2004. -992с.: ил.

8. Ахмад, Х.М. Введение в цифровую обработку речевых сигналов: Учебное пособие/ Х. М. Ахмад, В.Ф. Жирков - Владимир: Издательство Владим. гос. ун-та, 2007. - 192 с.: ил.

9. Бабков, В.Ю. Передача информации в системах подвижной связи [Текст] / В.Ю. Бабков, М.А. Вознюк, В. А. Петраков, А.Е. Рыжков, М.С. Сиверс. - СПбГУТ, СПб, 1999. - 152 с.

10. Беллами, Дж. Цифровая телефония [Текст]: Пер. с англ. / Дж. Беллами. - М.: Радио и связь, 1986. - 544 с.

11. Белов, С.П. О различиях частотных свойств информационных и неинформационных звуковых сигналов речевого диапазона [Текст] / С. П. Белов, А. С. Белов // журнал «Научные ведомости БелГУ» Серия: Информатика. - Белгород. - 2008. - Вып. 7(38). - С.214-221.

12. Блейхут, Р. Быстрые алгоритмы цифровой обработки сигналов [Текст]/ Р. Блейхут / Пер. с англ. И. И. Грушко. - М.: Мир, 1989ю - 448 с.: ил.

13. Болдышев, А. В. О сжатии речевых данных на основе клиппирования и частотных представлений [Текст] / Е. И. Прохоренко, А.В. Болдышев // Сборник трудов Первой Международной научно-технической конференции «Компьютерные науки и технологии». - Белгород: - 2009. -Часть 2 - С. 232-235.

14. Болдышев, А. В. Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных [Текст]: автореф. дис. канд. техн. наук / А.В. Болдышев. -Белгород, 2013. - 26 с.

15. Болдышев, А. В. О различиях распределения энергии звуков русской речи и шума [Текст] / А.В. Болдышев, А.А. Фирсова // Материалы 12й международной конференции и выставки «Цифровая обработка сигналов и её применение» - DSPA 2010. - Москва: РНТОРЭС. Вып. XIV, т. 1, 2010. - С. 204-207.

16. Болдышев, А. В. Метод сжатия речевых данных на основе составной субполосной матрицы [Текст]/ Е. И. Прохоренко, А.В. Болдышев, А.В. Эсауленко // Журнал «Вопросы Радиоэлектроники», серия электроника и вычислительная техника (ЭВТ). - М.: Вып. 1, 2011. С. 60-72.

17. Болдышев, А. В. Метод сжатия речевых данных на основе оптимального субполосного преобразования по составным частотным интервалам [Текст]/ А.В. Болдышев // Научные Ведомости БелГУ серия История. Политология. Экономика. Информатика. - Белгород: 2011. - № 1 (96). - Вып. 17/1 - С. 217-222.

18. Быков A.A., Кропотов Ю.А. Исследование математического ожидания, дисперсии и функции автокорреляции речевого сигнала // Математическое и программное обеспечение вычислительных систем: межвуз. сб. науч. тр. Рязань: РГРТА, 2005. - С. 153 - 155с.

19. Варакин, Л. Е. Теория систем сигналов [Текст] / Л. Е. Варакин. -М.: Советское радио, 1978. - 375 с.

20. Васюнин, В.Н. Цифровая обработка сигналов и сигнальные процессоры в системах подвижной радиосвязи: Учебное пособие / В. Н. Васюнин. - Новосибирск: Издательство НГТУ, 2003. - 292с.

21. Ватолин Д., Методы сжатия данных. Устройство архиваторов. Принципы сжатия аудио и видео [Текст]/Д. Ватолин, А. Ратушняк, М.Смирнов; Пер. с англ. под редакцией В.С. Штаркмана. - М.: Издательство «М-диалог МИФИ», 2003. - 384 с.

22. Величкин, А.И. Передача аналоговых сообщений по цифровым каналом связи [Текст] / А.И. Величкин. - М.: Радио и связь, 1983. - 240 с.

23. Винцюк, Т. К., Анализ, распознавание и интерпретация речевых сигналов [Текст]/ Т.К. Винцюк - Киев: Наук.думка, 1987. - 264с.

24. Вологдин, Э. И. Слух и восприятие звука [Текст]: учеб. пособие / Э. И. Вологдин. - СПб.: СТ «Факультет ДВО», 2004. - 36 с.

25. Воробев, В.И. Теория и практика вейвлет-преобразования [Текст] / В.И. Воробев, В.Г. Грибунин. - СПб.: Изд-во ВУС, 1999. - 204 с.

26. Ворсано, Д. Кодирование речи в цифровой телефонии [Текст] / Д. Ворсано // Сети и системы связи. - 1996. - №8. - С. 24-27.

27. Гантмахер, Ф.Р. Теория матриц [Текст] / Ф.Р. Гантмахер. - М.: Наука, 1968. - 576 с.

28. Герасимов, А.В. Применение метода модифицированного линейного предсказания к задачам выделения акустических признаков речевых сигналов [Текст] / А.В.Герасимов, О. А. Морозов, В.Р. Фидельман // Радиотехника и Электроника. - 2005. - том 50. №10. - С. 1287-1292.

29. Гельфанд, С.А. Слух: Введение в психологическую и физиологическую акустику [Текст] / С. А. Гельфанд. - М.: Медицина, 1984. -350 с.

30. Голд, Б. Цифровая обработка сигналов [Текст] / Б. Голд, Ч. Рейдер.

- М.: Сов. Радио, 1973. - 368 с.

31. Гольденберг, Л. М. Цифровая обработка сигналов [Текст]: справочник / Л. М. Гольденберг, Б. Д. Матюшкин, М. Н. Поляк. - М.-: Радио и связь, 1985. - 308 с.

32. Гольденберг, Л. М. Цифровая обработка сигналов [Текст]: учеб. пособие / Л. М. Гольденберг, Б. Д. Матюшкин, М. Н. Поляк. - 2-е изд., перераб. и доп. - М.-: Радио и связь, 1990. - 256 с.: ил.

33. Гольдштейн, В.С. 1Р-телефония [Текст] / В. С. Гольдштейн, А. В. Пинчук, А.Л. Суховицкий. - М: Радио и связь, 2011. - 336 с.: ил.

34. Горелов Г. В., Ромашкова О. Н., Чан Туан А. Качество управления речевым трафиком в телекоммуникационных сетях // Под ред. Горелова Г. В. -М.: Радио и связь, 2001.

35. Громаков, Ю.А. Сотовые системы подвижной радиосвязи. Технологии электронных коммуникаций [Текст] / Ю.А. Громаков. - М.: Эко_трендз, 1994. - 302 с.

36. Гудонавичюс, Р.В. Распознавание речевых сигналов по их структурным свойствам [Текст] / Р.В. Гудонавичюс, П.П. Кемешис, А.Б. Читавичюс - Л.: «Энергия», 1977. - 64 с.

37. Дегтяров, Н. П. Параметрические и информационное описание речевых сигналов [Текст] / Н.П. Дегтяров. - Минск, 2003. - 216 с

38. Дженкинс, Г. Спектральный анализ и его приложения [Текст] / Пер. с англ. Г.Дженкинс, Д. Ватте; под ред. В. Ф. Писаренко. - М.: Мир, 1971.

- 316 с.

39. Жиляков, Е.Г. Вариационные методы анализа и построения функций по эмпирическим данным [Текст] /Е.Г. Жиляков. - Белгород: Изд-во БелГУ, 2007. - 160 с.

40. Жиляков, Е. Г. Вариационные методы анализа сигналов на основе частотных представлений [Текст] / Е.Г. Жиляков, С. П. Белов, А.А. Черноморец // Вопросы радиоэлектроники, сер. ЭВТ, вып.1. - Москва: Изд-во ОАО «ЦНИИ «Электроника», 2010. - 185с.

41. Жиляков, Е.Г. Моделирование речевых сигналов на основе частотных представлений [Текст] /Е.Г. Жиляков, С. П. Белов, Е. И. Прохоренко, А.А. Черноморец, Н.С. Паболкова. - Белгород: ООО «ГиК», 2010. - 158 с.

42. Жиляков, Е.Г. Методы обработки речевых данных в информационно-телекоммуникационных системах на основе частотных представлений [Текст] / Е.Г. Жиляков, С. П. Белов, Е. И. Прохоренко. -Белгород: Изд-во БелГУ, 2007. - 136 с.

43. Жиляков, Е.Г. О сжатии речевых сигналов [Текст] / Е.Г. Жиляков, С. П. Белов, Е. И. Прохоренко // Вестник Национального технического университета «ХПИ». - 2005. - вып.56. - С.32-41.

44. Жиляков, Е.Г. Частотный анализ речевых сигналов [Текст] / Е.Г. Жиляков, Е.И. Прохоренко // Научные ведомости Белгородского государственного университета. Сер. Информатика и прикладная математика - 2006. - №2(31), выпуск 3. - С.201-208.

45. Жиляков, Е.Г. О субполосном кодировании сигнала [Текст] / Е.Г. Жиляков, И. Г. Попов, И. И. Чижов // Вестник национального технического университета «ХПИ». - 2004. - № 46. - С.

46. Жиляков, Е. Г. Оптимальное двоичное кодирование уровней речевых данных [Текст] / Е.Г. Жиляков, С. П. Белов, Е. И. Прохоренко, А.В. Болдышев, А. А. Фирсова // «Вопросы радиоэлектроники», серия ЭВТ. - М.: ЦНИИ Электроника, 2013. вып. 1 - С. 110-115.

47. Жиляков, Е. Г. Модели распределения энергии звуков русской речи на основе частотных представлений [Текст] / Е.Г. Жиляков, А.В. Болдышев, А.А. Фирсова // XXIII Международной научной конференции

Математические методы в технике и технологиях. - Саратов, 2010. - С. 236239.

48. Жиляков, Е.Г. Субполосный анализ и синтез сигналов в рамках косинусного преобразования [Текст] / С.П. Белов, Е.Г. Жиляков, А.В. Коськин, Д.И. Трубицына // Научно-технический журнал Информационные системы и технологии. № 4 (114) июль-август 2019. С. 13-22.

49. Жиляков, Е.Г. Обобщенный субполосный анализ и синтез сигналов [Текст] / Жиляков Е.Г., Белов С.П., Олейник И.И., Трубицына Д.И.// Инфокоммуникационные технологии, том 17, №2, 2019. - №2. С.139-145.

50. Загуменков, А.П. Компьютерная обработка звука [Текст] / А.П. Загуменков. - М.: ДМК Лайт, 1999. - 382 с.

51. Кагановский, Ю. Д. Применение модели линейного предсказания для анализа стохастических сигналов [Текст] // Технические науки: традиции и инновации: материалы междунар. науч. конф. / Челябинск: Два комсомольца, 2012. - С. 12-14.

52. Калинцев, Ю.К. Разборчивость речи в цифровых вокодерах [Текст]. - М.: «Радио и связь», 1991. - 220 с.

53. Ковалгин, Ю.А. Цифровое кодирование звуковых сигналов [Текст] / Ю.А. Ковалгин, Э.И. Вологодин. - СПб: Корона-принт, 2004. - 240 с.: ил.

54. Коротаев, Г.А. Некоторые аспекты линейного предсказания при анализе речевого сигнала [Текст] / Г.А. Коротаев // Зарубежная радиоэлектроника. - 1991. - № 7. - С.13-31.

55. Коротаев, Г.А. Системы анализа и синтеза речевого сигнала с линейным предсказанием [Текст] / Г.А. Коротаев // Зарубежная радиоэлектроника. - 1976. - № 10. - С.3-14.

56. Кузечева, З. А. Векторы, алгебры, пространства. Математическая кибернетика [Текст] / З.А. Кузечева//. - М.: из-во «Знание», вып. 11. 1970. - 62 с

57. Куприянов, М.С. Цифровая обработка сигналов: процессоры, алгоритмы, средства проектирования [Текст]/ М. С. Куприянов. - СПб.: Политехника, 1999. - 592 с.

58. Кучеров, В.Я. Синтезированная речь в системах массового обслуживания [Текст]/ В.Я. Кучеров, Б. М. Лобанов. - М.: Радио и связь, 1983. - 132 с.: ил.

59. Лабутин, В.К. Модели механизмов слуха [Текст] / В. К. Лабутин, А. П. Молчанов. - М.: Энергия, 1973. - 200 с.

60. Ланнэ, А А. Исследования моего голоса [Текст] / А.А. Ланнэ, С. М. Арбузов, А.О. Таланов. - СПб.: СПбГУТ, 2005. - 52 с.

61. Латхи, Б.П. Системы передачи информации [Текст]/ Б. Латхи Пер. с англ. под ред. Б. И. Кувшинова. - М.: «Связь», 1971. - 324 с.

62. Лобанов, Б. М. Компьютерный синтез и клонирование речи [Текст]/ Б. М. Лобанов, Л.И. Цирульник. - Минск:, 2008. - 316 с.:ил.

63. Маркел Дж.Д., Грэй А.Х. Линейное предсказание речи [Текст]/: Пер. с англ. Ю. Н. Прохорова, В.С. Звездина; Под редакцией Ю.Н. Прохорова, В.С. Звездина. - М.: Издательство «Связь», 1980. - 308с.: ил.

64. Минин, С.А. Кодер АДИКМ аппаратуры цифровой спутниковой связи [Текст] / С.А.Минин // Электросвязь. - 1992. - №11. - С. 32-44.

65. Михайлов, В.Г. Измерение параметров речи [Текст]/ В.Г. Михайлов, Л.В. Златоусова; Под. ред. М.А. Сапожникова. - М.: Радио и связь, 1987. -168с.: ил.

66. Назаров, М.В. Методы цифровой обработки и передачи речевых сигналов [Текст]/ М. В. Назаров, Ю. Н. Прохоров. - М.: Радио и связь, 1985. -176 с.

67. Нуссбаумер, Г. Быстрое преобразование Фурье и алгоритмы вычисления сверток [Текст] / Г. Нуссбаумер; ред.: В. М. Амербаев, Т. Э. Кренкель; пер. с англ.: Ю. Ф. Касимов, И. П. Пчелинцев. - М.: Радио и связь, 1985. - 248 с.: ил., табл., граф.

68. Оберхеттингер, Ф. Преобразование Фурье распределений и их обращения [Текст] / Ф. Оберхеттингер; пер. с англ. М. С. Никулина. - М.: Наука, 1979. - 248 с

69. Огородников, А.Н. Выбор интервалов анализа сигнала при распознавании речи [Текст] //А.Н. Огородников // Материалы VIII Всеросс. научн. -практ. конф. «Научное творчество молодежи» / - Томск: Изд-во Томского государственного университета, 2004. - С.52-53.

70. Оппенгейм, Аллан В. Применение цифровой обработки сигналов = Application of digital signal processing [Текст] / Аллан В. Оппенгейм.; Пер. с англ. А. М. Рязанцев, Под ред. А.М. Резанцева. - М.: Издательство «Мир», 1980. - 552с.: ил.

71. Петленко, Б.И. Речевая связь в искусственных атмосферах [Текст] / Б.И. Петленко, Л.С. Бутырский; под ред. И.Т. Турбовича. - М.: Связь, 1978. - 144 с.

72. Попов, В.И. Основы сотовой связи стандарта GSM [Текст]/ В. И. Попов - М.: Эко-Трендз, 2005. - 296 с.: ил.

73. Прокис, Дж. Цифровая связь [Текст] / Дж. Прокис - М.: Радио и связь, 200. - 798 с.

74. Прохоренко, Е.И. Разработка новых методов и алгоритмов компьютерной обработки речевых данных в информационно-телекоммуникационных системах [Текст]: Диссертация на соискание ученой степени канд. техн. наук / Е. И. Прохоренко. - Белгород, 2006. - 162 с.

75. Прохоренко, Е. И. Метод оптимального субполосного преобразования в задаче сжатия речевых данных [Текст] / Е.И. Прохоренко, А.В. Болдышев, А.А. Фирсова, А.В. Эсауленко // Журнал «Вопросы Радиоэлектроники», серия электроника и вычислительная техника (ЭВТ). -Москва: ЦНИИ Электроника, 2010. - С. 49-55.

76. Рабинер, Л.Р. Теория и применение цифровой обработки сигналов [Текст]/ Л.Р. Рабинер, Б. Гоулд. - М.: Мир, 1975. - 835с.: ил.

77. Рабинер, Л. Р. Цифровая обработка речевых сигналов = Digital processing of speech signals [Текст]/ Л.Р. Рабинер, Р.В. Шафер.; Пер. с англ.М.В. Назарова, Ю.Н. Прохорова; Под ред. М.В. Назарова, Ю.Н. Прохорова. - М.: Радио и связь, 1981. - 496с.: ил.

78. Радзишевский, А. Компьютерная обработка звука [Текст]/ А. Радзишевский. - М.: Нолидж, 2000. - 240 с.

79. Рамишвили, Г.С. Автоматическое опознавание говорящего по голосу [Текст]/ Г.С. Рамишвили. - М.: Радио и связь, 1981. - 224 с.

80. Радзишевский, А. Ю. Основы аналогового и цифрового звука. [Текст] / А.Ю. Радзишевский. - М.: изд. дом «Вильямс», 2006. - 288 с

81. Ратынский, М.В. Основы сотовой связи [Текст] / М.В. Ратынский. - М.: Радио и связь, 2000. - 248 с.

82. Рудаков, П.И. Обработка сигналов и изображений [Текст] / П. И. Рудаков, И. В. Сафонов. - М.: Мир, 1978. - 327 с.

83. Санников, В.Г. Методы кодирования речевых сигналов: Учебное пособие/ МТУСИ. - М., 2003. - 63 с.

84. Сапожков, М.А. Вокодерная связь [Текст] / М.А. Сапожков, В. Г. Михайлов. - М.: Радио и связь, 1983. - 248с.: ил.

85. Сапожков, М.А. Речевой сигнал в кибернетике и связи [Текст] / М.А. Сапожков. - М.: Государственное издательство литературы по вопросам связи и радио, 1963. - 452 с.

86. Себер, Дж. Линейный регрессионный анализ [Текст]: Пер. с англ. / Дж. Себер; под ред. М. Б. Малютова. - М.: Мир, 1980. - 456 с.

87. Секунов, Н.Ю. Обработка звука на PC [Текст] / Н. Ю. Секунов. -СПб.: БХВ-Петербург, 2001. - 1248 с.

88. Сергиенко, А.Б. Цифровая обработка сигналов: Учебное пособие для студентов вузов/ А. Б. Сергиенко. - СПб.: Питер, 2002. - 603 с.: ил.

89. Сергеенко, В. С. Сжатие данных, речи, звука и изображений в телекоммуникационных системах : Учебное пособие / В. С. Сергеенко, В. В. Баринов. - М.:ИП «РадиоСофт», 2009. - 360 с.: ил.

90. Смит, Стивен Цифровая обработка сигналов. Практическое руководство для инженеров и научных работников / Стивен Смит; Пер. с англ. А.Ю. Линовича, С.В. Витязева, И. С. Гусинского. - М.: Додэка-ХХ1, 2012. -720с.: ил.

91. Соболев, В.Н. Информационные технологии в синтетической телефонии [Текст] / В. Н. Соболев. - М.: ИРИАС, 2007. - 360 с.

92. Солонина, А.И. Алгоритмы и процессы цифровой обработки сигналов [Текст] /А.И. Солонина, Д.А. Улахович, Л. А. Яковлев. - СПб.: БХВ-Петербург, 2002. - 464с.: ил.

93. Солонина, А.И. Основы цифровой обработки сигналов [Текст] / А.И. Солонина, Д.А. Улахович, С. М. Арбузов, Е. Б. Соловьева. - СПб.: БХВ-Петербург, 2005. - 768с.: ил.

94. Сорокин, В.Н. Синтез речи [Текст] / В. Н. Сорокин. - М.: Наука. Гл. ред. физ.-мат. лит., 1992. - 392с.: ил.

95. Сорокин, В.Н. Теория речеобразования [Текст] / В. Н. Сорокин. -М.: Радио и связи, 1985. - 312 с.: ил.

96. Сорокин, В.Н. Первичный анализ речевых сигналов [Текст] / В. Н. Сорокин, Д.Н. Чепелев // Акустический ж. - 2005. - Т.51, №4. - С.536-542.

97. Сорокин, В. Н. О роли подглоточной области в процессе речеобразования [Текст] / В кн.: Проблемы построения систем понимания речи. / В. Н. Сорокин. - М.: Наука, 1980. - 354 с.

98. Сорокин, В. Н. Потери в речевом тракте [Текст] / В. Н. Сорокин // Акустический журнал. - 1977. - Т. 23. - № 6. - С. 939-946.

99. Сорокин, В.Н. Артикуляторно-ориентированная система распознавания речи [Текст] / В. Н. Сорокин, А.Н. Ижнин, А.И. Цыплихин, Д. Н. Чепелев // Труды Международного семинара «Диалог - 2003». - 2003. С.657-662.

100. Скляр, Б. Цифровая связь, Теоретические основы и практическое применение [Текст] / Б. Скляр // М.: «Вильямс», 2 издание, 2003 г - 1038 с.

101. Трубицына, Д.И. Построение модели линейного предсказания в задачах синтеза речи [Текст]: Диссертация на соискание академической степени магистра//Д.И. Трубицына. - Белгород, 2015. - 81 с.

102. Трубицына, Д.И. О моделировании речевых сигналов на основе линейного предсказания [Текст] // Д.И. Трубицына. - Сборник аннотаций 13-ой Курчатовской молодежной научной школы. - Москва, 2015. - С.176

103. Трубицына, Д.И. Об использовании субполосного анализа и синтеза сигналов в области определения косинус-преобразования при решении задач сжатия речевых сигналов [Текст] / Е.Г. Жиляков, Д.И. Трубицына, Е.И. Прохоренко, А.В. Болдышев // Научные ведомости Белгородского государственного университета. Серия: Экономика. Информатика. 46 (4): 700-709. DOI 10.18413/2411-3808-2019-46- 4-700-709

104. Чистович, Л.А. Физиология речи. Восприятие речи человеком [Текст] /Л.А. Чистович, А.И. Венцов, М.П. Гранстрем и др. - М.: Наука, 1976. - 388 с.

105. Фант, Г. Акустическая теория речеобразования [Текст]/ Г. Фант.; Пер. с англ. - М.: Наука, 1964. - 284 с.

106. Фант, Г. Анализ и синтез речи [Текст]/ Г. Фант.; Пер. с англ. -Новосибирск: Наука, 1970. - 306 с.

107. Фланаган, Джеймс Л. Анализ, синтез и восприятие речи =Speech analysis synthesis and perception [Текст]/ Джеймс Л. Фланаган.; Пер. с англ. А. А. Пирогова; Под ред. А.А. Пирогова. - М.: Издательство «Связь», 1968. -360с.: ил.

108. Фланаган, Джеймс Л. Вычислительные машины говорят и слушают. Речевое сообщение человека с машиной [Текст]/ Джеймс Л. Фланаган.; Пер. с англ. / ТИИЭР, 1976. Т. 64. - № 4. - С. 78-91.

109. Френкс, Л. Теория сигналов. [Текст]/ Л. Френке. - М.: Советское радио, 1974. - 344 с.

110. Фирсова, А.А. Разработка и исследование субполосных методов и алгоритмов сегментации речевых сигналов [Текст]: автореф. дис. канд. техн. наук / А. А. Фирсова. - Белгород, 2013. - 22 с.

111. Хорн, Р. Матричный анализ [Текст] / Р. Хорн, Ч. Джонсон. - М.: Мир, 1989. - 395 с.

112. Цвикер, Э. Ухо как приемник информации [Текст]: Пер. с нем./ Э. Цвикер, Р. Фельдкеллер; под ред. Б. Г. Белкина. - М.: Связь, 1971. - 256 с.

113. Шелухин, О.И. Цифровая обработка и передача речи [Текст] /О.И. Шелухин, Н.Ф. Лукьянцев. - М.: Радио и связь, 2000. - 456 с.: ил.

114. Шульгин, В.И. Основы теории передачи информации [Текст]: Учебное пособие / В. И. Шульгин. - Харьков: Нац. аэро-косм. ун-т. «Харьк. авиац. ин-т», 2003. - 102 с.

115. Шредер, М. Модели слуха [Текст] / М. Шредер перевод с англ. ТИИЭР. М.: Мир. - 1975.-т. 63.- № 9,-С.

116. Atal S. Speech Analysis and Synthesis by Linear Prediction of the Speech Wave [Текст] / S. Atal, S. L. Hanauer - New York, 1971.

117. Flangan, J.L. Computational model for basilar membrane displacement.

- "JASA", 1962, v.34, №8, pt. 2, p. 1370-1376.

118. Gray, A.H. Distance measures for speech processing. / A.H. Gray, J.D. Markel // IEEE Transactions on Acoustics, Speech and Signal Processing. - 1976. -vol.24. - № 5. - P. 380-391.

119. Goldberg, R. A practical handbook of speech coders. / Goldberg R., Riek L.: CRC press, 2000.

120. Griffin, D.W. Multiband excitation vocoder. / D.W. Griffin, J.S. Lim // IEEE Transactions on Acoustics, Speech and Signal Processing. - 1988. - vol. 36.

- №8. - P. 1223-1235.

121. Evgeny G. Zhilyakov, Sergei P. Belov, Andrei A. Chernomorets, Diana Ig. Trubitsyna, Tatyana N. Balabanova/ Subband analysis and synthesis of signals//COMPUSOFT, An international journal of advanced computer technology, 8(6), June 2019 (Volume-VIII, Issue VI) pp. 3206-3211;

122. Evgeny G. Zhilyakov, Sergei P. Belov, Ivan I. Oleinik, Diana Ig.Trubitsyna/ Generalized sub band analysis and signal synthesis// Bulletin of Electrical Engineering and Informatics Vol. 9, No. 1, February 2020, pp. 78~86

123. Helander, M., Handbook of Human-Computer Interaction, 1997, Amsterdam, North-Holland.

124. Rabiner, L.R. Digital Signal Processing / Rabiner L.R., Schafer R.W. / Pearson; US edition / September 15, 1978, p. 962.

125. Rabiner, L.R. Fundamentals of Speech Recognition / Prentice Hall; 1st edition (April 22, 1993), p. 496.

126. Shannon, C.E. A mathematical theory of communication [Text] // ACM SIGMOBILE Mobile Computing and Communications Review. - 2001. - T. 5, № 1. - P. 3-55.

ПРИЛОЖЕНИЕ А

В Таблица А. 1 приведены критерии, по которым экспертами проводилась оценка качества звучания восстановленного речевого сообщения.

Таблица А.1 - Форма оценивания восстановленного речевого сообщения

Оценка Интерпретация

1,0*1,9 Речь не воспринимается полностью или частично, разобрать сообщение не удалось, присутствует высокий уровень шума, идентифицировать диктора невозможно

2,0-2,9 Разборчивость сохранилась, присутствуют сильные шумы, узнать диктора практически невозможно

3,0-3,9 Разборчивость сохранилась, присутствует достаточно высокий уровень посторонних шумов, узнать диктора невозможно

4,0-4,5 Разборчивость сохранилась, присутствуют незначительные посторонние шумы, узнать диктора возможно

4,5-5,0 Речь воспринимается полностью и без усилий, все слова разборчивы, посторонние шумы отсутствуют, сохранилась узнаваемость диктора

В Таблице Б.1 приведены результаты вычислительных экспериментов

по оценке степени сжатия речевых компонент.

Таблица Б.1 - Результаты вычислительных экспериментов по оцениванию степени сжатия.

слова Четыре Речеобразования Затухания Механикой Дикторов Анатомией

с „ 1 1 1 1 1 1

Экспертная оценка 5 5 5 5 5 4,8

С, 13,16 11,84 10,4 10,18 12,39 10,62

Экспертная оценка 4,5 4,0 4,1 4,1 4,0 3,9

Сг 25,32 26,14 26,61 25,41 27,13 25,24

Экспертная оценка 4 4 3,9 3,8 3,5 3,3

слова Тракта Артикуляции Колебаний Голоса Факторов Частот

С „ 1 1 1 1 1 1

Экспертная оценка 5 5 5 5 5 4,8

Ск 12,1 10,81 10,1 10,2 11,49 10,32

Экспертная оценка 4,5 4,0 4,1 4,1 4,0 3,9

с\ 24,2 22,3 21,16 25,51 22,12 23,21

Экспертная оценка 4 4 3,9 3,8 3,5 3,3

«УТВЕРЖДАЮ» шрр ООО «Легком» 'J A.A. Пивоваров W OS 20,<äf> г.

АКТ

использования метода сжатия речевых данных на основе субполосного анализа и синтеза речевых сигналов в области определения их косинус-

преобразования

1. Настоящий акт составлен о том, что в ООО «Нетком» принят к использованию прототип программной реализации алгоритмов сжатия и восстановления речевых сообщений на основе субполосного анализа и синтеза речевых сигналов в области определения их косинус-преобразования, разработанной старшим преподавателем кафедры информационно-телекоммуникационных систем и технологий НИУ «БелГУ» Трубицыной Дианой Игоревной в рамках диссертационного исследования.

2. Представленный прототип программной реализации сжатия и восстановления речевых сообщений применялся для создания архивов речевого контента, полученных при записи переговоров клиентов с оператором. Преимуществами представленного прототипа программной реализации отмечается эффективность разработанных методов, которые позволяют сжимать в 30-40 раз аудиоданные, что приводит к экономии ресурсов памяти на жестких и облачных хранилищах, а также интуитивно понятный пользовательский интерфейс.

3. По сравнению с известными программными решениями, предложенный Трубицыной Д.И. прототип позволяет компактно хранить большие объёмы речевых данных и восстанавливать речевые сообщения сохраняя качественное звучание.

«УТВЕРЖДАЮ»:

Директор ООО'чНПП «ЭИТ» БелГУ» клХи. _ Н И Олсйннк

V

АКТ

Использования метода субполосною сжатия и восстановления речевых сообщении в облает определения косинус-преобразования

1. Настоящий акт составлен о том, что в ООО «НИН «ЭИТ» БелГУ» принят к использованию разработанный Трубицыной Д.И. метод субполосного сжатия и восстановления речевых сообщений в области определения косинус-преобразования.

2. Новизна метода заключается разработке метода сжатия/восстановления речевых данных на основе еубполосното анализа/синтеза отрезков речевых сигналов в рамках их косинус-преобразования. Стоит отметить, что разработанный метод и алгоритмы позволяют уменьшить объемы битовых представлений в 30-40 раз по сравнению с дискретизацией с частотой 8000 I ц и 8-ми битовом представлениях отсчетов, при этом сохраняя разборчивость речи.

3. Разработанный автором пакет программ, реализующий созданный метод сжатия/восстановления речевых данных на основе субполосного анализа/синтеза отрезков речевых сигналов в рамках их косинус-преобразования. позволяет повысить эффективность хранения аудиоданных за счет их сжатия.

Заместитель директора ООО «НИИ «ЭИТ» БелГУ» По научной части

С.А. Кунгурцев

УТВЕРЖДАЮ

Проректор по образовательной деятельности Ф1 АОУ ВО « Бел городе кя й I осу да ретвен ны й национальный исследовательский университет»^

ка1адидат 1^гШческнх фук, доцент

/ / / к. 13. Маматов

Акт о внедрении результатов и1чук\тованнн, полученных в диссертации Трубнцынви Дианы Игоревны

«СЖАТИЕ РЕЧЕВЫХ ДАННЫХ НА ОСНОВЕ СУБПОЛОСНОГО

АНАЛИЗА И СИНТЕЗА РЕЧЕВЫХ СИГНАЛОВ В ОБЛАСТИ ОПРЕДЕЛЕНИЯ ИХ КОСИНУС-ПРЕОБРАЗОВАНИЯ»

Мы, ниже подписавшиеся, директор Института инженерных и цифровых технологий ФГАОУ ВО «Белгородский государственный национальный исследовательский университет», доктор технических наук, доцент Полыцнков К. А., заведующий кафедрой информационно-телекоммуникационных систем и технологий, доктор технических наук, профессор Жиляков Е. Г., составили настоящий акт о внедрении результатов научных исследований, полученных Трубицыной Д.И., в образовательный процесс бакалавров по направлению подготовки 11.03.02 «Инфокоммуникационные технологии и системы связи».

В лекционные и лабораторные занятия по дисциплине «Обработка речи в информационно-телекоммуникационных системах» были включены следующие исследованные темы:

1. Теоретические основы субполосного анализа и синтеза речевых сигналов с позиций разбиения на субполосы области определения их косинус-преобразования;

2. Субполосное кодирование пауз между словами в речевых сигналах;

3. Субполосное сжатие и восстановление отрезков речевых компонент речевого сигнала.

Овладение новыми процедурами субполосного кодирования пауз между словами в речевых сигналах и субполосного сжатие и восстановление отрезков речевых компонент речевого сигнала осуществляется на основании экспериментальных исследований с речевыми данными.

Директор Института

Инженерных и цифровых технологий.

доктор технических наук, доцент

К. А. Полыциков

Заведующий кафедрой информационно-телекоммуникационных систем и технологий, доктор технических наук, профессор

Автор разработки, старший преподаватель кафедры информационно-телекоммуникационных систем и технологий

Д.И.Трубицына

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.