Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет тема диссертации и автореферата по ВАК РФ 05.12.13, кандидат технических наук Коробанов, Алексей Владимирович

  • Коробанов, Алексей Владимирович
  • кандидат технических науккандидат технических наук
  • 2008, Москва
  • Специальность ВАК РФ05.12.13
  • Количество страниц 149
Коробанов, Алексей Владимирович. Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет: дис. кандидат технических наук: 05.12.13 - Системы, сети и устройства телекоммуникаций. Москва. 2008. 149 с.

Оглавление диссертации кандидат технических наук Коробанов, Алексей Владимирович

Условные обозначения (сокращения).

Введение.

Глава 1 Общая характеристика цифровых систем передачи речевых сообщений с повышенной эффективностью. ^ ^

1.1 Структурная схема цифровой системы передачи речи. ДО ЛЪ

1.2 Принцип речеобразования со слуховой обратной связью .Д-7 /[С

1.3 Особенности слухового восприятия речи.J23 2.

1.4 Методы низкоскоростного кодирования речи.

1.5 Выводы и постановка задач исследования.

Глава 2 Модели и основные характеристики периферии слуховой системы. " '

2.1 Анализ радиотехнических моделей преобразования речи на периферии слуховой системы. „48' 4S

2.2 Аппроксимация нелинейных зависимостей периферии слуховой системы. 54' 5"

2.3 Математические модели преобразования речи на периферии слуховой системы. j50 С

2.4 Анализ пороговых зависимостей слышимости тона при его маскировке стационарными шумами. ,65* СЗ

2.5 Основные результаты.ЦЧ

Глава 3 Методы представления речи в базисах слуховых вейвлет и слуховых фильтров.

3.1 Эффект обострения слухового восприятия звукового тона и слуховые фильтры.78 и

3.2 Формирование слухового материнского вейвлета. „84" $ 2.

3.3 Представление речи в базисе слуховых вейвлет.J

3.4 Представление речевого сигнала посредством оптимального базиса слуховых фильтров. .93"

3.5 Основные результаты. ,95" -}оН

Глава 4 Разработка новых методов эффективного кодирования речи в классе линейного предсказания с анализом через синтез ^ '

4.1 Метод ЛПАС кодирования речи с представлением сигнала погрешно- JA-3' ста предсказания в ортогональном базисе слуховых фильтров.JU-6" -/0?

4.2 Новая АР-АРСС модель линейного предсказания речи.

4.3 Разработка метода оценки громкости речи.|20 <-|2,5Г

4.4 Модернизированный метод ЛПАС кодирования речи с повышенной эффективностью.Д-20* АЪО

4.5 Анализ эффективности ЛПАС кодеров.Д28" ^/ЗЬ

4.6 Основные результаты. ДЗЗ

Рекомендованный список диссертаций по специальности «Системы, сети и устройства телекоммуникаций», 05.12.13 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет»

Современный этап развития общества характеризуется увеличением потоков разнородной информации, передаваемой по телекоммуникационным системам и сетям. Значительный объем, порядка 90 %, этой информации составляет речевая информация [2]. В виду того, что речевые сигналы как носители речевой информации, обладают значительной избыточностью, существует проблема их компактного цифрового представления с целью снижения требований к пропускной способности телекоммуникационных каналов.

В различных странах мира, в том числе и в России, для решения проблемы перегрузки каналов речевой связи и устройств хранения речевых сообщений интенсивно развивается направление, заключающееся в сжатии объемов речевых данных за счет сокращения содержащейся в них избыточности. Это направление особенно привлекательно с экономической точки зрения, так как не требует создания новых дорогостоящих производственных мощностей, но предназначено для эффективного использования имеющихся ресурсов систем и сетей.

Для технического решения задачи сжатия речевых данных разработано много методов. В значительной мере они представлены в трудах Н.Н. Акин-фиева, С.П. Баронина, А.И. Величкина, М.Д. Бенедиктова, В.И. Галунова, Е.Г. Жилякова, Ю.А. Косарева, В.И. Куля, В.Г. Михайлова, В.Е. Муравьева, М.В. Назарова, А.А. Пирогова, Ю.Н. Прохорова, В.Г. Санникова, М.А. Са-пожкова, В.А. Свириденко, И.В. Ситняковского, А.Н. Собакина, О.И. Шелу-хина, В.П. Яковлева, Б.С. Атала, Дж. Д. Гибсона, Б. Голда, А.Х. Грея, Н.С. Джайанта, Ф. Итакуры, Р.В. Кокса, П. Круна, Ж.И. Макхоула, Дж. Маркела, JI. Р. Рабинера, Ч. Рейдера, А.С. Спаниаса, Г. Фанта, Дж. Фланагана, Р.В. Шафера, М.Р. Шрёдера и других российских и зарубежных ученых.

С целью повышения качества кодеков с линейным предсказанием для передачи речевых сигналов на скоростях 4-16 (кбит/с) Международным

Союзом Электросвязи (МСЭ) и другими организациями разрабатываются кодеры, относящиеся к классу адаптивных кодеров с линейным предсказанием на основе анализа через синтез (ЛПАС) (linear prediction analysis-by-synthesis (LPAS) coders) [61,76,78,81,91]. При данном методе обработки в кодере по параметрам долговременного и кратковременного фильтров-предсказателей производится синтез PC, сравнение его с исходным PC и минимизация взвешенной разности между ними подбором структуры сигнала голосового возбуждения фильтра-предсказателя. Основной особенностью указанных методов кодирования речи является искусственная замена сигнала погрешности предсказания импульсным сигналом возбуждения фильтра-предсказателя.

Одной из основных причин избыточности речевого сигнала считается наличие статистических (корреляционных) взаимосвязей между его отсчетами, взятыми в дискретные моменты времени [2]. С целью повышения эффективности цифрового представления речевых сигналов используют методы их кодирования с преобразованием, основное назначение которых состоит в разрушении (декорреляции) указанных взаимосвязей и как следствие сокращении избыточности речи [1,28,33,36,41,52,60].

Полное сокращение избыточности при обработке стационарного сигнала обеспечивает базис, построенный на основе собственных векторов корреляционной матрицы сигнала. Такое оптимальное преобразование найдено и известно в литературе как преобразование Карунена-Лоэва-Пугачева [28,36]. Однако, из-за отсутствия «быстрого» алгоритма его реализации, в практике компактного цифрового представления сигналов оно используется очень редко. Чаще используют дискретные «быстрые» преобразования: Фурье, косинусное, Адамара, Хаара и другие [1,4,19,33,36,66,85,89,93,96]. Следует отметить, что названные преобразования справедливы при обработке стационарных сигналов. Речевой же сигнал, как известно, относится к классу нестационарных сигналов [2,27,51,61]. Следовательно, для его компактного цифрового представления более рационально использовать другие базисы.

Математическая теория аппроксимации предполагает выбор такого базиса, который с помощью линейной комбинации небольшого числа векторов из этого базиса дает возможность представить сигнал с минимальной погрешностью. Проблема состоит в нахождении критерия для выбора такого базиса, который по внутренней своей сути хорошо приспособлен для представления заданного класса сигналов. Известно, что для класса нестационарных сигналов оптимальным является базис, построенный на основе их вейв-лет представлений [11,28,58,68,84,102].

Поскольку сигнал погрешности предсказания более информативен (в нем содержится значительное количество информации о речевом сигнале), чем искусственный сигнал возбуждения, то для повышения эффективности работы ЛПАС кодеров следует искать новые модели представления сигнала погрешности предсказания, адекватные как голосовому возбуждению модели речеобразования, так и учитывающие психоакустические особенности слухового восприятия речи человеком. Следует также отметить, что при низких * скоростях среднеквадратическая погрешность синтеза не адекватна слуховому восприятию. Следовательно, требуется использовать критерий качества синтеза речи, более схожий с критерием человеческого восприятия.

Цель работы

Разработка и исследование методов представления и низкоскоростного кодирования речевых сигналов, передаваемых по телекоммуникационным каналам с ограниченной пропускной способностью, на основе новой психоакустической модели слухового восприятия речи.

Для достижения поставленной цели на основе анализа состояния вопроса сформулированы и решаются следующие основные задачи: • Анализ основных закономерностей преобразования речевого сигнала на периферии слуховой системы человека с целью разработки психоакустической модели слухового восприятия речи.

• Анализ пороговых зависимостей маскировки речи узкополосными сигналами и получение аналитических соотношений для слуховых фильтров, а на их основе построение ортогональных базисов, согласованных со спектральными свойствами слуховой системы в выделенных полосах частот.

• Разработка слухового материнского вейвлета и исследование вейвлет представления речевого сигнала.

• Разработка нового критерия верности синтеза речи на основе громкости погрешности восстановления речевого сигнала.

• Разработка и оптимизация новых методов низкоскоростного кодирования речи в классе линейного предсказания с анализом через синтез (ЛПАС) и представлением сигнала погрешности предсказания в ортогональном базисе слуховых фильтров.

Методы исследований

Методы теории оптимальных и адаптивных систем; методы сжатия данных; методы оценки качества систем передачи речи; методы вейвлет обработки сигналов; методы теории речеобразования и слухового восприятия речи; методы статистического машинного моделирования и предсказания речевых сигналов.

Научная новизна работы

• Исследована новая радиотехническая модель и получены аналитические соотношения для различных характеристик преобразования речи на периферии слуховой системы.

• Впервые получены аналитические соотношения для пороговых зависимостей слышимости тона при его маскировке стационарным белым, равномерно маскирующим и узкополосным шумами; на основе анализа пороговых зависимостей впервые получены аналитические соотношения для комплексных коэффициентов передачи эквивалентных слуховых фильтров.

• На основе исследования свойств эквивалентных слуховых фильтров разработан новый математический объект - слуховой материнский вейвлет (СМВ); доказано условие его допустимости; получено новое представление речевого сигнала в согласованном с ним базисе слуховых вейвлет.

• Разработан новый метод представления речевого сигнала в оптимальном ортогональном базисе слуховых фильтров, для которых рассчитаны канальные матрицы и соответствующие им собственные векторы.

• Разработана и исследована новая АР-АРСС модель линейного предсказания речи.

• Разработан новый алгоритм текущей оценки громкости речи, в полной мере учитывающий свойства её слухового восприятия.

• Разработаны и оптимизированы методы низкоскоростного ЛГТАС кодирования речи с повышенной эффективностью.

Практическая значимость работы

Результаты выполненных исследований получены путем машинного моделирования на ПЭВМ в среде компьютерной системы проведения математических матричных вычислений - MatLAB. Они могут быть положены в основу разработки конкретных систем передачи речевой информации с ограниченной пропускной способностью или при её хранении в запоминающих устройствах с ограниченной емкостью.

Разработанные в диссертации способы эффективного кодирования речи в классе ЛПАС, обеспечивают в соответствии с ГОСТ Р 51061- 97 первый класс качества по разборчивости на скоростях от 3,2 до 16 кбиг/с и выше. Это в 2 — 10 раз меньше скорости, обеспечиваемой кодеком на основе стандартной адаптивной дифференциальной ИКМ (АДИКМ), рекомендованного (в соответствие с Приказом Министерства РФ по связи и информатизации № 175 от 23.07.2001) в качестве основного в оборудовании службы голосовых сообщений. При равном качестве синтеза речи разработанные методы кодирования, по сравнению кодером стандарта GSM на скорости 13 кбит/с, обеспечивают скорость передачи 8 кбит/с (на 38% меньше).

Изложенные в работе методы и алгоритмы низкоскоростного кодирования речи были использованы при проведении научно-исследовательских работ МТУ СИ с Группой Телекоммуникационных Компаний «ITNT Group» (ЗАО «Компания ИНТЕНТ», ЗАО «СПРОС ИТ», г. Москва) ООО «Теле.ру» и применены при разработке и организации доступа абонентов к услугам местной, междугородней и международной связи посредством интеллектуальной платформы речевого сопровождения, а также при предоставлении абонентам телефонной сети дополнительной услуги - «голосовая почта», при организации речевого управления информационными ресурсами интеллектуальной сети «Ольга».

Апробация работы

Основные результаты работы были представлены на следующих научно-технических конференциях:

1. Международная научно-практическая конференция «Фундаментальные проблемы радиоэлектронного приборостроения». INTERMATIC-2005, Москва, 2005 г.

2. Научная конференция профессорско-преподавательского, научного и инженерно-технического состава МТУ СИ, Москва, 2005 г.

3. Международная научно-техническая школа-конференция «Молодые ученые - науке, технологиям и профессиональному образованию в электронике», Москва, 2006 г.

4. Международная научно-практическая конференция «Фундаментальные проблемы радиоэлектронного приборостроения». INTERMATIC-2007, Москва, 2007 г.

5. Московская отраслевая научно-техническая конференция «Технологии информационного общества», МТУСИ, Москва, 2007 г.

6. Международная научно-техническая конференция «Фундаментальные проблемы радиоэлектронного и оптоэлектронного приборостроения», Москва, МИРЭА, 2008 г.

7. XIV международная научно-техническая конференция «Радиолокация, навигация, связь» (RLNC*2008), Воронеж, НПФ «САКВОЕЕ», 2008 г.

Краткое содержание работы

Диссертационная работа содержит: введение, четыре главы, заключение и список использованных источников.

Похожие диссертационные работы по специальности «Системы, сети и устройства телекоммуникаций», 05.12.13 шифр ВАК

Заключение диссертации по теме «Системы, сети и устройства телекоммуникаций», Коробанов, Алексей Владимирович

4.6. Основные результаты

Усовершенствован метод и математическая модель низкоскоростного кодирования речи в классе ЛПАС на основе представления скорректированного сигнала погрешности предсказания с помощью ортогонального базиса слуховых фильтров. Введение корректирующего фильтра позволило увеличить на !!!

Разработана и исследована новая АР-АРСС модель линейного предсказания речи, более эффективная чем АР-АР модель; выигрыш по величине отношения сигнал/погрешность предсказания при изменении числа параметров предсказания от 3 до 15 составляет от 7 до 16.8 дБ. Разработан новый алгоритм практической оценки громкости речи, в полной мере учитывающий свойства её слухового восприятия; экспериментально подтверждена его работоспособность. Разработан модернизированный вариант метода ЛПАС кодирования речи с повышенной эффективностью, отличающийся новой АР-АРСС моделью предсказания речи и использующий новый критерий оптимизации кодера по величине громкости погрешности синтеза речи. Проведен сравнительный анализ разработанных методов ЛПАС кодирования речи по показателю информационной эффективности. На скоростях 3,2 - 16 и более кбит/с разработанные методы ЛПАС кодирования речи обеспечивают первый класс качества по разборчивости в соответствии с ГОСТ Р 51061- 97.

На основе разработанных математических моделей методов ЛПАС кодирования речи получены алгоритмы их функционирования, реализованные на ПЭВМ.

ЗАКЛЮЧЕНИЕ

138 h'f]

В ходе выполнения диссертационной работы были получены следующие основные результаты:

• Анализ основных закономерностей преобразования речевого сигнала на периферии слуховой системы человека с целью разработки психоакустической модели слухового восприятия речи.

• Анализ пороговых зависимостей маскировки речи узкополосными сигналами и получение аналитических соотношений для слуховых фильтров, а на их основе построение ортогональных базисов, согласованных со спектральными свойствами слуховой системы в выделенных полосах частот.

• Разработка слухового материнского вейвлета и исследование вейвлет представления речевого сигнала.

• Разработка нового критерия верности синтеза речи на основе громкости погрешности восстановления речевого сигнала.

• Разработка и оптимизация новых методов низкоскоростного кодирования речи в классе линейного предсказания с анализом через синтез (ЛПАС) и представлением сигнала погрешности предсказания в ортогональном базисе слуховых фильтров.

• Исследована новая радиотехническая модель преобразования речи на периферии слуховой системы.

• Получены аналитические соотношения: усредненной зависимости порога слышимости в тишине, зависимостей между частотой, шириной частотной группы и высотой тона, характеристик полосовой фильтрации в частотных каналах, амплитудной характеристики подсистемы «волосковая клетка».

Разработаны цифровые модели преобразования речи в различных подсистемах периферии слуховой системы, а также получена обобщенная модель периферии слуха в пространстве состояний. Впервые получены аналитические соотношения для пороговых зависимостей слышимости тона при его маскировке стационарным белым, равномерно маскирующим и узкополосным шумами. На основе анализа пороговых свойств слухового восприятия звукового тона на фоне маскирующего узкополосного шума впервые получены аналитические соотношения для комплексных коэффициентов передачи эквивалентных слуховых фильтров в каждом высотном канале слухового пути.

На основе исследования свойств эквивалентных слуховых фильтров разработан новый математический объект — слуховой материнский вейвлет (СМВ). Доказано условие его допустимости. Получено новое представление речевого сигнала в согласованном с ним базисе слуховых вейвлет.

Разработаны алгоритмы вычисления прямого и обратного дискретного вейвлет преобразования сигналов. На основе этих алгоритмов осуществлен анализ и синтез речевого сигнала по его слуховому вейвлет представлению.

Исследованы зависимости отношения сигнал/погрешность синтеза речи от величины задержки и масштаба слухового вейвлета. Разработан метод представления речевого сигнала в оптимальном ортогональном базисе слуховых фильтров. Рассчитаны канальные матрицы слуховых фильтров и соответствующие им собственные векторы. Усовершенствован метод и математическая модель низкоскоростного кодирования речи в классе ЛПАС на основе представления скорректированного сигнала погрешности предсказания с помощью ортогонального базиса слуховых фильтров. Введение корректирующего фильтра позволило увеличить на !!!

Разработана и исследована новая АР-АРСС модель линейного предсказания речи, более эффективная чем АР-АР модель; выигрыш по величине отношения сигнал/погрешность предсказания при изменении числа параметров предсказания от 3 до 15 составляет от 7 до 16.8 дБ. Разработан новый алгоритм практической оценки громкости речи, в полной мере учитывающий свойства её слухового восприятия; экспериментально подтверждена его работоспособность. Разработан модернизированный вариант метода ЛПАС кодирования речи с повышенной эффективностью, отличающийся новой АР-АРСС моделью предсказания речи и использующий новый критерий оптимизации кодера по величине громкости погрешности синтеза речи. Проведен сравнительный анализ разработанных методов ЛПАС кодирования речи по показателю информационной эффективности. На скоростях 3,2 - 16 и более кбиг/с разработанные методы ЛПАС кодирования речи обеспечивают первый класс качества по разборчивости в соответствии с ГОСТ Р 51061- 97.

На основе разработанных математических моделей методов ЛПАС кодирования речи получены алгоритмы их функционирования, реализованные на ПЭВМ.

Список литературы диссертационного исследования кандидат технических наук Коробанов, Алексей Владимирович, 2008 год

1. Артюшенко В.М., Шелухин О.И., Афонин М.Ю. Цифровое сжатие видеоинформации и звука. М.: ИТК «Дашков и К0», 2003. - 426 с.

2. Беллами Дж. Цифровая телефония: Пер. с англ. / Под ред. А.Н. Берлина, Ю.Н. Чернышова. -М.: Эко-Трендз, 2004. 640 с.

3. Блаттер К. Вейвлет анализ. Основы теории // Перевод с нем. Т. Э. Кренкеля / Под ред. А.Г. Кюркчана. - М.: Техносфера, 2006. - 272 с.

4. Вокодерная телефония /Под ред. А.А. Пирогова. -М.: Связь, 1974 536 с

5. ГОСТ Р 50840-95. Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. 200 с.

6. ГОСТ Р 51061-97. Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений. 21 с.

7. Градштейн И.С., Рыжик И.М. Таблицы интегралов, сумм, рядов и произведений. М.: Наука, ГР ФМЛ, 1971. - 1108 с.

8. Громаков Ю.А. Стандарты и системы подвижной радиосвязи. М.: ЭКО -ТРЭНЗ, 1998.-240 с.

9. Дворецкий И.М., Дриацкий И.Н. Цифровая передача сигналов звукового вещания. -М.: Радио и связь, 1987. 192 с.

10. Добеши И. Десять лекций по вейвлетам / Пер. с англ. Е.В. Мищенко // Под ред. А.П. Петухова. Москва-Ижевск.: PXD, 2001. - 110 с.

11. Дьяконов В.П. Вейвлеты. М.: СОЛОН-Р, 2002. - 580 с.

12. Ефимов А.П. Психофизиология вещания. М.: МТУ СИ, 2004. - 196 с.

13. Защищенные радиосистемы цифровой передачи информации / П.Н. Сердюков, А.В. Бельчиков, А.Е. Дронов и др. -М.: ACT, 2006.-403 с.

14. Зверев Б.В., Зелевич Е.П. Социально ориентированные услуги связи. -М.: Радио и связь, 2005. 128 с.

15. Зюко А.Г., Банкет В.Л., Лехан В.Ю. Методы низкоскоростного кодирования при цифровой передаче речи // Зарубежная радиоэлектроника. -1986. -№ 11.-С. 53-69.

16. Исаев А.Н., Раков А.С., Дотолев В.Г. Актуальные вопросы развития техники звукового радиовещания в деятельности исследовательской комиссии 10 Международного Союза Электросвязи // Труды НИИР. 1995. -№6. -С. 33-38.

17. Калинцев Ю.К. Разборчивость речи в цифровых вокодерах. М.: Радио и связь, 1991.-220 с.

18. Кириллов С.Н., Лоцманов А.А. Адаптивный дифференциальный им-пульсно-кодовый модулятор с нелинейным фильтром предсказателем // ЭЛЕКТРОСВЯЗЬ. 2004. - № 5. - С. 36-38.

19. Ковалгин Ю.А., Вологодин Э.И. Цифровое кодирование звуковых сигналов. СПб.: КОРОНА-принт, 2004. - 240 с.

20. Колинько Т. Измерения в цифровых системах связи. Практическое руководство. К.: ВЕК+, НТИ, 2002. - 320 с.

21. Коробанов А.В., Санников В.Г. Анализ пороговых зависимостей маскировки тона узкополосным шумом и расчет слуховых вейвлет // Сборник «Техника и технологии связи». Деп. в ЦНТИ «Информсвязь» от 26.05.06 №2279 св. 2006. -С. 21-27.

22. Коротаев Г.А. Эффективный алгоритм кодирования речевого сигнала на скорости 4,8 кбит/с и ниже // Зарубежная радиоэлектроника. 1996. - № З.-С. 16-19.

23. Льюнг Л. Идентификация систем. Теория для пользователя: Пер с англ. / Под ред. Я.З. Цыпкина. М.: Наука, ГР ФМЛ, 1991.-432 с.

24. Мак-Квери С., Мак-Грю К, Фой С. Передача голосовых данных по сетям Cisco Frame Relay, ATM и IP. Москва-Санкт-Петербург.-Киев: Издательский дом «Вильяме», 2002. - 512 с.

25. Малла С. Вэйвлеты в обработке сигналов. М.: Мир, 2005. - 671 с.

26. Мардер Н.С. Современные телекоммуникации.-М.: ИРИАС, 2006.-384 с

27. Марковская теория оценивания в радиотехнике // Под редакцией М.С. Ярлыкова. -М.: «Радиотехника», 2004. 504 с.

28. Маркел Дж., Грей А.Х. Линейное предсказание речи: Пер. с англ. / Под ред. Ю.Н. Прохорова, B.C. Звездина. -М.: Связь, 1980. 308 с.

29. МСЭ-R. Рекомендация BS.1196. Кодирование звука в наземном цифровом телевизионном вещании. 1995. - 120 с.

30. Назаров М.В., Прохоров Ю.Н. Методы цифровой обработки и передачи речевых сигналов. М.: Радио и связь, 1985. - 176 с.

31. Невдяев Л.М. Мобильная связь 3-го поколения. М.: МЦНТИ, ООО «Мобильные коммуникации. - 2000. - 208 с.

32. Невдяев Л.М. Телекоммуникационные технологии. М.: МЦНТИ, ООО «Мобильные коммуникации. - 2002. - 592 с.

33. Оршценко В.И., Сашшков В.Г., Свириденко В.А. Сжатие данных в системах сбора и передачи информации / Под ред. В.А. Свириденко. М.: Радио и связь, 1985. - 184 с.

34. Попов О.Б., Рихтер С.Г. Цифровая обработка сигналов в трактах звукового вещания. М.: Горячая линия - Телеком, 2007. - 341 с.

35. Прокис Дж. Цифровая связь. Пер. с англ. / Под ред. Д.Д. Кловского. -М.: Радио и связь, 2000. 800 с.

36. Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов // Статистическая теория связи. Вып. 20. -М.: Радио и связь, 1984.-240 с.

37. Рабинер JI.P., Шафер Р.В. Цифровая обработка речевых сигналов: Пер с англ. / Под ред. М.В. Назарова, Ю.Н. Прохорова. М.: Радио и связь, 1981. -496 с.

38. Ричардсон Я. Видеокодирование. Н.264 и MPEG-4 стандарты нового поколения. -М.: ТЕХНОСФЕРА, 2005.-368 с.

39. Санников В.Г. Теоретический анализ заметности искажений речевых сигналов по громкости их слухового восприятия // ЭЛЕКТРОСВЯЗЬ. -2002.-№ 12.-С. 38-42.

40. Санников В.Г. Статистический анализ методов формирования речевых сигналов. -М.: МТУСИ, 2005. 140 с.

41. Санников В.Г., Коробанов А.В. Получение материнского слухового вейвлета в задаче компактного представления речи // Московская отраслевая научно-техническая конференция «Технологии информационного общества»: Тез. докл. -М.: Инсвязьиздат. -2007. С. 195.

42. Савинков В.Г., Медведев О.Н. Эффективный голосовой кодер с полиномиальным синтезом спектра погрешности предсказания речевого сигнала // Мобильные системы. 2007. - № 3. - С. 38-42.

43. Санников В.Г. Слуховая томография новое направление в области обработки речевых сигналов // ЭЛЕКТРОСВЯЗЬ. - 2007. - № 5. - С. 52-56.

44. Санников В.Г., Коробанов А.В. Кодер речи в классе ЛПАС с представлением сигнала погрешности предсказания в ортогональном базисе слуховых фильтров // Естественные и технические науки. № 3. - 2008. - С. 21-31.

45. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963.-452 с.

46. Сапожков М.А., Михайлов В.Г. Вокодерная связь. М.: Радио и связь, 1983.-248 с.

47. Сейдж Э., Меле Дж. Теория оценивания и её применение в связи и управлении: Пер. с англ./ Под ред. Б.Р. Левина -М.: Связь, 1976. -496 с.

48. Сиберт У. Преобразование стимула в периферической слуховой системе. В сб. «Распознавание образов». М.: Мир, 1970. - С. 134-169.

49. Ситняковский И.В., Порохов О.Н., Нехаев А.Л. Цифровые системы передачи абонентских линий. М.: Радио и связь, 1987. - 216 с.Г

50. Скляр Б. Цифровая связь. Теоретические основы и практическое применение.: Пер. с англ. М.: ИД «Вильяме», 2003. - 1104 с.

51. Слуховая система / Ред. Я.А. Альтман. JL: Наука, 1990. - 620 с. - (Основы современной физиологии).

52. Смоленцев Н.К. Основы теории вейвлетов. Вейвлеты в MATLAB. М.: ДМК Пресс, 2008. - 448 с.

53. Соболев В.Н. Информационные технологии в синтетической телефонии. -М.: ИРИАС, 2007. 360 с.

54. Сэломон Д. Сжатие данных, изображений и звука: Пер. с англ. М.: Техносфера, 2006. - 365 с.

55. Тимченко О.В. Методи р1зницевого кодування форми сигнаив в системах передач! mobhoI шформацй. Льв1в: Вид. УАД, 2006. - 320 с.

56. Уэлстед С. Фракталы и Вейвлеты для сжатия изображений в действии. — М.: Триумф, 2003. 320 с.

57. Фланаган Дж. JI. Анализ, синтез и восприятие речи: Пер. с англ. / Под ред. А.А. Пирогова М.: Связь, 1968. - 396 с.

58. Хайкин С. Нейронные сети: полный курс, 2-е изд.: Пер с англ. М.: Издательский дом «Вильяме», 2008. - 1104 с.

59. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации. М.: «Связь», 1971. -255 с.

60. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи. -М.: Радио и связь, 2000. 456 с.

61. Шеннон К.Э. Работы по теории информации и кибернетике: Пер. с англ./ Под ред. Р. А. Добрушина, О.В. Лупанова. М,: ИЛ, 1963. - 830 с.

62. Штарк Г. Г. Применение вейвлетов для ЦОС // Перевод с англ. Н. И. Смирновой / Под ред. А.Г. Кюркчана. -М.: Техносфера, 2007. - 192 с.

63. Электродное протезирование слуха. Л.: Наука, 1984. - 215 с. - (Фундаментальные науки - медицине).

64. Atal B.S. Predictive Coding of Speech at Low Bit Rates // IEEE Tr., COM. 1982. - V.30. -№ 4. -P. 600-614.

65. Benvenuto N., Corvaja R., Erseghe Т., Laurenti N. Communication Systems. Fundamentals and Design Methods. Jon Wiley & Sons, 2007. - 516 p.

66. Bertorello L., Copperi M. Design of a 4,8/9,6 kbps Base Band LPC Coder using Split-Band and Vector Quatization // ICASSP. 1983. -V. 3. - P. 1312-1315.

67. Besruk V.M. Autoregression methods of signals recognition // Telecommunications and Radio Engineering. 2003. 56(12-14). - P. 12-18.

68. Besruk V.M. Autoregression methods of the preset signals recognition in the presence of the unknown signals" class // Radioelectronics & Informatics. -2003.-№3.-P. 187-191.

69. Campbell J.P. et all. An Expandeble Errorprotected 4800 bps CELP Coder (U.S. Federal Standart 4800 Voice Coder ) // ICASSP. 1989. -V. 2. - P. 1111-1200.

70. Casajus-Quiros F.J., Hernandes-Gomes L.A., Carcia-Mateo C. Analysis and Quantization Procedures for a Real-Time Implementation of a 4,8 kbps CELP Coder//ICASSP. 1990. -V. 1. -P. 221-225.

71. Chiu K.M., Ching P.C. Quan-band excitation for low bit rate speech coding. // J. Acoust. Soc. Amer. 1996. - 99. -№ 4. Pt.l. -P. 2365-2369.

72. CCITT. Recommendation G.727. -5-, 4-, 3-, and 2 bits Sample Embedded Adaptive Differential Pulse Code Modulation (ADPCM ). P. 1-22.

73. CCIR GSM Rec. T/L/03/11. A 13 kbps Regular Pulse Excitation Long Term Prediction-Linear Predictive Coder for the Pan-European Digital Mobile Radio System, 1988.-P. 1-15.

74. Cox R. V. Draft Recommendation G.723.1 Dual Rate Speech Coder for Multimedia Telecommunication Transmitting at 5,3 and 6,4 kbps. - ITU, Tele-comm. Standartization Sector, LBC95- 085, - 1995. - P. 1-24.

75. Cox R.V., Kroon P. Low bit-rate Speech Coders for Multimedia Communication //IEEE Communications Magazine. December 1996.—P. 34-41.

76. Haagen J., Nielsen H., Hansen S.D. A 2,4 kbps High-Ouality Speech Coder// ICASSP, S9.-1991.-V. 5. -P. 589-592.

77. Federal Standard 1016. Telecommunications: Analog to Digital Conversion of Radio Voice by 4800 bps Code Excited Linear Prediction (CELP). General Serv. Adm., Office of Inf. Resources Mangm., Febr.,14, 1991. -P.l-12.

78. Frazier M.W. An Introduction to Wavelets Through Linear Algebra. New York.: Springer-Verlag, 1999. - 487 p.

79. Gersho Allen. Advances in speech and audio compression // Proc. IEEE. -1994. 82. - № 6. -P. 900-918.

80. Guyader A., Manaloux D., Zureher. A Robust and Fast CELP Coder at 16 kbps // Speech Communication. 1988. - V. 7. - № 2. -P/217-226.

81. International Standard ISO/IEC 15938-4. Information technology Multimedia content description interface - Part 4: Audio, 2002.

82. ISO/IEC FCD 14496-3. Subpart 1. Information technology Very Lov Bi-trate Audio-Visual Coding. Part 3: Audio, 1998-05-10 (ISO/JTC 1/SC 29. -N 2203).

83. Jayant N. Signal compression: technology targets and research directions // IEEE J. on Sel. Areas in Commun., № 10(5), June 1992. P. 796-818.

84. Kabal P., Ramachandar R.P. Joint Optimization of Linear Predictors in Speech Coders // IEEE J., ASSP. 1989. - V. 37. -P. 642-650.

85. Kleijn W. B. On the periodicity of speech coded with linear-prediction based analysis coders // IEEE Trans. Speech and Audio Process. 1994. -V. 2. -№4.-P. 136-138.

86. Kroon P., Deprettere F. A Class of Analyses by Synthesis Predictive Coders for High Quality Speech Coding of Rates Between 4,8-16 kbs // IEEE J., SAC. 1988. - V. 6. - № 2. - P. 9-14 .

87. Levine S. Audio Representation for Data Compression and Compressed Domain Processing // Departament of Electrical Engineering and the Committee on Graduate Studies of Stanford University. -Dezember. 1998.-215 p.

88. Mc Aulay R.J., Quantieri T.F. Multirate Sinusoidal Transform Coding at Rate from 2,4 to 8 kbps // ICASSP. -1987. V. 3. - P. 744-754.

89. Musman H.G., Werner O., Fuchs H. Kompressions algoritmen fuer interactive Multimedia Systeme // Informationstechnik und Technische Informatik. -1993.-№2. -P. 4-18.

90. Painter Т., Spanias A. Perceptual Coding of Digital Audio // Proceedings of the IEEE. 2000. -V. 88. -№ 4. - P. 451-513.

91. Picovici D., Mahdi A.E. and Murphy T. An Enhanced Single-Ended Method for Objective Speech Quality Assessment for Telephony Systems // SPECOM 2005. Proceedings 10th International Conference SPEECH'and COMPUTER. -2005. Patras, Greece. -P. 633-636.

92. Rose R.C., Barnwell T.P. Design and Performance of an Analysis-by-Synthesis Class of Predictive Speech Coders // Proc. of the IEEE Trans. On ASSP. 1990. -V. 38. -P. 1489-1503.

93. Spanias A.S. Speech Coding: A Tutorial Review // Proc. of the IEEE. 1994. - V. 82. - № 10. - P. 1539-1994.

94. Tavatia S., Porayath R., Doherty J F. Lattice CELP for low bit rate speech coding // Mil. Commun. Global Inf. Age: Synergies, Innov. and Monmouth Chapter Symp., Fort Monmouth, N. J. 1994. - V. 3. - Piscataway (N. J.). -1994. -P.703-707.

95. The Past, Present and Future of Speech Processing // IEEE Signal Processing Magazine. May 1998. -P. 24-48.

96. Wickerhauser M.V. Acoustic signal compression with wavelet packets. -New York: Academic Press, 1998. 211 p.

97. Woyd I. Speech Codec for the Skyphone Aeronautical Telephone Service. British TELECOMMUNICATION engineering. 1989. - V. 8. - 120 p.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.