Разработка алгоритмов кодирования речевых сигналов для передачи по каналам связи

Столяров, Кирилл Владимирович

Разработка алгоритмов кодирования речевых сигналов для передачи по каналам связи тема диссертации и автореферата по ВАК РФ 05.12.13, кандидат технических наук Столяров, Кирилл Владимирович

Столяров, Кирилл Владимирович
кандидат технических наук
2002

Специальность ВАК РФ05.12.13

Количество страниц 91

Столяров, Кирилл Владимирович. Разработка алгоритмов кодирования речевых сигналов для передачи по каналам связи: дис. кандидат технических наук: 05.12.13 - Системы, сети и устройства телекоммуникаций. Санкт-Петербург. 2002. 91 с.

Оглавление диссертации кандидат технических наук Столяров, Кирилл Владимирович

СПИСОК ОСНОВНЫХ ОБОЗНАЧЕНИЙ.

ВВЕДЕНИЕ.

1. СОВРЕМЕННОЕ СОСТОЯНИЕ РАЗРАБОТОК В ОБЛАСТИ , КОДИРОВАНИЯ РЕЧЕВОГО СИГНАЛА.

1.1. Основные понятия.

1.2. Алгоритмы кодирования формы речевого сигнала.

1.3. Алгоритмы кодирования параметров речевого сигнала.

1.4. Смешанные алгоритмы кодирования речевого сигнала.

1.5. Критерий слухового восприятия.

1.6. Алгоритм "анализ через синтез".

1.7. Постановка задач исследований.

2. РАЗРАБОТКА ОКНОНЕЗАВИСИМОГО АЛГОРИТМА КОДИРОВАНИЯ РЕЧЕВОГО СИГНАЛА.

2.1. Общее описание алгоритма кодирования.

2.2. Расчет коэффициентов линейного предсказания.

2.3. Расчет параметров для инициализации адаптивной кодовой книги.

2.4. Расчет параметров для адаптивной и дополнительной кодовых книг.

Выводы.

3. ПРИМЕНЕНИЕ РАЗРАБОТАННЫХ ВОКОДЕРОВ В СИСТЕМАХ ДЛЯ ГОЛОСОВОЙ СВЯЗИ ЧЕРЕЗ ИНТЕРНЕТ.

3.1. Протокол для образования и поддержания звуковой связи.

3.2. Экспериментальное приложение для голосовой связи через IP-сети.

Выводы.

Введение диссертации (часть автореферата) на тему «Разработка алгоритмов кодирования речевых сигналов для передачи по каналам связи»

Актуальность темы. В настоящее время кодирование речевого сигнала играет большую роль в системах передачи и обработки информации. Во-первых, алгоритмы кодирования уменьшают поток данных, передаваемых по каналу связи, что позволяет более эффективно использовать ресурс канала. Во-вторых, требуется меньше места для хранения данных на разного рода носителях информации, например, на компакт-дисках, гибких и жестких дисках. В-третьих, появляется возможность защиты информации от несанкционированного доступа.

Первое достоинство алгоритмов кодирования успешно используется в системах спутниковой и сотовой связи и в Internet. В системах спутниковой и сотовой связи уменьшение потока передаваемых данных позволяет более эффективно использовать соответствующий частотный диапазон. На базе алгоритмов кодирования речи уже создано большое количество приложений, реализующих голосовое общение через Internet в реальном масштабе времени по относительно узкополосному каналу.

Второе достоинство широко применяется в цифровых диктофонах, для временного хранения речи в сжатом виде в голосовых почтовых ящиках и в Internet при передаче голосовых и музыкальных архивов.

Третье достоинство используется при построении специальных систем, обеспечивающих конфиденциальность при передаче голосовой информации.

К настоящему времени разработано значительное количество алгоритмов кодирования речи и выпущено несколько стандартов. Большинство из них имеет существенный недостаток - окнозависимость - невозможность восстановить закодированный речевой сигнал, после потери хотя бы одного окна анализа. Существующие окнонезависимые алгоритмы не обеспечивают сопоставимого с окнозависимыми качества восстановленной речи для аналогичных скоростей передачи. При этом разница в качестве речи между ними тем больше, чем ниже скорость.

Таким образом, дальнейшее совершенствование алгоритмов кодирования речи и создание новых окнонезависимых алгоритмов кодирования с сопоставимым с окнозависимыми качеством речи для аналогичных скоростей передачи является актуальным.

Цель работы: разработка окнонезависимых алгоритмов кодирования речевого сигнала сопоставимых по качеству восстановленной речи с окнозависимыми алгоритмами для аналогичных скоростей передачи.

Основные задачи исследований:

1. Выявить недостатки существующих алгоритмов кодирования речи и предложить возможные способы их устранения.

2. Разработать алгоритмы кодирования речи на основе предложенных способов.

3. Разработать экспериментальное сетевое приложение голосовой связи для проверки работоспособности предложенных алгоритмов кодирования речи в реальных условиях.

Методы исследований: для решения поставленных задач использовались методы цифровой обработки сигналов и математической статистики. Экспериментальные исследования проводились путем реализации разработанных алгоритмов на ЭВМ.

Новые научные результаты:

1. Предложен способ построения окнонезависимых алгоритмов кодирования речевых сигналов, на основе комбинации CELP и MPZP-алгоритмов.

2. На основе предложенного способа реализованы три алгоритма кодирования речевых сигналов в виде ^4СМ-кодека? обеспечивающие сопоставимое с окнозависимыми вокодерами качество восстановленной речи для аналогичных скоростей передачи.

3. На базе полученных алгоритмов разработано экспериментальное приложение для организации голосовой связи через Internet или локальную сеть.

Практическая ценность заключается в разработке:

1. Трех алгоритмов кодирования речевых сигналов, рассчитанных на скорости 4800, 9600 и 19200 бит/с.

2. Протокола для образования и поддержания виртуального звукового канала связи через Internet или локальную сеть.

3. Оригинального программного продукта, реализующего голосовую связь через Internet или локальную сеть на основе предложенных алгоритмов кодирования речи и протокола.

Научные положения, выносимые на защиту:

1. Предварительный расчет параметров адаптивной кодовой книги для каждого кодируемого окна речевого сигнала позволяет реализовать окнонезависимые алгоритмы кодирования речи.

2. Настройка параметров адаптивной кодовой книги может быть выполнена с помощью MPLP-алгоритма.

3. Использование импульсного сигнала возбуждения, оптимального с точки зрения критерия слухового восприятия, вместо стохастической кодовой книги позволяет уменьшить требуемую память и снизить вычислительные затраты.

Результаты внедрения. Созданные алгоритмы и программы явились основой для разработки приложений, реализующих голосовую связь в масштабе реального времени через Internet или локальную сеть и были использованы в проекте "etalkRadio", что подтверждается актом внедрения.

Апробация работы. Основные результаты работы докладывались на 10 НТК "Военная радиоэлектроника: опыт использования и проблемы, подготовка специалистов", ВМИРЭ им. А. С. Попова Петродворец, 1999; на Московской конференции по автоматическому распознаванию слуховых образов "АРСО

99", Москва, 1999; на IV Санкт-Петербургской Ассамблее молодых ученых и специалистов, Санкт-Петербург, 1999; на Московском международном семинаре Диалог'2001 по компьютерной лингвистике и ее приложениям, Москва, 2001.

Заключение диссертации по теме «Системы, сети и устройства телекоммуникаций», Столяров, Кирилл Владимирович

Выводы

1. Предложен протокол для организации звуковой связи через Internet или локальную сеть.

2. Протокол позволяет поддерживать постоянную задержку и информировать пользователя о качестве канала связи.

3. При большой начальной задержке протокол переходит в режим работы с этой задержкой, но если качество канала связи улучшается, то автоматически происходит переключение на режим работы с малой задержкой.

4. Разработано экспериментальное приложение для организации звуковой связи "точка-точка" через Internet и локальную сеть.

ЗАКЛЮЧЕНИЕ

1. Предложен метод для реализации окнонезависимых алгоритмов кодирования речи.

2. Разработаны три окнонезависимых алгоритма кодирования речевых сигналов на скорости 4800, 9600 и 19200 бит/с, обеспечивающие сопоставимое с окнозависимыми алгоритмами качество восстановленной речи для аналогичных скоростей передачи.

3. Разработан протокол для организации виртуального канала звуковой связи через сеть, обеспечивающий близкое к реальному время доставки пакетов с возможностью оценки качества канала связи.

4. На основе предложенных алгоритмов кодирования речи и протокола разработано экспериментальное приложение, реализующее звуковую связь "точка-точка" через Internet и локальную сеть.

5. Все три разработанных алгоритма кодирования речи на скорости 4800, 9600, 19200 бит/с и протокол для организации виртуального звукового канала связи были внедрены в проект "etalkRadioпредназначенный для проведения пресс-конференций и дистанционного обучения в локальных сетях и в Internet.

6. Хотя предложенные алгоритмы кодирования были разработаны специально для передачи речи в сжатом виде в IP-сетях, они также могут быть с успехом использованы для архивации больших объемов речевых данных.

86

Список литературы диссертационного исследования кандидат технических наук Столяров, Кирилл Владимирович, 2002 год

1. Dudley Н. Remaking Speech. J. Acoust. Soc. Am. 11, pp. 169-177, 1939

2. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964

3. Фланаган Дж. Анализ, синтез и восприятие речи. М.: Связь, 1968

4. A. Spanias, "Speech Coding: A Tutorial Review," http://www.eas.asu.edu/~spanias/index.html, 100 p., 1994

5. G. Fairbanks, "Test of Phonemic Differentiation: The Rhyme Test," J. Acoust. Soc. Am., Vol. 30, p.596-600, 1958

6. W.D. Voiers, "Diagnostic Acceptability Measure for Speech Communications Systems," Proc. ICASSP-77, p.204, May 1977

7. R. Kubichek, "Standards and Technology Issues in Objective Voice Quality Assessment," Digital Signal Processing: A Review Journal, pp.38-44, April 1991

8. Джанколи Д. Физика в 2-х томах Том 1. М.: Мир, 1989

9. К. S. Shanmugam, Digital and analog communications, John Wiley, New York, 1979

10. N. S. Jayant, P. Noll, Digital Coding of Waveforms, Prentice-Hall, INC. Englewood Cliffs. NJ 1984

11. CCITT Recommendation G.721, "32 kb/s Adaptive Differential Pulse Code Modulation (ADPCM)," Blue Book, Vol. Ill, Fascicle III.3, Oct. 1988

12. R. W. Schafer, L. R. Rabiner "Цифровое представление речевых сигналов," ТИИЭРт.4, с. 141-159, 1974

13. В. Atal, "Predicitve coding of speech at low bit rates," IEEE Trans. COM-30, No. 4, p. 600, April 1982

14. R. E. Crochiere, S. A. Webber, J. L. Flanagan, "Digital coding of speech in subbands," Bell Syst. Tech. J., vol. 55, pp. 1069-1085, Oct. 1976

15. R. E. Crochiere, "On the design of subband coders for low bitrate speech communications," Bell Syst. Tech. J., vol. 56, pp. 747-770, May-June 1977

16. D. Malah, R. E. Crochiere, R. V. Cox, "Performance of transform and subband coding systems combined with harmonic scaling of speech," IEEE Trans, on ASSP, vol. 29, No. 2, April 1981

17. R. Zelinski, P. Noll, "Adaptive transform coding of speech signals," IEEE Trans, on ASSP, vol. 25, pp.299-309, Aug. 1977

18. J. M. Tribolet and R. E. Crochiere, "Frequency domain coding of speech," IEEE Trans, on ASSP, vol. 27, pp. 512-530, Oct. 1979

19. R. J. McAulay and T. F. Quatieri, "Speech analysis/synthesis based on a sinusoidal representation," IEEE Trans, on ASSP, vol. 34, pp. 744-754, No. 4, August 1986

20. M. Kohata, "1.2 kbit/s harmonic coder using auditory filters", ICASPP'99 (IC991356.pdf)

21. S. Yeldener, "A 4 kb/s toll quality harmonic excitation linear predictive speech coder", ICASSP'99 (IC991731.pdf)

22. B. Gold et. Al. "New applications of channel vocoders," IEEE Trans, on ASSP, vol. 29, No. 1, p. 13, February 1981

23. M. Noll, "Cepstrum pitch determination," J. Acoust. Soc. Am., 41, pp. 293-309, February 1967

24. L. R. Rabiner et al, "A comparative performance study of several pitch detection algorithms," IEEE Trans, on ASSP, vol. 24, pp. 399-417, October 1976

25. Y. Medan, E. Yair, D. Chazan, "Super Resolution Pitch Determination of Speech Signals", IEEE Trans, on ASSP, Vol. 39, No. 1, January 1991, pp. 40-48

26. J. Cai, Z. Liu, "Robust pitch detection of speech signals using steerable filters", ICASSP'97, Vol. 2, pp. 1427-1430

27. Li, V. Cuperman, A. Gersho, "Robust closed-loop pitch estimation for harmonic coders by time scale modification", ICASSP'99 (IC991855.pdf)

28. Маховиков А.Б., Столяров K.B., "Просодический анализ речевого сигнала," АРСО-99 Материалы конференции Теория и практика речевых исследований, Москва, с. 35, 1999

29. Tremain Т.Е. "The Goverment Standard Linear Predictive Coding Algorithm: LPC-10," Speech Technology, April, 1982, pp. 40-49

30. L. M. Supplee, R. P. Cohn, J. S. Collura, A. V. McCree, "MELP: The new Federal Standard at 2400 bps", ICASSP'97, Vol. 2, pp. 1591-1594

31. T. Unno, T. Barnwell, K. Truong, "An improved mixed excitation linear prediction (MELP) coder", ICASSP'99 (IC991764.pdf)

32. D.Griffin and J. Lim, "Multiband excitation vocoder," IEEE Trans, on ASSP, vol. 36, No. 8, p. 1223, August 1988

33. K. Un and D. T. Magill, "The residual-excited linear prediction vocoder with transmission rate below 9.6 kbit/s," IEEE Trans, on COM, vol. 23, No 12, p. 1466, December 1975

34. B.S. Atal and J.R.Remde, "A new model of LPC excitation for producing natural sounding speech at low bit rates," in Proc. Int. Conf. Acoust., Speech, Signal Processing (Paris, France), 1982, pp.614-617

35. P. Kroon, E.F. Deprettere, and R.J. Sluyter, "Regular-pulse excitation A novel approach to effective and efficient multipulse coding of speech, " IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-34, no. 5, pp. 1054-1063, 1986

36. J.P. Campbell, T.E.Tremain and V.C. Welch, "The proposed Federal Standard 1016 4800 bps voice coder: CELP", Speech Technology, pp. 58-64, Apr ./May 1990

37. W.B. Kleijn, D.J. Krasinski, R.H. Ketchum, "Fast Methods for the CELP Speech Coding Algorithm," IEEE Trans, on ASSP, vol. 38, no. 8, August 1990, pp. 1330-1341

38. A.Langi, W. Grieder, W. Kinsner, "Fast CELP Algorithm and Implementation for Speech Compression," Proc. Digital Communications Conference, 1994

39. R.C. Rose, T.P. Barnwell, "Design and Performance of an Analysis-by-Synthesis Class of Predictive Speech Coders", IEEE Trans, on ASSP, vol. 38, no. 9, September 1990, pp. 1489-1503

40. L. Zhang, T. Wang, V. Cuperman, "A CELP variable rate speech codec with low average rate", ICASSP'97, Vol. 2, pp. 735-738

41. H. K. Kim, Y. D. Cho, M. Y. Kim, S. R. Kim, "A 4 kbit/s renewal code excited linear prediction speech coder", ICASSP'97, Vol. 2, pp. 767-770

42. Bernard, A. Alwan, "Perceptually based and embedded wideband CELP coding of speech", Eurospeech'97, Vol. 4, pp. 1543-1546

43. Gerson and M. Jasiuk, "Vector Sum Excited Linear Prediction (VSELP) Speech Coding at 8 kbits/s," Proc. ICASSP-90, pp. 461-464, New Mexico, Apr. 1990

44. Gerson, "Vector Sum Excited Linear Prediction (VSELP) Speech Coding for Japan Digital Celluar," Meeting of IEICE, RCS90-26, Nov. 1990

45. B.S.Atal, M.R.Schroeder, "Predictive coding of speech signals and subjective error criteria," IEEE Trans, on ASSP, vol. 27, NO 3, June 1979, pp. 247-254

46. S. Singhal, В. Atal, "Improving the performance of multi-pulse coders at low bit rates," Proc. ICASSP-84, p. 1.3.1, 1984

47. Маховиков А.Б., Столяров K.B., "Система речевой связи через Интернет," Dialogue'2001 Труды международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям (в двух томах) Москва, 2001.-Том 2.-С. 56-62

48. F.K. Soong and B.W. Juang, "Line spectrum pair (LSP) and speech data compression," in Proc. Int. Conf. Acoust., Speech, Signal Processing, San Diego, CA, Mar. 1984, pp. 1.10.1-1.10.4

49. Y.-H Kao, "Low complexity CELP speech coding at 4.8 kbps", Master of Science, The University of Maryland, 1990

50. Гольдштейн B.C., Пинчук A.B., Суховицкий A.JI. IP-Телефония. M.: Радио и связь, 2001 336 с.

51. И. Шелухин, Н. Ф. Лукьянцев, "Цифровая обработка и передача речи", М., "Радио и связь", 2000, 454 с.

52. A. Machovikov and К. Stolyarov, "System for Speech Communication through Internet," In Proceedings of TSD'2001, Zelezna Ruda, Czech Republic, pp. 229-236, 20011. Teluminc.

53. Корпорация «Телум Инк.», Барбадос (Представительство в Санкт-Петербурге) ИНН F7833017178 КПП 783451001199026, Санкт-Петербург, 20-я линия, д.5-7, к.166 Телефон: (812) 320-5725 e-mail: abm@telumintl.com

54. Т/СЧ №40814810211000000001 В/СЧ №40807840011005000005 в Василеостровском ф-ле ОАО «ПСБ» г. СПб БИК 044030791 К/СЧ №301018102000000007911. Исх. № На №от"/1 от"л 200 / г. 200 г.

55. Дальнейшие исследования планируется проводить с целью разработки окнонезависимых вокодеров для более низких скоростей передачи.1. Ромашев Н.А.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат технических наук Столяров, Кирилл Владимирович

Рекомендованный список диссертаций по специальности «Системы, сети и устройства телекоммуникаций», 05.12.13 шифр ВАК

Разработка методов эффективного кодирования речи на основе новых моделей источника речеобразования2007 год, кандидат технических наук Медведев, Олег Николаевич

Разработка низкоскоростного вокодера1999 год, кандидат технических наук Ли Фэйпэн

Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет2008 год, кандидат технических наук Коробанов, Алексей Владимирович

Введение диссертации (часть автореферата) на тему «Разработка алгоритмов кодирования речевых сигналов для передачи по каналам связи»

Похожие диссертационные работы по специальности «Системы, сети и устройства телекоммуникаций», 05.12.13 шифр ВАК

Спектрально-временные методы и алгоритмы обработки звуковой информации2004 год, кандидат технических наук Кудряшов, Максим Юрьевич

Заключение диссертации по теме «Системы, сети и устройства телекоммуникаций», Столяров, Кирилл Владимирович

Список литературы диссертационного исследования кандидат технических наук Столяров, Кирилл Владимирович, 2002 год