Разработка алгоритмов кодирования речевых сигналов для передачи по каналам связи тема диссертации и автореферата по ВАК РФ 05.12.13, кандидат технических наук Столяров, Кирилл Владимирович
- Специальность ВАК РФ05.12.13
- Количество страниц 91
Оглавление диссертации кандидат технических наук Столяров, Кирилл Владимирович
СПИСОК ОСНОВНЫХ ОБОЗНАЧЕНИЙ.
ВВЕДЕНИЕ.
1. СОВРЕМЕННОЕ СОСТОЯНИЕ РАЗРАБОТОК В ОБЛАСТИ , КОДИРОВАНИЯ РЕЧЕВОГО СИГНАЛА.
1.1. Основные понятия.
1.2. Алгоритмы кодирования формы речевого сигнала.
1.3. Алгоритмы кодирования параметров речевого сигнала.
1.4. Смешанные алгоритмы кодирования речевого сигнала.
1.5. Критерий слухового восприятия.
1.6. Алгоритм "анализ через синтез".
1.7. Постановка задач исследований.
2. РАЗРАБОТКА ОКНОНЕЗАВИСИМОГО АЛГОРИТМА КОДИРОВАНИЯ РЕЧЕВОГО СИГНАЛА.
2.1. Общее описание алгоритма кодирования.
2.2. Расчет коэффициентов линейного предсказания.
2.3. Расчет параметров для инициализации адаптивной кодовой книги.
2.4. Расчет параметров для адаптивной и дополнительной кодовых книг.
Выводы.
3. ПРИМЕНЕНИЕ РАЗРАБОТАННЫХ ВОКОДЕРОВ В СИСТЕМАХ ДЛЯ ГОЛОСОВОЙ СВЯЗИ ЧЕРЕЗ ИНТЕРНЕТ.
3.1. Протокол для образования и поддержания звуковой связи.
3.2. Экспериментальное приложение для голосовой связи через IP-сети.
Выводы.
Рекомендованный список диссертаций по специальности «Системы, сети и устройства телекоммуникаций», 05.12.13 шифр ВАК
Разработка методов эффективного кодирования речи на основе новых моделей источника речеобразования2007 год, кандидат технических наук Медведев, Олег Николаевич
Разработка низкоскоростного вокодера1999 год, кандидат технических наук Ли Фэйпэн
Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет2008 год, кандидат технических наук Коробанов, Алексей Владимирович
Разработка, исследование, оптимизация адаптивных корректоров межсимвольных искажений устройств преобразования сигнала для проводных систем передачи1984 год, кандидат технических наук Лазарев, Андрей Михайлович
Исследование и разработка итеративных методов обработки сигналов для высокоскоростных модемов КВ диапазона2009 год, кандидат технических наук Малютин, Александр Анатольевич
Введение диссертации (часть автореферата) на тему «Разработка алгоритмов кодирования речевых сигналов для передачи по каналам связи»
Актуальность темы. В настоящее время кодирование речевого сигнала играет большую роль в системах передачи и обработки информации. Во-первых, алгоритмы кодирования уменьшают поток данных, передаваемых по каналу связи, что позволяет более эффективно использовать ресурс канала. Во-вторых, требуется меньше места для хранения данных на разного рода носителях информации, например, на компакт-дисках, гибких и жестких дисках. В-третьих, появляется возможность защиты информации от несанкционированного доступа.
Первое достоинство алгоритмов кодирования успешно используется в системах спутниковой и сотовой связи и в Internet. В системах спутниковой и сотовой связи уменьшение потока передаваемых данных позволяет более эффективно использовать соответствующий частотный диапазон. На базе алгоритмов кодирования речи уже создано большое количество приложений, реализующих голосовое общение через Internet в реальном масштабе времени по относительно узкополосному каналу.
Второе достоинство широко применяется в цифровых диктофонах, для временного хранения речи в сжатом виде в голосовых почтовых ящиках и в Internet при передаче голосовых и музыкальных архивов.
Третье достоинство используется при построении специальных систем, обеспечивающих конфиденциальность при передаче голосовой информации.
К настоящему времени разработано значительное количество алгоритмов кодирования речи и выпущено несколько стандартов. Большинство из них имеет существенный недостаток - окнозависимость - невозможность восстановить закодированный речевой сигнал, после потери хотя бы одного окна анализа. Существующие окнонезависимые алгоритмы не обеспечивают сопоставимого с окнозависимыми качества восстановленной речи для аналогичных скоростей передачи. При этом разница в качестве речи между ними тем больше, чем ниже скорость.
Таким образом, дальнейшее совершенствование алгоритмов кодирования речи и создание новых окнонезависимых алгоритмов кодирования с сопоставимым с окнозависимыми качеством речи для аналогичных скоростей передачи является актуальным.
Цель работы: разработка окнонезависимых алгоритмов кодирования речевого сигнала сопоставимых по качеству восстановленной речи с окнозависимыми алгоритмами для аналогичных скоростей передачи.
Основные задачи исследований:
1. Выявить недостатки существующих алгоритмов кодирования речи и предложить возможные способы их устранения.
2. Разработать алгоритмы кодирования речи на основе предложенных способов.
3. Разработать экспериментальное сетевое приложение голосовой связи для проверки работоспособности предложенных алгоритмов кодирования речи в реальных условиях.
Методы исследований: для решения поставленных задач использовались методы цифровой обработки сигналов и математической статистики. Экспериментальные исследования проводились путем реализации разработанных алгоритмов на ЭВМ.
Новые научные результаты:
1. Предложен способ построения окнонезависимых алгоритмов кодирования речевых сигналов, на основе комбинации CELP и MPZP-алгоритмов.
2. На основе предложенного способа реализованы три алгоритма кодирования речевых сигналов в виде ^4СМ-кодека? обеспечивающие сопоставимое с окнозависимыми вокодерами качество восстановленной речи для аналогичных скоростей передачи.
3. На базе полученных алгоритмов разработано экспериментальное приложение для организации голосовой связи через Internet или локальную сеть.
Практическая ценность заключается в разработке:
1. Трех алгоритмов кодирования речевых сигналов, рассчитанных на скорости 4800, 9600 и 19200 бит/с.
2. Протокола для образования и поддержания виртуального звукового канала связи через Internet или локальную сеть.
3. Оригинального программного продукта, реализующего голосовую связь через Internet или локальную сеть на основе предложенных алгоритмов кодирования речи и протокола.
Научные положения, выносимые на защиту:
1. Предварительный расчет параметров адаптивной кодовой книги для каждого кодируемого окна речевого сигнала позволяет реализовать окнонезависимые алгоритмы кодирования речи.
2. Настройка параметров адаптивной кодовой книги может быть выполнена с помощью MPLP-алгоритма.
3. Использование импульсного сигнала возбуждения, оптимального с точки зрения критерия слухового восприятия, вместо стохастической кодовой книги позволяет уменьшить требуемую память и снизить вычислительные затраты.
Результаты внедрения. Созданные алгоритмы и программы явились основой для разработки приложений, реализующих голосовую связь в масштабе реального времени через Internet или локальную сеть и были использованы в проекте "etalkRadio", что подтверждается актом внедрения.
Апробация работы. Основные результаты работы докладывались на 10 НТК "Военная радиоэлектроника: опыт использования и проблемы, подготовка специалистов", ВМИРЭ им. А. С. Попова Петродворец, 1999; на Московской конференции по автоматическому распознаванию слуховых образов "АРСО
99", Москва, 1999; на IV Санкт-Петербургской Ассамблее молодых ученых и специалистов, Санкт-Петербург, 1999; на Московском международном семинаре Диалог'2001 по компьютерной лингвистике и ее приложениям, Москва, 2001.
Похожие диссертационные работы по специальности «Системы, сети и устройства телекоммуникаций», 05.12.13 шифр ВАК
Разработка алгоритмов помехоустойчивого канального кодирования данных в сетях связи информационно-управляющих систем2012 год, кандидат технических наук Пирогов, Александр Александрович
Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка2005 год, кандидат технических наук Хаджинов, Александр Александрович
Моделирование процессов управления речевой разборчивостью в многоканальных системах конфиденциальной голосовой связи2012 год, кандидат технических наук Мишуков, Андрей Андреевич
Разработка быстродействующих алгоритмов компрессии видеоданных с использованием дельта-преобразований второго порядка2005 год, кандидат технических наук Погорелов, Константин Владимирович
Спектрально-временные методы и алгоритмы обработки звуковой информации2004 год, кандидат технических наук Кудряшов, Максим Юрьевич
Заключение диссертации по теме «Системы, сети и устройства телекоммуникаций», Столяров, Кирилл Владимирович
Выводы
1. Предложен протокол для организации звуковой связи через Internet или локальную сеть.
2. Протокол позволяет поддерживать постоянную задержку и информировать пользователя о качестве канала связи.
3. При большой начальной задержке протокол переходит в режим работы с этой задержкой, но если качество канала связи улучшается, то автоматически происходит переключение на режим работы с малой задержкой.
4. Разработано экспериментальное приложение для организации звуковой связи "точка-точка" через Internet и локальную сеть.
ЗАКЛЮЧЕНИЕ
1. Предложен метод для реализации окнонезависимых алгоритмов кодирования речи.
2. Разработаны три окнонезависимых алгоритма кодирования речевых сигналов на скорости 4800, 9600 и 19200 бит/с, обеспечивающие сопоставимое с окнозависимыми алгоритмами качество восстановленной речи для аналогичных скоростей передачи.
3. Разработан протокол для организации виртуального канала звуковой связи через сеть, обеспечивающий близкое к реальному время доставки пакетов с возможностью оценки качества канала связи.
4. На основе предложенных алгоритмов кодирования речи и протокола разработано экспериментальное приложение, реализующее звуковую связь "точка-точка" через Internet и локальную сеть.
5. Все три разработанных алгоритма кодирования речи на скорости 4800, 9600, 19200 бит/с и протокол для организации виртуального звукового канала связи были внедрены в проект "etalkRadioпредназначенный для проведения пресс-конференций и дистанционного обучения в локальных сетях и в Internet.
6. Хотя предложенные алгоритмы кодирования были разработаны специально для передачи речи в сжатом виде в IP-сетях, они также могут быть с успехом использованы для архивации больших объемов речевых данных.
86
Список литературы диссертационного исследования кандидат технических наук Столяров, Кирилл Владимирович, 2002 год
1. Dudley Н. Remaking Speech. J. Acoust. Soc. Am. 11, pp. 169-177, 1939
2. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964
3. Фланаган Дж. Анализ, синтез и восприятие речи. М.: Связь, 1968
4. A. Spanias, "Speech Coding: A Tutorial Review," http://www.eas.asu.edu/~spanias/index.html, 100 p., 1994
5. G. Fairbanks, "Test of Phonemic Differentiation: The Rhyme Test," J. Acoust. Soc. Am., Vol. 30, p.596-600, 1958
6. W.D. Voiers, "Diagnostic Acceptability Measure for Speech Communications Systems," Proc. ICASSP-77, p.204, May 1977
7. R. Kubichek, "Standards and Technology Issues in Objective Voice Quality Assessment," Digital Signal Processing: A Review Journal, pp.38-44, April 1991
8. Джанколи Д. Физика в 2-х томах Том 1. М.: Мир, 1989
9. К. S. Shanmugam, Digital and analog communications, John Wiley, New York, 1979
10. N. S. Jayant, P. Noll, Digital Coding of Waveforms, Prentice-Hall, INC. Englewood Cliffs. NJ 1984
11. CCITT Recommendation G.721, "32 kb/s Adaptive Differential Pulse Code Modulation (ADPCM)," Blue Book, Vol. Ill, Fascicle III.3, Oct. 1988
12. R. W. Schafer, L. R. Rabiner "Цифровое представление речевых сигналов," ТИИЭРт.4, с. 141-159, 1974
13. В. Atal, "Predicitve coding of speech at low bit rates," IEEE Trans. COM-30, No. 4, p. 600, April 1982
14. R. E. Crochiere, S. A. Webber, J. L. Flanagan, "Digital coding of speech in subbands," Bell Syst. Tech. J., vol. 55, pp. 1069-1085, Oct. 1976
15. R. E. Crochiere, "On the design of subband coders for low bitrate speech communications," Bell Syst. Tech. J., vol. 56, pp. 747-770, May-June 1977
16. D. Malah, R. E. Crochiere, R. V. Cox, "Performance of transform and subband coding systems combined with harmonic scaling of speech," IEEE Trans, on ASSP, vol. 29, No. 2, April 1981
17. R. Zelinski, P. Noll, "Adaptive transform coding of speech signals," IEEE Trans, on ASSP, vol. 25, pp.299-309, Aug. 1977
18. J. M. Tribolet and R. E. Crochiere, "Frequency domain coding of speech," IEEE Trans, on ASSP, vol. 27, pp. 512-530, Oct. 1979
19. R. J. McAulay and T. F. Quatieri, "Speech analysis/synthesis based on a sinusoidal representation," IEEE Trans, on ASSP, vol. 34, pp. 744-754, No. 4, August 1986
20. M. Kohata, "1.2 kbit/s harmonic coder using auditory filters", ICASPP'99 (IC991356.pdf)
21. S. Yeldener, "A 4 kb/s toll quality harmonic excitation linear predictive speech coder", ICASSP'99 (IC991731.pdf)
22. B. Gold et. Al. "New applications of channel vocoders," IEEE Trans, on ASSP, vol. 29, No. 1, p. 13, February 1981
23. M. Noll, "Cepstrum pitch determination," J. Acoust. Soc. Am., 41, pp. 293-309, February 1967
24. L. R. Rabiner et al, "A comparative performance study of several pitch detection algorithms," IEEE Trans, on ASSP, vol. 24, pp. 399-417, October 1976
25. Y. Medan, E. Yair, D. Chazan, "Super Resolution Pitch Determination of Speech Signals", IEEE Trans, on ASSP, Vol. 39, No. 1, January 1991, pp. 40-48
26. J. Cai, Z. Liu, "Robust pitch detection of speech signals using steerable filters", ICASSP'97, Vol. 2, pp. 1427-1430
27. Li, V. Cuperman, A. Gersho, "Robust closed-loop pitch estimation for harmonic coders by time scale modification", ICASSP'99 (IC991855.pdf)
28. Маховиков А.Б., Столяров K.B., "Просодический анализ речевого сигнала," АРСО-99 Материалы конференции Теория и практика речевых исследований, Москва, с. 35, 1999
29. Tremain Т.Е. "The Goverment Standard Linear Predictive Coding Algorithm: LPC-10," Speech Technology, April, 1982, pp. 40-49
30. L. M. Supplee, R. P. Cohn, J. S. Collura, A. V. McCree, "MELP: The new Federal Standard at 2400 bps", ICASSP'97, Vol. 2, pp. 1591-1594
31. T. Unno, T. Barnwell, K. Truong, "An improved mixed excitation linear prediction (MELP) coder", ICASSP'99 (IC991764.pdf)
32. D.Griffin and J. Lim, "Multiband excitation vocoder," IEEE Trans, on ASSP, vol. 36, No. 8, p. 1223, August 1988
33. K. Un and D. T. Magill, "The residual-excited linear prediction vocoder with transmission rate below 9.6 kbit/s," IEEE Trans, on COM, vol. 23, No 12, p. 1466, December 1975
34. B.S. Atal and J.R.Remde, "A new model of LPC excitation for producing natural sounding speech at low bit rates," in Proc. Int. Conf. Acoust., Speech, Signal Processing (Paris, France), 1982, pp.614-617
35. P. Kroon, E.F. Deprettere, and R.J. Sluyter, "Regular-pulse excitation A novel approach to effective and efficient multipulse coding of speech, " IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-34, no. 5, pp. 1054-1063, 1986
36. J.P. Campbell, T.E.Tremain and V.C. Welch, "The proposed Federal Standard 1016 4800 bps voice coder: CELP", Speech Technology, pp. 58-64, Apr ./May 1990
37. W.B. Kleijn, D.J. Krasinski, R.H. Ketchum, "Fast Methods for the CELP Speech Coding Algorithm," IEEE Trans, on ASSP, vol. 38, no. 8, August 1990, pp. 1330-1341
38. A.Langi, W. Grieder, W. Kinsner, "Fast CELP Algorithm and Implementation for Speech Compression," Proc. Digital Communications Conference, 1994
39. R.C. Rose, T.P. Barnwell, "Design and Performance of an Analysis-by-Synthesis Class of Predictive Speech Coders", IEEE Trans, on ASSP, vol. 38, no. 9, September 1990, pp. 1489-1503
40. L. Zhang, T. Wang, V. Cuperman, "A CELP variable rate speech codec with low average rate", ICASSP'97, Vol. 2, pp. 735-738
41. H. K. Kim, Y. D. Cho, M. Y. Kim, S. R. Kim, "A 4 kbit/s renewal code excited linear prediction speech coder", ICASSP'97, Vol. 2, pp. 767-770
42. Bernard, A. Alwan, "Perceptually based and embedded wideband CELP coding of speech", Eurospeech'97, Vol. 4, pp. 1543-1546
43. Gerson and M. Jasiuk, "Vector Sum Excited Linear Prediction (VSELP) Speech Coding at 8 kbits/s," Proc. ICASSP-90, pp. 461-464, New Mexico, Apr. 1990
44. Gerson, "Vector Sum Excited Linear Prediction (VSELP) Speech Coding for Japan Digital Celluar," Meeting of IEICE, RCS90-26, Nov. 1990
45. B.S.Atal, M.R.Schroeder, "Predictive coding of speech signals and subjective error criteria," IEEE Trans, on ASSP, vol. 27, NO 3, June 1979, pp. 247-254
46. S. Singhal, В. Atal, "Improving the performance of multi-pulse coders at low bit rates," Proc. ICASSP-84, p. 1.3.1, 1984
47. Маховиков А.Б., Столяров K.B., "Система речевой связи через Интернет," Dialogue'2001 Труды международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям (в двух томах) Москва, 2001.-Том 2.-С. 56-62
48. F.K. Soong and B.W. Juang, "Line spectrum pair (LSP) and speech data compression," in Proc. Int. Conf. Acoust., Speech, Signal Processing, San Diego, CA, Mar. 1984, pp. 1.10.1-1.10.4
49. Y.-H Kao, "Low complexity CELP speech coding at 4.8 kbps", Master of Science, The University of Maryland, 1990
50. Гольдштейн B.C., Пинчук A.B., Суховицкий A.JI. IP-Телефония. M.: Радио и связь, 2001 336 с.
51. И. Шелухин, Н. Ф. Лукьянцев, "Цифровая обработка и передача речи", М., "Радио и связь", 2000, 454 с.
52. A. Machovikov and К. Stolyarov, "System for Speech Communication through Internet," In Proceedings of TSD'2001, Zelezna Ruda, Czech Republic, pp. 229-236, 20011. Teluminc.
53. Корпорация «Телум Инк.», Барбадос (Представительство в Санкт-Петербурге) ИНН F7833017178 КПП 783451001199026, Санкт-Петербург, 20-я линия, д.5-7, к.166 Телефон: (812) 320-5725 e-mail: abm@telumintl.com
54. Т/СЧ №40814810211000000001 В/СЧ №40807840011005000005 в Василеостровском ф-ле ОАО «ПСБ» г. СПб БИК 044030791 К/СЧ №301018102000000007911. Исх. № На №от"/1 от"л 200 / г. 200 г.
55. Дальнейшие исследования планируется проводить с целью разработки окнонезависимых вокодеров для более низких скоростей передачи.1. Ромашев Н.А.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.