Модели и алгоритмы обработки мультимедийной информации, учитывающие особенности человеческого восприятия тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Лукин, Алексей Сергеевич

  • Лукин, Алексей Сергеевич
  • кандидат физико-математических науккандидат физико-математических наук
  • 2005, Москва
  • Специальность ВАК РФ05.13.11
  • Количество страниц 90
Лукин, Алексей Сергеевич. Модели и алгоритмы обработки мультимедийной информации, учитывающие особенности человеческого восприятия: дис. кандидат физико-математических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Москва. 2005. 90 с.

Оглавление диссертации кандидат физико-математических наук Лукин, Алексей Сергеевич

Введение.

Цели и задачи работы.

Научная актуальность работы.

Глава 1. Банки фильтров и их частотно-временное разрешение.

Сведения о человеческом восприятии.

Восприятие звука.

Восприятие изображений.

Традиционные банки фильтров.

Выводы.

Глава 2. Банки фильтров с адаптивным разрешением.

Существующие решения.

Предлагаемая схема.

Стратегии управления частотно-временным разрешением.

Широкополосный анализ стационарности.

Многополосный анализатор стационарности.

Принцип наиболее компактного описания сигнала.

Выводы.

Глава 3. Применение предложенной модели банков фильтров.

Шумоподавление: общие принципы.

Шумоподавление для аудиосигналов.

Задача шумоподавления и метод спектрального вычитания.

Интерпретация в виде многополосного гейта.

Недостатки спектрального вычитания.

Применение предложенной модели банка фильтров.

Результаты.

Шумоподавление для изображений.

Применение предложенной модели.

Дополнительные модификации метода АРСА.

Оптимизации быстродействия.

Переход в новое цветовое пространство.

Результаты.

Нелокальное усреднение: модификация алгоритма.

Подавление центрального канала в аудио.

Постановка задачи.

Существующие подходы.

Предлагаемый подход.

Результаты.

Временное масштабирование аудио.

Постановка задачи.

Существующие подходы к решению задачи.

Предлагаемый метод.

Банк фильтров.

Блокировка фаз.

Рандомизация фаз.

Сохранение транзиентов.

Результаты.

Построение спектрограмм.

Традиционный метод.

Предлагаемый метод.

Выводы.

Глава 4. Локальная одномерная цветовая модель.

Предлагаемая модель.

Применения.

Интерполяция байеровских шаблонов.

Предлагаемая модификация алгоритма.

Результаты.

Предлагаемый алгоритм увеличения резкости границ.

Результаты.

Выводы.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Модели и алгоритмы обработки мультимедийной информации, учитывающие особенности человеческого восприятия»

Цифровая обработка сигналов (ЦОС) [1] играет все более важную роль с распространением мультимедийных возможностей персональных компьютеров. Зарождение основных методов ЦОС происходило в середине 20 века, когда появлялись первые компьютеры. В те годы большие усилия при создании алгоритмов ЦОС тратились на их эффективную реализацию. Сейчас, когда мощности даже персональных компьютеров возросли настолько, что позволяют в реальном времени проводить сложную обработку сигналов, на передний план выходит вопрос о качестве алгоритмов, а не об их быстродействии. Зачастую пользователи готовы пожертвовать скоростью вычисления ради достижения лучших результатов.

Алгоритмы ЦОС переходят из разряда узкоспециальных в разряд повсеместно используемых. Ранее они применялись в таких задачах, как профессиональная звукозапись и обработка звука, радиолокация. Теперь же алгоритмы ЦОС все активнее используются в повседневном человеко-машинном интерфейсе, который становится мультимедийным: это и чипы цифровых фотокамер, обрабатывающие изображения, и мобильные телефоны, кодирующие и обрабатывающие звук, и персональные компьютеры, играющие роль домашнего центра развлечений за счет широких возможностей обработки звука, изображений и видео.

Важную роль в алгоритмах ЦОС играют банки фильтров1 - преобразования, раскладывающие сигнал на несколько частотных полос с возможностью обратного восстановления [2]. К банкам фильтров, в частности, относятся кратковременное преобразование Фурье (8ТРТ), широко используемое в об

1 Дословный перевод англоязычного "filter banks". В отечественной литературе также употребляется термин «гребенки фильтров». В этой работе будет использоваться термин «банк фильтров», чтобы подчеркнуть включение в это понятие возможного прореживания сигнала в банке фильтров, а также стадии синтеза, дополняющей стадию анализа. работке аудио, и дискретное вейвлет-преобразование (DWT), являющееся основой многих алгоритмов обработки изображений. В этой работе рассматриваются более сложные банки фильтров для обработки цифровых изображений и аудио, позволяющие достигать лучшего качества обработки за счет варьирования частотно-временного разрешения в соответствии со свойствами человеческого восприятия.

Как будет показано в главе 3, предлагаемые банки фильтров способны улучшить многие существующие алгоритмы обработки сигналов, т.к. они могут быть встроены в общую схему различных методов. В этой работе будет рассмотрено их применение в задачах шумоподавления и приведено несколько примеров использования предложенных методов в других задачах.

Цели и задачи работы

Основные цели работы таковы:

1. Исследовать недостатки банков фильтров с фиксированным частотно-временным разрешением в задачах обработки аудиосигналов и изображений.

2. Построить модели банков фильтров с переменным частотно-временным разрешением, адаптирующимся к свойствам человеческого восприятия, для снижения артефактов в задачах обработки. Разработать соответствующие алгоритмы адаптации.

3. На основе построенных моделей разработать следующие алгоритмы, подтверждающие эффективность предложенного подхода: a. Алгоритм подавления стационарных шумов для растровых изображений. b. Алгоритм подавления стационарных шумов для аудиосигналов. c. Алгоритм выделения/подавления центрального канала в стереофоническом аудиосигнале.

1. Алгоритм временного масштабирования аудиосигнала без изменения высоты звучания. е. Алгоритм интерполяции изображений (в т.ч. - байеровских шаблонов).

Для достижения этих целей были реализованы традиционные версии описанных алгоритмов и проанализированы их особенности и недостатки. Затем была теоретически разработана общая схема варьирования частотно-временного разрешения (см. главу 2) и опробована на практике для алгоритма подавления шума на изображениях по методу РСА (глава 3). Успешные результаты позволили усовершенствовать модель, обобщить ее для обработки аудиосигналов и реализовать соответствующие алгоритмы. Далее было исследовано несколько методов адаптации частотно-временного разрешения банков фильтров и разработаны стратегии управления разрешением, описанные в главе 3.

Научная актуальность работы

В настоящее время для обработки изображений и аудиосигналов наиболее широко используются алгоритмы, основанные на банках фильтров с фиксированным частотно-временным разрешением. Существенным недостатком таких алгоритмов является низкое качество обработки из-за наличия эффекта Гиббса и недостаточного частотного разрешения банков фильтров. В связи с этим становится актуальной проблема адаптации банков фильтров к особенностям сигналов и свойствам человеческого восприятия. Некоторые из существующих методов производят простейшую дискретную адаптацию частотно-временного разрешения банка фильтров только в частотном или только во временном направлении. В данной работе рассматривается непрерывная адаптация банков фильтров в двумерном частотно-временном пространстве и предлагаются систематические способы такой адаптации. Предложенный подход применен для повышения качества алгоритмов шумоподавления аудиосигнапов и изображений, интерполяции изображений, изменения тональности звуков, построения спектрограмм и других задач обработки мультимедийной информации, широко применяемых на практике.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Лукин, Алексей Сергеевич

Основные результаты работы отражены в следующих научных публика

1. А. Lukin, D. Kalinkina, D. Kubasov "Adaptive Multiresolution Filter Banks for Image and Audio Processing" // 15-th International Conference on Computer Graphics, GraphiCon'2005 proceedings, pp. 312315.

2. Лукин A.C., Калинкина Д.А. "Использование комбинации метода главных компонент и вей влет-преобразования для подавления шума в изображениях" // конференция «Ломоносов-2005», ф-т ВМиКМГУ, стр. 35.

3. А. Lukin, D. Kubasov "An Improved Demosaicing Algorithm" // 14-th International Conference on Computer Graphics, GraphiCon'2004 proceedings, pp. 38-45.

4. А. Лукин, Д. Кубасов "Высококачественный алгоритм интерполяции изображений в виде байеровских шаблонов" // «Программирование», №6, 2004, стр. 1-15.

5. А.О. Жирков, Д.Н. Корчагин, A.C. Лукин, A.C. Крылов, Ю.М. Банковский «Нейросетевой анализ и сопоставление частотно-временных векторов на основе кратковременного спектрального представления и адаптивного преобразования Эрмита» // препринт №87 Института прикладной математики им. М.В. Келдыша, 2001 г, 16 страниц.

Кроме того, автору принадлежит несколько публикаций по теме обработки звука в научно-техническом журнале «Звукорежиссер» и методическое пособие для студентов [40] по цифровой обработке сигналов, используемое в курсе машинной графики на факультете ВМиК МГУ и на семинарах по цифровой обработке сигналов, проводимых автором.

Заключение

Список литературы диссертационного исследования кандидат физико-математических наук Лукин, Алексей Сергеевич, 2005 год

1. S.W. Smith "The Scientist and Engineer's Guide to Digital Signal Processing" // California Technical Publishing, 1997, 1.BN 09660176-3-3.

2. P.P. Vaidyanathan "Multirate Systems and Filter Banks" // Prentice Hall, 1993, ISBN 0-13-605718-7.

3. И. Алдошина "Основы психоакустики" // «Звукорежиссер» №6, 1999, издательство «625», Москва.

4. Т. Painter, A. Spanias "A Review of Algorithms for Perceptual Coding of Digital Audio Signals" // Proceedings of 13th International Conference on Digital Signal Processing, 1997, vol. 1, 2-4 July 1997, pages 179-208.

5. J. Thiemann "Acoustic Noise Suppression for Speech Signals Using Auditory Masking Effects" // Ph.D. thesis, Department of Electrical & Computer Engineering, McGill University, Mont-real, Canada, July 2001.

6. Z. Goh, K.-C. Tan, and В. T. G. Tan, "Postprocessing Method for Suppressing Musical Noise Generated by Spectral Subtraction" // IEEE Transactions on Speech and Audio Processing, vol. 6, no. 3, pp. 287-292, May 1998.

7. S. Canazza, G. De Poli, G.A. Mian, A. Scarpa "Real Time Comparison Of Audio Restoration Methods Based On Short Time Spectral Attenuation" // Proceedings of Conference on Digital Audio Effects (DAFxOl), December 6-8 2001, Limerick, Ireland.

8. PJ. Wolfe and S.J. Godsill "Simple Alternatives to the Ephraim and Malah suppression Rule for Speech Enhancement" // IEEE Workshop on Statistical Signal Processing, pp. 496-499, Aug. 2001.

9. S.J. Godsill, P.J.W. Rayner "Digital Audio Restoration" // SpringerVerlag London Limited, 1998, ISBN 3 540 76222 1.

10. D. Donoho "De-noising by Soft-Thresholding" // IEEE Transactions on Information Theory, 41:613-627, 1995.

11. S. Grace Chang, B. Yu, M. Vetterli "Spatially Adaptive Wavelet Thresholding with Context Modeling for Image Denoising" // IEEE Trans. Image Processing, vol. 9, no. 9, pp. 1522-1531, Sept. 2000.

12. F.C.A. Fernandes, R.L.C. van Spaendonck, C.S. Burrus "A Directional, Shift-Insensitive, Low-Redundancy, Wavelet Transform" // Proceedings of IEEE International Conference on Image Processing (ICIP), 2001.

13. D.D. Muresan, T.W. Parks "Adaptive Principal Components and Image Denoising" // IEEE International Conference on Image Processing, September, 2003.

14. A. Lukin, D. Kalinkina, D. Kubasov "Adaptive Multiresolution Filter Banks for Image and Audio Processing" // Graphicon-2005 Conference Proceedings, 2005.

15. А. Лукин и др. "Шумоподавление для изображений" // Демонстрационная веб-страничкаhttp://audio.ri ^htmark.org/lukin/maphics/denoisinfj;.rus.htm

16. V. Zlokolica, W. Philips, D. Van De Ville, "A New Non-Linear Filter for Video Processing" // Proceedings of the third IEEE Benelux Signal Processing Symposium (SPS-2002), pp. 221-224, (Leuven, Belgium), March 2002.

17. Z. Wang, A.C. Bovik, L. Lu "Why is Image Quality Assessment So Difficult?" // IEEE International Conference on Acoustics, Speech & Signal Processing, May 2002.

18. D.V. De Ville, M. Nachtegael, D.V. der Weken, E.E. Kerre, W. Philips, I. Lemahieu "Noise Reduction by Fuzzy Image Filtering" // IEEE Transactions on Fuzzy Systems, vol. 11, no. 4, pp. 429-436, August 2003.

19. R.A. Peters II "A New Algorithm for Image Noise Reduction using Mathematical Morphology" // IEEE Transactions on Image Processing, vol. 4, no. 3, pp. 554-568, May 1995.

20. A. Buades, B. Coll, J. Morel "Image Denoising By Non-Local Averaging" // Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005, pages 25-28, March 18-23, 2005, vol. 2.

21. A. Hyvarinen, P. Hoyer, E. Oja "Image Denoising by Sparse Code Shrinkage" // Intelligent Signal Processing, IEEE Press, 2001.

22. Lukin, D. Kubasov "An Improved Demosaicing Algorithm" // Graphicon-2004 Conference Proceedings, 2004.

23. А. Лукин, Д. Кубасов "Высококачественный алгоритм интерполяции изображений в виде байеровских шаблонов" // журнал «Программирование», №6, 2004, стр. 1-15.

24. F. Hammer "Time-Scale Modification Using the Phase Vocoder" // Diploma thesis, Inst, for Electronic Music and Acoustics (IEM), Graz University of Music and Dramatic Arts, Austria, September 2001.

25. J. Bonada "Audio Time-Scale Modification in the Context of Professional Audio Post-production" // Research work for PhD program, Universität Pompeu Fabra, Barcelona, 2002.

26. J. Bonada "Automatic Technique in Frequency Domain for Near-Lossless Time-Scale Modification of Audio" // Proceedings of International Computer Music Conference (ICMC), 2000.

27. J.L. Flanagan, R.M. Golden "Phase Vocoder" // Bell System Technical Journal, pp. 1493-1509, 1966.

28. J. Laroche, M. Dolson "Improved Phase Vocoder Time-Scale Modification of Audio" // IEEE Transactions on Speech and Audio Processing, May 1999, vol. 7, issue 3, pp. 323-332.

29. S. M. J. Hoek "Method and Apparatus for Signal Processing for Time-Scale and/or Pitch Modification of Audio Signals" // Sigma Audio Research Limited, US Patent 6266003, A 24-7-2001 9-3-1999.

30. M.S. Puckette "Phase-locked vocoder" // Proceedings of IEEE Conference on Applications of Signal Processing to Audio and Acoustics, Mohonk 1995.

31. JI. Рабинер, Б. Гоулд "Теория и применение цифровой обработки сигналов" //Москва, изд. «Мир», 1975.

32. В. Logan "Mel Frequency Cepstral Coefficients for Music Modeling" // Proceedings of International Symposium on Music Information Retrieval, 2000.

33. B.K. Gunturk, et al "Color Plane Interpolation using Alternating Projections" // IEEE Transactions on Image Processing, vol. 11, no. 9, pp. 997-1013, September 2002.

34. R. Kimmel "Demosaicing: Image Reconstruction from CCD Samples" // Proceedings of IEEE Transactions on Image Processing, vol. 8, pp. 1221-1228, 1999.

35. D.D. Muresan, T.W. Parks "Optimal Recovery Demosaicing" // Proceedings of IASTED Signal and Image Processing, Hawaii, August 2002, pp. 260-265.

36. X. Li, M.T. Orchard "New Edge-Directed Interpolation" // IEEE Trans, on Image Processing, vol. 10, no. 10, October 2001.

37. J.A. Leitao, M. Zhao and G. de Haan "Content-Adaptive Video Up-Scaling for High-Definition Displays" // Proceedings of IVCP 2003, vol. 5022, January 2003.

38. A. Lukin "Image resampling algorithms" // Demo web-page http://audio.iiahtmark.oi^/hikin/uraphics/resampling.htm

39. P. Grunwald "A Tutorial Introduction to the Minimum Description Length Principle" // Chapters 1 and 2 of "Advances in Minimum Description Length: Theory and Applications", MIT Press, April 2005, ISBN 0-262-07262-9.

40. Терминологический указатель1. HRTF, 451. К nearest neighbors, 421. MPEG 1 Layer 3,171. PSNR, 36, 41H

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.