Перцепционное сжатие звука с использованием вейвлетных пакетов тема диссертации и автореферата по ВАК РФ 05.11.18, кандидат технических наук Рогозинский, Глеб Гендрихович

  • Рогозинский, Глеб Гендрихович
  • кандидат технических науккандидат технических наук
  • 2010, Санкт-Петербург
  • Специальность ВАК РФ05.11.18
  • Количество страниц 118
Рогозинский, Глеб Гендрихович. Перцепционное сжатие звука с использованием вейвлетных пакетов: дис. кандидат технических наук: 05.11.18 - Приборы и методы преобразования изображений и звука. Санкт-Петербург. 2010. 118 с.

Оглавление диссертации кандидат технических наук Рогозинский, Глеб Гендрихович

ВВЕДЕНИЕ

1 ОБЗОР СОСТОЯНИЯ ПРОБЛЕМЫ

1.1 Основные положения психоакустики

1.2 Основные принципы перцепционного кодирования звука

1.3 Основные положения теории вейвлетов

1.4 Базисы вейвлетов в кодировании звука

2 ОПТИМИЗАЦИЯ ВЕЙВЛЕТНЫХ БАЗИСОВ

ДЛЯ ПЕРЦЕПЦИОННОГО КОДИРОВАНИЯ ЗВУКА

2.1 Постановка задачи оптимизации вейвлетных базисов

2.2 Методы увеличения частотной селективности вейвлетов

2.3 Оценка результатов оптимизации

3 ПСИХОАКУСТИЧЕСКАЯ МОДЕЛЬ В В ЕЙВЛЕТНОМ ПРОСТРАНСТВЕ

3.1 Глобальный порог маскирования в пространстве Фурье

3.2 Глобальный порог маскирования в вейвлетном пространстве

3.3 Принципы вейвлетного кодирования звука

4 ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ МОДЕЛИ ВЕЙВЛЕТНОГО КОДЕКА

4.1 Алгоритм перцепционного вейвлетного кодирования

4.2 Способ организации структуры кадра данных

4.3 Результаты экспертной оценки кодека

4.4 Описание программы на языке МаЙаЬ 87 ЗАКЛЮЧЕНИЕ 93 СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 97 ПРИЛОЖЕНИЯ

Рекомендованный список диссертаций по специальности «Приборы и методы преобразования изображений и звука», 05.11.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Перцепционное сжатие звука с использованием вейвлетных пакетов»

Перцепционное кодирование подразумевает способ преобразования потока данных, при котором кодированию подвергается только та часть общей информации, которую способен воспринять слуховой анализатор человека. Часть информации, которая не может быть воспринята, устраняется из потока данных. Другая часть информации, параметры которой могут восприниматься только частично, кодируется более грубо, с использованием меньшего числа информационных разрядов. Таким образом, перцепционное кодирование подразумевает невосполнимую утрату значительной части исходной информации, за счет чего и достигается эффект сжатия. Поэтому данные методы относят к методам сжатия с потерями, в отличие от методов сжатия без потерь.

Вейвлетное преобразование, получившее значительное распространение в области прикладной' математики, находит новые области применения. Аналогия между быстрым алгоритмом диадного дискретного вейвлетного преобразования и квадратурно-зеркальной фильтрацией сигнала делает это преобразование эффективным* инструментом в задачах субполосного кодирования сигналов, к которым могут быть отнесены вопросы сжатия звука с потерями.

Для сокращения времени передачи данных по сетям связи, а также для увеличения полезной емкости носителей данных применяются различные методы сжатия информации. Актуальность эффективного использования и оптимизации методов сжатия постоянно возрастает в связи с увеличением объемов данных, передаваемых по каналам связи. Важное значение имеют экономические факторы. Использование информационного сжатия- позволяет передать звук с высоким или приемлемым. качеством, используя узкую полосу частот. Это, в свою очередь, делает возможным сокращение стоимости аренды спутникового канала, уменьшение диаметров передающей и приемной антенн и т.д.

В рамках целевой правительственной программы по внедрению в Российской Федерации цифрового теле- и радиовещания решается ряд задач, в том числе, связанных с эффективным сжатием мультимедиа. К этим задачам относится и рассматриваемая в данной работе проблема, что определяет тем самым актуальность поставленной темы.

Цель и задачи исследования. Цель диссертационной работы состоит в исследовании возможности использования вейвлетного базиса в качестве частотно-временного преобразования в перцепционном кодировании звука Поставленная цель достигается решением следующих задач:

1) анализ существующих и перспективных алгоритмов перцепционного сжатия звука

2) разработка психоакустической модели слуха в вейвлетном пространстве

3) разработка эффективного алгоритма сжатия звуковых данных

4) экспериментальное апробирование результатов теоретических исследований

Методы исследования. При решении поставленных задач применялись методы теории приближения функций, методы теории вычислений, методы психоакустики, методы статистической обработки результатов эксперимента.

Научная новизна работы

1) показана возможность вычисления психоакустической модели непосредственно в вейвлетном пространстве

2) проведена адаптация метода оптимизации вейвлетов к задаче улучшения частотной селективности фильтров Добеши

3) разработан алгоритм перцепционного кодирования звука, использующий вейвлетное преобразование

4) разработан формат кадра файла сжатых данных

Практическая значимость работы. Решение поставленных задач позволяет провести разработку кодека на основе вейвлетного преобразования.

Личный вклад автора состоит в следующем:

- разработка вейвлетных базисов с оптимизированной частотной селективностью

- разработка и отладка экспериментальной модели аудиокодека

- обоснование эффективности использования психоакустической модели в пространстве вейвлетов

- проведение экспериментов исследования

Защищаемые положения

1. Принцип расчета психоакустической модели сигнала в вейвлетном пространстве, состоящий в вычислении суммарной энергии коэффициентов уровней вейвлетного разложения с их последующей нормировкой и расчетом индивидуальных и глобального порогов маскирования.

2. Метод кодирования сигнала, заключающийся в переквантовании коэффициентов пакетного вейвлетного преобразования исходного звукового сигнала на основании данных, полученных из психоакустической модели.

3. Способ организации структуры кадра в файле, содержащем сжатые звуковые данные.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав с выводами по каждой из них, заключения, списка литературы и приложения.

Похожие диссертационные работы по специальности «Приборы и методы преобразования изображений и звука», 05.11.18 шифр ВАК

Заключение диссертации по теме «Приборы и методы преобразования изображений и звука», Рогозинский, Глеб Гендрихович

Выводы

В третьей главе были рассмотрены основные принципы, лежащие в основе любого перцепционного алгоритма кодированиязвукового сигнала. Был дан сравнительный анализ существующих психоакустических моделей.

Для решения' поставленных задач, в первую очередь, необходимо было определить, какие из рассмотренных принципов могут быть заимствованы и адаптированы для вейвлетного кодирования звуковых сигналов. Было принято и обосновано решение использовать, маскирующую функцию (3.4), вследствие удобства применения ее к вычислению глобального^ порога маскирования. Для дальнейших исследований рекомендуется рассматривать чирплеты.

В качестве функции, моделирующей пост-маскировку, была выбрана (3.7). Глобальный порог маскирования определяется при помощи выражения (3.37).

Вторым важным положением, рассмотренным в третьей главе, является реализация психоакустической- модели в вейвлетном пространстве, без вычисления быстрого преобразования Фурье. Вейвлетное преобразование и преобразование Фурье- - оба являются спектральными, тем' не менее, существуют некоторые принципиальные отличия, о которых шла речь в первой главе. Вычисление глобального порога маскирования в частотном пространстве с последующим переносом в пространство вейвлетов требует дополнительных операций для адаптации к контролю квантования вейвлетных коэффициентов. В отличие от такого подхода, непосредственное вычисление глобального порога маскирования по значениям вейвлетных коэффициентов существенно упрощает процесс кодирования.

4 ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ МОДЕЛИ ВЕЙВЛЕТНОГО КОДЕКА

В предыдущей главе нами были изложены необходимые теоретические принципы, на которых базируется концепция перцепционного кодека, использующего вейвлетное сжатие звуковой информации. Настоящая глава, являясь заключительной, несет в себе практическую часть, а именно* основные положения, связанные с реализацией описываемого экспериментального кодека, использующего пакетное дискретное вейвлетное преобразование (ПДВП).

4.1 Алгоритм перцепционного вейвлетного кодирования

В качестве системы компьютерного моделирования для создания и отладки модели кодека применялся Matlab версии 7.6.0. В пользу выбора этой системы сказалось наличие встроенного инструментария функций для работы с вейвлетами Wavelet Toolbox, позволяющего в значительной мере упростить работу по реализации быстрого алгоритма вейвлетного преобразования и проектирования новых вейвлетных базисов.

По материалам предыдущей главы был разработан алгоритм перцепционного сжатия звука на основе предложенной там же вейвлетной психоакустической модели. Блок-схема экспериментального кодера представлена на рисунке 4.1.

В соответствии с представленной блок-схемой в экспериментальном кодере можно выделить следующие основные части: блок частотно-временного преобразования, в качестве- которого используется ПДВП, блок расчета психоакустической модели, блок перераспределения битов и переквантования коэффициентов преобразования, блок формирования выходного потока.

Входной сигнал

Выходной сигнал

Рисунок 4.1 - Структурная схема экспериментального вейвлетного кодера

В блоке частотно-временного преобразования реализуется анализ сигнала с помощью ПДВП на основе быстрого алгоритма Малла. На выходе указанного блока сигнал оказывается разделенным на 28 субполос различной ширины. Алгоритм позволяет задать тип вейвлетной функции, используемой для синтеза и анализа сигнала.

В разработанном алгоритме можно использовать ортогональные или биортогональные вейвлеты, встроенные в Matlab Wavelet Toolbox, или вейвлеты, которые могут быть добавлены пользователем. Структура дерева вейвлетной декомпозиции, соответствует предложенной в главе 3, является фиксированной и не может быть изменена в ходе выполнения алгоритма. Структура дерева описана в отдельном файле, что упрощает ее последующую модификацию в случае появления такой необходимости. Адаптация структуры к свойствам сигнала в данной модели не предусматривается.

Полученные на выходе блока частотно-временного преобразования значения коэффициентов ПДВП подлежат переквантованию согласно результатам психоакустического расчета, выполняемого на основе оценки этих же значений. Для этого вычисляются суммарные значения энергии коэффициентов в каждой частотной полосе, то есть энергии отдельных уровней декомпозиции, и, далее, на основе этих значений, определяются индивидуальные и глобальный пороги маскирования. Текущие значения глобального порога маскирования передаются в буфер, необходимый для вычисления порога маскирования во временной области, так как при этом следует сравнить значение порога маскирования в текущем кадре со значениями в предыдущих.

При создании алгоритма было принято положение о том, что ниже частоты 2.5 кГц (примерно 15-ой субполосы) маскеры в полосах фильтров имеют тональную форму, а выше этого порога - шумовую [66]. Это позволяет избежать трудностей, связанных с определением степени тональности сигнала в /-ой полосе. Оценка гладкости спектра [24] является эффективной в том случае, если имеется огибающая спектра сигнала, однако в нашем случае из-за недостаточного разрешения' по частоте использование этой оценки не оправдано.

Для коэффициентов вейвлетного преобразования в каждой частотной полосе необходимо определить соответствующий масштабирующий коэффициент (scalefactor). Процедура масштабирования в том или ином виде применяется практически во всех перцепционных кодеках и смысл ее заключается в следующем. Когда определяется спектр широкополосного ИКМ-сигнала, то общий динамический диапазон этого сигнала оценивается по самой большой спектральной составляющей (по самому громкому звуку). В то же время, подавляющее большинство других компонент спектра имеет очень незначительный уровень. Если производить квантование всех спектральных компонент, ориентируясь на максимальную, то спектральные компоненты меньшего уровня будут содержать высокий уровень шумов квантования.

Причем, чем меньше компонента, тем больше в ней будет шумов. Поэтому при делении спектра на субполосы появляется возможность избавиться от такого чрезмерного зашумления спектральных компонент. Для этого наибольшую по величине компоненту данного поддиапазона (которая, скорее всего, не является наибольшей в общем спектре) выделяют и придают ей максимально возможное значение, умножая на некоторый множитель. Все остальные компоненты этого поддиапазона также умножаются на ту же самую величину, которая и определяет коэффициент масштабирования. Таким образом, все спектральные составляющие усиливаются пропорционально друг другу и, каким бы числом разрядов они затем не квантовались, шум квантования в любом случае получится гораздо меньшим, чем если бы они сохранили свое истинное значение. Другими словами, коэффициент масштабирования характеризует степень уменьшения шумов квантования в данном диапазоне [9].

Итак, в результате описываемых операций, для каждой полосы определяется абсолютное максимальное значение вектора коэффициентов преобразования? и из, специальной таблицы, в которой хранятся значения коэффициентов масштабирования, выбирается' следующий больший. Его код (позиция в этой таблице) будет передан в заголовке кадра.

В> результате психоакустического расчета имеется вектор значений глобального порога маскирования, в котором г-ый элемент соответствует значению порога маскирования в т-ой субполосе. При расчете дискретных значений порога маскирования для каждого последующего кадра учитываются значения порогов предыдущих кадров, что необходимо для контроля временной маскировки. На основании данных, полученных с помощью психоакустического анализа коэффициентов вейвлетного преобразования реализуется-процедура перераспределения битов.

В зависимости от числа битов, выделенных кодером для данного кадра, происходит их распределение между 28 частотными полосами. Как указывалось в третьей главе, существует ряд стратегий для эффективного распределения битов между полосами. В нашей работе была выбрана стратегия, учитывающая особенности разложения сигнала с помощью набора фильтров с различной шириной полос пропускания. При ПДВП размер векторов вейвлетных коэффициентов, соответствующих выходам квадратурно-зеркальных фильтров для заданного дерева, варьируется в диапазоне от L/4 для последних (ВЧ) полос до L/256 для первых восьми полос в нижней части звукового диапазона.

В результате такой декомпозиции на выходах первых восьми фильтров после децимации остается всего 2 коэффициента для кадра длиной 512 отсчетов (11.6 мс при частоте дискретизации входного сигнала 44100 Гц) или 4 коэффициента для кадра длиной 1024 отсчета (23.2 мс при той же частоте дискретизации). Итого, для 8 полос получается 16 коэффициентов преобразования в первом случае и 32 - во втором. Общее количество этих коэффициентов составляет около 3% от общего числа коэффициентов в кадре. Исходя из этой оценки, в силу малого числа указанных коэффициентов-и их существенной'значимости, было принято решение не сокращать их разрядность при переквантовании. С движением в сторону ВЧ на выходах фильтров число коэффициентов начинает возрастать. Учитывая эту тенденцию, обусловленную выбранной структурой дерева, предлагается увеличивать диапазон шагов квантования по направлению к началу дерева.

При реализации процедуры распределения битов, в первую очередь биты выделяются для тех полос, в которых значения суммарной энергии максимальны. В случае, если на ту или иную полосу не было отведено ни единого бита, ее значения не будут переданы и в декодере будут восстановлены в виде нулевого вектора вейвлетных коэффициентов соответствующей длины.

Настоящая версия модели кодека использует постоянный битрейт (CBR, constant bit rate), таким образом, для кодирования каждого кадра может быть использовано только определенное количество битов. Более рациональным ' является использования 4 переменного ^битрейта (VBR, variable bit rate), однако, для упрощения; алгоритма перераспределения битов' и в целом структуры кодера выбор был сделан в пользу постоянного битрейта. ■г

После того как процедура перераспределения битов оказывается завершенной, происходит переквантование значений вейвлетных коэффициентов в каждой полосе. В кодеке используется неравномерный шаг квантования с р.=3/4.

4.2 Способ организации структуры кадра данных

Полученные переквантованные значения вейвлетных коэффициентов объединяются в поток, вместе со служебными данными; необходимыми для правильного декодирования сигнала. К служебным данным относятся биты синхронизации, свидетельствующие о начале нового кадра, сведения о количестве распределенных битов по ■ полосам, номера ячеек таблицы масштабирующих коэффициентов и< прочая информация:

Для- сокращения скорости передачи-- данных значение /-го масштабирующего коэффициента передается-только если распределение битов для ¿-ой полосы отлично от, нуля. Если- в'- результате- процедуры перераспределения битов на г-ю полосу не было выделено ни единого бита, код ее масштабирующего» коэффициента не будет передан. Аналогичным образом происходит формирование потока сжатых данных ISO/IEC MPEG-1 Layer 3.

На этапе проектирования структуры потока' сжатых данных следует остановиться на специфических для вейвлетного кодера! полях. В связи с многообразием вейвлетных базисов и задачей точного восстановления сигнала, логичен вывод о необходимости передачи тем или иным способом информации об использованной при кодировании вейвлетной функции. Как следует из первой главы, вейвлетная функция полностью» определяет связанную с ней масштабирующую функцию •» и коэффициенты пары соответствующих квадратурно-зеркальных фильтров. Одним из вариантов решения является строгая- привязка типа вейвлетного базиса к соответствующему номеру таблицы. Передавать такую информацию, можно через несколько кадров, определяя тем самым общий базис для них. Здесь возникает вопрос адаптации вейвлетного базиса к свойствам сигнала. Принятое решение позволит передавать код найденного оптимального базиса для конкретного кадра или серии кадров. Отрицательным моментом при этом будет являться увеличение времени до воспроизведения, так как для правильного декодирования потребуется обнаружить тот кадр, в котором хранится информация о базисе.

При анализе возможности адаптации базиса и дерева к свойствам сигнала в кадре следует так же учитывать, что согласно- [8], при использовании диадного вейвлет-пакетного разложения, существует не менее , чем 2ып и не более, чем 25/у/8 различных деревьев для дискретных сигналов длиной N.

То есть, для' заданной длины кадра N = 1024 отсчета максимально возможное число деревьев составит 2640. Это значение показывает, что передавать непосредственно код адаптивно выбранного дерева не представляется' возможным. Тем не менее, видится решение в виде фиксированного набора деревьев и вейвлетных базисов.

В случае с последними, теоретически возможна передача отсчетов импульсной характеристики одного из квадратурно-зеркальных фильтров. Это позволило бы конструировать базисы, адаптивные к свойствам сигнала и передавать информацию о них с целью последующего декодирования. Однако, точность, необходимая при задании импульсных характеристик вейвлетных фильтров для выполнения условия идеальной реконструкции, требует значительного количества битов. Так, для фильтра длиной 12 отсчетов при 32-битном формате отсчетов потребуется 12-32 = 384 бита, что составляет 2.3% от размера кадра длиной 1024 отсчета, не считая другой служебной информации.

Обобщая,приведенные выше рассуждения, приходим к выводу о том, что в качестве служебной информации для восстановления одного кадра в зависимости от выбранного метода кодирования- должны быть переданы значения распределения- битов по полосам, массив указателей на таблицу с масштабирующими коэффициентами, код использованного при анализе вейвлета и код дерева разложения. Последние два при отсутствии необходимости и/или постоянстве базиса и дерева могут передаваться только изредка, например, раз в установленное число кадров.

В процессе формирования выходных данных, по аналогии с КОЛЕС MPEG 1 Layer 1 & 2, поток разбивается на независимые друг от друга кадры. В результате анализа существующих структур кадров, а также исходя из необходимости передачи ряда специфических данных, требующихся для восстановления сигнала из массива вейвлетных коэффициентов, был предложен формат кадра данных, представленный в таблице 4.1.

Заголовок кадра начинается с 12 битов синхронизации (все биты установлены). Далее следует поле из 3 битов, отведенное под номер версии. Предполагается, что 8 возможных вариантов должно быть достаточно. Если установлен бит CRC (Cyclic Redundancy Code - циклический избыточный код), то для проверки правильности информации используется цифровая идентификация данных, основанная на вычислении, контрольного значения циклического избыточного- кода. Bf этом случае, 16-разрядное контрольное значение следует непосредственно за окончанием заголовка кадра.

В следующем за CRC поле кодируется значение выбранного битрейта. Для данной модели предлагается использовать таблицы битрейтов MPEG. Биты на позициях 20 и 21 отводятся под выбор частоты дискретизации. Бит пэддинга указывает на наличие нулевого заполнения для текущего кадра. Следующие 2 бита определяют режим- стерео и, наконец, последние 7 битов заголовка относятся к кодированию выбранного вейвлета.

Работа над моделью кодека, а также исследование ряда известных приложений, использующих вейвлетное преобразование, показало, что список вейвлетов, активно использующихся для кодирования сигналов, не является большим. К ним могут быть отнесены вейвлеты Добеши средних порядков, симлеты, а так же ряд биортогональных вейвлетов.

Следует обратить внимание на формат 1РЕС-2000 [40]; в котором для кодирования изображений стандартизовано использование всего лишь двух биортогональных вейвлетов. Исходя из этой логики, часть битов может быть использована для кодирования структуры декомпозиции сигнала в кадре или дополнительных, резервных режимов работы кодека.

ЗАКЛЮЧЕНИЕ

По результатам диссертационной работы и связанных с ней экспериментальных исследований необходимо отметить следующие положения:

1) В результате проведенных исследований была показана возможность расчета психоакустической модели в вейвлетном пространстве, базирующегося на вычислении суммарной энергии коэффициентов уровней вейвлетного разложения с их последующей нормировкой и расчетом индивидуальных и глобального порогов маскирования. Это положение было подтверждено экспериментально.

2) В ходе работы был реализован метод перцепционного кодирования сигнала, заключающийся в переквантовании коэффициентов пакетного вейвлетного преобразования исходного звукового сигнала на основании данных, полученных из психоакустической модели. Для экспериментальной оценки эффективности сжатия при использовании указанного метода была разработана модель вейвлетного перцепционного кодека.

3) В реализованной модели экспериментального вейвлетного кодека был предложен оригинальный способ распределения битов, учитывающий различия в длине векторов вейвлетных коэффициентов на выходах фильтров, соответствующих различным уровням вейвлетной декомпозиции. Для рационального распределения битов и минимизации искажений предложено увеличивать среднее количество разрядов по направлению к нижней части дерева анализа/синтеза.

4) В ходе работы над экспериментальной моделью кодека был разработан способ организации структуры кадра- в файле, содержащем сжатые при помощи описываемой модели звуковые данные. В предложенной структуре кадра учитывается использование вейвлетного базиса, структуры вейвлетной декомпозиции и особенностей переквантования коэффициентов различных уровней вейвлетной декомпозиции звукового сигнала.

5) Для исследования эффективности разработанного алгоритма; перцепционного кодирования была проведена экспертная оценка качества сжатого материала с использованием статистической обработки результатов эксперимента.

Основные рекомендации для дальнейшей работы*

В диссертационной' работе; была обоснована эффективность использования« вейвлетных преобразований; в; задачах субполосного кодирования звука. Тем; не менее, остается; открытым ряд; вопросов,, среди которых в первую очередь, следует выделить задачу нахождения оптимального базиса. Среди; всего многообразия- вейвлетных функций требуется обнаружить множество таких, которые: бы показали: наибольшую- эффективность при кодировании различных звуковых данных.

Следует учесть превосходство гармонических базисов; при кодировании; сигналов, близких к тональным. Для решения этой проблемы. требуется либо нахождение вейвлетного базиса, способного к эффективному представлению гармонических сигналов, либо- использование обоих базисов с алгоритмом выбора базиса в зависимости от свойств сигнала.

Использование диадных типов деревьев ограничивает возможность дальнейшей аппроксимации;распределения слуховых полос по ширине. Здесь, в первую очередь, требуется анализщелесообразности;дальнейшего приближения-и при положительных результатах - применение М-полосного вейвлетного преобразования;

За рамками диссертации остались адаптивные свойства пакетных вейвлетов. Возможна адаптация структуры дерева к свойствам сигнала в кадре. Одной из обозримых практических проблем при этом является вопрос кодирования выбранной структуры.

Описываемая в диссертации структура кадра данных может претерпевать существенные изменения в зависимости от дальнейшего направления работы. Напрямую от оценки множества эффективных для кодирования базисов зависит количество битов, отведенных для их кодирования.

Реализация и внедрение результатов исследований

Результаты диссертационной работы были использованы:

- на предприятии НПФ «Супертел Дале» при проведении НИР по разработке головной станции цифрового кабельного телевидения в рамках целевой программы по цифровому телевидению и радиовещанию;

- на предприятии НПФ «Технощит» при проведении НИР по системам волоконно-оптической связи.

Практическая значимость

Решение поставленных задач позволяет провести разработку звукового кодека на основе пакетного вейвлетного преобразования.

Апробация работы

По результатам диссертации сделаны доклады на Международном симпозиуме по проблемам применения алгоритмов искусственного интеллекта А1-МЕТН2007 (г. Гливице, Польша, 2007) [70], 7-ой международной научно-технической конференции «Цифровые и информационные технологии в электронной медиаиндустрии - 2009» (г. Санкт-Петербург, 2009) [18] и 12-й Международной конференции «Цифровая обработка сигналов и ее применение - 2010» (г. Москва, 2010) [19].

Связь с научными программами и темами

Исследования по основным разделам диссертационной работы проводились в рамках НИОКР №07-06/2-1138: «Разработка оборудования и технологий цифрового фильмопроизводства и кинопоказа» (номер гос. регистрации 01.2.007 08694) и НИР №607-ФР «Создание диагностического комплекса» (номер гос. регистрации 0120.0 800779).

Публикации

Основные положения диссертации опубликованы в 12 работах, среди которых 3 статьи [16], [20], [69] и тезисы 9 докладов [11], [12], [13], [14], [15], [17], [18], [19], [70].

Список литературы диссертационного исследования кандидат технических наук Рогозинский, Глеб Гендрихович, 2010 год

1. Айфичер Э., Джервис С., Барри У. Цифровая обработка сигналов: практический подход, 2-е издание: Пер. с англ. М.: Издательский дом "Вильяме", 2004. - 992 с.

2. Блаттер К. Вейвлет-анализ. Основы теории. М.: Техносфера, 2004. - 280 с.

3. Воробьев В., Грибунин В. Теория и практика вейвлет-преобразования. -СПб.: ВУС, 1999. 204 с.

4. Добеши И. Десять лекций по вейвлетам. Ижевск: НИЦ «Регулярная и хаотическая динамика», 2001.

5. Ковалгин Ю. Компрессия цифрового звука: психоакустические основы и алгоритмы // 625. 2000. №6.

6. Ковалгин Ю., Вологдин Э. Цифровое кодирование звуковых сигналов MPEG Dolby. АС-3. СПб.: Корона принт, 2004. - 240 с.

7. Лемешко Б.Ю., Лемешко С.Б. Сравнительный анализ критериев проверки отклонения распределения от нормального закона // Метрология. 2005. №2.

8. Малла С. Вэйвлеты в обработке сигналов: Пер. с англ. М.: Мир, 2005.

9. Никамин В.А. Системы пространственного звучания. СПб.: Корона принт,2004. 192 с.

10. Петровский А., Белявский К., Петровский Ал. Перцептуальное кодирование аудио и речевых сигналов // Доклады БГУИР, №1 2004.

11. Рогозинский Г.Г. Применение вейвлет-анализа для восстановления зашумленных сигналов // Материалы научно-технических конференций студентов и аспирантов институтов и факультетов СПбГУКиТ. СПб.: ГУКиТ,2005.

12. Рогозинский Г.Г. Вейвлеты и музыка // Материалы научно-технических конференций студентов и аспирантов институтов и факультетов СПбГУКиТ. СПб.: ГУКиТ, 2006.

13. Рогозинский Г.Г. Программные вейвлет-анализаторы // Материалы научно-технических конференций студентов и аспирантов институтов и факультетов СПбГУКиТ. СПб.: ГУКиТ, 2007.

14. Рогозинский Г.Г. Методы диагностики в цифровом кино // Материалы научно-технических конференций студентов и аспирантов институтов и факультетов СПбГУКиТ. СПб.: ГУКиТ, 2008.

15. Рогозинский Г.Г. Перцепционное кодирование звука на основе вейвлетной компрессии // Материалы научно-технических конференций студентов и аспирантов институтов и факультетов СПбГУКиТ. СПб.: ГУКиТ, 2009.

16. Рогозинский Г.Г. Применение метода оптимизации вейвлетов в перцепционном кодировании звука // Радиотехника. 2010. №5.

17. Рогозинский Г.Г. Биортогональные вейвлеты с улучшенной частотной селективностью // Материалы научно-технических конференций студентов и аспирантов институтов и факультетов^СПбГУКиТ. СПб:: ГУКиТ, 2010.

18. Рогозинский, Г.Г. Метод оптимизации вейвлетов для перцепционного кодирования звука // Тезисы докладов 7-ой Международной научно-технической конференции «Цифровые и информационные технологии в электронной медиаиндустрии 2009». СПб.: СПбГУКиТ, 2009.

19. Рогозинский Г.Г. К вопросу выбора оптимального вейвлета для перцепционного кодирования' звуковых сигналов // Тезисы докладов 12-ой Международной, конференции «Цифровая* обработка сигналов и ее применение 2010». М.: ИПУ РАН, 2010.

20. Явленский А.К., Рогозинский Г.Г. Методы диагностики системы цифрового кино на основе* спектрального анализа и искусственного интеллекта // Сборник трудов СПбГУКиТ, 2008.

21. A.Abbate, C.DeCusatis and P.Das, Wavelets and Subbands: Fundamentals and Applications. Boston: Birkhauser, 2002.

22. PIS.Addison, The Illustrated. Wavelet Transformf Handbook, Taylor- & Francis, July, 2002.

23. E.Ambikairajah, J:Epps, L.Lin, «Wideband speech and audio coding using Gammatone filter banks,» in Proc. of International Conference on Acoustics, Speech and Signal Processing, pp. 773-776, 2001.

24. M.Bosi and R.E.Goldberg, "Introduction to Digital Audio Coding and Standards," Boston: Kluwer Academic Publishers, 2003.

25. K.Brandenburg et al., "ISO MPEG-1 Audio: A Generic Standard for Coding of High-Quality Digital Audio", J. Audio Eng. Soc., pp. 780^792, Oct. 1994.

26. B.Carnero and A.Drygajlo, "Perceptual Coding of Speech Using a Fast Wavelet Packet Transform Algorithm", in EUSIPCO-1996 Proc., 1996.

27. P.L.Chu, "Quadrature Mirror Filter Design for an Arbitrary Number of Equal Bandwidth Channels," IEEE Trans. Acous., Speech and Sig. Process., v. ASSP-33, n. 1, pp. 203-218, Feb. 1985.

28. R.Coifman, Y.Meyer, S.Quake, M.V.Wickerhauser, "Signal' Processing and Compression with; Wavelet Packet," in Num. Alg. Res. Group:, New Haven; CT: Yale University, 19901

29. I.Daubechies, "Where do wavelets come from? a personal?; point of view," Proceedings of the IEEE, voli 84, no.4, pp.510-513; Aprilr 1996:

30. M.Erne, G.Moschyt/, C.Faller, Best Wavelet-Packet Bases for Audio Coding Using Perceptual and Rate-Distortion Criteria, ICASSP-99, May 1999.

31. L.Fielder, et al., "AC-2 and AC-3: Low Complexity Transform-Based; Audio Coding", in Collected; Papers on Digital Audio Bit-Rate Reduction, N.Gilchrist and C.Grewin« Eds., Audi Eng. Soc., pp. 54-72, 1996.

32. H.Fletcher, "Auditory Patterns", Rev. Mod; Phys., pp. 47-65, Jan. 1940.

33. D.D.Greenwood, "Critical Bandwidth* and»5 the Frequency Coordinates of the Basilar Membrane", J; Acous. Soc. Am.«, pp. 1344-1356, Oct. 1961.

34. A.Grossman, J.Morlet. Decomposition of Hardy functions into square integralle wavelets of constant shape. S1AM J. of Math. Anal., 15(4), pp. 723-736, July 1984.

35. A.Haar, Zur Theorie der orthogonal en Funktionsysteme, Math. Annal., 69, pp. 331-371, 1910.

36. K.Hamdy, Low Bit Rate High Quality Audio Coding with Combined Harmonic and Wavelet Representations, in Proc. Int. Conf. Acous., Speech and Sig. Proc. (ICASSP-96), pp.1045-1048, May 1996.

37. C.Herley, "Wavelets and Filter banks," in The Digital Signal Processing Handbook, V.Madisetti and D.Williams, eds., CRC Press, 1998.

38. B.Hubbard, "The World According to Wavelets", Natick, MA: A K Peters, 2nd ed., 1998.

39. T.Irino, M.Unoki, "An Analysis/Synthesis Auditory Filterbank Based on an IIR Gamachirp Filter," Comp. Models of Auditory Function, S.Greenberg and M.Slaney Eds., IOS Press, 2001.

40. ISO 11172-3:1993 Annex.C.1.3 43.ITU-RBS.il 16 44. ITU-R BS.562-345; W.Jesteadt, S.P.Bacon, J.R.Lehman, «Forward masking as a function of frequency, masker level and signal delay,» Journal of Acoustic Society of America, vol. 71, pp. 950-962, 1982.

41. S.Krimi, K.Ouni, N.EUouze, "An Improved Psychoacoustic Model for Audio Coding Based on Wavelet Packet," in Proc. 4rd Int. Conf. Science of Elec. Tech. of Inf. and Tel., March 2007.

42. P.Lee, Wavelet Filter Banks in Perceptual Audio Coding, Master Thesis, University of Waterloo, Canada, 2003.

43. B.Novorita, «Incorporation of temporal masking effects into bark distortion measure,» in Proc. of International Conference on Acoustics, Speech and Signal Processing, pp. 665-668,1999.

44. H.J.Nussbaumer, "Pseudo QMF Filter Bank," IBM Tech. Disclosure Bulletin, v.24, pp. 3081-3087, Nov.1981.

45. T.Painter, A.Spanias, "Perceptual Coding of Digital Audio," in Proc. of the IEEE, v.88, №4, p.451-513, April 2000.

46. D.Pan, A tutorial on MPEG/Audio compression, IEEE Multimedia, vol.2, no.2, pp.60-74,1995.

47. P.Papamichalis, "MPEG Audio Compression: Algorithms and Implementation", in Proc. DSP 95 Int. Conf. on DSP, pp. 72-77, June 1995.

48. A.Park, "Using the Gammachirp Filter for Auditory Analysis of Speech," 18:327: Wavelets and Filter banks, May 2003.

49. J:Princen and J.D.Johnston, Audio Coding with Signal Adaptive Filterbanks, in Proc. ICASSP-95, pp.3071 3074, May 1995.

50. O.Rioul and P.Duhamel, A remez exchange algorithm for orthonormal wavelets, IEEE Trans. Circuits Syst. II, vol.41, pp.550 560; August 1994.

51. J.H.Rothweiler, "Polyphase Quadrature Filters A New Subband Coding Technique," in Proc. Int. Conf: Acous., Spccch and; Sig. Process. (ICASSP-83), pp.1280-1283, May 1983.

52. Y.Salimpour, M.D.Abolhassani, H. Soltanian-Zadeh, "Auditory. Wavelet Transform," in Proc. 3rd Eur. Med: and Biol. Eng. Conf., Nov.2005.

53. B.Scharf, "Critical Bands", in Foundations of Modern Auditory Theory, New York: Academic Press, 1970.

54. M.Schroeder, et a!., "Optimizing Digital Speech Coders by Exploiting:Masking Properties of the Human Ear," J. Acoust. Soc. Am:, pp. 1647-1652, Dec. 1979:

55. D.Sinha, et al., "The Perceptual Audio- Coder (PAC)," in The Digital? Signal Processing Handbook, Y.Madisetti andiDiWilliams, Eds:, CRC Press, pp. 42.1-42.18, 1998.

56. D.Sinha and A.Tewfik, Low bit rate transparent audio compression using adapted wavelets, IEEE Trans. Signal Processing; vol.41, no.12, pp;3463 3479, December 1993.

57. M.J.T.Smith and I.T.P.Barnwell, Exact reconstruction techniques for trcc-structured subband coders, IEEE Trans. Acoust., Speech, Sig. Proc., vol. ASSP-34, no.3, June 1986.

58. E.Therhardt, "Calculating Virtual Pitch", Hearing Research, pp.155-182, 1, 1979.

59. M.Vetterli, J.Kovacevic, Wavelets and Subband Coding, Prentice Hall PTR, 1995.

60. Xing He, 'Watermarking in Audio," Cambria Press, 2008.

61. A.Tewfik and M.Ali, Enhanced Wavelet Based Audio Coder, in Conf. Rec. of the 27th Asilomar Conf. on Sig. Sys., and Comp., pp.896-900, Nov 1993.

62. M.V.Wickerhauser, "Adaptive Wavelet Analysis from Theory to Software," A.K. Peters Ltd., Massachusetts, 1994.

63. Xing He and M.S.Scordilis, "Psychoacoustic Music Analysis Based on the Discrete Wavelet Packet Transform," in Research Letters in Signal Processing, 2008.

64. Yavlensky, Belousov, Rogozinsky, Volkov. Digital Cinema Diagnostic System Based on Spectral Analysis and Artificial Intelligence Methods, Diagnostyka 3(47)/2008.

65. Yavlensky, Belousov, Rogozinsky, Volkov, Chavoronkov. Artificial Intelligence-based Diagnostic System in Digital Cinema. AI-METH2007. Gliwice, 2007.

66. E.Zwicker and H.Fastl, Psychoacoustics Facts and Models, Springer-Verlag, 1990.

67. J.Zwislocki, "Analysis of Some Auditory Characteristics", in Handbook of Mathematical Psychology, R.Luce, et al., Eds., New York: John Wiley and Sons, Inc., 1965.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.