Разработка и исследование методов и алгоритмов устранения избыточности видеопоследовательностей на основе сегментации видеоданных тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Рубина, Ирина Семеновна

  • Рубина, Ирина Семеновна
  • кандидат технических науккандидат технических наук
  • 2013, Санкт-Петербург
  • Специальность ВАК РФ05.13.11
  • Количество страниц 144
Рубина, Ирина Семеновна. Разработка и исследование методов и алгоритмов устранения избыточности видеопоследовательностей на основе сегментации видеоданных: дис. кандидат технических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Санкт-Петербург. 2013. 144 с.

Оглавление диссертации кандидат технических наук Рубина, Ирина Семеновна

Оглавление

Введение

1. Анализ современных методов сжатия видеопоследовательностей

1.1. Основные принципы сжатия видеоданных

1.1.1. Устранение избыточности видеосигнала. Основные этапы сжатия

1.1.2. Подходы к оценке качества и степени сжатия видеоданных

1.2. Современные технологии сжатия видеопоследовательностей

1.2.1. Алгоритмы временной модели видеокомпрессора

1.2.1.1. Анализ попиксельных алгоритмов компенсации движения

1.2.1.2. Анализ алгоритмов соотнесения признаков

1.2.2. Алгоритмы пространственной модели видеокомпрессора

1.2.2.1. Алгоритмы кодирования преобразованием в частотно-временном пространстве

1.2.2.2. Алгоритмы интерполяции отсчетов сигнала

1.2.3. Особенности современных алгоритмов сжатия

1.3. Основные результаты и выводы

2. Исследование алгоритмов на основе сегментного подхода к компенсации движения

2.1. Алгоритмы сегментации

2.1.1. Определение алгоритмов сегментации

2.1.2. Анализ алгоритмов сегментации

2.2. Алгоритмы выбора блоков для сравнения

2.2.1. Определение алгоритмов выбора блоков для сравнения

2.2.2. Анализ алгоритмов выбора блоков для сравнения

2.3. Алгоритмы разделения

2.3.1. Алгоритмы разделения по признаку направления

2.3.2. Алгоритмы разделения по признаку принадлежности большинства пикселов сегмента некоторой области

2.3.2.1. Алгоритмы выделения опорных пикселов

2.3.2.2. Алгоритм построения маски разделения

2.3.2.3. Алгоритм разделения в соответствии с маской

2.3.3. Анализ алгоритмов разделения

2.4. Основные результаты и выводы

3. Исследование блочных алгоритмов кодирования преобразованием

3.1. Сравнение двухмерных и трехмерных алгоритмов кодирования преобразованием

3.2. Алгоритмы быстрого преобразования

3.2.1. Быстрый трехмерный алгоритм преобразования Хартли

3.2.2. Быстрый трехмерный алгоритм косинусного преобразования

3.3. Алгоритм с переменным размером ядра преобразования

3.4. Анализ быстрых алгоритмов кодирования преобразованием

3.5. Основные результаты и выводы

4. Исследование алгоритмов интерполяции отсчетов сигнала

4.1. Определение алгоритмов интерполяции отсчетов сигнала

4.2. Анализ алгоритмов интерполяции отсчетов сигнала

4.3. Основные результаты и выводы

5. Модель кодека видеоданных

5.1. Схема разработанного метода сжатия

5.1.1. Временная модель

5.1.2. Пространственная модель

5.2. Программные средства кодека

5.3. Анализ полученных результатов

5.4. Основные результаты и выводы

Заключение

Список литературы

Список терминов

Приложение 1. Документы, подтверждающие использование диссертационной

работы

Приложение 2. Порядок тестирования и характер тестовых последовательностей

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка и исследование методов и алгоритмов устранения избыточности видеопоследовательностей на основе сегментации видеоданных»

Введение

Актуальность проблемы. Современный этап развития информационно-вычислительных систем характеризуется широким внедрением технологий мультимедиа, в связи с чем возникает потребность в разработке методов и алгоритмов сжатия цифровых видеоизображений и видеопотоков, основанных на обработке групп изображений, имеющих информационную избыточность. Постоянно растущая вычислительная сложность алгоритмов обработки видеопоследовательностей и высокие затраты на хранение данных требуют значительных вычислительных ресурсов.

Видеокомпрессия не только дает возможность использования цифрового видео в среде передачи, не поддерживающей исходных (несжатых) видеоизображений, но и повышает эффективность использования высокоскоростных каналов связи для передачи видеопотоков высокого разрешения, в том числе при одновременной передаче множества потоков видеоданных высокого уровня качества.

Существенный вклад в теорию сжатия видеоданных внесли Ватолин Д., Сэломон Д., Гонсалес Р., Ричардсон Я. и многие другие видные ученые и специалисты.

Существующие системы обработки видеоданных используют методы сжатия с потерями за счет передачи опорных (I- кадров), сжатых по пространственным координатам, а также ссылочных (Р- и В- кадров), сжатых по пространственно-временным координатам, от количества которых зависит степень сжатия видеопоследовательности. При этом учитываются особенности восприятия подобного типа данных человеком. На сегодняшний день в определенной степени решена задача устранения избыточности опорных кадров, тогда как для ссылочных кадров данная задача является актуальной.

Выбранное направление работы основано на анализе современных методов сжатия видеоданных. К настоящему моменту разработан ряд стандартов сжатия

г"

видеоданных, на которых основывается подавляющее большинство схем кодирования/декодирования. Среди них особое место занимают MPEG-4 Visual (ISO/IEC 14496 Part 2) и Н.264 (ITU-E R264/ISO/ffiC 144496 Part 10), которые разрабатывались специалистами со всего мира и представляют собой доработку стандартов MPEG-1 и MPEG-2, позволяющую повысить степень сжатия при более высоком качестве принятых видеоданных. Кроме того, существует ряд свободно распространяемых кодеков типа WebM (VP8), которые в некоторых случаях достигают производительности эталонных стандартов кодирования.

Разработчики стандарта Н.264 поставили перед собой цель повысить эффективность сжатия. MPEG-4 Visual, в свою очередь нацелен на вариабельность, перейдя к объекту произвольной формы, обладающему гибкостью и адаптивностью. Таким образом, данные стандарты используют диаметрально противоположные подходы к сжатию видеоданных, что порождает определенный ряд недостатков, преодоление которых и задало направление диссертационной работы.

Основой кодирования ссылочных кадров является построение векторов движения отдельных пикселов или их групп. Также эффективность работы алгоритмов устранения временной избыточности улучшают путем повышения эффективности алгоритмов кодирования преобразованием и интерполяции. Этим проблемам посвящена данная диссертационная работа.

Целью настоящей работы является совершенствование существующих и создание новых методов устранения информационной избыточности видеопоследовательностей, отличающихся пониженными вычислительными затратами при высоких показателях степени сжатия и качества восстановленного видеоряда.

Задачами исследования являются:

1. Анализ алгоритмов построения траектории движущихся объектов на основе сегментации видеоданных.

2. Разработка методов повышения эффективности существующих алгоритмов сжатия, использующих адаптивную сегментацию, на основе

нового алгоритма классификации сегментов по маске, получаемой на основе алгоритма выделения опорных пикселов.

3. Разработка алгоритмов сжатия на основе быстрых трехмерных алгоритмов кодирования преобразованием.

4. Разработка методов сжатия за счет новых алгоритмов интерполяции отсчетов сигнала и исследование их эффективности.

5. Построение модели кодека и программная реализация алгоритмов сжатия на основе предложенных подходов.

Методы исследования. Диссертационное исследование основано на ряде теоретических и экспериментальных методов. В рамках теоретической части исследования использовались методы теории информации, методы распознавания образов и цифровой обработки сигналов, а также методы теории вероятностей. В частности, исследование основано на RD-теории и анализе методов сжатия данных на ее основе, как методе теории информации. В рамках экспериментального исследования была проведена программная реализация алгоритмов сжатия с последующим сравнением реализованных алгоритмов с уже существующими алгоритмами.

Программная реализация алгоритмов осуществлялась в среде Visual С++.

Научная новизна работы;

1. Разработан алгоритм выделения объектов видеопоследовательности, основанный на определении опорных пикселов видеокадра, отличающийся эффективностью работы для последовательностей с различной динамикой перемещения объектов.

2. Разработан алгоритм построения траектории движущихся объектов на основе классификации сегментов кадра видеопоследовательности адаптивного размера с использованием маски, полученной путем выделения опорных пикселов, позволяющий сократить временную избыточность при допустимом уровне вычислительных затрат и высоком уровне качества.

Г

3. Разработан быстрый трехмерный алгоритм нисходящего кодирования преобразованием с неразделимым ядром, основанный на дискретном преобразовании Хартли с переменным размером матрицы преобразования.

4. Разработан быстрый трехмерный алгоритм кодирования преобразованием, основанный на дискретном косинусном преобразовании с переменным размером матрицы преобразования.

5. Разработан алгоритм интерполяции отсчетов видеосигнала с переменным размером ядра.

6. Предложен метод сжатия видеоданных, основанный на сочетании предложенных алгоритмов, позволяющий повысить эффективность сжатия видеоданных.

Практическая ценность результатов работы заключается в следующем:

1. Предложенный метод, как показали результаты исследования его эффективности, обеспечивает хорошее качество восстановленной видеопоследовательности при более высоком значении коэффициента сжатия по сравнению с существующими методами.

2. Разработанные быстрые алгоритмы многомерных преобразований Хартли и ДКП позволили сократить объем вычислительных затрат.

3. Разработаны программно-алгоритмические средства, реализующие предложенную модель кодека, обеспечивающие кодирование и декодирование видео файлов с возможностью изменения параметров кодирования, а также иллюстрирующие процесс функционирования кодека в виде промежуточных результатов его работы в сочетании с дружественным пользователю интерфейсом.

Основные результаты работы внедрены в учебном процессе НИУ ИТМО и проведенных в НИУ ИТМО НИР №610481 «Разработка методов и средств системотехнического проектирования информационных и управляющих

вычислительных систем с распределенной архитектурой» кафедры ВТ и НИР №211115 «Исследование и разработка методов искусственного интеллекта применительно к задаче построения обобщенного решения мультимодальной биометрической идентификации» кафедры РИС. Программное обеспечение, реализующее предложенные методы и алгоритмы прошло государственную регистрацию пакетов программ для ЭВМ (свидетельство №2013612402). Результаты исследования поддержаны грантами Правительства Санкт-Петербурга в 2010 и 2011 гг.( Приложение 1).

Основные положения, выносимые на защиту:

1. Алгоритм выделения объектов видеопоследовательности, основанный на определении опорных пикселов видеокадра.

2. Алгоритм сжатия на основе классификации сегментов кадра видеопоследовательности адаптивного размера с использованием маски, полученной путем выделения опорных пикселов.

3. Быстрый трехмерный алгоритм нисходящего кодирования преобразованием с неразделимым ядром, основанный на дискретном преобразовании Хартли с переменным размером матрицы преобразования.

4. Быстрый трехмерный алгоритм кодирования преобразованием, основанный на дискретном косинусном преобразовании с переменным размером матрицы преобразования.

5. Алгоритм интерполяции отсчетов видеосигнала с переменным размером ядра.

6. Метод сжатия видеоданных, основанный на сочетании предложенных алгоритмов.

Апробация результатов работы.

Результаты выполненных исследований были представлены на конференциях:

- XXXIX научной и учебно-методической конференции СПбГУ ИТМО (2010 г.).

- VII Всероссийской межвузовской конференции молодых ученых (2010 г.).

- XL научной и учебно-методической конференции СПбГУ ИТМО (2011 г.).

- VIII Всероссийской межвузовской конференции молодых ученых (2011 г.).

- XLI научной и учебно-методической конференции НИУ ИТМО (2012 г.).

- I Всероссийском конгрессе молодых ученых (2012 г.).

- Международной научно-практической конференции «Научные исследования и их практическое применение. Современное состояние и пути развития' 2012» (2012 г.).

Публикации. Основные результаты диссертационного исследования опубликованы в 13-ти научных публикациях общим объемом 42 страницы: в том числе в 4-х статьях в изданиях, включенных в Перечень ВАК, 10 работ опубликовано без соавторов.

Структура и объем работы. Диссертационная работа состоит из введения, основной части, содержащей 5 разделов, заключения, списка литературы, списка терминов и 2 приложений. В приложениях представлены порядок тестирования, характер тестовых последовательностей, а также документы подтверждающие использование диссертационной работы. Основной объем работы - 118 страниц. Объем приложений 26 страниц. Работа содержит 27 иллюстраций и 1 таблицу. Список литературы включает 78 библиографических источников.

Í

и

1. Анализ современных методов сжатия видеопоследовательностей

В данной главе вводятся основные понятия, связанные с сжатием видеоданных, а также производится обзор современных алгоритмов сжатия видеопоследовательностей с целью выявления возможностей их усовершенствования.

1.1. Основные принципы сжатия видеоданных

Говоря о системах обработки последовательностей изображений, необходимо сформулировать понятия временной и пространственной последовательности изображений. Эти понятия можно проиллюстрировать следующим примером. Рассмотрим сенсор в трехмерной системе координат. Он фиксирует информацию об окружающей среде, постепенно формируя изображения, а затем и их последовательность. Эта группа кадров может быть представлена функцией яркости 1(х,у^), где х и у - координаты на плоскости изображения, а t - координата по оси времени. Такой подход иллюстрирует представление о временной последовательности изображений. Рассматривая некоторое дополнение описанной модели, сенсор возможно не только перемещать но и поворачивать в трех измерениях. Необходимо отметить, что вращение сенсора вокруг оси не изменит результирующего изображения. И если предположить наличие бесконечной последовательности таких сенсоров в пространстве, мы сможем покрыть все возможные конфигурации во всем доступном пространстве. Именно в этом случае, каждое из полученных изображений можно рассматривать, как единицу пространственной последовательности изображений. С течением времени эти изображения формируют пространство изображения. Тогда осуществляется переход к функции четырех координат 1(х,у^, ?), где 5Б вектор ? фиксирует положение сенсора в трехмерном пространстве. Т.е. 3 = (х,у,г,р,у), где соответствующие координаты

определяют положение центра соответствующего сенсора и угла его поворота относительно оптической оси. Необходимо учитывать тот факт, что х,у и t также являются функциями вектора s. Такая модель, максимально приближенная к объекту исследования, значительно усложняет процесс обработки видеоданных, поэтому чаще всего используется упрощенная трехмерная временная модель. Тогда пространство изображений формируется как совокупность временных последовательностей изображений, зафиксированных сенсорами во всех возможных позициях 3D пространства.

Также здесь хотелось бы отметить отличие между последовательностями изображений и видеопоследовательностями. Говоря о видеопоследовательности, мы подразумеваем видимую часть электромагнитного спектра. В случае последовательностей изображений данное ограничение не вводится. Поэтому ширина спектра последовательностей изображений больше, чем у видеопоследовательности, но в видимой части спектра различие между этими понятиями отсутствуют.

Каждый кадр естественной видеосцены представляет собой решетку, значения сэмплов в узлах которой обладают высокой степенью корреляции. По этой причине его трудно сжимать в исходной форме.

Алгоритмы сжатия видеоданных используют, во-первых, особенности исходных данных, такие как избыточность информации, плавность её изменения, а во-вторых, особенности человеческого восприятия, т.е. слабую чувствительность глаза к небольшим искажениям при восстановлении. Последняя особенность активно используется алгоритмами сжатия с потерями качества.

Говоря об особенностях человеческого восприятия, в цветовых плоскостях изображения присутствует некоторая избыточность, именуемая избыточностью цветового пространства. Действительно, для восприятия наиболее важна яркость изображения. В качестве применения знания об этом осуществляется замена стандартной RGB схемы цветопредставления схемой YUV с прореживанием соответствующих компонент.

На сегодняшний день проблема устранения избыточных отсчетов в пространстве практически решена, в то время как проблема устранение избыточности во времени является актуальной и значимой областью исследования для множества научных коллективов. Среди них такие российские исследователи, как Ватолин Д., Ратушняк А., Смирнов М., Юркин В., а также зарубежные, среди которых выделяются создатели фундаментальных трудов по сжатию данных Сэломон Д., Ричардсон Я., Гонсалес Р., Вудс Р.

В связи с особенностями видеоданных по сравнению со статическими изображениями Ричардсон Я. в работе [12] оправдывает необходимость сжатия этого типа данных в условиях растущего уровня вычислительных мощностей и характеристик устройств хранения.

Во-первых, оно дает возможность использования цифрового видео в среде передачи, не поддерживающей несжатое видео. Во-вторых, видеокомпрессия повышает эффективность использования высокоскоростных каналов связи как для передачи видеопотока высокого разрешения, так и для одновременной передачи множества потоков видеоданных при высоком уровне качества каждого из них. Именно по мнению Ричардсона, проблема сжатия видеопоследовательностей будет оставаться актуальной еще долгое время.

1.1.1. Устранение избыточности видеосигнала. Основные этапы сжатия

Как справедливо заметил Д. Сэломон [27], случайные данные нельзя сжать, так как в них нет избыточности. Избыточность является центральным понятием в теории сжатии информации и в частности видеоинформации. Выделяют 3 вида избыточности видеоданных: пространственную, временную и избыточность цветовых плоскостей [14].

Пространственная избыточность или схожесть значений соседних пикселей/плавность цветовых переходов в кадре подразумевает преобладание низких частот представления сигнала над высокими частотами. Её устранение используется в алгоритмах, основанных на различных видах дискретных преобразований.

Устранение временной избыточности использует предположение о том, что за небольшой промежуток времени, соответствующий нескольким кадрам, объекты, присутствующие в видеосцене, изменяются незначительно. В связи с этим попиксельная разность двух последовательных кадров будет близка к нулю. И, хотя сжатие разностей соседних кадров вместо самих кадров накладывает некоторые ограничения на процессы сжатия и распаковки, этот подход используется почти всеми алгоритмами сжатия видеоданных.

И, наконец, избыточность цветовых плоскостей, заключается в том, что для восприятия человеком яркость пиксела имеет первостепенное значение.

Рассмотрим типичную процедуру сжатия компрессором видеопоследовательности.

входной поток

1

ц->ц/р

Предварительная обработка

Цветовое прореживание

Временная модель

Пространственная модель

Блок оценки и компенсации движения

Прямое преобразование

Квантователь

Обратное 4 Деквантователь

преобразование

выходной поток <-

Энтропийный кодер

Переупорядочивание

Рисунок 1.1. Базовый метод сжатия видеопоследовательности.

Выделим две основные функциональные единицы временную модель и пространственную модель (рисунок 1.1.). Временная модель стремится сократить временную избыточность, пространственная же использует схожесть или подобие соседних сэмплов кадра, сокращая пространственную избыточность.

На первом этапе кодирования каждый кадр преобразуется из цветового представления в цветоразностное представление.

В цветовом представлении RGB пикселы цветного изображения представляются с помощью трех компонент, указывающих относительное соотношение трех основных компонент видимого света. Цветоразностное

представление YCbCr и его вариации (YUV[75], YIQ[77], YCC[74]) основано на наибольшей значимости компоненты яркости для человеческого восприятия. Полученное цветоразностное представление сэмплируется для увеличения степени сжатия, т.е. используется меньшее разрешение компонент за исключением яркости.

После этого видеоряд подвергается предварительной обработке. Посредством ряда фильтров, из него удаляются малозначительные детали, что способствует повышению степени сжатия, устраняются высокочастотные компоненты, а также нежелательные быстрые движения камеры. В качестве примеров можно привести нелинейную диффузную фильтрацию [45] для схемы JPEG и фильтр предварительной обработки PJPEG2000 [35] для схемы JPEG2000. Иногда совместно с методами предварительной обработки на этапе декодирования кодирования для улучшения характеристик восстановленного кадра используются фильтры постобработки, подробно описанные в [41,44, 51, 52, 55, 61, 64].

Далее производится цветовое прореживание (гамма-коррекция). В связи с тем, что человеческий глаз реагирует на изменение яркости нелинейно, производится масштабирование яркостей пикселей с использованием степенной функции.

Далее в простейшем случае независимого сжатия кадра, он попадает на вход преобразователя. Входной поток преобразователя составляют отсчеты исходного сигнала, на выходе получаются коэффициенты разложения сигнала по базису, состоящему из локализованных по частоте / в пространстве функций.

В противном случае кадр ссылочный, и задействуется схема оценки и компенсации движения, а только потом осуществляется преобразование. Целью этого этапа является отображение цифровых данных кадров в другую координатную область. Такая область называется областью преобразования.

Выделяют 3 вида преобразователей сигнала [33]:

1. во временном пространстве

2. в частотном/частотно-временном пространстве

3. в пространстве свойств/признаков сигнала

Основные методы кодирования преобразованием во временном пространстве подразделяются на кодирование без предсказания (импульсно-кодовая модуляция (ИКМ), усеченное блочное кодирование (УБК) [38]) и кодирование с предсказанием (дифференциальная импульсно-кодовая модуляция (ДИКМ) [32, 70], дельта-модуляция (ДМ) [60]).

В ИКМ компрессия осуществляется за счет квантования амплитуд элементов, например при аналого-цифровом преобразовании сигнала. УБК основано на разбиении сигнала на блоки с последующим выделением двух уровней сигнала для кодирования каждого блока. Общим недостатком ИКМ и УБК является недостаточная степень устранения избыточности.

Дифференциальная импульсно - кодовая модуляция (ДИКМ), используемая в рамках стандарта ААС [71], основана на передаче не самого значения отсчетов сигнала, а разности между его отсчетами либо разности между отсчетом и его линейно распределенным предсказанием. Эффективность и рабочие характеристики кодеров ДИКМ могут быть улучшены путем адаптирования к медленно меняющейся во времени статистике источника.

Основные методы кодирования преобразованием во временном пространстве будут описаны далее в данной главе.

К основным методам кодирования преобразованием на основе построения модели исходного сигнала относятся фрактальное сжатие [58], геометрическая аппроксимация областей [6] и прочие [10]. Данный класс методов подвергает кадр анализу с целью выявления его свойств или признаков и отличается высокой вычислительной сложностью. Чаще всего этот процесс сводится к сложной аппроксимации сигнала.

Подвергнутая преобразованию видеопоследовательность поступает на квантователь. Алгоритмы квантования отсчетов сигнала подразделяются на скалярные [65], векторные [26] и сеточные[40]. Каждому отсчету при скалярном или группе отсчетов при векторном квантовании исходного сигнала ставят в соответствие число.

В случае скалярного квантования отсчеты сигнала разбиваются в соответствии с шагом квантования. В простейшем случае значения, попадающие в «мертвую зону» (находящиеся на интервале от -И до Ы), округляются до нуля. В процессе квантования величина каждого отсчета заменяется индексом интервала, в который она попадает. При декодировании индекс заменяется центроидом - средним значением отчетов сигнала конкретного интервала. Такой тип квантования можно использовать для понижения точности изображения после применения кодирования преобразованием.

В случае векторного квантования исходный сигнал разбивается на прямоугольные участки, которые группируются по сходству по некоторому критерию. Для такой группы вычисляется средневзвешенный участок, который заносится в таблицу словаря. При декодировании области заменяются соответствующими индексами словаря, участки соответствующие которым схожи с исходными. При равном уровне искажения сигнала данный алгоритм способствует большему снижению корреляции сигнала по сравнению со скалярным алгоритмом. Однако ему присущ серьёзный недостаток - высокая вычислительная сложность построения словаря, что мешает повсеместному использованию метода. Однако, в связи с особенностью сжатия видео возможно использование словаря предыдущего изображения для построения нового, что значительно упрощает данный процесс.

Одним из недостатков векторного квантования является необходимость передавать вместе с закодированным сообщением также и кодовую книгу.

Выделяют также сеточный квантователь, являющийся частным случаем векторного квантователя со свойствами скалярного. Индекс значения отсчета зависит не только от самого значения, но и от значений соседних отсчетов и вычисляется по заданному правилу.

После квантования коэффициенты необходимо переупорядочить в группы ненулевых элементов. Оптимальный порядок сканирования зависит от распределения ненулевых коэффициентов (после сканирования они должны

располагаться раньше нулевых). Для типичного блока изображения, подходящим порядком является зигзаг - сканирование с началом в верхнем левом углу.

Эффективная оценка и компенсация движения сокращает корреляцию сэмплов, позволяя эффективно сжимать изображение последовательности по сравнению с исходным видеокадром. Эта модель, как правило, использует алгоритмы кодирования с предсказанием. При этом кодер делает прогноз для текущей области на основе предыдущих или будущих кадров и вычитает эту область - прогноз из текущей области. Если предсказание сделано правильно, то полученный остаток можно представить меньшим числом бит.

Параметры временной модели (векторы движения) и пространственной модели (коэффициенты преобразования) подаются на вход энтропийного кодера. Векторы движения обычно представляются в виде координат вектора перемещения всех блоков с компенсацией движения с целым или дробным пиксельным разрешением. Входными данными также могут являться маркеры (коды, обозначающие точки синхронизации в видеопоследовательности) и хедеры (заголовки макроблоков, изображений, последовательностей и других объектов).

В процессе прохождения видеопоследовательности через энтопийный кодер она поэлементно сжимается. Это достигается путём использования информации о вероятности появления каждой отдельной последовательности символов. Выделяют следующие виды кодирования: модифицированные коды Хаффмана переменной длины и арифметическое кодирование.

Схема декодирования работает в обратном направлении.

1.1.2. Подходы к оценке качества и степени сжатия видеоданных

Для анализа алгоритмов сжатия видеоданных очень важен выбор минимизируемого критерия, определяющего предпочтение одного вектора другому.

Среди критериев оценки подобия сущностей компенсации выделяют [5]:

1. Сумма абсолютных отклонений (Sum of Absolute Differences) или среднего абсолютного отклонения(Меап Absolute Difference)

(1.1)

1=1

MAD = ±-±\ (J0(p)-1^)1 (L2)

J J=1

где /0 и /, - яркости исходного и восстановленного кадра, в соответствующих

точках сущностей р и q, a J- произведение размерностей кадра.

2. Сумма квадратов отклонений(8иш of Squared Differences) или средний квадрат отклонений(Меап Square Difference)

■> г -,2 (1.3)

h(p)~L(q)

^ . (1.4)

J-1

msd 4i[/o(p)-/i(?)]2>

3. Показатель разности пикселей (Pel Difference Classification), оценивает количество пикселей сущности, разность которых с соответствующими пикселями компенсируемой не превышает некоторый порог.

4. Интегральная проекция (Integral Projection) [76], рассчитывается путем суммирования значений пикселей каждой колонки, а затем каждой строки разностной "матрицы".

5. Пиковое соотношение сигнал/шум (PSNR, peak signal to noise ratio) : максимизируется.

(2*-l)2 (L5) PSNR = 10 -io2 J , 10gl° MSE '

где q=8 — разрядность цветовой схемы, a MSE — среднеквадратичное отклонение яркости исходного изображения от восстановленного, определяемое формулой:

1 М-1АМ 2 И АЛ

M-Ni

■0 ;=0

где /0(г',у) и у^/,/) — яркости соответствующих пикселов исходного и

восстановленного кадра, а Ми ^-размеры изображения.

6. Функция кросс - корреляции : максимизируется [43].

К1 т(г, с) = I , (1 -7)

1=0 7=0 ^

где г и с - параметры вектора движения, a R и С - параметры размеров некоторой окрестности сущности прогноза.

Некоторые из этих критериев являются простыми для оценки, тогда как оценка других является нетривиальной задачей. Выбор критерия сравнения сущностей напрямую зависит от особенностей алгоритма, применяемого для решения задачи.

В диссертационной работе в качестве критериев подобия будут использоваться PSNR критерий (в качестве экспертной оценки на этапе сравнения алгоритмов) и SAD критерий (для сокращения вычислительной сложности алгоритмов).

Для оценки степени сжатия видеопоследовательности используют следующие зависимости:

зависимость количества искажений от степени сжатия видеопоследовательности (RD кривая, Rate - Distortion curve). В теории кодирования сигналов с потерями функция зависимости размера данных от искажений сигнала определяется следующим образом [11]:

R(D)= min 1{Х\Х), (1-8)

p(x\x):^x^p(x)p(x,x)d (x,x)<D

А

где R(D) — искомая RD функция, X — исходный сигнал, X - декодированный сигнал, I— полная информация, р - плотность вероятности сигнала, d — расстояние между исходным и декодированным сигналом в некоторой метрике.

Существуют различные аналитические выражения этой функции для различных распределений исходных данных. Некоторые из них успешно используются в алгоритмах управления, основанных на RD моделях.

Основным назначением построения RD кривой в данном исследовании заключается в поиске такой степени сжатия сигнала, при которой среднее его искажение не будет превосходить заданной величины Д при минимуме затрат на передачу.

В диссертационной работе под RD зависимостью понимается:

- соотношение PSNR и коэффициента сжатия видеопоследовательности;

- зависимость от битрейта.

Битрейт является величиной, характеризующей поток данных, в частности видеоданных, передаваемый в реальном времени (минимальный размер канала, который сможет пропустить этот поток без задержек), а также количество информации, необходимой для передачи (хранения) одной секунды воспроизведения видеопотока. В рамках диссертационной работы будет использоваться некоторое упрощение, а именно, не будут учитываться дополнительные затраты на передачу звука и служебной информации о синхронизации.

1.2. Современные технологии сжатия видеопоследовательностей

В данном разделе будут рассмотрены основные алгоритмы, используемые современными видеокомпрессорами. Среди алгоритмов в рамках временной модели видеокомпрессора выделяют попиксельные алгоритмы или непрерывный подход и сегментные алгоритмы оценки и компенсации движения или дискретный подход. В свою очередь в рамках пространственной модели выделяют алгоритмы кодирования преобразованием, а также алгоритмы квантования отсчетов сигнала.

1.2.1. Алгоритмы временной модели видеокомпрессора

Как было отмечено ранее, целью временной модели является удаление избыточности между передаваемыми кадрами. Основной задачей данной схемы является составление кадра-прогноза. Чем быстрее движутся снимаемые объекты, тем больше отличаются блоки текущего кадра от соответствующих предыдущего кадра и тем больше ошибка предсказания и объем передаваемых данных, что снижает эффективность алгоритма компрессии. Чем лучше прогноз, тем меньше энергии содержится в остаточном кадре (разность текущего кадра и прогноза). Декодер, получая данный кадр, воспроизводит кадр-прогноз по ссылочным кадрам и складывает его с остаточным кадром. В результате получается кадр, максимально приближенный к исходному кадр.

Рассмотрим более подробно природу отличий между соседними кадрами видеопоследовательности. Они возникают вследствие перемещения объектов, видеокамеры, перекрывания объектов друг другом, изменения освещенности.

В зависимости от промежуточных данных все подходы к анализу движения разделяются на две категории: определение оптического потока или непрерывный подход и соотнесение признаков или дискретный подход.

1.2.1.1. Анализ попиксельных алгоритмов компенсации движения

В рамках алгоритмов определения оптического потока/ попиксельных алгоритмов отличия между соседними кадрами рассматривается как перемещение ряда пикселей по кадру. Таким образом, можно проследить траекторию движения пикселя между последовательными кадрами. В этом случае оптическим потоком называется порождаемое поле траекторий. Определив поле этого потока, можно построить точный прогноз для большинства пикселей кадра. Каждому пикселю в этом случае будет соответствовать свой вектор оптического потока для прогнозирования.

Исторически данный подход к компенсации движения появился одним из первых. Алгоритм, применяемый для оценки движения, учитывает лишь линейные сдвиги. Делается допущение о том, что значение пикселя можно получить при помощи линейной функции от его положения в кадре. Данный класс методов подразделяется на 3 группы:

• подходы на основе оценки градиента

• подходы на основе оценки корреляции

• подходы на основе пространственно-временной оценки энергии

Среди подходов на основе оценки градиента выделяют алгоритм Хорна-

Шанка [59] и улучшенный алгоритм Хорна-Шанка [29]. В рамках базового алгоритма используется уравнение неизменной яркости для извлечения информации о сохранении и постоянная гладкости для анализа информации о пикселях-соседях в соответствии с итерационным алгоритмом Гаусса-Зейделя [56]:

{и,у} ={и,у}--

а+/х +/у

(1.9)

где к и к+1 - номера итерации, и и V - искомые градиенты по * и у-минимизируются, а и и V - локальные средние значения, определяемые путем умножения восьми соседних градиент на ряд постоянных.

В рамках улучшенного алгоритма предлагается удалить зашумление изображения при помощи линейного фильтра с параметрами (-1/12, 8/12, 0, 1/12, -8/12), за счет чего существенно сокращается ошибка предсказания.

Среди подходов на основе оценки корреляции выделяют алгоритм Синга [59] и алгоритм Пан-Ши-Шу [53]. В рамках алгоритма Синга для извлечения информации о сохранении используется пирамида Лапласа корреляции пары пикселов в пределах заданного окна, а также фильтр Гаусса для анализа информации о пикселях-соседях. Метод также основан на итерационном алгоритме Гаусса-Зейделя:

[и,у}к+х = [у;1+ЬЛ«, V),+V}* ]

п

Дм,у}° = {и,у}с

где и и V - корреляция по вертикали и горизонтали, к - уровень пирамиды Лапласа, и-номер кадра, с - центральный пиксел окна, п - пиксел — сосед в пределах окна размером (2м?+ 1)х(2ж+1), а ковариантная матрица вида:

/л N

X 2 К1сЖи> УХИ - Щс*}) 2 X у)(м - и{с.в}Ху - У{с,„})

(1.10)

3 {с,п} —

И V

2 XК{с,п)(и> - Щс,п})(У - У{с,„})

V V

л

(1.11)

и V

где/г{С;„}(м,у) = .

При этом каждому пикселю-соседу соответствует вес, определяемый его положением относительно маски Гаусса.

Действительно, оценивая разность вектора сдвига с некоторым вектором предсказания можно увеличить точность работы алгоритма. Такой подход сокращает количество передаваемых исправлений, то есть решение переводится

из разряда верно/ неверно в разряд достаточно/ недостаточно точно. Таким образом, получается итерационный алгоритм поиска вектора движения. На каждом шаге проверяется достижение некоторой точности построения, и если она не достигнута, вектор уточняется. В качестве начального решения можно использовать вектор сдвига точки предыдущего кадра. В лучшем случае решение будет получено на первой итерации, в худшем на итерации М х N - 2, для динамичного движения и перемещения точки на весь экран (М и N - размеры кадра).

Алгоритм Пан-Ши-Шу также является итеративным алгоритмом, но дополнительно использует обратную связь и несколько вариантов предсказания для пиксела, передаваемых на следующую стадию предсказания.

Среди подходов на основе пространственно-временной оценки энергии выделяют алгоритмы Адельсона [28] и Хегара [39]. В первом случае предлагается использование пространственно-временных фильтров энергии Габора с применением двух окон Гаусса, который задается соотношением:

1 12 £(0 = -7=—втСгяаЮе"^, (1.12)

у/Ыст

где со- пространственно - временная частота, сг-параметр отклонения фильтра Гаусса.

В случае алгоритма Хегара используется 12 подобных фильтров, настроенных на одну пространственную частоту.

Между тем существуют другие алгоритмы, не попадающие под приведенную классификацию, описанные в [34, 46, 66]

В ходе проведенного анализа было выявлено, что применение попиксельных алгоритмов компенсации движения оправдано лишь для небольшой окрестности точки, что существенно снижает область применения данного класса алгоритмов. Действительно, данному классу алгоритмов присущ ряд недостатков.

Во-первых, процесс вычисления оптического потока ресурсоемок из-за множественности итераций для каждого пикселя (500 - 50 б.о. / пиксель) [28, 34,

39, 63]. Во-вторых, метод существенно увеличивает объем передаваемой информации о движении из-за необходимости пересылать все векторы оптического потока декодеру. Фактически, это нейтрализует все преимущества использования остаточного кадра.

Данные недостатки сложно устранить в рамках метода, поэтому в настоящее время алгоритм редко исследуется и используется. Однако крайне полезным оказывается попиксельный метод параметрических моделей в рамках данного подхода.

В ряде случаев все пиксели изображения имеют схожие вектора движения. Это возможно, если все изменения в кадре вызваны движением камеры. Тогда движение пикселя описывается следующей моделью [35].

**) = /(/,(*) + /2(чУх,/з(д) + /4(д)-у), (1-13)

где коэффициенты /ь/з описывают параллельное перемещение, в./2,/4 описывают вращение/приближение/удаление камеры.

Безусловно, этот метод имеет ряд ограничений, накладываемых особенностями геометрии объекта.

1.2.1.2. Анализ алгоритмов соотнесения признаков

Алгоритмы соотнесения признаков являются неотъемлемой частью эффективных схем сжатия видеопоследовательностей. В случае использования методов данного класса анализу подвергаются лишь исключительные двумерные признаки рассматриваемого изображения. Необходимо заметить, что в рамках данного подхода возникают две задачи. Во-первых, задача выделения признаков, а во-вторых, задача определения соотнесения. При этом разделение и перекрывание объектов видеопоследовательности друг другом способствует появлению и исчезновению характерных признаков, что существенно усложняет решение второй поставленной задачи. Этот подход в непосредственном использовании отличается высокой трудоемкостью, поэтому используется в процессе сжатия видео в таком виде крайне редко.

В качестве развития метода соотнесения признаков можно выделить объектный и сегментный подход к анализу движения.

Основной задачей, решаемой такими алгоритмами, является задача построения траектории движущихся групп пикселов. Выбор её решения всегда является компромиссом между точностью приближения и вычислительной сложностью алгоритма.

Говоря о первом из них, можно заметить, что на сегодняшний день не существует общепринятого метода выделения объектов из исходных образов, но предполагается, что естественные видеосцены представлены информацией о форме объектов в дополнение к обычным яркостным и цветовым составляющим. Данные о форме обычно представляются в виде двоичной маски сегментации или альфа - плоскости с серой шкалой для представления объектов с множественным перекрытием. Альфа-маска определяет, принадлежит ли пиксель данному объекту. Маска с серой шкалой предоставляет возможность точно определить прозрачность каждого пиксела [72].

При таком подходе неудивительно возникновение ряда трудностей, связанных с необходимостью точного и достоверного описания границ объектов, сегментацией и кодированием контура границы объекта для декодера, кодированием остатка после компенсации движения и так далее.

Класс методов на основе сегментного подхода устраняет большую часть недостатков попиксельных и объектных алгоритмов. Компенсируемой сущностью в нем является прямоугольный блок. Движение описывается двумерным вектором смещения блока. В данном подходе используется предположение о том, что в рамках двух соседних кадров местоположение и форма объектов изменяются незначительно. Тогда это изменение можно скомпенсировать параллельным переносом сегмента на некоторый вектор. Это допущение работает для подавляющего большинства кадров видеопоследовательности, за исключением участков полного изменения кадра при переключении сцены.

В процессе работы алгоритма кадр разбивается на непересекающиеся блоки одного размера (рисунок 1. 2.). Затем, для каждого блока в некоторой окрестности

ищется блок предыдущего кадра, соответствующий минимуму критерия различия (чаще всего SAD или SSD). Полученный при этом вектор и есть вектор смещения для данного блока.

схожий блок

gl ^ I_ компенсируемый

предыдущий кадр вектор движения текущий кадр

Рисунок 1.2. Схема работы алгоритма сегментного подхода. Если выбран критерий соответствия SAD, то он вычисляется по формуле:

SAD(d,n)= £ I(p,n)-I(p+d,n-1), (1.14)

где 0(х,у)- множество пикселей компенсируемого блока, 1(р,п)-значение пикселя в точке р на кадре с номером п, а d -вектор движения.

1.2.2 Алгоритмы пространственной модели видеокомпрессора

Алгоритмы пространственной модели подразделяют на алгоритмы кодирования преобразованием и алгоритмы квантования отсчетов сигнала. В рамках настоящей работы основной интерес представляют алгоритмы кодирования преобразованием, а также алгоритмы интерполяции, как промежуточный этап сокращения пространственной избыточности.

1.2.2.1 Алгоритмы кодирования преобразованием в частотно-временном пространстве

Выделяют преобразования на основе всего изображения (дискретное wavelet-пpeoбpaзoвaниe) и блочные преобразования.

В случае преобразований на основе всего изображения [1] к исходному сигналу в виде последовательности дискретных значений применяется пара

фильтров, которая разделяет его на две составляющие: низкочастотную подполосу (L) и высокочастотную подполосу (Н). Каждая подполоса прореживается через один элемент, и в каждой последовательности частот остается по N/2 сэмплов. При правильном выборе фильтров такая операция является корректной.

Wavelet - преобразование применяется по строкам и по столбцам для каждого уровня разложения. Достоинствами метода является то, что он не приводит к появлению артефактов правильной формы, иными словами блоккинг -эффекта, хорошо масштабируется. Например, для того чтобы уменьшить разрешение уже сжатого изображения в четыре раза, можно оставить один коэффициент из четырех.

Однако, данному решению присущ ряд недостатков. Присутствуют эффекты смазывания граней, утраты мелких деталей и появления артефактов вблизи границ объектов. Для их работы необходим большой объем памяти.

Блочные преобразования работают с квадратными блоками изображения, элементами которых служат сэмплы (обычно это сэмплы самого изображения или величины разностей из кадра - прогноза), и после ряда операций порождает равносторонний блок коэффициентов. Любой блок изображения можно восстановить с помощью линейной комбинации N х N базисных шаблонов, где базисные шаблоны умножаются на соответствующие весовые множители (коэффициенты преобразования).

Блочные преобразования имеют низкие требования к объему памяти и хорошо подходят для сжатия остаточных изображений (после прохождения временной модели), но в результате возникают артефакты, возникающие на стыках блоков. Среди блочных преобразований выделяют:

а. дискретные ортогональные двузначные преобразования (ДОДП)

1. Преобразование Уолша-Адамара

2. Преобразование Хаара

3. Преобразование Пэли

4. Преобразование Качмажа

b. дискретное косинусное преобразование

c. дискретное преобразование Хартли

Матрица ядра преобразования Уолша-Адамара для N =2Ш может быть описана как результат прямого умножения ш матриц ДЭФ Е2 размера 2x2 [8]:

т

(1-15)

1=1 '

1 1

Е, =

1—1

- матрица ДПФ порядка 2. Матрица ядра преобразования Хаара для N =8 имеет вид:

1

где

Хе =

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Рубина, Ирина Семеновна

5.4. Основные результаты и выводы

1. Разработан метод сжатия видеопоследовательностей, основанный на сочетании предложенных алгоритмов, который позволил повысить качество восстановленной видеопоследовательности на 5%, степень ее сжатия на 30% по сравнению с методом VP8, а также сократить необходимый битрейт на 30% и вычислительные затраты на 20%.

2. Ряд экспериментов показал, что качество работы разработанного видеокомпрессора не уступает видеокомпрессору на основе стандарта Н.264.

3. Разработаны программные средства, реализующие предложенный метод сжатия и выполнены эксперименты по сжатию изображений различного информационного смысла.

Как показали выполненные эксперименты, разработанный метод сжатия показывает лучшие по сравнению с VP8 показатели качества и степени сжатия, но является несимметричным - временные затраты на декомпрессию значительно меньше, чем на сжатие изображений, что позволяет рекомендовать данный метод сжатия к использованию в системах цифрового телевидения или для баз видеоданных.

Заключение

Главный научный результат выполненной диссертационной работы заключается в развитии и усовершенствовании методов сжатия естественных и синтезированных видеопоследовательностей, что позволило повысить коэффициент сжатия, а также качество восстановленного видеоряда при допустимом уровне вычислительных затрат, что может квалифицироваться как решение актуальной научно-технической задачи, имеющей существенное значение для развития телекоммуникационных систем и компьютерных сетей.

К основным научным результатам, полученным при выполнении диссертационной работы, следует отнести следующие результаты:

1. В результате исследования алгоритмов выбора блоков для сравнения предложен иерархический алгоритм выбора блоков для сравнения.

2. В ходе исследования алгоритмов оценки и компенсации движения разработан алгоритм классификации блоков кадра на основе маски, построение которой осуществляется в рамках предложенного алгоритма построения маски.

3. Предложен иерархический алгоритм быстрого преобразования Хартли на основе неразделимого ядра преобразования переменного размера.

4. Разработан алгоритм быстрого косинусного преобразования с переменным размером ядра преобразования, базирующийся на расчете коэффициентов преобразования по ряду предыдущих отсчетов.

5. Предложено использовать интерполяцию отсчетов сигнала для устранения блокинг - эффекта на выходе блока кодирования преобразованием, а также разработан алгоритм интерполяции на основе адаптивного выбора размера ядра.

6. Разработаны модель и метод сжатия видеоданных, основанные на сочетании предложенных алгоритмов.

7. Выполнена программная реализация предложенного метода сжатия и получены численные результаты компрессии видеопоследовательностей различной динамичности, согласно которым общий выигрыш от использования предлагаемого метода составляет порядка 25 %.

Список литературы диссертационного исследования кандидат технических наук Рубина, Ирина Семеновна, 2013 год

Список литературы

1. Астафьева, Н. М. Вейвлет - анализ: основы теории и примеры применения/ Н. М. Астафьева // Успехи физических наук. - 1996. - т. 166. - №11. — С. 11451170.

2. Белоголовый, А. В. Кодовое квантование при сжатии видеоизображений: диссертация на соискание ученой степени кандидата технических наук / Белоголовый Андрей Владимирович. - СПб., 2004. - 117 с.

3. Беляев, Е. А. Сжатие видеоинформации на основе трехмерного дискретного псевдо - косинусного преобразования для энергоэффективных систем видеонаблюдения / Е. А. Беляев, Т. М. Сухов, Н. Н. Шостацкий // Компьютерная оптика. - 2010. - т. 34. - № 2. - С. 260 - 272.

4. Брейсуэлл, Р. Преобразование Хартли. Теория и приложения / Р. Брейсуэлл. - М.: Мир, 1990. - 225 с.

5. Ватолин, Д. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео / Д. Ватолин, А. Ратушняк, М. Смирнов, В. Юкин. - М.: ДИАЛОГ-МИФИ, 2003. - 384 с.

6. Востров, Г. М. Фрактальное сжатие временных рядов с использованием нелинейной вейвлет - аппроксимации / Г. М. Востров, М. В. Полякова, В. В. Любченко // Труды Одесского политехнического института. - 1999. - Вып. З.-С. 87-92.

7. Гашников, М. В. Адаптивный алгоритм интерполяции для иерархической компрессии изображений / М. В. Гашников, Н. И. Глумов, В. В. Сергеев // Компьютерная оптика. - 2002. - вып. 23. - С. 89 - 93.

8. Глущик, Р. В. Процедуры распознавания и локализации объектов на изображении / Р. В. Глущик // Современные технологии. Труды молодых ученых ИТМО. - 2001. - С. 106-109.

9. Ефимов, В. М. Оценка эффективности иерархических и построчных алгоритмов сжатия полутоновых изображений без потерь / В. М. Ефимов, А. Н. Колесников // Тезисы докладов III конференции. Распознавание образов и

анализ изображений: новые информационные технологии. Н. Новгород. — 1997. — Часть I.-С. 157-161.

Ю.Моисеев, А. А. Курвлет-преобразование в задаче удаления шума из изображений / А. А. Моисеев, В. Ю. Кобелев, В. А. Волохов // Цифровая обработка сигналов. - 2008. - № 1. - С. 43-50.

П.Паршин, А. Методы анализа видекодеков на основе модификации естественных видеопоследовательностей / А. Паршин, Д. Ватолин // вгарЫСоп. -2008.-С. 294-301.

12.Ричардсон, Я. Видеокодирование. Н.264 и МРЕв-4 - стандарты нового поколения / Я. Ричардсон. - М.: Техносфера, 2005. - 368 с.

13.Рубина, И. С. Анализ методов построения траектории движущихся объектов на основе сегментации видеоданных / И. С. Рубина // Сборник тезисов VII Всероссийской межвузовской конференции молодых ученых. - 2010. - Вып. 1.-С. 24-25.

14.Рубина, И. С. Анализ методов построения траектории движущихся объектов на основе сегментации видеоданных / И. С. Рубина // Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики. — 2011. - №2 (72). - С. 127-132.

15.Рубина, И. С. Анализ проблем передачи видео в существующих системах видеоконференцсвязи / И. С. Рубина // Материалы XXXIX научной и учебно-методической конференции СПбГУ ИТМО. - 2010. - С. 32.

16.Рубина, И. С. Исследование алгоритмов выделения опорных точек в задачах классификации сегментов кадра видеопоследовательности / И. С. Рубина // Материалы ХЬ научной и учебно-методической конференции СПбГУ ИТМО. -2011.-С. 32.

17.Рубина, И. С. Исследование методов устранения временной избыточности в перспективных стандартах сжатия видеоданных / И. С. Рубина // Сборник научно - исследовательских выпускных квалификационных работ студентов СПбГУ ИТМО. - 2010. - С. 51-53.

18.Рубина, И. С. Исследование пространственно - временных алгоритмов компенсации движения / И. С. Рубина // Материалы XLI научной и учебно-методической конференции НИУ ИТМО. - 2012. - С. 32.

19.Рубина, И. С. Исследование способов повышения эффективности сжатия видео путем устранения временной избыточности сегментов кадра видеопоследовательности за счет решения апертурной проблемы / И. С. Рубина // Сборник «Шестнадцатая Санкт-Петербургская ассамблея молодых ученых и специалистов». - 2011. - С. 144.

20.Рубина, И. С. Методы и алгоритмы построения траектории движущихся объектов на основе сегментации видеоданных / И. С. Рубина // Сборник «Пятнадцатая Санкт-Петербургская ассамблея молодых ученых и специалистов». -2011.-С. 142.

21 .Рубина, И. С. Устранение временной избыточности на основе сегментного подхода к решению задач оценки и компенсации движения / И. С. Рубина // Сборник тезисов VIII Всероссийской межвузовской конференции молодых ученых.-2011.-вып. 1.-С. 116-117.

22.Рубина, И. С. Устранение избыточности видеоданных на основе алгоритмов кодирования преобразованием / И. С. Рубина // Сборник тезисов I Всероссийского конгресса молодых ученых. - 2012. - вып. 1. - С. 48-49.

23.Рубина, И. С. Анализ сегментного подхода к компенсации движения в задачах детектирования движения и сжатия видеоданных в рамках натуралистических исследований / И. С. Рубина, А. С. Румянцев // Сборник научных трудов Sworld. Материалы международной научно-практической конференции «Научные исследования и их практическое применение. Современное состояние и пути развития '2012». - вып. 3. т. 4. - Одесса: Черноморье. - 2012. - С. 14-24

24.Рубина, И. С. Исследование алгоритмов выбора опорных пикселов в задачах выделения сегментов кадра видеопоследовательности / И. С. Рубина, А. Ю. Тропченко // Научно-технический журнал «Известия вузов. Приборостроение». - 2012. - т. 55 №1. - С. 9-14.

25.Рубина, И. С. Исследование алгоритмов кодирования преобразованием в задачах сжатия кадров видеопоследовательности / И. С. Рубина, А. Ю. Тропченко // Научно-Технический журнал «Известия вузов. Приборостроение». - 2012. -т. 55 №10. С. 26-31.

26.Семенюк, В. В. Вероятностные методы экономного кодирования видеоинформации / Семенюк Владимир Витальевич: диссертация на соискание ученой степени кандидата технических наук. - СПб., 2004. - 99 с.

27.Сэломон Д. Сжатие данных, изображений и звука. - М.: Техносфера, 2004. - 368 с.

28-Adelson, Е. Н. Spatiotemporal energy models for the perception of motion / E. H. Adelson, J. R. Bergen // Journal of Optical Society of America. - 1985. - A2. - 2. -P. 284-299.

29.Alshibami, H. O. Fast Algorithm for the 3-D DCT-II / H. O. Alshibami, S. Boussakta // IEEE Transactions on signal processing. - 2004. - vol. 52. - № 4. - P. 992-1001.

30.Barron, J. L. Systems and experiment performance of optical flow techniques / J. L. Barron, D. J. Fleet, S. S. Beaucheminn // International Journal of Computer Vision. -1994.-12.-1.-P. 43-77.

31.Bigun, J. Multidimensional orientation estimation with applications to texture analysis and optical flow / J. Bigun, G. Granlund, J. Wiklund // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 1991. - 13. - P. 775-790.

32.Cummiskey, P. Adaptive quantitation in differential PCM coding of speech / P. Cummiskey, N. S. Jayant, J. L. Flanagan // Bell Syst. Tech. J. - 1973. - vol. 52. - P. 1105-1118.

33.E1-Sakka, M. R. Adaptive digital image compression based on segmentation and block classification / Mahmoud R. El-Sakka: Ph.D. Dissertation. - Canada, 1997. -121.

34.Fleet, D. J. Computation of component image velocity from local phase information / D. J. Fleet, A. D. Jepson // International Journal of Computer Vision. -1990.-5.-P. 77-104.

35.Fourati, W. A Novel Approach to Improve the Performance of JPEG2000 / W. Fourati, M. Bouhlel // ICGST International Journal on Graphics. Vision and Image Processing. - 2005. - vol. 5. - № 5. - P. 1 - 9.

36.de Haan, G. Progress in motion estimation for video format conversion / G. de Haan //IEEE Transactions on Consumer Electronics. - 2000. - vol. 46 № 3. - P. 449-450.

37.Harris, C. Combined Corner and Edge Detector / C. Harris, M. Stephens // Proceedings of the 4th Alvey Vision Conference. - 2008. - P. 147-151.

38.Healy, D. Digital Video Bandwidth Compression Using Block Truncation Coding / D. Healy, O. Mitchell // IEEE Transactions on Communications. - 1981. - vol. 29.-№ 12.-P. 1809-1817.

39.Heeger D. J. Optical flow using spatiotemporal filters / D. J. Heeger // International Journal of Computer Vision. - 1988. - 1. - P. 279-302.

40.Hill, L. On the estimation of global motion using phase correlation for broadcast applications / L. Hill, T. Vlachos // IEEE transactions on image processing and its applications. - 1999. - vol. 2. - P. 721-725.

41.Horita, Y. No-reference image quality assessment for JPEG/JPEG2000 coding / Y. Horita, S. Arata, T. Murai // Proc. of European Signal Processing Conference. -2004.-P. 487-500.

42.Huffman, D. A. A Method for the Construction of Minimum-Redundancy Codes / D. A. Huffman // Proceedings of the I.R.E. - 1952. - P. 1098-1102.

43.Jain, J. R. Displacement measurement and its application in interframe image coding / J. R. Jain, A. K. Jain // IEEE Trans. Commun. - 1981. - vol. com-29. - № 12. -P. 1799-1808.

44. Jeong, Y. A Practical Projection-Based Postprocessing of Block-Coded Images with Fast Convergence Rate / Y. Jeong, I. Kim, H. Kang // IEEE Transactions on Circuits and Systems for Video technology. - 2000. - vol. 10. - № 4. - P. 617-623.

45.Kopilovic, I. Artifact Reduction with Diffusion Preprocessing for Image Compression / I. Kopilovic, T. Sziranui // Optical Engineering. - 2005. - vol. 44. - № 2.-P. 1-29.

46.Konrad, J. Bayesian estimation of motion vector field / Konrad J., Dubois E. // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 1992. - 14. - 9. — P. 910-927.

47.Liu, J. G. Fast DCT-I, DCT-III, and DCT-IV via Moments / J.G.Liu, Y. Z. Liu, G. Y. Wang // EURASIP Journal on Applied Signal Processing. - 2005. -vol. 2005. -№ 12. -P. 1902-1909.

48.Lowe, D. G. Object recognition from local scale-invariant features / D. G. Lowe // Proceedings of the International Conference on Computer Vision. - 2009. -vol. 2.-P. 1150-1157.

49.Martin, G. R.Variable size block matching estimation with minimal error G. R. Martin, R. A. Packwood, I. Rhee // SPIE Conference on Digital Video Compression: Algorithms and Technologies. - 1996. - vol. 2668. - P. 324-333

50.Nam, Kwon Moon. A Fast Hierarchical Motion Vector Estimation Algorithm Using Mean Pyramid / Kwon Moon Nam, Joon-Seek Kim, Rae-HongPark // IEEE Transactions on Circuits and Systems for Video technology. - 1995. - vol. 5. — № 4. — P. 344-351.

51.Nosratinia, A. Post-Processing of JPEG-2000 Images to Remove Compression Artifacts / A. Nosratinia // IEEE Signal Processing Letters. - 2003. - vol. 10, № 10. - P. 296-299.

52.Paek, H. A DCT-Based Spatially Adaptive Post-Processing Technique to Reduce the Blocking Artifacts in Transform Coded Images / H. Paek, R. Kim, S. Lee // IEEE Transactions on Circuits and Systems for Video technology. - 2000. vol. 10. - № l.-P. 601-612.

53.Pan, J.N. Correlation-feedback technique in optical flow determination / J. N. Pan, Y. Q. Shi, C. Q. Shu // IEEE Transactions on Image Processing. - 1988. - P. 1061-1067.

54.Po, Lai-Man. A Novel Four Step Search Algorithm For Fast Block Motion Estimation / Lai-Man Po, Wing-Chung Ma // IEEE Transactions on Circuits and Systems for Video Technology. - 1996. - vol. 6. -№ 3. - P. 313-317.

|

55.Qiu, G. MLP for Adaptive Postprocessing Block-Coded Images / G Qiu // IEEE Transactions on Circuits and Systems for Video Technology. - 2000. - vol. 10. - № 8. -P. 1450-1454.

56.Ralston, A. A First Course in Numerical Analysis / A. Ralston, P. Rabinowitz. -New York: McGraw-Hill, 1978. - 615 p.

57.Ribas-Corbera, J. On the optimal block size for block-based, motion compensated video coders / J. Ribas-Corbera, D. L. Neuhoff // SPIE Proceedings of Visual Communications and Image Processing. - 1997. - vol. 3024. - P. 1132-1143.

58.Saupe, D. Fractal image compression. An introductory overview / D. Saupe, R. Hamzaoui, H. Hartenstein // Fractal Models for Image Synthesis, Compression, and Analysis. ACM SIGGRAPH Course Notes. - 1996.

59.Shi, Y. Q. Unified optical flow field approach to motion analysis from a sequence of stereo images / Y. Q. Shi, C. Q. Shu, J. N. Pan // Pattern Recognition. -1994. - 27. - 12. - P.1577-1590.

60. Singh, A. An estimation-theoretic framework for image-flow computation / A. Singh // CVGIP: Image Understanding. - 1992. - 56. - 2. - P. 152-177.

61.Song, H. A New Deblocking Algorithm Based on Adjusted Contourlet Transform / H. Song, S. Yu, C. Wang, L. Song, H. Xiong // Proceedings of the 2006 IEEE International Conference on Multimedia and Expo. - 2006. - P. 449-452.

62.Steele, R. Delta Modulation Systems/ R. Steele. - London: Pentech Press, 1975. -379 p.

63.SukHwan, Lim. Optical flow estimation using high frame rate sequences / Lim SukHwan, A. El Gamal // IEEE transactions on image processing. - 2001. - vol. 2. -P. 925-928.

64.Sun, D. Postprocessing of Low Bit-Rate Block DCT Coded Images Based on a Fields of Experts Prior / D. Sun, W. Cham // IEEE transactions on image processing. -2007. - vol. 16. - № 11. - p. 2743 - 2751.

65.Watson, A. B. Perceptual optimization of DCT color quantization matrices / A. B. Watson // Proceedings of the IEEE International Conference on Image Processing. -1994.-P. 1-5.

66.Waxman, A. M. Convected activation profiles and receptive fields for real time measurement of short range visual motion / A. M. Waxman, J. Wu, F. Bergholm // Proceedings of IEEE Computer Vision and Pattern Recognition. - 1988. - P. 717-23.

67.Xiang, Xui. Research of based on information reorganization thought multimedia data compression and multimedia data security engineering: Zhejiang University doctorate paper / Xiang Xui. - Hangzhou, 2009. - 172 p.

68.Yip, P. Discrete Cosine Transform: Algorithms, Advantages, Applications / P. Yip, K. R. Rao. -US: Academic Press, 1990. - 512 p.

69.Yonghong, Z. New algorithms for multidimensional discrete Hartley transform Z. Yonghong, B. Guoan, R. L. Abdul // Signal processing. - 2002. - vol. 82. - P. 10861095.

70.Пат. 3800225 США. Differential Pulse-Code Modulation / The Marconi Company Limited; Standard Telephones & Cables Limited. - № 05/290408; заяв. 09.19.72. - опубл. 03.26.74.

71 .ISO/IEC 13818-7 Information technology. Generic coding of moving pictures and associated audio information. Part 7: Advanced Audio Coding (AAC), 1997. - 10 p.

72.ISO/IEC 14496-2 Coding of audio-visual objects. Part 2: Visual, 2001. - 21 p.

73.ISO/IEC 14496-10 Advanced video coding for generic audiovisual services, 2005. - 32 p.

74.ITU H.262 MPEG-2 specification, 2000. - 25 p.

75.ITU-R Recommendation BT.601, 1982. - 12 p.

76.ITU-T Recommendation P.800. Methods for subjective determination of transmission quality, 1996. - 15 p.

77.TV transmission standard, part 73, 2009. - 19 p.

78.VP8 data format and decoding guide, Google Inc., WebM Project, 2010. - 46 p.

Список терминов

FSBM: fixed size block matching- соотнесение блоков фиксированного размера

FSS: four step search-четырех шаговый поиск

MP: median pyramid- метод усредненной пирамиды

OSA: orthogonal search algorithm- алгоритм ортогонального поиска

OTA: one in time algorithm- алгоритм «один за раз»

Pol: points of interest based-объединение векторов по признаку принадлежности маске, построенной методом на основе выделения опорных пикселов PSNR: peak signal to noise ratio- пиковое соотношение сигнал/шум, используемое для объективной оценки качества

RD: rate distortion curve-кривая эффективность сжатия/искажение

SIFT: Scale-Invariant Feature Transform- неизменное по шкале преобразование

признаков

TDL: two dimensional logarithmic search- двухмерный логарифмический поиск TSS: three step search - трех шаговый поиск

VJ: vectors joint based-объединение векторов по направлению движения VOP - video object plane- плоскость видеообъекта

VSBM - variable size block matching- соотнесение блоков переменного размера Вектор движения: вектор, обозначающий смещение блока или области от кадра к кадру при прогнозах компенсации движения

Квантование: понижение точности представления скалярной или векторной величины

Кодирование inter: кодирование на основе временного прогнозирование и компенсации движения

Кодирование intra: кодирование без использования временного прогнозирования Кодирование Хаффмана: метод кодирования кодами переменной длины для сокращения избыточности

Компенсация движения: прогноз видеокадра с помощью моделирования движения на другом кадре

Оценка движения: оценка относительного движения областей и блоков на двух или нескольких кадрах

Статистическая избыточность: избыточность данных, связанная с их вероятностным распределением

Цветовое пространство: метод представления цифровых изображений в цифровой форме

Энтропийное кодирование: метод кодирования без потерь информации, уменьшающий избыточность данных

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.