Критерии и алгоритмы вычисления точности проективной нормализации изображений тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Коноваленко Иван Андреевич

  • Коноваленко Иван Андреевич
  • кандидат науккандидат наук
  • 2021, ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)»
  • Специальность ВАК РФ05.13.17
  • Количество страниц 136
Коноваленко Иван Андреевич. Критерии и алгоритмы вычисления точности проективной нормализации изображений: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2021. 136 с.

Оглавление диссертации кандидат наук Коноваленко Иван Андреевич

Введение

Глава 1. Теоретические основания и практические приложения

нормализации изображений

1.1 Нормализация изображений

1.2 Критерии точности нормализации изображений

1.2.1 Внутрисистемные критерии

1.2.2 Цветовые критерии

1.2.3 Геометрические критерии

1.3 Проективная нормализация изображений и критерии точности

1.3.1 Теоретическое обоснование проективной нормализация изображений

1.3.2 Критерии точности проективной нормализация изображений

1.4 Границы применимости критериев точности нормализации

1.4.1 Случай произвольной нормализации

1.4.2 Случай проективной нормализации

1.5 Аффинная аппроксимация проективной нормализации изображений

1.6 Выводы

Глава 2. Теоретическое обоснование критериев точности

нормализации изображений

2.1 Вероятностные модели оптического распознавания документов фиксированной структуры

2.2 Постановка задачи построения критериев точности нормализации

2.3 Построение критериев точности нормализации

2.4 Максимальная невязка направлений остаточного искажения

2.4.1 Невязка направлений

2.4.2 Поточечная максимальная невязка направлений

2.4.3 Максимальная невязка направлений

2.5 Выводы

Глава 3. Точные алгоритмы вычисления значений критериев

точности проективной нормализации изображений

3.1 Вычисление максимальной невязки координат

3.1.1 Супремум невязки координат на ограниченной

замкнутой области интереса в аффинном случае

3.1.2 Неоптимальность невязки координат на крайних точках выпуклой оболочки ограниченной замкнутой области интереса в проективном случае

3.1.3 Супремум невязки координат на ограниченной

замкнутой области интереса в проективном случае

3.1.4 Супремум невязки координат на полиэдральной области интереса

3.2 Вычисление среднеквадратичной невязки координат

3.2.1 Случай ортотропной прямоугольной области интереса

3.2.2 Случай произвольно ориентированной прямоугольной области интереса

3.2.3 Случай прямоугольно-полиэдральной области интереса

3.3 Вычисление максимальной невязки направлений

3.3.1 Вычисление поточечной максимальной невязки направлений

3.3.2 Оценка максимальной невязки направлений

3.4 Выводы

Глава 4. Оптимальная аффинная аппроксимация проективной

нормализации изображений

4.1 Критерии точности аффинной аппроксимации проективной нормализации изображений

4.2 Постановки задач поиска оптимальной аффинной аппроксимации проективной нормализации изображений

4.3 Выпуклость задач поиска оптимальной аффинной аппроксимации проективной нормализации изображений

4.4 Аналитическое выражение оптимальной аффинной аппроксимации проективной нормализации изображений

4.4.1 Случай области интереса ненулевой конечной площади

4.4.2 Случай непустой конечной области интереса

4.4.3 Случай ортотропной прямоугольной области интереса

4.4.4 Случай произвольно ориентированной прямоугольной области интереса

4.4.5 Случай прямоугольно-полиэдральной области интереса

4.5 Частные случаи аффинной нормализации изображений

4.6 Ускоренный подход к проективной нормализации изображений

4.7 Выводы

Глава 5. Проективная цветовая нормализация изображений и

максимальная цветоразность

5.1 Проективная нормализация цветности и цвета: историческая справка

5.2 Теоретическое обоснование проективной цветовой нормализации изображений

5.2.1 Линейные и нелинейные цветовые пространства

5.2.2 Роль линейных многообразий в анализе цветных изображений

5.2.3 Сохранение линейности цветовых многообразий проективной цветовой нормализацией

5.3 Максимальная цветоразность, как критерий точности цветовой проективной нормализации изображений

5.3.1 Общая формулировка максимальной цветоразности

5.3.2 Сравнительный анализ различных вариантов формулировки максимальной цветоразности

5.3.3 Аналитическое выражение максимальной pгoLab-цветоразности

5.4 Выводы

Заключение

Благодарности

Список основных условных обозначений

Список рисунков

Приложение А. О супремуме квазивыпуклой функции на

непустом ограниченном замкнутом множестве

Приложение Б. О супремуме непрерывно-бесконечной

функции на непустом ограниченном замкнутом множестве

Введение

Изображения одного и того же объекта существенно отличаются при различных условиях его съёмки: способе съёмки, ракурсе, освещении, оптических свойствах среды и так далее. Этот естественный эффект значительно усложняет анализ изображений. Поэтому в случае, когда условия съемки контролируемы, они, как правило, выбираются удобными для последующего анализа формируемого изображения: такие условия съемки принято называть нормальными. В случае же, когда условия съемки неконтролируемы, появляется потребность решения задачи нормализации: преобразования изображения к такому виду, как если бы оно было получено при нормальных условиях съемки.

В литературе обычно рассматривается один из двух частных случаев нормализации изображений. Для того, чтобы описать их, будем рассматривать изображение, как функцию. Тогда в первом случае нормализация осуществляется преобразованием в пространстве аргументов изображений, а во втором - в пространстве значений изображений. Такие виды нормализации будем называть геометрической и цветовой нормализациями соответственно.

Активные исследования по теме геометрической нормализации изображений начались с работы Д. Хаттенлохера 1993 года. Термин normalization в соответствующем смысле впервые был использован Э. Блейком в 1994 году, однако в англоязычной литературе он не получил широкого распространения. В отечественных работах тематики анализа изображений термин нормализация впервые использовался В.А. Гороховатским в 1997 году и в настоящее время общепринят. Термин colour image normalization впервые был использован Г. Финлейсоном в 1998 году, однако исследования по этой теме начались значительно раньше.

Нормализация применяется в качестве предварительной обработки изображений во многих задачах их анализа. Например, К. Оррите привлекал нормализацию для поиска похожих изображений в базах данных, В.В. Арла-заров - для идентификации телевизионных передач на экране телевизора, Б. Бальцопулос - для анализа медицинских изображений, В.В. Еремеев - для сопоставления космических изображений Земли с электронными картами, К.В. Мурыгин - для распознавания автомобильных номеров, Ю.В. Визильтер - для детекции и идентификации лиц, Т. Фурон - для классификации типов докумен-

тов, а Ф. Перес-Гонсалес - для распознавания текста документов. Кроме того, Г. Легге было показано, что нормализация изображений облегчает визуальное их восприятие человеком.

Форму объектов съёмки весьма часто моделируют многогранником (называя аппроксимацию их 3Э формы полиэдральной), формально приближая оптическую систему её регистрации камерой-обскурой (законы геометрической оптики приближает в данном случае плоская центральная проекция). В таких предположениях полученные с произвольных ракурсов изображения одной и той же грани объекта оказываются связаны двумерным проективным преобразованием, вследствие чего для геометрической нормализации используется проективное преобразование координат пикселей. Такую геометрическую нормализацию будем именовать проективной.

Точность проективной геометрической нормализации по своей природе многокритериальна: она может быть формализована множеством разумных неэквивалентных способов. В.А. Гороховатский в 1997 г. и Ф. Кальдерон в 2007 г. в качестве критерия такой точности использовали близость параметров проективного преобразования к идеальным; коллектив факультета компьютерных наук Принстонского университета привлекает в этих целях коэффициент Жаккара между нормализованным и идеально нормализованным контурами объекта и его модификации; многочисленные авторы аналогичным образом используют метрику Хаусдорфа и её модификации, а также среднеквадратичную и максимальную невязки координат остаточного проективного искажения. Общее количество заявленных вариантов критериев точности геометрической нормализации исчисляется десятками. Для многих из них не декларируются аналитические выражения, вследствие чего не известны и точные алгоритмы их вычисления. Кроме того, вопрос ориентированности предложенных критериев на решение тех или иных задач анализа изображений в литературе, как правило, не исследуется. Подобный подход делает эвристическим и выбор среди существующих алгоритмов геометрической нормализации и процесс разработки новых.

В связи с ростом технических возможностей мобильных устройств в последние годы стал актуален автономный анализ изображений на мобильных устройствах без участия сервера. Принципиальный вклад в развитие индустрии автономного анализа изображений внес В.В. Арлазаров. Вычислительные мощности современных мобильных устройств таковы, что время, необходимое для

проективного преобразования изображения, оказывается критическим фактором. Конкурентным подходом, увеличивающим скорость обработки изображений, может послужить аффинное их преобразование. Заметим, что типичный вариант ориентации оптической оси камеры по отношению к плоскости целевого объекта можно представить моделью ортогонального ракурса. В этом приближении система камера-объект естественным образом описывается аффинной проекционной моделью, а требуемая в общем случае проективная нормализация без значимых потерь в точности заменяется на также часто используемую аффинную нормализацию. Подобный переход к менее ресурсоёмкой модели может обеспечить требуемое ускорение этапа нормализации. В литературе этой тематики нет примеров рассмотрения критериев точности аппроксимации геометрической нормализации, а потому отсутствует и описание алгоритмов поиска оптимальной по точности аффинной аппроксимации проективной геометрической нормализации: выбор аффинного преобразования для геометрической нормализации изображений делается из сугубо эвристических соображений.

Проективное преобразование привлекается не только для геометрической нормализации изображений, но и для цветовой её разновидности. Проективное преобразование цветности (цвета без учета яркости) используется, по-видимому, с момента формализации понятия цветности Международной комиссией по освещению в 1931 году. Проективное преобразование используется также для нормализации трёхмерных цветовых векторов, что впервые было предложено в 2003 году коллективом факультета компьютерных наук Принстонского университета. При этом формальное теоретическое обоснование проективной нормализации цветности было опубликовано только в 2016 году Г. Финлей-соном, тогда как обоснование проективной нормализации цвета на данный момент отсутствует. Всё написанное выше о критериях точности проективной геометрической нормализации остаётся справедливо и для критериев точности проективной цветовой нормализации.

Целью данной работы является разработка проблемно-ориентированных критериев точности проективной нормализации изображений, а также точных алгоритмов оптимизации и вычисления значений этих критериев.

Для достижения поставленной цели необходимо было решить следующие задачи:

1. Построить критерии точности проективной нормализации, ориентированные на решение конкретных задач анализа изображений.

2. Разработать точные алгоритмы вычисления значений построенных критериев.

3. Разработать оптимальный по точности алгоритм аффинной геометрической нормализации проективно искаженного изображения.

Научная новизна:

Доказаны следующие теоремы:

1. супремум невязки координат двумерного проективного преобразования на замкнутом ограниченном множестве достигается на его границе, но не обязательно на крайних точках его выпуклой оболочки;

2. супремум невязки координат трехмерного проективного преобразования на полиэдре достигается на его рёбрах.

Впервые найдены аналитические выражения для:

1. супремума невязки координат проективного преобразования на полиэдре в двумерном и трехмерном случаях;

2. среднеквадратичной невязки координат двумерного проективного преобразования на прямоугольном плоском полиэдре;

3. оптимальной (на прямоугольном плоском полиэдре по критерию среднеквадратичной невязки координат) аффинной аппроксимации двумерного проективного преобразования.

Практическая значимость.

Основные результаты диссертации были получены в процессе выполнения работ по гранту РНФ №14-50-00150 «Цифровые технологии и их применения» (направление «Фундаментальные проблемы разработки интеллектуальных автономных систем») и по грантам РФФИ №№15-29-06086, 16-07-00616, 17-29-03297, 17-29-03370, 17-29-03514, 18-29-26022, 18-29-26035 и 19-29-09075. Кроме того, разработанные алгоритмы внедрены в продукты компаний ООО «Визиллект Сервис» и ООО «Смарт Энджинс Сервис».

Методология и методы исследования. В диссертации используются методы теории вероятностей, линейной алгебры, проективной геометрии, дифференциального и интегрального исчислений, выпуклого анализа.

Основные положения, выносимые на защиту:

1. Основанные на невязке координат критерии точности нормализации изображений - максимальная, среднеквадратичная и средняя невязки координат - обладают следующим набором свойств, которым не обладают другие известные критерии точности: не зависят от значений изображений, учитывают область интереса на изображении, не нарушают принципа модульности ПО и не декларируют идеальную точность в случае некорректной нормализации.

2. Максимальная и среднеквадратичная невязки координат в рамках соответственно равномерной и нормальной моделей оптического распознавания документов обладают тем свойством, что уменьшение их значений влечёт монотонное возрастание вероятности верного распознавания всего документа по нормализованному изображению.

3. Полученные для случая проективной нормализации аналитические выражения максимальной и среднеквадратичной невязки координат обеспечивают их точное и быстрое вычисление.

4. Разработанный алгоритм поиска оптимальной по точности аффинной аппроксимации проективной нормализации позволяет ускорить процедуру проективной нормализации изображений за счёт контролируемой потери точности.

Достоверность аналитических результатов работы обеспечена их формальным выводом, подтверждена результатами численного моделирования, а также продемонстрированной стабильностью работы индустриальных систем, в которые внедрены предложенные методы. Полученные результаты согласуются с результатами, полученными другими исследователями.

Апробация работы. Основные результаты работы докладывались на:

— IV Международной конференции и молодёжной школе «Информационные технологии и нанотехнологии», Самара, 2018,

— международном научно-исследовательском семинаре «Анализ и понимание изображений (математические, когнитивные и прикладные проблемы анализа изображений и сигналов)», ВЦ РАН, Москва, 2018,

— X Традиционной молодежной школе «Управление, информация и оптимизация», Вороново, 2018,

— конференции «Информационные технологии и системы», Казань, 2018,

— конференции «Информационные технологии и системы», Пермь, 2019,

— симпозиуме «25th Symposium of the International Colour Vision Society», Рига, 2019,

— семинаре отдела Математического моделирования экономических систем ВЦ РАН, Москва, 2019,

— конференции «The 13th International Conference on Machine Vision», Рим (онлайн), 2020,

— открытом совместном семинаре лабораторий №2 и №11 ИППИ РАН, Москва,

Личный вклад. Все основные результаты диссертации получены автором самостоятельно. Постановка задач и формализация результатов проводились совместно с научным руководителем.

Публикации. Основные результаты по теме диссертации изложены в 10 печатных изданиях, 5 из которых изданы в журналах, рекомендованных ВАК, 4 —в периодических научных журналах, индексируемых Web of Science и Scopus, 1—в сборниках трудов конференций.

Объем и структура работы. Диссертация состоит из введения, 5 глав, заключения и 2 приложений. Полный объём диссертации составляет 136 страниц, включая 35 рисунков и 0 таблиц. Список литературы содержит 0 наименований.

Глава 1. Теоретические основания и практические приложения

нормализации изображений

1.1 Нормализация изображений

Изображения одного и того же объекта могут существенно различаться при различных условиях его съёмки. Например, изображения могут существенно отличаться при использовании изображающих оптических систем (далее - камер) различных спектральных диапазонов [1] (см. рис. 1.1) Однако при

Рисунок 1.1 — Изображения одного и того же участка земной поверхности, сделанные в радио (слева) и оптическом (справа) диапазонах. Изображения

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Критерии и алгоритмы вычисления точности проективной нормализации изображений»

взяты из работы [2].

использовании разных камер совпадающего спектрального диапазона изображения могут отличаться и из-за различий в их спектрах чувствительности (см. рис. 1.2). Изображения могут отличаться также при использовании одной и той же камеры при различных её настройках. При использовании одной и той же камеры с неизменными настройками принципиальное влияние на получаемое изображение оказывают освещение (см. рис. 1.3 и 1.4), ракурс съёмки (см. рис. 1.5) и оптические свойства среды (см. рис. 1.6). Космические снимки объектов на земной поверхности существенно зависят от времени года [3].

Рисунок 1.2 — Изображения одного и того же документа, полученные различными камерами.

Рисунок 1.3 — Изображения одной и той же цветовой таблицы, полученные фотоаппаратом Canon 5D Mark III с неизменными настройками, но при различном освещении. Визуально демонстрируется явление метамерии окрасок: цвета различных областей цветовой таблицы совпадают или различаются в зависимости от освещения. Изображения взяты из датасета MLSDCR (Multiple Light Source

Dataset for Colour Research) [4].

Зависимость изображений от условий их съёмки значительно усложняет их анализ. Поэтому в случае контролируемых условий съемки они, как правило, выбираются удобными для последующего анализа формируемого изображения (например, для формирования изображений документов обычно используется сканер): такие условия съемки принято называть нормальными. Для плоского объекта важным пунктом нормальных условий съёмки обычно является нор-

Рисунок 1.4 — Изображения одной и той же банкноты под видимым (слева) и под ультрафиолетовым (справа) освещением, где выделяется яркая флюоресцирующая область.

мальность (ортогональность) оптической оси камеры к плоскости объекта [5; 6]. В случае же неконтролируемых условий съемки появляется потребность решения задачи нормализации, то есть преобразования изображения к такому виду, как если бы оно было получено при нормальных условиях съемки (примеры см. на рис. 1.5 и 1.6). Преобразованное таким образом исходное (входное) изображение принято называть нормализованным изображением (см. формулы (1.2) и (1.3)) [7; 8], а воображаемую камеру, с которой оно могло бы быть получено, - виртуальной камерой [6].

Чаще всего в литературе рассматривается один из двух частных случаев нормализации изображений. Для удобного их описания будем рассматривать изображение I, как функцию:

I: D ^ V, (1.1)

где D С R2 - область определения изображения, V -область его значений. Тогда в первом случае нормализация осуществляется преобразованием в пространстве аргументов изображений (см. рис. 1.5):

/norm (Hg (r)) = /input (r), Г G DinpUt, (1.2)

а во втором - в пространстве значений изображений (см. рис. 1.6):

/norm (r) = Hc (/input(r)), Г G norm (1.3)

Такие типы нормализации будем называть геометрической [9—12] и цветовой нормализациями [13—16] соответственно. Заметим, что формул (1.2) и (1.3), вообще говоря, может оказаться недостаточно, чтобы задать /norm в каждой точке Dnorm. Например, на рисунке 1.5 г) неопределённая формулой (1.2) область изображения /norm показана клеточками.

а)

Рисунок 1.5 — Изображения одного и того же документа. Изображения а), б) и в) получены при различных ракурсах съёмки. Изображение г) - результат геометрической нормализации изображения б) в предположении, что ракурс съёмки изображения в) принят в качестве нормального условия съёмки.

а

^^^^^^^ б) в)

Рисунок 1.6 — Изображения одного и того же объекта. Изображение а) получено в воздушной среде, б) - в водной, в) - результат цветовой нормализации изображения б) в предположении, что воздушная среда принята в качестве нормального условия съёмки. Изображения взяты из работы [17].

Началом активных исследований по теме геометрической нормализации изображений можно считать работу [18] Д. Хаттенлохера 1993 года. Термин

normalization в соответствующем контексте впервые был использован в статье

[19] Э. Блейка 1994 года, но в англоязычных работах широкого распространения не получил. В отечественной научной литературе термин нормализация в соответствующем смысле впервые использовался В.А. Гороховатским в работе

[20] 1997 года и в настоящее время общепринят [10; 21—26]. Термин colour image normalization был впервые использован в 1998 году Г. Финлейсоном в его работе [27]. Однако соответствующие исследования начались значительно раньше, примером чему является фундаментальная работа Г. Хили [28] 1989 года.

Если нормальные условия съёмки единственны, то нормализация является идемпотентной операцией: двукратное применение нормализации к изображению имеет тот же результат, что и однократное [27; 29]. Если же нормальные условия съёмки не единственны [7; 30], то разумно потребовать идемпотентность дополнительно. Тогда нормализация не изменит изображение, изначально сделанное при нормальных условиях съёмки. Именно идемпотентность объединяет операцию нормализации изображений с операцией нормализации векторов (приведением их к единичной длине).

Изображения, полученные при произвольных условиях съёмки, часто рассматриваются как результат искажения «воображаемых» (гипотетических) изображений, полученных при нормальных условиях съёмки. Нормализация в таком случае понимается как устранение (коррекция, компенсация) этих искажений [6; 31—33].

Нормализация изображений обычно опирается на некоторую модель объекта съёмки. Например, такой моделью может быть так называемое эталонное изображение [7; 23] - изображение аналогичного объекта, полученное при нормальных условиях съёмки. В описываемом случае геометрическая нормализация изображения может рассматриваться как операция его совмещения (image registration [34]) с эталонным изображением.

Нормализация повсеместно используется в качестве предварительной обработки изображений для упрощения их дальнейшего анализа. Например, Б. Бальцопулос применял нормализацию для анализа медицинских изображений [31], Т. Фурон - для классификации типов документов [35], а Ф. Перес-Гонсалес - для распознавания текста документов [5], К.В. Мурыгин - для распознавания автомобильных номеров [7], Ю.В. Визильтер - для детекции и идентификации лиц [36], К. Оррите привлекал нормализацию для поиска похожих изображений в базах данных [37], В.В. Арлазаров - для идентификации телевизионных

передач на экране телевизора [38], В.В. Еремеев - для сопоставления космических изображений Земли с электронными картами [24]. Помимо этого, Г. Легге было показано, что нормализация изображений применима для облегчения их визуального восприятия человеком [39].

1.2 Критерии точности нормализации изображений

Рассмотрим описанные в литературе интерфейсы алгоритмов геометрической нормализации изображений. На вход подаётся подлежащее нормализации (входное) изображение /input. Помимо него, в той или иной форме на вход могут подаваться априорная информация о целевом объекте и сведения о том, какие условия съёмки считаются нормальными. Кроме того, некоторые алгоритмы нормализации используют независимые данные об условиях съёмки, например об освещении и ракурсе [6; 32; 40; 41]. Возвращает алгоритм нормализации алгоритмически нормализующее преобразование H (или его параметры) - преобразование координат пикселей, применение которого к входному изображению /input даёт алгоритмически нормализованное изображение /alg (подробнее см. в разделе 1.1). При этом само преобразование изображения либо не производится вовсе (когда достаточно знать параметры преобразования), либо ввиду своей нетривиальности отдаётся на реализацию специально предназначенным для этого алгоритмам. Дополнительно может возвращаться оценка определённых условий съёмки.

От алгоритмов нормализации обычно не требуется точной работы. Для того, чтобы формализовать точность алгоритмически нормализующего преобразования H, экспертно задаётся идеально нормализующее преобразование H (ground truth). Тогда преобразование H может рассматриваться как оценка преобразования H. Изображение, получаемое в результате применения H к входному изображению /input, назовём идеально нормализованным изображением ^deai (см. пример на рис. 1.7). Естественно, что нормализация тем точнее, чем ближе преобразование H к преобразованию H или чем ближе изображение /aig к изображению /ideai. Однако формализовать такую близость можно множеством разумных неэквивалентных способов: точность геометрической нормализации по своей природе многокритериальна. В литературе предложено большое коли-

чество критериев точности нормализации. Прежде чем рассмотреть их, введём

необходимые обозначения.

г -| т

Через г = х у обозначим декартовы координаты пикселей на плоскости изображения /¿аы, через q - декартовы координаты пикселей на плоскости изображения Iа1ё и определим остаточное искажение

V = НН-1, (1.4)

для каждой видимой точки целевого объекта переводящее координаты г её образа на изображении /¿аеа1 в координаты q её образа на изображении 1а\ё:

q ^(г). (1.5)

В случае точной работы алгоритма нормализации остаточное искажение V -тождественное преобразование. Введём также невязку координат остаточного искажения [42] (см. пример на рис. 1.8)

а(г) = ||г - V(г)||2, (1.6)

для каждой видимой точки целевого объекта показывающую расстояние, на которое её образ на изображении /а1ё оказался смещён относительно образа этой же точки на изображении /¿аеа1.

В ряде случаев самими нормальными условиями съёмки определено, какая область изображения /¿аеа1 представляет интерес (например, содержит образ целевого объекта). Назовём её областью интереса и обозначим

Я С Виеа!, (1.7)

где ©!аеа1 - область определения изображения /¿аеа1 (см. (1.1)). Если задать Я затруднительно, то можно принять Я = 0^аеа1. Область интереса Я показывает, где именно на плоскости изображения /[аеа1 от нормализации Н требуется быть точной. Случай пустой области интереса рассматривать не будем. Так как область определения изображения ©!аеа1 всегда ограничена, то ограничена и область интереса Я. Множества Я и ©!аеа1 будем считать замкнутыми, так как фактического значения это в данном случае не имеет, но математически удобно. Выпуклости и связности области интереса Я требовать не будем, так как такие ограничения неадекватны практическим потребностям. Образ области интереса Я на плоскости изображения /а1ё обозначим Q V[R] ^(г): г Е Я}. В идеале Q = Я.

Далее в диссертации для краткости будем использовать обозначения вида

max f == max f(x),

X xGX

sup f == sup f(x) == sup {f(x): x £ X}, x xei

причём supf будем называть супремумом функции f на множестве X. х

(1.8)

Рисунок 1.7 — Пример нормализации изображения и его последующего анализа. H - идеально нормализующее преобразование, H - алгоритмически нормализующее преобразование, V - остаточное искажение, Iinput - подлежащее нормализации изображение, Iideai - идеально нормализованное изображение, iaig - алгоритмически нормализованное изображение, внизу слева - результат (протокол) анализа изображения Ialg, R - область интереса, Q - образ области

интереса R на плоскости изображения /aig.

Теперь перейдём непосредственно к обзору предложенных в литературе критериев точности геометрической нормализации изображений. В работах [11; 12; 43] предлагается оценивать точность нормализации визуально. Формальные же критерии можно разделить на три группы: внутрисистемные, цветовые и геометрические. Ниже рассмотрим три группы отдельно.

Рисунок 1.8 — Пример невязки координат ^ Слева: алгоритмически нормализованное изображение , чёрной рамкой ограничена область интереса Л. Справа: векторное поле смещений остаточного искажения У(г) — г, цветом показаны значения невязки координат ^г) = ||У(г) — г||2.

1.2.1 Внутрисистемные критерии

Выше было показано, что нормализация применяется как этап предобработки изображений при решении разнообразных задач их анализа. Соответственно, существует подход, при котором точность нормализации определяется как качество решения задачи, в которой она применяется. Например, в работах [44—48] критерием точности нормализации изображения документа выбрано качество распознавания текста на алгоритмически нормализованном изображении /а}ё; в [27; 35] - качество распознавания объектов съёмки; а в [38] - доля верно идентифицированных телевизионных передач. Так как такие критерии точности определяются исключительно в рамках некоторой системы анализа изображений и системы её тестирования, будем называть их внутрисистемными. Зависят они только от одного либо от множества изображений 1а\ё.

Внутрисистемные критерии точности, несомненно, полезны, так как улучшение алгоритма нормализации в смысле внутрисистемного критерия по определению означает повышение качества решения конечной задачи анализа изображений, причём именно в том смысле, в котором это качество задано. Однако предложенные в литературе критерии не ограничиваются только внутрисистемными. Причина этого заключается в нарушении принципа модульности программного обеспечения (ПО), который требует, чтобы разработка (а значит и тестирование) модулей велась независимо. В результате этого на-

рушения возникают следующие предсказуемые проблемы. Система анализа изображений и/или система её тестирования к моменту разработки алгоритма нормализации может ещё отсутствовать. Если же обе эти системы уже существуют, то, как правило, находятся в процессе постоянного изменения, поэтому внутрисистемные критерии точности нормализации также непостоянны. Кроме того, они математически не формализованы, трудно поддаются анализу, затрудняют отладку ПО, не подразумевают универсальности алгоритмов нормализации. В работе [12] внутрисистемные критерии названы некорректными. Существует и противоположной подход, при котором считается, что система анализа изображений должна быть такой, чтобы качество её работы на нормализованных изображениях хорошо коррелировало с каким-либо простым фиксированным критерием точности нормализации этих изображений.

1.2.2 Цветовые критерии

Цветовыми критериями точности геометрической нормализации мы будем называть критерии, которые обязательно зависят от обоих изображений /а^ и /¿¿еа 1, и могут зависеть от области интереса Я и её образа Q. Например, в статьях [49—52] в качестве точности нормализации одноканальных изображений используется среднеквадратичная поточечная разность значений этих изображений на области интереса Я (см. рис. 1.9):

(/alg, ^ideai; R) =

\

12

(4lg (r) - /ideal(r))2 dr, (1.9)

s(R) J

R

где S(R) - площадь области интереса R; в работах [15; 33] - пиковое отношение сигнал-шум (PSNR):

PSNR(/alg, /ideal; R) = 20 logio [WWalg,/ideal; #)] , (1.10)

где /max - максимально возможное значение изображения (как правило, /max = 255); а в работе [15] - индекс структурного сходства:

SSTM( Т Т ; R) =f + Ci)(2ffai + ¿2) (111)

SSIM(Jalg, J ideal; К) = —^-^- -^--, (1.11)

« (^2 + Ц? + ¿OK + + С2)

¡¡ШЩ Jl^lM

у - ч f> ,vv

J*.'"

У -'i ^

Рисунок 1.9 — Одноканальные изображения /ideal, /alg и модуль их разницы |/alg — /ideal|. Изображения взяты из работы [52].

где

def Ца =

5 (R)

/alg (r)dr,

2 def

def 1

Ц =

5 (R)

R

J /ideal(r)rfr, a2d=f

5 (R)

R

^ai =

R

def 1

S (R)

(/alg(r) — Ц-a)2 dr,

(/ideal(r) — Ц-i)2 dr,

R

(1.12)

5 (R)

(/alg(r) — Ца) (/ideal(r) — Ц-i) dr,

R

С1 = (^1/шах)2, С2 = (^2/шах)2, ¿1 =0.01, = 0.03.

Для одноканальных изображений используется также метрика Васерштейна [53—55], называемая неформально метрикой землекопа:

Wp (/alg, /ideal; Q, R) = inf

ТбГ(ц^)

/ ||q — r||2 dy(q,r)

JQxR

1/p

(1.13)

где

,x) = fx 7alg (q)^q So Jalg (q)^q,

v(X ) =

Jx /ideal (r)rfr

X С Q,

КД

(1.14)

fR /ideal (r)rfr '

- распределения значений изображений /alg и /ideal, а Г(ц, v) - множество всех мер по Q х R с маргинальными мерами ц и v. Интерпретировать Wp в данном случае можно следующим образом. Если меры ц и v понимать как распределения грунта, то метрика Васерштейна Wp определяет минимальную стоимость преобразования одного распределения грунта в другое, при этом предполагается, что стоимость пропорциональна количеству грунта и взятому в степени р расстоянию, на которое его надо переместить.

1

1

1

Важным частным случаем геометрической нормализации является компенсация дисторсии камеры. В случае отсутствия дисторсии прямые линии сцены на изображении также являются прямыми. Поэтому для описания точности компенсация дисторсии используются критерии, детектирующие наличие прямых линий на изображении [42].

Основное свойство цветовых критериев точности геометрической нормализации следующее: даже при фиксированных преобразованиях Н, Н и области интереса Я, то есть когда в геометрическом смысле нормализация произведена одинаково точно, значение любого цветового критерия изменяется в зависимости от изображений 1а1ё и /¿¿еа1.

1.2.3 Геометрические критерии

Геометрическими критериями точности нормализации мы будем называть критерии, зависящие только от преобразований Н и Н, или от их параметров, и от области интереса Я, а вместе с ними и от производных математических объектов: Q, V, ^ От изображений (/тр^, и /¿¿еа1) они не зависят. Геометрические критерии точности естественны для геометрической нормализации и чаще других встречаются в литературе. Перечислим их ниже.

1. Близость параметров, задающих преобразования Н и Н. Например, в работе [20] точность нормализации аффинным преобразованием, заданным матрицей А = (а^) £ К2х3, рассчитывалась следующим образом:

2 3

E*aAA,A) = ^Y, ^Т*1, (1.15)

•1-1 1 г=1 j=1 J

а в работе [51], где нормализация производилась проективным преобразованием, заданным матрицей гомографии Н = (^^) £ К

3x3.

£proj(#,Н) = ||Я - Н||F, (1.16)

при следующей нормировке однородности: h33 = h33 = 1, где || • -норма Фробениуса. 2. Коэффициент Жаккара (Intersection over Union) [56], равный площади пересечения множеств Q и R, отнесенной к площади их объединения

(см. рис. 1.10):

к (п m — S (Q П (1 17)

к3важЛ . (1.17)

Он использовался, например, на конкурсе «Smartphone document

Рисунок 1.10 — Иллюстрация к определению коэффициента Жаккара: пересечение и объединение множеств Q и R.

capture» конференции ICDAR [57]. В работе [58] предложена его более подходящая для оптимизации модификация. 3. Метрика Хаусдорфа, равная наибольшему расстоянию от точек одного множества до соответствующих им ближайших точек второго множества (см. рис. 1.11):

dH(Q, R) == max{sup inf ||q - r||2, sup inf ||r - q||2} (1.18)

qeQ reR reR q^Q

Метрика Хаусдорфа использовалась для детекции произвольных объ-

kpx = sup inf ||q - r||2

qeQ ^

>> 1 1

R

Q * * /

/N ' N :

p2 = sup inf ||r-q||2\

reR

4 /

R) = maxjpi, p2}

Рисунок 1.11 — Метрика Хаусдорфа dn (Q, R) между множествами Q и R.

ектов [59], для выравнивания частично заслоненных контуров [37], для

робастной детекции лиц [60], для вычисления близости двух изображений [18]. В работах [61; 62] опубликованы её модификации.

4. В случае, когда вместо множеств и Я рассматриваются две непрерывные кривые: (^,Я: [0,1] ^ К2, используется родственное метрике Хаусдорфа расстояние Фреше:

^((^,Я) = 1п£ тах \\д(а(г)), Д(ВД)\\2,

а,Ъ ¿€[0,1]

(1.19)

где а,Ь: [0,1] ^ [0,1] - непрерывные неубывающие сюръекции (репа-раметризация). Этот критерий использовался для задания точности морфинга [63] и близости двух контуров после проективного выравнивания [64].

5. Среднеквадратичная невязка координат ^

«V; Д)

\ 1\

1

Я (Я)

d2(r)dr для 0 < 5(Я) < то,

д

(1.20)

|Я|

^^2(г) для 0 < |Л| < то

г€ Д

использовалась как критерий точности нормализации в задачах устранения дисторсии камеры [65], создания панорам [9; 50; 66], совмещения космических снимков [24; 67], анализа медицинских изображений [31], распознавания текста [68].

6. Известно также использование средней невязки координат d [42; 69]:

1

я) = <

5 (Я)

d(r)dr для 0 < 5(Я) < то,

1

щ

д

^^(г) для 0 < 1Щ < то.

(1.21)

г€Д

7. Наконец, максимальная невязка координат d (минимаксный критерий), которая в общем случае определяется как следующий супремум:

Ьто^; Я) = supd(r).

ге Д

(1.22)

Максимальная невязка координат использовалась как критерий точности нормализации в задачах привязки космических снимков [67], детекции лиц [60], распознавания текста [69; 70].

1

В случае проективной нормализации в некоторых работах [69; 70] критерий (1.22) применялся нестандартным образом. Вместо всей области интереса R в нём использовались только крайние точки (extreme points, см. определение 5 приложения А) её выпуклой оболочки E(Conv(^)):

def

LTO(V; R) = sup d.

E(Conv(fi))

(1.23)

Авторы предполагали верность равенства ЬR) = R).

Однако это допущение справедливо далеко не всегда. Рассмотрим контрпример (см. рис. 1.12). Пусть

V(r) =

1

-х + 2у + 4

-2ж + 10

а область интереса - прямоугольник R E(Conv(^)) =

, d(r) = ||r - V(r) Ц2, (1.24) = [0,4] x [0,1], тогда:

0 4 4 0

0 0 1 1

значит:

LTO(V; R) = sup d = 0.4 <

E(Conv(i?)) 2 1

^ л

< — = d

3

^ supd = LTO(V; R)

)

eR \ ^

(1.25)

R

LTO(V; R) < LTO(V; R).

Интересно отметить, что все перечисленные геометрические критерии точности зависят от Н и Н только через остаточное искажение V = НН-1 (1.4) и производную от неё невязку координат d (1.6). Поэтому точность оценки Н преобразования Н можно понимать как близость остаточного искажения V к тождественному преобразованию.

Перейдём теперь к анализу перечисленных геометрических критериев. Критерии, основанные на близости параметров, задающих преобразования Н и Н, для описания точности нормализации заведомо малоосмыслены, так как не зависят от области интереса R, которая показывает, где именно на плоскости изображения ^еа! нормализация должна быть точна, а где - нет. Коэффициент Жаккара, метрика Хаусдорфа и расстояние Фреше этого недостатка лишены, но имеют, как критерии точности нормализации, другой общий недостаток. Они

v/17

О 0.5 1 1.5 2 2.5 3 3.5 4

х

Рисунок 1.12 — Контрпример к утверждению о том, что супремум невязки координат двумерного проективного преобразования на замкнутом ограниченном множестве достигается обязательно на крайних точках его выпуклой оболочки. В качестве множества выбран прямоугольник Я (показан зелёным), тогда крайние точки его выпуклой оболочки есть его вершины. Проективное преобразование переводит Я в трапецию Q (показана красным). Длины пунктирных линий соответствуют невязкам координат. Видно, что невязка координат на вершинах прямоугольника меньше, чем на середине его ребра.

задают только сходство множеств и Л, в то время как произвольные искажения внутри множества Q не оказывают на них влияния. Например, на рис. 1.13 приведены два примера нормализации изображения документа, корректный и некорректный, которые имеют идеальную точность в смысле каждого из трёх вышеупомянутых критериев. Средняя, среднеквадратичная и максимальная невязки координат не имеют очевидных недостатков по сравнению с другими вышеперечисленными критериями.

Рисунок 1.13 — Два примера нормализации изображения документа (слева -корректный, справа - некорректный), которые имеют идеальную точность в смысле коэффициента Жаккара, метрики Хаусдорфа и расстояния Фреше.

1.3 Проективная нормализация изображений и критерии точности

1.3.1 Теоретическое обоснование проективной нормализация

изображений

Для реализации геометрической нормализации изображений используются следующие классы преобразований: изометрия [7; 18; 25], аффинные [20; 21; 29], полиномиальные [24], дробно-полиномиальные [11], радиально-полиноми-альные (для компенсации дисторсии камеры) [42], центрально-проективные [5; 6; 71], проективные [44; 69; 72—74] и произвольные [12; 60].

Геометрия объектов съёмки часто моделируется многогранниками (в этом случае аппроксимацию их 3Э формы принято называть полиэдральной), а оптическая система её регистрации - камерой-обскурой (тогда законы геометрической оптики упрощаются до плоской центральной проекции) [75]. При таких модельных предположениях изображения одной и той же грани объекта, полученные с различных ракурсов, оказываются связаны между собой двумерным проективным преобразованием [76; 77] (см. рис. 1.14 и 1.15), вследствие чего идеально нормализующее преобразование Н изображения этой грани является проективным, а алгоритмически нормализующее преобразование Н проективным выбирается. Так как преобразования Н и Н - проективные, остаточное

искажение V = НИ-1 также проективно. Такую геометрическую нормализацию будем именовать проективной.

Проективное преобразование сохраняет прямые прямыми. На рисунках 1.14 и 1.15 это выражается в том, что изображения прямых линий сцены также остаются прямыми.

Рисунок 1.14 — Формирование изображения плоского прямоугольного объекта в камере-обскуре. Вверху - изображение I как плоская центральная проекция объекта: О - оптический центр камеры, У1 и У2 - точки схода образов противоположных сторон объекта. Внизу - сформированное изображение I. Объект связан со своим изображением проективным преобразованием.

Рисунок 1.15 — Реальное изображение, полученное камерой, которая с высокой точностью моделируется камерой-обскурой. Плоские грани сцены связаны со своими изображениями проективными преобразованиями.

1.3.2 Критерии точности проективной нормализация изображений

Все описанные в разделе 1.2 критерии универсальны, а значит применимы и для описания точности проективной нормализации. Однако для случая проективной нормализации в литературе предложены и свои специальные критерии. Все они предполагают, что область интереса Я - прямоугольник. Тогда её образ Q - четырёхугольник. Например, в работе [32] в качестве критерия точности предложен угол между левой и правой сторонами четырёхугольника а^) (см. рис. 1.16), в статье [6] - отношение минимального и максимального углов четырёхугольника Q (см. рис. 1.17):

Е = оНт!, (126)

атах ( ^ )

в работе [48] избрана суммарная относительная близость длин противополож-

Рисунок 1.16 — Угол между левой и правой сторонами четырёхугольника Q.

Рисунок 1.17 — Минимальный и максимальный углы четырёхугольника Q.

ных сторон О:

жо) = ^ +|ь - ^

(1.27)

а + с ' Ь + d

В статьях [5; 71] точность нормализации определяется как точность оценки алгоритмом нормализации соотношения сторон прямоугольника Я. Все перечисленные тут критерии инвариантны к преобразованию подобия.

Рассмотрим вопрос об аналитическом выражении вышеописанных критериев точности нормализации. Для произвольных нормализующих преобразований Н и Н и области интереса Я их можно лишь оценивать численно. Более того, оказывается, что даже для широко используемого случая, когда Н и Н - проективны, а Я - прямоугольная область, неизвестны аналитические выражения для средней , среднеквадратичной Ь2 и максимальной Ь^ невязок координат, вследствие чего неизвестны и точные алгоритмы их вычисления.

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Список литературы диссертационного исследования кандидат наук Коноваленко Иван Андреевич, 2021 год

Список литературы

1. Fusion of Images of Different Spectra Based on Generative Adversarial Networks / Y. V. Vizil'ter [и др.] // Journal of Computer and Systems Sciences International. — 2019. — т. 58, № 3. — с. 441—453.

2. Абулханов, Д. А. Обучение нейросетевых дескрипторов особых точек для сопоставления радиолокационных и оптических изображений / Д. А. Абулханов, Д. С. Сидорчук, И. А. Коноваленко // Сенсорные системы. — 2018. — т. 32, № 3. — с. 222—229. — DOI: 10.1134/S0235009218030034.

3. Change detection in remote sensing images using conditional adversarial networks / M. Lebedev [и др.] // International Archives of the Photogrammetry, Remote Sensing & Spatial Information Sciences. — 2018. — т. 42, № 2. — с. 565—571.

4. Smagina, A. Multiple light source dataset for colour research / A. Smagina, E. Ershov, A. Grigoryev // Proc. SPIE 11433, Twelfth International Conference on Machine Vision (ICMV 2019). т. 11433. — 2020. — с. 635—642.

5. A new method for perspective correction of document images / J. Rodriguez-Pineiro [и др.] // Document Recognition and Retrieval XVIII. т. 787410. — International Society for Optics, Photonics. 2011. — с. 1—12.

6. Холопов, И. С. Алгоритм коррекции проективных искажений при маловысотной съёмке / И. С. Холопов // Компьютерная оптика. — 2017. — т. 41, № 2. — с. 284—290.

7. Мурыгин, К. В. Нормализация изображения автомобильного номера и сегментация символов для последующего распознавания / К. В. Мурыгин // Штучний штелект. — 2010. — № 3. — с. 364—369.

8. Визильтер, Ю. В. Одноэтапный детектор лиц и особых точек на цифровых изображениях / Ю. В. Визильтер, В. С. Горбацевич, А. С. Мо-исеенко // Компьютерная оптика. — 2020. — т. 44, № 4. — с. 589—595.

9. Scalable alignment of large-format multi-projector displays using camera homography trees / H. Chen [и др.] // Proceedings of the conference on Visualization'02. — IEEE Computer Society. 2002. — с. 339—346.

10. Чехлов, Д. О. Нормализация изображений относительно перспективного преобразования на основе геометрических параметров / Д. О. Чехлов,

C. В. Абламейко // Информатика. — 2004. — № 3. — с. 67—76.

11. Rational polynomial modelling for cartosat-1 data / S. K. Singh [и др.] // The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. — 2008. — т. 37. — с. 885—888.

12. Zeynalov, R. Восстановление формы страницы текста для коррекции геометрических искажений / R. Zeynalov, A. Velizhev, A. Konushin // Proc. of the 19 International Conference GraphiCon-2009, Moscow, Russia. — 2009. — с. 125—128.

13. Finlayson, G. D. Color constancy under varying illumination /

G. D. Finlayson, B. V. Funt, K. Barnard // Proceedings of IEEE International Conference on Computer Vision. — 1995. — с. 720—725.

14. Automated color normalization for dermoscopy images / H. Iyatomi [и др.] // 2010 IEEE International Conference on Image Processing. — IEEE. 2010. — с. 4357—4360.

15. 3D color homography model for photo-realistic color transfer re-coding /

H. Gong [и др.] // The Visual Computer. — 2019. — т. 35, № 3. — с. 323—333.

16. Kordecki, A. Practical testing of irradiance-independent camera color calibration / A. Kordecki // Proc. SPIE 11041, Eleventh International Conference on Machine Vision (ICMV 2018). т. 11041. — 2019. — с. 340—345.

17. Моделирование дробового шума цветных подводных изображений / Д. А. Шепелев [и др.] // Компьютерная оптика. — 2020. — т. 44, № 4. — с. 671—679. — DOI: 10.18287/2412-6179-C0-754.

18. Huttenlocher, D. P. Comparing images using the Hausdorff distance /

D. P. Huttenlocher, G. A. Klanderman, W. J. Rucklidge // IEEE Transactions on pattern analysis and machine intelligence. — 1993. — т. 15, № 9. — с. 850—863.

19. Sinclair, D. Isoperimetric normalization of planar curves / D. Sinclair, A. Blake // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 1994. — т. 16, № 8. — с. 769—777.

20. Трипутень, В. В. Алгоритм параллельной нормализации аффинных преобразований для цветных изображений / В. В. Трипутень, В. А. Го-роховатский // Радиоэлектроника и информатика. — 1997. — № 1. — с. 97—98.

21. Путятин, Е. П. Вопросы нормализации изображений при проективных преобразованиях / Е. П. Путятин, Д. О. Прокопенко, Е. М. Печеная // Радиоэлектроника и информатика. — 1998. — т. 2, № 3. — с. 82—86.

22. Любченко, В. А. Математические модели разложения проективных преобразований в задачах нормализации / В. А. Любченко, Е. П. Путятин // Радиоэлектроника и информатика. — 2002. — 2 (19). — с. 57—59.

23. Ваничев, А. Ю. Нормализация силуэтов объектов в системах технического зрения / А. Ю. Ваничев // Программные продукты и системы. — 2007. — № 3. — с. 86—88.

24. Егошкин, Н. А. Нормализация космических изображений Земли на основе их сопоставления с электронными картами / Н. А. Егошкин, В. В. Еремеев, Е. П. Козлов // Цифровая обработка сигналов. — 2009. — № 3. — с. 21—26.

25. Болотова, Ю. А. Обзор алгоритмов детектирования текстовых областей на изображениях и видеозаписях / Ю. А. Болотова, В. Г. Спицын, П. М. Осина // Компьютерная оптика. — 2017. — т. 41, № 3. — с. 441—452.

26. Компаративная фильтрация изображений с использованием монотонных морфологических операторов / А. Ю. Рубис [и др.] // Компьютерная оптика. — 2018. — т. 42, № 2. — с. 126—127.

27. Finlayson, G. D. Comprehensive colour image normalization / G. D. Finlayson, B. Schiele, J. L. Crowley // European conference on computer vision. — Springer. 1998. — с. 475—490.

28. Healey, G. Using color for geometry-insensitive segmentation / G. Healey // JOSA A. — 1989. — т. 6, № 6. — с. 920—937.

29. Nikolaidis, A. Affine transformation invariant image watermarking using moment normalization and radial symmetry transform / A. Nikolaidis // 2011 18th IEEE International Conference on Image Processing. — IEEE. 2011. — с. 2729—2732.

30. Николаев, П. П. Проективно инвариантное описание овалов с симметри-ями трех родов / П. П. Николаев // Вестник РФФИ. — 2016. — № 4. — с. 38—54. — D0I: 10.22204/2410-4639-2016-092-04-38-54.

31. Baltzopoulos, V. A videofluoroscopy method for optical distortion correction and measurement of knee-joint kinematics / V. Baltzopoulos // Clinical Biomechanics. — 1995. — т. 10, № 2. — с. 85—92.

32. Calore, E. Accelerometer based horizon and keystone perspective correction / E. Calore, F. Pedersini, I. Frosio // Instrumentation and Measurement Technology Conference (I2MTC), 2012 IEEE International. — IEEE. 2012. — с. 205—209.

33. Цветков, В. Геометрические модели многоракурсных изображений и проективная компенсация движения камеры / В. Цветков // Доклады Белорусского государственного университета информатики и радиоэлектроники. — 2014. — т. 86, № 8. — с. 41—47.

34. Goshtasby, A. A. 2-D and 3-D image registration: for medical, remote sensing, and industrial applications / A. A. Goshtasby. — John Wiley & Sons, 2005.

35. Complex document classification and localization application on identity document images / A.-M. Awal [и др.] // IAPR 2017-International Conference on Document Analysis and Recognition. — 2017. — с. 427—431. — DOI: 10.1109/ICDAR.2017.77.

36. Идентификация лиц в реальном времени с использованием свёрточный нейронной сети и хэширующего леса / Ю. В. Визильтер [и др.] // Компьютерная оптика. — 2017. — т. 41, № 2. — с. 90—91.

37. Orrite, C. Shape matching of partially occluded curves invariant under projective transformation / C. Orrite, J. E. Herrero // Computer Vision and Image Understanding. — 2004. — т. 93, № 1. — с. 34—64.

38. Snapscreen: TV-stream frame search with projectively distorted and noisy query / N. S. Skoryukina [и др.] // ICMV 2016. т. 10341. — Bellingham, Washington 98227-0010 USA : SPIE, 07.2017. — 103410Y. — DOI: 10.1117/12.2268735.

39. Psychophysics of reading. I. Normal vision / G. E. Legge [и др.] // Vision research. — 1985. — т. 25, № 2. — с. 239—252.

40. Vision based speed breaker detection for autonomous vehicle / C. Arvind [и др.] // Tenth International Conference on Machine Vision (ICMV 2017). 106960E. — International Society for Optics, Photonics. 2018. — с. 1—9.

41. UAV Control on the Basis of 3D Landmark Bearing-Only Observations / S. Karpenko [и др.] // Sensors. — 2015. — т. 15, № 12. — с. 29802—29820. — DOI: 10.3390/s151229768.

42. Кунина, И. А. Слепая компенсация радиальной дисторсии на одиночном изображении с использованием быстрого преобразования Хафа / И. А. Кунина, С. А. Гладилин, Д. П. Николаев // Компьютерная оптика. — 2016. — т. 40, № 3. — с. 395—403. — DOI: 10.18287/24126179-2016-40-3-395-403.

43. Clark, A. Perspective correction for improved visual registration using natural features. / A. Clark, R. Green, R. Grant // Image and Vision Computing New Zealand, 2008. IVCNZ 2008. 23rd International Conference. — IEEE. 2008. — с. 1—6.

44. Fast perspective recovery of text in natural scenes / C. Merino-Gracia [и др.] // Image and Vision Computing. — 2013. — т. 31, № 10. — с. 714—724.

45. Lu, S. Perspective rectification of document images using fuzzy set and morphological operations / S. Lu, B. M. Chen, C. C. Ko // Image and Vision Computing. — 2005. — т. 23, № 5. — с. 541—553.

46. Zhang, W. Perspective correction method for Chinese document images / W. Zhang, X. Li, X. Ma // Intelligent Information Technology Application Workshops, 2008. IITAW'08. International Symposium on. — IEEE. 2008. — с. 467—470.

47. Tong, L. Correction of perspective text image based on gradient method / L. Tong, Y. Zhang // Information Networking and Automation (ICINA), 2010 International Conference on. т. 2. — IEEE. 2010. — с. 312—316.

48. Takezawa, Y. Camera-captured document image perspective distortion correction using vanishing point detection based on radon transform / Y. Takezawa, M. Hasegawa, S. Tabbone // Pattern Recognition (ICPR), 2016 23rd International Conference on. — IEEE. 2016. — с. 3968—3974.

49. Szeliski, R. Video mosaics for virtual environments / R. Szeliski // IEEE computer Graphics and Applications. — 1996. — т. 16, № 2. — с. 22—30.

50. Sawhney, H. S. True multi-image alignment and its application to mosaicing and lens distortion correction / H. S. Sawhney, R. Kumar // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 1999. — т. 21, № 3. — с. 235—243.

51. Calderon, F. An accurate image registration method using a projective transformation model / F. Calderon, L. Romero // Eighth Mexican International Conference on Current Trends in Computer Science (ENC 2007). — IEEE. 2007. — с. 58—64.

52. Гошин, Е. В. Двухэтапное формирование пространственного преобразования для совмещения изображений / Е. В. Гошин, А. П. Котов, В. А. Фурсов // Компьютерная оптика. — 2014. — т. 38, № 4. — с. 886—891.

53. Optimal mass transport for registration and warping / S. Haker [и др.] // International Journal of computer vision. — 2004. — т. 60, № 3. — с. 225—240.

54. Schmitzer, B. Globally optimal joint image segmentation and shape matching based on Wasserstein modes / B. Schmitzer, C. Schnorr // Journal of Mathematical Imaging and Vision. — 2015. — т. 52, № 3. — с. 436—458.

55. Shape classification using Wasserstein distance for brain morphometry analysis / Z. Su [и др.] // International Conference on Information Processing in Medical Imaging. — Springer. 2015. — с. 411—423.

56. Jaccard, P. Distribution de la flore alpine dans le bassin des Dranses et dans quelques regions voisines / P. Jaccard // Bull Soc Vaudoise Sci Nat. — 1901. — т. 37. — с. 241—272.

57. Segments Graph-Based Approach for Document Capture in a Smartphone Video Stream / A. E. Zhukovskiy [и др.] // ICDAR 2017. т. 1. — IEEE Computer Society, 2018. — с. 337—342. — DOI: 10.1109/ICDAR.2017.63.

58. Generalized intersection over union: A metric and a loss for bounding box regression / H. Rezatofighi [и др.] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2019. — с. 658—666.

59. Sim, D.-G. Object matching algorithms using robust Hausdorff distance measures / D.-G. Sim, O.-K. Kwon, R.-H. Park // IEEE Transactions on image processing. — 1999. — т. 8, № 3. — с. 425—429.

60. Jesorsky, O. Robust face detection using the hausdorff distance / O. Jesorsky, K. J. Kirchberg, R. W. Frischholz // International Conference on Audio-and Video-Based Biometric Person Authentication. — Springer. 2001. — с. 90—95.

61. Dubuisson, M.-P. A modified Hausdorff distance for object matching / M.-P. Dubuisson, A. K. Jain // Proceedings of 12th international conference on pattern recognition. т. 1. — IEEE. 1994. — с. 566—568.

62. Ефимов, А. И. Алгоритм поэтапного уточнения проективного преобразования для совмещения изображений / А. И. Ефимов, А. И. Новиков // Компьютерная оптика. — 2016. — т. 40, № 2. — с. 258—265. — DOI: 10.18287/2412-6179-2016-40-2-258-265.

63. New similarity measures between polylines with applications to morphing and polygon sweeping / S. Har-Peled [и др.] // Discrete & Computational Geometry. — 2002. — т. 28, № 4. — с. 535—569.

64. Comparison of Two Algorithms Modifications of Projective-Invariant Recognition of the Plane Boundaries with the One Concavity / N. Pritula [и др.] // ICMV 2014. т. 9445 / под ред. A. Verikas [и др.]. — SPIE, 02.2015. — с. 944508. — DOI: 10.1117/12.2181215.

65. Stein, G. P. Lens distortion calibration using point correspondences /

G. P. Stein // Computer Vision and Pattern Recognition, 1997. Proceedings., 1997 IEEE Computer Society Conference on. — IEEE. 1997. — с. 602—608.

66. Hsu, S. C. Influence of global constraints and lens distortion on pose and appearance recovery from a purely rotating camera / S. C. Hsu,

H. S. Sawhney // Applications of Computer Vision, 1998. WACV'98. Proceedings., Fourth IEEE Workshop on. — IEEE. 1998. — с. 154—159.

67. Катаманов, С. Автоматическая привязка изображений геостационарного спутника MTSAT-1R / С. Катаманов // Современные проблемы дистанционного зондирования Земли из космоса. — 2007. — т. 1, № 4. — с. 63—68.

68. Dance, C. R. Perspective estimation for document images / C. R. Dance // Document Recognition and Retrieval IX. т. 4670. — International Society for Optics, Photonics. 2001. — с. 244—255.

69. Шемякина, Ю. Исследование алгоритмов вычисления проективного преобразования в задаче наведения на планарный объект по особым точкам / Ю. Шемякина, А. Жуковский, И. Фараджев // Искусственный интеллект и принятие решений. — 2017. — т. 2017, № 1. — с. 43—49.

70. Document localization algorithms based on feature points and straight lines / N. Skoryukina [и др.] // ICMV 2017. — SPIE, 04.2018. — 106961H. — DOI: 10.1117/12.2311478.

71. Zhang, Z. Whiteboard scanning and image enhancement / Z. Zhang, L.-W. He // Digital signal processing. — 2007. — т. 17, № 2. — с. 414—432.

72. Document registration using projective geometry / R. Safari [и др.] // IEEE transactions on image processing. — 1997. — т. 6, № 9. — с. 1337—1341.

73. Rectifying perspective distortion into affine distortion using variants and invariants / M. Iwamura [и др.] // Proceedings of the Second International Workshop on Camera-Based Document Analysis and Recognition. — 2007. — с. 138—145.

74. Xie, Y. Geometry-based populated chessboard recognition / Y. Xie, G. Tang, W. Hoff // Tenth International Conference on Machine Vision (ICMV 2017). т. 1069603. — International Society for Optics, Photonics. 2018. — с. 1—5.

75. Forsyth, D. A. Computer vision: a modern approach / D. A. Forsyth, J. Ponce. — 2002.

76. Шемякина, Ю. А. Использование точек и прямых для вычисления проективного преобразования по двум изображениям плоского объекта / Ю. А. Шемякина // Информационные технологии и вычислительные системы. — 2017. — т. 2017, № 3. — с. 79—91.

77. Hartley, R. Multiple view geometry in computer vision / R. Hartley, A. Zisserman. — Cambridge university press, 2003.

78. Modelling the flow of character recognition results in video stream / V. V. Arlazarov [и др.] // Bulletin of the South Ural State University. Ser. Mathematical Modelling, Programming and Computer Software. — 2018. — т. 11, № 2. — с. 14—28.

79. Trusov, A. The analysis of projective transformation algorithms for image recognition on mobile devices / A. Trusov, E. Limonova // Twelfth International Conference on Machine Vision (ICMV 2019). т. 11433 / под ред. W. Osten, D. P. Nikolaev. — International Society for Optics, Photonics. SPIE, 2020. — с. 250—257. — DOI: 10.1117/12.2559732.

80. Wolberg, G. Digital Image Warping / G. Wolberg. — IEEE Computer Society Press, Los Alamitos, CA, 1990.

81. Gruen, A. Adaptive least squares correlation: a powerful image matching technique / A. Gruen // South African Journal of Photogrammetry, Remote Sensing and Cartography. — 1985. — т. 14, № 3. — с. 175—187.

82. Ohta, T.-I. Obtaining surface orientation from texels under perspective projection / T.-I. Ohta, K. Maenobu, T. Sakai // IJCAI. т. 81. — 1981. — с. 746—751.

83. Pavic, D. Interactive image completion with perspective correction / D. Pavic, V. Schonefeld, L. Kobbelt // The Visual Computer. — 2006. — т. 22, № 9—11. — с. 671—681.

84. Heckbert, P. S. Fundamentals of texture mapping and image warping / P. S. Heckbert // University of California, Berkeley. — 1989. — т. 2. — с. 3.

85. Lorenz, H. Real-time Piecewise Perspective Projections / H. Lorenz, J. Dollner // GRAPP. — 2009. — с. 147—155.

86. Huang, J.-B. Single image super-resolution from transformed self-exemplars / J.-B. Huang, A. Singh, N. Ahuja // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2015. — с. 5197—5206.

87. Alter, T. D. 3D pose from 3 corresponding points under weak-perspective projection : тех. отч. / T. D. Alter ; MASSACHUSETTS INST OF TECH CAMBRIDGE ARTIFICIAL INTELLIGENCE LAB. — 1992.

88. Kutulakos, K. N. Affine object representations for calibration-free augmented reality / K. N. Kutulakos, J. Vallino // Virtual Reality Annual International Symposium, 1996., Proceedings of the IEEE 1996. — IEEE. 1996. — с. 25—36.

89. Aradhye, H. Method and apparatus for recognition of symbols in images of three-dimensional scenes / H. Aradhye, G. K. Myers. — 06.2010. — US Patent 7,738,706.

90. Mikolajczyk, K. An affine invariant interest point detector / K. Mikolajczyk, C. Schmid // European conference on computer vision. — Springer. 2002. — с. 128—142.

91. Mikolajczyk, K. Scale & affine invariant interest point detectors / K. Mikolajczyk, C. Schmid // International journal of computer vision. — 2004. — т. 60, № 1. — с. 63—86.

92. Morel, J.-M. ASIFT: A new framework for fully affine invariant image comparison / J.-M. Morel, G. Yu // SIAM journal on imaging sciences. — 2009. — т. 2, № 2. — с. 438—469.

93. Kadir, T. An affine invariant salient region detector / T. Kadir, A. Zisserman, M. Brady // European conference on computer vision. — Springer. 2004. — с. 228—241.

94. Faugeras, O. D. What can be seen in three dimensions with an uncalibrated stereo rig? / O. D. Faugeras // European conference on computer vision. — Springer. 1992. — с. 563—578.

95. Perspective accurate splatting / M. Zwicker [и др.] // Proceedings of Graphics interface 2004. — Canadian Human-Computer Communications Society. 2004. — с. 247—254.

96. Bezmaternykh, P. V. Textual Blocks Rectification Method Based on Fast Hough Transform Analysis in Identity Documents Recognition / P. V. Bezmaternykh, D. P. Nikolaev, V. L. Arlazarov // ICMV 2017. т. 10696. — SPIE, 04.2018. — с. 1069606. — DOI: 10.1117/12.2310162.

97. Векторные поля на плоскости / М. Красносельский [и др.]. — Государственное издательство физико-математической литературы, 1963.

98. Avriel, M. Nonlinear programming: analysis and methods / M. Avriel. — Courier Corporation, 2003.

99. Charnes, A. Programming with linear fractional functionals / A. Charnes, W. W. Cooper // Naval Research logistics quarterly. — 1962. — т. 9, № 3/ 4. — с. 181—186.

100. Boyd, S. Convex optimization / S. Boyd, L. Vandenberghe. — Cambridge university press, 2004.

101. Biswas, A. Optimality and Convexity Theorems for Linear Fractional Programming Problem / A. Biswas, S. Verma, D. Ojha // International Journal of Computational and Applied Mathematics. — 2017. — т. 12, № 3. — с. 911—916.

102. Рокафеллар, Р. Выпуклый анализ. т. 472 / Р. Рокафеллар. — М.: Мир, 1973.

103. Convergence properties of the Nelder-Mead simplex method in low dimensions / J. C. Lagarias [и др.] // SIAM Journal on optimization. — 1998. — т. 9, № 1. — с. 112—147.

104. Smith, T. The C.I.E. colorimetric standards and their use / T. Smith, J. Guild // Transactions of the Optical Society. — 1931. — т. 33, № 3. — с. 73—134.

105. MacAdam, D. L. Projective Transformations of I. C. I. Color Specifications / D. L. MacAdam // J. Opt. Soc. Am. — 1937. — т. 27, № 8. — с. 294—299.

106. Finlayson, G. D. Color homography color correction / G. D. Finlayson, H. Gong, R. B. Fisher // Color and Imaging Conference. т. 1. — Society for Imaging Science, Technology. 2016. — с. 310—314.

107. Wallace, G. Color gamut matching for tiled display walls / G. Wallace,

H. Chen, K. Li // EGVE '03: Proceedings of the workshop on Virtual environments 2003. — 2003. — с. 293—302.

108. Linear colour segmentation revisited / A. Smagina [и др.] // Proc. SPIE 11041, Eleventh International Conference on Machine Vision (ICMV 2018). т. 11041. — 2019. — с. 107—119.

109. High-precision color uniformity based on 4D transformation for micro-LED / K. Kim [и др.] // Proc. SPIE 11302, Light-Emitting Devices, Materials, and Applications XXIV. т. 11302. — 2020. — 113021U.

110. Lissner, I. How perceptually uniform can a hue linear color space be? /

I. Lissner, P. Urban // Color and Imaging Conference. т. 2010. — Society for Imaging Science, Technology. 2010. — с. 97—102.

111. Definition of linear color models in the RGB vector color space to detect red peaches in orchard images taken under natural illumination / M. Teixido [и др.] // Sensors. — 2012. — т. 12, № 6. — с. 7701—7718.

112. Lievin, M. Nonlinear color space and spatiotemporal MRF for hierarchical segmentation of face features in video / M. Lievin, F. Luthon // IEEE transactions on image processing. — 2004. — t. 13, № 1. - c. 63—71.

113. Understanding color models: a review / N. A. Ibraheem [h gp.] // ARPN Journal of science and technology. — 2012. — t. 2, № 3. — c. 265—275.

114. Fairchild, M. D. Color appearance models / M. D. Fairchild. — John Wiley & Sons, 2013. — c. 474.

115. A Standard Default Color Space for the Internet - sRGB, Version 1.10 : Tex. oth. / M. Stokes [h gp.] ; International Color Consortium. — 1996. — URL: http://www.color.org/sRGB.xalter.

116. Joblove, G. H. Color spaces for computer graphics / G. H. Joblove, D. Greenberg // Proceedings of the 5th annual conference on Computer graphics and interactive techniques. — 1978. — c. 20—25.

117. McLaren, K. XIII—The development of the CIE 1976 (L* a* b*) uniform colour space and colour-difference formula / K. McLaren // Journal of the Society of Dyers and Colourists. — 1976. — t. 92, № 9. — c. 338—341.

118. Comprehensive color solutions: CAM16, CAT16, and CAM16-UCS / C. Li [h gp.] // Color Research & Application. — 2017. — t. 42, № 6. — c. 703—718.

119. Shafer, S. A. Using color to separate reflection components / S. A. Shafer // Color Research & Application. — 1985. — t. 10, № 4. — c. 210—218.

120. Nikolaev, P. P. Some algorithms for surface color recognition / P. P. Nikolaev // Simulation of learning and behavior. — Nauka, 1975. — c. 121—151. — (In Russian).

121. Brill, M. H. Image segmentation by object color: a unifying framework and connection to color constancy / M. H. Brill //J. Opt. Soc. Am. A. — 1990. — t. 7, № 10. — c. 2041—2047.

122. Nikolaev, D. P. Linear color segmentation and its implementation / D. P. Nikolaev, P. P. Nikolayev // Computer Vision and Image Understanding. — 2004. — t. 94, № 1. — c. 115—139. — Special Issue: Colour for Image Indexing and Retrieval.

123. Improving Color Constancy in an Ambient Light Environment Using the Phong Reflection Model / S. Woo [h gp.] // IEEE Transactions on Image Processing. — 2018. — t. 27, № 4. — c. 1862—1877.

124. Klinker, G. J. Image Segmentation And Reflection Analysis Through Color / G. J. Klinker, S. A. Shafer, T. Kanade // Proc. SPIE 0937, Applications of Artificial Intelligence VI. t. 0937. — 1988. — c. 229—244.

125. Color image segmentation: advances and prospects / H. D. Cheng [h gp.] // Pattern recognition. — 2001. — t. 34, № 12. — c. 2259—2281.

126. Vinogradova, Y. V. Image segmentation of color documents using color clustering / Y. V. Vinogradova, D. P. Nikolaev, D. G. Slugin // Journal of Information Technologies and Computing Systems. — 2015. — t. 2. — c. 40—49. — (In Russian).

127. Nikolaev, D. P. Comparative analysis of Gaussian and linear spectral models for Colour constancy / D. P. Nikolaev, P. P. Nikolayev // ECMS 2005. — European Council for Modelling, Simulation, 2005. — c. 300—308.

128. Nikolaev, D. P. Efficiency comparison of analytical Gaussian and linear spectral models in the same colour constancy framework / D. P. Nikolaev, P. P. Nikolayev, V. P. Bozhkova // Int. J. Simul. Syst. Sci. Technol. — 2006. — t. 7, № 3. — c. 21—36.

129. Nikolaev, D. P. On spectral models and colour constancy clues / D. P. Nikolaev, P. P. Nikolayev // ECMS 2007. — European Conference on Modelling, Simulation, 2007. — c. 318—323.

130. Toro, J. A Multilinear Constraint on Dichromatic Planes for Illumination Estimation / J. Toro, B. Funt // IEEE Transactions on Image Processing. — 2007. — t. 16, № 1. — c. 92—97.

131. Toro, J. Dichromatic illumination estimation without pre-segmentation / J. Toro // Pattern Recognition Letters. — 2008. — t. 29, № 7. — c. 871—877.

132. Gijsenij, A. Computational color constancy: Survey and experiments / A. Gijsenij, T. Gevers, J. Van De Weijer // IEEE Transactions on Image Processing. — 2011. — t. 20, № 9. — c. 2475—2489.

133. Rehabilitating the colorchecker dataset for illuminant estimation / G. Hemrit [h gp.] // 26th Color and Imaging Conference Final Program and Proceedings. — 2018. — c. 350—353.

134. Finlayson, G. D. Reproduction angular error: An improved performance metric for illuminant estimation / G. D. Finlayson, R. Zakizadeh // Proceedings of British Machine Vision Conference. — 2014. — с. 1—11.

135. Finlayson, G. D. The reproduction angular error for evaluating the performance of illuminant estimation algorithms / G. D. Finlayson, R. Zakizadeh, A. Gijsenij // IEEE transactions on pattern analysis and machine intelligence. — 2016. — т. 39, № 7. — с. 1482—1488.

136. Evaluation of colour-difference formulae for different colour-difference magnitudes / H. Wang [и др.] // Color Research & Application. — 2012. — т. 37, № 5. — с. 316—325.

137. Improvement to industrial colour-difference evaluation : тех. отч. / D. H. Alman [и др.] ; Central Bureau of the International Commission on Illumination, Vienna. — 2001. — "Publication CIE 142—2001".

138. Luo, M. R. The development of the CIE 2000 colour-difference formula: CIEDE2000 / M. R. Luo, G. Cui, B. Rigg // Color Research & Application. — 2001. — т. 26, № 5. — с. 340—350.

139. Юдин, Д. Б. Математические методы управления в условиях неполной информации / Д. Б. Юдин. — Издательская группа URSS, 2010.

Публикации автора по теме диссертации

В изданиях, входящих в базу RSCI

140. Konovalenko, I. A. The role of projective transformations in image normalization / I. A. Konovalenko, P. P. Nikolaev // Sensory systems. — 2021. — т. 35, № 3.

141. Коноваленко, И. А. Среднеквадратичная невязка координат как критерий точности нормализации изображений при оптическом распознавании документов / И. А. Коноваленко // Информационные процессы. — 2020. — т. 20, № 3. — с. 215—230.

142. Коноваленко, И. Максимальная невязка направлений как критерий точности проективной нормализации изображения при оптическом распознавании текста / И. Коноваленко, Д. Полевой, Д. Николаев // Сенсорные системы. — 2020. — т. 34, № 2. — с. 131—146. — DOI: 10.31857/S0235009220020079.

143. Коноваленко, И. Оптимальная аффинная аппроксимация проективного преобразования изображений / И. Коноваленко, В. Кохан, Д. Николаев // Сенсорные системы. — 2019. — т. 33, № 1. — с. 7—14. — DOI: 10.1134/S0235009219010062.

144. ProLab: психофизически равномерная проективная система цветовых координат / И. А. Коноваленко [и др.] // Сенсорные системы. — 2020. — т. 34, № 4. — с. 307—328. — DOI: 10.31857/S0235009220040034.

В изданиях, входящих в международную базу Web of Science

145. New approaches to the integration of navigation systems for autonomous unmanned vehicles / I. Konovalenko [и др.] // Sensors. — 2018. — т. 18, № 9. — с. 1—23. — DOI: 10.3390/s18093010.

146. Konovalenko, I. Maximal coordinate discrepancy as accuracy criterion of image projective normalization for optical recognition of documents / I. Konovalenko, V. Kokhan, D. Nikolaev // Vestnik YuUrGU MMP. — 2020. — т. 13, № 3. — с. 43—58. — DOI: 10.14529/mmp200304.

147. Konovalenko, I. A. Optimal affine image normalization approach for optical character recognition / I. A. Konovalenko, V. V. Kokhan, D. P. Nikolaev // Computer Optics. — 2021. — т. 45, № 1. — с. 90—100. — DOI: 10.18287/2412-6179-CO-759.

В изданиях, входящих в международную базу Scopus

148. Konovalenko, I. Error values analysis for inaccurate projective transformation of a quadrangle / I. Konovalenko, J. Shemiakina // JPCS. — 2018. — т. 1096, № 1. — с. 1—9.

В сборниках трудов конференций

149. Коноваленко, И. А. Анализ величин ошибки при неточном проективном преобразовании четырехугольника / И. А. Коноваленко, Ю. А. Шемякина // Сборник трудов ИТНТ-2018. — 2018. — с. 1251—1260.

Список рисунков

1.1 Изображения одного и того же участка земной поверхности, сделанные в радио (слева) и оптическом (справа) диапазонах. Изображения взяты из работы [2]..................... 12

1.2 Изображения одного и того же документа, полученные различными камерами................................... 13

1.3 Изображения одной и той же цветовой таблицы, полученные фотоаппаратом Canon 5D Mark III с неизменными настройками, но при различном освещении. Визуально демонстрируется явление метамерии окрасок: цвета различных областей цветовой таблицы совпадают или различаются в зависимости от освещения. Изображения взяты из датасета MLSDCR (Multiple Light Source Dataset for Colour Research) [4]....................... 13

1.4 Изображения одной и той же банкноты под видимым (слева) и под ультрафиолетовым (справа) освещением, где выделяется яркая флюоресцирующая область........................ 14

1.5 Изображения одного и того же документа. Изображения a), б) и в) получены при различных ракурсах съёмки. Изображение г) -результат геометрической нормализации изображения б) в предположении, что ракурс съёмки изображения в) принят в качестве нормального условия съёмки.................. 15

1.6 Изображения одного и того же объекта. Изображение a) получено в воздушной среде, б) - в водной, в) - результат цветовой нормализации изображения б) в предположении, что воздушная среда принята в качестве нормального условия съёмки. Изображения взяты из работы [17].................... 15

1.7 Пример нормализации изображения и его последующего анализа. Н - идеально нормализующее преобразование, Н - алгоритмически нормализующее преобразование, V - остаточное искажение, 1[приг -подлежащее нормализации изображение, 1[аеа\ - идеально нормализованное изображение, - алгоритмически нормализованное изображение, внизу слева - результат (протокол) анализа изображения 1а\ё, Я - область интереса, О - образ области

интереса Я на плоскости изображения ................ 19

1.8 Пример невязки координат ^ Слева: алгоритмически нормализованное изображение , чёрной рамкой ограничена область интереса Я. Справа: векторное поле смещений остаточного искажения V(r) — г, цветом показаны значения невязки координат

а(г) = |^(г) — г||2.............................. 20

1.9 Одноканальные изображения и модуль их разницы

| — |. Изображения взяты из работы [52]............. 22

1.10 Иллюстрация к определению коэффициента Жаккара: пересечение

и объединение множеств О и Я...................... 24

1.11 Метрика Хаусдорфа с1н(О, Я) между множествами О и Я....... 24

1.12 Контрпример к утверждению о том, что супремум невязки координат двумерного проективного преобразования на замкнутом ограниченном множестве достигается обязательно на крайних точках его выпуклой оболочки. В качестве множества выбран прямоугольник Я (показан зелёным), тогда крайние точки его

выпуклой оболочки есть его вершины. Проективное преобразование

переводит Я в трапецию О (показана красным). Длины пунктирных линий соответствуют невязкам координат. Видно, что невязка координат на вершинах прямоугольника меньше, чем на

середине его ребра. ............................ 27

1.13 Два примера нормализации изображения документа (слева -

корректный, справа - некорректный), которые имеют идеальную точность в смысле коэффициента Жаккара, метрики Хаусдорфа и расстояния Фреше.............................. 28

1.14 Формирование изображения плоского прямоугольного объекта в камере-обскуре. Вверху - изображение I как плоская центральная проекция объекта: О - оптический центр камеры, иУ2 - точки схода образов противоположных сторон объекта. Внизу -сформированное изображение I. Объект связан со своим изображением проективным преобразованием.............. 29

1.15 Реальное изображение, полученное камерой, которая с высокой точностью моделируется камерой-обскурой. Плоские грани сцены связаны со своими изображениями проективными преобразованиями. 30

1.16 Угол между левой и правой сторонами четырёхугольника Q.....31

1.17 Минимальный и максимальный углы четырёхугольника Q......31

1.18 Пример проективной нормализации, при которой якобиан остаточного искажения V принимает и положительные и отрицательные значения на области интереса R. Сверху - идеально нормализованное изображение /ideal. Снизу - алгоритмически нормализованное изображение /aig, полученное в результате разрыва изображения ideal остаточным проективным искажением на две части: для правой якобиан det( J) остаточного искажения V положителен, а для левой - отрицателен, что соответствует «отражению» изображения........................ 33

1.19 Проективная (слева) и аффинная (справа) геометрические нормализации изображения документа /input (вверху) и результат его распознавания (внизу). H - проективное преобразование, A -аффинное, V = AH-1 - остаточное проективное искажение. Чёрными рамками показаны идеальные положения документа и его текстовых полей. Видно, что даже несмотря на то, что ориентация оптической оси камеры была далека от нормальной, текстовые поля

документа удалось аффинно нормализовать с высокой точностью. . 36

2.1 Декомпозиция задачи оптического распознавания полученного с произвольного ракурса изображения документа на задачу нормализации входного изображения и задачу распознавания нормализованного изображения...................... 39

2.2 Изображения символа для системы распознавания при разных значениях невязки координат....................... 40

2.3 Равномерная (слева) и нормальная (справа) зависимости вероятности ф верного распознавания символа от невязки

координат d для этого символа...................... 41

2.4 Алгоритмически нормализованные изображения 1а\ё: а) без искажения (-^еаО, б) с аффинным искажением, в) с проективным искажением................................. 44

2.5 Угловой модуль............................... 44

2.6 Остаточные искажения изображений, не дающие невязок

направлений во всех точках: а) тождественное преобразование, б) сдвиг, в) изотропное масштабирование; г) проективное преобразование, не дающее невязок направлений в точке; д) соответствующий вышеуказанным случаям график невязки направлений. Синей рамкой показано идеальное положение

изображения символа............................ 46

2.7 Остаточные искажения изображений (слева) и соответствующие графики невязки направлений (справа): а) поворот, б) анизотропное масштабирование, в) скос, г) отражение, д) проективное преобразование........................ 47

2.8 Репрезентативный набор невязок направлений Д(г,а) как функций

от а...................................... 48

2.9 Невязки остаточного искажения V: вверху - алгоритмически нормализованное изображение 1а\ё, зелёная рамка ограничивает область интереса Я, которая в данном случае соответствует идеальному положению образа банковской карточки; слева -невязка координат d, измеренная в пикселях; справа - поточечная максимальная невязка направлений Дто, измеренная в градусах; цвет соответствует значениям невязок; стрелочками показано

векторное поле преобразования У(г) — г [97]..............................49

2.10 Репрезентативный набор поточечных максимальных невязок

направлений Дто(г) проективного остаточного искажения..............50

3.1 Пример плоского полиэдра..................................................51

3.2 Ортотропный прямоугольник, произвольно ориентированный прямоугольник и прямоугольный полиэдр................................59

3.3 Оценка снизу максимальной невязки направлений. Зелёными

контурами ограничена полиэдральная область интереса Я. Синий контур - многоугольник Сопу(Я). Синие точки - его вершины Е(Сопу( Я)), на которых, при условии верности гипотезы 1, достигается максимальная невязка направлений............. 70

5.1 Примеры проективной цветовой нормализации. Левые изображения получены под освещениями, которые приняты за нормальные; центральные изображения — под некоторыми другими освещениями. Справа показаны результаты проективной цветовой нормализации центральных изображений................ 94

5.2 Основные математические объекты, посредством которых описываются критерии точности цветовой нормализации изображений: Н - идеально нормализующее преобразование, Н -алгоритмически нормализующее преобразование, V - остаточное искажение, 1[приг - подлежащее нормализации изображение, 1[аеа\ -идеально нормализованное изображение, - алгоритмически нормализованное изображение....................... 99

5.3 Вид цветового тела эКСБ-дисплея в различных цветовых пространствах................................104

Приложение А

О супремуме квазивыпуклой функции на непустом ограниченном

замкнутом множестве

Напомним следующее известное определение.

Определение 4. Расширенная числовая прямая - это множество вещественных чисел, дополненное отрицательной и положительной бесконечностями:

R = {-то} U R и{+то}. (А.1)

Теорема 8. Пусть

— X С R - непустое множество,

— /: Conv(X) ^ R - квазивыпуклая функция. Тогда

sup f = sup f. (А.2)

X Conv(X)

Доказательство. Рассмотрим все точки Conv(X), значение f в которых не превышает супремума f на X:

С =f{x G Conv(X): f(x) < sup f}. (А.3)

Любая точка x G X удовлетворяет ограничениям определения (А.3), поэтому

X С С. (А.4)

Но из квазивыпуклости f следует, что С - выпуклое. То есть С - выпуклое множество, содержащее X. Поэтому Conv(X) С С, как минимальное по включению выпуклое множество, содержащее X. Но из определения (А.3) следует, что С С Conv(X), поэтому

С = Conv(X). (А.5)

Из (А.4) также следует sup f ^ sup f. Однако sup f < sup f невозможно в

x с x с

силу определения (А.3), значит sup / = sup f, откуда, с учётом (А.5), получаем

X с

доказываемое утверждение (А.2). □

Теорема 8 является обобщением теоремы 32.2 из монографии [102], где требуется выпуклость функции /. Она может применяться в обе стороны:

— для замены X на часто более простое множество Conv(X),

— для замены Conv(X) на часто существенно меньшее множество X. Напомним следующее известное определение.

Определение 5. Крайней точкой (extreme point) выпуклого множества С в вещественном векторном пространстве называется точка, не являющаяся серединой отрезка в С.

Теорема 9. Пусть

— X С Rd - непустое ограниченное замкнутое множество,

— /: Conv(X) ^ R - квазивыпуклая функция. Тогда

sup f = sup f, (А.6)

X E(Conv(X))

где E(C) - множество крайних точек выпуклого множества С. Доказательство. Обозначим

С =f Conv(X). (А.7)

Из того, что множество X - ограниченное и замкнутое, следует, что множество С - ограниченное, замкнутое и выпуклое (теорема Каратеодори [139]). Тогда теорема Крейна - Мильмана (равно как следствие 18.5.1 из монографии [102]) утверждает, что множество С есть выпуклая оболочка своих крайних точек:

С = Conv(E^)). (А.8)

Подставляя (А.7) в (А.8), получаем

Conv(X) = Conv(E(Conv(X))) (А.9)

sup f = sup f. (А.10)

Conv(X) Conv(E(Conv(X)))

Применяя теорему 8 к обоим частям равенства (А.10), получаем доказываемое утверждение (А.6). □

В условиях теоремы 9 от функции не требуется не только выпуклости, но и непрерывности, а от множества X - не только выпуклости, но и связности. Наиболее близкое известное утверждение к теореме 9 - следствие 32.3.2 параграфа «Максимумы выпуклых функций» монографии [102].

Приложение Б

О супремуме непрерывно-бесконечной функции на непустом ограниченном замкнутом множестве

Перед формулировкой следующей теоремы введём определение.

Определение 6. Функцию f:X ^ R, где X С R, будем называть непрерывно-бесконечной на множестве X, если в каждой точке x G X функция f либо непрерывна, либо принимает положительно-бесконечное значение: f(x) = +то.

Теорема 10. Пусть функция f - непрерывно-бесконечна на непустом ограниченном замкнутом множестве X С R. Тогда её супремум на множестве X достигается:

sup/ = max f. (Б.1)

x x

Доказательство. Введём множество, на котором f = +то:

Xto = {x GX: /(x) = +то}. (Б.2)

Если множество Xto непусто, то из определения 6 следует, что max / = +то,

X

значит доказываемое утверждение верно. Если множество Xto пусто, то из определения 6 следует, что функция f непрерывна на X, но по условию множество X - непустое ограниченное и замкнутое, значит доказываемое утверждение верно по теореме Вейерштрасса. □

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.