Методы проективной локализации документов с неизвестным шаблоном на изображении, полученном с камеры мобильного устройства тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Тропин Даниил Вячеславович

  • Тропин Даниил Вячеславович
  • кандидат науккандидат наук
  • 2022, ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 120
Тропин Даниил Вячеславович. Методы проективной локализации документов с неизвестным шаблоном на изображении, полученном с камеры мобильного устройства: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2022. 120 с.

Оглавление диссертации кандидат наук Тропин Даниил Вячеславович

Введение

Глава 1. Проективная локализация изображений документов

при распознавании

1.1 Задача геометрической нормализации образа документа перед распознаванием

1.2 Модель проецирования документа на плоскость изображения

1.3 Классификация алгоритмов локализации по доступной априорной информации о документе

1.4 Методы локализации документов с известным шаблоном

1.4.1 Методы локализации на основе детекции координатных меток

1.4.2 Метод локализации на основе алгоритма ИЛ^ЛО

1.5 Локализация документов с известной жесткой структурой заполнения

1.6 Методы проективной нормализации документов с ортотропной структурой заполнения

1.7 Методы локализации документов с неизвестным внутренним заполнением

1.7.1 Контурно-линейный метод

1.7.2 Методы локализации на основе анализа значимых

областей на изображении

1.7.3 Методы на основе анализа вершин

1.8 Методы проективной нормализации мультипланарных объектов

1.9 Методы локализации документов, рассчитанные на применение

на мобильных устройствах

1.10 Класс документов с неизвестным шаблоном

1.10.1 Паспорт гражданина РФ

1.10.2 Банковские карты

1.11 Открытые наборы изображений документов

1.12 Оценки точности локализации

1.13 Основные выводы главы

Глава 2. Проективная локализация при неизвестных шаблоне

и заполнении

2.1 Предлагаемый алгоритм нормализации при неизвестных

шаблоне и заполнении

2.1.1 Детекция границ типа «край» в известной ориентации

2.1.2 Поиск прямых

2.1.3 Реконструкция стороны документа по трем прямым и соотношению сторон документа

2.1.4 Задача ранжирования вариантов расположения документа

2.1.5 Формирование вариантов расположения документа

2.1.6 Отсечение геометрически нереализуемых вариантов расположения документа в модели камеры-обскуры

2.1.7 Отсечение вариантов расположения документа на основе контурных характеристик

2.1.8 Двухэтапная система ранжирования вариантов расположения документа

2.1.9 Уточнение расположения четырехугольника документа

2.2 Экспериментальное исследование точности и времени работы

предложенного алгоритма

2.2.1 Описание базовой версии и ее модификаций

2.2.2 Настроечные параметры предложенного алгоритма

2.2.3 Анализ изменения точности базового алгоритма от учета соотношения сторон документа для случая отсутствия видимости на изображении одной из его сторон

2.2.4 Анализ изменения точности базового алгоритма от учета контрастной оценки в случаях наличия на изображении посторонних прямолинейных границ

2.2.5 Результаты измерений на 8шаг10ое

2.2.6 Результаты измерений на МГОУ-500

2.2.7 Результаты измерений на МГОУ-2020

2.2.8 Результаты измерения времени работы системы на мобильном телефоне

2.3 Основные выводы главы

Глава 3. Локализация документов с использованием

предварительной проективной нормализации

3.1 Предлагаемый алгоритм локализации документа типа «буклет» с неизвестным шаблоном и известной ортотропной структурой заполнения

3.1.1 Точка схода зашумленных прямых

3.1.2 Поиск отрезков

3.1.3 Нахождение точек схода

3.2 Экспериментальное исследование точности локализации документа на изображении

3.3 Основные выводы главы

Заключение

Список литературы

Приложение А. Акт о внедрении

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы проективной локализации документов с неизвестным шаблоном на изображении, полученном с камеры мобильного устройства»

Введение

Автоматическое распознавание документов, удостоверяющих личность, т.е. извлечение персональных данных о владельце и реквизитов документа, является востребованной технологией, находящей свое применение в банковских системах, системах безопасности транспортных узлов, телекоммуникационных системах и т.д. Помимо собственно оцифровки текста от систем распознавания документов также требуется верное атрибутирование текстовых фрагментов по принадлежности тому или иному информационному полю. Кроме текстовых информационных полей (имя, фамилия, дата рождения и т.д.) в документах могут присутствовать и графические поля (подписи, печати, фотографии), которые также требуется атрибутировать.

Большой вклад в развитие методов распознавания документов внесли такие исследователи, как В.Л. Арлазаров, И.А. Фараджев, Г.М. Зенкин, Ю.В. Визильтер, О.А. Славин, Д.Е. Ян, В.В. Постников, Д.Л. Шоломов, Д. До-ерманн, Я. Лекун и другие.

До десятых годов XXI века основным устройством ввода изображений документов служил сканер. Для сканированных изображений и были изначально разработаны методы и алгоритмы для различных этапов распознавания документов, таких как распознавание символов, сегментация строк, локализация и определение ориентации, классификация документа по принадлежности тому или иному типу и другие. С повсеместным распространением мобильных устройств на первый план вышла задача распознавания документов по изображениям, полученным с камер мобильных телефонов.

Разработчики при попытке перенести напрямую алгоритмы предыдущего поколения на мобильные телефоны столкнулись с трудностями. Для фото-и видеосъемки характерен больший спектр искажений образа, начиная с геометрических. Если не требовать от пользователя аккуратного предъявления документа в строго определенном ракурсе, то образ документа подвергается проективным искажениям, не характерным для сканеров. Модель регистрации в сканере проще, чем проективная, неизвестны только сдвиг и поворот образа документа. Устранение проективных искажений образа позволяет свести задачу распознавания документов в новых условиях к уже исследованной.

Будем называть шаблоном документа множество элементов документа, неизменных для разных экземпляров документа данного типа (например, фон, статические тексты, линии разграфки, гильош); заполнением документа будем называть множество элементов, различающихся для разных экземпляров (например, персональные данные держателя документа).

Назовем нормальным ракурсом съемки такой, что (а) образом документа является прямоугольник с заранее известными линейными размерами, (б) левая верхняя вершина находится в начале координат изображения, (в) его стороны параллельны сторонам изображения и (г) большая часть строк заполнения являются горизонтальными и нормально ориентированными. Приведение изображения документа, снятого в ином ракурсе, к нормальному назовем проективной нормализацией. Удостоверяющие личность документы почти всегда имеют жесткую геометрическую структуру заполнения, поэтому проективная нормализация кардинально упрощает как задачу атрибутирования текстовых и графических элементов, так и задачу распознавания информационных полей. Разработке методов проективной нормализации посвящены работы таких авторов, как В.В. Арлазаров, Д.П. Николаев, Ч. Чжан, П. Кларк, Ф. Аттивисиммо, Ж.-К. Бюри, Т. Жиро и других.

Одним из способов получения проективно нормализованного образа документа по входному изображению I является определение на первом этапе упорядоченного четырехугольника q его внешних границ (далее — задача проективной локализации), на втором этапе — установление линейных размеров документа tw х ¿я, заданных в пикселях, на третьем — вычисление параметров проективного преобразования Н, переводящего четырехугольник q в прямоугольник с линейными размерами tw х ¿я, и наконец отображение входного изображения I с помощью преобразования Н в проективно нормализованное изображение . В случае, когда линейные размеры удостоверяющего личность документа априорно известны (а это практически всегда так, поскольку допустимые линейные размеры зафиксированы в стандарте ГОСТ Р ИСО/МЭК 7810-2015), задачу проективной нормализации отождествляют с задачей проективной локализации.

Опубликованные в литературе алгоритмы локализации документов можно разделить минимум на четыре класса по доступной априорной информации о документе: (I) алгоритмы, опирающиеся на известный шаблон документа, (II) ~ на известную жесткую структуру заполнения, (III) ~ на известную ор-

тотропную структуру заполнения, (IV) ~ на известные параметры внешнего контура документа.

Среди алгоритмов, опирающихся на известный шаблон (класс I), существуют устойчивые к одновременному выполнению следующих условий: формирование и распознавание изображения происходит на пользовательском мобильном телефоне, видимость одной из сторон документа может отсутствовать (т.е. сторона может выходить за пределы кадра, ~ сливаться с фоном, ~ быть скрытой рукой), на изображении присутствуют посторонние контрастные объекты и границы. Более того, в случае, когда документ представляет собой «буклет», каждая из страниц которого обладает уникальным шаблоном, алгоритмы I класса способны проективно локализовать каждую из них.

Однако не все документы обладают известным или легко различимым шаблоном. Примерами таких документов являются банковская карта (далее — БК) и главный разворот паспорта РФ (далее РП — разворот паспорта). Поскольку заполнение БК, так же как и ее шаблон, нельзя считать известным, то для локализации БК применимы методы на основе параметров внешнего контура (класс IV). Но нельзя рассчитывать на высокие показатели точности алгоритмов IV класса, когда требуется, чтобы одновременно выполнялись следующие условия: алгоритм обладает достаточно низкой трудоемкостью, чтобы быть включенным в систему распознавания, рассчитанную для работы на вычислителях с ограниченным по потребляемой мощности процессором; возможное отсутствие видимости одной из сторон документа; присутствие на изображении большого числа посторонних прямолинейных контрастных границ. Заполнение РП обладает известной жесткой ортотропной структурой. Для локализации страниц РП применимы методы II - IV классов, однако ни один из них не является устойчивым к одновременному выполнению следующих условий: наличие на изображении нескольких страниц, требующих локализации; наличие проективных искажений образа документа и низкая трудоемкость алгоритма. Таким образом, развитие методов локализации документов с неизвестным шаблоном в указанных направлениях является актуальным.

Основные результаты диссертации были получены в процессе выполнения работ по следующим научным грантам РФФИ:

— №17-29-03170 — «Исследование быстродействующих методов и алгоритмов обработки изображений и оптического распознавания для

использования в мобильных устройствах с ограниченной вычислительной производительностью».

— №18-07-01387 — «Модели и методы построения систем оптического распознавания видеопотока с использованием обратных связей, функционирующих в условиях ограниченных вычислительных ресурсов».

— №18-29-26035 — «Методы позиционирования и ориентирования изучаемого объекта путем анализа локальных геометрических особенностей отдельных проекций».

— №19-29-09066 — «Методы анализа и обработки изображений для индексации видеоданных и их устойчивого поиска в режиме реального времени».

Целью данной работы является создание и исследование методов проективной локализации, применимых при распознавании документов с неизвестным шаблоном на изображениях, полученных при съемке на камеру мобильного устройства.

Для достижения поставленной цели решались следующие задачи:

1. Провести анализ существующих методов локализации образов документов на изображении и определить границы их применимости.

2. Разработать алгоритм локализации внешних границ документа на изображении с проективными искажениями, не использующий априорную информацию о шаблоне и заполнении документа, устойчивый при этом к наличию на изображении посторонних прямолинейных контрастных границ.

3. Разработать алгоритм проективной локализации образов документов в условиях отсутствия видимости одной из четырех сторон.

4. Разработать алгоритм проективной локализации документов типа «буклет» с ортотропной структурой заполнения.

5. Реализовать разработанные алгоритмы и исследовать их характеристики.

Научная новизна:

1. Впервые предложен контурно-линейный метод проективной локализации границ документа, не требующий одновременной видимости всех четырех сторон документа для получения точного решения задачи локализации.

2. Впервые предложен метод оценки координат точек схода на изображении документа, комбинирующий анализ одновременно трех типов протяженных графических объектов: границ типа «край», линий типа «хребет» и базовых линий текстовых строк.

3. Предложен новый метод оценки соответствия ответа локальных алгоритмов проективной локализации документа образу документа на изображении, учитывающий комбинацию контурных и контрастных признаков внешней границы документа и предназначенный для применения в условиях наличия на изображении большого числа посторонних контрастных границ внутри и вне документа.

Практическая значимость. Разработанные алгоритмы проективной локализации документа с неизвестным шаблоном на кадрах с камеры мобильного устройства были реализованы в виде программных компонентов и внедрены в программное обеспечение «Smart ID Engine», «Smart Code Engine» и «Smart Document Engine» компании ООО «Смарт Энджинс Сервис». Данные продукты интегрированы в информационную инфраструктуру ряда коммерческих организаций, а также в ряд информационных решений государственных структур Российской Федерации.

Методология и методы исследования. В работе используются методы цифровой обработки и анализа изображений, методы математической статистики и проективной геометрии. Все результаты обосновываются формально-дедуктивно либо вычислительным экспериментом. Содержание диссертации соответствует специальности 2.3.1. Системный анализ, управление и обработка информации, статистика (технические науки).

Основные положения, выносимые на защиту:

1. Разработанный алгоритм локализации документа с неизвестным шаблоном и заполнением позволяет в реальном масштабе времени с высокой точностью определять внешние границы документа на изображении при распознавании на мобильном телефоне за счет анализа контурных и контрастных характеристик изображения.

2. Разработанный алгоритм локализации документа позволяет также корректно определять положение всех внешних сторон документа на изображении в условиях отсутствия видимости одной из них за счет учета априорно известных соотношения сторон документа и фокусного расстояния камеры в модели камеры-обскуры.

3. Разработан двухэтапный метод проективной локализации документов типа «буклет» с ортотропной структурой заполнения, который позволяет свести ранее нерешавшуюся задачу локализации таких документов на изображениях с перспективными искажениями к уже решенной задаче в отсутствие искажений благодаря частичной проективной нормализации изображения документа на первом этапе.

4. Одновременное использования отрезков, соответствующих границам трех типов («край», «хребет», базовая линия текстовой строки), позволяет достичь более высокой точности в задаче оценки ортотропной структуры документа.

Достоверность полученных результатов подтверждается корреляцией замеров точности разработанных алгоритмов на разнородных наборах данных, фактом воспроизводимости экспериментальных результатов алгоритмов других авторов в рамках общей инфраструктуры, успешной апробацией результатов и внедрением в коммерческие системы распознавания документов. Помимо этого, опубликованные в открытом доступе результаты работы предложенного алгоритма и исходный код реализованных метрик точности позволят проверить в будущем достоверность результатов диссертационной работы другими исследователями.

Апробация работы. Основные результаты работы докладывались и обсуждались на международных конференциях Thirteenth International Conference on Machine Vision (2021, Рим, Италия), 25th International Conference on Pattern Recognition (ICPR) (2021, Милан, Италия) и на семинаре Лаборатории зрительных систем ИППИ РАН (2019, Москва).

Личный вклад. Все основные результаты, изложенные в данной работе было получены лично автором. Постановка задач и обсуждение результатов проводились совместно с научным руководителем.

Публикации. Основные результаты по теме диссертации изложены в 5 публикациях, 3 из которых изданы в журналах, рекомендованных ВАК, 2 — в периодических научных журналах, индексируемых Web of Science и Scopus, 2 —в тезисах докладов. Зарегистрирована 1 программа для ЭВМ.

Объем и структура работы. Диссертация состоит из введения, 3 глав и заключения. Полный объём диссертации составляет 120 страниц, включая 39 рисунков и 13 таблиц. Список литературы содержит 115 наименований.

Глава 1. Проективная локализация изображений документов при

распознавании

Из-за повсеместного распространения мобильных телефонов, все больше людей становятся пользователями систем автоматического распознавания документов. Во времена, когда такие системы были рассчитаны на изображения документов, полученных со сканирующего устройства, их пользователем являлся обученный оператор. В настоящее время пользователем системы распознавания может стать обычный человек, которому, например, необходимо пройти удаленную верификацию своей личности с помощью съемки удостоверяющего документа на камеру мобильного телефона. Такой пользователь не знает, в каких условиях необходимо вести съемку и каким образом предъявлять документ для того, чтобы система распознавания вернула корректный результат. При такой фактически универсальной постановке задачи регистрации неизбежен существенно больший диапазон отклонений от стандартного вида, что влечет необходимость нетривиальной доработки существующих алгоритмов в соответствии с допустимыми искажениями либо требуется разработка новых подходов, в основе которых - процедура нормализации документа

1.1 Задача геометрической нормализации образа документа перед

распознаванием

Будем называть геометрически нормализованным образом документа такое изображение, в котором образ документа (1) является прямоугольником с известными линейными размерами, (п) левая верхняя вершина находится в начале координат изображения, (ш) его стороны параллельны сторонам изображения и (Гу) большая часть строк заполнения являются горизонтальными и нормально ориентированными. Пример такого изображения приведен на рисунке 1.1. Изображение документа в таком ракурсе является удобным для последующего распознавания методами, применимыми для сканеров [1—4]. Поэтому этап, результатом которого является геометрически нормализованное

изображение документа, нередко фигурирует в системах распознавания удостоверяющих личность документов [5—7].

Рисунок 1.1 — Проективно нормализованный образ документа и результат распознавания документа на нем в виде пар «атрибут»: «значение».

В случае, когда изображение получено с помощью сканирующего устройства, геометрическая модель искажений образа документа 3- или 4-параметри-ческая. Если известна информация как о разрешении формируемого сканером изображения, так и о физических размерах документа, то неизвестными являются угол поворота и сдвиг в плоскости изображения, в противном случае к неизвестным параметрам должен быть добавлен коэффициент подобия [8; 9].

Под задачей локализации образа документа будем понимать определение на входном изображении его внешних границ. В случае изображений, полученных со сканера, для корректной локализации требуется определение положения прямоугольника документа на изображении. После этого для формирования геометрически нормализованного образа документа необходимо установить линейные размеры прямоугольника документа и с помощью преобразования подобия привести его к нормализованному виду. На практике случаи, когда линейные размеры документа неизвестны до начала работы алгоритма, редки. Поэтому при использовании сканеров задачу локализации часто отождествляют с геометрической нормализацией.

Другой путь к нормализации предполагает решение задачи геометрической ректификации [3; 10; 11], состоящей в приведении изображения документа к виду, в котором (1) оси документа параллельны осям изображения. В рамках диссертационной работы, потребуем от ректифицированного изображения

дополнительно (И) сохранения соотношения сторон документа. Имея ректифицированное изображение, для получения геометрической нормализации необходимо уточнить на нем сдвиг образа документа, коэффициент подобия, а также угол поворота, кратный 90 градусам.

Когда изображение получено с помощью камеры мобильного телефона, даже при отсутствие дисторсий [12] образ документа может быть проективно искажен. В таком случае задачи геометрической нормализации, ~ локализации и ~ ректификации будем называть проективными.

1.2 Модель проецирования документа на плоскость изображения

Для описания положения документа в случае проективной нормализации применяется 8-параметрическое проективное преобразование [3; 13]. Однако использование данного преобразования для описания положения документа в кадре избыточно, покажем это.

На рисунке 1.2 изображена модель камеры-обскуры с центром в точке О Е E3, трехмерная система координат камеры, изображение I, находящееся на расстоянии f от О и главная точка Р = (рх,ру)Т, являющаяся проекцией О на плоскость изображения I. Также на рисунке изображен документ A0B0C0D0, координаты которого заданы в E3, и образ документа ABCD на I, заданный в системе координат изображения E2.

Пусть х' - однородные координаты [14] точек на плоскости изображения I, X' - однородные координаты точек трехмерной сцены. Тогда процесс формирования изображения в камере-обскуре записывается следующим образом:

х' = K[R\с]Х',

(1.1)

где К =

матрица внутренних параметров камеры, R - матрица

/ 0 рх 0 / РУ 0 0 1

поворота 3x3, с - вектор сдвига 3x1. Такая модель формирования изображения имеет 9 свободных параметров: /,рх,ру, 3 угла для матрицы поворота Л и 3 координаты вектора сдвига с.

О

мента.

В случае преобразования плоскости для камеры-обскуры формула формирования изображения (1.1) минимизируется до:

х' = К[т,\, т2,с]

Х2

(1.2)

VI/

где т - столбцы матрицы поворота И. Число свободных параметров при этом не изменяется. Однако в случае, когда матрица внутренних параметров камеры известна, число свободных параметров 6. Что меньше, чем в случае использования 8-параметрического проективного преобразования [13].

Здесь и далее будем считать, что пользователи распознающей системы получают цифровые изображения документов с помощью камеры мобильного телефона. Данная диссертационная работа в большой степени связана с анализом геометрических искажений образа документа, и для их моделирования

будет использоваться модель камеры-обскуры с априорно известными внутренними параметрами камеры. Эта модель не описывает процесс растеризации и дискретизации изображения, а также особенности формирования цветового отклика, но они не существенны в предлагаемых методах и подходах. Также камера-обскура детерминирует лишь проективные искажения, т.е. не может описать дисторсии, присущие реальным оптическим системам. Однако камеры современных мобильных телефонов программными средствами обеспечивают пользователю достаточно точно геометрически калиброванное изображение, поэтому использование модели камеры-обскуры оправданно.

1.3 Классификация алгоритмов локализации по доступной априорной информации о документе

Будем называть шаблоном документа множество элементов документа, неизменных для разных экземпляров документа данного типа (например, фон, статические тексты, линии разграфки, гильош, изображенные на рисунке 1.3.а); заполнением документа будем называть множество элементов, различающихся для разных экземпляров (например, персональные данные владельца документа: ФИО, серия и номер, фотография, изображенные на рисунке 1.3.б).

о о о

(а) (б)

Рисунок 1.3 — Пример шаблона (а) и заполнения (б) третьей страницы

паспорта РФ, изображенного на рисунке 1.1.

В рамках диссертации введем и будем использовать классификацию алгоритмов локализации по доступной априорной информации о документе:

(I) Алгоритмы, опирающиеся на известный шаблон документа;

(II) ~ на известную жесткую структуру заполнения;

(III) ~ на известную ортотропную структуру заполнения;

(IV) ~ на известные параметры внешнего контура документа.

В следующих разделах рассмотрим опубликованные алгоритмы локализации, упорядоченные согласно данной классификации.

1.4 Методы локализации документов с известным шаблоном

К документам с известным шаблоном относится большинство удостоверяющих личность документов. Их шаблон состоит, как правило, из статичных надписей (заголовки, подписи к полям), таблиц, защитных элементов бланка документа.

1.4.1 Методы локализации на основе детекции координатных

меток

Координатные метки (они же маркеры) используются для точной локализации документов, обладающих жесткой структурой заполнения (информационных полей), например бланков ЕГЭ или больничных листов [15]. После установки соответствия между найденными элементами и элементами шаблона оцениваются параметры преобразования [16] с помощью метода наименьших квадратов. Помимо установления собственной системы координат документа маркеры применяются для классификации документов [17; 18].

Маркеры играют роль опорных элементов, с помощью которых устанавливают систему координат сцены или объектов. Например, маркеры используются как «ключи» при детектировании QR и штрихкодов [19; 20], для установления системы координат сцены в задачах, связанных с виртуальной реальностью [21], для локализации мониторов в системах передачи информации между экраном и камерой [22; 23].

1.4.2 Метод локализации на основе алгоритма RANSAC

Стандартным подходом для установления системы координат документов с известным шаблоном (водительские удостоверения, паспорта международного образца и т. п.) [9; 13; 24—26] на сегодняшний день является использование алгоритма БА^АС [27] или ему подобных. В качестве входных данных в этом подходе, как правило, используются соответствия между двумя наборами похожих по свойствам «особых» точек: выделенными на образце и выделенными на входном изображении. Качество работы алгоритмов этого класса зависит от наличия на документе контрастных статичных текстур, образующих устойчивый проективный базис. В связи с этим подобные методы плохо применимы к документам, у которых «особые» точки в статичных областях шаблона не полностью покрывают области, в которых расположены информационные поля, нуждающиеся в оцифровке. Например, на второй странице паспорта РФ единственной контрастной статической текстурой является надпись «Российская Федерация» сверху страницы (см. Рис. 3.1). Такой строки достаточно только для определения сдвига, масштаба и поворота, возникающих на изображениях со сканера. В случае изображений с более сложными геометрическими искажениями образа документа для точной локализации этого недостаточно.

Из-за переборной «природы» алгоритма БА^АС алгоритмы локализации данного класса можно сбалансировать так, чтобы они были применимы на мобильном телефоне и имели высокие показатели точности: в публикации [13] продемонстрировано, что время работы алгоритма на основе БА^АС составляет 0.35 секунды на 1РЬопе 6 и что доля корректных локализаций при этом составляет 70% на открытом наборе данных МГОУ-500 [28].

1.5 Локализация документов с известной жесткой структурой

заполнения

В случае, когда известна жесткая структура элементов заполнения документа, для его локализации применим метод, предложенный Виолой и Джонсом [29]. Для локализации объекта в данном методе необходимо заранее

построить автоматически обученный классификатор, описывающий структуру заполнения документа. После чего использовать его для анализа всевозможных положений документа в рамках «выбранной» геометрической модели искажений образа документа на изображении. При этом, как показал Усилин [30], в случае изображений документов, удостоверяющих личность, полученных со сканирующего устройства, обеспечиваются высокие показатели качества и быстродействия. В ходе работы над диссертацией обнаружена публикация, в которой метод Виолы и Джонса применяется для изображений, полученных с камеры, однако при условии, что на изображениях отсутствуют проективные искажения документа [7]. Применение метода Виолы-Джонса в случае значительных проективных искажений и произвольной ориентации документа на изображении для достижения приемлемых по качеству результатов локализации потребует значительных вычислительных ресурсов ввиду большего перебора альтернатив вариантов расположения детектируемого объекта.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Тропин Даниил Вячеславович, 2022 год

Список литературы

1. Арлазаров, В. Алгоритмы распознавания и технологии ввода текстов в ЭВМ [Текст] / В. Арлазаров, О. Славин // Информационные технологии и вычислительные системы. — 1996. — № 1. — С. 48—54.

2. O'Gorman, L. Document image analysis [Текст]. Т. 39 / L. O'Gorman, R. Kasturi. — Citeseer, 1995.

3. Doermann, D. Progress in camera-based document image analysis [Текст] / D. Doermann, J. Liang, H. Li // Seventh International Conference on Document Analysis and Recognition, 2003. Proceedings. — IEEE. 2003. — С. 606—616.

4. Niyogi, D. Analysis of printed forms [Текст] / D. Niyogi, S. N. Srihari, V. Govindaraju // Handbook of character recognition and document image analysis. — World Scientific, 1997. — С. 485—502.

5. An Automatic Reader of Identity Documents [Текст] / F. Attivissimo [и др.] // 2019 IEEE International Conference on Systems, Man and Cybernetics (SMC). — IEEE. 2019. — С. 3525—3530.

6. Smart IDReader: Document recognition in video stream [Текст] / K. Bulatov [и др.] // 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). Т. 6. — IEEE. 2017. — С. 39—44.

7. Bohush, R. Video-based content extraction algorithm from bank cards for ios mobile devices [Текст] / R. Bohush, A. Kurilovich, S. Ablameyko // International Conference on Pattern Recognition and Information Processing. — Springer. 2019. — С. 180—191.

8. Анализ особенностей использования стационарных и мобильных малоразмерных цифровых видеокамер для распознавания документов [Текст] / В. В. Арлазаров [и др.] // Информационные технологии и вычислительные системы. — 2014. — № 3. — С. 71—81.

9. Augereau, O. Semi-structured document image matching and recognition [Текст] / O. Augereau, N. Journet, J.-P. Domenger // Document Recognition and Retrieval XX. Т. 8658. — SPIE. 2013. — С. 13—24.

10. Takezawa, Y. Robust perspective rectification of camera-captured document images [Текст] / Y. Takezawa, M. Hasegawa, S. Tabbone // 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). Т. 6. — IEEE. 2017. — С. 27—32.

11. Pilu, M. Extraction of illusory linear clues in perspectively skewed documents [Текст] / M. Pilu // Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. CVPR 2001. Т. 1. — IEEE. 2001. — С. I—I.

12. Blind radial distortion compensation from video using fast Hough transform [Текст] / I. Kunina [и др.] // 2016 International Conference on Robotics and Machine Vision. Т. 10253. — SPIE. 2017. — С. 31—37.

13. Skoryukina, N. Fast method of ID documents location and type identification for mobile and server application [Текст] / N. Skoryukina, V. Arlazarov, D. Nikolaev // 2019 International Conference on Document Analysis and Recognition (ICDAR). — IEEE. 2019. — С. 850—857.

14. Моденов, П. Аналитическая геометрия: учеб. для заоч. и вечерних отд. ун-тов и пед. вузов [Текст] / П. Моденов // Москва: Изд-во МГУ, 1969.698 с.- Текст: непосредственный. — 1969.

15. Detecting modifications in paper documents: a coding approach [Текст] / Y. Sankarasubramaniam [и др.] // Document Recognition and Retrieval XVII. Т. 7534. — International Society for Optics, Photonics. 2010. — 75340A.

16. Постников, В. В. Автоматическая идентификация и распознавание структурированных документов : дис. ... канд. тех. наук : 05.13.01 [Текст] / В. В. Постников. — М., 2001. — 126 с.

17. Handwritten Kazakh and Russian (HKR) database for text recognition [Текст] / D. Nurseitov [и др.] // Multimedia Tools and Applications. — 2021. — Т. 80, № 21. — С. 33075—33097.

18. Steimle, J. Pen-and-paper user interfaces: Integrating printed and digital documents [Текст] / J. Steimle. — Springer Science & Business Media, 2012.

19. Ohbuchi, E. Barcode readers using the camera device in mobile phones [Текст] / E. Ohbuchi, H. Hanaizumi, L. A. Hock // 2004 International Conference on Cyberworlds. — IEEE. 2004. — С. 260—265.

20. Bursikov, A. Precise localization of synchronization patterns for Aztec code matrix extraction [Текст] / A. Bursikov, P. Bezmaternykh, V. Kliatskine // Thirteenth International Conference on Machine Vision. Т. 11605. — SPIE. 2021. — С. 472—479.

21. Kato, H. Marker tracking and hmd calibration for a video-based augmented reality conferencing system [Текст] / H. Kato, M. Billinghurst // Proceedings 2nd IEEE and ACM International Workshop on Augmented Reality (IWAR'99). — IEEE. 1999. — С. 85—94.

22. A reliable and unobtrusive approach to display area detection for imperceptible display camera communication [Текст] / J. Xu [и др.] // Journal of Visual Communication and Image Representation. — 2022. — Т. 85. — С. 103510.

23. Inframe++ achieve simultaneous screen-human viewing and hidden screen-camera communication [Текст] / A. Wang [и др.] // Proceedings of the 13th Annual International Conference on Mobile Systems, Applications, and Services. — 2015. — С. 181—195.

24. Complex Document Classification and Localization Application on Identity Document Images [Текст] / A. M. Awal [и др.] // 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). Т. 1. — IEEE. 2017. — С. 426—431.

25. Document localization algorithms based on feature points and straight lines [Текст] / N. Skoryukina [и др.] // Tenth International Conference on Machine Vision (ICMV 2017). Т. 10696. — International Society for Optics, Photonics. 2018. — 106961H.

26. Chiron, G. ID documents matching and localization with multi-hypothesis constraints [Текст] / G. Chiron, N. Ghanmi, A. M. Awal // 2020 25th International Conference on Pattern Recognition (ICPR). — IEEE. 2021. — С. 3644—3651.

27. Fischler, M. A. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography [Текст] / M. A. Fischler, R. C. Bolles // Communications of the ACM. — 1981. — Т. 24, № 6. — С. 381—395.

28. MIDV-500: a dataset for identity document analysis and recognition on mobile devices in video stream [Текст] / V. V. Arlazarov [и др.] // Computer optics. — 2019. — Т. 43, № 5.

29. Viola, P. Rapid object detection using a boosted cascade of simple features [Текст] / P. Viola, M. Jones // Proceedings of the 2001 IEEE computer society conference on computer vision and pattern recognition. CVPR 2001. Т. 1. — Ieee. 2001. — С. I—I.

30. Усилин, С. Локализация, ориентация и идентификация документов с фиксированной геометрией на изображении [Текст] / С. Усилин, Д. Николаев,

B. Постников // Труды Института системного анализа Российской академии наук. — 2010. — Т. 58. — С. 248—261.

31. Безматерных, П. Метод идентификации типа документа по структуре его проекций на координатные оси [Текст] / П. Безматерных, Д. Николаев, В. Постников // Информационные технологии и системы ИТиС'08. — 2008. — С. 498—501.

32. Brady, M. L. A fast discrete approximation algorithm for the Radon transform [Текст] / M. L. Brady // SIAM Journal on Computing. — 1998. — Т. 27, № 1. — С. 107—119.

33. TILT: Transform Invariant Low-Rank Textures [Текст] / Z. Zhang [и др.] // International Journal of Computer Vision. — 2012. — Авг. — Т. 99, № 1. —

C. 1—24.

34. Clark, P. Recognising text in real scenes [Текст] / P. Clark, M. Mirmehdi // International Journal on Document Analysis and Recognition. — 2002. — Т. 4, № 4. — С. 243—257.

35. Clark, P. Rectifying perspective views of text in 3D scenes using vanishing points [Текст] / P. Clark, M. Mirmehdi // Pattern Recognition. — 2003. — Т. 36, № 11. — С. 2673—2686.

36. Lu, S. Perspective rectification of document images using fuzzy set and morphological operations [Текст] / S. Lu, B. M. Chen, C. C. Ko // Image and Vision Computing. — 2005. — Т. 23, № 5. — С. 541—553.

37. Liang, J. Geometric rectification of camera-captured document images [Текст] / J. Liang, D. DeMenthon, D. Doermann // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2008. — Т. 30, № 4. — С. 591—605.

38. Fast perspective recovery of text in natural scenes [Текст] / C. Merino-Gracia [и др.] // Image and Vision Computing. — 2013. — Т. 31, № 10. — С. 714—724.

39. Wang, Y. Layout and Perspective Distortion Independent Recognition of Captured Chinese Document Image [Текст] / Y. Wang, Y. Sun, C. Liu // 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). Т. 1. — IEEE. 2017. — С. 591—596.

40. Visilter, Y. V. Development of OCR system for portable passport and visa reader [Текст] / Y. V. Visilter, S. Y. Zheltov, A. A. Lukin // Document Recognition and Retrieval VI. Т. 3651. — SPIE. 1999. — С. 194—199.

41. Hartl, A. Real-time detection and recognition of machine-readable zones with mobile devices. [Текст] / A. Hartl, C. Arth, D. Schmalstieg // VISAPP (3). — 2015. — С. 79—87.

42. Kolmakov, S. Machine-Readable Zones Detection in Images Captured by Mobile Devices' Cameras [Текст] / S. Kolmakov, N. Skoryukina, V. Arlazarov // Pattern Recognition and Image Analysis. — 2020. — Т. 30, № 3. — С. 489—495.

43. Kil, T. Scene text rectification using glyph and character alignment properties [Текст] / T. Kil, H. I. Koo, N. I. Cho // 2018 24th International Conference on Pattern Recognition (ICPR). — IEEE. 2018. — С. 3663—3668.

44. Correcting geometric and photometric distortion of document images on a smartphone [Текст] / C. Simon, I. K. Park [и др.] // Journal of Electronic Imaging. — 2015. — Т. 24, № 1. — С. 013038.

45. Robust scene text recognition with automatic rectification [Текст] / B. Shi [и др.] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2016. — С. 4168—4176.

46. Recovering homography from camera captured documents using convolutional neural networks [Текст] / S. A. Abbas [и др.] // arXiv preprint arXiv:1709.03524. — 2017.

47. An, J. Rectification of planar targets using line segments [Текст] / J. An, H. I. Koo, N. I. Cho // Machine Vision and Applications. — 2017. — Т. 28, № 1/2. — С. 91—100.

48. He, Q. Lane Detection and Tracking through Affine Rectification. [Текст] / Q. He, C.-h. H. Chu // MVA. — 2007. — С. 536—539.

49. Nieto, M. Plane rectification through robust vanishing point tracking using the Expectation-Maximization algorithm [Текст] / M. Nieto, L. Salgado // 2010 IEEE International Conference on Image Processing. — IEEE. 2010. — С. 1901—1904.

50. Fast roadway detection using car cabin video camera [Текст] / D. Krokhina [и др.] // Eighth International Conference on Machine Vision (ICMV 2015). Т. 9875. — International Society for Optics, Photonics. 2015. — 98751F.

51. Zaheer, A. Shape from angle regularity [Текст] / A. Zaheer, M. Rashid, S. Khan // European Conference on Computer Vision. — Springer. 2012. — С. 1—14.

52. Automatic upright adjustment of photographs with robust camera calibration [Текст] / H. Lee [и др.] // IEEE transactions on pattern analysis and machine intelligence. — 2013. — Т. 36, № 5. — С. 833—844.

53. Robust lane markings detection and road geometry computation [Текст] / A. Lopez [и др.] // International Journal of Automotive Technology. — 2010. — Т. 11, № 3. — С. 395—407.

54. Ando, S. Automatic visual searching and reading of barcodes in 3-D scene [Текст] / S. Ando, H. Hontani // IVEC2001. Proceedings of the IEEE International Vehicle Electronics Conference 2001. IVEC 2001 (Cat. No. 01EX522). — IEEE. 2001. — С. 49—54.

55. Zhang, Z. Whiteboard scanning and image enhancement [Текст] / Z. Zhang, L.-W. He // Digital Signal Processing. — 2007. — Т. 17, № 2. — С. 414—432.

56. Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures [Текст] / R. O. Duda, P. E. Hart // Communications of the ACM. — 1972. — Т. 15, № 1. — С. 11—15.

57. Real time rectangular document detection on mobile devices [Текст] / N. Skoryukina [и др.] // Seventh International Conference on Machine Vision (ICMV 2014). Т. 9445. — International Society for Optics, Photonics. 2015. — 94452A.

58. Segments graph-based approach for document capture in a smartphone video stream [Текст] / A. Zhukovsky [и др.] // 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). Т. 1. — IEEE. 2017. — С. 337—342.

59. Hartl, A. Rectangular target extraction for mobile augmented reality applications [Текст] / A. Hartl, G. Reitmayr // Proceedings of the 21st International Conference on Pattern Recognition (ICPR2012). — IEEE. 2012. — С. 81—84.

60. Puybareau, E. Real-time document detection in smartphone videos [Текст] / E. Puybareau, T. Geraud // 2018 25th IEEE International Conference on Image Processing (ICIP). — IEEE. 2018. — С. 1498—1502.

61. Liu, N. Dynamic detection of an object framework in a mobile device captured image [Текст] / N. Liu, L. Wang. — 11.2018. — US Patent 10,134,163.

62. Sanchez-Rivero, R. Captura de documentos de identidad en escenarios reales: Deteccion y evaluacion de la calidad [Текст] / R. Sanchez-Rivero, F. J. Silva-Mata, A. Morales-Quevedo //.

63. Sharma, P. Automatic contact importer from business cards for Android [Текст] / P. Sharma, K. Fujii. — 2013.

64. Ngoc, M. O. V. Document Detection in Videos Captured by Smartphones using a Saliency-Based Method [Текст] / M. O. V. Ngoc, J. Fabrizio, T. Geraud // 2019 International Conference on Document Analysis and Recognition Workshops (ICDARW). Т. 4. — IEEE. 2019. — С. 19—24.

65. SLIC superpixels compared to state-of-the-art superpixel methods [Текст] / R. Achanta [и др.] // IEEE transactions on pattern analysis and machine intelligence. — 2012. — Т. 34, № 11. — С. 2274—2282.

66. Introducing the Dahu pseudo-distance [Текст] / T. Geraud [и др.] // International Symposium on Mathematical Morphology and Its Applications to Signal and Image Processing. — Springer. 2017. — С. 55—67.

67. Chi-Square Distance [Текст] // The Concise Encyclopedia of Statistics. — New York, NY : Springer New York, 2008. — С. 68—70.

68. Kruskal, J. B. On the shortest spanning subtree of a graph and the traveling salesman problem [Текст] / J. B. Kruskal // Proceedings of the American Mathematical society. — 1956. — Т. 7, № 1. — С. 48—50.

69. Leal, L. R. Smartphone camera document detection via Geodesic Object Proposals [Текст] / L. R. Leal, B. L. Bezerra // 2016 IEEE Latin American Conference on Computational Intelligence (LA-CCI). — IEEE. 2016. — С. 1—6.

70. Machine learning techniques for identity document verification in uncontrolled environments: A case study [Текст] / A. Castelblanco [и др.] // Mexican Conference on Pattern Recognition. — Springer. 2020. — С. 271—281.

71. Coarse-to-fine document localization in natural scene image with regional attention and recursive corner refinement [Текст] / A. Zhu [и др.] // International Journal on Document Analysis and Recognition (IJDAR). —

2019. — Т. 22, № 3. — С. 351—360.

72. HU-PageScan: a fully convolutional neural network for document page crop [Текст] / R. B. das Neves Junior [и др.] // IET Image Processing. — 2020. — Т. 14, № 15. — С. 3890—3898.

73. Sheshkus, A. Houghencoder: neural network architecture for document image semantic segmentation [Текст] / A. Sheshkus, D. Nikolaev, V. L. Arlazarov // 2020 IEEE International Conference on Image Processing (ICIP). — IEEE.

2020. — С. 1946—1950.

74. Javed, K. Real-time document localization in natural images by recursive application of a cnn [Текст] / K. Javed, F. Shafait // 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). Т. 1. — IEEE. 2017. — С. 105—110.

75. Dobai, L. A document detection technique using convolutional neural networks for optical character recognition systems. [Текст] / L. Dobai, M. Teletin // ESANN. — 2019.

76. Mobilenets: Efficient convolutional neural networks for mobile vision applications [Текст] / A. G. Howard [и др.] // arXiv preprint arXiv:1704.04861. — 2017.

77. A comparison of cnn-based face and head detectors for real-time video surveillance applications [Текст] / E. Granger, M. Kiran, L.-A. Blais-Morin [и др.] // 2017 Seventh International Conference on Image Processing Theory, Tools and Applications (IPTA). — IEEE. 2017. — С. 1—7.

78. Weickert, J. A scheme for coherence-enhancing diffusion filtering with optimized rotation invariance [Текст] / J. Weickert, H. Scharr // Journal of Visual Communication and Image Representation. — 2002. — Т. 13, № 1/ 2. — С. 103—118.

79. Matas, J. Robust detection of lines using the progressive probabilistic hough transform [Текст] / J. Matas, C. Galambos, J. Kittler // Computer vision and image understanding. — 2000. — Т. 78, № 1. — С. 119—137.

80. Approach to recognition of flexible form for credit card expiration date recognition as example [Текст] / A. Sheshkus [и др.] // Eighth International Conference on Machine Vision (ICMV 2015). Т. 9875. — SPIE. 2015. — С. 147—151.

81. A deep learning based bank card detection and recognition method in complex scenes [Текст] / H. Lin [и др.] // Applied Intelligence. — 2022. — С. 1—19.

82. ICDAR2015 competition on smartphone document capture and OCR (SmartDoc) [Текст] / J.-C. Burie [и др.] // 2015 13th International Conference on Document Analysis and Recognition (ICDAR). — IEEE. 2015. — С. 1161—1165.

83. SmartDoc 2017 video capture: Mobile document acquisition in video mode [Текст] / J. Chazalon [и др.] // 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). Т. 4. — IEEE. 2017. — С. 11—16.

84. A semi-automatic groundtruthing tool for mobile-captured document segmentation [Текст] / J. Chazalon [и др.] // 2015 13th International Conference on Document Analysis and Recognition (ICDAR). — IEEE. 2015. — С. 621—625.

85. Chiron, G. Fast End-to-End Deep Learning Identity Document Detection, Classification and Cropping [Текст] / G. Chiron, F. Arrestier, A. M. Awal // International Conference on Document Analysis and Recognition. — Springer. 2021. — С. 333—347.

86. MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document Analysis [Текст] / K. Bulatov [и др.] // Computer Optics. — 2022. — Т. 46, № 2.

87. Bulatov, K. MIDV-2019: challenges of the modern mobile-based document OCR [Текст] / K. Bulatov, D. Matalov, V. V. Arlazarov // Twelfth International Conference on Machine Vision (ICMV 2019). Т. 11433. — SPIE. 2020. — С. 717—722.

88. MIDV-LAIT: a challenging dataset for recognition of IDs with Perso-Arabic, Thai, and Indian scripts [Текст] / Y. Chernyshova [и др.] // International Conference on Document Analysis and Recognition. — Springer. 2021. — С. 258—272.

89. Ngoc, M. O. V. Saliency-based detection of identy documents captured by smartphones [Текст] / M. O. V. Ngoc, J. Fabrizio, T. Geraud // 2018 13th IAPR International Workshop on Document Analysis Systems (DAS). — IEEE. 2018. — С. 387—392.

90. Dizaj, S. B. A new image dataset for document corner localization [Текст] / S. B. Dizaj, M. Soheili, A. Mansouri // 2020 International Conference on Machine Vision and Image Processing (MVIP). — IEEE. 2020. — С. 1—4.

91. A fast fully octave convolutional neural network for document image segmentation [Текст] / R. B. das Neves [и др.] // 2020 International Joint Conference on Neural Networks (IJCNN). — IEEE. 2020. — С. 1—6.

92. Jaccard, P. Distribution de la flore alpine dans le bassin des Dranses et dans quelques regions voisines [Текст] / P. Jaccard // Bull Soc Vaudoise Sci Nat. — 1901. — Т. 37. — С. 241—272.

93. Бобков, В. А. Сопоставление линий по трём видам пространственной сцены [Текст] / В. А. Бобков, Ю. И. Роньшин, А. П. Кудряшов // Информационные технологии и вычислительные системы. — 2006. — № 2. — С. 71—78.

94. Acceleration of summation over segments using the fast Hough transformation pyramid [Текст] / K. V. Soshin [и др.] // Vestnik Yuzhno-Ural'skogo Universiteta. Seriya Matematicheskoe Modelirovanie i Programmirovanie. — 2020. — Т. 13, № 1.

95. Williams, J. W. J. Algorithm 232: heapsort [Текст] / J. W. J. Williams // Commun. ACM. — 1964. — Т. 7. — С. 347—348.

96. Howell, D. C. Chi-Square Test: Analysis of Contingency Tables. [Текст] / D. C. Howell. — 2011.

97. Approach for document detection by contours and contrasts [Текст] / D. V. Tropin [и др.] // 2020 25th International Conference on Pattern Recognition (ICPR). — IEEE. 2021. — С. 9689—9695.

98. Improved algorithm of ID card detection by a priori knowledge of the document aspect ratio [Текст] / D. V. Tropin [и др.] // Thirteenth International Conference on Machine Vision. Т. 11605. — SPIE. 2021. —

C. 407—415.

99. Advanced Hough-based method for on-device document localization [Текст] /

D. Tropin [и др.] // Computer Optics. — 2021. — Т. 45, № 5. — С. 702—712.

100. Свидетельство о гос. регистрации программы для ЭВМ. Программа определения внешних границ плоского документа с известным соотношением сторон в отсутствие априорной информации о его внутренней визуальной структуре [Текст] / Д. Тропин ; О. С. Э. Сервис. — № 2022660522 ; опубл. 06.06.2022 (Рос. Федерация).

101. Caprile, B. Using vanishing points for camera calibration [Текст] / B. Caprile, V. Torre // International journal of computer vision. — 1990. — Т. 4, № 2. — С. 127—139.

102. Using vanishing points for camera calibration and coarse 3D reconstruction from a single image [Текст] / E. Guillou [и др.] // The Visual Computer. — 2000. — Т. 16, № 7. — С. 396—410.

103. Алгоритм автоматического кадрирования цифровых изображений при проективном преобразовании [Текст] / Ю. А. Шемякина [и др.] // Труды Института системного анализа Российской академии наук. — 2018. — Т. 68, S1. — С. 142—149.

104. Zhang, Z. Flexible camera calibration by viewing a plane from unknown orientations [Текст] / Z. Zhang // Proceedings of the seventh ieee international conference on computer vision. Т. 1. — Ieee. 1999. — С. 666—673.

105. Шемякина, Ю. А. Использование точек и прямых для вычисления проективного преобразования по двум изображениям плоского объекта [Текст] / Ю. А. Шемякина // Информационные технологии и вычислительные системы. — 2017. — № 3. — С. 79—91.

106. Canny, J. A computational approach to edge detection [Текст] / J. Canny // IEEE Transactions on pattern analysis and machine intelligence. — 1986. — № 6. — С. 679—698.

107. Lindeberg, T. Scale-space theory in computer vision [Текст]. Т. 256 / T. Lindeberg. — Springer Science & Business Media, 2013.

108. Steger, C. An unbiased detector of curvilinear structures [Текст] / C. Steger // IEEE Transactions on pattern analysis and machine intelligence. — 1998. — Т. 20, № 2. — С. 113—125.

109. Principles of filter design [Текст] / B. Jahne, H. Scharr, S. Korkel [и др.] // Handbook of computer vision and applications. — 1999. — Т. 2. — С. 125—151.

110. LSD: a line segment detector [Текст] / R. G. Von Gioi [и др.] // Image Processing On Line. — 2012. — Т. 2. — С. 35—55.

111. Akinlar, C. EDLines: A real-time line segment detector with a false detection control [Текст] / C. Akinlar, C. Topal // Pattern Recognition Letters. — 2011. — Т. 32, № 13. — С. 1633—1642.

112. Edmonds, J. Matroids and the greedy algorithm [Текст] / J. Edmonds // Mathematical programming. — 1971. — Т. 1, № 1. — С. 127—136.

113. Fast projective image rectification for planar objects with Manhattan structure [Текст] / J. Shemiakina [и др.] // Twelfth International Conference on Machine Vision (ICMV 2019). Т. 11433. — SPIE. 2020. — С. 450—458.

114. Automatic cropping of images under projective transformation [Текст] / J. Shemiakina [и др.] // Eleventh International Conference on Machine Vision (ICMV 2018). Т. 11041. — SPIE. 2019. — С. 55—62.

115. О локализации плоских объектов на изображениях со сложной структурой проективных искажений [Текст] / Д. Тропин [и др.] // Информационные процессы. — 2019. — Т. 19, № 2. — С. 208—229.

Приложение А Акт о внедрении

smart engines

ООО Смарт Энджинс Сервис РФ, 121205. Москва, территория Т:+7 (495) 649-82-60 ОГРН: 1197746035297 инновационного центра «Сколково» Е: о№се@зтаЯепд|пез

ИНН: 7726326449 ул. Нобеля, д. 7, пом 132 (1 этаж) https://smartengines.rii

13.10.2022 № 118 На №......... от ... .

АКТ

об использовании (внедрении) результатов диссертационной работы Тропина Даниила Вячеславовича «Методы проективной локализации документов с неизвестным шаблоном на изображении, полученном с камеры мобильного устройства» в программных продуктах ООО «Смарт Энджинс Сервис»

Предложенные Д.В. Тропипым методы просктивпой локализации удостоверяющих личность документов с неизвестным шаблоном позволили повысить точность локализации и как следствие точность распознавания документов. Результаты диссертации Д.В. Тропина внедрены в программы для ЭВМ «Smart ID Engine» (свидетельство о государственной регистрации программы для ЭВМ № 2020616758 от 22.06.2020). «Smart Document Engine» (свидетельство о государственной регистрации программы для ЭВМ № 2020616760 от 22.06.2020) и «Smart Code Engine» (свидетельство о государственной регистрации программы для ЭВМ № 2020616759 от 22.06.2020).

Данные программы используются следующими организациями:

— ФНС РФ, МВД РФ, НСПК «МИР», государственных информационных системах Федерального дорожного агентства «Росавтодор», Министерства цифрового развития, связи и массовых коммуникаций Российской Федерации (паспортно-визовая система ГС Мир).

— информационных системах крупных российских и зарубежных финансовых организаций, таких как ПАО Банк ВТБ, АО «Почта Банк», АО «Тинькофф Банк», АО «АльфаСтрахование», АО «АЛЬФА-БАНК», ПАО Банк «ФК Открытие», АО «Газпромбанк», Евразийский банк развития, PJSC Emirates NBD Bank;

— сотовых операторов ПАО «МТС», «МегаФон», «ВымпеяКом» (торговая марка «Билайн»);

— в составе автоматизированной системы паспортного контроля «Сапсан», предназначенной для осуществления автоматического паспортного контроля пассажиров, следующих через государственную границу Российской Федерации;

— системах автоматизации продажи билетов ОАО «РЖД», а также авиакомпаний

(Turkish Airlines, Croatia airlines). Технический директор, к. ф.-м. н. Старший научный сотрудник - программист!

. Д, П. Николаев К. Б. Булатов

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.