Алгоритмы автоматической оценки качества фотографий документов тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Орлов Никита Константинович

  • Орлов Никита Константинович
  • кандидат науккандидат наук
  • 2020, ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)»
  • Специальность ВАК РФ05.13.11
  • Количество страниц 81
Орлов Никита Константинович. Алгоритмы автоматической оценки качества фотографий документов: дис. кандидат наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2020. 81 с.

Оглавление диссертации кандидат наук Орлов Никита Константинович

Глава

Признаки для модели

Особенности реализации

Выбор модели и целевые переменные

Модель градиентного бустинга

Таблицы результатов

Глава

Применение к другим задачам

Классификация документов по типам

Описание задачи

Данные

Обучение моделей

Результаты

Детектирование бликов

Описание задачи

Данные

Механизм извлечения признаков

Нейросетевой подход

Результаты

Заключение

Список литературы

Патенты и публикации автора по теме диссертации

Введение

Актуальность работы. Научно-технический прогресс привел к тому, что большое количество методов распознавания образов и машинного зрения нашли свое практическое применение. Так уже много лет системы распознавания широко применяются в различных областях: анализ документов, медицина, банковское дело и пр. Улучшение качества интернета и развитие технологий облачных вычислений дали людям возможность пользоваться сложными системами, требующими большое количество вычислительных ресурсов с минимальными финансовыми затратами. Так, имея лишь мобильное устройство с фотокамерой, человек может оцифровывать и обрабатывать документы, получая при этом результат высокого качества прямо на мобильном устройстве, причем большая часть процесса обработки будет проходить на удаленном сервере с последующей загрузкой результата на мобильное устройство пользователя. Современные OCR (optical character recognition) - системы устроены достаточно сложно и распознавание одного документа требует различных предварительных обработок: снижения уровня шума, исправления разрешения, устранения различных смазов и дефокусировок, что характерно для снимков с камер мобильных устройств. Кроме того, необходим детальный анализ структуры документа с последующей оцифровкой его частей. Смаз, дефокусировка, блики, геометрические искажения - наиболее сложные дефекты с точки зрения их исправления, которые приводят к сильной деградации качества и, как следствие, к потере ценных данных. Кроме того, рост количества мобильных устройств увеличивает нагрузку на сервера, тем самым заставляя компании тратить большие ресурсы на масштабирование и поддержку сложной системы. Поэтому при мобильном вводе документов с целью последующего распознавания для экономии ресурсов важно иметь быстрые и эффективные методы определения

качества снимка, чтобы при необходимости переснять документ до его отправки на сервер. Работа актуальна в силу необходимости получить полную предварительную информацию о распознаваемом документе и обеспечить грамотную фильтрацию пользовательских данных.

Степень проработанности темы. На данный момент методам построения оценки качества фотографии документов уделяется большое внимание в силу их актуальности и высокой практической применимости. Существенный вклад в развитие данной области внесли: D. Doermann, J. Kumar, H. Baird, M. Cannon, D. Kumar, H. Lu, A. Souza, X. Peng, D. Kumar, T. Kanungo, W. Liu, Z. Wang, D. Tao и другие. Несмотря на большую научно-техническую базу, практически все работы, посвященные оценке пригодности документа к распознаванию фокусируются на анализе простых текстовых документов без каких-либо ограничений по вычислительным ресурсам. Кроме того, большинство подходов, использующих алгоритмы классического компьютерного зрения не учитывают вариативность фотографий, особенности устройств ввода и другие важные аспекты имеющие серьезное влияние на качество распознавания. Так, например, авторы некоторых публикаций строят тяжеловесные модели на основе методов глубокого обучения, скорость работы которых сравнима длительностью процесса распознавания, что делает актуальным исследование и разработку методов анализа фотографий с возможностью работы на мобильном устройстве.

Объектом исследования являются системы оптического распознавания

Предметом исследования является оценка качества пользовательских изображений для распознавания.

Целью диссертационной работы является разработка математических моделей и алгоритмов оценки качества документа, которые покажут высокую эффективность работы на мобильном устройстве и позволят работать с

различными типами документов. Для достижения поставленной цели в диссертации ставятся и решаются следующие задачи:

1. Необходимо исследовать различные методы оценки качества фотографий, выявить их преимущества и недостатки.

2. Необходимо собрать выборку из наиболее популярных типов документов согласно пользовательским сценариям.

3. Необходимо разработать метод выделения и оценки качества букв на снимке, позволяющий обнаружить наиболее распространенные дефекты, которые снижают качество OCR: смаз и дефокусировка.

4. Необходимо разработать алгоритм обработки снимка документа, позволяющий строить признаковое описание фотографии документа для последующего построения модели оценки качества.

5. Необходимо построить модель машинного обучения, которая позволила бы обрабатывать документы различного типа.

6. Необходимо учесть потенциальное использование алгоритма в других задачах обработки документов и продемонстрировать его применимость.

Методология и методы исследования.

В диссертации используются методы компьютерного зрения, машинного обучения, глубокого обучения, математической статистики, теории алгоритмов. Для имплементации разработанных алгоритмов используется языки программирования С++ и Python, для построения моделей используются библиотеки NeoML, Keras, PyTorch.

Научная новизна

1. Предложен новый алгоритм автоматической оценки качества текста на фотографиях, учитывающий структурные особенности документов.

2. Разработана модель оценки качества фотографий с использованием гистограммных признаков

3. Анализ качества и скорости работы производится не только на A4 документах, но и на чеках, визитки, ID-картах.

4. Разработана новая система детектирования бликов мешающих распознаванию документа.

5. Разработана новая система классификации документов по типу, позволяющая эффективно обрабатывать документы стандартных типов и добавлять к ним новые.

Практическая ценность и реализация результатов. Разработанные в процессе исследований алгоритмы оценки качества, модели классификации по типу и детекторы бликов были интегрированы в программное обеспечение компании "ABBYY LLC": Mobile Imaging SDK, FlexiCapture, FineReader.

Основные положения, выносимые на защиту:

1. Разработан алгоритм анализа фотографий документов с оценкой качества текста

2. Разработана модель оценки качества фотографий, которая использует гистограммные признаки.

3. Разработана новая система детектирования бликов мешающих распознаванию документа

4. Разработана новая система классификации документов по типу.

5. Для предложенных алгоритмов произведен анализ на предмет скорости и качества работы.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Алгоритмы автоматической оценки качества фотографий документов»

Апробация работы

Основные результаты диссертации докладывались на следующих конференциях:

1. The 8th International Workshop on Camera-Based Document Analysis and Recognition (CBDAR)

2. Workshop on Industrial Applications of Document Analysis and Recognition (WIADAR)

Публикации

Основные результаты диссертационной работы изложены в 2 публикациях в международном рецензируемом издании, индексируемом базой данных Scopus, в 4 патентах.

Объем и структура работы

Диссертация состоит из введения, 4 глав, заключения, списка литературы. Общий объем диссертации 81 страницу, включая 25 рисунков и 13 таблиц. Библиография включает 40 наименований.

Личный вклад автора

Автором разработаны необходимые компьютерные коды, проведены численные расчеты, обработаны данные расчетов. Все представленные в диссертации результаты получены лично автором. В случае совместных публикаций автор принимал непосредственное участие в постановке задач, планировании экспериментов и анализе результатов.

Глава 1

Проблема исследуемая в рамках диссертационной работы в международном научном сообществе наиболее известна как "Document Image Quality Assessment" (DIQA)[1], Также, одним из основополагающих вопросов в данном случае является определение качества. Так, D. Doermann в статье [1] отмечает, что задача имеет как объективную, так и субъективную сторону. С одной стороны, предсказание качества распознавания документа может быть строго определено при помощи выбора системы распознавания, что позволяет в соответствие каждой фотографии документа поставить некоторое вещественное число, позволяющее метрически оценить качество. С другой стороны, важно отметить, что существует несколько систем распознавания фотографий документов (ABBYY OCR, Tesseract[2], OmniPage[3] и другие)[4], которые отличаются как сложностью, так и базовыми идеями, на основе которых построена каждая система, что снижает вероятность создания универсального решения. Кроме того, автор статьи отмечает, что предсказание качества распознавания документа не всегда зависит от результатов обработки документа некоторой системой, и зачастую может быть связано с субъективной оценкой пользователя [5,6]. Например, для таких программ, как FineScanner, основная цель оцифровки - это создание комфортных условий для просмотра и чтения документа без цели последующего распознавания. Тем самым, определение качества изображения документа зависит от конкретного сценария использования документа. Когда фотография используется некоторой OCR системой (например, для извлечения имени, фамилии, адреса и пр. из визитки), качество изображения документа может быть определено как точность OCR. С другой стороны, когда потребителем изображения документа является человек, DIQA должен выполняться с учетом человеческого восприятия. Стоит отметить, что несмотря на потенциальную

двойственность в постановке задачи, научное сообщество в основном сфокусировано на предсказании качества распознавания относительно конкретных систем OCR.

Ранние работы по DIQA

В силу того, что большинство документов оцифровывались при помощи сканера первые подходы к решению задачи DIQA рассматривали отнюдь не фотографии документов. Так, в статьях [7-9] рассматриваются модели оценки качества бинарных изображений документов, где авторы предлагали анализировать компоненты связности, размеры шрифта, строить оценки качества букв, чтобы затем выбирать правильные алгоритмы подготовки изображения к последующему распознаванию. В статье [10] авторы оценивают качество распознавания на полутоновых изображениях документов с использованием распределения градиентов на границах букв, сравнивая оригинальные версии слов с их искаженными вариантами.

Данные

Отдельно стоит обратить внимание на методы сравнения результатов в предметной области. К сожалению, до определенного момента, сравнить подходы авторов не представлялось возможным, т.к. в рамках публикаций сравнения и эксперименты производились на самостоятельно собранных данных, которые не публиковались. Впервые попытки предоставить исследователям подобные инструменты предпринималась J. Kumar в [16]. Данная статья описывает создание выборки, состоящей из серии фотографий документов различного качества, которые были обработаны в наиболее популярных OCR-системах: ABBYY FineReader, Tesseract, OmniPage. Для каждого изображения предоставлен результат работы OCR-системы на нем. Также в статье указано, что при

составлении выборки был использован инструмент «ISRI-OCR evaluation tool» [11] который позволил сравнить эталонный текст и результат распознавания OCR-системой. Таким образом построенная выборка дала возможность впоследствии сравнить многие методы оценки качества изображений. Для этого использовались критерий Спирмена, что по сути является ранговой корреляцией и критерий Пирсона, демонстрирующий линейную корреляцию между качеством распознавания документов OCR-системой и вычисленными коэффициентами резкости изображения. Основным недостатком собранных данных является их ограниченность: большинство документов имеют формат A4, основной язык английский.

Таким образом, становится актуальной разработка алгоритма, который бы позволил оценить качество фотографий документов вне зависимости от языка и класса документа на основе комбинирования современных методов машинного обучения и классических алгоритмов компьютерного зрения, позволяющих добиться высокой производительности.

Для сравнения методов в предметной области используются два основных набора данных: SOC[12] и SmartDoc-QA[13], Выборка SOC состоит из серий по 6-8 снимков 25 различных документов на английском языке из базы документооборота американских табачных компаний, что в сумме дает 175 фотографий. Стоит отметить, что это был первый и долгое время единственный набор данных, который позволял производить сравнение различным методов оценки качества. Однако, данная выборка обладает существенным недостатком: фотографии сделаны преимущественно на фоне, который достаточно легко фильтруется. Таким образом может оказаться, что алгоритм, показывающий высокое качество на данной выборке, не может быть применен на реальных данных.

В выборке БтаЛБос-С^А [13] находится 4260 изображений, которые были собраны в результате фотографирования 30 различных (далее базовых) А4 документов и чеков на английском языке с двух мобильных телефонов.

Honorable JohnFaso : -

Legislative Office Building Vfb- ь

Room 448 '<w >*y

Albany, NY 12248 ■ -Шлгту

Рисунок 1.

Разрешение снимков составило 3096x4128. Основным достоинством данной выборки является высокая вариативность с точки зрения условий освещения, перспективных и других искажений: 5 различных вариантов освещения, 4 варианта дефокусировки, присутствие 2 видов смаза и 5 позиций телефона по отношению к листу. Также данные отличаются большим количеством удачных примеров со смазом и различными локальными дефокусировками. В силу того, что снимки были получены в автоматическом режиме при помощи роботизированного механизма, важно отметить существенный недостаток выборки: наличие однородного фона красного цвета, (примеры см. на Рисунке 1)

Кроме того, как и в SOC в выборке присутствует минимальное количество типов документов, которые отличаются лишь тематикой.

Новая выборка ABBYY.OCRQ

В рамках проекта по анализу качества работы системы распознавания FineReader была собрана выборка фотографий различных документов для оценки качества работы системы. Выборка состояла из 13 классов: документы A4, паспорта, гербовая бумага, рукописные документы, чеки, визитки и карточки, книги, фотографии, объявления, презентации, журналы, газеты, (см. Рисунок 2) Кроме того, каждая фотография имеет ряд характеристик, достаточно точно описывающих ее

Рисунок 2.

качество, содержание и условия съемки: на столе, на весу, на улице/светлый фон, темный фон, разноцветный фон/потолочная рамка, настольная лампа накаливания, неравномерное освещение с тенью, уличный свет/текст, текст + картинки, текст + таблицы, таблицы, текст + печать/русский, английский, европейский, азиатский языки. В результате фильтрации малых классов и изображений, для которых отсутствовал базовый документ или его скан, была сформирована выборка АВВУУ.ОСКС^ состоящая из 4 типов документов: чеки, документы формата А4, визитки, Ш-карты. Кроме того, для каждого класса документов производилась дополнительная разметка по основному языку в документе: английский, японский, корейский и китайский языки. После сбора всех данных каждый документ был обработан автоматическим механизмом выделения границ с последующим исправлением перспективных искажений. Такие действия являются предварительной подготовкой к аугментации данных, т.к. для подмены фона, правильных случайных искажений необходимо собрать максимум информации о сцене. Кроме того, чтобы обеспечить строгое сравнение результатов, выборка была разделена на две части. Подбор параметров должен производиться на обучающей части с использованием кросс-валидации, что вполне возможно в силу размера выборки.

Приведем сводные таблицы распределения классов (Таблица 1):

Тгат ТеБ!

Визитки 1940 1238

А4 2697 2379

1с1-карты 2035 1263

Чеки 1841 1163

Таблица 1.

В процессе разбиения изображения были сгруппированы в пакеты по сериям и на этапе кросс-валидации разбиение происходило по пакетам, чтобы избежать

утечек в данных, когда документ с аналогичной структурой попадает и в обучающую выборку и в тестовую.

Также приведем сводную таблицу для языков (Таблица 2):

Train Test

English 2215 1359

Korean 1961 1621

Japan 2181 1487

Chinese 2156 1576

Таблица 2.

Также приведем распределение размеров серий для обучающей выборки (рисунок 3), суммарно 967 серий и 669 серий в тестовой выборке с аналогичным распределением:

Count Рисунок 3.

Чтобы оценить качество распознавания, каждая серия содержала сканированную версию документа с соответствующим качеством распознавания. Для полноты описания также приведем распределение качества распознавания системой ABBYY FineReader, (см. Рисунок 4, 5). Отметим достоинство выборки: высокую вариативность среди документов по качеству распознавания. Однако, отсутствие результатов распознавания для других публичных OCR систем является недостатком данных.

600-500 -400 -

4-J

С

о 300 -

о

200 -100 -о-

0.0 0.2 0.4 0.6 0.3 1.0

OCR QuaEity (Test)

Рисунок 4.

12000 -

10000 -

8000 -

-KJ

с

о 6000 -

и

4000 -2000 -о -

0.0 0.2 0.4 0.6 0.3 1.0

OCR Quality (Train)

Рисунок 5.

Алгоритм J. Kumar: ADom

В [14] был описан универсальный алгоритм для сравнения качества изображений. В рамках данной статьи вводятся понятия резкого и контурного пикселей, которые, по утверждению автора, напрямую влияют на качество распознавания. Математической интерпретацией для полутонового изображения размера MxN является матрица /[/, j] MxN, в каждой ячейке которой, записана интенсивность пикселя, т.е. V/, j : /е [О, М), [0; N] —►/ [ij] ^ [0; 1], причем за 0 принимается абсолютный черный цвет, а за 1 абсолютный белый цвет. Для вычисления производной достаточно рассматривать изображение, как сеточную функцию от двух переменных и, при необходимости вычисления ее значения в нецелых координатах, использовать алгоритмы интерполяции. Введенных выше определений достаточно, чтобы вычислять производную в точке, и как следствие в пикселе. Для каждого пикселя автор предлагает вычислять

АОотХ(1, у) = ((/ [/ + 2;у ] -1 [/;./]) - (I [г,Д -/ [/ - 2;у'])), что является дискретной версией второй производной по оси Ох. Аналогично можно вычислить вторую производную по оси Оу. Кроме того вычисляется локальный контраст

0= X / (к, / ) — ¡(к — 1, / )|, чтобы учитывать локальные яркости пикселей

изображения.

Стоит заметить, что интеграл от второй производной в локальной области дает приращение первой производной в данной области. Тогда для определения ширины контура достаточно найти соотношение между приращением первой

производной и контрастом: Ж = ^, где Р = X \Ы)отХ\. Таким образом

авторы строят интегральную оценку ширины контура в некотором окне. (см. пример на рисунке 6). Статья опирается на предположение о том, что у каждой ОСЯ-системы своя разрешающая способность, которая имеет определенную зависимость от толщины контура букв. Основной идеей данного алгоритма является поиск на изображении «контурных» пикселей, часть из которых считаются «резкими».

' Интесивность

4-1-1-1-(-

Пиксель

Рисунок 6.

Из соотношения количества этих пикселей вычисляется коэффициент резкости изображения, который и используется для оценки качества фотографии:

-р _ #Б1гагрР 1хеЬХ -р _ШкагрР ¡хеЬУ

КХ_ та8еР1хекХ ' Ж^шГ •

В качестве контурных пикселей автор статьи предлагает рассматривать те пиксели, в которых производная превышает определенный порог (0.0001). Будем считать пиксель резким, если оценка толщины контура в данном пикселе превосходит некоторого заранее выбранного порога. Получив, соотношения для

каждого направления производной вычислим и Сое// = ^(Мх)2 + (Ну У , который и будет использоваться для сравнения фотографий документов. Особенности реализации алгоритма из статьи [1]:

- Применяем медианную фильтрацию к исходному изображению.

- Вычисляем нормализованный на свой максимум модуль первой производной по осям Ох и Оу для фильтрованного изображения при помощи свертки с фильтрами Ох = (0.5; 0;- 0.5); Су = (0.5; 0;- 0.5).

- «Контурным» пикселем по оси {Ох или Оу) считаем тот пиксель, для которого производная по соответствующей оси превышает порог 0.0001.

- За размер окна для вычисления локального контраста и локального коэффициента М)от примем равным м? = \4 .

- Порог толщины контура: Бх, Бу = 5.0.

¡jlf.jft , ' кДОяЯ

шш-.

О. Jama бЦлп Chairman and President The Cowd for Tobectt 900. Third Avenue Sew Vert NY 10022

Dear Jim.

rour note npnnng sympMhj СТЯ <ш on my desk when I 'V 10 fly bade from Bruit* to New lr the «лт, Ш« local lituatio» ninety three needed a lot of he

Now. back in Vton/peg I take up the loose stung» I have competed the form for :fe Mexico meeting With luck we w* «lay on for a few «it/a days but the room rates it ihe Rm are loo titzy »or my po*t budget, V»e shall look elsewhere. Joyce send warm greeting* to you Gail and we look forward with pleasure to teeing you *i February.

Sincerely

-

Omni lond H. Bowden

Q

/

Рисунок 7.

На рис. 7 первая пара изображений исходный документ и его контурные пиксели. Вторая пара характеризует отсечение контурных пикселей по порогу и выбор соответствующих блоков.

В итоге предложенный в статье [14] алгоритм, строит интегральную оценку качества изображения и требует вычисления второй производной. Такие требования позволили предложенному подходу значительно превзойти по скорости работы методы оценки качества изображений в несколько раз. Кроме

того, это один из единственных универсальных алгоритмов, применимых к любым фотографиям. В то же самое время, работа имеет несколько существенных недостатков:

- При построении оценки пиксель может внести вклад в общую оценку несколько раз в зависимости от порогового значения.

- Критерий выбора контурных пикселей может добавлять в оценку не только буквы, но и границы документа, линии таблиц и прочие шумовые объекты.

- Медианная фильтрация предлагаемая, как основной метод борьбы с шумом известна тем, что в результате разрушаются контуры изображения, что, конечно же, может испортить оценку.

Нейросетевые методы

Camera Captured DIQA with Linearity and Monotonicity Constraints

В статье [15] авторы предлагают для оценки качества фотографий обучить сиамскую сеть [16]. (см. Рисунок 8) На вход модели предлагается подавать части фотографии документов с целью предсказания качества распознавания. Предложенные методики позволяют получить наилучшие результаты в предметной области на текущий момент. Однако, стоит отметить ряд недостатков работы, которые не позволяют считать результаты достоверными с точки зрения практической применимости.

Рисунок 8.

Как уже ранее отмечалось, выборки в для задачи DIQA достаточно небольшие и авторы разделяют выборку на обучающую часть и тестовую, равномерно выбирая среди всех фотографий, что повышает вероятность попадания одного и того же документа в обе части выборки. Подобный подход вносит существенный байес в решение и не позволяет гарантировать работу модели на других данных. В случае подобной "утечки" данных метод стоит отнести к reference-based алгоритмам, в которых оценка качества происходит при наличии некоторой базы документов с известным для них качеством. Также стоит отметить, что предложенная модель является достаточно тяжеловесной, что не позволяет перенести ее на мобильное устройство.

A text line based framework and a synthetic text line image dataset

Основная идея данной статьи [17] заключается в выделении и последующем анализе строк документа. Общий подход к анализу фотографии изображен на рисунке 9. На первом этапе предлагается использовать детектор текста, и затем при помощи заранее обученной на синтетических данных модели оценивать качество каждого региона с текстом. Тем самым, оценка качества документа строится как взвешенная сумма оценок найденных текстовых регионов.

Text Sine area

Sragel Stage 2 Stage3

Рисунок 9.

Авторы рассматривают несколько механизмов для поиска текста, адаптируют их для увеличения полноты, т.к. потерянный текст напрямую влияет на итоговую оценку. Несомненно, к достоинствам подхода нужно отнести: возможность диагностики некачественных регионов

- слабая зависимость от обучающих данных, т.к. выборки для детектирования текста достаточно большие, а современные системы рендеринга позволяют получить неограниченное число фотографий текстовых строк на любом языке

- отличная декомпозиция задачи позволяет четко контролировать и оценивать качество работы модели на всех этапах

Однако, модель обладает рядом существенных недостатков:

- Большинство моделей для поиска текста достаточно тяжеловесны с точки зрения размера, а мобильные версии ограничены поддержкой определенного языка, масштабом детектируемого текста и качеством.

- Детекторы текста очень чувствительны к масштабу изображений, что не является препятствием для современных OCR-систем, что закладывает априорный байес в метод оценки.

Постановка задач диссертации

После анализа представленных в предметной области методов основными задачами диссертации являются:

1. Разработка метода анализа фотографии документа, обладающего следующими свойствами:

- Локально-адаптивный: метод должен учитывать смену контраста на снимке, вариативность масштаба текста и структуры документа

- Время работы на одном кадре в видеопотоке на мобильном устройстве не должно превышать 50ms (базовое требование для внедрения в продукты ABBYY)

- В процессе обработки изображения должен производится более комплексный анализ фотографии: алгоритм должен работать не только на пиксельном уровне, но и на глобальном уровне, связанном со структурой документа.

- Метод должен быть достаточно гибким, чтобы применяться к различным типам документов и сцен

- Методы разработанные для оценки качества должны быть применимы в других задачах, т.к. комплексная система анализа фотографии документа на

мобильном устройстве предполагает ограниченность ресурсов и необходимо максимально переиспользовать вычисленные данные.

- Алгоритм должен оценивать качество букв на снимке, чтобы обеспечить точность

2. Необходимо исследовать применение разработанных алгоритмов к другим задачам мобильного OCR с целью выявления практической применимости

3. Необходимо построить модели машинного обучения для решения целевых задач: качество распознавания OCR, классификация, детектирование объектов.

4. Необходимо исследовать разработанные методы на предмет производительности, сравнить показатели скорости и требуемую память для хранения моделей.

Глава 2

Общая схема алгоритма

разделение серого изображения на неперекрывающиеся блоки

для каждого непериметрального блока серого изображения -Э

определить контраст блока С,-

еще блоки?

Гнет

сформировать

бинаризованное

изображение из

серого

изображения

для каждого непериметрального блока г на бинаризованном

сером изображении -$

__^_

кол-во контуров (блок |)

_¿к_

контуры И = кол-во контуров

Рисунок 10.

Разработка алгоритма обладающего указанными в Главе 1 свойствами может быть реализована за счет работы нескольких компонент: механизм извлечения текста, оценка структуры документа, оценка границ документа, критерии для оценки смаза и дефокусировки. Основная идея подхода заключается в том, что мы хотим достаточно точно найти текст на снимке, определить контуры букв. Затем, мы построим свою оценку числа резких пикселей. Также мы определим несколько коэффициентов позволяющих оценить уровень дефектов на снимке. Кроме того, мы воспользуемся тем, что текст уже выделен, проанализируем буквы: оценим их размер, количество и прочие характеристики. Чтобы учесть принцип локальности, мы разобьем все изображение на непересекающиеся блоки размера S и будем применять критерий смаза\расфокусировки внутри блока. Построенные оценки мы будем агрегировать в гистограмму. В силу того, что все изображение будет разбито на регионы, достаточно разработать методы для вычисления признаков в блоке SxS и методы агрегирования признаков из данных блоков для всего изображения. Такая схема позволяет на любом этапе анализа отбрасывать блоки, которые мешают оценке: регионы с краями документа, фоновые блоки и прочее. Общая схема алгоритма изображена на рисунке 10.

Поиск и выделение текста

В дополнение к блочному анализу фотографии документа был разработан механизм извлечения текста с изображения. В области OCR задача поиска текста на фотографии достаточно популярна и проработана. В процессе разработки алгоритма было предложено несколько вариантов с соответствующей постановкой задачи:

Рисунок 11.

1) Классический подход для извлечения текста подразумевает постановку задачи бинаризации, где в соответствие заданному изображению предоставляется другое бинарное изображения, пиксели которого принимают значение 1, если пиксель принадлежит тексту и 0, если пиксель принадлежит фону, (пример см. Рисунок 12)

2) В силу того, что применяемый механизм анализа текста является

7 ~

_ ^

¿С г г »/¿Ч С <7 < < ¿"X,

Ш £ 1/7—>

/о ¿¿V

С/^ Ь ¿г Уг с*

у/

¿С. ьЛт^ х

Рисунок 12.

поблочным, достаточно построить модель детектирования текста, которая, принимая на вход фотографию, выдает множество многоугольников (в частном случаем множество прямоугольников), которые обозначают регионы с текстом. Однако, этот метод может быть применен только для уточнения: есть ли текст в данном регионе и стоит ли строить оценку резкости для рассматриваемого блока, (пример см. Рисунок 11) Приведем метод бинаризации изображения. Воспользуемся предложенным ранее разбиением изображения на блоки £ х £. В каждом блоке вычислим локальный динамический диапазон. Динамическим диапазоном изображения является разность максимума и минимума интенсивности в блоке. Диапазон вычисляется из гистограммы интенсивностей с квантилями 1% и 99%, что позволит отбросить шумовые пиксели. Порог бинаризации изображения выбирается, как середина динамического диапазона: Т = ш + 1тах), что эквивалентно середине между первым левым и правым ненулевыми значениями в гистограмме. В качестве альтернативы можно предложить бинаризацию [18], в основе которой лежит идея о том, что распределения интенсивностей фоновых и текстовых пикселей являются нормальными. Тогда остается найти оптимальный порог для интенсивности, который бы разделил два распределения. Процесс перебора основывается на минимизации взвешенной суммы оценок дисперсии для каждого распределения.

В особых случаях оценку бинаризации можно уточнять рекурсивно. Для этого достаточно, в локальном блоке изображения выкинуть все пиксели со значением равным текущей оценке порога бинаризации, построить для меньших и больших порога значений соответствующие гистограммы интенсивностей и найти в них середины динамических диапазонов ТТ2 . Тогда новым порогом бинаризации

174 Woverley Str&eT Winnipeg. MorJ'obc

R3M 3L1 Phone (204) 43Й-0013

October 4,1995

Dr. James F. Glenn

Chairman and President

The Council for Tobacco Research

900, Third Avenue

New York NY 10022

Dear Jim,

Your note expressing sympathy on beha!f of my colleagues and friends at CTR was on my desk when I returned from Britain. Thank you. I had hoped :o fly back from Bristol to New York to catch at least part of the meeting. In the event, the local situation proved to be overwhelming; my mother of ninety three needed a lot of help. I am sorry to have let you down but it was unavoidable.

Now. back in Winnipeg I take up the loose strings. I have completed the form for the Mexico meeting. With luck we will stay on for a few extra days but the room rates at the Ritz are too Ritzy for my post retirement budget. We shall look eisewhere. Joyce send warm greetings to you and to Gail and we took forward with pleasure to seeing you in February.

Sincerely

174 Woveiley Sheet Winnipeg, Manitoba

R3M3L1 Phone (204) 480-0013

October 4,1995

Dr. James F. Glenn

Chairman and President

The Council for Tobacco Research

900, Third Avenue

New York NY 10022

Dear Jim,

Your note expressing sympathy on behalf of my colleagues and friends at CTR was on my desk when I returned from Britain. Thank you. I had hoped to fly back from Bristol to New York to catch at least part of the meeting. In the event, the local situation proved to be overwhelming; my mother of ninety three needed a lot of hefp. I am sorry to have let you down but it was unavoidable.

Now, back in Winnipeg I take up the loose strings. I have completed the form for the Mexico meeting. With luck we will stay on for a few extra days but the room rates at the Ritz are too Ritzy for my post retirement budget. We shall look elsewhere. Joyce send warm greetings to you and to Gail and we look forward with pleasure to seeing you in February.

Sincerely

Рисунок 13.

будет среднее между этими значениями: Т = \{TY + Т2) ■ (пример см. Рисунок

Одной из основных проблем в процессе бинаризации являются фоновые блоки, бинаризация которых не делает их белыми. Данных блоки имеют маленький динамический диапазон и должны быть рассмотрены отдельно. Наилучшим способом является отсечение таких блоков по порогу динамического диапазона (30-50). Для того чтобы улучшить качество и добавить устойчивости модели, необходимо разработать быстрый и компактный алгоритм, который бы позволил анализировать текст документа. Как уже ранее отмечалось, задача детектирования текста достаточно популярна в научном сообществе[19-24], однако предметная область также насыщена решениями главным фокусом, которых является максимизация качества, но не компактность. Так, в статье Segmented Links [20] в качестве базовой компоненты детектора авторы используют нейросеть VGG, которая в совокупности с другими компонентами требует порядка 1GB, что не представляется возможным перенести на телефон.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Список литературы диссертационного исследования кандидат наук Орлов Никита Константинович, 2020 год

Список литературы

1. Ye Р, Doermann D. Document Image Quality Assessment: A Brief Survey. 2013 12th International Conference on Document Analysis and Recognition. 2013. cc. 723-727.

2. Smith R. An Overview of the Tesseract OCR Engine. Ninth International Conference on Document Analysis and Recognition (ICDAR 2007). 2007. cc. 629-633.

3. Steinke K. Improvement of Omnipage 18's efficiency. 2012 IEEE International Conference on Computer Science and Automation Engineering (CSAE). 2012. cc. 434-438.

4. Tafti AP, Baghaie A, Assefi M, Arabnia HR, Yu Z, Peissig P. OCR as a Service: An Experimental Evaluation of Google Docs OCR, Tesseract, ABBYY FineReader, and Transym. Advances in Visual Computing. Springer International Publishing; 2016. cc. 735-746.

5. Hale C, Barney-Smith E. Human Image Preference and Document Degradation Models. Ninth International Conference on Document Analysis and Recognition (ICDAR 2007). 2007. cc. 257-261.

6. QUAD: quality assessment of documents | Semantic . Извлечено: https://www.semanticscholar.org/paper/QUAD%3A-quality-assessment-of-docume nts-Deepak-Ramakrishnan/7bfec723c6435bcd4e04615faf8d5e4950cl6729

7. Cannon M, Hochberg J, Kelly P. Quality assessment and restoration of typewritten document images. Int J Doc Anal Recogn. 1999 r.;2: 80-89.

8. Blando LR, Kanai J, Nartker ТА. Prediction of OCR accuracy using simple image

features. Proceedings of 3rd International Conference on Document Analysis and Recognition. 1995. cc. 319-322 vol.1.

9. Souza A, Cheriet M, Naoi S, Suen CY. Automatic filter selection using image quality assessment. Seventh International Conference on Document Analysis and Recognition, 2003 Proceedings. 2003. cc. 508-512 vol.1.

10. Peng X, Cao H, Subramanian K, Prasad R, Natarajan P. Automated image quality assessment for camera-captured OCR. 2011 18th IEEE International Conference on Image Processing. 2011. cc. 2621-2624.

11. Rice SV, Kanai J, Nartker TA. The third annual test of OCR accuracy. 1994 Annual Report of ISRI, University of Nevada, Las Vegas. 1994 r.; 11-40.

12. Kumar J, Ye P, Doermann D. A Dataset for Quality Assessment of Camera Captured Document Images. Camera-Based Document Analysis and Recognition. Springer International Publishing; 2014. cc. 113-125.

13. Nayef N, Luqman MM, Pram S, Eskenazi S, Chazalon J, Ogier J. SmartDoc-QA: A dataset for quality assessment of smartphone captured document images - single and multiple distortions. 2015 13th International Conference on Document Analysis and Recognition (ICDAR). 2015. cc. 1231-1235.

14. Kumar J, Chen F, Doermann D. Sharpness estimation for document and scene images. Proceedings of the 21st International Conference on Pattern Recognition (ICPR2012). 2012. cc. 3292-3295.

15. Peng X, Wang C. Camera Captured DIQA with Linearity and Monotonicity Constraints. Document Analysis Systems. Springer International Publishing; 2020. cc. 168-181.

16. Koch G, Zemel R, Salakhutdinov R. Siamese neural networks for one-shot image

recognition. ICML deep learning workshop. Lille; 2015. Извлечено: http://www.cs.toronto.edu/~gkoch/files/msc-thesis.pdf

17. Li H, Zhu F, Qiu J. Towards Document Image Quality Assessment: A Text Line Based Framework and a Synthetic Text Line Image Dataset. 2019 International Conference on Document Analysis and Recognition (ICDAR). 2019. cc. 551-558.

18. Otsu N. A threshold selection method from gray-level histograms. IEEE Trans Syst Man Cybern. 1979 r.;9: 62-66.

19. Zhang Z, Zhang C, Shen W, Yao C, Liu W, Bai X. Multi-oriented text detection with fully convolutional networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016. cc. 4159-4167.

20. Shi B, Bai X, Belongie S. Detecting oriented text in natural images by linking segments. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017. cc. 2550-2558.

21. Zhou X, Yao C, Wen H, Wang Y, Zhou S, He W, и др. East: an efficient and accurate scene text detector. Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2017. cc. 5551-5560.

22. Xing D, Li Z, Chen X, Fang Y. ArbiText: Arbitrary-Oriented Text Detection in Unconstrained Scene. arXiv [cs.CV], 2017. Извлечено: http://arxiv.org/abs/1711.11249

23. Liao M, Zhu Z, Shi B, Xia G-S, Bai X. Rotation-sensitive regression for oriented scene text detection. Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. cc. 5909-5918.

24. Liu X, Liang D, Yan S, Chen D, Qiao Y, Yan J. Fots: Fast oriented text spotting with a unified network. Proceedings of the IEEE conference on computer vision and

pattern recognition. 2018. cc. 5676-5685.

25. Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv [cs.CV], 2014. Извлечено: http://arxiv.org/abs/1409.1556

26. Sandler M, Howard A, Zhu M, Zhmoginov A, Chen L-C. Mobilenetv2: Inverted residuals and linear bottlenecks. Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. cc. 4510-4520.

27. Elsen E, Dukhan M, Gale T, Simonyan K. Fast sparse convnets. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020. cc. 14629-14638.

28. Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C-Y, и др. SSD: Single Shot MultiBox Detector. Computer Vision - ECCV 2016. Springer International Publishing; 2016. cc. 21-37.

29. Filonenko A, Gudkov K, Lebedev A, Zagaynov I, Orlov N. FaSTExt: Fast and Small Text Extractor. 2019 International Conference on Document Analysis and Recognition Workshops (ICDARW). 2019. cc. 49-54.

30. Hauck EL. Data compression using run length encoding and statistical encoding. US Patent. 4626829, 1986. Извлечено:

https://patentimages.storage.googleapis.com/3a/cb/ce/9874742bb696a9/US4626829 .pdf

31. Chen T, Guestrin C. XGBoost: A Scalable Tree Boosting System. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA: Association for Computing Machinery; 2016. cc. 785-794.

32. Li H, Zhu F, Qiu J. CG-DIQA: No-Reference Document Image Quality Assessment Based on Character Gradient. 2018 24th International Conference on Pattern Recognition (ICPR). 2018. cc. 3622-3626.

33. Kang L, Ye P, Li Y, Doermann D. A deep learning approach to document image quality assessment. 2014 IEEE International Conference on Image Processing (ICIP). 2014. cc. 2570-2574.

34. Chen N, Blostein D. A survey of document image classification: problem statement, classifier architecture and performance evaluation. International Journal of Document Analysis and Recognition (IJDAR). 2007 r.;10: 1-16.

35. He K, Zhang X, Ren S, Sun J. Deep residual learning for image recognition. Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. cc. 770-778.

36. Howard A, Sandler M, Chu G, Chen L-C, Chen B, Tan M, и др. Searching for mobilenetv3. Proceedings of the IEEE International Conference on Computer Vision. 2019. cc. 1314-1324.

37. Ioffe S, Szegedy C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. arXiv [cs.LG], 2015. Извлечено:

http ://arxiv. org/abs/1502.03167

38. Rodin D, Orlov N. Fast Glare Detection in Document Images. 2019 International Conference on Document Analysis and Recognition Workshops (ICDARW). 2019. cc. 6-9.

39. Ulyanov D, Vedaldi A, Lempitsky V. Instance Normalization: The Missing Ingredient for Fast Stylization. arXiv [cs.CV], 2016. Извлечено: http://arxiv.org/abs/1607.08022

40. Ronneberger О, Fischer P, Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation. Medical Image Computing and Computer-Assisted Intervention - MICCAI 2015. Springer International Publishing; 2015. cc. 234-241.

Патенты и публикации автора по теме диссертации

1. Method and system that determine the suitability of a document image for optical character recognition and other image processing /1. Zagaynov, V. Loginov, N. Orlov, 2017-01-17, RU2608239

2. Automatic definition of set of categories for document classification / N. Orlov, K. Anisimovich, 2019-10-19, RU2701995

3. D. Rodin and N. Orlov, Fast Glare Detection in Document Images; 2019 International Conference on Document Analysis and Recognition Workshops (ICDARW), Sydney, Australia, 2019, pp. 6-9, doi:10.1109/ICDARW.2019.60123.

4. FaSTExt: Fast and Small Text Extractor / A Filonenko, К Gudkov, A Lebedev, I Zagaynov, N Orlov, 2019 International Conference on Document Analysis and Recognition Workshops, IEEE, vol 4. pp. 49-54

5. Method and system that determine the suitability of a document image for optical character recognition and other image processing /1. Zagaynov, V. Loginov, N. Orlov, 2017-10-12, US15165512

6. Automatic definition of set of categories for document classification / N. Orlov, K. Anisimovich, 2019/9/26, US 15939092

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.