Исследование, развитие и реализация методов автоматического распознавания рукописных текстов в компьютерных системах тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат физико-математических наук Ян, Давид Евгеньевич
- Специальность ВАК РФ05.13.18
- Количество страниц 179
Оглавление диссертации кандидат физико-математических наук Ян, Давид Евгеньевич
ВВЕДЕНИЕ.
ГЛАВА 1. АНАЛИЗ ПРОБЛЕМЫ.
1.1 Структуризация задачи автоматизированного ввода рукописных документов.
1.2 Роль распознавания одиночного символа в задаче ввода рукописных документов.
1.3 Выводы.,.
ГЛАВА 2. ОБЗОР ЛИТЕРАТУРЫ.
2.1 Предварительная обработка изображения символа.
2.2 Вычисление признаков.
2.3 Построение классификатора.
2.4 Структурное распознавание.
2.5 Комбинирование распознавателей.
2.6 Выводы.
ГЛАВА 3. РЕШЕНИЕ ПОСТАВЛЕННОЙ ЗАДАЧИ.
3.1 Постановка задачи.
3.2 Принцип целостности, целенаправленности и использования контекста.
3.3 Метод целостного, целенаправленного многоуровневого применения растрового, признаковых и структурного классификаторов.
3.4 Векторное изображение.
3.5 Приведение изображений для классификаторов.
3.6 Выводы.
ГЛАВА 4. ПРИЗНАКОВЫЕ МОДЕЛИ РАСПОЗНАВАЕМОГО ОБЪЕКТА.
4.1 Признаки на растровом изображении.
4.2 Признаки на векторном изображении.
4.3 Описание признакового классификатора.
4.4 Дифференциальные признаковые эталоны.
4.5 Выводы.
ГЛАВА 5. СТРУКТУРНАЯ МОДЕЛЬ РАСПОЗНАВАЕМОГО ОБЪЕКТА.
5.1 Общая схема работы структурного классификатора.
5.2 Описание структурных элементов.
5.3 Выделение структурных элементов.
5.4 Сопоставление структурного эталона с изображением.
5.5 Методика разработки структурных описаний.
5.6 Построение структурных описаний.
5.7 Базы изображений.
5.8 Выводы.
ГЛАВА 6. РЕЗУЛЬТАТЫ ИСПЫТАНИЙ.
6.1 Испытания простого растрового классификатора.
6.2 Испытания признакового классификатора на растре.
6.3 Испытания признакового классификатора на векторе.
6.4 Испытания полной процедуры распознавания.
6.5 Сравнение полученных результатов с результатами аналогичных систем.
6.6 Выводы.
ГЛАВА 7. РЕАЛИЗОВАННЫЕ ПРОГРАММНЫЕ СИСТЕМЫ И ВНЕДРЕНИЯ
7.1 Обзор реализованных программных систем.
7.2 Министерство образования. Единый государственный экзамен.
7.3 Центр тестирования Министерства образования РФ.
7.4 Пенсионный фонд России.
7.5 Министерство по Налогам и Сборам России.
7.6 Федеральная Служба Налоговой Полиции России.
7.7 Правительство Москвы.
7.8 Национальная Служба Новостей (НСН).
7.9 Банковский сектор.
7.10 Маркетинговое агентство СканМаркет.
7.11 АО "Kauno energija".
7.12 АДИДАС.
7.13 Выводы.
Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных2000 год, кандидат технических наук Терещенко, Вадим Владиславович
Обработка и распознавание рукописного текста в системах электронного документооборота2008 год, кандидат технических наук Горошкин, Антон Николаевич
Комбинированные алгоритмы в задачах распознавания текстов2000 год, кандидат технических наук Славин, Олег Анатольевич
Разработка алгоритмов распознавания рукописных символов на основе аналитических свойств изображения2010 год, кандидат физико-математических наук Сорокин, Андрей Игоревич
Разработка и исследование методов распознавания рукописных арабских текстов2003 год, кандидат технических наук Салюм Саид Салех
Введение диссертации (часть автореферата) на тему «Исследование, развитие и реализация методов автоматического распознавания рукописных текстов в компьютерных системах»
В связи с повсеместным распространением технологий обработки и хранения информации в электронном виде, перед создателями программного обеспечения возник широкий комплекс задач, связанных с распознаванием образов: от распознавания рисунка радужной оболочки человеческого глаза, дактилоскопических линий и лиц, автомобильных номеров до распознавания речи и печатных или рукописных документов.
По методам решения и актуальности задачи распознавания образов можно разделить на несколько групп:
1. Распознавание символов - задача ввода текстовой информации в компьютер с f , последующим выявлением и классификацией отдельных символов.
2. Распознавание сцен - задача выделения на представленном электронном изображении отдельных объектов и отнесение их к тому или иному классу.
3. Распознавание речи - задача ввода речевой информации в информационные системы.
4. Распознавание биометрических данных - распознавание человеческих лиц, радужной оболочки глаза, дактилоскопических линий, тепловой карты ладони и пр.
5. Другие задачи распознавания.
Следует заметить, что проблема распознавания образов, возникшая первоначально в связи с необходимостью решать задачи зрительного анализа, сегодня поставила перед создателями автоматизированных систем новую крупномасштабную задачу - ввод огромных объемов информации с бумажных документов в компьютер. Концепция «безбумажного предприятия», получившая широкую известность уже во второй половине XX века и давшая импульс для создания и развития особых технологий обработки и распознавания текстовой информации, до сих пор не реализована на сто процентов даже в рамках одного предприятия - часть информации все равно остается в бумажном виде, и для этого есть весьма серьезные причины:
1. Коммуникативный аспект. Предприятие не существует изолированно, оно взаимодействует со своими клиентами, партнерами, подрядчиками, государством и т. д.
2. Законодательный аспект. На сегодняшний день в правовом регулировании деятельности предприятий во многих странах признаются только бумажные документы, что неизбежно увеличивает их поток. \
3. Технологический аспект. В учреждениях, работающих с населением, бумага пока остается единственным общедоступным средством передачи информации, поскольку далеко не у всех учреждений, предприятий, организаций (и уж тем более у физических лиц) есть персональные компьютеры и соответствующие средства связи.
4. Исторический аспект. Задача ввода в компьютер ранее созданных бумажных документов остается нерешенной для предприятия даже при высоком уровне автоматизации документооборота. Архивы размером в десятки миллионов страниц не являются редкостью для средних и крупных предприятий. Информация, хранящаяся в этих архивах, часто необходима для анализа и прогнозирования будущей деятельности. В последнее время стали активно внедряться технологии многомерного анализа и так называемой «информационной проходки» (data-mining), позволяющие глубоко исследовать скрытые зависимости путем анализа огромных массивов данных [1].
5. Культурный аспект. Особенности менталитета руководства и многолетние деловые традиции часто оказываются серьезным препятствием на пути к полному переходу на безбумажные технологии. Весьма распространена и такая ситуация: документ изначально подготавливается с помощью компьютера, а затем распечатывается и существует уже в бумажном виде.
Комплекс задач по распознаванию символов можно разделить на два больших класса - распознавание машинопечатных символов и распознавание рукописных символов. В свою очередь распознавание рукописных символов также делится на два класса задач:
1. Распознавание рукописной информации, введенной с помощью специальных сенсорных площадок или с сенсорного экрана (touch screen).
2. Распознавание рукописной информации с бумажных носителей.
Первый класс задач, так называемая проблема «on-line recognition», отличается от второго тем, что помимо собственно двумерной графической информации позволяет использовать важную дополнительную информацию в процессе распознавания в виде временной координаты и информации о силе нажима в процессе письма.
Второй класс задач, так называемая проблема «off-line recognition», существенно сложнее в решении, так как использует только двумерную графическую информацию, получаемую со сканера. Кроме того, в отличие от изображений первого класса задач, рукописные символы на бумажных носителях имеют большое количество систематических и несистематических дефектов, таких как: меняющаяся яркость штриха, заливки, склейки, разрывы, возникающие из-за неоднородности бумаги, чернил и дефектов пишущих инструментов.
Если технологии ввода машинопечатных документов (распознавания машинопечатных символов) и технологии on-line recognition достигли серьезных успехов, то задача ввода рукописных символов с бумажных носителей находится в процессе активной разработки.
Среди основных практических задач, требующих ввода рукописных документов с бумажных носителей в информационные системы, можно выделить следующие: перепись населения, ежегодные налоговые декларации и пенсионные формы, голосование с помощью бумажных бюллетеней, Единый Государственный экзамен, платежные документы, статистические отчеты предприятий, анкетирование населения и т.д.
Одной из актуальнейших практических проблем остается задача распознавания адреса на почтовых конвертах. Почтовые системы во многих странах мира до сих пор используют ручную сортировку корреспонденции. По самым скромным оценкам, количество почтовых отправлений измеряется десятками миллиардов в год. Хотя многие страны частично решают задачу компьютеризации почтовых операций, вводя написание почтового индекса по направляющим линиям или стимулируя отправителей использовать маркировку с помощью штриховых кодов, объем корреспонденции, обрабатываемой вручную, остается очень большим. Поэтому в настоящее время почтовые ведомства многих развитых стран активно финансируют исследования в области распознавания образов [2,3].
Весьма важны также результаты распознавания квитанций и чеков в банках. В связи с тем, что количество владельцев электронных карточек и чековых книжек во всем мире исчисляется сотнями миллионов, порождается очень большой объем рукописных документов и возникает задача автоматического ввода данных с квитанции в информационные системы [4,5]. Во многих странах распространенной практикой является оплата товаров и услуг с помощью чековых книжек и кредитных карточек. При совершении покупки или иного платежа оформляется квитанция (slip), в которой указываются сумма, имя клиента, номер карточки и т. д. Затем эти квитанции передаются в банки, которые перечисляют по ним деньги со счета покупателя карточки на счет соответствующего предприятия. Соответственно, возникает задача ввода данных с квитанции в компьютер.
Несмотря на большую востребованность технологий рукописного распознавания с бумажных носителей нельзя сказать, что в настоящее время эти технологии используются повсеместно. Это связано с требованием высокой точности распознавания в условиях колоссальной вариабельности объектов. Под высокой точностью распознавания понимается точность, сравнимая или превосходящая точность альтернативных способов ввода информации, к примеру, точность работы человека. Что касается вариабельности рукописных символов, то достаточно сказать, что количество различных почерков людей может превышать сотни миллионов. Более того, задача усложняется за счет: а) чрезвычайной вариабельности символов в рамках почерка отдельного человека, б) наличия систематических и несистематических дефектов распознаваемого изображения, в) отсутствия возможности обучения конкретному почерку в процессе использования системы.
Подводя итог вышесказанному можно заключить, что на современном этапе развития технологии автоматизированного ввода машиночитаемых документов в компьютер чрезвычайно актуальной является задача создания классификатора рукописных символов, превосходящего по точности альтернативные способы ввода информации с бумажных носителей, а также малочувствительного к вариабельности символов и к дефектам изображения.
Цель работы
Целью настоящей диссертационной работы является разработка новых методов построения классификаторов и создание новой структурной модели эталонов распознаваемых объектов, позволяющих решать более широкий класс задач в области распознавания символов, чем известно в литературе. В отличие от известных методов распознавания, разрабатываемый метод должен обеспечивать высокую точность распознавания (преодолевающую порог применимости) при распознавании таких объектов, как рукописные символы в двумерном графическом представлении (без информации о траектории написания), без предварительной настройки на почерк пишущего, при наличии естественных дефектов изображения (разрывы, склейки, заливки).
Новизна работы
1. Разработан новый метод распознавания рукописных символов, основанный на целостном, целенаправленном многоуровневом применении растровых, признаковых с признаками на растре, признаковых с признаками на векторе, структурных классификаторов и парных дифференциальных классификаторов.
2. Предложена структурная модель представления рукописных символов, допускающая применение нового метода построения структурного классификатора, основанного на принципах целостности, целенаправленности и использования контекста.
3. Разработаны новые признаковые модели рукописных символов, которые могут быть использованы в методе целостного, целенаправленного многоуровневого применения растрового, признаковых и структурного классификаторов.
4. Разработаны и реализованы алгоритмы поиска на изображении объектов, удовлетворяющих структурному описанию; разработаны методы составления и настройки структурных описаний символов.
5. Создана основа для дальнейших исследований в области поиска наиболее эффективных средств описания структурных эталонов, развития методов построения дифференциальных классификаторов, разработки процедур автоматического создания структурных эталонов, формирования репрезентативных баз символов в различных предметных областях.
Положения, выносимые на защиту
1. Разработанный метод распознавания изображений основывается на целостном, целенаправленном многоуровневом применении классификаторов, в число которых входят: растровый классификатор, дифференциальный растровый классификатор, признаковый классификатор с признаками на растре, признаковый классификатор с признаками на векторе, дифференциальный признаковый классификатор и структурный классификатор.
2. Предложенный метод целостного, целенаправленного поэтапного применения растрового, признаковых и структурного классификаторов позволяет добиться более высокой точности, чем точность известных признаковых и структурных классификаторов и вариантов их комбинаций. В частности, сравнение точности ввода рукописных цифр с использованием этого метода, с аналогичными данными классификаторов, разработанных двумя ведущими исследовательскими центрами США и Канады, показывает значительное преимущество первого: 99,8% по сравнению с 98,09% у лучшего из описанных в литературе классификатора «GSC» (центр CEDAR, США).
3. Разработанный структурный классификатор осуществляет сопоставление эталона непосредственно с исходным изображением, а не с заранее просчитанными признаками.
4. Разработанная модель структурных описаний эталонов распознаваемых объектов, в отличие от классических моделей представления знаний о распознаваемых объектах, позволяет задавать произвольные отношения между объектами через функции нечетких оценок и обладает достаточным быстродействием, чтобы использоваться для распознавания символов в реальном времени.
5. Разработанные новые алгоритмы поиска структурных элементов на изображении позволяют путем целенаправленного поиска выделять их с высокой надежностью даже при наличии таких дефектов изображения, как склейки, разрывы, заливки.
6. Предложенная новая схема решающего правила уточняет результаты основного классификатора с помощью специализированных дифференциальных парных классификаторов.
7. Разработанная программная система «FormReader», в которой был реализован метод целостного, целенаправленного поэтапного применения растрового, признаковых и структурного классификаторов, по результатам внедрения в нескольких десятках российских и зарубежных организаций показала преимущества данного метода по сравнению с альтернативными способами ввода рукописных документов.
Личный вклад соискателя
Все приводимые в диссертации результаты, относящиеся к разработке методов распознавания символов, разработке моделей изучаемых объектов, проведении численных расчетов и экспериментов, получены лично соискателем или при его непосредственном участии.
На этапе теоретических исследований вклад соискателя заключается в выдвижении принципиально новых идей, в частности: в предложении комбинировать в одной системе распознавания более одного полного признакового классификатора, в формулировании в общем виде метода целостного, целенаправленного, многоуровневого поэтапного применения растрового, признаковых и структурного классификаторов, в создании новых наборов признаков для признакового и структурного классификаторов. На этапе разработки и реализации системы вклад соискателя - в разработке нового алгоритма поиска структурных элементов; в проведении численных расчетов; в разработке и участии в создании программной системы FormReader. На этапе апробации - в проведении экспериментов, в анализе и обсуждении результатов.
Научная и практическая значимость результатов
Разработанный и реализованный метод целостного, целенаправленного многоуровневого применения растрового, признаковых и структурного классификаторов не только позволил добиться высокой точности распознавания при большой вариабельности таких объектов, как латинские и кириллические рукописные символы, но и создал теоретическую и практическую основу для применения этого метода к проблеме распознавания таких объектов, как китайские и японские иероглифы, арабская вязь и прочие рукописные символы, обладающие колоссальной вариабельностью и большим количеством классов.
В настоящей работе получила развитие важная концепция целостности и целенаправленности в теории распознавания.
Так, в разработанной модели структурного классификатора структурные элементы на изображении не выделяются заранее. Вместо этого, поиск элементов делается целенаправленно, прямо в процессе сопоставления эталона с изображением, с использованием априорной информации о символе и атрибутов уже выделенных элементов символа. Это позволяет устойчиво выделять элементы на разорванных и искаженных рукописных символах - объектах, относящихся к наиболее сложной области проблемы распознавания рукописных символов.
В свою очередь, разработанная целостная модель структурных описаний эталонов распознаваемых объектов открывает новое поле для исследований методов комбинирования классификаторов и в других областях распознавания. В частности, показано, что данная модель применима не только к рукописным символам, но и к печатным символам, что сильно расширяет круг решаемых задач.
Благодаря своей фундаментальности, концепция целостности и целенаправленности применима не только в области распознавания символов, но и во многих других актуальных задачах распознавания.
Предложенный метод целостного, целенаправленного многоуровневого применения растрового, признаковых и структурного классификаторов для распознавания рукописных символов реализован в рамках программной системы «FormReader» и доведен до уровня промышленного использования в Министерстве образования РФ, в Центре тестирования Министерства образования РФ, Пенсионном фонде РФ, Министерстве по налогам и сборам России, Федеральной Службе налоговой полиции России, Правительстве Москвы, Сбербанке РФ, Национальной регистрационной компании, а также в ряде других государственных и коммерческих организаций.
За данный цикл работ по исследованию, разработке и внедрению в отрасли экономики компьютерных технологий постановлением Правительства Российской Федерации от 21 марта 2002 г. N 175 соискателю была присуждена премия Правительства Российской Федерации 2001 года в области науки и техники.
Структура и объем работы
Диссертация состоит из введения, семи глав, заключения и списка цитируемой литературы, включающего 91 наименование. Диссертация изложена на 179 страницах машинописного текста, содержит 17 рисунков и 25 таблиц.
Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Алгоритмы распознавания рукописных символов в условиях малой обучающей выборки2017 год, кандидат наук Хаустов Павел Александрович
Нечеткие алгоритмы в некоторых задачах распознавания и управления2004 год, кандидат физико-математических наук Киселев, Виталий Валерьевич
Разработка и исследование алгоритмов распознавания изображений на основе определения экстремальных признаков замкнутых контуров с помощью сортировки2008 год, кандидат технических наук Рюмин, Олег Германович
Модель системы зрительного распознавания на основе разноракурсных описаний объектов2002 год, кандидат технических наук Бессарабов, Игорь Иванович
Математические модели, методы и алгоритмы дешифровки исторических стенограмм2013 год, кандидат наук Скабин, Артём Викторович
Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Ян, Давид Евгеньевич
7.13 Выводы
Предложенные подходы к построению классификатора были реализованы в виде программной системы ABBYY FormReader и доведены до уровня промышленного использования. Разработанный модуль распознавания одного символа вошел в состав полной системы ввода документов, который был внедрен в эксплуатацию в нескольких десятках организаций.
Заключение
В настоящей диссертационной работе поднята проблема автоматического ввода рукописных документов в компьютер. На примере типичной системы технологического ввода данных было показано, что решающее значение на эффективность процесса ввода оказывает точность распознавания одиночных рукописных символов. В результате была поставлена задача - создать высокоточный «интеллектуальный» классификатор рукописных символов, превосходящий по точности альтернативные способы ввода информации с бумажных носителей, а также малочувствительный к вариабельности символов и к дефектам изображения.
Проведенный анализ литературы показал, что задачу предобработки изображения можно считать относительно хорошо разработанным направлением. Методы предобработки многообразны и с практической точки зрения позволяют решить подавляющее число возникающих задач. Важно отметить два момента. Во-первых, задача предобработки должна ставиться строго в контексте используемого классификатора. Не существует оптимального метода предобработки вообще -оптимальность должна определяться по результатам работы классификатора. Во-вторых, предобработка изображения всегда приводит к необратимой потере информации. Для некоторых классификаторов это допустимо, поскольку число ошибок, вносимых приведением, компенсируется увеличением точности работы классификатора.
Основным вопросом остается задача построения классификатора или системы классификаторов, обеспечивающих минимальное число ошибок распознавания, а также выбор набора признаков.
В проанализированной литературе задача выбора набора признаков для разных классификаторов освещена в разной степени. Для растрового распознавателя выбор признаков представляется крайне простой процедурой и поэтому хорошо изучен. В то время, как для признаковых распознавателей исследователи, при выборе набора признаков, полагаются чаще на собственную интуицию, чем на четко сформулированный алгоритм.
Достоинствами растрового классификатора являются: простая, хорошая устойчивость к случайным дефектам изображения, высокая целостность восприятия (сравнению подвергается исходное изображение, а не его производные величины), низкий уровень замен. Его недостатками являются: низкая обобщающая способность (как следствие высокой чувствительности к искажениям формы символа), низкая скорость (из-за низкой обобщающей способности приходится создавать много кластеров), высокое число отказов (как следствие низкой обобщающей способности).
Достоинствами признаковых классификаторов являются: простота, хорошая обобщающая способность, хорошая устойчивость к изменениям формы символов, низкое число отказов. Недостатками признакового классификатора являются: большое число замен, неустойчивость ко многим типам дефектов изображения. Следует отметить, что признаковые классификаторы обладают важным принципиальным недостатком - этап извлечения признаков приводит к необратимой потере информации.
Главным достоинством структурного классификатора является высокая надежность. В отличие от других классификаторов он крайне редко дает высокую оценку на изображениях, не принадлежащих к нужному кластеру. Недостатками являются: во-первых, сложность структурного описания каждого символа, и, во-вторых, низкая временная эффективность работы самого классификатора, в особенности на сложных изображениях, не принадлежащих данному кластеру.
Методы комбинирования классификаторов хорошо разработаны для решения классической задачи - объединения результатов небольшого числа параллельно работающих классификаторов. Более сложные схемы объединения (последовательная, последовательно-параллельная) исследованы в значительно меньшей степени.
Поскольку ни один из существующих подходов к построению классификаторов не является идеальным, был разработан и предложен принципиально новый метод распознавания символов, основанный на целостном, целенаправленном поэтапном применении ряда классификаторов в число которых входят: полные классификаторы (растровый, признаковый с признаками на растре, признаковый с признаками на векторе, структурный) и парные дифференциальные классификаторы.
Разработанный метод целостного, целенаправленного поэтапного применения классификаторов, существенно превосходит по скорости и надежности существующие распознаватели, при сохранении точности структурного классификатора и выдает результаты в виде, пригодном для использования современными методами контекстной обработки.
Предложенный новый метод построения классификатора базируется на трех фундаментальных принципах - принципе целостности, целенаправленности и использования контекста.
Разработан структурный классификатор, который осуществляет сопоставление эталона непосредственно с исходным изображением, а не с заранее просчитанными признаками.
Установлено, что структурная модель описания символа позволяет добиться высокой точности распознавания при практически неограниченной вариабельности символа, что особенно важно для распознавания нестилизованного рукописного текста.
Описан способ улучшения эффективности системы распознавания методом приведения изображения для простого растрового и признаковых классификаторов. Использование алгоритма приведения для структурного изображения приводит к потере информации о дефектах исходного изображения и поэтому не используется.
Разработана новая признаковая модель распознаваемого объекта, использующая 232 признака, которые вычисляются в отличие от известных подходов не на растровом, а на векторном изображении символа. Предложенная модель показала улучшенные результаты по сравнению с другими системами признаков.
Установлено, что применение нелинейного преобразования ослабляет влияние шумов при обучении эталонов.
Разработан новый язык структурных описаний эталонов распознаваемых символов, позволяющий описывать символ как набор структурных элементов, связанных пространственно-метрическими отношениями, и обеспечивающий существенное улучшение качества распознавания. В отличие от классических языков представления знаний он позволяет задавать произвольные отношения между объектами путем программирования функций нечетких оценок и обладает достаточным быстродействием, чтобы использоваться для распознавания символов в реальном времени.
Разработаны новые алгоритмы поиска структурных элементов на изображении, удовлетворяющих структурному описанию и позволяющих за счет целенаправленного поиска выделять их с высокой надежностью даже при наличии дефектов изображения.
Разработана программная система, позволяющая составлять и настраивать структурные описания символов и отображать результаты их сопоставления.
Разработана новая схема решающего правила, которая уточняет результаты основного классификатора с помощью специализированных дифференциальных классификаторов.
Создана основа для дальнейших исследований в области поиска наиболее эффективных средств описания структурных эталонов, развитии методов построения дифференциальных классификаторов, разработки процедур автоматического создания структурных эталонов, формирования репрезентативных баз символов в различных предметных областях.
Как следует из приведенных экспериментальных данных, свойства классификаторов полностью соответствуют ранее приведенным качественным характеристикам. Особо следует отметить повышение точности, даваемое структурным уровнем. Хотя оно проявляется во всех множествах, участвовавших в измерениях, ярче всего это явное улучшение проявилось при распознавании цифр, где растровый классификатор имеет точность 96.85%, признаковый на растре - 90.60%, признаковый на векторе - 97.67%, а добавление структурного классификатора позволяет поднять точность до 99.84%.
Более низкая точность на русском и английском алфавитах объясняется как большим набором символов, участвующих в распознавании, так и наличием патологических «близнецов», т. е. пар символов, между которыми нет четкой границы.
Например, казалось бы достаточно непохожие буквы «Н» и «И» у разных людей могут выглядеть совершенно одинаково, т. е. букву «Н», написанную одним человеком, другой человек с уверенностью может принять за «И». Для различения подобных «букв-близнецов» в словах используется контекстная информация: словари, «регулярные выражения».
Важной характеристикой классификатора является точность по первым трем вариантам, т. е. процент символов, для которых правильная гипотеза оказалась не ниже третьего места. Это обусловлено тем, что информация о контексте, т. е. словарь и языковые модели, могут исправить ошибку распознавания только в том случае, если правильный вариант располагается не очень глубоко. Например, применительно к английским заглавным буквам точность первого варианта равна всего лишь 98.93%, тогда как по первым трем вариантам она возросла до 99,9%.
После контекстной обработки, точность распознавания английских заглавных букв повышается более чем в 10 раз. Для русских заглавных букв ситуация аналогичная - достигается повышение точности распознавания с 99.09% до 99.9%, т. е. в 9 раз. Таким образом, при наличии полноценной контекстной обработки символов распознаваемого текста можно сократить число ошибок до уровня 0.1% и ниже.
Предложенные подходы к построению классификатора были реализованы в виде программной системы ABBYY FormReader и доведены до уровня промышленного использования. Разработанный модуль распознавания одного символа вошел в состав полной системы ввода документов, который был внедрен в эксплуатацию в нескольких десятках организаций.
За данный цикл работ по исследованию, разработке и внедрению в отрасли экономики компьютерных технологий постановлением Правительства Российской Федерации от 21 марта 2002 г. N 175 автору была присуждена премия Правительства Российской Федерации 2001 года в области науки и техники.
Дальнейшие направления исследований возможны в области развития методов построения дифференциальных классификаторов, поиска наиболее эффективных средств описания структурных эталонов, разработке процедур автоматического создания структурных эталонов. Остается актуальной и задача сбора репрезентативных баз символов в различных предметных областях.
Список литературы диссертационного исследования кандидат физико-математических наук Ян, Давид Евгеньевич, 2003 год
1. Rakesh Agrawal.Data Mining: Crossing the Chasm // Invited talk at the 5th ACM SIGKDD Int'l Conference on Knowledge Discovery and Data Mining (KDD-99). San Diego, California, Aug., 1999.
2. Govindaraj V., Shekhawat A., Srihari S.N. Interpretation of handwritten address in US mail stream // Proc. of 3rd IWFHR. 1993. - P. 197-206.
3. Huang X. D., Ariki Y., Jack M. A. Hidden Markov Models for Speech Recognition -Edinburgh: University Press, 1990. -275 p.
4. Schuessler M., Niemann H. A. HMM-based System for Recognition of Handwritten Address Words. // Proc. Sixth International Workshop on Frontiers in Handwritting Recognition. -Taejon, Korea, 1998. -734 p.
5. Paquet Т., Lecourtier Y. Handwriting recognition: Application on bank cheques // Proc. of 1st Intl. Conf. on Document Analysis and Recognition. St. Malo, France, Sept., 1991. -P.749-750.
6. Pavlidis T. Recognition of printed text under realistic conditions // Pattern Recognition Letters. 1993.-No. 14. -P.317-326.
7. Amin A. Shiu R. New Skew Detection and Correction Algorithms in Progress in Handwriting Recognition // World Scientific, London. 1996.
8. Kornai A., Mohiuddin K.M., Cornell S.D. Recognition of cursive writing on personal checks, in Progress in Handwriting Recognition // World Scientific, London. 1996.
9. Shrikantan G., Lam D.S., Fatava J.T. Comparision of normalizaion methods for character recognition // in Proc. of the Third Int. Conf. on Document Analysis and Recognition Aug., 1995. - P.719-722.
10. Huang Q., Dom В., Megiddo N., Niblack W. Segmenting and Representing Background in Color Images // in 13th Intl. Conf. on Pattern Recognition Vienna, Austria, Aug., 1996.
11. Suzuki S., Ueda N., Sklansky J. Graph-based Thinning for Binary Images, in Thinning Methodologies for Pattern Recognition // World Scientific, London. 1994.
12. Verwer B.J.H, van Viet L.J., Verbeek P.W. Binary and Grey Skeletons: Metrics and Algorithms, in Thinning Methodologies for Pattern Recognition // World Scientific, London. 1994.
13. Ковалевский В. А. Методы оптимальных решений в распознавании изображений. -М.: Наука, 1976.-328 с.
14. Журавлев Ю. И., Никифоров В. В. Алгоритмы распознавания, основанные на вычислении оценок. //Кибернетика. -1971.-N3.-C.1-11.
15. Журавлев Ю. И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики. 1978. - Вып. 33. - С.5-68.
16. Журавлев Ю. И. Исаев И. В. Построение алгоритмов распознавания корректных для заданной контрольной выборки // Журнал вычислительной математики и мат физики. 1979. - 19, N3. - С.726-738.
17. Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. -М.: Наука, 1974. -415 с.
18. Cover Т., Hart P. Nearest neighbour pattern classification // IEEE Trans, on Inf. Threory. 1967.-V. 13.-P. 21-27.
19. German S., Bienestock E., Doursat R. Neural networks and the bias/variance dilemma // Neural Computations. 1992. -V4., No. 1. -P.l-58.
20. Lorentz G. Approximation of functions. New York: Chelsea Publishing company, 1986.
21. Вапник В. H. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979.-447 с.
22. Вапник В. Н., Червоненкис А.Я. Теория распознавания образов. М.: Наука, 1974. -415 с.
23. Niyogi P., Girosi F. On the relationship between generalization error, hypothesis complexity, and sample complexity for radial basis functions // A.I. Memo 1467, Massachusetts Institute of Technology. 1994.
24. Schurmann J. Polynomklassifikatoren fur die Zeichenerkennung: Ansatz, Adaptation, Anwendung. Mtinchen: Oldenbourg Verlag, 1977.
25. Rumelhart D., McClelland J., and the PDP Reseach Group. Parallel Distributed Processing. Cambridge: MIT Press, 1986.
26. Pao Y.-H. Adaptive Pattern Recognition and Neural Networks. New York: Addison-Wesley, 1989.
27. White H. et al. Artificial Neural Networks: Approximation and Learning Theory. -Cambridge: Blackwell, 1992.
28. Schiffmann W., Joost M., Werner R. Optimization of the Backpropagation Algorithms for training multilayer perceptrons // Proc. of the IEEE Int. Conf. om Neural Networks, / ed. H Ruspini. San Frncisco, 1993. - P.586-591.
29. Cun Y.Le et al. Backpropagation applied to handwritten zip code recognition // Neural Computations. 1989. - V.l. - No. 1. -P.541-551.
30. Fukushima K., Miyake S. Neocognition: A new algorithm for pattern recognition tolerant of deformations and shitfs in position // Pattern Recognition. 1982. - V. 15. - No. 6. -P. 455-469.
31. Fahlman S. Faster-learning variations of back-propagation: an empirical study // Proc. of the 1988 Connectionist Models Summer School / eds. D.Touretzky, G.Hinton, and T.Sejnowski Morgan Kauffman, San Mateo, 1989. - P.38-51.
32. Schiffman W., Joost M., Weiner R. Optimization of the backpropagation algorithm for training multilayer percepton // Technical Report, University of Koblenz, Institute of Physics. 1992.
33. Riedmiller M., Braun H. A direct adaptive method for faster backpropagation learning: The RPROP algorithm // Proc. of the IEEE Int. Conf. of Neural Networks, / ed. H. Ruspini. -San Francisco, 1993. P.586-591.
34. Weigend A., Gershenfeld N., eds. Times Series Prediction: Forecasting the future and Understanding the Past. Reading: Addison-Wesley, 1993.
35. Y. Le Cun, Denker J., and Solla S. Optimal brain damage // Advances in Neural1.formation Processing Systems 2 (NIPS-89) / eds. D. Touretzky.--San Mateo: Morgan
36. Kaufmann, 1990. P.598-605.
37. Hassibi В., Stork D. Second order derivatives for network pruning: optimal brain surgeon // Advances in Neural Information Processing Systems 5 (NIPS-92) / eds. S. Hanson, J. Cowan and G. Giles. -San Mateo: Morgan Kaufmann, 1993. P.164-171.
38. Park J., Sandberg I. Universal approximation using radial-basis-function network // Neural Computations. 1991. -V.3. - No. 2 - P.246-257.
39. Linde Y., Buzo A., Gray R. An algorithm for vector quantizer design // IEEE Trans, on Commun. 1980. - V.28. - No. 1 - P.84-95.
40. Kohonen T. Self-Organization and Associative Memory. -Berlin: Springel-Verlag, 1989.
41. SOM Programming Team. SOM-PAK: The Self-Organizing Map Program Package, Version 1.2 / Copyright: Kohonen Т., Kangas J., Laaksonen J- Helsinki University of Technology, Espoo, 1992.
42. LVQ Programming Team. LVQ-PAK: The Lerning Vector Quantization Program Package, Version 2.1 // Copyright: T.Kohonen et al. Helsinki University of Technology, Espoo, 1992.
43. Redner R., Walker H. Mixture densities, maximum likelihood and the EM algorithm // SIAM Review. 1984. - V.26. - No. 2 - P.195-239.
44. Moody J., Darken C. Fast learning in networks of locally-tuned processing units // Neural Computations. 1989. - V.l. - No. 2. - P.281-294.
45. Nearest Neighbor (NN) Norms: NN Pattern Classification Techniques/ ed. Dasarathy D., . Los Alamos: IEEE Сотр. Soc. Press, 1990.
46. Cover Т., Hart P. Nearest neighbor pattern classification // IEEE Trans, on Inf. Theory. -1967. -V.13.-P.21-27.
47. Kressel U. The impact of the learning-set size in the handwritten-digit recognition // Artificial Neural Networks (Proc. Int. Conf on Artificial Neural Networks) / eds. T. Kohonen et al. -Amsterdam: North-Holland, 1991. P.1685-1689.
48. Бауман E.B., Дорофеюк A.A. Классификационный анализ данных // Международная конференция по проблемам управления: Избранные труды Том 1. М: СИНТЕГ 1999.-316 с.
49. Бауман Е.В. Методы размытой классификации (вариационный подход) // Автоматика и телемеханика. 1988. -N 12. -С. 143-156.
50. Нерасимхан Р. Лингвистический подход к распознаванию образов. // Автоматический анализ сложных изображений -М.:Мир, 1969.
51. Романов В.П., Савин А.А. О структурно-лингвистическом методе распознавания изображений // Структурные методы опознавания и автоматическое чтение -М.: ВИНИТИ, 1970.
52. Романов В.П. Локальный анализ изображений при помощи анизотропных локальных фильтров //Докл. АН СССР 1966 -т. 168 -N 3.
53. Nerasimhan R. Buble scan 1 program // Digital Computer lab. Univ. Illinois Aug., 1964-Rept. 167.
54. Фельдбаум А.А. О некоторых принципах распознавания образов // Самообучающиеся автоматические системы -М.: Наука, 1966.
55. Катинский B.C., Романычева Т.К., Судаков С.А. Описание изображения с помощью их представления графами // Автоматические читающие устройства -М.: ВИНИТИ, 1967.
56. Suen C.Y., Nadal С., Mai Т.А., Legault R., Lam L Recognition of totally unconstrained handwritten numerals based on concept of multiple experts // Proc. Int. Workshop on Frontiers in Handwriting Recognition. -Montreal, Canada, April 1990 P.l31-143.
57. Suen C.Y., Nadal C., Mai T.A., Legault R., Lam L. Computer recognition of unconstrained handwritten numerals // Proc. IEEE -1992 V. 80-P.l 162-1180.
58. Gader P.D., Hepp D., Forester В., Peurach T. Pipelined systems for recognition of handwritten digits in USPS ZIP codes // Proc. U.S. Postal Service Advanved Technology Conference -1990 -P.539-548.
59. Xu L., Krzyzak A., Suen C.Y. Methods on combining multiple classifiers and their application to handwriting numerals recognition // IEEE Trans, on Systems, Man and Cybernetics -1992 -V. 22 -P. 418-435.
60. Holland J.H. Adaptation in Natural and Artificial Systems -Ann Harbor: Univ. of Michigan Press, 1975.
61. Lam L., Suen C.Y. A theoretical analysis of the application of majority voting to pattern recognition// Proc. 12th Int. Conf. on Pattern Recognition Oct. 1994. -Jerusalem, Israel, 1994. -P.418-420.
62. Lam L., Suen C.Y. Increasing experts for majority vote in OCR: theoretical considerations and strategies // Proc. 4th Int. Workshop on Frontiers in Handwriting Recognition Dec. 1994. -Taipei, Taiwan, 1994.-P. 245-254.
63. Терещенко В.В. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных: Дис. канд. тех. наук.—М., 2000.—130 с.
64. Baikov Y., Kuzin E.S., Shamis A.L. The semantic approach to constructing machine vision systems// IF AC Artificial Intelligence Leningrad, USSR, 1993.
65. Ян Д.Е., Шамис A.JI. Новая технология распознавания символов. Теория, практическая реализация, перспективы // Заседание Бюро отделения информатики, вычислительной техники и автоматизации РАН: Тез. докл. 15 ноября 1995 г.-М., 1995.
66. Анисимович К.В., Терещенко В.В., Шамис A.JI., Ян Д.Е. Методы распознавания рукописных текстов // Динамические Интеллектуальные Системы в Управлении и Моделировании: Тез. докл.-М., 1996.
67. Anisimovich К., Rybkin V., Shamis A., Tereschenko V. Using combination of structural, feature and raster classifiers for recognition of hand-printed characters // Proc. of the Intl. Conf. on Document Analysis and Recognition -Ulm, Germany, 1997.
68. Анисимович K.B., Терещенко B.B., Шамис А.Л., Шинкарев М. Признаковый уровень системы распознавания рукописных текстов // Динамические Интеллектуальные Системы в Управлении и Моделировании: Тез. докл.-М., 1996.
69. Терещенко В.В., Рыбкин В., Шамис A.JI., Ян Д.Е. Принципы распознавания рукописных символов в системе FineReader // РОАИ-III: Тез. докл. Науч. конф-Нижний Новгород, 1997.
70. Способ построения динамических растровых эталонов компьютерных кодов в процессе распознания соответствующих им оригиналов: Патент 2166209 РФ, дата приоритета 15.03.99 / Анисимович К.В., Терещенко В.В., Ян Д.Е. (РФ).—4 с.
71. Mori S., Suen C.Y., Yamamoto К. Historical review of OCR research and development // Proc. of IEEE -1992 -V.80 -N.7 -P. 1029-1058.
72. Ellimna D.G., Lancaster I.T. A review of segmentation and contextual analysis techniques for text recognition // Pattern Recognition -1990. -N. 23 -3/4 -P. 337-346.
73. Ivanov D.V., Kuzmin E. P. An Efficient Algorithm for Extraction of Raster Image Skeleton // Proceedings of the GraphiCon'98 conference 7-11 Sep. 1998-M., 1998. -P. 65-70.
74. Анисимович К.В., Терещенко В.В., Шамис A.JL, Ян Д.Е. Признаковое распознавание рукописных текстов // Автоматизация и компьютеризация информационной техники и технологии.—1998.—Вып. 282—С. 148-153.
75. Ян Д.Е., Анисимович К.В., Дерягин Д.Г., Никитов С.А. Исследование новой системы признаков, основанной на векторном изображении при распознавании рукописных символов // Радиотехника и электроника -2003.—Т.48. Вып. 3 - С. 310317.
76. Ян Д.Е., Терещенко В.В., Халевина Т.Р., академик Гуляев Ю.В. Метод распознавания рукописных символов, основанный на новой системе признаков, вычисленных по векторному изображению // Доклады Академии Наук -2003. -Т.389. -Вып. 3-С. 314-317.
77. Yang D. Е., Tereshchenko V. V., Khalevina Т. R., Gulyaev Yu. V. Handprinted Character Recognition Method Based on a New Set of Features Computed from a Vector Image // Doklady Mathematics. -2003. -V.67. -No.2. P. 1-3.
78. Анисимович К.В., Терещенко В.В., Шамис A.JL, Ян Д.Е. Распознавание рукописных текстов на основе структурно-метрических описаний // Автоматизация и компьютеризация информационной техники и технологии.—1998.—Вып. 282—С. 153158.
79. Lee D.S., Srihari S.N. Handprinted Digit Recognition: A comparision of Algorithms// Proc. of IWFHR III New York, USA, 1993.
80. Franke J. On Functional Classifier // Proc. of 1st Int. Conf. On Document Analysis and Recognition-St. Malo, 1991. -P. 481-489.
81. Franke J., Ram L., Legault R., Nadal C., Suen C.Y. Experiments with the CENPARMI Data Base Combining Different Classification Approaches // Proc. of IWFHR III -New York, USA., 1993.
82. Ян Д.Е. Система промышленного бесклавиатурного ввода документов в компьютер FineReader 3.0 // Научно-техническая конференция по электронному документообороту, архивам и безбумажным технологиям DOCFLOW'96: Тез. докл.— М„ 1996.
83. Групповой способ верификации компьютерных кодов и соответствующих им оригиналов: Патент 2145115 РФ, дата приоритета 10.08.98 / Попов С.Г., Терещенко В.В., Ян Д.Е. (РФ).—5 с.
84. Способ взамосвязанного активирования компьютерных кодов в виде символов и соответствующих им фрагментов изображения: Патент 2165641 РФ, дата приоритета 10.03.99 / Анисимович К.В., Терещенко В.В., Ян Д.Е. (РФ).—5 с.
85. Способ использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов и соответствующих им оригиналов: Патент 2166207 РФ, дата приоритета 08.04.99 / Анисимович К.В., Терещенко В.В., Ян Д.Е. (РФ).—5 с.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.