Структурирование визуальных представлений информационной среды и методы определения надежности распознавания тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Арлазаров, Владимир Викторович

  • Арлазаров, Владимир Викторович
  • кандидат технических науккандидат технических наук
  • 2004, Москва
  • Специальность ВАК РФ05.13.01
  • Количество страниц 120
Арлазаров, Владимир Викторович. Структурирование визуальных представлений информационной среды и методы определения надежности распознавания: дис. кандидат технических наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). Москва. 2004. 120 с.

Оглавление диссертации кандидат технических наук Арлазаров, Владимир Викторович

Введение.

Глава 1. Обзор существующих моделей форм и методов определения достоверности распознавания.

1.1. Обзор существующих моделей форм.

1.1.1. Модели вывода структурированных данных.

1.1.2. Обзор моделей идентификации и распознавания бумажных структурированных документов.

1.1.3. Анализ средств разработки экранных форм документов.

1.1.4. Обзор наиболее распространенных в мире форматов/моделей представления форм документов.

1.2. Обзор существующих методов определения достоверности результатов распознавания.

1.3. Выводы.

Глава 2. Концепция Формы.

2.1. Модель формы и ее компоненты.

2.1.1. Определение формы.

2.1.2. Основные положения.

2.1.3. Структура Моделей Формы.

2.2. Концепция Формы и Процессы обработки Формы.

2.3. Модель содержания.

2.3.1. Слой «модель данных» Формы. Назначение: описание данных Формы, их структуры и связи с внешними источниками данных.

2.3.2. Схема обмена данными с внешним информационным объектом.

2.3.3. Слой ограничения данных.

2.4. Модель взаимодействия.

2.4.1. Секционная модель документа.

2.4.2. Базисные секции.

2.4.3. Слой «модель объектов ввода/вывода».

2.4.4. Слой «событийная модель».

2.4.5.Слой «свойства распознавания полей».

2.4.6. Слой «ограничения на данные сегментной модели».

2.4.7. Слой «словари».

2.4.8. Слой «модель содержания в секционную модель».

2.5. Модель визуализации.

2.5.1. Схема преобразования модели взаимодействия в модель визуализации.

2.6. Синтаксические определения, связанные с формой.

2.7. Выводы.

Глава 3. Достоверность распознавания в модели взаимодействия.

3.1. Задача распознавания форм.

3.2. Классифицирующая функция.

3.3. Оценка эффективности системы распознавания.

3.4. Правила определения достоверности.

3.5. Правила «первой» альтернативы.

3.6. Правила «двух» альтернатив.

3.7. Комплексные правила отбраковки.

3.8. Практическая реализация и исследование поведения различных правил определения достоверности.

3.9. Выводы.

Глава 4. Система обработки форм.

4.1. Система обработки форм.

4.1.1. Общая модель системы обработки форм.

4.2. Проектирование и подготовка форм.

4.2.1. Дизайнер Форм.

4.3. Система Распознавания форм.

4.3.1. Основные принципы, заложенные в систему при разработке.

4.3.2. Схема функционирования.

4.3.3. Основные этапы рабочего цикла технологии.

4.3.4. Варианты технологических линий ввода документов.

4.3.5. Вопросы эффективности и качества работы системы ввода документов.

4.4. Примеры применения системы Cognitive Forms для решения задач массового ввода документов.

4.4.1. Ввод документов Московского отделения Пенсионного Фонда Российской Федерации.

4.4.2. Ввод банковских Платежных документов.

5. Выводы.

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Структурирование визуальных представлений информационной среды и методы определения надежности распознавания»

В современном мире ежедневно вводятся с бумаги, заполняются на экранах компьютеров, обрабатываются различным образом и выводятся на бумагу миллиарды различных форм документов: почтовых карточек, платежных поручений, таможенных или налоговых деклараций, банковских чеков, бюллетеней для голосования, разного рода бумажных и электронных анкет, заказов на товары или услуги в электронных магазинах, разных отчетов и множество других. Вводя формы, сотни тысяч операторов выполняют однообразную последовательность действий: бросают взгляд на очередную страницу, находят, и читают текст заполнения, и быстро набирают его на клавиатуре. Как альтернатива ручному вводу существуют технологии автоматизированного ввода форм. Существуют и активно используются тысячи различных систем электронного документооборота, базирующихся на понятии «форма», эти системы применяются практически во всех сферах деятельности.

Все активнее просматривается тенденция к объединению систем бумажного и электронного документооборота в единые комплексные системы, в которых идет оборот как бумажных, так и электронных документов. В эти системы интегрируются системы ввода/вывода бумажных документов и системы ввода/вывода электронных документов. Примером таких систем могут быть системы проведения социологических опросов, которые проводятся одновременно как посредством электронных форм, так и с помощью обычных бумажных анкет. Например, форма анкеты опроса, размещенная в глобальной сети, разосланная по электронной почте и напечатанная на бумаге, по сути, это одинаковые формы, содержащие одни и те же вопросы; их отличие заключено в способе представления и частично в способе взаимодействия с пользователем. Без единой модели формы необходимо, в лучшем случае, создать два описания (в некоторых случаях три) - описание электронных документов для глобальной сети и для распознавания бумажных документов, при этом большая часть спецификаций (модель данных, правила проверки и заполнения) будет дублироваться. При этом необходимо будет воспользоваться несколькими различными системами описания формы и языками программирования для создания этих форм. После чего еще необходимо будет реализовать обработку различных заполнений этих форм, используя разные средства разработки. Актуальной задачей построения таких комплексных систем документооборота является построение единого подхода к форме во всех ее проявлениях и создание модели формы, позволяющей описывать форму, как минимум, в трех представлениях.

В данный момент в мире активно происходит переход от бумажных форм к электронным или экранным формам, при этом сохраняется и оборот бумажных форм. Большую роль в обеспечении такого перехода и в функционировании таких смешанных систем играют системы автоматического ввода заполненных бумажных форм, предоставляющие альтернативу ручному вводу. Такие технологии обладают рядом явных преимуществ: современные модели сканеров могут вводить до 200 страниц в минуту, программы оптического распознавания текста "читают" несколько сотен символов в секунду и могут делать это без перерыва на обед. Помимо выигрыша в стоимости и качестве ввода, технологии сканирования и распознавания документов имеют и другое существенное преимущество: корректно идентифицированный поток документов, включающий распознанную информацию и графические образы, может составлять основу электронного архива, представляющего функции быстрого поиска документа, извлечения, пересылки и печати графического образа документа (по качеству аналогичной ксерокопии документа). Развитие глобальных компьютерных сетей и возможность организации удаленного доступа к таким архивам подчеркивают это технологическое преимущество, постепенно выдвигают его на первый план.

Таким образом, разработка систем массового ввода стандартизированных форм документов представляется актуальной задачей. Эти технологии опираются на достижения в обработке изображений и в распознавании двух самостоятельных, быстро развивающихся областях искусственного интеллекта. Однако в этих технологиях две задачи связаны не столько с распознаванием, сколько с процессами его окружающими. Об одной из этих задач уже говорилось, это использование в распознавании и интерпретации его результатов той же информации, что и при заполнении экранных форм и печати их на бумагу.

Другая важная задача, определяющая, наряду с качеством распознавания, эффективность системы ввода, выявление необходимости ручного контроля результатов распознавания, иначе говоря, автоматическое определение достоверности результатов распознавания, того или иного объекта без помощи человека.

Предметом данной работы является анализ и изучение систем работы с формами, выявление общности, обеспечивающей конструктивную основу для решения задач ввода/вывода, и распознавания структурированных документов в рамках систем документооборота стандартных форм, и построение методов оценки достоверности результатов распознавания. В рамках работы проводится исследование и разработка методологических основ, а также конкретных моделей, методов и средств для решения задач:

• моделирования структурированного документа с точки зрения различных задач ввода/вывода и распознавания,

• автоматизации разработки шаблона документа (экземпляра модели структурированного документа определенного типа),

• автоматического определения достоверности результатов распознавания полей структурированных документов в задачах ввода стандартных форм.

Целью данной работы является построение концептуальной модели формы, которая бы позволяла органично связать и описать основные процессы ввода/вывода структурированных документов и построение методов автоматического определения достоверности результатов распознавания полей структурированных документов в рамках разработанной концепции документа.

Задача состоит в построении концептуальной модели, которая позволяла бы описать форму в процессах:

• ввода/вывода электронных форм на дисплей монитора,

• автоматического распознавания форм,

• вывода форм на бумагу.

Новизна предложенного в работе подхода состоит, прежде всего, в разработке универсальной модели формы структурированного документа, используемой для различных задач и абстрагированной от конкретных методов обработки, в отличие от существующих подходов, как правило, ориентированных на представление либо экранных, либо бумажных форм; впервые модель объединяет процессы ввода/вывода вне зависимости от того, экранная или бумажная форма используется в них. Независимость модели от особенностей конкретных методов обработки обеспечивает ее открытость для разработки и подключения новых методов, расширение классов обрабатываемых документов в рамках предложенной концепции. Кроме того, предложены новые подходы к реализации критериев достоверности результатов распознавания полей структурированных документов при использовании распознающих схем с оценкой, не имеющей вероятностного характера.

По теме диссертации опубликовано пять работ, две из них в соавторстве.

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Арлазаров, Владимир Викторович

5. Выводы.

В этой главе показана модель общей системы обработки форм и описаны реализации двух ее компонент: дизайнера форм и системы распознавания форм.

Дизайнер форм наиболее ярко демонстрирует преимущества разработанной в главе 2 концепции. Он позволяет реализовать несколько различных парадигм: от простейших, когда на основе одной из моделей строится одна или две другие, до сложнейшей, когда одной модели содержания соответствуют несколько различных визуальных моделей и моделей взаимодействия. При этом, в последнем случае создание каждой новой модели достигается минимальными средствами за счет использования уже имеющихся.

Описание системы распознавания форм показывает, что представляет собой одно из важнейших средств обработки форм. Сложная технология, позволяющая работать с большими объемами документов, опирается на те же базовые модели, что и другие системы: модель содержания, одну или несколько моделей визуализации, галерею базовых секций модели взаимодействия.

В то же время, в системах распознавания существенную роль играют специфические слои, в частности, рассматриваемые в предыдущей главе методы определения достоверности результатов распознавания, обеспечивающие одну из важнейших функций технологии ввода документов - верификацию ввода.

Таким образом, предложенная в работе концепция формы и разработанная на ее основе программные средства во многих случаях достаточны для сборки готовых систем обработки форм, но могут служить и базовыми частями сложных специальных технологий.

Заключение.

Основные теоретические и практические результаты работы заключаются в следующем:

1. Проведен анализ существующих моделей представления формы в различных областях применения, проанализированы методы и средства описания моделей форм и системы обработки форм.

2. Проведен анализ алгоритмов и моделей принятия решения о надежности результатов в задаче распознавания символа.

3. Показана необходимость разработки единой концепции формы, охватывающей большинство процессов ее обработки. Кроме того, показана необходимость разработки методов определения надежности результата распознавания в системах с комбинирующими схемами распознавания выдающими оценку в виде отличном от вероятности.

4. Разработан комплексный подход к построению модели формы документа, который позволил создать модель формы, унифицировано описывающей ее в, как минимум, трех процессах: распознавании, редактировании на экране и печати на принтере. В рамках подхода проведено выделение трех ее основных компонентов: модели содержания, модели взаимодействия и модели визуализации и дальнейшее разложения каждой компоненты на слои обязательные, регламентированные и слои расширения.

5. Важным результатом является выделение модели взаимодействия. Модель взаимодействия занимает промежуточное положение между моделью содержания и моделями визуализации и описывает схемы взаимодействия «пользователя» и данных Формы. В слоях этой модели содержится специфика процессов, в которых принимает участие Форма, и необходимые дополнительные описания и данные для обеспечения процесса обработки и целостности данных.

6. Построены различные критерии определения достоверности результатов распознавания символов полей документов и проведено практическое исследование их эффективности.

7. Для критериев первой альтернативы и двух альтернатив были сформулированы и решены задачи нахождения порогов в виде стандартных задач условной оптимизации.

8. Построен оптимальный комплексный критерий достоверности, основанный на подходе к проблеме определения достоверности как одной из разновидностей задачи классификации.

9. Была дана постановка задачи определения достоверности и предложено решение с помощью нейронной сети, выдающей ответ в виде оценки вероятности достоверности результата распознавания.

10. Разработаны методы, алгоритмы и процедуры принятия решения о надежности, базирующиеся на критериях надежности распознавания, позволяющие создавать схемы распознавания с регулируемым числом отказов и ошибок распознания для различных задач ввода документов.

11. Разработана структура и отдельные модули системы автоматизированного ввода и обработки форм документов Cognitive Forms, которая автоматизирует процессы ввода форм с бумаги их дальнейшую обработку. В данной системе нашли свое применение концептуальные модели, предложенные в работе, критерии, алгоритмы и процедуры определения надежности распознавания символа. Система нашла свое применение для решения задач управления и планирования на ряде Металлургических комбинатов и других крупных организациях.

Список литературы диссертационного исследования кандидат технических наук Арлазаров, Владимир Викторович, 2004 год

1. АПШ02. Арлазаров В. В., Постников В. В., Шоломов Д. JI. Cognitive Forms система массового ввода структурированных документов. //"Управление информационными потоками" Сборник трудов Института системного анализа РАН./ М., УРСС, 2002 г.

2. Арл02. Арлазаров В. В. Управление информационными потоками в системе автоматического ввода документов. //"Управление информационными потоками", Сборник трудов Института системного анализа РАН./ М., УРСС, 2002 г.

3. Еме87. Емельянов Н.Е. Теоретический анализ документного интерфейса: Препринт. — М.: ВНИИСИ, 1987

4. Еме88. Емельянов Н.Е. Виды представления структурированных дан-ных.//Теоретические основы информационной технологии/ Сб. тр. Вып. 22. — М.:ВНИИСИ, 1988

5. БЕ03. Богачева А.Е., Емельянов Н.Е. Семантическая Модель докумен-та.//Системные исследования. Ежегодник/М., УРСС. 2003 г. с.:360-375.

6. ESS96. Emelyanov N.E., Solovyev A.V., Schelkacheva I.V. Classification of Structured Data Representations //Proceedings of the Third International Workshop on Advances in Databases and Information Systems./ MEPhI Publishing. , Vol. 2, 1996

7. XSL01. Extensible Stylesheet Language (XSL) Version 1.0 W3C Recommendation 15 October 2001. http://www.w3.org/TR/2001/REC-xsl-20011015/

8. XML04. Extensible Markup Language (XML) 1.0 (Third Edition)

9. W3C Recommendation 04 February 2004. http://www.w3.org/TR/2004/REC-xml-20040204

10. Пос98. Постников B.B., Разработка методов наложения формы на графическое изображение документа. //В сб. «Интеллектуальные технологии ввода и обработки информации»/, Москва, 1998

11. Издательский дом «КноРус», 2000 г. Кир99. Дмитрий Кирсанов, Web-дизайн. Санкт-Петербург, «Символ-Плюс», 1999

12. SMT94. Sabourin M., Mitche A, Thomas D., Nagy G. "Classifier combination for handprinted digit recognition", hoc. of the 2d ICDAR, Tsukuba, Japan, 1994.

13. Gor97. Gorski N. "Optimizing error-reject trade-off in recognition systems", Proc. of the 4-th ICDAR, Ulm, Germany, 1997.

14. DH73. Duda R., Hart P. Pattern Classification and Scene Analysis. John Wiley & Songs, N.Y., 1973.

15. AK96. Akiyama K. "A new reject decision method for statistical pattern recognition", Proc. of IWFHR-5, Univ. of Essex, England, 1996.

16. PKPD95. Price D., Knerr S., Perssonaz L., Dreyfus G. "Pairwise neural network classifiers whit probabilistic outputs", In Advances in Neural Information Processing Systems 7, MIT Press, 1997.

17. Lippmann R.P., Richard M.D., "Neural network classifiers estimate Bayesian a posteriori probabilities", Neural Computation, 3,1991.

18. UUU01. URIs, URLs, and URNs: Clarifications and Recommendations 1.0, Report from the joint W3C/IETF URI Planning Interest Group W3C Note 21 September 2001, http://www.w3.org/TR/2001/NOTE-uri-clarification-20010921/.

19. БиОЗ. Рэнди Бирн. Создание приложений с Microsoft Outlook Версия 2002., Эком. 2003,928 стр.

20. Ст95. Страуструп Б. Язык программирования С++ (2-ред)./Пер. с англ.-М.: Радио и связь, 1995. 352с.

21. КУ99. Дж. Крейг, Дж.Уэбб. Microsoft Visual Basic б. Мастерская разработчика /Пер. с англ. — М.: Издательский отдел "Русская Редакция" ТОО "Channel Trading Ltd." 1999. 5-е изд., испр. и доп. - 648 е.: ил.

22. КТ97. Круз И., де ла, Талер JL, Основы MAPI (пер. с англ. Новоселова Д.Г.) издательство: Русская Редакция, 1997, стр.: 552.

23. KhOO. R. Khare, "Can XForm Transform the Web?" IEEE Internet Computing, March/April 2000.

24. HV01. M. Honkala, P. Vuorimaa. XForms in X-Smiles Second International Conference on Web Information Systems Engineering (WISE'01),Volume 1 December 03 06,2001, Kyoto, Japan.

25. MA03. Дэвид Мак-Амис. Профессиональная работа с Crystal Reports для Visual Studio.NET, Вильяме,2003, стр.: 352.1096. ISO, editor. ISO/IEC 11578: Information technology Open Systems Interconnection - Remote Procedure Call (RPC). ISO, Geneva, CH, 1996.

26. ФрОЗ. Дж. Фридл. Регулярные выражения. Издательство Питер, 2003 г., 464 стр.

27. JIo98. Ломаке П. Изучаем Visual Basic Script Издательство: BHV-Киев, 1998, стр.: 624.

28. Че98. Дэвид Чеппел. Технологии ActiveX и OLE. "Русская Редакция", 1998, стр.: 320.

29. St90. L. Stringa. "A New Set of Constraint-Free Character Recognition Grammars" IEEE Transactions on Pattern Analysis and Machine Intelligence. December 1990 (Vol. 12, No. 12) pp.:1210-1217.

30. BRR02. Anja Brakensiek, Jorg Rottland, Gerhard Rigoll. Handwritten Address Recognition with Open Vocabulary Using Character N-Grams. Eighth International Workshop on Frontiers in Handwriting Recognition (IWFHR'02), 2002, pp. 357.

31. CGMS95. F. Cesarini, M. Gori, S. Marinai, G. Soda. A system for data extraction from forms of known class. Third International Conference on Document Analysis and Recognition (Volume 2). 1995. pp. 1136.

32. CDD97. C. Cracknell, A. C. Downton, L. Du. An Object-Oriented form Description Language and Approach to Handwritten Form Processing. 4th International Conference Document Analysis and Recognition (ICDAR '97) Volume I and Volume II. 1997. pp. 180.

33. KKC02. Кляцкин В. M., Котович Н. В., Славин О. А. Многопроходная схема распознавания документов с обучением. "Управление информационными потоками" // Сборник трудов Института системного анализа РАН / М., УРСС. 2002 г.

34. АКС00. Арлазаров В. Л., Куратов П. А., Славин О. А.Распознавание строк печатных текстов. "Методы и средства работы с документами". // Сборник трудов Института системного анализа РАН / М., УРСС. 2000 г.

35. СКБ99. Славин О.А., Корольков Г.В., Болотин П.В. Методы распознавания грубых объектов. В сб. "Развитие безбумажных технологий в организациях", 1999, с. 290-311

36. Уос92. Ф.Уоссермен, "Нейрокомпьютерная техника.", М.: Мир, 1992

37. АЕОЗ. Арлазаров B.JL, Емельянов Н.Е. Документооборот или управление знаниями? //"Организационное управление и искусственный интеллект" Сборник трудов Института системного анализа РАН/ М., УРСС. 2003 г.

38. ДП03. Даниленко А.Ю., Павлова Н.С. Методика и средства работы с системами электронного документооборота через WEB-браузер. //"Организационное управление и искусственный интеллект" Сборник трудов Института системного анализа РАН/ М., УРСС. 2003 г.

39. СолОЗ. Соловьев А.В. Генератор отчетов для систем электронного Документооборота.//"Организационное управление и искусственный интеллект" Сборник трудов Института системного анализа РАН/, 2003 г.

40. АЕ02. Арлазаров В. JL, Емельянов Н. Е.Системы обработки документов. Основные компоненты."Управление информационными потоками" Сборник трудов Института системного анализа РАН/ М., УРСС. 2002 г.

41. Sho 103. Sholomov D.L. Syntactical Approach to Post-Processing of Fuzzyrecognized Text. //Proc. of The International Conference on Machine Learning, Technologies and Applications, CSREA Press, pp. 115-121. June 2003, USA

42. Sho203. Sholomov D.L., Interpreting the Indistinctly Recognized Textual

43. Constructions. // Pattern Recognition and Image Analysis, 2003, vol. 13, no. 2, pp. 353-355.

44. Nik03. Nikolaev D.P. Segmentation-based binarization method for color document images. Proceedings of 6th Open Russian-German Workshop on Pattern Recognition and Image Understanding, Novosibirsk. 2003, pp. 190-193.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.