Система идентификации структуры печатных документов тема диссертации и автореферата по ВАК РФ 05.13.14, кандидат технических наук Зуев, Константин Алексеевич

  • Зуев, Константин Алексеевич
  • кандидат технических науккандидат технических наук
  • 1999, Москва
  • Специальность ВАК РФ05.13.14
  • Количество страниц 153
Зуев, Константин Алексеевич. Система идентификации структуры печатных документов: дис. кандидат технических наук: 05.13.14 - Системы обработки информации и управления. Москва. 1999. 153 с.

Оглавление диссертации кандидат технических наук Зуев, Константин Алексеевич

ОГЛАВЛЕНИЕ

Введение

Глава 1. Проблемы идентификации логической структуры печатных документов

1.1 Анализ основных свойств логической структуры документа

1.2 Особенности графических характеристик печатных форм

1.3 Методы, применяющиеся при идентификации логической структуры печатных документов

Глава 2. Метод структурного распознавания образов

2.1 Требования к методу структурного распознавания образов

2.2 Общая структура модели

2.3 Программная реализация модели

2.4 Реализация модели и алгоритма распознавания образа

Глава 3. Разработка языка структурных описаний

3.1 Требования к средствам описания структуры образа

3.2 Язык структурных описаний

3.3 Средства обработки описания

Глава 4. Вычисление оценки достоверности распознавания

4.1 Вероятностная интерпретация

4.2 Вычисление оценки составного элемента

4.3 Применение нечеткой логики

Глава 5. Система идентификации логической структуры изображения печатных документов

5.1 Методика- адаптации метода структурного распознавания образов

5.2 Система идентификации логической структуры изображений печатных документов

5.3 Методика вычисления локализации

Заключение

Список литературы

Приложение 1: Примеры изображений печатных форм с нефиксированным расположением полей

Приложение 2: Грамматика языка структурных описаний

Рекомендованный список диссертаций по специальности «Системы обработки информации и управления», 05.13.14 шифр ВАК

Введение диссертации (часть автореферата) на тему «Система идентификации структуры печатных документов»

Введение

Компьютеризация общества, наряду с повсеместным распространением электронно-вычислительной техники, требует перевода традиционных методов и технологий управления на компьютерную основу. Одной из наиболее важных задач является внедрение безбумажных информационных технологий. Причем акцент ставится . именно на информационных технологиях, обеспечивающих точную, формализованную и быструю работу со все возрастающим потоком информации.

Серьезной проблемой перехода на новые информационные технологии является задача преобразования информации с бумажных носителей в электронную форму. Она возникает не только при первоначальном заполнении данными информационной системы, но и при ее функционировании. Это вызвано тем, что переход на информационные технологии (например в масштабах всей страны) невозможен единовременно, а может продолжаться несколько лет, возможно десятилетий. Следовательно, необходимо обеспечить совместное существование электронных и бумажных технологий, что и требует постоянного преобразования информации из одной формы в другую. Есть и другие причины, продлевающие использование бумажных носителей, - во многих ситуациях документ, напечатанный на бумаге остается удобным средством хранения и передачи информации. Это особенно проявляется в случае официальных документов, так как электронный документ пока не имеет юридической силы. Например, даже электронный платеж должен

быть в конце концов подтвержден бумажным платежным поручением.

Преобразование информации с бумажных носителей в электронную форму осуществляется системами оптического распознавания символов - системами OCR (Optical Character Recognition). В настоящее время системы распознавания достаточно устойчиво распознают тексты среднего качества, напечатанные любым стандартизированным шрифтом. Это позволяет использовать их для преобразования больших массивов текстовой информации, иногда без последующего контроля человеком. Однако, зачастую, посимвольное преобразование является недостаточным для перевода информации в электронное представление. Требуется распознавание логической структуры документа, т.е. явного выделения реквизитов документа - заголовка, аннотации, автора и пр. Причем, анализ содержимого распознанного текста не всегда позволяет структурировать документ апостериорно. Таким образом, дальнейшее развитие систем OCR лежит на пути идентификации логической структуры изображения печатных документов.

Основное препятствие для решения данной задачи -недостаточная, с точки зрения информационных технологий, формализация существующих бумажных документов. Даже если набор реквизитов документа строго фиксирован (например, на платежном поручении, бухгалтерских балансах, налоговой декларации и прочих анкетах), расположение полей, т.е. областей изображения, содержащих реквизиты, специфицируется лишь приблизительно. Это объясняется тем, что для человека,

обрабатывающего анкеты, точное, до миллиметра расположение полей не является обязательным. Кроме того, как показывает опыт внедрения машиночитаемых анкет, фиксированное расположение полей очень сложно обеспечить при массовой печати анкет - в разных типографиях по всей стране. Таким ббразом, задача распознавания печатных документов представляет сложную проблему применения информационных технологий в управленческих системах.

Проблемы анализа структуры или синтаксиса были глубоко исследованы в теории формальных языков и грамматик в приложении к анализу цепочек символов. Это породило интерес к структурным методам в распознавании образов. Появилось много подходов, расширяющих теорию формальных языков на многомерные объекты. Однако их применимость остается весьма ограниченной в следствие того, что реальное изображение является мелкодискретным, в то время как существующие методы структурного распознавания образов ориентированы на анализ дискретных объектов с достаточно бедными отношениями. Попытка их непосредственного применения к изображению документа как набору пикселей практически невозможна, во-первых, из-за огромной размерности задачи, во-вторых, из-за наличия шума на реальных изображениях, что значительно осложняет формальное моделирование.

Необходимым, следовательно, является разработка метода к структурному распознаванию, оперирующего с параметрически заданными объектами и позволяющего описывать достаточно сложные конфигурации, встречающиеся при анализе реальных изображений.

В следствии значительного разнообразия типов документов в диссертационном исследовании детально рассмотрен лишь определенный класс документов - формы с нефиксированным расположением реквизитов, так называемые гибкие формы. Примерами таких гибких форм являются указанные ранее платежные поручения, бухгалтерские балансы, отчеты, налоговые декларации и большинство остальных анкет, используемых в настоящее время. Именно для форм идентификация логической структуры является исключительно необходимой операции при переводе в электронное представление.

Цель диссертационной работы

Целью диссертационной работы является разработка системы идентификации логической структуры изображения печатных документов для распознавания печатных форм с не фиксированным расположением полей.

Исходя из цели работы, с учетом анализа проблемы и существующих методов были, поставлены следующие задачи:

1.Разработать метод структурного распознавания образов, позволяющий учесть все необходимые геометрические свойства документа, в том числе:

• разработать алгоритм распознавания образа;

• создать средства, позволяющие описывать структуру образа.

2.Адаптировать разработанный метод структурного распознавания образов к задаче идентификации логической структуры печатных документов.

3.Создать программную систему, осуществляющую компиляцию описания образа, реализующую алгоритм структурного распознавания и процедуры выделения структурных элементов на изображении печатных документов.

Методы исследования

В диссертации использовались методы теории оптимизации,

элементы теории формальных языков, теории распознавания

образов, теории нечетких множеств и нечеткой логики.

Научная новизна

1.Разработана новая система идентификации изображений печатных документов, позволяющая учесть все необходимые геометрические свойства документа.

2.Разработан метод структурного распознавания образов, не связанный с формой представления распознаваемых данных, свойствами структурных элементов.

3.Создан язык структурных описаний, позволяющий описывать структуру образа и отношения между его элементами, основываясь на их параметрическом представлении.

4.Разработана методика инверсии отношений при компиляции структурного описания печатного документа, позволяющая оптимизировать процесс его создания, повысить скорость и вероятность правильного распознавания.

Практическая ценность работы

• Реализованы программные компоненты, осуществляющие компиляцию и анализ иерархического структурного описания, а также компиляцию и интерпретацию языка отношений.

8

• Разработан язык структурных описаний для описания гибких структурных форм: определены множество типов терминальных элементов, встроенные типы и наборы возможных отношений между подэлементами.

• Создана программная система для распознавания гибких форм. С помощью данной системы описан ряд конкретных форм, включающий платежные поручения, как нового, так и старого образца, налоговую .декларацию.

Практическая значимость работы

1.Разработанная идентификации логической структуры изображения печатных документов позволяет распознавать формы, не имеющие строго фиксированного расположения полей, в частности:

• формы платежного поручения;

• справки о доходах физического лица.

2.Созданная программа распознавания платежных поручений может быть использована при автоматизации работы с данными финансовыми документами. В настоящий момент программа внедрена:

• более чем в 3 0 государственных и .коммерческих банках, в том числе в 9 отделениях Сбербанка;

• в федеральном департаменте налоговой полиции.

3. Разработанный метод структурного распознавания образов позволяет распознавать образы, состоящие из достаточно сложных структурных элементов, связанных произвольным набором отношений. На ряду с рассмотренным в

диссертационной работе применением, он также используется для распознавания рукописных символов.

Достоверность

Достоверность полученных результатов обеспечивается тем, что используются методы и алгоритмы, проверенные на практике в других областях компьютерной математики. Достоверность созданной системы распознавания форм подтверждается хорошим совпадением результатов . автоматического анализа с эталонными.

Апробация работы

Основные положения диссертационной работы докладывались и обсуждались на 4-ой Международной конференции по анализу и распознаванию документов ICDAR (Forth International Conference on Document Analysis and Recognition, Ulm, Germany, 1997 г.), 7-ой Международной научно-технической конференции "Оптические, радиоволновые тепловые методы и средства контроля природной среды, материалов и промышленных изделий" (г. Череповец, 1997 г.), Международной электронной научной конференции "Перспективные технологии автоматизации" (г. Вологда, 1998 г.), Отраслевой конференции по документообороту DOCFLOW (г. Москва 1998 г.). .

Публикации

По теме диссертации опубликовано 8 статей и публикации в материалах конференций.

Структура и объем диссертации

Диссертационная работа состоит из введения, 5 глав, заключения, списка литературы и 4 приложений. Общий объем 153 стр., в том числе 137 стр. основного текста, 20 рисунков, 5 таблиц, 93 наименования списка литературы.

Основное содержание работы

В первой главе проведен анализ проблемы идентификации • логической структуры печатных документов и рассмотрены существующие методы ее решения. Определены доступные для автоматического анализа графические характеристики документа, в которых отражается его логическая структура, -содержимое текстовых элементов, их шрифтовое оформление, и геометрическая структура документа. Показана необходимость совместного учета данных характеристик для создания наиболее универсального метода идентификации логической структуры печатных документов.

Проведен сравнительный анализ информативности графических характеристик печатных форм - основного класса документов, в целях распознавания которого проводились данные исследования. Сделан вывод о необходимости сосредоточить усилия на более полном использовании информации о геометрической структуре распознаваемых документов.

Исследованы общие свойства геометрической структуры печатных документов. Выделены основные структурные элементы, т.е. элементы составляющие геометрическую структуру изображения документа. Определены общие свойства

структурных элементов и сформулированы основные положения о геометрической структуре документа в терминах структурных элементов.

Рассмотрены существующие методы анализа геометрической структуры печатных документов. Показана необходимость создания и применения метода структурного распознавания образов, не имеющего ограничений на типы используемых структурных элементов и вид отношений, связывающих структурные элементы образа.

Во второй главе описан предлагаемый обобщенный метод структурного распознавания образов. На основании сформулированных в первой главе свойств геометрической структуры документа выдвинуты требования к методу структурного распознавания. С учетом данных требований разработана общая структура модели, позволяющая описывать и распознавать образы, имеющие сложную, в том числе иерархическую структуру. Специфицированы интерфейсы и протоколы взаимодействия основных компонент модели. Описаны устройство и алгоритмы распознавания для наиболее важных и универсальных компонент модели, осуществляющих анализ структуры образа на основе его структурных элементов.

В третей главе представлены результаты разработки средств для описания структуры и свойств образов для их последующего распознавания. В виду потенциальной необходимости задавать достаточно сложные свойства и ограничения предлагается использовать языковые средства описания. С учетом этих требований создан декларативный язык структурных описаний, позволяющий задавать структуру

образов и их свойства. Для описания свойств образа и его элементов в язык структурных описаний включен специализированный функциональный программирования.

Рассмотрены основные вопросы, касающиеся создания компилятора описания и интерпретатора выражений, вычисляющих свойства и проверяющих отношения.

В четвертой главе разработан способ вычисления оценки качества распознавания элементов, основанный на вероятностной интерпретации. Получена формула вычисления оценки качества распознавания образа на основе оценок качества распознавания его структурных элементов. Установлено соответствие между условной вероятностью и отношениями между структурными элементами, что приводит к необходимости формировать функцию условной плотности вероятности с помощью отношений. Для этого предлагается рассматривать отношения как выражения нечеткой логики в вероятностной интерпретации.

В пятой главе разрабатывается метод идентификации логической структуры изображения печатных документов на основе предложенного обобщенного метода структурного распознавания образов .

Описана архитектура системы распознавания печатных форм. Предложена методика адаптации обобщенного метода структурного распознавания образов к конкретному приложению. В соответствии с этой методикой введены специализированные структурные элементы и отношения, необходимые для распознавания форм. Соответственно расширен

базовый язык структурных описаний. Описаны алгоритмы распознавания структурных элементов.

Введено понятие локализации, позволяющее вычислить априорные ограничения на свойства структурных элементов и тем самым оптимизировать процесс распознавания. Локализация вычисляется по отношениям путем их инверсии. Разработана методика инверсии отношений при компиляции описания образа. Данная методика применена для вычисления области изображения, в которой осуществляется поиск структурных элементов формы.

В приложении приведены:

• примеры изображений печатных форм с нефиксированным расположением полей;

• грамматика языка структурных описаний в стандартной нотации БНФ;

• список атрибутов, параметров, функций и отношений, использующихся при описании печатных документов;

• фрагменты описаний формы платежного поручения и налоговой декларации на языке структурных описаний.

На защиту выносятся

1.Система идентификации логической структуры печатных документов на основе метода структурного распознавания образов.

2.Модель описания структуры образов и метод структурного распознавания, не имеющие ограничений на типы используемых структурных элементов и вид отношений, связывающих структурные элементы образа.

3.Язык структурных описаний как средство описания образа для его последующего распознавания предложенным методом структурного распознавания.

4.Методика инверсии отношений, позволяющая априорно вычислить дополнительные ограничения на выделяемые

> структурные элементы.

1. Проблемы идентификации логической структуры печатных документов

1.1 Анализ основных свойств логической структуры документа

Определение логической структуры

Понятие логической структуры документа может быть сформулировано как деление документа на определенного вида фрагменты, каждый из которых имеет собственную роль, связанную с семантикой данного типа документа. Такие фрагменты, отражающие различные аспекты документа, получили название реквизитов документа. Например, отдельными реквизитами документа могут быть его заголовок, автор, дата создания, основной текст.

Состав реквизитов логической структуры документа определяется его типом. Например, реквизиты платежного поручения - это номер, дата, сумма, счета, назначение платежа, а реквизиты научной статьи - это УДК, название, автор, ключевые слова, список литературы. Таким образом, задача идентификации логической структуры документа оказывается тесно связанной с задачей определения типа документа, т.е. идентификацией документа. Идентификация типа документа может рассматриваться как отдельный этап, предварительный для идентификации логической структуры. В этом случае тип документа, а значит, и состав его реквизитов становится известным к моменту идентификации

структуры. Или, напротив, идентификация документа может быть неотъемлемой частью процесса идентификации структуры. В этом случае из допустимого набора типов документов выбирается тот, чья логическая структура наиболее точно соответствует распознаваемому изображению. Существуют и смешанные стратегии, когда предварительная грубая идентификация используется для сужения множества типов документов, рассматриваемых при анализе логической структуры.

Логическая структура документа может быть

иерархической, когда некоторые реквизиты имеют собственную нетривиальную структуру. В частности, введение к диссертационной работе, рассматриваемое как один из реквизитов всего текста диссертации, имеет, в свою очередь, более или менее стандартизированное деление на фрагменты, представляющие, например, актуальность темы, цели и задачи исследования, научную новизну и прочие характеристики.

Введение явного понятия логической структуры или логической модели документа и отделение ее от физических или геометрических свойств характерно для многих современных работ в области анализа и распознавания документов [46,50,57,71,81,90].

Использование логической структуры

Информационная модель электронного документа, т.е. его модель в информационной системе, как правило, связана с его логической структурой. Эта связь может не быть взаимно однозначной. Так, информационная модель может включать

дополнительные характеристики документа, отсутствующие в его тексте, - например, индексы в каком-нибудь предметном классификаторе. И наоборот, выделение некоторых реквизитов может быть излишним для данной информационной системы, так как не предполагается их использование ни при поиске, ни при обработке информации. Так, наличие алгоритмов полнотекстового поиска позволяет искать документы в сети ИНТЕРНЕТ не имея информации об их логической структуре. Однако в последнее время усилился интерес к средствам, позволяющим задать структуру документа, в частности, появился язык XML. Кроме того, существует важный с практической точки зрения класс документов, точное отражение логической структуры которых является строго необходимым при их вводе в электронную информационную систему, так как эти документы изначально предназначены для сбора и передачи данных в информационные системы. Это различного вида формы, декларации и анкеты, регистрационные карточки, в дальнейшем именуемые просто формы. Идентификация логической структуры этого класса документов является наиболее актуальной. Поэтому в данном исследовании наибольшее внимание уделяется именно распознаванию форм.

Итак, можно заключить, что автоматическое выделение логической структуры документа, или, по крайней мере, некоторых из его реквизитов, является необходимым при переводе печатного документа в электронное представление. При этом выделяются и классифицируются либо области изображения, соответствующие реквизитам, либо фрагменты распознанного текста.

Связь логической структуры с графическими характеристиками

Распознавание логической структуры в общем виде представляет серьезную проблему вследствие того, что в документе отсутствует явная и однозначная информация о его делении на фрагменты, соответствующие реквизитам логической структуры. Тем не менее, логическая структура отражается на графических характеристиках различных элементов документа. Эти характеристики можно разделить на три основные группы:

• характеристики, связанные с геометрической структурой изображения документа;

• характеристики, связанные с текстовым содержанием реквизитов;

• шрифтовое оформление.

Логическая структура отражается в геометрической структуре изображения печатного документа. Так как реквизит соответствует фрагменту документа, то он, как правило, занимает компактную область на изображении. При этом зачастую области, соответствующие различным реквизитам, отделяются друг от друга белыми полями или разделительными линиями. Выделение подобных областей и анализ их взаимного расположения позволяет судить о логической структуре изображения документа, так как существуют определенные правила, ограничивающие расположение реквизитов на изображении. Распространенный случай подобных ограничений это порядок следования реквизитов в потоке текста, т.е. в документе, как упорядоченной последовательности строк, слов или символов, в зависимости от требуемой степени детализации. Например, заголовок обязательно предшествует

основному тексту, а список литературы следует в конце. Заметим, что в данном случае достаточно проводить анализ на уровне строк. Однако, если необходимо детально разбирать список литературы на название, автора, год публикации, а такие приложения существуют [74], то необходимо проводить анализ на уровне отдельных символов с учетом результатов распознания. Таким образом происходит логичный переход от характеристик, связанных с геометрической структурой изображения документа, к характеристикам, связанным с текстовым содержанием реквизитов.

Текстовое содержимое реквизитов может быть использовано для их выделения. Это связано тем, что реквизит соответствует определенному аспекту документа и, следовательно, имеет ограничения на содержащийся в нем текст. Различия в текстовом содержании позволяют отделять реквизиты друг от друга. Сложность требуемых методов анализа текста обратно пропорциональна силе накладываемых на текст ограничений, а именно:

• допускаются только определенные ключевые слова, например, текст реквизита обязательно начинается с определенного слова, как в случае введения к диссертации;

• допускаются слова из определенного, достаточно большого ■набора слов, например, из словаря фамилий для

детектирования автора документа;

• содержимое реквизита описывается грамматикой, как в случае элементов списка литературы или при разборе строки адреса;

• существуют ограничения на лингвистическом уровне, например, заголовок зачастую является так называемой именной группой, т.е. предложением без сказуемого.

Важно отметить, что текст, полученный в результате распознавания, может содержать ошибки, поэтому для анализа текстового содержимого реквизитов необходимо применение алгоритмов нечеткого сравнения, учитывающих возможные ошибки.

Следующая группа характеристик связана с элементами шрифтового оформления: размером шрифта, его типом, (курсивом, жирным, моноширинным и т.д.). Как правило, такие характеристики позволяют выделять заголовки и подзаголовки. Более детальный анализ реквизитов на основе шрифтового оформления возможен в случае достаточно специфических приложений, когда строго соблюдаются правила

форматирования, в частности при распознавании архивов определенного печатного издания.

Итак, логическая структура документа отражается в его графических характеристиках: геометрической структуре, текстовом содержании и шрифтовом оформлении. Анализ этих свойств позволяет судить о логической структуре документа. При этом в различных случаях наиболее информативными оказываются различные группы свойств. Причем при анализе определенного вида документов может потребоваться совместное использование и геометрической структуры, и текстового содержания, и шрифтового оформления. Следовательно, перспективными являются методы, позволяющие учесть все необходимые свойства.

1.2 Особенности графических характеристик печатных форм

Классификация печатных форм

Формы являются особым классом печатных документов, предназначенным для сбора или передачи структурированной информации. Структура этой информации определяет логическую структуру формы, т.е. множество ее реквизитов. Такая специфика использования форм влияет и на ее графические характеристики. Учитывая практическую важность

распознавания логической структуры форм, представляется необходимым провести более детальный анализ особенностей их графических характеристик.

Прежде всего, класс печатных документов, к которому относятся формы, не является однородным. Выделяют следующие основные разновидности [53]:

• анкеты, стандартные бланки;

• распечатанные формы, отчеты;

• табличные отчеты.

К первой группе относятся всевозможные анкеты и формы, которые заполняются на стандартном бланке, причем заполнение может быть как печатным, так и рукописным текстом. Для форм данного типа расположение реквизитов является строго фиксированным - в бланке имеются так называемые поля для ввода.

Во вторую группу включены формы, имеющие фиксированный состав реквизитов, как и в первом случае, однако они не

заполняются на стандартном бланке, а просто

распечатываются. Для того, чтобы можно было отличить одни реквизиты от других, как правило, существуют определенные правила заполнения. Однако они зачастую лишь в общих чертах ограничивают взаимное расположение реквизитов. Даже если стандарт для данного типа форм определяет их точное расположение, на практике эти требования невозможно выполнить, так большинство простых систем верстки текста не позволяют соблюдать такие жесткие ограничения. Характерный пример - это формы платежных поручений. В некоторых случаях, как например для визитных карточек, расположение реквизитов практически никак не фиксируется, и для их различия необходимо использовать информацию о текстовом содержимом реквизитов. Надо отметить, что встречается смешанный случай, когда бланк неоднократно распечатывается в некотором количестве экземпляров, а потом заполняется. При этом нет никакой гарантии, что бланк имеет фиксированное расположение полей для ввода. Отличие этого варианта от других форм данной группы состоит лишь в том, что реквизиты могут быть впечатаны другим шрифтом, отличным от шрифта бланка. В частности, они могут быть и рукописными.

К третьей группе отнесены различного вида табличные отчеты. По способу печати и по своим графическим характеристикам они аналогичны формам предыдущей группы. Однако некоторые реквизиты могут иметь несколько экземпляров на изображении, образуя повторяющиеся записи таблицы.

Общим для всех разновидностей форм является тот факт, что некоторые реквизиты могут быть необязательными. В этом случае поля для их ввода на бланке оказываются пустыми, а в случае распечатки форм на их месте могут оказываться другие реквизиты.

Проведенный анализ графических характеристик данных разновидностей форм позволяет заключить, что:

• шрифтовое оформление является малоинформативным для выделения реквизитов;

• для некоторых форм расположение реквизитов является фиксированным;

• для многих форм существуют правила и ограничения на абсолютное и относительное расположение реквизитов;

• для выделения реквизитов может потребоваться анализ текстового содержимого, однако лингвистический анализ не актуален - достаточно использования ключевых слов, слов из определенного словаря и грамматик.

Таким образом, наиболее важным является идентификация геометрической структуры печатного документа с использованием простых, проверенных методов анализа текстового содержимого.

Анализ свойств геометрической структуры

Для исследования геометрической структуры печатных документов в целом, и форм в частности, необходимо прежде всего выделить те значимые элементы, которые составляют геометрическую структуру. В соответствии с терминологией,

принятой в методах структурного распознавания образов, будем называть их структурными элементами.

Прежде всего, представляется, что отдельные пиксели изображения не разумно использовать в качестве элементов геометрической структуры документа, так как это является слишком низкоуровневым представлением - появление и исчезновение большого количества несвязных пикселей никак не влияет на геометрическую структуру документа, хотя это очень часто происходит вследствие появления «шума» при печати и сканировании документа. В настоящее время большинством исследователей [59,60,73] принято считать, что для анализа и сегментации изображения документа наиболее адекватным представлением изображения является

представление в виде так называемых связных областей, т.е. связных групп пикселей. Именно появление или исчезновение большой группы пикселей имеет смысл учитывать при анализе. Связные области, как правило, аппроксимируют описывающим прямоугольником соответствующих групп пикселей. Они также зачастую совпадают с отдельными буквами текста (см. Рисунок 1) . Данный подход получил название box-driven reasoning [73] .

Однако для анализа геометрической структуры документа с целью идентификации его логической структуры более подходящим было бы использование менее примитивных структурных элементов. Предлагается оперировать:

• с текстовыми областями различной степени детализации - от слова и, возможно, буквы - до строки или блока строк;

• с разделительными линиями - вертикальными и горизонтальными, сплошными и пунктирными.

Документы могут содержать и другие элементы, в частности рисунки, однако для форм и для анализа логической структуры печатных документов эти элементы мало информативны, и поэтому в дальнейшем не рассматриваются.

Опыт разработки систем сегментации изображения печатных документов [59,60,73,75,86,89], в том числе и автора данного исследования [13], позволяет считать, что проблемы выделения данных структурных элементов являются принципиально разрешимыми. Заметим, что для точного выделения текстовых структурных элементов может понадобится распознавание и анализ содержащегося в них текста.

Итак, геометрическая структура печатного документа формируется из структурных элементов: текстовых областей и разделительных линий. Некоторые текстовые области соответствуют реквизитам. Остальные текстовые области и разделительные линии соответствуют бланку формы или аналогичной его части, не несущей полезной предметной информации.

Свойства геометрической структуры могут быть сформулированы с использованием свойств структурных элементов, в частности их расположения:

• существуют ограничения на абсолютное расположение структурных элементов, т.е. относительно страницы целиком;

• существуют ограничения на относительное расположение структурных элементов;

• возможны структурные вариации - значительно отличающиеся конфигурации структурных элементов;

• структурные элементы могут быть необязательными или исчезать в процессе сканирования.

Абсолютное расположение структурных элементов

характерно для анкет и стандартных бланков. Заметим, что при этом фиксировано и их относительное расположение. Однако остается проблема точного определения положения всей страницы с учетом сдвигов, поворотов и шума, возникающих при сканировании. В остальных случаях ограничения на абсолютное расположение могут быть использованы для отсечения заведомо неправильных вариантов выделения структурных элементов.

Относительные ограничения могут разделены на две группы:

• реляционные;

• метрические.

Реляционные ограничения фиксируют лишь общий характер отношения, например, то, что один элемент находится выше или ниже другого. Метрические ограничения задают координаты области, в которой расположен элемент,- относительно другого элемента. Как правило, метрическими ограничениями задают достаточно малые отклонения во взаимном расположении. В остальных случаях применяют реляционные отношения.

В некоторых случаях стандарты формы не являются достаточно строгими и не фиксируют взаимное расположение реквизитов, что приводит к возможности структурных вариаций. Частным, но весьма распространенным случаем

структурных вариаций можно считать отсутствие того или иного структурного элемента на изображении. В случае реквизитов, как уже упоминалось, это вызвано необязательностью их заполнения. Остальные элементы могут также опускаться при печати формы, или настолько •деградировать при сканировании, что их выделение становится невозможным. Это часто происходит с разделительными линиями либо с текстовыми элементами бланка, напечатанными мелким шрифтом. Тем не менее, использовать такие элементы при анализе необходимо, так как они позволяют уточнить положение других элементов, поэтому при их отсутствии отказываться от распознавания нецелесообразно.

1.3 Методы, применяющиеся при идентификации логической структуры печатных документов

Использование особенностей геометрической структуры печатных документов позволяет проводить идентификацию логической структуры. Разнообразие этих особенностей, описанное в предыдущем разделе, приводит к существованию различных подходов и методов идентификации.

Методы сегментации изображения печатных документов

Так как анализ геометрической структуры, как правило, требует выделения структурных элементов, необходимо рассмотреть основные методы сегментации изображения печатных документов. Традиционно рассматривают [73,75,84,85] два основных методологических подхода к решению задачи

сегментации изображения печатных документов. Это методы анализа «снизу-вверх» и «сверху-вниз».

Методы анализа «снизу-вверх» выделяют элементы, начиная с самого низкого уровня представления изображения - от пикселей исходного или предобработанного изображения к связным областям и собираемым из них строкам и блокам строк (см. Рисунок 1) .

В Государственную налоговую инспекцию № 5 ЦАО

I

в

4

ЦАО

Исходное изображение

Связные области

Н ШздЗа дашановдо ишшшиущ

Похожие диссертационные работы по специальности «Системы обработки информации и управления», 05.13.14 шифр ВАК

Заключение диссертации по теме «Системы обработки информации и управления», Зуев, Константин Алексеевич

Заключение

Проведенный анализ общих свойств логической структуры документов, рассмотрение взаимосвязей логической структуры с графическими характеристиками документов и их особенностей для , печатных форм, а также анализ применяющихся при идентификации логической структуры печатных документов методов позволил обосновать необходимость разработки метода анализа, позволяющего учитывать при идентификации структуры документа как геометрическую структуру, так и текстовое содержимое элементов документа, и базирующегося на методах структурного распознавания образов. Учитывая существенное разнообразие форм документов, предложено следующее:

• целесообразно разработать обобщенный метод структурного распознавания образов, не связанный с формой представления распознаваемых данных, свойствами структурных элементов и применимый к идентификации произвольных образов;

• на основе разработанного обобщенного метода создать систему идентификации логической структуры печатных документов, предложив соответствующие предметные алгоритмы;

• на примере создания описаний печатных форм проверить эффективность предложенных принципов, модели и системы анализа логической структуры печатных документов.

Реализуя указанный подход, в диссертационной проделанной работе достигнуты следующие основные научные и практические результаты:

1.Разработан метод структурного распознавания образов, не накладывающий ограничений на типы используемых

4структурных элементов и вид отношений, связывающих структурные элементы образа. Предложенный метод позволяет распознавать образы из достаточно сложных структурных элементов, связанных произвольным набором отношений и может быть использован и для идентификации других типов образов, что подтверждается его применением при распознавании рукописного текста.

2.Создан язык структурных описаний, предназначенный для задания структуры и свойств распознаваемого образа, а также средства его обработки (компилятор описания и интерпретатор выражений), обеспечивающие быстрый цикл настройки-тестирования описания образа.

3.Разработана методика инверсии отношений - методика априорного вычисления параметров распознаваемых структурных элементов печатных документов, позволяющая оптимизировать процесс создания описания, повысить скорость и вероятность правильного распознавания.

4.Разработана система идентификации структуры изображений печатных документов,- позволяющая учесть все необходимые геометрические свойства документа и являющаяся адаптацией метода структурного распознавания образов к конкретному приложению.

5. Разработанная в результате исследования система нашла практическое использование для распознавания форм платежных поручений в ряде государственных и коммерческих банков, в том числе в 9 отделениях Сбербанка России. Создан прототип описания справки о доходах физического 1 лица для Государственной налоговой инспекции.

Список литературы диссертационного исследования кандидат технических наук Зуев, Константин Алексеевич, 1999 год

СПИСОК ЛИТЕРАТУРЫ.

1.Ахо А., Ульман Дж. , Теория синтаксического анализа, перевода и компиляции // Мир, 197 8 г., т. 1, 2.

2.Байков A.M., Кузин Е.С., Шамис А.Л., Пакет программ для распознавания рукописной, символьной и графической информации ГРАФИТ // Искусственный интеллект. Справочник, М., Радио и связь, 1990 г., с. 179-184.

3.Байков A.M., Власенко A.B., Леонова А.Е., Шамис А. Л., Распознавание рукописной, символьной и графической информации в ЭВМ // Вопросы радиоэлектроники, 1986 г., №3, с. 47-58.

4.Борисов А.Н. и др., Обработка нечеткой информации в системах принятия решений // Радио и связь, 198 9 г., 304с.

5. Бутаков Е.А. и др., Обработка изображений на ЭВМ // М. Радио и связь, 1987 г., 240 с.

6.Васин Ю.Г., Математическая модель структурированного описания графических изображений - Автоматизация обработки сложной графической информации // Изд. ГГУ, 1983 г., с. 92-117.

7.Гонсалес, Дж. Ту, Р., Принципы распознавания образов // Мир, 1978 г., 412 с.

8.Грис, Д., Наука программирования // Мир, 1984 г., 416 с.

9.Дейкстра Э., Дисциплина программирования // Мир, 197 8 г., 275 с.

10. Дуда Р., Харт П., Распознавание образов и анализ сцен // Мир, 1976 г., 511 с.

11. Ершов Ю.Л., Палютин Е.А., Математическая логика // Наука, 1987г., 336 с.

12. Зуев К.А., Бинаризация изображений печатных документов // Компьютерная хроника, 1996г., №2, стр. 95-99.

13. Зуев К.А., Технология анализа документа // Компьютерная хроника, 1996г., №3, стр. 53-59.

14. Зуев К.А., Метод выделения полей при распознавании форм // Труды МГУЛ, 1999 г., вып. 302.

15. Зуев К.А., Язык структурных описаний // Международная научная конференция "Перспективные технологии автоматизации", 1998 г., г. Вологда.

16. Зуев К.А., Язык структурных описаний для систем распознавания образов // Труды МГУЛ, 1999 г., вып. 302.

17. Искусственный интеллект. Справочник /Под ред. Э.В. Попова // М. Радио и связь, 1990 г., 4 64 с.

18. Искусственный интеллект. Справочник /Под ред. Д.А. Поспелова // М. Радио и связь, 1990 г., 304 с.

19. Касьянов В.Н., Потосин И.В., Методы построения трансляторов. // Наука, 1986 г., 344 с.

20. Кауфман В.Ш., Языки программирования. Концепции и принципы // Радио и связь, 1993 г., 432 с.

21. Кофман А., Введение в теорию нечетких множеств // Радио и связь, 1982 г., 432 с.

22-. Лорьер Э., Системы искусственного интеллекта // Мир, 1989 г., 297 с.

23. Кристофидес Н., Теория графов. Алгоритмический подход // Мир, 1978 г., 432 с.

24. Крюков А.П. и др., Программирование на языке Лисп // Радио и связь, 1991 г., 192 с.

25. Кузин Л.Т., Основы кибернетики // Энергия, 1973 г..

26. Мазо Б.Л., Оптические читающие терминалы: Концепции построения // Интеллектуальные читающие терминалы., М.,

, ИНЭУМ, 1985 г., с. 5-21.

27. Мину М., Математическое программирование. Теория и алгоритмы // Наука, 1990 г., 488 с.

28. Нильсон Н., Искусственный интеллект. Методы поиска решений // Мир, 1973 г.

29. Научно-технический отчет за 1994 г. Проект 34.90. Адаптивная система обработки деловых форм. // Институт системного анализа РАН, Москва, 1994 г, 72 с.

30. Попов Э.В., Экспертные системы: Решение неформализованных задач в диалоге с ЭВМ // Наука, 1987г. л. 288 с.

31. Пратт Т., Языки программирования. Разработка и реализация // Мир, 197 9г., 575 с.

32. Пратт У.К., Цифровая обработка изображений // Мир, 1982г., т. 1, 2.

33. Стерлинг Л., Шапиро Э., Искусство программирования на языке Пролог // Мир, 1990г., 235 с.

34. Тей А. и др., Логический подход к искусственному интеллекту // Мир, 1990г., 235 с.

35-. Филд А., Харрисон П., Функциональное программирование. // Мир, 1993 г., 637 с.

36. Фу К., Структурные методы в распознавании образов. // Мир, 1977 г., 320 с.

37. Харари Ф., Теория графов. // Мир, 1973 г., 207 с.

38. Agarwal A., at al, Detection of Curtasy Amount Block on Bank Checks // Proc. of the Third International Conference on Document Analysis and Recognition ICDAR'95, pp. 748-751, IEEE, 1995.

39. Arias, J.F., at al, Efficient Interpretation of Tabular Documents // Proc. of the 13th International Conference on Pattern Recognition IAPR'96, pp. 681-685, IEEE, Vienna, Austria, 1996.

40. Appel A., Modern Compiler Implementation in C // Cambridge University Press, 1998.

41. Azokly A., Ingold R., A Language for Document Generic Layout Description and Its Use for Segmentation into Region // Proc. of the Third International Conference on Document Analysis and Recognition ICDAR'95, pp. 11231126, IEEE, 1995.

42. Bayer, Th. A. and H. U. Mogg-Schneider, A Generic System for Processing Invoices // Proc. of the Fourth International Conference on Document Analysis and Recognition ICDAR'97, IEEE, 1997.

43. Belaid, A. and Y.f Turolla, Item Searching in Forms: Application to French Tax Form // Proc. of the Third International Conference on Document Analysis and Recognition ICDAR'95, pp. 744-747, IEEE, 1995.

44-. Belaid, A. and Y. Chenevoy, Document Analysis for Retrospective Conversion of Library Reference Catalogues // Proc. of the Fourth International Conference on Document Analysis and Recognition ICDAR'97, p. 432, IEEE, Ulm, Germany, 1997.

45. Bohnacker, U., J. Schacht, and T. Yuecel, Matching Form Lines Based on a Heuristic Search // Proc. of the Fourth International Conference on Document Analysis and Recognition ICDAR'97, pp. 86-90, IEEE, 1997.

46. Brugger, R., A. Zramdini, and R. Ingold, Modeling Documents for Structure Recognition Using Generalized N-Grams // Proc. of the Fourth International Conference on Document Analysis and Recognition ICDAR'97, pp. 56-60, IEEE, 1997.

47. Cesarini, F., at al, A System for Data Extrcaction from Forms of Known Class // Proc. of the Third International Conference on Document Analysis and Recognition ICDAR'95, pp. 1136-1140, IEEE, 1995.

48. Cesarini, F., at al, Rectangle Labelling for an Invoice Understanding System // Proc. ICDAR'97, pp.-. 324-330, IEEE, 1997.

49. Chen, J-L., H-J. Lee, A Novel Form Structure Extraction Method Using Strip Projection // Proc. of the 13th International Conference on Pattern Recognition IAPR'96, pp. 823-827, IEEE, 1996.

50. Cheriet M., at al, A Formal Model for Document Processing of Business Forms // Proc. of ICDAR'95, pp. 210-213, IEEE, 1995.

51-, Conway A., Page grammars and page parsing. A syntactic approach to document layout recognition // ICDAR'93, pp. 761-764, 1993.

52. Cordelia, L.P., at al, An Efficient Algorithm for the Inexact Matching of ARG Graphs Using a Contextual

Transformational Model // Proc. of the 13th International Conference on Pattern Recognition IAPR'96, pp. 180-184, IEEE, Vienna, Austria, 1996.

53. Cracknell C., A. C. Downton, and L. Du, TABS - A New Software Framework for Document Image Processing, Analysis and Understanding // Proc. of the Fourth International Conference on Document Analysis and Recognition ICDAR'97, IEEE, 1997.

54. Cracknell C., A.C. Downton, and L. Du, An Object-Oriented Form Description Language and Approach to Handwritten Form Processing // Proc. of the Fourth International Conference on Document Analysis and Recognition ICDAR'97, pp. 180-184, IEEE, 1997.

55. Diana S. at al, From Acquisition to Modélisation of a Form Base to Retrieve Information // Proc. of the Fourth International Conference on Document Analysis and Recognition ICDAR'97, IEEE, 1997.

56. Djeziri, S., F. Nouboud, R. Plamondon, Extraction of Items from Checks // Proc. of the Fourth International Conference on Document Analysis and Recognition ICDAR'97, IEEE, 1997.

57. Farrow G.S.D., at al, Model Matching in Intelligent Document Understanding // Proc. of the Third •International Conference on Document Analysis and Recognition ICDAR'95, pp. 293-296, IEEE, 1995.

58. Futrelle R.P., Nikolakis N., Efficient Analysis of Complex Diagrams Using Constraint-Base Parsing // Proc. of the Third International Conference on Document

Analysis and Recognition ICDAR'95, pp. 782-790, IEEE, Montreal, Canada, 1995.

59. Ha J., Haralisk•R.M., Phillips I.T., Recursive X-Y Cut Using Bounding Boxes of Connected Components // Proc. of the Third International Conference on Document Analysis and Recognition ICDAR'95, pp. 952-955, IEEE, 1995.

60. Ha J., Haralisk R.M., Phillips I.T., Document Page Decomposition by the Bounding-Box Projection Technique // Proc. of the Third International Conference on Document Analysis and Recognition ICDAR'95, pp. 1119-1122, IEEE, Montreal, Canada, 1995.

61. Hirayama, Y., Analyzing Form Images by Using Line-Shared-Adjacent Cell Relations // Proc. of the 13th International Conference on Pattern Recognition IAPR'96, pp. 768-772, IEEE, Vienna, Austria, 1996.

62. Hori 0., Doermann D.S., Robust' Table-Form Structure Analysis Based on Box-Driven Reasoning // Proc. of the Third International Conference on Document Analysis and Recognition ICDAR'95, pp. 218-221, IEEE, Montreal, Canada, 1995.

63. Hurst, M. and Sh. Douglas, Layout and Language: Preliminary Investigations in Recognizing the Structure of Tables // Proc. of ICDAR'97, IEEE, Ulm, Germany, 1997.

64. Kiyko V.M., Recognition of Objects in Images of Paper Based Line Drawings // Proc. of ICDAR'95, pp. 970-973, IEEE, Montreal, Canada, 1995.

65. Kosiba, D.A., Kasturi R., Automatic Invoice Interpretation: Invoice Structure Analysis // Proc. of

the 13th International Conference on Pattern Recognition IAPR'96, pp. 721-725, IEEE, Vienna, Austria, 1996.

66. Liu, K., at al, Description and Recognition of Form and Automated Form Data Entry // Proc. ICDAR'95, pp. 579-582, IEEE, Montreal, Canada, 1995.

,67. Liu, K., at al, Automatic Extraction of Items from Cheque Images for Payment Recognition // Proc. of ICPR'96, pp. 798-802, IEEE, 1996.

68. Lorie, R.A., at al, A System of Automated Data Entry from Forms // Proc. of ICPR'96, pp. 686-690, IEEE, 1996.

69. Mao J., at al, A Model-Based Form Processing Sub-System // Proc. of ICPR'96, pp. 691-695, IEEE, 1996.

70. Mao J., R. Lorie, and K. Mohiuddin, A System for Automatically Reading IATA Flight Coupons // Proc. ICDAR'97, pp. 153-157, IEEE, 1997.

71. Marr D., Representing and Computing Visual Information / Artificial Intelligence: An MIT Perspective // MIT Press, pp. 18-80, 1979

72. Niyogi D., Shrihari S.N., Knowledge-Based Derivation of Document Logic Structure // Proc. of ICDAR'95, pp. 472475, IEEE, 1995.

73. 0'Gorman L., Kasturi K., Document Image Analysis // IEEE Computer Society Press, 1995.

74. Parmentier F. and A. Belaid, Logical Structure Recognition of Scientific Bibliographic References // Proc. of ICDAR'97, IEEE, 1997.

75. Pavlidis T., Zhou J., Page Segmentation and Classification // Computer Vision, Graphics and Image Processing, 54(6),-pp. 484-496, 1992.

76. Safari R., at al, Form Registration: A Computer Vision Approach // Proc. of ICDAR'97, IEEE, Ulm, Germany, 1997.

>11. Sauvola J. and Pietikainen M., Page Segmentation and Classification Using Fast Feature Extraction and Connectivity Analysis // Proc. of ICDAR'95, pp. 11271131, 1995.

78. Shamilian, J. H., T. L. Wood, and H. S. Baird, A Retargetable Table Reader // Proc. of ICDAR'97., pp. 158163, 1997.

79. Shimotsuji, S., M. Asano, Form Identification Based on Cell Structure // Proc. of ICPR'96, pp. 686-690, 1996.

80. Structured Document Image Analysis // Springer-Verlag, 1992.

81. Ting A., at al, A Syntactic Business Form Classifier // Proc. of ICDAR'95, pp. 301-304, IEEE, 1995.

82. Tsang, E.P.K., Foundations of Constraint Satisfaction // Academic Press, 1993

83. Tseng, L. Y. and R.-Ch. Chen, The Recognition of Form Documents Based on Three Types of Line Segments // Proc. of ICDAR'97, pp. 71-75, IEEE, 1997.

84: Wahl F., at al, Block Segmentation and Text Extraction in Mixed Text/Image Documents // Computer Vision, Graphics and Image Processing, 20, pp. 375-390, 1982.

85. Wang D., Srihari S., Classification of newspaper image blocks using texture analysis // Computer Vision, Graphics and Image- Processing, 47(3), pp. 327-352, 1989.

86. Wenzel, C., Supporting Information Extraction from Printed Documents by Lexico-Semantic Pattern Matching //

. Proc. of ICDAR'97, IEEE, 1997.

87. Wolf, M., W. Schmidt, and H. Niemann, Fast Address Block Location on Handwritten and Machine Printed Mail-Piece Images // ICDAR'97, IEEE, 1997.

88. Wolf, M. and H. Niemann, Form-Based Localization of the Destination Address Block on Complex Envelopes // Proc. of ICDAR'97, IEEE, 1997.

89. Wong K., Casey R. Wahl F., Document Analysis System // Proc. of the 6th International Conference on Pattern Recognition ICPR'82, IEEE, 1982.

90. Wu S., U. Manber, Fast Text Searching Allowing Errors // Communications of the ACM 35, pp. 83-91, 1992

91. Yan C.D., Tang Y.Y., Suen C.Y., Form Understanding System Based on Form Description Language // Proc. of ICDAR'91, pp. 283-293, IEEE, 1995.

92. Yuan J., Tang Y.Y., Suen C.Y., Four Directional Adjacency Graphs (FDAG) and Their Application in Locating Fields in Forms // Proc. of ICDAR'95, pp. 752-755, IEEE, •1995.

93. Zuyev K.A., Table Image Segmentation // Proc. of ICDAR'97, pp 705-708, 1997.

Приложение 1: Примеры изображений печатных форм с нефиксированным расположением полей.

ПЛАТЕЖНОЕ ПОРУЧЕНИЕ N 49 12.02.1998 г, почтой

Дата Вид плат#ж#> I

Сумма

прописью Одна тысяча триста десять рубпей ЗЕЗ копеек

I 0401060

ИНН 7718084909 ГП UHTW "Mn+opMCBflW Пллтальийк Сумма 1:310-38

Сч. N 40503810600190000027 044583425 30101В10200000000425

ФАКБ "МОСКОВСКИЙ ИНДУСТРИАЛЬНЫЙ БАНК" КУЙБЫШЕВСКИЙ г.Москва Банк плательщика ■ник Сч .N

CAO "АБ "Инкомйанк"„доп.офис "Чистые пруды", г.Москва Банк получателя Ь'ИК ПЬч.Л| 044541S02 3Û101B100000000009C>2 * 407Û2Q JL 0500260004440

ИНН 7719006639 ТОО "Фирмам БИТ" \ Получатель ' C4.N

Вид а Has. п Код 1 Оч. fin. Ср.пп. 5 12.02.98

ï

V &

£

Назначение платежа, наименование таваоа. выполненной са^от, аклф&нник vcnyr. NN и лйты то»«рн^я документов«. догсймзров, НДС Сч. N 001:367 от 09.02.9S фа программные продукт*! *

» т, чï НДС 20 % - 21S-40

_____________________'ЗГ

Подписи

Отметки йанка

М.П.

I VwM<~iutunnr.kuA A и ЛИ ail

ПЛАТЕЖНОЕ

ПОЧТОЙ

0401060

Сумм ¡а прописью

Дата Вид платежа

Двести двадцать тысяч шестьсот восемьдесят один рубль копеек

ИНН 7729034297 ЗАО ,гПартия-сервис" Плательщик Сумма 220681-05

40703010300000013733 044525367 30101810300000000367

оао ОНЭКСИМбанк г.иосхаа Ванк плательщика БИК Сч-КГ

АКБ "Тражжапиталбанк" г.Москва Банк получателя ЕИК Сч.Ы 044595304 30101810600000000304 40703910300000000797

ИНН 7*720223476 ООО •ЭС1Ш}ТО+" Получатель Сч.нг

Вид оп Срок пл. 21.07,1998 5

наз.пл очер^пл.

Код поле

назначение платежа, наименование товара, выполненных работ, оказанных

услуг, NN и даты товарных документов, договоров, НДС

Доплата ло счету 06058 от 06.Q5.98r, на сгунму 32260 руб.34

коп., в там числе НДС - 5376.72 и опиата по счету 30041 от

30-04.9 Яг,, на сунну 180420 71 коп., в тем числе НДС -

31403 руб. 45 коп.за комплектующие.

СПРАВКА О ДОХОДАХ ФИЗИЧЕСКОГО ЛИЦА ЗА 1995 ГОД

Данные предприятия, учреждения, организации или иного работодателя

1. наименование РАО "Газпром" 117884. г. Москва. ул.Наметкина, дом 16

2. Идентификационный номер налогоплательщика 7736050003

Данные физического лица, которому выплачен доход :

1. Фамилия ВИКЛОВА Имя НИНА отчество КУЗЬМИНИЧНА

2. Вид документа Паспорт Серия документа Х-МЮ Номер документа 680500

3. Дата рождения _—_

4. Страна проживания нерезидента: Российская Федерация

5. Адрес постоянного места жительства в Российской Федерации: 111672, МОСКВА_

(ПочтовъА индекс, область (край.

УЛ.САЛТЫКОВСКАЯ 37-1-59_

республика). район, город, населенный пункт, улица, дом, корпус, квартира)

6. Доход получил по ОСНОВНОМУ, НЕ ОСНОВНОМУ месту работы (нужное подчеркнуть).

7. За какие периоды получен доход

I II III IV V VI VII VIII IX X XI XII

8. Сумма валового совокупного дохода 7000 руб., в том числе:

8.1. Доход, полностью включаемый в состав валового совокупного годового дохода 7000 руб.

8.2. Доходы, которые в соответствии с законом, в том числе законами субъектов Российской Федераци, не включаются в совокупный облагаемый налог, либо по которым установлены скидки; авторские вознаграждения; доходы выплаченные физическим лицам, налогообложение которых осуществляется налоговыми органами:

Наименование вида дохода вида деятельности Сумма дохода сумма скидки, расхода Сумма, включаемая в валовый совокупный годовой ДОХОД

*

9. Сумма коэффициентов и надбавок за стаж работы в местностях с особыми условиями ___

10. Из дохода произведены следующие, установленные законом вычеты

на общую сумму _—_

в том числе:

10.1. Отчислений в Пенсионный фонд _=_

10.2. одно-, (трех-, пяти-) кратной минимальной месячной оплаты труда или дохода, облагаемого налогом по минимальной ставке _—

10.3. Расходы на содержание детей и иждивенцев —

10.4. Прочее _—_

11. Облагаемый совокупный годовой доход 7000 руб.

12. облагаемая сумма коэффициентов и надбавок за стаж работы в местностях с особыми условиями _——___

13. сумма удержанного подоходного налога с совокупного годового дохода 840 руб.______

14. Сумма удержанного подоходного налога с сумм коэффициентов и надбавок за стаж работы в местностях с особыми условиями _—_

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.