Технология извлечения табличной информации из электронных документов разных форматов тема диссертации и автореферата по ВАК РФ 05.25.05, кандидат технических наук Шигаров, Алексей Олегович
- Специальность ВАК РФ05.25.05
- Количество страниц 144
Оглавление диссертации кандидат технических наук Шигаров, Алексей Олегович
Условные обозначения
Введение
Глава 1. Анализ процесса извлечения табличной информации
1.1. Таблицы в документах
1.2. Статистические таблицы
1.3. Форматы входных данных
1.4. Метафайлы.
1.5. Известные методы и системы.
1.6. Технология извлечения табличной информации
Глава 2. Обработка страниц документов.
2.1. Обрабатываемые таблицы
2.2. Система координат
2.3. Модель страницы документа.
2.4. Выделение вертикальных промежутков.
2.5. Выделение горизонтальных промежутков
2.6. Обработка метафайлов
2.7. Предобработка страницы.
2.8. Обнаружение таблиц на странице документа.
Глава 3. Анализ и обработка таблиц
3.1. Модель таблицы.
3.2. Предобработка таблицы.
3.3. Анализ функций ячеек таблицы.
3.4. Сегментация таблицы.
3.5. Модель структурного описания таблицы
3.6. Структурный анализ таблицы
Глава 4. Практическое применение результатов.
4.1. Информационная система извлечения табличной информации
4.2. Представление структурных описаний таблицы в XML.
4.3. Экспериментальная оценка.
4.4. Автоматизация ввода информации в базу данных.
Рекомендованный список диссертаций по специальности «Информационные системы и процессы, правовые аспекты информатики», 05.25.05 шифр ВАК
Адаптивные методы извлечения информации из статистических таблиц, представленных в текстовом виде2011 год, кандидат технических наук Кудинов, Павел Юрьевич
Обработка и распознавание рукописного текста в системах электронного документооборота2008 год, кандидат технических наук Горошкин, Антон Николаевич
Разработка моделей, методов и средств обработки табличных документов в информационных системах2007 год, кандидат технических наук Полевой, Дмитрий Валерьевич
Система поддержки принятия решений на основе хранилища знаний с интеллектуальной обработкой русскоязычного текста на основе объектной семантической сети2004 год, кандидат технических наук Кузнецов, Денис Юрьевич
Разработка и исследование методов и средств распознавания текста факсимильных сообщений2003 год, кандидат технических наук Цопкало, Николай Николаевич
Введение диссертации (часть автореферата) на тему «Технология извлечения табличной информации из электронных документов разных форматов»
Актуальность исследования. Таблицы являются одним из наиболее используемых способов представления информации в документах. Часто такая табличная информация изначально представлена в базах данных. Однако базы данных не всегда доступны, открыты, содержат полную информацию. В связи с этим актуальность приобретают методы, системы и технологии извлечения табличной информации из документов, которые позволяют преобразовать её к требуемому виду, например, к отношениям в реляционных базах данных.
Актуальность данной проблематики подчеркивается в обзорах авторов Handley J.C. (1999) [17], Lopresti D. и Nagy G. (1999, 2000) [42, 43], Zanibbi R. (2004) [73, 74], Embley D.W. (2006) [10, 11], e Silva A.C. (2006) [9], Полевого Д. В. (2007) [84]. В литературе выделяется несколько задач связанных с извлечением табличной информации: 1) обнаружение — поиск на страницах документов областей, ограничивающих таблицы; 2) сегментация — разделение таблицы на отдельные ячейки, строки, столбцы; 3) анализ функций ячеек — определение того, какие функции выполняют отдельные ячейки таблицы (являются ли они заголовками или данными); 4) структурный анализ — определение связей между ячейками таблицы.
Несмотря на то, что в последние годы появились работы, в которых предлагаются некоторые методы и системы извлечения табличной информации из документов, нельзя считать эту проблему полностью решенной. Сложность автоматического извлечения табличных данных во многом обусловлена большим разнообразием форм изображения таблиц. Известные методы и системы преимущественно ориентированы на заранее определенные структуры и особенности таблиц, которые связаны со стандартами выбранной предметной области. От этого во многом зависит их эффективность. При этом они, как правило, решают только отдельные задачи, например, только обнаружение или сегментацию таблиц.
Автоматическое обнаружение и сегментация таблиц выполняется в некоторых системах оптического распознавания текста, например, «OmniPage» (Nuance Communications), «Cuneiform» (Cognitive Technologies), «FineReader» (ABBYY). Перечисленные системы ориентированы на «решёточную» структуру таблиц, характерную табличным процессорам, например, Excel. Это снижает их эффективность для обнаружения и сегментации таблиц со сложными структурами заголовков. Кроме того, оптическое распознавание символов выполняется с потерями информации. В системах «PDF2XL» (Cogniview) и «Solid Converter PDF» (Solid Documents), в частности, выполняется преобразование таблиц из документов PDF в файлы Excel/Word. Эти системы также ориентированы на «решёточную» структуру таблиц и выполняют только их обнаружение и сегментацию.
В статистических отчетах (государственных, медицинских, финансовых) основная информация представлена в виде так называемых статистических таблиц1. Вне зависимости от национальной или корпоративной принадлежности такие таблицы обладают достаточно схожей структурой. Большинство таких отчетов доступно в электронном виде, где таблицы, как правило, являются машиночитаемым текстом, т. е. электронным текстом, который хранится в виде строк символов. Однако в литературе не представлены методы или системы извлечения табличной информации, которые с одной стороны являются комплексными, т. е. выполняют обнаружение, сегментацию, анализ функций ячеек и структурный анализ таблиц, а с другой стороны ориентированы на структуру и особенности статистических таблиц, в частности, публикуемых Росстатом. Таким образом, разработка комплексной техноло
1 «Большая советская энциклопедия. Изд. 3-е» - М.: Советская энциклопедия. Т.25 «Струнино-Тихорецк». 1976. С. 161-162. http://slovari.yandex.ru/dict/bse/article/000T7/08800.htm гии извлечения табличной информации, которая ориентирована па структуру и особенности статистических таблиц, представленных в виде машиночитаемого текста в электронных документах, является актуальной задачей.
Цель диссертационной работы состоит в создании технологии извлечения табличной информации из электронных документов разных форматов, которая автоматизирует обнаружение, сегментацию, анализ функций ячеек и структурный анализ статистических таблиц.
Основные задачи диссертационной работы.
1. Анализ представления статистических таблиц в документах.
2. Разработка моделей страницы документа и таблицы, предназначенных для представления данных в процессе извлечения табличной информации из электронных документов, на основе проведенного анализа.
3. Разработка методов автоматического обнаружения, сегментации, анализа функций ячеек pi структурного анализа статистических таблиц на основе предложенных моделей.
4. Разработка информационной системы извлечения табличной информации из электронных документов на основе предложенных методов.
5. Проверка созданной технологии на задачах автоматизации ввода больших объемов табличной информации из электронных статистических отчетов в базы данных.
Методы исследования: теория множеств, теория баз данных, методы машинной графики, объектно-ориентированное программирование.
Научная новизна. Впервые предложена технология извлечения табличной информации, представленной в виде машиночитаемого текста в электронных документах разных форматов, которая ориентирована на структуру и особенности статистических таблиц и является комплексной, т. е. выполняет их обнаружение, сегментацию, анализ функций ячеек и структурный анализ.
Практическая значимость. Результаты диссертационной работы могут использоваться в задачах извлечения информации и управления данными. В частности, предлагаемая технология может использоваться для автоматизации ввода в базы данных информации из статистических таблиц, представленных в виде машиночитаемого текста в электронных документах разных форматов. При этом данная технология позволяет снизить затраты и повысить качество формирования баз данных. Работа выполнена при поддержке РФФИ, грант 09-07-12017-офим.
Внедрение. Результаты диссертационной работы успешно использовались в Министерстве сельского хозяйства Иркутской области для ввода информации из электронных статистических отчетов Территориального органа федеральной службы государственной статистики по Иркутской области (Ир-кутскстата) в базу данных (БД) автоматизированной информационной системы (АИС) «Каскад». Предлагаемая технология внедрена в Институте систем энергетики им. JI.A. Мелентьева СО РАН, где используется при создании хранилища данных в составе информационной инфраструктуры исследований в энергетике.
Защищаемые положения.
1. Модель страницы документа, которая служит для представления данных страницы, используемых в процессе извлечения табличной информации.
2. Модель структурного описания таблицы, которая предназначена для представления табличных заголовков и данных, а также связей между ними.
3. Методы обнаружения, сегментации, анализа функций ячеек и структурного анализа статистических таблиц, которые обеспечивают извлечение и структурирование табличной информации, содержащейся в электронных документах.
Личный вклад автора. Основные результаты диссертационной работы получены автором лично, а именно: предложены модель страницы документа, эвристические методы обнаружения, сегментации, анализа функций ячеек и структурного анализа статистических таблиц; разработана информационная система для извлечения табличной информации из метафайлов EMF (Enhanced Metafiles); создана технология извлечения табличной информации из электронных документов разных форматов. В неделимом соавторстве с А.Е. Хмельновым получена модель структурного описания таблицы. В неделимом соавторстве с А.Е. Хмельновым, И.В. Бычковым и Г.М. Руж-никовым получено применение предлагаемой технологии для автоматизации ввода статистической информации в базу данных АИС «Каскад». В работах [89-91, 94, 95] автором лично предложен эвристический метод обнаружения таблиц и технология извлечения табличной информации из электронных документов разных форматов. В работах [92, 97-99] автором в неделимом соавторстве с А.Е. Хмельновым предложена модель структурного описания таблицы.
Представление работы. Основные результаты работы докладывались на научно-практических конференциях: Международной конференции «Математические и информационные технологии» (Будва, Черногория, 2009 г.); IX международной конференции «Распознавание образов и анализ изображений: новые информационные технологии» (Нижний Новгород, 2008 г.); XII, XIII и XIV всероссийской конференции «Информационные и математические технологии в науке и управлении» (Иркутск, 2007, 2008, 2009 гг.); Всероссийской конференции «Математическое моделирование и вычислительно-информационные технологии в междисциплинарных научных исследованиях» (Иркутск, 2009 г.); VI и IX школе-семинаре «Математическое моделирование и информационные технологии» (Иркутск, 2005, 2007 гг.); Школе-семинаре молодых ученых «Информационные технологии и моделирование социальных эколого-экономических систем» (Иркутск, 2008 г.); семинаре «Ляпуповские чтения и презентация информационных технологий» (Иркутск, 2007, 2008, 2009 гг.).
Публикации. По теме диссертации опубликовано 12 научных работ [88-99], в т.ч. 3 публикации [88-90] в изданиях, рекомендованных ВАК. Получено 4 свидетельства об официальной регистрации программ для ЭВМ в Роспатенте [100-103]: Ж№ 2008614328, 2008614330, 2008614331, 2008614332 (2008 г.).
Похожие диссертационные работы по специальности «Информационные системы и процессы, правовые аспекты информатики», 05.25.05 шифр ВАК
Автоматизация издания астрономических ежегодников1999 год, кандидат физико-математических наук Нецветаева, Галина Анатольевна
Методы и программные средства выделения и численного оценивания вариативности языковых единиц2009 год, кандидат физико-математических наук Саломатина, Наталья Васильевна
Методы и программные средства для анализа документов на основе модели предметной области2006 год, кандидат физико-математических наук Сидорова, Елена Анатольевна
Система идентификации структуры печатных документов1999 год, кандидат технических наук Зуев, Константин Алексеевич
Разработка моделей и методов верификации и анализа документов в электронном архиве энергетических объектов2013 год, кандидат технических наук Харин, Максим Алексеевич
Заключение диссертации по теме «Информационные системы и процессы, правовые аспекты информатики», Шигаров, Алексей Олегович
Заключение
Диссертационная работа посвящена задачам извлечения табличной информации из электронных документов. В данной работе предлагаются модели, методы и система для извлечения табличной иформации из электронных документов, в которых извлекаемые таблицы представлены в виде машиночитаемого текста. Разработанные модели, методы и системы составляют предлагаемую технологию. Результаты диссертационной работы могут использоваться в задачах анализа документов, извлечения информации и управления данными.
В рамках диссертационной работы получены следующие основные результаты.
1. Разработана модель страницы документа, которая служит для представления данных страницы, используемых в процессе извлечения табличной информации из электронных документов.
2. Разработана модель структурного описания таблицы, которая предназначена для представления заголовков и данных таблицы, а также связей между ними.
3. Разработаны методы обнаружения, сегментации, анализа функций ячеек и структурного анализа таблиц, ориентированные на структуру и особенности статистических таблиц.
Предлагаемая технология может развиваться в следующих направлениях.
1. Использование словаря словоформ русского языка для объединения частей одного слова (например, в тех случаях, когда в тексте таблицы используются переносы слов).
2. Использование словарей ключевых слов (заголовков таблиц специфичных для некоторой предметной области) для поиска заголовков столбцов, строк и перерезов таблиц.
3. Использование анализа разграфки таблиц в качестве дополнительного средства обнаружения таблиц.
Это позволит более эффективно (точно и полно) выполнять обнаружение, сегментацию, анализ функций ячеек и структурный анализ статистических таблиц.
Список литературы диссертационного исследования кандидат технических наук Шигаров, Алексей Олегович, 2010 год
1. Amano A., Asada N., Mukunoki M., Aoyama M. Table form document analysis based on the document structure grammar // 1.ternational Journal of Document Analysis. Springer-Verlag. 2006. Vol. 8, No 2-3. P. 201-213.
2. Amano A., Asada N. Graph Grammar Based Analysis System of Complex Table Form Document //In Proc. Tth International Conference on Document Analysis and Recognition. IEEE Computer Society. 2003. Vol. 2. P. 916-920.
3. Cesarini F., Marinai S., Sarti L., Soda G. Trainable table location document images //In Proc. 16th International Conference on Pattern Recognition (ICPR 02). IEEE Computer Society. 2002. Vol. 3. P. 236-240.
4. Chandran S., Kasturi R. Structural recognition of tabulated data //In Proc. 2nd International Conference on Document Analysis and Recognition (ICDAR 93). Japan. IEEE Computer Society. 1993, P. 516-519.
5. Cohen W.W., Hurst M., Jensen L.S. A flexible learning system for wrapping tables and lists in HTML documents //In Proc. 11th International World Wide Web Conference. USA. 2002. P. 232-241.
6. Douglas S., Hurst M., David Q. Using Natural Language Processing for Identifying and Interpreting Tables in Plain Text //In Proc. 4th Annual
7. Embley D.W., Hurst M., Lopresti D., Nagy G. Table-processing paradigms: a research survey // International Journal on Document Analysis and Recognition. Springer-Verlag. 2006. Vol. 8, No. 2. P. 66-86.
8. Embley D.W., Lopresti D., Nagy G. Notes on Contemporary Table Recognition //In Proc. 7th Int. Workshop on Document Analysis Systems. Springer-Verlag. 2006. P. 164-175.
9. Gatterbauer W., Bohunsky P., Herzog M., Krupl В., Pollak B. Towards domain independent information extraction from Web tables //In Proc. 16th International World Wide Web Conference. Canada. ACM. 2007. P. 71-80.
10. Gatterbauer W., Bohunsky P. Table extraction using spatial reasoning on the CSS2 visual box model // In Proc. 21st AAAI. AAAI Press. 2006. P. 1313-1318.
11. Green E., Krishnamoorthy M. Model-based analysis of printed tables // In Proc. 3rd International Conference on Document Analysis and Recognition (ICDAR 95). IEEE Computer Society. 1995. Vol. 1. P. 214-217.
12. Handley J.C. Document recognition // Electronic Imaging Technology. Chapter 8. IS&T/SPIE Optical Engineering Press. 1999. P. 289-316.
13. Handley J.C. Table analysis for multiline cell identification // In Proc. Document Recognition and Retrieval VIII. SPIE. Vol. 4307-04. P. 34-43.
14. Hassan Т., Baumgartner R. Table Recognition and Understanding from PDF Files // In Proc. 9th International Conference on Document Analysis and Recognition (ICDAR 2007). IEEE Computer Society. 2007. P. 1143-1147.
15. Hirayama Y. A method for table structure analysis using DP matching // In Proc. 3rd International Conference on Document Analysis and Recognition (ICDAR 95). Canada. IEEE Computer Society. 1995. P. 583-586.
16. Hori O., Doermann D.S. Robust table-form structure analysis based on box-driven reasoning //In Proc. 3rd International Conference on Document Analysis and Recognition. IEEE Computer Society. 1995. Vol. 1. P. 218-221.
17. HTML 4.01 Specification, http: //www. w3. org/TR/html4.
18. Hu J., Kashi R., Lopresti D., Wilfong G. Table Structure Recognition and its Evaluation //In Proc. Document Recognition and Retrieval VIII. USA. IS&T/SPIE Electronic Imaging. 2001. Vol. 4307 P. 44-55.
19. Hu J., Kashi R., Lopresti D., Wilfong G. Medium-Independent Table
20. Detection //In Proc. Document Recognition and Retrieval VII. USA. IS&T/SPIE Electronic Imaging. 2000. P. 291-302.
21. Hurst M. A constraint-based approach to table structure derivation // In Proc. 7th International Conference on Document Analysis and Recognition (ICDAR 2003). IEEE Computer Society. 2003. P. 911-915.
22. Hurst M. Layout and Language: An Efficient Algorithm for Text Block Detection based on Spatial and Linguistic Evidence // Document Recognition and Retrieval VIII. USA. SPIE. 2001. Vol. 4307. P. 55-67.
23. Hurst M. Layout and language: challenges for table understanding on the web //In Proc. First International Workshop on Web Document Analysis. Seattle. 2001. P. 27-30.
24. Hurst M., Douglas S. Layout and Language: Preliminary investigations in recognizing the structure of tables //In Proc. 4th International Conference on Document Analysis and Recognition (ICDAR 97). Germany. IEEE Computer Society. 1997. P. 1043-1047.
25. Itonori K. A table structure recongnition based on textblock arrangement and ruled line position //In Proc. 2nd International Conference on Document Analysis and Recognition (ICDAR 93). Japan. IEEE Computer Society. 1993. P. 765-768.
26. Kieninger T. Table structure recognition based on robust block segmentation // In Proc. Document Recognition V. USA. IS&T/SPIE Electronic Imaging. 1998. Vol. 3305. P. 22-32.
27. Kieninger Т., Dengel A. Applying the T-Recs table recognition system to the business letter domain //In Proc. 6th International Conference on Document
28. Analysis and Recognition (ICDAR 2001). IEEE Computer Society. 2001. R 518-522.
29. Kieninger Т., Dengel A. The T-Recs Table Recognition and Analysis System // Lecture Notes in Computer Science. Springer-Verlag. 1999. Vol. 1655. R 255-270.
30. Klein В., Gokkus S., Kieninger Т., Dengel A. Three Approaches to Industrial Table Spotting //In Proc. 6th International Conference on Document Analysis and Recognition (ICDAR 2001). USA. IEEE Computer Society. 2001. P. 513-517.
31. Kojima H., Akiyama Т., Table Recognition for Automated Document Entry System // SPIE Vol. 1384, High Speed Inspection Architectures, Barcoding, and Character Recognition. 1990. P. 285-292.
32. Kriipl В., Herzog M., Gatterbauer W. Using Visual Cues for Extraction of Tabular Data from Arbitrary HTML Documents // In Proc. 14th International Conference on World Wide Web. Japan. ACM. 2005. P. 1000-1001.
33. Kriipl В., Herzog M. Visually guided bottom-up table detection and segmentation in web documents //In Proc. 15th International Conference on World Wide Web. Scotland. ACM. 2006. P. 933-934.
34. Lang T.A., Secic M. «How to Report Statistics in Medicine: Annotated Guidelines for Authors, Editors, and Reviewers (2nd edition)». American College of Physicians, 2006. 490 c.
35. Lerman K., Getoor L., Minton S., Knoblock C. Using the structure of Web sites for automatic segmentation of tables //In Proc. 2004 ACM SIGMOD International Conference on Management of Data. ACM. 2004. P. 119-130.
36. Li J., Tang J., Song Q. Xu P. Table Detection from Plain Text Using Machine Learning and Document Structure // Lecture Notes in Computer Science. Springer-Verlag. 2006. Vol. 3841/2006. P. 818-823.
37. Liu Y., Bai K., Mitra P., Giles C. Searching for Tables in Digital Documents //In Proc. 9th International Conference on Document Analysis and Recognition. IEEE Computer Society. 2007. Vol. 2. P. 934-938.
38. Lopresti D., Nagy G. A tabular survey of automated table processing // Lecture Notes in Computer Science. Springer-Verlag. 2000. Vol. 1941. P. 93-120.
39. Lopresti D., Nagy G. Automated table processing: An (opinionated) survey // Third IAPR International Workshop on Graphics Recognition. India. 1999. P. 109-134.
40. Mandal S., Chowdhury S.P., Das A.K., Chanda B. A simple and effective table detection system from document images // International Journal on Document Analysis and Recognition. Springer-Verlag. 2006. Vol. 8, No. 2. P. 172-182.
41. Mandal S., Chowdhury S.P., Das A.K., Chanda B. A Complete System for Detection and Identification of Tabular Structures from Document Images // Lecture Notes in Computer Science. Springer-Verlag. 2004. Vol. 3212/2004. P. 217-225.
42. Microsoft Developer Network, http://msdn.microsoft.com.
43. Ng H.T., Lim C.Y., Li Teng Koo J. Learning to recognize tables in free text //In Proc. 37th Annual Meeting of the Association for Computational Linguistics. USA. 1999. P. 443-450.
44. Pyreddy P., Croft W.B. A System for Retrieval in Text Tables // Technical report. University of Massachusetts, USA. 1997.
45. Pyreddy P., Croft W.B. Tintin: a system for retrieval in text tables //In Proc. 2nd International Conference on Digital Libraries. USA. 1997. P. 193-200.
46. Ramel J.-Y., CrucianuM., Vincent N., FaureC. Detection, Extraction and Representation of Tables // In Proc. 7th International Conference on Document Analysis and Recognition (ICDAR 2003). IEEE Computer Society. 2003, Vol. 2. P. 374-379.
47. Rus D., Summers K. // Using White Space for Automated Document Structuring // Technical Report TR94-1452. Cornell University, USA. 1994. 33 c.
48. Shamillian J. H., Baird H.S., Wood T.L. A retargetable table reader // In Proc. 4th International Conference on Document Analysis and Recognition (ICDAR 97). IEEE Computer Society. 1997. P. 448-453.
49. Tengli A., Yang Y., Ma N.L. Learning table extraction from examples // In Proc. 20th International Conference on Computational Linguistics. Switzerland. Association for Computational Linguistics. 2004. P. 987-993.
50. Tersteegen W.T., Wenzel C. Scantab: Table recognition by reference tables // In Proc. 3rd IAPR Workshop on Document Analysis Systems (DAS 98). Japan. 1998. P. 356-365.
51. Tuerino Y. A., Embley D. W., Lonsdale D. W., Ding Y., Nagy G. Towards ontology generation from tables. // World Wide Web. Kluwer Academic Publishers. 2005. Vol. 8, No. 3. P. 261-285.
52. Tupaj S., Shi Z., Chang С. H., Alam H. Extracting Tabular Information From Text Files // EECS Department, Tufts University, Medford, USA. 1996. 18 c. (http://citeseer.nj .nec.com).
53. Wang Y. Document analysis: Table Structure Understanding and Zone Content Classification, Ph.D. thesis // University of Washington, USA. 2002. 179 c.
54. Wang Y., Hu J. A machine learning based approach for table detection on the web //In Proc. 11th International World Wide Web Conference. 2002. P. 242-250.
55. Wang Y., Hu J. Detecting tables in HTML documents // Lecture notes in computer science. Springer-Verlag. 2002. Vol. 2423. P. 249-260.
56. Wang Y., Phillips I.Т., Haralick R. Table detection via probability-optimization // Lecture Notes In Computer Science. Springer-Verlag. 2002. Vol. 2423. P. 272-282.
57. Wasserman H.C., Yukawa K, Sy B.K, Kwok K.-L., Phillips I.T. A Theoretical Foundation and a Method for Document Table Structure Extraction and Decompositon // Lecture Notes In Computer Science. Springer-Verlag. 2002. Vol. 2423. P. 291-294.
58. Watanabe Т., Quo Q.L., Sugie N. Layout recognition of multikinds of table-form documents // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1995. Vol. 17, No 4, P. 432-445.
59. Weizsacker L., Fiirnkranz J. On Table Extraction from Text Sources with Markups // Technical Report TUD-KE-2008-05. Knowledge Engineering group, Technical University Darmstadt, Germany. 2008. 22 c.
60. XHTML 1.0 The Extensible Hypertext Markup Language, Second Edition, http://www.w3.org/TR/xhtml1.
61. Xi D. Lee S.-W. Table Structure Extraction from Form Documents Based on Gradient-Wavelet Scheme // Lecture Notes in Computer Science. Springer-Verlag. 1999. Vol. 1655/1999. P. 240-254.
62. Yoshida M., Torisawa K., Tsujii J. A method to integrate tables of the World Wide Web //In Proc. 1st International Workshop on Web Document Analysis. USA. 2001. P. 31-34.
63. Zanibbi R. A Language for Specifying and Comparing Table Recognition Strategies, Ph.D. thesis // Queen's University Kingston, Canada. 2004. 236 c.
64. Zanibbi R., Blostein D., Cordy J. R. A survey of table recognition: Models, observations, transformations, and inferences // International Journal on Document Analysis and Recognition. Springer-Verlag. 2004. Vol. 7, No. 1. P. 1-16.
65. Вигдорчик В.А. «Ручной набор», М. 1985. 289 с.78. под ред. Бащинского С.Е., Власова В.В. «Рекомендации по подготовке научных медицинских публикаций: Сборник статей и документов». М. Медиа Сфера. 2006. 459 с.
66. Волкова JI.A. «Основы наборных процессов», М. 1986. 416 с.
67. ГОСТ 2.105-95 ЕСКД «Общие требования к текстовым документам» — М.: ИПК Издательство стандартов, 2001. 27 с.
68. Мильчин А.Э. «Издательский словарь-справочник» — М.: ОЛМА-Пресс, 2003. 560 с.
69. Мильчин А.Э., Чельцова JI.K. «Справочник издателя и автора. Редак-ционно-издательское оформление издания, 2-е издание», М. Олимп. 2003. 800 с.83. под ред. Мильчина А.Э. «Справочная книга редактора и корректора», М. 1985. 576 с.
70. Полевой Д.В. «Таблицы в системах обработки документов». М. ЛКИ, 2007. 48 с.
71. Полевой Д.В. Разработка моделей, методов и средств обработки табличных документов в информационных системах: Автореф. дис. канд. тех. наук. МФТИ, 2007. 21 с.
72. Хмелыюв А.Е. Язык FlexT для спецификации бинарных форматов данных. Дис. канд. тех. наук. Иркутск. 2000. 118 с.
73. Хмельнов А.Е. Свидетельство об официальной регистрации программы для ЭВМ № 2008614995 «Рабочие место администратора хранилища статистической информации (AttrTree)» / Бычков И.В., Ружников Г.М., Хмельнов А.Е., Шигаров А.О. // 2008.
74. Шигаров А.О. Технология извлечения табличной информации из электронных документов разных форматов Текст] / Шигаров А.О. // Современные технологии. Системный анализ. Моделирование. 2009. - N5 3 (23).- С. 97-102.
75. Бычков И.В. Эвристический метод обнаружения таблиц в разноформатных документах Текст] / Бычков И.В., Ружников Г.М., Хмельнов А.Е., Шигаров А.О. // Вычислительные технологии. 2009. - Т. 14, № 2.- С. 58-73.
76. Shigarov А.О. A method for table detection in metafiles Текст] / Shigarov A.O., Bychkov I.V., Khmel'nov A.E., Ruzhnikov G.M. // Pattern Recognition and Image Analysis. 2009. - Vol. 19, No 4. P. 693-697.
77. Бычков И.В. Метод обнаружения таблиц в метафайлах Текст] / Бычков И.В., Ружников Г.М., Хмелыюв А.Е., Шигаров А.О. // Современныетехнологии. Системный анализ. Моделирование. 2008. - Спецвыпуск. - С. 47-51.
78. Хмельнов А.Е. Метод извлечения таблиц из неформатированного текста Текст] / Хмельнов А.Е., Шигаров А.О. // Вычислительные технологии. 2008. - Т. 13, Спец. выпуск 1. - С. 93-101.
79. Шигаров А.О. Автоматизированная система извлечения табличной информации из метафайлов Текст] / Шигаров А.О. // Труды XIV Всероссийской конференции «Информационные и математические технологии в науке и управлении». Иркутск, 2009. - Т. 2. - С. 218-224.
80. Хмельнов А.Е. Сегментация страницы документа для обнаружения таблиц Текст] / Хмельнов А.Е., Шигаров А.О. // Труды XIII Всероссийской конференции Информационные и математические технологии в науке и управлении. Иркутск, 2008. - Ч. 2. - С. 244-251.
81. Шигаров А.О. Метод обнаружения таблиц в метафайлах Текст] / Шигаров А.О. // Материалы Школы-семинара молодых ученых Информационные технологии и моделирование социальных эколого-экономических систем. Иркутск, 2008. - С. 58-61.
82. Хмельнов А.Е. Извлечение таблиц из неформатированного текста Текст] / Хмелыюв А.Е., Шигаров А.О. // Доклады 13-й Всероссийской конференции Математические методы распознавания образов (ММРО-13). Зе-леногорск, 2007. - С. 551-553.
83. Хмелыюв А.Е. Извлечение статистических таблиц из неформатированного текста Текст] / Хмельнов А.Е., Шигаров А.О. // Материалы IX Школы-семинара Математическое моделирование и информационные технологии. Иркутск, 2007. - С. 167-169.
84. Бычков И.В. Свидетельство об официальной регистрации программы для ЭВМ № 2008614328 «Программное инструментальное средство обнаружения таблиц в документах (Tablocator)» / Бычков И.В., Ружников Г.М., Хмельнов А.Е., Шигаров А.О. // 2008.
85. Бычков И.В. Свидетельство об официальной регистрации программы для ЭВМ № 2008614332 «Программная система извлечения таблиц из электронных документов (Tabextractor)» / Бычков И.В., Ружников Г.М., Хмельнов А.Е., Шигаров А.О. // 2008.1. Примеры
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.