Разработка моделей, методов и средств обработки табличных документов в информационных системах тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Полевой, Дмитрий Валерьевич

  • Полевой, Дмитрий Валерьевич
  • кандидат технических науккандидат технических наук
  • 2007, Москва
  • Специальность ВАК РФ05.13.18
  • Количество страниц 130
Полевой, Дмитрий Валерьевич. Разработка моделей, методов и средств обработки табличных документов в информационных системах: дис. кандидат технических наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Москва. 2007. 130 с.

Оглавление диссертации кандидат технических наук Полевой, Дмитрий Валерьевич

ВВЕДЕНИЕ.

ГЛАВА 1. ОБЗОР ИСПОЛЬЗОВАНИЯ ТАБЛИЦ В ИНФОРМАЦИОННЫХ СИСТЕМАХ.

1.1. Таблица и ее функции.

1.2. Использование таблиц и ПО.

1.3. Модели таблиц.

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка моделей, методов и средств обработки табличных документов в информационных системах»

Компактное и наглядное представление информации в табличной форме настолько прочно вошло в нашу повседневную жизнь, что представляется естественным и простым для восприятия. Таблицы встречаются на страницах газет и журналов, многие стандартные формы документов содержат таблицы или являются полностью табличным. Бухгалтерские, финансовые и статистические документы, научная и справочная литература - все они содержат таблицы. При ручном вводе операторы выполняют однообразную последовательность действий: бросают взгляд на очередную страницу, находят и читают текст заполнения, а потом быстро набирают его на клавиатуре. По сравнению с обычными формами таблицы могут содержать на порядок больше полей. Монотонная структура текста, а так же необходимость соблюдения и воспроизведения этой структуры при вводе - все это требует дополнительного напряжения от оператора, приводит к быстрой утомляемости и ошибкам. Как альтернатива ручному вводу существуют технологии автоматизированного ввода документов.

Начавшийся несколько десятков лет назад процесс замены бумажных документов электронными продолжается и по сей день, при этом наиболее жизнеспособными и эффективными показали себя смешанные системы. Возможность простого перехода от физического представления к информационному и обратно на различных этапах жизненного цикла документа позволяет использовать естественные преимущества каждого из типов представления. Большую роль в функционировании таких смешанных систем играют системы автоматического и полуавтоматического ввода бумажных документов, предоставляющие альтернативу ручному вводу. Подобные технологии обладают рядом явных преимуществ: современные модели сканеров позволяют вводить до 200 страниц в минуту, а программы оптического распознавания текста круглосуточно "читают" без устали по несколько сотен символов в секунду.

К настоящему времени накопились огромные объемы бумажных документов, перевод которых в цифровой вид при помощи технологий сканирования и распознавания позволяет выиграть в стоимости и качестве по сравнению с ручным вводом. Другим существенным преимуществом распознавания является возможность организации доступа к образу оригинала: корректно идентифицированный поток документов, включающий распознанную информацию и графические образы, может составлять основу электронного архива, представляющего функции быстрого поиска документа, извлечения, пересылки и печати графического образа документа (по качеству не уступающего ксерокопии). Развитие глобальных компьютерных сетей упрощают организацию удаленного доступа к таким архивам, что выдвигает это технологическое преимущество на первый план.

Все активнее просматривается тенденция к объединению систем бумажного и электронного документооборота в единые комплексы, где ввод и ввод табличных документов играет главенствующую роль. Актуальной задачей построения комплексных систем работы с табличными документами является построение единого подхода к таблице во всех ее представлениях и создание модели, позволяющей описывать табличные документы во всех процессах обработки.

Предметом данной работы является анализ систем обработки табличных документов, для выявления общности, обеспечивающей конструктивную основу решения задач ввода/вывода и распознавания таблиц в рамках различных систем. В работе проводится исследование и разработка методологических основ, а также конкретных моделей, методов и средств для решения следующих задач:

1. моделирования таблиц как информационных объектов, а так же рассмотрения этой модели с точки зрения различных задач ввода/вывода и распознавания,

2. автоматизации логического контроля достоверности ввода и сохранения целостности табличного документа;

3. автоматической идентификации, восстановления структуры и распознавания таблиц в задачах ввода документов.

Целью данной работы является построение формальной модели таблицы, которая бы позволяла описать основные процессы ввода/вывода таблиц и органично связать с построением методов идентификации и определения структуры табличных объектов на изображениях документов в рамках разработанной концепции таблицы.

Задача состоит в построении модели, которая позволяет описывать табличные документы в процессах:

• ввода/вывода таблиц на дисплей монитора;

• автоматического (полуавтоматического) распознавания таблиц и верификации результатов распознавания;

• табличных расчетов;

• вывода таблиц на бумагу.

Новизна предложенного в работе подхода состоит, в разработке универсальной структурно ориентированной модели таблицы, используемой для решения различных задач и абстрагированной от конкретных методов обработки. В отличие от существующих подходов, как правило, ориентированных либо на реляционное представление данных, либо на представление в экранном или бумажном виде, предложенная модель позволяет отражать в структуре таблицы исходную модель предметной области, а построение и анализ плоских представлений табличной информации производить уже с учетом этой структуры. Такой подход позволяет адекватно описывать множественность представлений при инвариантности внутренних структур и данных, а так же объединять процессы ввода/вывода. Ориентированность модели на базовые логические структуры таблицы при независимости модели от формы представления и особенностей конкретных методов обработки обеспечивает ее открытость для разработки, расширения и специализации.

В рамках построения системы ввода табличных документов предложена эффективная реализация анализа изображения в задачах сегментации образов структурированных документов. Кроме того, предложен подход к реализации объектно-событийной системы с прогнозируемым поведением для редактирования таблиц.

Основные результаты данной работы доложены, обсуждены и получили одобрение специалистов на XLIX научной конференции МФТИ (Долгопрудный, 2006 г.), научных семинарах кафедры прикладной экономики МФТИ в 2003-2006 гг., лаборатории методов искусственного интеллекта ИСА РАН в 2003-2007 гг., отдела систем математического обеспечения ВЦ РАН в 2007 г. а также на научно-технологических семинарах в компании ООО "Когнитивные технологии" 2003-2007 гг.

По теме диссертации опубликовано три работы, одна из них в соавторстве ([1]-[3]).

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Полевой, Дмитрий Валерьевич

Заключение

В диссертации получены следующие основные результаты.

1. Рассмотрены основные функций табличного представления информации, классы программного обеспечения для работы с табличными документами, а так же программы, использующие табличную парадигму. Проведен анализ основных моделей таблиц, явно или неявно использующихся при анализе и разработке различных стандартов, форматов документов и программ. Показана несогласованность моделей в различных прикладных областях и выявлена необходимость разработки единой модели табличного документа, позволяющей описывать процессы его обработки.

2. Предложена концепция таблицы, как способа описания, хранения, манипулирования и представления (вывода на носитель) фактов предметной области. На основе анализа основных типов плоских представлений табличной информации предложена классификация типов таблиц по особенностям визуального макета. Разработана общая модель табличного документа, как совокупности табличных информационных объектов, множеств плоских представлений, и отображений между ними. Для каждого типа табличного информационного объекта, описываемого в терминах информационных функций, сформулирован набор операций, достаточный для манипулирования и сохраняющий тип объекта. Сформулирован критерий "правильного" с точки зрения геометрической согласованности составляющих частей плоское представление.

3. Рассмотрена задача сегментации изображения страницы табличного документа в контексте автоматической обработки широкого по свом типографским характеристикам класса документов. В рамках классического подхода к кластеризации, основанного на использовании минимальных остовных деревьев, приведен оригинальный алгоритм, позволяющий эффективно решать задачи поиска ближайших соседей и построения минимального остовного дерева. Сформулировано общее требование к характеристикам исходных данных и функции расстояния, для которых возможна реализации эффективного алгоритма построения минимального остовного дерева.

4. Предложена реализация системы логического контроля содержания табличного документа и способ описания правил, позволяющие проводить автоматическую формальную проверку для выявления потенциально опасные места на этапе проектирования системы контроля логики заполнения табличного документа.

5. Разработан комплекс программ для обработки табличных документов, вошедший в состав системы автоматизированного ввода и обработки документов Cognitive Forms.

Список литературы диссертационного исследования кандидат технических наук Полевой, Дмитрий Валерьевич, 2007 год

1. Полевой Д.В. Анализ обработки событий в объектно-событийной модели документа // Сб. тр. /ИСА РАН-М.: Эдиториал УРСС, 2004. С. 83-91.

2. Полевой Д. В., Постников В.В., Усков А.В. Алгоритм быстрого построения минимального охватывающего дерева для множества точек в конечномерном псевдометрическом пространстве // Сб. тр. / ИСА РАН, М. КомКнига 2005 г. Т. 16. С. 130-145.

3. Полевой Д. В. Таблицы в системах обработки документов. М.: Издательство ЛКИ, . 2007.48 с.

4. Арлазаров В. J1., Емельянов Н. Е. От баз данных к базам знаний (объекты, формы, содержание) // Сб. тр. / ИСА РАН, М.: КомКнига, 2006 г. С. 6-17.

5. Емельянов Н.Е. Проблемы автоматизации программирования документного интерфейса с базами данных: Дис. доктора тех. наук. М., 1987. - 319с.6., Иванов Ю.Н. Теория информационных объектов и системы управления базами данных. М.: Наука, 1988. - 232с.

6. Иванов Ю.Н., Емельянов Н.Е., Сотникова Р.А. Документы: типы, описания Препринт. /ВНИИСИ- М„ 1987.-62 с.

7. ГОСТ 2.105-95 ЕСКД Общие требования к текстовым документам.

8. Елисеева И.И., Юзбашев М.М Общая теория статистики 2-е изд. / Под ред. И.И.Елисеевой. - М.: Финансы и статистика, 1996. - 368 с.

9. The Chicago Manual of Style, 14th ed. The University of Chicago Press, 1993.-921 p.

10. Publication Manual of the American Psychological Association, 4th ed. // АРА, 1994. -439 p.

11. Handbook of Style and Usage // Asian Development Bank, 2002. http://www.adb.org/Documents/Handbooks/StyleUsage/HSU.pdf

12. Wright P., Hull A. J., Lickorish A. Psychological factors in reading tables // In Proceedings of XXIII International Congress of Psychology, Mexico, 1984. P. 194

13. Vanthienen, J., Wets G. Restructuring and optimizing knowledge representations // In Proceedings of the Sixth International Conference on Tools with Artificial Intelligence, 1994.-P. 768-771.

14. Миллер Дж.А. Магическое число семь плюс или минус два. О некоторых пределах нашей способности перерабатывать информацию // Психология памяти. / Под ред. Ю.Б. Гиппенрейтер и В.Я. Романова. М.: ЧеРо, 2000. - С. 564-582.

15. Dalgleish D. Excel Pivot Tables Recipe Book: A Problem-Solution Approach. APRESS, .2006.335 p.

16. Gerald J. O'Brien and W. David Wilde. Australian managers' perceptions, attitudes and use of information technology // Information and Software Technology, 1996. V. 38 P. 783789.

17. George E. Vlahos and Thomas W. Ferratt. The use of information technology by managers of corporations in greece to support decision making. In Proceedings of the conference on Computer Personal Research, ACM, 1992. P. 136-151.

18. Clermont M., Hanin C., Mittermeir R. A Spreadsheet Auditing Tool Evaluated in an Industrial Context // In Spreadsheet Risks, Audit and Development Methods, 2002. V. 3. -P. 35-46.

19. Clermont M. A Scalable Approach to Spreadsheet Visualization PhD thesis, Universitat Klagenfurt, Austria, 2003. 202 p.

20. Butler R. Is This Spreadsheet a Tax Evader? How H. M. Customs & Excise Test Spreadsheet Applications // In Proceedings of the 33rd Hawaii International Conference on System Sciences, 2000. V. 4. P. 400-407

21. Nunez F. An extended spreadsheet paradigm for data visualization systems and its implementation. M.Sc. dissertation, University of Cape Town, 2000. 156 p.

22. Tukiainen M. Developing a New Model of Spreadsheet Calculation: A Goals and Plans Approach. PhD dissertation, University of Joensuu, 2001. 121 p.

23. Spenke M., Beilken C. A spreadsheet interface for logic programming // In Proceedings of ACM CHI'89 Conference on Human Factors in Computing Systems, 1989. P. 75-80.

24. Kunstmann, Т., Frisch M., Muller R. A declarative programming environment based on constraints // In Proceedings of the 11th international IEEE Symposium on Visual Languages, 1995. P. 120.

25. Judith G. Hays and Margaret M. Burnett. A guided tour of Forms/3. Technical Report TR 95-60-6, Oregon State University, Computer Science Department, June 1995. (Revised Janurary 1997). - 35 p.

26. Cervesato I. NEXCEL a Deductive Spreadsheet // The Knowledge Engineering Review, 2006. http://theory.stanford.edu/~iliano/papers/ker06.pdf

27. Kassoff M., Zen L., Garg A., Genesereth M. PrediCalc: a logical spreadsheet management system // In Proceedings of the 31st international Conference on Very Large Data Bases, 2005.-P. 1247-1250.

28. Johnson S. D. A tabular language for system design. Technical Report 485, Indiana University Computer Science Department, 1997. - 6 p.

29. Sam 0., John R., Natarajan S. Analyzing Tabular And State-Transition Requirements Specifications in PVS. Technical Report. UMI Order Number: NASA-97-cr201729, NASA Langley Technical Report Server. - 30 p.

30. Janicki R., Wassyng, A. Tabular Expression and Their Relational Semantics // Fundamenta Informaticae, 2005. V. 67. № 4. P. 343-370.

31. Scott E. Hudson. User interface specification using an enhanced spreadsheet model. ACM Transactions on Graphics, July 1994. V. 13. № 3. P. 209-239.

32. Myers B. A. Graphical techniques in a spreadsheet for specifying user interfaces // In Proceedings of ACM CHI'91 Conference on Human Factors in Computing Systems, 1991.1. P.243-249.

33. Anupam V., S. Dar, T. Leibfried, and E. Petajan. DataSpace: 3-D visualizations of large databases // In Proceedings of the Symposium on Information Visualization '95, 1995. -P. 82-88,144,145.

34. Wijke J.J., Hyperslice R.L. Visualization of scalar functions of many variable // In i Proceedings of IEEE Visualization Conference '91, Los Altimos, CA, 1991. P. 119-125.

35. Kobsa, A. User Experiments with Tree Visualization Systems // IEEE Symposium Information Visualization (INFOVIS 2004), 2004. P. 9-19.

36. Spenke M., Beilken C. Visualization of trees as highly compressed tables with InfoZoom // Unpublished entry in InfoVis 2003 Contest, held at IEEE Symposium on Information

37. Visualization. http://www.cs.umd.edu/hcil/InfovisRepository/.

38. Spenke M, Beilken C., Berlage T. FOCUS: the interactive table for product comparison and selection // In Proceedings of the 9th annual ACM symposium on User interface software and technology, 1996. P. 41-50.

39. Chi E. H. A Framework for Information Visualization Spreadsheets. PhD thesis, Department of Computer Science, University of Minnesota, March 1999. - 146 p.

40. Chi E.H., Riedl J., Barry P., Konstan J.A., Principles for information visualization spreadsheets // IEEE Computer Graphics and Applications, 1998. V. 18, № 4, - P. 30-38.

41. Marchionini G., Hert C., Liddy L., Shneiderman B. Extending understanding of federal statistics in tables // In Proceedings on the 2000 Conference on Universal Usability, 2000. -P. 132-138.

42. Chen W., Chung K. A Table Presentation System for Database and Web Applications // In Proceedings of the 2004 IEEE international Conference on E-Technology, E-Commerce and

43. E-Service (Eee'04), 2004. P. 492-498.

44. Соловьев A.B. Разработка методов и средств взаимодействия объектно-ориентированных систем управления базами данных с электронными издательскими комплексами: Дис. канд. тех. наук М., 2000. - 131 с.

45. CrystalReports // http://www.businessobjects.com/products/reporting/crystalreports/default.asp

46. Oracle Reports // http://www.oracle.com/technology/products/reports/index.html

47. FastReport // http://fast-report.com/ru/

48. QuickReport // http://www.qusoft.com/

49. Rennhackkamp M. Oracle7 Release 7.3 // DBMS Magazine, 1996. V. 9. № 13. P. 53-54.

50. Chen W., Chung K. A Table Presentation System for Database and Web Applications // In Proceedings of the 2004 IEEE international Conference on E-Technology, E-Commerce and E-Service (Eee'04), 2004. P. 492-498.

51. Тарасенко В.Ф., Бухарова M.C. Технология «The Reporter» для построения отчетов по базам данных // Вестник ТГУ, апрель, 2002. № 275. С. 167-176.

52. CuneiForm http://www.cuneiform.ru/

53. Abbyy FineReader http://www.abbyy.ru/finereader/

54. OmniPage http://www.nuance.com/omnipage/

55. Кляцкин B.M. Иерархический кластер-анализ многоколонных текстов // Труды V Международной конференции (Статистический и дискретный анализ данных и экспертные оценки), Одесса, 1994. С. 132-134.

56. Arias, J.F., Chhabra A., Misra, V. Efficient interpretation of tabular documents // In Proceedings of the 13th International Conference on Pattern Recognition, 1996. V. 3. -P. 681-685.

57. Green E., Krishnamoorthy M. Model-based analysis of printed tables // In Proceedings of International Conference on Document Analysis and Recognition (ICDAR), 1995. P. 214j 217.

58. Tubbs К. M., Embley D. W. Recognizing records from the extracted cells of microfilm tables // In Proceedings of the 2002 ACM Symposium on Document Engineering, ACM Press, New York, NY, 2002. P. 149-156.

59. Douglas S., Hurst M., Quinn D. Using natural language processing for identifying and interpreting tables in plain text // In Proc. Fourth Ann. Symp. Document Analysis and Information Retrieval, Las Vegas, Nevada, 1995. P. 535-546.

60. Hurst M. Layout and language: exploring text block discovery in tables using linguistic resources // In Proceedings of Sixth International Conference on Document Analysis and Recognition, 2001. P. 523-527.

61. Pivk A., Cimiano P., Sure Y. From tables to frames // Journal of Web Semantics, V. 3 № 2, Oct. 2005.-P. 132-146.

62. Hu J., Kashi R., Lopresti D., Wilfong G. A system for understanding and reformulating tables // In Fourth ICPR Workshop on Document Analysis Systems, Rio De Janeiro, Brazil, December 2000.-P. 361-372

63. Hu J., Kashi R., Lopresti D., Wilfong G. Medium-independent table detection // In SPIE Document Recognition and Retrieval VII, San Jose, CA, 2000. P. 291-302.

64. Богачева A.H., Емельянов H.E., Романов А.П. Генерация информационных систем по формам входных и выходных документов. // PC Magazine. 1993. №1. С. 85-89.

65. Годунов А.Н., Емельянов Н.Е., Романов А.П. Управление выводом сообщений в ! системе ИНЕС // Программирование. 1984. №6. С. 52-57.

66. Емельянов Н.Е. Виды представления структурированных данных // Теоретические основы информационной технологии / Сб. тр. Вып. 22. — М/.ВНИИСИ, 1988. С. 4246.

67. Емельянов Н.Е., Жаринов А.Н. Вывод документов в системе ИНЕС: Учебн. пособие. -IМ.: МИСиС, 1990.-69 с.

68. Wang X. Tabular Abstraction, Editing, and Formatting. PhD thesis, University of Waterloo, Waterloo, Ontario, Canada, 1996. - 184 p.

69. Silberhorn H. TabulaMagica An Integrated Approach to Manage Complex Tables // In Proceedings of the 2001 ACM Symposium on Document Engineering, ACM Press, 2001.1. P. 68-75.

70. Haralick R.M. Document image understanding: geometric and logical layout // In Proceedings of the 1994 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 1994. P. 385-390.

71. Nagy G. Twenty years of document image analysis in PAMI // In IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume 22, Issue 1, Jan 2000. P. 38-62.

72. Lesk M.E. Tbl A Program to Format Tables // Computing Science Technical Report, 1976. No.49.-P. 35-51.

73. Кнут Д.Е. Все про ТЕХ. / Пер. с англ. Протвино: АО RDTEX, 1993. 592 с.

74. Biggerstaff T.J., Endres D.M., Forman I.R. Table: Object oriented editing of complex ; structures // In Proc. of the 7th International Conference on Software Engineering, 1984. P.334.345.

75. HTML 4.01 Specification W3C Recommendation 24 December 1999. http://www.w3 .org/TR/1999/REC-html401 -19991224

76. OpenDocument vl.l specification.http://www.oasis-open.org/committees/tchome.php?wgabbrev=office

77. Document Object Model (DOM) Level 3 Core Specification http://www.w3.org/TR/2004/REC-DOM-Level-3-Core-20040407.

78. Extensible Markup Language (XML) 1.0 (Third Edition) W3C Recommendation, 04 February 2004. // http://www.w3.org/TR/2004/REC-xml-20040204.

79. Engelbart C., English W. K. A research center for augmenting human intellect // AFIPS Conference Proceedings of the 1968 Fall Joint Computer Conference 1968. V. 33. P. 395410.

80. Quint V., Vatton I. Grif: an Interactive System for Structured Document Manipulation // In Proceedings of the International Conference on Text Processing and document Manipulation, Cambridge University Press, 1986. P. 200-213.

81. Kieninger, Т., Dengel, A. An Approach towards Benchmarking of Table Structure Recognition Results // In Proceedings of the Eighth international Conference on Document Analysis and Recognition, 2005. P. 1232-1236.

82. Hurst M. A Constraint-based Approach to Table Structure Derivation // In Proceedings of the Seventh International Conference on Document Analysis and Recognition, 2003. P.911.915.

83. Hu J., Kashi R., Lopresti D., Nagy G., and Wilfong G. Why table ground-truthing is hard // In Proceedings of the Sixth International Conference on Document Analysis and Recognition, September 2001. P. 129-133.

84. Zanibbi R. A Language for Specifying and Comparing Table Recognition Strategies // PhD , thesis, Queen's University Kingston, Ontario, Canada , December 2004.

85. J. Hu, R.S. Kashi, D. Lopresti, and G.T. Wilfong. Evaluating the performance of table processing algorithms. Int'l J. Document Analysis and Recognition, 2002. V. 4. P. 140— 153.

86. Wang Y. Document analysis: table structure understanding, and zone content classification: Ph.D. Thesis, University of. Washington, Seattle, WA, 2002. 161 p.

87. Wang Y., Haralick R. M., Phillips I. T. Automatic Table Ground Truth Generation and a Background-Analysis-Based Table Structure Extraction Method // In Proceedings of the

88. Sixth International Conference on Document Analysis and Recognition, 2001. P. 528-532.

89. Liang J. Document Structure Analysis and Performance Evaluation: Ph.D thesis, Univ. of Washington, Seattle, WA, 1999. 168 p.

90. Phillips I. Т., Chhabra A. K. Empirical Performance Evaluation of Graphics Recognition Systems // IEEE Transactions on Pattern Analysis and Machine Intelligence, Sept., 1999.1. V. 21, №9, P. 849-870.

91. Codd, E. F. A relational model of data for large shared data banks // In Communications of the ACM, 1970. V. 13. №6, P. 377-387

92. Date C.J. An Analysis of Codd's Contribution to the Great Debate // Intelligent Enterprise, May 11, 1999, V. 2,№. 7.

93. Дейт К. Введение в базы данных. : Пер. с англ. 6-е изд. - К.: Диалектика, 1998. -784 с.

94. Miller R.J., Ioannidis Y.E., Ramakrishnan R. The Use of Information Capacity in Schema Integration and Translation // In 19th International Conference on Very Large Data Bases (VLDB'93), 1993.-P. 120-133.

95. Ziegler P., Dittrich K. R. Three Decades of Data Integration All Problems Solved? // 18th ' IFIP World Computer Congress (WCC 2004), 2004. V. 12. - P. 3-12.

96. Fagin R., Vardi M. Y. The Theory of Data Dependencies An Overview // In Proceedings of the 11th Colloquium on Automata, Languages and Programming (1СALP 1984), 1984. -P. 1-22.

97. Vincent M. W., Liu, J., Liu, C. Strong functional dependencies and their application to normal forms in XML // ACM Trans. Database Syst. (Sep. 2004). V. 29, №3. P. 445-462.

98. Hull R., King, R. Semantic database modeling: survey, applications, and research issues -ACM Comput. Surv. (Sep. 1987). V. 19. №3. P. 201-260.

99. Thalheim B. An overview on semantical constraints for database models // 6th International Conference on Intellectual Systems and Computer Science, Moscow, Russia, December 110,1996.

100. Thalheim B. Foundations of Entity-Relationship Modeling // Annals of Mathematics and Artificial Intelligence, 1993. V. 7, P. 197-256.

101. Dong G., Libkin L., Su J., and Wong L. Maintaining transitive closure of graphs in SQL // Int. Journal of Information Technology, 1999.

102. Вартазарян Т. Иванов Д. Хранение XML-документов в реляционной СУБД // Программист, 2002. №3. С.36-40

103. Wagner S. A Data Warehouse for Cross-Species Anatomy // MSc Dissertation. Heriot-Watt University, 2002.

104. Kuper G.M. The logical data model: a new approach to database logic. PhD thesis, Stanford University, 1985.

105. Abiteboul S., Cluet S,, Milo T. Correspondence and Translation for Heterogeneous Data // In Proceedings of the International Conference on Database Theory (ICDT), 1997. P. 351-363.

106. Binh N.T., Tjoa A M., Mangisengi O. MetaCube-X: An XML Metadata Foundation for ; Interoperability Search among Web Warehouses // Proceedings of the International

107. Workshop on Design and Management of Data Warehouses (DMDW'2001), 2001. P. 8.

108. Jagadish H., Lakshmanan L., Srivastava D., and Thompson K. TAX: A Tree Algebra for XML // In Proceedings of The International Conference on Database Programming Languages (DBPL), 2001. P. 149-164.

109. Paparizos S., Al-Khalifa S., Jagadish H. V., Niemann A., Wu. Y. A physical algebra for XML // Technical report, University of Michigan, 2002.

110. Johnson Т., Lakshmanan V. S., Raymond T. N. The 3W Model and Algebra for Unified Data Mining // In Proceedings of the 26th International Conference on Very Large Data Bases (VLDB), 2000. P. 21-32.

111. Eriksson-Bique S. An Algebraic Theory of Multidimensional Arrays // Dissertation, University of Joensuu, 2002.

112. Kimball R., Ross M. The Data Warehouse Toolkit The Complete Guide to Dimensional Modeling. - Wiley, 2002.

113. Abell'o A., Samos J., Saltor F. Understanding Facts in a Multidimensional Object-Oriented Model. // In Proc. of the 4th Int. Workshop on Data Warehousing and OLAP (DOLAP). ACM, 2001. P. 32-39.

114. Nguyen T.B., Tjoa A M., Wagner R.R. Conceptual Multidimensional Data Model Based on MetaCube // Proceedings of the 2001 ACM symposium on Applied computing, 2001. -P. 295-300.

115. Bezenchek, A., Rafanelli, M., Tininini, L. A Data Structure for Representing Aggregate Data // In Proceedings of the Eighth International Conference on Scientific and Statistical Database Management 1996. P. 22-31.

116. Арлазаров B.B. Структурирование визуальных представлений информационной среды и методы определения надежности распознавания: Автореферат дис. канд. тех. наук М., 2004.24с.

117. Емельянов Н.Е. Введение в СУБД ИНЕС. М.: Наука, 1988. - 256 с.

118. Годунов А.Н., Емельянов Н.Е. и др. Система НИКА // В книге «Системы управления базами данных и знаний» / М.: Финансы и статистика, 1991, С. 209 - 248.

119. Кормен Т., Лейзерсон Ч., Ривест Р. Алгоритмы: построение и анализ. -: М.: МЦНМО, 2001.-960 с.

120. Свами М., Тхуласираман К. Графы, сети и алгоритмы. М.: Мир, 1985. - 455 с.

121. Арлазаров В. В., Постников В.В., Шоломов Д.Л. Cognitive Forms система массового ввода структурированных документов // Сб. тр. / ИСА РАН. - М.: Эдиториал УРСС, 2002. С. 35-46.

122. Постников В.В. Автоматическая идентификация и распознавание структурированных документов Дис. канд. тех. наук - М., 2001. - 126 с.

123. В. Липский Комбинаторика для программистов М.:Мир, 1988. - 200 с.

124. Арлазаров В. Л., Емельянов Н. Е. Системы обработки документов. Основные компоненты // Сб. тр. / ИСА РАН "Управление информационными потоками", М.: Эдиториал УРСС, 2002. С. 3-20.

125. Арлазаров В. Л., Логинов А.С., Славин О.А. Характеристики программ оптического распознавания текста // Сб. тр. / ИСА РАН М.: Эдиториал УРСС, 2001. С. 5-10

126. O'Gorman L. The Document Spectrum for Page Layout Analysis // IEEE Transactions on Pattern Analysis and Machine Intelligence, 1993. V. 15. №11. P. 1162-1173

127. Dias A.P. Minimum Spanning Trees for Text Segmentation // In Proc. of the Fifth Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, Nevada, 1995.-P. 61-65.

128. Ittner D. Automatic Inference of Textline Orientation // In Proc. of the Second Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, Nevada, 1993. -P. 123-133

129. Zlatopolsky A.A. Automated document segmentation // Pattern Recognition Letters, July 1994. V. 15. №7. P. 699-704.

130. Дуда P., Харт П. Распознавание образов и анализ сцен./ Пер. с анг. М.: Мир, 1976. -511 с.

131. Comer D. Ubiquitous B-tree // ACM Computing Surveys, June 1979. V. 11. №2. P. 121-137.

132. Dobkin D., Lipton R.J. Multidimensional searching problems // SIAM Journal of Computing, 1976. V. 5. №2. P. 181-186

133. Friedman J.H., Bently J.L., Finkel R.A. An algorithm for finding best matches in logarithmic expected time // In ACM Transaction on Mathematical Software, 1977. V. 3. -P. 209-226.

134. Tsaparas P. Nearest Neighbor Search in Multidimensional Spaces Depth Oral Report, June 10,1999.-50 p.

135. Agarwal P.K., Edelsbrunner H., Schwarzkopf 0., Welzl E. Euclidean minimum spanning trees and bichromatic closest pairs // Proc. 6th ACM Symp. Сотр. Geom., 1990, P. 189201.

136. Yianilos P.N. Data structures and algorithms for nearest neighbor search in general • metric space // In Proceedings of the 4th Annual ACM-SIAM Symposium on Discrete

137. Algorithms (SODA '93), 1993. P. 311-321.

138. Katayama N., Satoh S. The RS-tree: An index structure for high-dimensional nearest neighbor queries // In Proceedings of the ACM SIGMOD International Conference on Management of Data, 1997. V. 26. №2. P. 369-380.

139. Sarnak N., Tarjan R.E. Planar point location using persistent search trees. // Commun. ACM, 1986. V. 26.-P. 669-679.

140. Berchtold S., Keim D.A., Kriegel H.-P. The X-tree: An index structure for high-dimensional data // In VLDB'96, Proceedings of 22th International Conference on Very Large Data Bases, 1999. P. 28-39.

141. Beckmann N., Kriegel H.P., Shneider R., Seeger B. The R*-tree: An efficient and robust access method for points and rectangles // In Proceedings of the ACM SIGMOD International Conference on Management of Data, 1990. P. 322-331.

142. White D.A., Jain R. Similarity indexing with SS-tree // In Proceedings of the 24th International Conference on Very Large Data Bases, VLDB, 1998. P. 194-205.

143. Hjaltson G.R., Samet H. Ranking in spatial databases // Lecture Notes in Computer Science, 1995. V. 951 P. 83-95.

144. Joyce E. Endres The Total Systems Approach to Forms Automation // ЬПр://етефпзе.state.wi.us/static/forms/whitejiaper.htm

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.