Разработка моделей и методов верификации и анализа документов в электронном архиве энергетических объектов тема диссертации и автореферата по ВАК РФ 05.13.12, кандидат технических наук Харин, Максим Алексеевич
- Специальность ВАК РФ05.13.12
- Количество страниц 143
Оглавление диссертации кандидат технических наук Харин, Максим Алексеевич
СОДЕРЖАНИЕ
Введение
1. ИСПОЛЬЗОВАНИЕ ЭЛЕКТРОННЫХ АРХИВОВ В ЖИЗНЕННОМ ЦИКЛЕ ЭНЕРГЕТИЧЕСКИХ ОБЪЕКТОВ
1.1. Введение
1.2. Требования, предъявляемые к системе электронного архива
1.3. Краткий обзор систем электронного архива
1.4. Краткое описание схемы автоматизированного наполнения архива
1.5. Методы и системы Data Mining
1.6. Методы анализа исходных данных и поиска закономерностей
ВЫВОДЫ ПО ПЕРВОЙ ГЛАВЕ
2. МОДЕЛИ ДАННЫХ ЭЛЕКТРОННОГО АРХИВА
2.1. Введение
2.2. Информационно-аналитическая модель электронного архива
2.3. Подмодель хранения документов
2.4. Подмодель, позволяющая реализовать поиск закономерностей в документах
2.5. Подмодель прав доступа и структуры подразделений
2.6. Подмодель поиска документов
ВЫВОДЫ ПО ВТОРОЙ ГЛАВЕ
3. МЕТОДЫ ИЗВЛЕЧЕНИЯ ЗНАНИЙ И АНАЛИЗА ЭЛЕКТРОННОГО АРХИВА
3.1. Введение
3.2. Схема наполнения электронного архива документами
3.3. Общая схема метода извлечения и применения знаний
3.4. Алгоритмы создания справочника на основе электронного архива
3.5. Использование последовательностей при занесении документов в электронный архив
3.6. Алгоритмы решения задачи кластеризации в электронном архиве
3.7. Методы поиска в электронном архиве
ВЫВОДЫ ПО ТРЕТЬЕЙ ГЛАВЕ
2
4. ОСОБЕННОСТИ РЕАЛИЗАЦИИ СИСТЕМЫ ЭЛЕКТРОННОГО АРХИВА
4.1. Введение
4.2. Общая архитектура электронного архива
4.3. Реализация информационно-аналитической модели электронного архива
4.4. Реализация системы настройки информационно-аналитической модели архива
4.5. Реализация процесса поточного занесения документов в архив
4.6. Возможности автоматизированного формирования пакетов документов с использованием метода кластеризации
4.7. Реализация Web-приложения для поиска и просмотра документов
4.8. Внедрение и эксплуатация системы
4.9. Оценка эффективности разработанного метода
ВЫВОДЫ ПО ЧЕТВЕРТОЙ ГЛАВЕ
Заключение
БИБЛИОГРАФИЯ
Рекомендованный список диссертаций по специальности «Системы автоматизации проектирования (по отраслям)», 05.13.12 шифр ВАК
Интеллектуальные методы организации архивов технической документации научно-производственного объединения2012 год, кандидат технических наук Радионова, Юлия Александровна
Разработка технологии автоматизированной подготовки динамических документов и интерактивного повествования2005 год, кандидат физико-математических наук Леонов, Андрей Владимирович
Разработка информационно-аналитических средств безбумажного документооборота в строительном производстве2005 год, доктор технических наук Лим, Владимир Григорьевич
Разработка методов и алгоритмов безбумажного документооборота электронных архивов технической документации САПР2008 год, кандидат технических наук Малинин, Алексей Анатольевич
Семантическое и технологическое развитие реляционной базы данных в корпоративных информационных системах2003 год, кандидат технических наук Шатских, Максим Сергеевич
Введение диссертации (часть автореферата) на тему «Разработка моделей и методов верификации и анализа документов в электронном архиве энергетических объектов»
Введение
Актуальность темы. Для предприятий энергетической отрасли важной задачей является создание единого информационного пространства путём перехода на безбумажный документооборот. При этом необходимо учитывать следующие особенности работы предприятий, занимающихся проектированием и монтажом энергетических объектов:
• территориальная распределенность (организации, занимающиеся проектированием, строительством, монтажом и эксплуатацией энергетических объектов всегда находятся на существенном расстоянии друг от друга);
• большое количество документации, которая должна поддерживаться в актуальном состоянии и быть доступной в сжатые сроки для оперативного принятия решений, особенно в аварийных ситуациях.
Эти особенности объективно требуют информационной интеграции процессов проектирования, монтажа и эксплуатации энергетических объектов. Ускорение информационных потоков необходимо для повышения эффективности и надёжности работы энергетических предприятий.
В организациях, занимающихся проектированием, строительством и реконструкцией энергетических объектов, обычно имеется архив технической документации порядка сотен тысяч документов. При этом организация может иметь распределённую структуру с филиалами в разных городах РФ, объекты строительства также могут быть удалёнными: от Нягани до Краснодарского края. В ' ходе строительных и особенно электромонтажных работ часто происходит изменение и дополнение проектной документации.
Поиск необходимой документации в "бумажном" архиве и её доставка (даже путём сканирования и электронной пересылки) в удалённые точки занимает большое время. Поэтому актуальна задача создания системы
электронного архива: системы структурированного хранения проектной документации в электронном виде, обеспечивающей надёжность хранения, конфиденциальность и разграничение прав доступа, отслеживание истории использования документа, быстрый и удобный поиск, а также предоставляющей доступ к документации из любого места в любое время.
Особенности технической документации, которые необходимо сохранить при переходе к электронному архиву:
• соответствие ГОСТам серии СПДС;
• насыщенность символьными наименованиями (чертежи, объекты, устройства, материалы).
Рассмотрим комплект документации по некоторому энергетическому объекту (например, «Подстанция Мещанская»). Вся рабочая документация делится:
• по стадиям: проектная «ПД» и рабочая «РД»;
• по пусковым комплексам (ПК); 1 ПК - строительство подстанции, 2 ПК - строительство заходов КЛ 220 кВ на подстанцию, 3, 4 ПК - строительство дополнительных кабельных линий;
• по буквенной марке номера рабочей документации (в соответствии с требованиями ГОСТа), например, АЭВ, АЭП, РЗ, СС и другие.
Практически каждый том рабочей документации содержит символьные наименования, например, спецификация оборудования содержит строки вида «Вентилятор Ш 48УОСдля ТОХ515»или «Оптический лазер БЫ ГСБГР, 1310 нм». Также в соответствии с «ГОСТ 2.104-68*» в основной надписи на чертеже указываются фамилии и подписи лиц, выполняющих разработку, проверку, технологический контроль, нормоконтроль и утверждение документа.
В архиве необходимо предоставить возможность группировки документов в соответствии с приведённой классификацией, чтобы обеспечить доступ к единственной актуальной версии документа всем заинтересованным лицам: руководителю объекта (подстанции); проектировщикам из различных организаций, выполняющих проект; генподрядчику строительно-монтажных работ; начальнику монтажной бригады на объекте и т.д.
В унаследованной системе архива документы хранятся в бумажном или электронном виде на компакт-дисках в помещении в центральном офисе организации. При переходе на новую систему электронного архива бумажные документы должны быть отсканированы. Для обеспечения структурирования документов и их быстрого поиска в архиве должны храниться не только электронные образы (изображения) документов, но и их карточки (наборы атрибутов). Для формирования атрибутов документов применено распознавание отсканированных документов при помощи специализированных программных средств. При этом точность распознавания не всегда является стопроцентной, необходима верификация. Верификация - это процесс проверки правильности распознанных документов. Она производится человеком и заключается в сверке распознанного текста с графическим образом документа. Однако при большом потоке документов в силу монотонности работы увеличивается число ошибок верификации, что недопустимо для технической документации. В связи с этим актуальной является задача автоматизации процесса верификации для повышения скорости и уменьшения числа ошибок.
Так как некоторые атрибуты документов распознаются лучше, другие хуже, а процесс верификации является последовательным, для ускорения следует использовать зависимость значений атрибутов друг от друга. Наибольшую скорость в данном случае обеспечивают продукционные
правила, так как они используют простую модель «ключ-значение», что обеспечивает наиболее быстрый поиск нужного правила. Актуальной является задача извлечения подобных зависимостей из уже накопленного архива документации. Для этого необходимо адаптировать методы Data Mining для работы с электронным архивом технической документации. Существующие программные продукты извлечения знаний часто ориентированы на конкретную предметную область (например, Deep Data Diver™ - в основном на медицинскую диагностику, AnswerTree - на маркетинговые исследования) и не предоставляют возможности интеграции с программами сканирования и верификации. Поэтому необходимо разработать специализированную систему, предназначенную для работы с техническими документами различной структуры.
Точность верификации необходима для быстрого поиска полного набора документов по заданному пользователем запросу. Например, пользователю может понадобиться комплект документации по релейной защите на некотором объекте или сводный сметный расчёт по подстанции. Необходимо предоставить возможность построения сложных запросов по тексту документа с учётом морфологических форм заданных слов. Актуальна также задача разработки методов и средств, обеспечивающих более высокую скорость поиска документов по сравнению с существующими системами. Причём, важен не только и не столько поиск конкретного документа, сколько поиск полного набора документов, удовлетворяющих набору условий. Для решения этой задачи необходимы дополнительное структурирование и группировка документов. Следовательно, актуальна задача автоматизации создания пакетов документов по каким-либо критериям.
В целом, основные требования к архиву могут быть сформулированы следующим образом:
• хранение больших объёмов документации (порядка сотен тысяч страниц);
• ориентация на техническую документацию, насыщенную символьными наименованиями, которые должны иметь единый вид;
• высокая скорость занесения документов в архив с учётом существующей системы хранения документов. Комплект документации по объекту объёмом 5000 страниц должен быть доступен в архиве не более чем за 2 недели, срочные документы должны быть занесены в архив в течение дня с учётом всех временных задержек;
• обеспечение возможности поиска документа по тексту;
• наличие средств автоматизированной группировки документов.
Анализ рынка программного обеспечения показал, что существующие системы не полностью удовлетворяют приведённым требованиям. Таким образом, актуальна задача разработки системы электронного архива, решающей данные задачи.
Современное архивоведение, в том числе и зарубежное, подробно рассмотрено в трудах Е.В. Старостина, Е.В. Булюлиной. Автоматизация архивного дела рассматривается в работах И.Н. Киселёва, В.И. Тихонова, Е.В. Бобровой. Задачам извлечения знаний из документов посвящены труды И.П. Норенкова, В.А. Дюка, Р. Михальски, К. Парсайе. В соответствии с ГОСТ 23501.101-87, электронный архив может быть отнесён к обслуживающим подсистемам САПР. Основы построения интеллектуальных САПР с применением технологий знаний рассмотрены в трудах И.П. Норенкова, П. Хилла, Дж. Джонса. Информационная интеграция и построение корпоративных информационных систем рассматриваются в работах В.Н. Буркова, Н.Г. Твердохлеба, В.Н. Шведенко, Д. О'Лири, И.Д. Ратмановой, М.Г. Левина, А. Леона.
Работа выполнялась в ОАО «Электроцентромонтаж», занимающемся проектированием, строительством и реконструкцией энергетических объектов, монтажом и наладкой электрооборудования. Промышленное внедрение и эксплуатация выполнялись в 4-х филиалах этой же организации.
Диссертационная работа соответствует паспорту специальности 05.13.12 «Системы автоматизации проектирования (по отраслям)», так как затрагивает следующие вопросы:
• научные основы построения средств автоматизации проектирования, безбумажного документооборота и процессов работы электронных архивов технической документации (пункт 7 областей исследований в паспорте специальности);
• научные основы реализации жизненного цикла «проектирование -производство - эксплуатация», построения интегрированных средств управления и унификации прикладных протоколов информационной поддержки;
• разработка принципиально новых методов и средств взаимодействия «проектировщик - среда».
Целью диссертационной работы является повышение скорости доступа к актуальной проектно-конструкторской и технической документации путём создания электронного архива документов, а также точности и скорости верификации документов при загрузке в архив путём использования уже накопленных в архиве знаний. При этом решались следующие задачи:
1. Разработка информационно-аналитической модели электронного архива, обеспечивающей хранение массивов технической документации объёмом порядка сотен тысяч документов, группировку документов в соответствии с ГОСТами серии СПДС, использующимися в энергетике.
2. Разработка метода анализа документов, позволяющего оптимизировать верификацию и структурировать документы путём извлечения и применения нечётких продукционных правил.
3. Разработка методов и средств поиска в электронном архиве, позволяющих построить полный набор документов по запросу пользователя при заданных ограничениях на время и общее количество документов.
4. Экспериментальная проверка разработанных моделей и методов путём реализации в программной системе электронного архива.
Методы исследования. Использовались методы Data Mining, нечёткой математики, теории баз данных, систем искусственного интеллекта.
Научная новизна.
1. Разработана информационно-аналитическая модель электронного архива, позволяющая хранить документы и извлекать знания в виде нечётких продукционных правил. Она отличается от существующих моделей хранения тем, что позволяет варьировать набор атрибутов документа для разных типов, учитывать соответствие атрибутов типов и создавать на их основе продукционные правила.
2. Разработан метод анализа атрибутивного состава технической документации, основанный на разработанной модели метаданных и включающий в себя алгоритмы создания наборов правил-ассоциаций (справочников) и поиска последовательностей. Он отличается от существующих алгоритмов Data Mining, например FP-Growth, Apriori и их разновидностей, тем, что учитывает структуру хранения документов и особенности технических документов.
3. Разработан метод решения задачи кластеризации в архиве. Использование кластеризации позволяет группировать документы в соответствии с ГОСТами, либо по индивидуальным запросам пользователей. Метод отличается от традиционных алгоритмов агломеративной
кластеризации тем, что вместо расстояния между точками использует разработанную модель метаданных, а также подготовленные на этапе анализа наборы продукционных правил. Это обеспечивает высокую скорость работы.
Практическая значимость работы.
1. На основе разработанной модели данных создана система электронного архива, позволяющая получать доступ к необходимым документам непосредственно с рабочих мест.
2. Применение методов извлечения знаний позволило сократить время верификации документов и увеличить скорость занесения документов в архив приблизительно на 25%, не увеличивая штат верификаторов. Метод позволяет извлекать знания с учётом того, что требуемые значения могут находиться в разных атрибутах, а также применять полученные знания при верификации без дополнительной интерпретации.
3. Разработанный метод поиска в архиве, использующий оригинальную схему взаимодействия компонент и дополнительные средства СУБД, обеспечивает построение полного списка документов по пользовательскому запросу при заданных временных ограничениях. Наличие атрибутивного и полнотекстового поиска позволяет учитывать многообразие технической документации и выполнять поиск только нужных пользователю документов.
4. Применение методов кластеризации позволяет более наглядно группировать документы в пакеты, что упрощает работу пользователям, например, при подготовке отчётов или комплектов технической документации по определённому объекту.
Апробация работы. Материалы диссертационной работы докладывались и обсуждались на следующих конференциях:
1)1 Международная конференция «Автоматизация управления и интеллектуальные системы и среды (АУИСС - 2010)»;
2) XVI Международная открытая научная конференция «Современные проблемы информатизации» (2011);
3) конференция «Спецпроект: анализ научных исследований» (3031.05.2011г);
4) конференция «Наука в информационном пространстве - 2011» (2930.09.2011г.).
Список публикаций. По результатам работы опубликованы 2 статьи в изданиях, рекомендованных ВАК, 6 статей в научных журналах, 5 тезисов докладов на конференциях, получено 1 свидетельство о государственной регистрации программы для ЭВМ.
Личный вклад. Выносимые на защиту модели и методы разработаны автором лично. В созданной системе электронного архива автором разработана система шаблонов Flexi Capture, система конфигурирования, мастер загрузки документов, компоненты, реализующие описанные в диссертации методы.
Внедрение. Система ДокПрофигм зарегистрирована в Реестре программ для ЭВМ, номер свидетельства 2011610409. Успешно внедрена и применяется в ОАО «Электроцентромонтаж» для оперативного доступа сотрудников предприятия к актуальной технической документации. Тем самым заложена основа для единого информационного пространства предприятия.
Структура и объём работы. Диссертация состоит из введения, четырёх глав, заключения, списка литературы из 101 наименования и включает 138 страниц основного текста, 36 рисунков, 3 таблицы, 8 формул. В приложении приведено 4 акта о внедрении и 1 свидетельство о государственной регистрации программы для ЭВМ.
1. ИСПОЛЬЗОВАНИЕ ЭЛЕКТРОННЫХ АРХИВОВ В ЖИЗНЕННОМ ЦИКЛЕ ЭНЕРГЕТИЧЕСКИХ ОБЪЕКТОВ.
1.1. Введение
В данной главе ставится проблема использования систем электронного архива предприятиями, занимающимися проектированием, строительством и монтажом энергетических объектов. На основе особенностей работы организаций энергетической отрасли определены критерии сравнения существующих систем, которые могут быть применены для решения задачи информационной интеграции. Также поставлена задача ускорения верификации документов для более быстрой загрузки потока документов в архив. Проведён анализ существующих систем Data Mining, позволяющих решить задачу извлечения знаний из атрибутов загруженных в архив документов.
1.2. Требования, предъявляемые к системе электронного архива.
Процесс проектирования, строительства, монтажа и эксплуатации энергетических объектов рассматривается в трудах Норенкова [45], Казенкова и Соколова [24]. Они утверждают последовательную линейную схему данного процесса: сначала выполняется полное проектирование объекта, затем его строительство, ввод в эксплуатацию и использование. Однако в настоящее время идёт переход к распределённому проектированию [23, 56]. Переход к данной технологии произошёл из-за существенно возросших требований к скорости проектирования и строительства энергетических объектов. Работа ведётся поблочно, монтаж объектов выполняется параллельно с проектированием по мере подготовки блоков
проекта. Обобщая данный процесс, его можно представить в виде схемы, приведённой на рис. 1.1.
Рис 1.1 Обобщённая схема проектирования энергетическою объекта Данная схема в частности применяется в ОАО «Электроцентромонтаж» - крупном предприятии, выполняющем полный комплекс работ на объектах энергетической отрасли.
Важной особенностью энергетической отрасли является
территориальная распределенность организаций, выполняющих разные
этапы работ. Основой для создания единого информационного пространства,
как отмечалось во введении, могут быть системы электронных архивов
документов. Такие системы позволяют предприятиям надёжно хранить
информацию, предоставляя к ней оперативный доступ в случае
14
необходимости. В соответствии со стандартом МоЯец II [90] они имеют следующие особенности:
• не допускают изменения документа;
• позволяют существовать единственной финальной версии документа;
• запрещают удаление документов, кроме некоторых строго контролируемых ситуаций;
• включают строгие правила хранения;
• обеспечивают упорядоченную структуру документов (классификационную схему), которая задаётся администратором;
• могут поддерживать ежедневную работу, но в первую очередь предназначен для обеспечения защищенного хранения бизнес значимых документов.
Также система должна учитывать требования ГОСТ серии СГ1ДС [9, 10]. Основные требования ГОСТ, на которых автор основывался в данной работе, приведены ниже:
• унифицированные правила оформления и обращения документации с учётом назначения проектных документов;
• комплектность выдаваемой заказчику документации с учётом специализации подрядчика, вида и назначения используемых им документов;
• максимально необходимый объём документации для производства строительно-монтажных работ;
• общие правила выполнения чертежей и текстовых документов независимо от назначения проектируемого объекта и вида проектных решений;
• унификация форм проектных документов и графических изображений с исключением не требующейся потребителю информации;
• унификация терминов и понятий, применяемых в СПДС;
• применение проектной документации в автоматизированных системах проектирования и управления строительным производством.
Также в соответствии с ГОСТ каждому текстовому и графическому документу присваивают обозначение, включающее в себя марку комплекта документации. Таким образом, при переходе к системе электронного архива необходимо обеспечить единообразие технических обозначений в документации, а также обеспечить группировку документов в соответствии с их маркировкой. Большое количество объектов, по которым ведутся или велись работы, подразумевает соответствующее количество различной документации. Во-первых, это техническая документация: чертежи, акты, рабочая документация, паспорта оборудования и пр. Во-вторых, это сопроводительная и финансовая документация: переписка, счета, накладные, акты сдачи и приёмки работ. В-третьих, это сметная и договорная документация. Исходя из этого, приведём список требований к подсистеме хранения документов:
1. В архиве требуется хранить большое количество документов разных типов (конструкторские, финансовые, корреспонденция и др.), каждый из которых имеет свой собственный набор атрибутов.
2. Набор типов может иметь иерархическую структуру.
3. Необходима возможность наращивания количества атрибутов и задания признака их обязательности.
Так как в процессе работы в документах могут возникать изменения и корректировки, то необходимо обеспечить возможность создания версий документа, в том числе автоматического. Если в двух документах совпадают значения определённых атрибутов, значит, это две версии одного и того же документа.
Данные требования должны быть удовлетворены моделью хранения данных.
Примерами систем, которые могут быть использованы для решения задачи организации электронного архива технической документации для энергетической отрасли, являются:
• SmartPlant Foundation (http://www.intergraph.com/)
• NormaCS (http://normacs.ru/)
• TDMS (http://www.tdms.ru/)
• DocsFusion и DocsOpen (http://www.humminobirdsolutions.com/)
• Documentum fbttp://www.documentum.com)
• Optima Workflow (http://www.optima.ru)
• Электронный архив Евфрат (http://evfrat.ru/)
и другие.
Рассмотрим данные системы применительно к требованиям, сформулированным во введении и в данной главе.
1.3. Краткий обзор систем электронного архива
В данном разделе приведены главные отличительные черты основных систем документооборота, представленных в России. Использованы материалы, предоставляемые производителями программного обеспечения, результаты анализа демоверсий продуктов, а также сведения о системах, полученные при проведении конференций Docflow, организуемых компанией ABBYY.В первую очередь рассмотрены системы, которые можно без натяжки назвать «промышленными» в том смысле, что они уже давно представлены на рынке, являют собой отчуждаемый коммерческий продукт, который можно приобрести, по которому можно получить техническую поддержку и который находится в развитии.
SmartPlant Foundation
SmartPlant Foundation — это единая информационная система, построенная в соответствии с IS015926 и предназначенная для хранения, доступа, обмена и управления инженерными данными на всех стадиях жизненного цикла индустриального объекта (проектирование, строительство, монтаж, эксплуатация, реконструкция) [100].
Она позволяет создавать, хранить и управлять информацией по объектам на протяжении всего жизненного цикла. SP Foundation использует объектно-ориентированную модель данных, реализованную с использованием СУБД Oracle. Файлы документов хранятся в распределённой системе "сейфов" - выделенных фрагментах жестких дисков компьютеров. SmartPlant Foundation поддерживает два типа клиентов - VB-клиент (работ а в окне SmartPlant Foundation клиент) и WEB-клиент (работа в среде Internet Explorer).
Основными недостатками данной системы являются ресурсоёмкий поиск документов по тексту, реализованный на данный момент в альфа-версии, отсутствие средств автоматизированной группировки, а также низкая скорость занесения документов в архив из-за полностью ручного режима ввода карточек документа.
Основываясь на результатах внедрения данной системы на предприятиях, можно отметить, что процесс внедрения является достаточно долгим и трудоёмким. Также система является импортной и довольно дорогостоящей, что можно отнести к её недостаткам.
NormaCS
Данная программа предназначена для хранения, поиска и отображения текстов и реквизитов нормативных документов, а также стандартов, применяемых на территории Российской Федерации и регламентирующих деятельность предприятий различных отраслей промышленности [98].
Она обеспечивает широкие возможности поиска документов по атрибутам и полному тексту, интеграцию с офисными и САПР-системами, единый интерфейс для локальной, сетевой и Internet-версий. Однако, стоит отметить, что система больше предназначена для работы с существующими системами регламентов, чем для работы с архивом документации конкретного предприятия. В настоящее время ведутся работы по совмещению с системой документооборота TDMS (см. ниже). Это позволит использовать механизмы сканирования и верификации, поддерживаемые системой TDMS, но не предоставляемые системой NormaCS. Система поддерживает классификацию документов, однако, автоматизация процесса разработчиками не декларируется. Система имеет гибкую систему лицензирования и подписок, обеспечивающих доступ к базе нормативных документов.
TDMS
TDMS (Technical Data Management System) - это система, предназначенная для управления информационными потоками и электронной документацией проектных, конструкторских, производственных организаций и любых других предприятий, в работе которых используются технические данные и создаваемые на их основе документы: чертежи, планы, схемы, спецификации, ведомости и т.п. [101].
Система TDMS обеспечивает традиционную для электронных архивов возможность хранения документов и автоматического создания версий. Также система предоставляет средства для атрибутивного и полнотекстового поиска. Заявленное время, затрачиваемое на поиск документа по чётким критериям< 1 мин, время, затрачиваемое на поиск документа по нечётким критериям < 5 мин.
Важным отличием данной системы является интерфейс с системой RasterID. RasterID производит поиск штампа документа по заранее заданному
шаблону, распознает топологию и текст в ячейках данного штампа.
19
Возможность извлечения полного текста из сканированных документов разработчиками не декларируется. Также в настоящее время данный интерфейс находится на доработке.
Documentum
Documentum (http://www.documentum.com4) — платформа для построения систем электронного архива и систем управления процессами в организации (workflow). На её базе возможно также создание порталов и управление проектами. Система включает функциональность для управления хранением информации, обеспечивает создание версий документов [95J.
Также система включает в себя средства разработки, позволяющие создавать приложения в среде Documentum. Тем самым имеется возможность интеграции с существующими ERP и CAD/CAM-системами, а также системами сканирования и распознавания. Однако в существующей поставке данных модулей нет, требуется дополнительная разработка. Поэтому можно сказать, что автоматизация извлечения атрибутов документов и группировки документов в принципе возможна, но потребует определённых трудозатрат. Разработчиками системы декларируется быстрый поиск документов по атрибутам, однако, поиск по тексту документа не заявлен в функциональности системы.
В целом, можно отметить, что Documentum является настраиваемой системой и поэтому имеет широкие возможности. С другой стороны, это повышает стоимость внедрения, так как требуется сбор дополнительной информации, настройка системы и, возможно, разработка собственных компонент.
DocsFusion
Платформа DocsFusion [94J является зарубежной системой для построения электронных архивов. Она использует архитектуру с выделенным сервером, который выполняет обращения в базе данных. Существует клиентские приложения для Windows и для Web.
В целом система не предоставляет возможностей интеграции с системами проектирования и не ориентирована на техническую документацию. Основными её преимуществами являются улучшенная система контроля версий и совместной работы, быстрый поиск по атрибутам документа и возможность группировки документов по смысловому признаку. В каждый момент документ может редактироваться только одним человеком, что обеспечивает целостность информации. Однако разработчиками не декларируется возможность поиска документа по тексту и не определяется структура для группировки документов.
Встроенных средств для автоматизированного заполнения атрибутов документов и их группировки в системе нет. Однако, Docs - это открытая платформа, предоставляющая средства разработки приложений. Интеграция с системами сканирования может быть предоставлена третьими организациями, что соответственно повышает время внедрения системы и затраты на него.
LanDocs
Система LanDocs [96] относится к системам электронного документооборота. Основное направление внедрения данной системы — автоматизация бизнес-процессов организации. Она состоит из нескольких компонентов, например, «LanDocs: СЕРВЕР ДОКУМЕНТОВ», «LanDocs: ПОЛНОТЕКСТОВЫЙ ПОИСК», «LanDocs: СКАНИРОВАНИЕ ДОКУМЕНТОВ» и др.
Таким образом, система предоставляет достаточно широкие возможности для занесения и поиска документов. Подсистема сканирования документов даёт возможность управлять изображением после сканирования, удалять шумы, выравнивать документы, распознавать текст. Однако разработчиками не указана возможность создания шаблонов документов и заполнения атрибутов документов на их основе.
Серверная компонента для полнотекстового поиска предоставляет возможность поиска с учётом правил русского языка. Способ получения полного текста документа не указан, предположительно, распознавание сканированных документов. Почтовая подсистема может интегрироваться с Microsoft Exchange, что важно для распределённых предприятий. Также система предоставляет API для разработки собственных приложений.
Одним из главных недостатков является то, что основные виды документации не относятся к техническим, также в рамках системы отсутствует интеграция с системами автоматизированного проектирования.
Microsoft SharePoint Portal Server
Система является электронным архивом на платформе Sharepoint [97], соответственно, наследует её достоинства и недостатки. Основное её преимущество - интеграция с прочими продуктами Microsoft: Office, Lync, Exchange, Active Directory и др. Это обеспечивает широкие возможности для совместной работы с документами, а также поиска по содержанию поддерживаемых файлов. Для реализации дополнительной функциональности могут использоваться современные продукты, например, Visual Studio, что упрощает разработку и отладку.
Однако многие разработчики отмечают сложность реализации новых функций, ресурсоёмкость системы и проблемы при работе с большими массивами данных.
Также в системе отсутствуют средства связи с системами сканирования и верификации и автоматизированного заполнения атрибутов документов. Заполнение карточек документов осуществляется вручную при занесении документа в архив. Данный подход не оправдан в случае, когда стоит задача перевода бумажного архива предприятия в электронный вид.
В целом, система ориентирована на управленческую и финансовую документацию и взаимодействие между сотрудниками внутри корпорации. Также система отличается достаточно высокой стоимостью внедрения по сравнению с существующими российскими системами.
Optima Workflow
Система Optima Workflow (http://www.optima.ru) имеет типовое решение «Электронный архив». Основное его преимущество - наличие приложений для потокового сканирования, распознавания и привязки документов [99]. При этом используется следующая схема:
• документ снабжается штрих-кодом;
• в системе вручную создаётся карточка документа;
• в карточку заносится нанесённый штрих-код документа;
• документы сканируются, распознаются и сохраняются в формате PDF;
• выполняется автоматическая привязка документа к карточке с использованием штрих-кода.
Таким образом, автоматизированного извлечения атрибутов в системе нет, однако, имеется возможность поиска документов по распознанному тексту. Отметим, что это достаточно сложная схема, предполагающая выполнение действий по созданию карточки и штрих-кода людьми, занимающимися сканированием документов. В случае распределённой организации это может привести к разным видам оформления карточек и
заполнения атрибутов, в то время как единый центр создания документов такой проблемы не имеет.
Достоинством системы является также полнофункциональный Web-клиент. Основные типы обрабатываемой документации относятся к финансовой и управляющей, а не к технической, что в данном случае является недостатком.
«БОСС-Референт»
Данная система разработана компанией "АйТи" (http://www.it.ru). Основное назначение системы: управление бизнес-процессами и деятельностью сотрудников предприятия. На её базе возможна реализация электронного документооборота в достаточно крупных организациях со сложной структурой [91]. При этом решаются следующие задачи:
• работа с договорами и заявками;
• контроль исполнения поручений;
• коллективная работа с документами;
• архивное хранение электронных документов;
• интеграция с порталами.
Также система интегрирована с FineReader, что предоставляет возможности для сканирования и распознавания документов. Однако потоковое занесение документов и автоматизированное заполнение атрибутов документа разработчиками не указывается.
Таким образом, система направлена, в основном, на работу с бизнес-процессами и не предназначена для работы с технической документацией. Средства автоматизации извлечения атрибутов и группировки документов в системе не заявлены.
В настоящее время СЭД «БОСС-Референт» меняет название на Логика ЕСМ. Продукт «Логика ЕСМ. Архив» планируется к выпуску на рынок в ближайшее время.
«Дело»
Система «Дело» предназначена для ведения электронного документооборота в организациях и автоматизации делопроизводства [92]. Основные решаемые задачи:
• канцелярия: регистрация документов, электронная подпись;
• подготовка корреспонденции;
• создание и контроль поручений;
• автоматизация бизнес-процессов;
• веб-доступ к документам;
• API для интеграции со сторонними приложениями.
Аналогично системе Optima Workflow система имеет средства для потокового сканирования документов и их привязке с помощью штрих-кодов к созданным вручную карточкам в системе. Соответственно возникает аналогичная проблема с обучением персонала штрих-кодированию и созданию карточек.
Работа с технической документацией в данной системе не приоритетна, основное направление - автоматизация бизнес-процессов и управление организационными и финансовыми документами.
«Евфрат»
Электронный архив «Евфрат» является подсистемой «Е1 Евфрат» -системы электронного документооборота и автоматизации бизнес-процессов [93]. Основные функции электронного архива:
• ведение базы файлов разных форматов;
• поддержка коллективной работы: создание версий и контроль поручений;
• поиск документов, в том числе по тексту с учётом морфологии русского языка;
• ввод бумажных документов с помощью сканирования.
Для сканирования и распознавания используется другой продукт компании - система Cognitive Forms. Она позволяет создавать шаблоны документы, распознавать документы в соответствии с шаблонами и выполнять проверку качества распознания. Также система предоставляет API для подключения компонент сторонних разработчиков.
Однако, как и большинство систем электронного документооборота, «Евфрат» ориентирован на автоматизацию бизнес-процессов предприятия, а не на хранение технической документации и работу с системами автоматизированного проектирования.
Сводная таблица
Ниже приведена сводная таблица существенных для данного обзора свойств систем. Наиболее важные условия, которые должны быть удовлетворены:
• ориентация на техническую документацию;
• автоматизированное заполнение атрибутов документов с помощью сканирования и распознавания;
• автоматизированная группировка документов;
• возможность поиска по тексту документа.
Таблица 1.1 Сводная таблица свойств систем электронного архива.
Наименование Ориен гация на техническую документа цию Авюматиз. заполнение а1рибугов Удаленный доступ, Web-к жен i Check-m, checkout, версии Поиск по 1екс1> Сканирование, распознавание Чвюма пп 1 р5 ппировка локхментов
SmartPlant I oundation + -/+ + -/+ - -
NormaCS + +/- + + + -/+ Ч-
IDMS + +/- + + + +/- +/-
Docsrusion - -/+ + + 01депьный МОЛ> Г1Ь +/-
Documentum + -/+ + + + 0|лепьмым мол} ib
LanDocs - +/- Web-к шип - + 4
MS Share-Point Portal Server - -At ( + 17- 4 * -
OptmiaWorkI low - /+ - + + + -/+
"ЬОСС-Рефереш" - -/+ + + + + -IV
"Дело" - -/+ + +/- + + -/+
"Свфра[" - -/+ -/+ -/+ +/- + -/+
* В штатной поставке нет поддержки распознавания текстов на русском языке.
Полностью готовых программных продуктов, реализующих все функции, необходимые для работы предприятия энергетической отрасли не существует. Многие продукты не ориентированы на техническую документацию (DocsFusion, LanDocs), не предоставляют возможности сканирования и распознавания (MS Sharepoint Portal Server, SP Foundation), не имеют web-доступа (Optima Workflow, Евфрат). Есть адаптируемые платформы, с помощью которых можно реализовать требуемый функционал, например, SmartPlant Foundation. Однако стоимость их адаптации превысит стоимость покупки в 3-5 раз (средние статистические данные рынка). Средний срок адаптации и внедрения подобных систем составляет 1,5-2 года. Среди недостатков также можно отметить ресурсоёмкий поиск по содержанию документа и недостаточно высокую скорость занесения новых документов в архив. В связи с этим актуальной является разработка специализированного программного обеспечения, удовлетворяющего приведённым требованиям.
1.4. Краткое описание схемы автоматизированного наполнения архива
В целом при автоматизированном наполнении архива с помощью систем распознавания используется следующая схема, подробно описанная автором в [39]. После потокового сканирования и распознавания документы предстают в виде объектов, имеющих определённый набор атрибутов. Разные документы могут иметь разный тип и соответственно разный набор атрибутов, для задания типов документов используется система настройки архива. В системе настройки создаётся список всех доступных атрибутов в документах. Доступные типы атрибутов:
• Целое число
• Вещественное число
• Строка символов
• Дата/время
• Логическое значение
• Файл
• Ссылка на документ
Далее для каждого типа из общего набора атрибутов создаётся отдельный список атрибутов типа. Например, для документа типа «Чертежи» набор атрибутов включает в себя текстовые поля «Тип документа», «Объект», «Номер коробки с документами» и «Примечание», поле типа Дата «Дата отправителя»; для типа «Счет-фактура» - текстовые поля «Продавец», «Покупатель», «Грузоотправитель», «Грузополучатель», логическое поле «Входящий документ», числовые поля «Итого», «Итого НДС», «Итого с НДС». Для всех типов документов определены общие системные поля «Наименование», «Дата регистрации», «Регистрационный номер», «Полный текст документа», «Файл для печати», «Файл предпросмотра». Также
имеется возможность объединять типы в группы, например, «Инженерно-техническая документация» (чертежи, спецификации и др.), «Договоры» (договоры аренды, договоры поставок, договоры страхования и др.), «Корреспонденция» (входящие письма, исходящие письма).
Документы загружаются в архив путём сканирования бумажных экземпляров и распознавания полученных электронных образов. В системе ДокПрофи™ распознавание осуществляется с помощью программного продукта Flexi Capture фирмы ABBYY, но точность распознавания не всегда является стопроцентной. Проверка правильности распознанных документов (верификация) производится человеком, однако, при большом потоке документов увеличивается число ошибок. Также при большом потоке документов не достигается требуемая скорость занесения документации в архив. Данная проблема может быть решена либо расширением штага верификаторов, либо автоматизацией и ускорением процесса верификации. С другой стороны, многие документы могут иметь одинаковые атрибуты, например, организации, их адреса, банковские счета, ИНН, КПП и другие.
Также один и тот же используемый объект в разных документах может обозначаться по-разному. Например, организация ОАО «МТС» или ОАО «Мобильные ТелеСистемы». Кабель может иметь более точное наименование вида «Кабель КВВГ 14*1,0», либо упрощённое наименование «Кабель контрольный». В документах проектировщика, продавца, руководителя строительства один и тот же трансформатор может иметь отличающиеся наименования, однако при поиске в архиве необходимо найти все документы, в которых он упоминается. Соответственно при верификации необходимо сопоставление объектов некоторому образцу из справочника.
При работе с архивом необходимо также учесть большое количество документов в нем: порядка десяти филиалов, содержащих тысячи документов. Соответственно, методы для работы с архивом должны
обеспечивать приемлемую для пользователя скорость работы на больших объёмах материала.
Таким образом, актуальной является задача извлечения знаний из подобных архивов для повышения точности и скорости верификации документов. Программное средство извлечения знаний должно выполнять следующие функции и удовлетворять условиям:
• анализ и поиск закономерностей в архиве
• автоматизированное извлечение знаний
• высокая скорость работы с сохранением точности
• учёт нечёткости совпадений
• гибкая настройка на документы: адаптация под переменный набор атрибутов
• интеграция со справочниками, например, справочником организаций из
1С.
• возможность интеграции с электронным архивом и программами сканирования и верификации
Для решения поставленных задач могут быть использованы механизмы DataMining и нечёткой математики. Рассмотрим их подробнее.
1.5. Методы и системы Data Mining
Для извлечения знаний могут быть применены методы Data Mining -"добыча данных", "интеллектуальный анализ данных" [17]. Эти методы позволяют выявлять стандартные типы закономерностей, такие как:
1. Ассоциация. Правила-ассоциации показывают, что при наступлении одного события с некоторой вероятностью наступает другое.
2. Последовательность. Последовательности используются для описания связей между событиями, наступающими через некоторый промежуток
времени. В таком случае, ассоциацию можно рассматривать как частный случай последовательности.
3. Классификация. Задача классификации состоит в том, чтобы выявить признаки, на основании которых объект можно отнести к тому или иному классу. Для решения данной задачи применяются алгоритмы ленивого обучения [86], сети Байеса [72], нейронные сети [55], деревья решений [68], индукция символьных правил [82].
4. Кластеризация. Это задача статистического анализа: необходимо разбить документы на группы так, чтобы объекты в одной группе обладали одним и тем же свойством. Для решения данной задачи существуют иерархические алгоритмы: агломеративная и разделительная кластеризация [74, 51], - и неиерархические: алгоритмы теории графов [21], алгоритм РЖ [85], нечёткие алгоритмы [63, 77]. Также могут быть применены сети Кохонена [55] и индукция правил [71].
5. Прогнозирование. Методы прогнозирования используются для оценки определённых будущих показателей на основе накопленных значений. Для решения данных задач используются методы математической статистики и нейронные сети.
Системы Data Mining можно разделить по ключевой компоненте, используемой для анализа. Основные классы систем:
Похожие диссертационные работы по специальности «Системы автоматизации проектирования (по отраслям)», 05.13.12 шифр ВАК
Разработка методики формирования электронного архива кадастровых документов2008 год, кандидат технических наук Григорьев, Сергей Александрович
Разработка моделей и алгоритмов автоматизации полнотекстового поиска документированной информации повышенной релевантности в распределенных производственных структурах2007 год, кандидат технических наук Слюсарь, Валентин Викторович
Интеллектуальные компоненты для автоматизированного проектирования систем электронного документооборота2005 год, кандидат технических наук Ахмад Бадер
Обеспечение целостности комплекса электронных документов на основе встраиваемых динамических моделей2006 год, кандидат технических наук Гарифуллин, Тимур Артурович
Алгоритм управления информационными ресурсами регионального музея и методы реставрации изображений текстовых документов2008 год, кандидат технических наук Канунова, Екатерина Евгеньевна
Заключение диссертации по теме «Системы автоматизации проектирования (по отраслям)», Харин, Максим Алексеевич
Основные результаты работы:
1. Разработана интегрированная модель данных и знаний, позволяющая хранить ключевые сущности электронного архива и связи между ними. Она обеспечивает хранение больших массивов разнообразной документации, в том числе технической, насыщенной символьными наименованиями, обеспечивает поиск документов атрибутом и словам и фразам из текста, а также группировку документов в соответствии с ГОСТ.
2. Предложена схема автоматизированной загрузки документов в архив и разработаны методы извлечения закономерностей из атрибутивного состава документов электронного архива и их применения при верификации, что позволило ускорить занесение документов в архив и выполнить требование оперативной доступности документа.
3. Разработан метод кластеризации, позволяющий автоматизировать создание пакетов документов.
4. На основании результатов опытной и промышленной эксплуатации решена задача организации единого информационного пространства для сотрудников проектирующих, строительных, монтажных, эксплуатационных организаций на протяжении всего процесса проектирования энергетического объекта.
5. Разработанные модели и методы показали свою эффективность при реализации на предприятии энергетической отрасли. Время поиска документа сократилось до 3-5 минут, скорость занесения в архив увеличилась на 25%, время подготовки комплекта документации по объекту сократилось на 50-70%.
Таким образом, степень решения поставленных задач и уровень полученных результатов свидетельствуют о достижении цели диссертационной работы.
Дальнейшее развитие исследований планируется в следующих направлениях.
1. Дальнейшее применение разработанных методов для анализа тенденций в документах электронного архива.
2. Реализация клиентских приложений архива, взаимодействующих с используемыми САПР. Это позволит работать с архивом (добавлять и извлекать документы) непосредственно в среде разработки.
Заключение
Обеспечение современного процесса проектирования энергетических объектов, отличающегося повышенными требованиями к скорости выполнения работ, а, следовательно, цикличностью, одновременной работой над проектом коллективов нескольких территориально-удалённых организаций, необходимостью оперативного контроля устранения недостатков и учёта изменяющихся условий окружающей среды невозможно без построения единого информационного пространства. В качестве общей интеграционной точки целесообразно использовать электронный архив документации, который обеспечит надёжное хранение документов в структурированном виде и доступ к ним из любой точки в любое время.
Несмотря на глубокую теоретическую проработку систем построения электронных архивов документов, а так же на наличие готовых программных продуктов, предназначенных для хранения электронных образов документов, в ходе выполнения работы выявлено отсутствие комплексного решения, обеспечивающего реализацию следующих, диктуемых спецификой энергетической отрасли, требований:
• хранение массива технической документации объёмом порядка сотен тысяч документов;
• скорость загрузки в архив не менее 4000 страниц в месяц для одного верификатора;
• группировка документов в соответствии с ГОСТом серии СПДС;
• время поиска документа по атрибутам не более 1 минуты, по фразе из текста - не более 5 минут.
Для решения данных проблем были проведены работы по обеспечению теоретической основы электронного архива технической документации в энергетической отрасли, состоящие из разработки информационно-аналитической модели и метода анализа документов. На их
124 основе разработан программный комплекс - система электронного архива документов ДокПрофи. Она внедрена в ОАО «Электроцентромонтаж» -крупном предприятии, занимающимся всеми видами работ на объектах энергетической отрасли. Система используется в филиалах, занимающихся проектированием (Костромской инжиниринговый центр), строительством и монтажом (Новомосковское, Костромское, Курчатовское управления), управлением генподрядной деятельностью (Центральный офис).
Список литературы диссертационного исследования кандидат технических наук Харин, Максим Алексеевич, 2013 год
БИБЛИОГРАФИЯ
1. Аллен К. 101: OraclePL/SQL: Как писать мощные и гибкие программы на PL/SQL/ К. Аллен. - М.: Лори, 2001. - 350 с.
2. Асеев, М. Г. Разработка медицинских экспертных систем средствами технологий Data Mining [Электронный ресурс] / М. Г. Асеев, М. Ф. Баллюзек, В. А. Дюк. - Режим доступа: http://www.olap.ru/home.asp7artIcN153, свободный.
3. Афанасьев, А. Электронные архивы: автоматизация и процессы [Электронный ресурс] / А. Афанасьев. - Режим доступа: http://www.aiteh.ru/index.php?page=elektronnye-arhivy-avtomatizatsiya-i-protsessy
4. Боброва, Е. В. Архивы via Интернет / Е. В. Боброва // Новое литературное обозрение: Теория и история литературы, критика и библиография . - 07/2005 . - N74 . - С.507 - 520 .
5. Булюлина, Е. В. Архивоведение: учебно-методическое пособие / Е. В. Булюлина. — Волгоград: Изд-во «ВолГУ», 2001. — 96 с.
6. Бурков, В.Н. Модели и методы управления организационными системами / В.Н. Бурков, В.А. Ириков. - М.: Наука, 1994. - 270 с.
7. Буч, Г. Объектно-ориентированное проектирование / Г. Буч - М.: Конкорд, 1992.
8. Ващенко, Г.В. Вычислительная математика: основы алгебраической и тригонометрической интерполяции / Г. В. Ващенко. - Красноярск: СибГТУ, 2008.-64 с.
9. ГОСТ 21.001 -93. Система проектной документации для строительства. Общие положения.
10. ГОСТ 21.101-97. Система проектной документации для строительства. Основные требования к проектной и рабочей документации.
11. ГОСТ 23501.101-87. Системы автоматизированного проектирования. Основные положения.
12. Гупал, А. М. Об одном методе индуктивного вывода с подрезанием деревьев решений / А. М. Гупал, А. А. Пономарев, А. М. Цветков // Кибернетика и системный анализ. - 1993. - № 5. - С. 174 -178.
13. Девятков, В. В. Системы искусственного интеллекта: учеб. пособие для вузов / В. В. Девятков. - М.: Изд-во МГТУ им Н.Э.Баумана, 2001. - 352 с.
14. Джейн, А. К. Введение в искусственные нейронные сети / А. К. Джейн, Ж. Мао, К. М. Моиуддин // Открытые системы. - 1997. - № 4. -С. 16-24.
15. Джонс, Дж. К. Методы проектирования / Дж. К. Джонс. - М.: Мир, 1986.
16. Дюк, В.А. Обработка данных на ПК в примерах / В. А. Дюк. — СПб.: Питер, 1997.
17. Дюк, В. A. Data Mining - интеллектуальный анализ данных [Электронный ресурс] / В. А. Дюк. - Режим доступа: http://www.olap.ru/basic/dm2.asp, свободный.
18. Елисеева, И. И. Общая теория статистики / И. И. Елисеева, М. М. Юзбашев; под ред. чл.-корр. РАН И. И. Елисеевой. - М.: Финансы и статистика, 1996. - 368 с.
19. Ермаков, А. Е. Извлечение знаний из текста и их обработка: состояние и перспективы / А. Е. Ермаков // Информационные технологии. - 2009. -№ 7.-С. 50 - 55.
20. Ермаков, А. Е. Неполный синтаксический анализ текста в информационно-поисковых системах / А. Е. Ермаков // Компьютерная лингвистика и интеллектуальные технологии: тр. междунар. семинара «Диалог'2002». В 2 т. Т.2. Прикладные проблемы. - М.: Наука, 2002.
21. Жамбю, М. Иерархический кластер-анализ и соответствия / М. Жамбю. — М.: Финансы и статистика, 1988. — 345 с.
22. Зимина, Е.П. Применение комплекса САПР для разработки конструкторской документации в электронном виде / Е. П. Зимина, М. В. Васильев // Труды МАИ. - 2011. - № 45. - С. 64.
23. Реализация распределённого проектирования в САПР AutomatiCS на базе технологии XML / Н. Б. Ильичёв, Е. Р. Пантелеев, В. Пекунов, М. Первовский, Е. С. Целищев // CADmaster - 2002. - №4 (14).
24. Казенков, Г. Г. Основы построения САПР и АСТПП / Г. Г. Казенков,
A. Г. Соколов. - М.: Высш. шк., 1989. - 340 с.
25. Калянов, Г. К. CASE — структурный системный анализ / Г. К. Калянов. - М.: Лори, 1996.
26. Киселёв, И. Н. Архивный сайт и пользователь [Электронный ресурс] / И. Н. Киселёв. - Режим доступа: http://www.rusarchives.ru/evants/conferences/archival_sites_2008/kiselev.shtml, свободный.
27. Киселёв, И. Н. Архивные информационные технологии на современном этапе [Электронный ресурс] / И. Н. Киселёв. - Режим доступа: http://www.rusarchives.ru/news/council_90 k.shtml, свободный.
28. Киселев, М. Средства добычи знаний в бизнесе и финансах / М. Киселев, Е. Соломатин // Открытые системы. - 1997. - № 4. - С. 41 - 44.
29. Решение проблемы комплексного оперативного анализа информации хранилищ данных / С. Д. Коровкин, И. А. Левенец, И. Д. Ратманова,
B. А. Старых, Л. В. Щавелёв // СУБД. - 1997. -№ 5-6. - С. 47 -51.
30. Корпоративные информационные системы: учеб. пособие: в 3 ч. - 4.2 / А.Р. Денисов, М.Г. Левин. - Кострома: КГТУ, 2008. - 79 с.
31. Кречетов, Н. Продукты для интеллектуального анализа данных / Н. Кречетов. // Рынок программных средств. - 1997. - № 14-15. - С. 32 - 39.
32. Кроль, Т. Я. Методы создания справочника на основе электронного архива / Т. Я. Кроль, М. А. Харин, П. В. Евдокимов // Известия «КБНЦ РАН».-2011,-№1,-С. 154 - 158.
33. Кроль, Т. Я. Методы решения задачи кластеризации и прогнозирования в электронном архиве / Т. Я. Кроль, М. А. Харин // Молодой учёный. — 2011.— №6, Т. 1. — С. 135 - 137.
34. Методы поиска в электронном архиве / Т. Я. Кроль, М. А. Харин, Н. В. Никоноров, Д. В. Иванов // Информационные технологии моделирования и управления. - 2011. -№ 6. - С. 702 - 709.
35. Кроль, Т.Я. Модели данных для реализации поиска и прав доступа к документам / Т. Я. Кроль [и др.] // Молодой учёный. — 2011. — №11. -С. 79-84.
36. Кроль, Т. Я. Опыт построения и реализации электронного архива на базе системы сканирования и распознавания Р1ех1СарШге / Т. Я. Кроль, М. А. Харин // Программная инженерия. - 2012. - №6. - С. 35 - 42.
37. Кроль, Т. Я. Использование методов кластеризации для автоматизированного формирования пакетов документов / Т. Я. Кроль, М. А. Харин // Молодой учёный. — 2012. — №10. - С. 93 -95.
38. Кроль, Т. Я. Проблема верификации при занесении документов в электронный архив [Электронный ресурс] / Т. Я. Кроль, М. А. Харин // I междунар. конф. «Автоматизация управления и интеллектуальные системы и среды (АУИСС - 2010)», Россия, Приэльбрусье, 20-27 декабря 2010 г-Режим доступа: http://www.iipru.org/docs/auiss2010_tom2.pdf
39. Кроль, Т. Я. Особенности занесения документов в электронный
архив [Электронный ресурс] / Т. Я. Кроль, М. А. Харин // XVI междунар.
откр. науч. конф. «Современные проблемы информатизации», публ. с 01
130
по 31 января 2011г. (проводится в дистанционном режиме). - Режим доступа: http://www.sbook.ru
40. Кроль, Т. Я. Схема наполнения электронного архива документами / Т. Я. Кроль, М. А. Харин, П. В. Евдокимов // Мат-лы I междунар. конф. «Автоматизация управления и интеллектуальные системы и среды». Терскол, 20-27 дек. 2010 г. Т. IV,- Нальчик, 2010. - С. 53 - 56.
41. Кроль, Т. Я. Использование последовательностей при занесении документов в электронный архив [Электронный ресурс] / Т. Я. Кроль, М. А. Харин //. Материалы конф. «Спецпроект: анализ научных исследований», 30-31.05.201 1г. - Режим доступа: http://www.confcontact.com/201 10531/tn8_krol.htm
42. Кроль, Т. Я. Расширение модели документа электронного архива с целью извлечения и использования накопленных знаний [Электронный ресурс] / Т. Я. Кроль, М. А. Харин // Материалы конф. «Наука в информационном пространстве - 2011», 29-30.09.2011г. - Режим доступа: http://www.confcontact.com/20110929/tn_hrol.htm
43. Лебедев, А. Словарь русского языка для ispell [Электронный ресурс] / А. Лебедев. - Режим досгупа: http://sconl55.phys.msu.su/~swaiVorthography.html, свободный.
44. Норенков, И. П. Задачи управления знаниями, извлекаемыми из текстовых документов [Электронный ресурс] / И. Г1. Норенков // Наука и образование. - 2011. - №9. - Режим доступа: http://technomag.edu.ru/doc/206187.html, свободный.
45. Норенков, И. П. Основы автоматизированного проектирования: учебник для вузов / И. П. Норенков. - 2-е изд., перераб. и доп. - М.: Изд-во МГТУ им. Н. Э. Баумана, 2002. - 336 с.
46. Норенков, И. П. Подходы к проектированию автоматизированных систем / И. П. Норенков // Наука и образование. - 2005. - №6. - С. 20 - 32.
47. Паклин, H. Нечёткая логика - математические основы [Электронный ресурс] / Н. Паклин. - Режим доступа: http://www.basegroup.ru/library/analysis/fuzzylogic/math/, свободный.
48. Радионова, Ю. А. Хранение истории изменения данных в архивах технической документации / Ю. А. Радионова // Научно-технический журнал «Автоматизация процессов управления». - Ульяновск: типогр. ФНПЦ ОАО «НПО «МАРС»,2010. - № 1(19).-С. 82 - 88.
49. Инструментальный комплекс АТ-ТЕХНОЛОГИЯ для поддержки разработки интегрированных экспертных систем / Г. В Рыбина [ и др. J // Научная сессия МИФИ-2002: сб. науч. тр. В 14 т. Т. 10. - М.: МИФИ, 2002.
50. Рындин, А. Ввод сканированных документов в электронный архив предприятия [Электронный ресурс] / А. Рындин. - Режим доступа: http://sapr.ru/article.aspx7icN7302
51. Сальников, А. Н. Разработка инструментальных средств контроля за коммуникационной средой вычислительных кластеров с большим числом процессорных элементов / А. Н. Сальников, Д. Ю. Андреев // Труды V междунар. конф. «Параллельные вычисления и задачи управления», РАСО'2010. - М.: Учреждение Рос. академии наук Ин-т проблем управления им. В.А. Трапезникова РАН, 2010г. - С. 187-208.
52. Старостин, Е. В. Зарубежное архивоведение / Е. В. Старостин. - М.: ИАИ РГГУ, 1997.-330 с.
53. Твердохлеб, Н.Г. Безбумажная технология в управлении производством / Н.Г. Твердохлеб. - М.: Финансы и статистика, 1991. - 188 с.
54. Тихонов, В. И. Информационные технологии в сохранении и описании цифровых аудиовизуальных документов [Электронный ресурс] / В. И Тихонов. - Режим доступа: http://www.aiteh.ru/index.php7pageHnfonnatsionnye-tehnologii-v-sohranenii-i-opisanii-tsifrovyh-audiovizualnyh-dokumentov, свободный.
55. Уоссермен, Ф. Нейрокомпьютерная техника: Теория и практика / Ф. Уоссермен. - М.: Мир, 1992. - 240 с.
56. Фалибога, С. Механизмы территориально распределённого проектирования / С. Фалибога // CAD/CAM/CAEObserver. - 2011. -№8 (68).-С. 62 -63.
57. Харин, М. А. Обзор средств автоматизированного извлечения знаний и их применение в электронных архивах документов / М. А. Харин // Молодой учёный. — 2010. — №5,Т.1, — С. 106- 108.
58. Харин, М. А. Электронные архивы документов и средства автоматизированного извлечения знаний / М. А. Харин // Информационные технологии моделирования и управления. - 2010. - № 2. - С. 242 - 246.
59. Царьков, С. Нечёткие деревья решений [Электронный ресурс] / С. Царьков. - Режим доступа: http://www.basegroup.ru/library/analysis/fuzzylogic/fuzzy_ dtrees/
60. Цветков, А. М. Разработка алгоритмов индуктивного вывода с использованием деревьев решений / А. М. Цветков // Кибернетика и системный анализ. - 1993. - № 1. - С. 174 - 178.
61. Шабанов, В. И. Метод классификации текстовых документов, основанный на полнотекстовом поиске / В. И. Шабанов, А. М. Андреев // Труды РОМИП'2003,- СПб.: НИИ Химии СПбГУ, 2003. - С. 52 - 71.
62. Шведенко В. Н. Модели бизнес-процессов в объектно-функциональной системе управления предприятием: Автореф. дисс. док. техн. наук: Кострома, 2006. 32 с.
63. Штовба, С.Д. Введение в теорию нечётких множеств и нечёткую логику / С. Д. Штовба. - Винница: Континент-Прим, 2003. - 198 с.
64. Щавелёв, JI. В. Способы аналитической обработки данных для поддержки принятия решений / J1. В. Щавелёв // СУБД. - 1998. - № 4-5.
65.Ярушкина, Н. Г. Основы теории нечётких и гибридных систем / Н. Г. Ярушкина. - М.: Финансы и статистика, 2004. - 320 с.
66. Aha, D. W. An Implementation and Experiment with the Nested Generalized Exemplars Algorithm (Technical Report AIC-95-003) / D.W. Aha. -Washington, DC: Naval Research Laboratory, Navy Center for Applied Research in Artificial Intelligence, 1995.
67. Aha, D. W. Learning to Catch: Applying Nearest Neighbor Algorithms to Dynamic Control Tasks / D.W. Aha, S.L. Salzverg // In P. Cheeseman & R. W. Oldford (Eds.) Selecting Models from Data: Artificial Intelligence and Statistics. -New York, NY: Springer-Verlag, 1993.
68. Brand, E., Gerritsen R. Naive-Bayes and Nearest Neighbor / E. Brand, R. Gerritsen // DBMS. - 1998. - №7.
69. Brand, E. Decision Trees / E. Brand, R. Gerritsen // DBMS. - 1998. -№ 7.
70. Fausett, L. V. Fundamentals of Neural Networks: Architectures, Algorithms, and Applications / L.V. Fausett. - Englewood Cliffs, New Jersey: Prentice Hall, 1994. - 461 p.
71. Fuernkranz, J. Separate-and-Conquer Rule Learning / J. Fuernkranz. -Vienna: Austrian Research Institute for Artificial Intelligence, Technical Report OEFAI-TR-96-25, 1996.
72. Heckerman, D. Bayesian Networks for Data Mining / D.FIeckerman // Data Mining and Knowledge Discovery. - 1997. - № 1. - P. 79 - 119.
73. Integrated computer-aided manufacturing (ICAM): Information modeling manual, IDEF1 — Extended (IDEF1X). - Albany, New York: GEC, 1985.
74. Jain, A. Data Clustering: A review / A. Jain, M. Murty, P.Flynn // ACM Computing Surveys. - 1999. - Vol. 31, no. 3. - Pp. 264-323.
75. Kramer, S. Structural Regression Trees / S. Kramer. - Vienna: Austrian Research Institute for Artificial Intelligence, Technical Report OEFAI-TR-95-35, 1995.
76. Leon, A. Enterprise Resource Planning / A. Leon. — New Dehli: McGraw-Hill, 2008. — C. 224. — 500 c.
77. MacQueen J. Some methods for classification and analysis of multivariate observations / J. MacQueen. // V Berkeley Symp. on Math. Statistics and Probability, p. 281—297.
78. Michalski, R. S. A theory and methodology of inductive learning / R.S. Michalski // Artificial Intelligence. -1983. - 20(2). - P. 111-162.
79. Michalski, R. S. On the quasi-minimal solution of the covering problem / R.S. Michalski // In Proceedings of the 5th International Symposium on Information Processing (FCIP-69): Vol. A3 (Switching Circuits). - Bled, Yugoslavia, 1969.-P. 125-128.
80. O'Leary, D. L. Enterprise resource planning systems / D.L. O'Leary. — Cambridge University Press, 2000. — 232 c.
81. Oracle Text Application Developer's Guide. - Oracle Corporation, 2003. [Электронный ресурс]. - Режим доступа: http://www.stanford.edu/dept/itss/docs/oracle/1 Og/text. 101 /Ь10729.pdf.
82. Parsaye, К. Rules are Much More than Decision Trees / K. Parsaye // The Journal of Data Warehousing. - 1997. - №1.
83. Quinlan, J. R. Induction of decision trees / J.R. Quinlan // Machine Learning. - 1986. - 1,-P. 81-106.
84. Quinlan, J. R. Generating production rules from decision trees / J.R. Quinlan // In Proceedings of the 10th International Joint Conference on Artificial Intelligence (IJCAI-87). - Morgan Kaufmann, 1987. - P. 304 -307.
85. The EM algorithm // The Elements of Statistical Learning. — New York: Springer, 2001. — P. 236-243.
86. Wettschereck, D. A Review and Empirical Evaluation of Feature Weighting Methods for a Class of Lazy Learning Algorithms / D. Wettschereck, D.W. Aha, T. Mohri // Artificial Intelligence Review. - 11. - P. 273-314.
87. Демонстрационная версия электронного архива «ДокПрофи» [Электронный ресурс]. - Режим доступа: https://archdemo.ecm.ru/, Пользователь: Demo, Пароль: Demo.
88. mnoGoSearch1'11 web search engine software [Электронный ресурс]. -Режим доступа: http: //www. m no go searc h. or g/, свободный.
89. ORM-система NHibernate [Электронный ресурс]. - Режим доступа: http://nhibernate.org/, свободный.
90. Спецификация стандарта MoReq2010 [Электронный ресурс]. - Режим доступа:
http://www.dlmforum.eu/index.php?option=com iotloader&view^categories&cid =40 4e47a2abad7422897e078fd469dd9933<emid=129&lang=en, свободный.
91. Система Босс-Референт [Электронный ресурс]. - Режим доступа: http://www.it.ru, свободный.
92. Система Дело [Электронный ресурс]. - Режим доступа: http://www.eos.ru/, свободный.
93. Система Евфрат [Электронный ресурс]. - Режим доступа: http://www.evfrat.ru/, свободный.
94. Система Docs Fusion [Электронный ресурс]. - Режим доступа: http://connectivity.opentext.com/, свободный.
95. Система Documentum [Электронный ресурс]. - Режим доступа: http://www.emc.com, свободный.
96. Система LanDocs [Электронный ресурс]. - Режим доступа: http://landocs.ru/, свободный.
97. Система Microsoft Sharepoint [Электронный ресурс]. - Режим доступа: http://office.microsoft.com/ru-ru/sharepoint/, свободный.
98. Система нормативов NormaCS [Электронный ресурс]. - Режим доступа: http://normacs.ru/desc.jsp, свободный.
99. Система Optima Workflow [Электронный ресурс]. - Режим доступа: http://optima-workflow.ru/, свободный.
100. Система SmartPlant® Foundation [Электронный ресурс]. - Режим доступа:
http://www.intergraph.com/products/ppm/smartplant/foundation/default.aspx, свободный.
101. Система TDMS [Электронный ресурс]. - Режим доступа: http://www.tdms.ru/, свободный.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.