Разработка и исследование методики проектирования базы метаданных хранилища геоданных тема диссертации и автореферата по ВАК РФ 25.00.35, кандидат наук Зайцев Владислав Вячеславович
- Специальность ВАК РФ25.00.35
- Количество страниц 131
Оглавление диссертации кандидат наук Зайцев Владислав Вячеславович
ОГЛАВЛЕНИЕ
Введение
1. Обзор исследований проводимых в области хранилищ геоданных и стандартизации метаданных в геоинформатике
1.1. Обзор исследований проводимых в области хранилищ геоданных
1.2. Стандартизация метаданных в геоинформатике
2. Состав базы метаданных хранилища геоданных
3. Разработка и исследование методики проектирования базы метаданных хранилища геоданных 81 Заключение 107 Список сокращений и условных обозначений 111 Список литературы 114 Список иллюстрированного материала
Рекомендованный список диссертаций по специальности «Геоинформатика», 25.00.35 шифр ВАК
Управление метаданными в гетерогенных информационно-аналитических системах масштаба предприятия2005 год, кандидат технических наук Шовкун, Алексей Владимирович
Методы снижения сетевой нагрузки в OLAP системах2005 год, кандидат технических наук Дорожкин, Антон Константинович
Разработка алгоритмического и программного обеспечения для проектирования и поддержки регионального банка цифровой геологической информации2000 год, кандидат технических наук Уваров, Владислав Вадимович
Математическое и программное обеспечение процесса приближенной обработки запросов в реляционных системах управления базами данных2023 год, кандидат наук Филимонов Алексей Валерьевич
Распределенная информационно-аналитическая система для поддержки исследований в науках о Земле2008 год, кандидат технических наук Шогин, Алексей Николаевич
Введение диссертации (часть автореферата) на тему «Разработка и исследование методики проектирования базы метаданных хранилища геоданных»
Введение
Актуальность темы исследования. Развитие геоинформационных технологий способствует накоплению организациями больших объемов данных, представленных в различных форматах. Накопленные за многие годы и собираемые поныне данные, в том числе и пространственные данные, могут стать объектом исследования с целью нахождения новых знаний.
В последнее время в ходе создания и применения инфраструктуры пространственных данных (далее - ИПД) возрос практический интерес к хранилищам данных и оперативной аналитической обработке данных. В геоинформационных системах (далее - ГИС) данные технологии пока не используются, поскольку ГИС применяют реляционные базы данных, а хранилища данных в основном используют многомерное представление данных1.
Традиционные хранилища данных и инструменты оперативной аналитической обработки поддерживают пространственные данные, но рассматривают их как любые другие данные, не обращая внимания на географический компонент. В этой связи, появилась необходимость в объединении функциональности инструментов оперативной аналитической обработки, хранилищ данных и ГИС.
Таким способом можно создать новые инструменты поддержки принятия решений, лучше приспособленные к пространственно-временному исследованию и анализу данных. Необходимость обеспечения интеграции и совместного использования пространственных данных, полученных из различных источников , при формировании ИПД, заставила обратить внимание на метаданные.
1 Иванников А. Д., Кулагин В.П., Тихонов А.Н., Цветков В.Я.. Прикладная геоинформатика / М.: МАКС Пресс, 2005. - 360 с.
2 Распоряжение Правительства РФ от 21 августа 2006 г. N 1157-р.
Метаданные - данные, которые позволяют описывать содержание, объем, положение в пространстве, качество и другие характеристики пространственных данных и пространственных объектов1.
В свою очередь метаданные в среде хранилища данных применяются не только для каталогизации, учета, статистической обработки и анализа данных2, а так же для описания вычислительной среды, информационной безопасности, возможности планирования и восстановления данных. Поэтому под метаданными в среде хранилища данных следует понимать совокупность спецификаций, отражающих информационную модель, описание структуры данных хранилища и источников, а также описание процессов обработки данных, циркулирующих в среде.
Существующие методики проектирования баз пространственных метаданных основываются на стандартах ГОСТ Р 51353-99 «Геоинформационное картографирование. Метаданные электронных карт» и ГОСТ Р 52573-2006 «Географическая информация. Метаданные» и позволяют создать базу метаданных, содержащую описания только характеристик пространственных данных и пространственных объектов.
В свою очередь методика создания баз метаданных хранилищ данных, основанная на спецификации «Общая метамодель хранилища» не позволяет учесть особенности описания характеристик пространственных данных и пространственных объектов.
В этой связи актуальность диссертационного исследования обусловлена следующим:
- необходимостью интеграции несопоставимых и нескоординированных между собой пространственных данных в ходе создания ИПД;
- неспособностью метаданных в составе ИПД описывать как характеристики пространственных данных и пространственных объектов, так и процессы их обработки в среде хранилища данных;
1 Там же.
2 ГОСТ Р 52573-2006 «Географическая информация. Метаданные»
- ограниченными возможностями существующих методик проектирования баз метаданных хранилища геоданных.
Степень разработанности темы. Исследования в области создания методики проектирования баз (каталогов) метаданных проводились в МИИГАиК.
Например, исследование Краснобородько А.В. «Исследование и разработка структур баз геоданных информационно-телекоммуникационных систем» посвящено созданию иерархического каталога метаданных, представляющего основную конструкцию для манипуляции с геоданными в информационно-телекоммуникационной системе. Иерархичность метаданных может выстраиваться по масштабу или охвату территорий.1
В ходе создания каталога метаданных автор использует как основу международный стандарт (профиль) ISO 19115 «Географическая информация. Метаданные». Создаваемый автором перечень метаданных позволяет четко определить объект геоданных и произвести к нему непосредственное обращение2, но не позволяет описывать происходящие с геоданными преобразования.
Для реализации цели, поставленной в работе Зраенко Ю.Д. «Разработка технологии организации пространственных данных в региональном узле Российской инфраструктуры пространственных данных», одной из поставленных задач является разработка состава объектных метаданных и уровней их организации.
Если в основу структуры метаданных единиц хранения подсистемы «Архивная база данных» положен ГОСТ Р 52573-2006 «Географическая информация. Метаданные» как национальный профиль международного стандарта ISO 19115:2003 «Geographic information — Metadata» , то в подсистеме «Хранилище» объектные метаданные генерируются на основе метафайлов, получаемых из «Архивной базы данных».
1 Краснобородько А.В. «Исследование и разработка структур баз геоданных информационно-телекоммуникационных систем»
2 Там же.
3 Зраенко Ю.Д. «Разработка технологии организации пространственных данных в региональном узле Российской инфраструктуры пространственных данных».
Далее к подсистеме «Геопортал» подключаются две базы метаданных: метаданные пространственных объектов и метаданные готовой продукции.
Учитывая, что подготовка выходной продукции выполняется в среде ГИС, отсутствует необходимость в метаданных, описывающих процессы, происходящие с пространственными данными в подсистеме «Хранилище».
В работе Ребрия А.В. «Исследование и разработка методологии создания базы пространственных данных» была разработана логическая структура базы метаданных, отвечающая требованиям стандарта ГОСТ Р 52573-2006 «Географическая информация. Метаданные», совместимая со стандартом ISO 19115 «Географическая информация. Метаданные» и позволяющая перейти к физическому проектированию базы метаданных на любой программной платформе1.
В данной работе автор наиболее полно разработал методику и алгоритмы формирования и ведения базы метаданных геоинформационных продуктов, в которых не применяются метаданные, описывающие процессы трансформации пространственных данных.
Целью диссертационной работы является разработка и исследование методики проектирования базы метаданных хранилища геоданных (далее - БМД ХГД), входящего в состав информационных ресурсов для создания и применения ИПД. Разрабатываемая методика проектирования отличается от существующих методик возможностью создания метаданных, описывающих пространственные данные, а также процессы их преобразования в ходе анализа.
Проектирование базы данных/метаданных подразумевает прохождение трех этапов: концептуального, логического и физического проектирования, результатом каждого из которых будет создание концептуальной, логической и физической модели, соответственно.
Под проектированием в диссертационной работе имеется в виду концептуальное проектирование, так как оно позволяет создать концептуальную модель предметной области без ориентации на конкретную систему управления
1 Ребрий А.В. «Исследование и разработка методологии создания базы пространственных данных».
базой данных (далее - СУБД) и модель данных. К тому же существующие средства автоматизированного проектирования и создания программ позволяют из концептуальной модели генерировать одну или несколько логических и (или) физических моделей, в зависимости от требуемого уровня представления и подходов к моделированию данных1.
Для достижения поставленной цели в работе были сформулированы и решены следующие основные задачи:
- Проведен сравнительный обзор исследований в области ХГД и БМД.
- Сформирован базовый набор метаданных, необходимых для создания БМД ХГД.
- Описан алгоритм применения базового набора метаданных на этапах развертывания ХГД.
- Разработана общая концептуальная модель БМД ХГД в виде диаграммы классов иМЬ.
- Проведен сравнительный анализ разработанной методики с существующими методиками проектирования.
Решение перечисленных задач позволило разработать методику проектирования базы метаданных хранилища геоданных.
Методология и методы исследования. Используемые методы исследования включают в себя сравнительный анализ и моделирование. В ходе исследования был проведен анализ нормативно-технических документов в геоинформатике. Для разработки концептуальной модели предметной области применялся метод объектно-ориентированного моделирования с использованием нотации иМЬ.
Основные результаты, выносимые на защиту:
- разработана и исследована методика проектирования БМД, основанная на сформированном автором наборе метаданных и позволяющая создавать БМД одновременно с развертыванием ХГД;
1 Нартова А. PowerDesigner 15 Моделирование данных / Изд. «Лори». 2012. - 468 с.
- автором сформирован базовый набор метаданных, позволяющий создать БМД, описывающую как характеристики пространственных данных и объектов, так и происходящие в среде хранилища данных процессы;
- на основе базового набора метаданных разработана общая концептуальная модель БМД, позволяющая путем преобразования в логическую и далее в физическую модель создавать БМД на основе выбранной СУБД и модели данных.
Научная новизна диссертационной работы. Основные результаты диссертационной работы, представляющие научную новизну, заключаются в следующем:
- Впервые сформирован набор метаданных для проектирования БМД ХГД, не только организующий доступ к пространственным данным, но и описывающий процессы, происходящие с ними при использовании.
- Приведен алгоритм проектирования БМД ХГД, отличающийся от других способов проектирования применяемым набором метаданных и использованием одновременно с построением самого хранилища геоданных.
- На основе приведенного набора метаданных впервые была разработана общая концептуальная модель.
Практическая значимость результатов исследования заключается в возможности применения разработанной методики проектирования, набора метаданных и общей концептуальной модели в ходе создания БМД ХГД в составе информационных ресурсов, содержащих пространственные данные и образующих основу для создания и применения ИПД.
Результаты диссертационного исследования используются в учебном процессе в МИИГАиК по дисциплинам: «Информационные технологии» и «Архитектура информационных систем».
Теоретическая значимость результатов исследования состоит в создании теоретических основ методологии проектирования базы метаданных хранилища геоданных, а также научном обосновании методики применения базового набора метаданных на этапах развертывания хранилища геоданных.
Степень достоверности и апробация результатов диссертационной работы. По теме диссертации был сделан доклад на ежегодной конференции молодых ученных и аспирантов МИИГАиК в 2013 году.
Автор исследования принимал участие в рабочих заседаниях технических комиссий ОАО «Роскартографии» по вопросам, связанным с темой исследования.
Результаты диссертационного исследования были использованы в ходе создания компонента информационной системы ОАО «Уралгеоинформ», а также в ходе создания базы метаданных информационной системы, применяемой для учета единиц хранения результатов работ по созданию геопространственных данных различной точности и детализации ОАО «Сибгеоинформ».
Структура и объем диссертационной работы. Диссертация состоит из введения, первого раздела, содержащего два подраздела, а также второго и третьего разделов, заключения, списка сокращений и условных обозначений, списка литературы и списка иллюстративного материала. Работа изложена на 131 странице, включает 14 рисунков и 11 таблиц. Список используемой литературы включает 161 наименование.
1. Обзор исследований проводимых в области хранилищ геоданных и стандартизации метаданных в геоинформатике
1.1. Обзор исследований проводимых в области хранилищ геоданных
В целях сбора, хранения, обработки, отображения и распространения географических данных, а также получения на их основе новой информации и знаний, в настоящее время применяются геоинформационные системы1. Географические данные - это пространственные данные, для которых базовой системой координат является земная поверхность. В ГИС кроме пространственных данных используется связанная с ними информация о необходимых объектах, так называемые (непространственные) атрибутивные данные.
Как правило, функции сбора и хранения данных в ГИС переданы базе данных. Иногда этап сбора данных сводится к технологии их ввода в базу данных ГИС. База данных (далее - БД) - совокупность данных организованных по определенным правилам, устанавливающим общие принципы описания, хранения и манипулирования данными, независимая от прикладных программ2. Создание БД и обращение к ней осуществляется с помощью системы управления базами данных.
Исторически сложилось два направления взаимодействия ГИС и СУБД: гибридные и интегрированные СУБД. Согласно Майклу Н. ДеМерсу это разделение связано в основном со способом хранения (совместно или раздельно) пространственных и атрибутивных данных.
1 Капралов Е.Г., Кошкарев А.В., Тикунов В.С. и др. Основы геоинформатики: В 2 кн. Кн. 1: Учеб. пособие для студ. вузов / Под ред. Тикунова В.С. / М.: Издательский центр «Академия», 2004.
2 ГОСТ 20886-85 Организация данных в системах обработки данных. Термины и определения.
3 ДеМерс, Майкл Н. Географические информационные системы. Основы / Пер. с англ. Андрианов В. / М.: Дата+, 1999.
В современных ГИС в основном применяется подход, когда и атрибутивные и пространственные данные хранятся и управляются в единой среде СУБД, а также объектный и объектно-реляционный подходы.
Целесообразно также отметить основные свойства, поддерживать которые присуще любой СУБД - это постоянство и транзакции. В СУБД состояние постоянного объекта подвергается частым изменениям, а в ряде случаев желательно иметь доступ к предшествующим состояниям данных. Транзакции переводят базу данных из одного непротиворечивого состояния в другое.1 Поэтому по своему функциональному назначению применяемые в ГИС базы данных являются системами оперативной обработки транзакций (On-Line Transaction Processing - OLTP-системами).
В OLTP-системах за короткое время происходит максимальное количество транзакций, используется фиксированный набор методов ввода, модификации и удаления данных, а также подготовки отчётности. Как правило, OLTP-системы не требуют большой гибкости и их аналитические возможности ограничены.
В этой связи возникла необходимость в разработке систем управления пространственными базами данных (далее - СУПБД). В то время как традиционные БД могут хранить и обрабатывать числовую и символьную информацию, пространственные базы данных (далее - ПБД) обладают расширенной функциональностью, позволяющей хранить целостный пространственный объект, объединяющий атрибутивные и пространственные данные.2
ПБД позволяют выполнять аналитические запросы, содержащие пространственные операторы для анализа пространственно-логических отношений объектов (пересекается, касается, содержится в, содержит, находится на расстоянии X от, совпадает и пр.).3
1 Иванников А. Д., Кулагин В.П., Тихонов А.Н., Цветков В.Я.. Прикладная геоинформатика / М.: МАКС Пресс, 2005. - 360 с.
2 Шаши Ш., Санжей Ч. Основы пространственных баз данных / М.: Кудиц-образ, 2004. - 34 с.
3 Там же, с. 35.
Например, ГИС поддерживает большой набор операций над несколькими объектами и слоями, в то время как СУПБД обеспечивает более простые операции над совокупностями объектов и множествами слоев1. Для этих целей Open Geospatial Consortium Inc. (далее - консорциум OpenGIS), установил стандарты на дополнительную функциональность СУПБД.
Со временем стало понятно, что сбор данных это не главная цель. Появилась необходимость в создании информационных системах, позволяющих проводить глубокую аналитическую обработку данных. Например, поиск скрытых структур и закономерностей в массивах данных, вывод из них правил, которым подчиняется данная предметная область, стратегическое и оперативное планирование, формирование нерегламентированных запросов, принятие решений и прогнозирование их последствий2.
Появился новый класс информационных систем (далее - ИС) - систем поддержки принятия решений (далее - СППР), ориентированных на аналитическую обработку данных с целью получения знаний, необходимых для разработки решений в области управления . Требования к СППР и OLTP-системам существенно разняться, в основном по следующим причинам: уровень детализации данных, формат хранения данных, требования к качеству хранящихся данных, возможность редактирования существующих данных, временной период хранения собранных данных, периодичность обновления данных, а также характер выполняемых к данным запросов. Поэтому в СППР применяются специализированные базы данных - хранилища данных (далее -ХД).
Концепция ХД, так или иначе, обсуждалась специалистами в области информационных систем достаточно давно. Первые статьи, посвященные именно ХД, появились в 1988 году, их авторами были Б. Девлин и П. Мерфи. В 1992 году
1 Шаши Ш., Санжей Ч. Основы пространственных баз данных / М.: Кудиц-образ, 2004. - 36 с.
2
Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. - С. 67.
3 Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. - С. 68.
Б. Инмон подробно описал эту концепцию в своей монографии «Построение хранилища данных»1.
Согласно определению Б. Инмона, «хранилище данных - это предметно ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений»2.
Все существующие архитектуры ХД (реляционные, многомерные, гибридные или виртуальные) основаны на технологии оперативной аналитической обработки (On-Line Analytical Processing, OLAP). Эта технология представляет собой методику оперативного извлечения нужной информации из больших массивов данных и формирования соответствующих отчетов3.
Приведем примеры существующих архитектур ХД:
- ROLAP - Relational OLAP. Эти ХД используют реляционную модель, что позволяет хранить данные в реляционных таблицах, образующих структуры (схемы «звезда», «снежинка» или «созвездие»), создающие видимость многомерного представления данных.
- MOLAP - Multidimensional OLAP. В ХД этой архитектуры многомерное представление данных реализовано на физическом уровне в виде многомерных кубов данных.
- HOLAP - Hybrid OLAP. Гибридные ХД объединяют в себе свойства двух предыдущих архитектур. В эти ХД детализированные данные хранят в реляционных таблицах, а агрегированные данные - в многомерных кубах данных.
В виртуальных хранилищах данных (далее - ВХД) работа ведется с различными источниками, данные из которых собираются во время выполнения запроса без их слияния в едином формате.
Понятие «многомерная модель данных» опирается на концепцию «многомерный куб данных» (OLAP-куб, гиперкуб), представляющую собой
1 Барсигян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / 2-е издание, переработанное и дополненное / СПб.: БХВ-Петербург, 2007. - 384 с.
2 Там же, с. 384.
3 Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. - С. 77.
упорядоченные многомерные массивы данных. В основе этой концепции лежит разделение данных на две группы - измерения и факты. Причем в случае создания ХД на основе реляционных таблиц, данные заносятся в таблицы двух типов: таблица фактов и таблица измерений. А в случае создания ХД в виде многомерных кубов данных используются следующие понятия: показатель, ячейка, измерение, а также член измерения. В свою очередь ключевыми понятиями при построении ОЬАР-кубов являются: размерность, иерархия, уровень, член и мера.
Но ПБД создавалась для обработки регулярных транзакционных запросов к необобщенным данным без хронологической привязки, поэтому применение к ПБД запросов сформированных с целью поддержки принятия решений очень затруднительно.
В этой связи получила развитие идея создания ХГД, являющегося объединением традиционного ХД и ПБД. ХГД основывается на понятии ХД и дополнительно поддерживает хранение, индексацию, агрегирование и анализ пространственных данных1.
Например, в ГИС обобщение данных происходит двумя способами группировки: объединение объектов по равенству значений определенного атрибута или объектов одной темы в соответствии с их размещением внутри полигональных объектов другой темы2. Также существуют специализированные -исторические ГИС, в которых применяются исторические пространственные данные.
ХГД активно исследовались в прошлом десятилетии. Выделив основные различия пространственного и традиционного ХД, исследователи сконцентрировали на них свою работу. В таблице 1.1 приведены основные темы исследований, разделенные на категории и подкатегории.
1 MacEachren A. M., Kraak M.-J. Research challenges in geovisualization. Cartography and Geographic Information Science. - 2001.
2 Капралов Е.Г., Кошкарев А.В., Тикунов В.С. и др. Основы геоинформатики: В 2 кн. Кн. 2: Учеб. пособие для студ. вузов / Под ред. Тикунова В.С. / М.: Издательский центр «Академия», 2004.
Таблица 1.1. Основные направления исследований в области ХГД
Общая тема исследования Категория Подкатегория
Концептуальные модели Пространственная многомерная модель данных
Необходимые условия для концептуальной модели
Перенос концептуальной модели в физическую схему
Пространственно-временная модель
Хранение и создание запросов Индексация Материализованная индексация
Пространственно-временная индексация
ЙБТ индексация
Выборочная материализация Объектно-ориентированная индексация
Агрегирование Основные концепции и вопросы Предварительное агрегирование
Модель геометрического агрегирования
Операторы агрегирования
БОЬЛР Основные концепции
БОЬЛР инструменты
Контрольная точка
Расширение ОЬЛР-кубов
Пространственно-временное хранилище данных Основные концепции и вопросы
Хранилище данных о траектории
Исследования в области создания концептуальной модели ХГД.
Концептуальная модель ХГД представляет собой описание основных сущностей и отношений между ними, и является отражением предметной области, планируемого ХГД.
Существующие концептуальные модели ПБД, не подходят для использования их при проектировании ХГД, так как в них отсутствуют такие понятия, как «иерархия», «агрегат», «измерение» и «факт».
Все исследования в данной области были направлены на формулирование общих требований к концептуальной модели, создание пространственной многомерной и пространственно-временной моделей, а также на перенос концептуальной модели в физическую модель.
В ходе исследований было предложено несколько вариантов многомерной модели ХГД. Например, С. Бимонте и М. Микуэль в своем докладе «В отношении пространственной многомерной модели»1 предлагают многомерную модель, где измерения и факты представляют собой сложные объекты. Эта модель использует такие понятия как «экземпляр сущности» и «схема сущности» для определения -куба данных, иерархий и агрегатов.
Е. Малиновски и Е. Зимани в своих работах «Представление пространственности в концептуальной многомерной модели»2 и «Пространственные иерархии и топологические связи в пространственной MultiDimER модели» предлагают концептуальную многомерную модель -MultiDimER. Эта модель вводит следующие понятия: «пространственный уровень», «пространственная иерархия», «пространственное измерение», «пространственный факт» и «пространственный факт отношения». С помощью этих понятий авторы представляют реальный мир в виде модели иерархий.
Рассмотрим эти фундаментальные понятия многомерной модели MultiDimER:
- Пространственный уровень - уровень, где сохранены пространственные характеристики. Между различными пространственными уровнями существуют топологические отношения.
- Пространственная иерархия - иерархия, которая состоит хотя бы из одного пространственного уровня.
- Пространственное измерение - измерение, у которого есть, по крайней мере, одна пространственная иерархия.
Пространственные измерения имеют три типа иерархий:
• Непространственная иерархия.
• Пространственная иерархия к непространственной иерархии.
• Пространственная иерархия.
1Bimonte S., Miquel M. Towards a spatial multidimensional model.
2Malinowski E., Zimanyi E. Representing spatiality in a conceptual multidimensional model.
3Malinowski E., Zimanyi E. Spatial Hierarchies and Topological Relationships in the Spatial MultiDimER model.
- Пространственный факт - любое численное значение измерения, вычисленное с помощью топологических операторов или геометрии, которое может быть агрегировано по иерархиям.
- Пространственный факт отношения - это факт отношения, который требует пространственного соединения между двумя или более пространственными измерениями.
Эти же авторы в своей статье «Реализация иерархий пространственного хранилища данных в объектно-реляционных СУБД»1 описывают перенос концептуальной модели MultiDimER в физическую модель. В статье рассматриваются проблемы, возникающие при реализации схем созданных с помощью концептуальных моделей. Пространственный уровень, определенный в модели MultiDimER, является таблицей в базе данных, а отношения между уровнями соответствуют отношениям между таблицами.
Похожие диссертационные работы по специальности «Геоинформатика», 25.00.35 шифр ВАК
Модель многомерного представления данных и методы ее анализа2010 год, кандидат физико-математических наук Висков, Алексей Валерьевич
Способ и устройство для множественной подборки текстовых данных в хранилищах на основе продукционного подхода2017 год, кандидат наук Гришин Дмитрий Сергеевич
Транзакционные информационные системы на основе документно-терминологической модели данных2005 год, кандидат технических наук Биряльцев, Евгений Васильевич
Разработка и исследование методов построения защищенных корпоративных аналитических систем2006 год, кандидат технических наук Тульский, Сергей Александрович
Модели и алгоритмы организации темпорального хранилища данных: на примере телекоммуникационной компании2006 год, кандидат технических наук Спандерашвили, Дмитрий Викторович
Список литературы диссертационного исследования кандидат наук Зайцев Владислав Вячеславович, 2015 год
Источники данных
ГИС
Средства и технологии дистанционного зондирования
Карты (географические, тематические, специальные и т. п.)
Базы данных
Интернет
Извлечение преобразование загрузка
Хранилище данных
Система ИПЗ
Нормативно-справочная информация
База метаданных
Единое хранилище данных
Зона временного хранения
Выгрузка реструктуризация доставка
Система ВРД
Представление данных
Территориальные витрины данных
Тематические витрины данных
Организационные витрины данных
Прикладные витрины данных
Функциональные витрины данных
Прикладные задачи
Сценарные расчеты
Статистический анализ
Многомерный анализ
Средства планирования и подготовки отчетности
Рисунок 2.1. Шестиуровневая архитектурная концепция информационного хранилища данных
На этом уровне также расположены средства анализа данных, которые можно разделить на две основные категории:
- средства OLAP;
- средства Data Mining и Knowledge Discovery in Databases (DM и KDD).
Дополнительно в состав уровня могут быть включены средства генерации
запросов и отчетов (Query and Reporting, Q&R). Также на этом уровне может находиться (либо быть выделены в отдельный уровень) система подготовки публикаций.
Приведенная архитектурная концепция может быть положена в основу архитектурной модели предприятия при разработке аналитической системы с БД. Между компонентами описанной архитектурной концепции происходит постоянный обмен данными. В среде ХГД существует две общие категории движения данных (информационные потоки):
- входной поток - загрузка данных в ХД;
- выходной поток - доступ к данным для анализа и представления из ХД. В свою очередь входной поток может быть потоком обновления или потоком добавления данных.
Одновременно в самом ХД происходит четыре категории движения данных (информационные потоки):
- поток обобщения данных - образуется путем агрегирования детальных данных и их хранения в ХД;
- архивный поток - происходит вследствие переноса детальных данных в архив, в случае сокращения количества обращений к ним;
- поток метаданных - получается в результате переноса информации о данных из источников в БМД.
- внутренний поток - происходящие взаимодействия между НСИ, БМД и базами данных, хранящими детальные, агрегированные или архивные данные.
Все приведенные информационные потоки целесообразно учитывать при создании схема движения информации. Пример этой схемы приведенной на рисунке 2.2.
Дополнительная обработка
Таблица исключений
1 п
ИСТОЧНИКИ ДАННЫХ
Данные
ПРОМЕЖУТОЧНАЯ ОБЛАСТЬ
Таблица 1
Таблица 2
Таблица 3
Метаданные
4
ХРАНИЛИЩЕ ДАННЫХ
Агрегированные данные
Реструктуризация данных |
|Запрос данных
ПРИКЛАДНЫЕ ЗАДЧИ
Рисунок 2.2. Схема движения информации в среде хранилища данных
Учитывая, что метаданные являются структурированными данными, а так же в целях их систематизации в БМД применим следующие понятия:
- элемент метаданных - дискретная единица метаданных1;
- сущность метаданных - набор элементов метаданных, описывающих один и тот же аспект данных, а из одной или более сущностей, связанных отношениями обобщения или агрегирования состоит пакет метаданных2.
Основываясь на архитектурной концепции информационного ХД и общей категории движения данных в нем, а также на приведенном перечне функций метаданных, определим базовый набор метаданных.
1. Пакет метаданных «Информация о предметной области».
Требования к составу этого пакета формируются исходя из основной функции метаданных - интерпретации данных предметной области в терминах понятных пользователям. Предметной областью геоинформатики являются пространственные объекты, их свойства и характеристики.
Термины, используемые в среде ХГД, должны соответствовать общепризнанной, упорядоченной и стандартизированной геоинформационной лексике, которая, в свою очередь, может быть поделена на группы: геоинформатика, картография, геодезия и системы спутникового позиционирования, дистанционное зондирование и аэрокосмические методы, цифровая обработка изображений, общая информатика и вычислительная техника.
Поэтому в части сбора требований к составу этого пакета метаданных можно воспользоваться стандартами регламентирующими термины и определения в области геоинформатики и ее окружении, такими как:
- ГОСТ Р 51606-2000 «Карты цифровые топографические. Система классификации и кодирования цифровой картографической информации. Общие требования»;
1 ГОСТ Р 52573-2006 Географическая информация. Метаданные.
2 Там же.
- ГОСТ Р 51607-2000 «Карты цифровые топографические. Правила цифрового описания картографической информации. Общие требования»;
- ГОСТ Р 52438-2005 «ГИС. Термины и определения»;
- ГОСТ Р 52439-2005 «Модели местности цифровые. Каталог объектов местности. Требования к составу»;
Стандарт ГОСТ Р 52438-2005 устанавливает основные термины и определения понятий в области геоинформационных систем и применяется совместно с ГОСТ Р 21667-76 «Картография. Термины и определения» и ГОСТ Р 28441-99 «Картография цифровая. Термины и определения».
Всю терминологию, применяемую в среде ХГД, следует согласовывать с этими стандартами, так как метаданные должны поддерживать в запросах понятную для пользователя терминологию, независимо от того, какие правила наименования атрибутов были использованы проектировщиком ХГД.
Следующий стандарт ГОСТ Р 52439-2005 устанавливает перечень объектов местности и их свойств, подлежащих описанию в цифровых моделях местности.1 Этот стандарт можно использовать для формирования классификатора пространственных объектов ХГД входящий в состав НСИ.
Сбор и анализ сведений о предметной области всей ИС происходит параллельно с формированием НСИ и описанием элементов метаданных этого пакета. Другими словами, можно сказать, что целесообразно постоянно согласовывать между собой НСИ, концептуальную модель предметной области ХГД и метаданные пакета «Информация о предметной области».
Так как предметная область ИС не ограничивается только описанием пространственных объектов (объектов материального мира), следует дополнительно описывать информационные объекты, процессы и функции, проходящие в ХГД, а также правила (исключения), по которым происходит взаимодействие между объектами. Эти описания позволят организовать эффективный анализ данных в ХГД.
1 ГОСТ Р 52439-2005 Модели местности цифровые. Каталог объектов местности.
Дополнительно для точного определения местонахождения описываемых предметной областью данных в этот пакет метаданных целесообразно включить сведения об архитектуре среды ХГД. Элементы метаданных описывающие архитектуру среды ХГД содержат сведения о местоположении серверов, рабочих станций и источников данных, описывают размещенных на них программных средств и распределения между ними данных.
2. Пакет метаданных «Информация об источниках данных».
Этот пакет содержит метаданные, описывающие источники данных. Для сбора требований к составу этого пакета следует определить источники данных для ХГД - основу его информационного обеспечения.
В геоинформатике могут быть использованы данные, получаемые в различных технологиях:
- в полевых условиях геодезическими (полевыми) методами;
- с помощью систем глобального позиционирования GPS, ГЛОНАСС;
- посредством средств и технологий дистанционного зондирования: фотограмметрических методов (наземные и аэрокосмические снимки), телевизионной видеосъемки, радиометрических методов когерентного оптического зондирования;
- с карт (географических, тематических, специальных и т.п.);
- по сети Internet;
- из баз данных или из архивов;
- из других ГИС;
- с помощью средств мультимедиа1.
Источники данных (далее - ИД) оперируют различными упорядоченными наборами пространственных данных, среди которых различают картографические, статистические и аэрокосмические материалы. Помимо указанных материалов реже используются данные специально проводимых полевых исследований и съемок, а также статистические (текстовые) источники,
1 Савиных В.П., Цветков В.Я. Геоинформационный анализ данных дистанционного зондирования / М.: Картоцентр-Геодезиздат, 2001. - 23 с.
что позволяет охарактеризовать их лишь в самом общем виде1. В это связи пространственные данные в ИД можно разделить на три основных класса: карты, аналитические данные и данные дистанционного зондирования Земли.
Пространственные данные - информация о пространственных объектах. Под пространственным объектом понимается отнесенная к одному из классов информационная единица (цифровая модель), содержащая координатные данные (позиционирование), определенный набор свойств (атрибутику) и уникальный идентификатор. Это может быть неподвижный или подвижный, простой или сложный объект, явление, событие, процесс или ситуация.
Любой предмет или явление может быть описано в пространстве координатами (географическое множество) и (или) набором характеристик (атрибутивное множество).
Каждый вид представления данных имеет свои правила хранения, отображения и обработки образов объектов. Согласно ГОСТ Р 52438-2005 «модель пространственных данных - набор пространственных объектов и межобъектных связей, сформированных с учетом общих для этих объектов правил цифрового описания».
При оценке и анализе различных типов ИД, являющихся основой информационного обеспечения ХГД, следует учитывать их общие свойства, описываемые пространственными метаданными.
Практика внедрения ХД показала, что метаданные, созданные и импортированные из различных источников, фактически управляют всем процессом сбора данных. Многие источники содержат в себе элементы метаданных, но практически никогда не несут их полный набор2.
1 Капралов Е.Г., Кошкарев А.В., Тикунов В.С. и др. Основы геоинформатики: В 2 кн. Кн. 2: студ. вузов / Под ред. Тикунова В.С. / М.: Издательский центр «Академия», 2004.
2 Асадуллаев C. Фирменные архитектуры хранилищ данных // PC Week. - 1998. - № 32-33.
: Учеб. пособие для - С. 156-157.
ФОРМА ПРЕДСТАВЛЕНИЯ ДАННЫХ В ХРАНИЛИЩЕ ДАННЫХ
ИНФОРМАЦИОННЫЕ МОДЕЛ ДАННЫХ
ФОРМА ПРЕДСТАВЛЕНИЯ ДАННЫХ В ИД
Объектно-ориентированные таблицы
Многомерные таблицы
Реляционные таблицы
ХМ1_
Материалы, размещенные в сети Интернет
Материалы, полученные из архивов и баз данных
Рисунок 2.3. Источники пространственных данных для хранилища геоданных
В этой связи при извлечении данных из ИД применяется одновременный перенос метаданных из этих источников (например, в формате ХМЬ-файла). Как отмечалось выше метаданные пространственных данных используемые в ИД формируются на основе ГОСТ Р 52573-2006 «Географическая информация. Метаданные», поэтому приблизительный состав переносимых метаданных должен соответствовать базовому набору метаданных, определенному в этом стандарте.
В случае если источником пространственных данных является электронная карта, то ее метаданные должны соответствовать ГОСТ Р 51353-99 «Геоинформационное картографирование. Метаданные электронных карт». Настоящий стандарт устанавливает требования к составу и содержанию метаданных геодезической, гравиметрической, фотограмметрической и картографической информации, которую используют при создании (обновлении) и применении электронных карт1.
Анализ ИД позволяет не только наполнить пакет метаданных «Информация об источниках данных» информацией об их структуре и семантике, но также собрать сведения для организации интегрированной модели данных ХГД и создания схем переноса данных из источников данных.
3. Пакет метаданных «Информация о хранилище данных».
Пакет содержит метаданные, описывающие следующие компоненты ХД: единое хранилище данных, зона временного хранения, нормативно-справочная информация и база метаданных.
Как уже отмечалось в основе единого хранилища данных (ЕХД) находится реляционная база данных, имеющая специальную структуру, или ОЬЛР-куб данных, либо все из перечисленного. В любом случае в них содержится единый массив данных, базовыми единицами хранения которого являются значения свойств пространственных объектов. Это связано с обязательной предметной ориентацией ХД, в нашем случае ориентация на пространственные объекты и
1 ГОСТ Р 51353-99 «Геоинформационное картографирование. Метаданные электронных карт».
явления, а также с необходимостью применения для анализа и хранения многомерной модели данных.
Поэтому для формирования набора метаданных описываемого пакета целесообразно рассмотреть требования к многомерной модели данных ХГД предложенные G. Viswanathan и M. Schneider. Ниже приведены эти требования.
- Визуальное представление модели пользователем должно быть простым и удобным, а также охватывать все размерности данных. Это позволяет облегчить пользователям поиск и анализ данных.
- Модель должна быть эффективной для анализа и не зависима от методов реализации, то есть эффективность анализа не должна зависеть от применяемой схемы.
- В модели должно присутствовать явное разделение структуры и значений, то есть должна быть учтена независимость спецификации от реализации.
- Модель должна поддерживать иерархии по измерениям и фактам данных.
- Модель должна поддерживать составные иерархии по измерениям данных а также по одинаковым значениям фактов.
- Модель должна поддерживать тематические (описательные) атрибуты для элементов измерений и фактов (например, геометрических), что позволяет применять в ходе анализа выборку, фильтрацию и агрегированные запросы.
- Модель должна поддерживать агрегирование геометрических и тематических атрибутов, за исключением вычисленных значений атрибутов (например, вычисленной общей площади нескольких полигонов).
- Модель должна поддержать составные (сложные) элементы измерений и фактов. Ячейка куба может содержать несколько фактов, в случае если объект составной (сложный). Например, элемент измерения «Местоположение» может иметь составной объект, лес - полигон с внутренним отверстием - поляна.
- Модель должна уметь работать с данными на разных уровнях детализации (динамические многоуровневые иерархии).
- Модель должна поддерживать не строгие, (рваные) иерархии, а так же отношения - обобщение и специализация.
- Модель должна поддерживать функции агрегирования определенные пользователями. Модель должна позволять пользователям применять нерегламентированные (ad-hoc) операции агрегирования, как на числовом, так и на геометрическом наборе данных.
- Модель должна уметь работать со случайными погрешностями в данных, избегая в ходе сложения двойного подсчета и не учитывая неаддитивные данные.
- Модель должна уметь работать с обновленными и удаленными данными за длительный временной интервал. Любые пересчеты значений фактов должны быть последовательными и правильными.
- Модель должна учитывать возможность представления на схеме сложных (составных) фактов и измерений.
- Модель должна поддерживать поперечную детализацию по измерениям -разделение измерений между различными кубами данных, а также сквозную детализацию для запросов к самому нижнему уровню данных (к «сырым данным»).
- Модель должна поддерживать агрегирование по тематическим атрибутам, не являющимся частью измерений или иерархий, а также по тематическим атрибутам фактов.
- Модель должна поддерживать возможность создания динамических многоуровневых запросов.
- Модель должна поддержать иерархии обобщения и специализации пространственных объектов. Например, «город - область - страна» в иерархии «Местоположение», при этом должна существовать связь пространственных иерархий с иерархиями тематических атрибутов.
- Измерения и иерархии должны поддерживать пространственные данные и операции над ними, такие как свертки и развертки на пространственных иерархиях. Одновременно куб данных должен быть способен к хранению и
управлению пространственными фактами, простыми или сложными объектами, а также объединений пространственных объектов.
- Модель должна поддерживать операции агрегирования на пространственных фактах и элементах измерений. Например, совокупность городов, имеющих наибольшую численность населения в каждом районе одной области в 2013 году.
- Модель должна поддерживать нерегламентированные пространственные операции на пространственных фактах, элементах измерений и их тематических атрибутах.
Выполнение приведенных выше требований к многомерной модели данных ХГД позволяет учесть всю сложность и разнообразие реального мира при создании концептуальной (инфологической) модели предметной области.
В первом разделе данной работы рассмотрены подходы к построению многомерной модели данных ПХД. В следующем разделе приведем пример создания метаданных, описывающих концептуальную модель ХГД.
Важной функцией метаданных рассматриваемого пакета является описание структуры данных всех БД находящихся на этом архитектурном уровне, а в случае наличия ЗВХ, описывают ее структуру и семантику. Но ключевой функцией метаданных этого пакета является описание интегрированной модели данных ХГД (далее - модель ХГД).
Важным компонентом ХГД расположенным на этом уровне является НСИ, в состав которой входят: словари, справочники, классификаторы, нормативы, идентификаторы и кодификаторы1. В таблице 2.1 рассмотрены метаданные описывающие этот компонент.
Таблица 2.1. Метаданные нормативно-справочной информации
Нормативно-справочная информация (НСИ)
Метаданные НСИ
Словари В качестве метаданных словарей, например, может выступать оглавление (содержание) словаря. Это позволяют ориентироваться в многообразии термином, а
1 Асадуллаев С. Данные, метаданные и НСИ: тройная стратегия создания хранилищ данных // IBM Developer Works. - Россия. - 09.07.2009.
Нормативно-справочная информация (НСИ)
Метаданные НСИ
также оперативно их находить и применять.
Справочники Метаданные справочника структурированы менее других метаданных НСИ. Например, эти метаданные могут описывать правила отправки сообщения администратору системы при ее сбое.
Классификаторы Метаданные содержат описание иерархической структуры классификатора и способы использования идентификационных кодов.
Нормативы Метаданные описывают область применения (существующие ограничения) и сроки действия нормативов.
Идентификаторы Метаданные описывающие идентификаторы создаются на этапе проектирования, когда идентификаторов в системе еще нет. Если в процессе эксплуатации появляются новые идентификаторы, следует корректировать существующие метаданные.
Кодификаторы Метаданные кодификаторов - это правила осуществления кодировки в соответствии с замыслом проектировщика.
Например, в источниках данных и ХГД применяются, классификаторы
топографической информации (КТИ) - систематизированный свод кодовых обозначений элементов и объектов местности, а также признаков, характеризующих эти объекты при отображении сведений о местности на топографических картах.
Главное отличие идентификатора от классификатора в том, что идентификатор либо недоступен как полный список, либо не используется на этапе проектирования системы. Не смотря на то, что кодификатор создается для внутренних нужд проектировщиков, он может использоваться и в дальнейшем пользователями. В свою очередь, норматив представляет собой некоторое числовое значение.
Словари содержат термины и сокращения, а так же разные строковые значения, необходимы при подготовке отчетов. Такие словари обеспечивают единую терминологию во всех документах, циркулирующих в системе.
Теперь рассмотрим находящуюся на этом уровне БМД. Согласно одному из определений база метаданных - это информационный справочник общего назначения или устройство каталогизации для классификации, хранения и
управления метаданными1. В технической литературе БМД часто называется репозиторий метаданных или словарь-справочник данных. Целесообразно конкретизировать это определение с учетом его применения в ХГД.
БМД - система хранения и управления метаданными ХГД, состоящая из информационного навигатора для классификации, хранения и управления метаданными и базы данных содержащей весь массив пользовательских и системных метаданных.
Базу метаданных ХГД можно создавать и поддерживать с помощью любого метода проектирования. При этом важно выбрать для неё архитектуру (централизованная или распределенная) и способы поддержки её в актуальном состоянии.
При централизованной схеме организации БМД, создается одна БД, в которой хранятся метаданные всех элементов информационной цепи. Централизованная база метаданных (далее - ЦБМД) имеет одни и те же преимущества и недостатки централизованной БД.
Распределенная база метаданных (далее - РБМД) хранит метаданные в нескольких БД, но метаданные остаются на собственных уровнях шестиуровневой архитектуры. Созданный ХМЬ-шлюз действует как справочник для получения доступа к метаданным в пределах каждого уровня. Преимущества и недостатки РБМД те же что и для распределенной базы данных.
Как вариант РБМД существует децентрализованная база метаданных. Её отличие состоит в том, что метаданные распределены не по уровням архитектуры, а по месту физического хранения.
Идеальное решение для управления метаданными - это централизованная база метаданных, доступная пользователям, разработчикам и администраторам из всех мест среды ХГД. Но для этого ей следует соответствовать следующим основным требованиям:
1 Ponniah P. Data Warehousing Fundamentals: A Comprehensive Guide for IT Professionals. - John Wiley & Sons, Inc. -2001.
- Гибкая организация. Только администратор данных классифицирует и организует метаданные по логическим категориям и подкатегориям, а также классифицирует новые элементы метаданных.
- Историчность. Контроль версий метаданных для поддержки их исторической перспективы.
- Интегрированность. Хранение предметно-ориентированных (так называемых «бизнес метаданных») и технических метаданных в форматах, понятных всем пользователям.
- Хорошая обособленность. Способность разделять и хранить логические и физические модели БД.
- Возможность анализа и просмотра. Способность просматривать все метаданные, а также отслеживать связи между ними.
- Возможность настройки. Способность создавать настраиваемые представления метаданных для отдельных групп пользователей и включать по мере необходимости новые метаданные в эти группировки.
- Поддержка описаний и определений. Представление метаданных в терминах описываемой предметной области.
- Стандартизация присвоения имен. Гибкость при присвоении имен и стандартизации в БМД.
- Синхронизация. Синхронизация хранимых метаданных с внешними системами и в пределах ХГД.
- Открытость. Поддержка обмена метаданными между различными инструментами через стандартные интерфейсы.
БМД отвечает за физическое хранение метаданных, а также их каталогизацию, подобно словарю данных, который позволяет поддерживать и контролировать информацию о данных в БД.
Метаданные условно можно разделить на пользовательские и системные, служащие различным целям и используемые разными потребителями. Структуры этих двух категорий метаданных также различаются. Поэтому БМД можно
сравнить с двумя отдельными информационными справочниками: один хранит пользовательские метаданные, а другой - системные метаданные. Это деление может быть логическим и осуществляться в пределах единой физической БД.
Для хранения метаданных могут использоваться как реляционные, так и объектно-ориентированные БД. Кроме СУБД, управляющей созданием и использованием БД, содержащей весь массив метаданных, применяется дополнительная надстройка - информационный навигатор, содержащий набор сервисных функций создания, просмотра и редактирования метаданных.
На рисунке 2.4 приведено типовое содержание БМД ХД.
Информационный навигатор доступа к метаданным
Пользовательские метаданные Системные метаданные
Рисунок 2.4. Типовое содержание БМД ХД
Информационный навигатор - компонент не содержащий метаданных, а являющийся интерфейсом взаимодействия пользователя с БМД, позволяющий выполнять следующие обязательные функции:
- Создавать запросы к метаданным.
- Проводить развертку метаданных по уровням детализации.
- Просматривать и выполнять перечень сформированных запросов и отчетов.
Пользовательские метаданные - компонент содержащий предметно-ориентированные а также технические метаданные. Здесь находятся справочники позволяющие описывать предметную область в терминах конкретных пользователей.
Системные метаданные - компонент состоящий из метаданных процесса обработки данных, а также структурных метаданных.
4. Пакет метаданных «Информация о системе извлечения, преобразования и загрузки».
Метаданные этого пакета должны описывать расположенную на одноименном уровне систему ИПЗ, точнее циркулирующие в ней данные и проходящие в ней процессы. Для своей работы система ИПЗ должна обладать сведениями об ИД такими как: формат и структура данных, алгоритмы обработки данных и их отличия, семантика хранящихся данных, график выполнения обработки информации в транзакционных системах.
Процессы происходящие в системе ИПЗ должны разрабатываться с учетом особенностей моделей данных на основе которых строится ХГД.
Независимо от особенностей построения и функционирования система ИПЗ должна обеспечивать выполнение следующих процессов: извлечения, преобразования и загрузки данных, а метаданные пакета «Информация о системе извлечения, преобразования и загрузки» описывать эти процессы.
В ходе описания процедуры извлечения данных сначала целесообразно определить регламент загрузки данных в ХД и частоту выгрузки данных из ИД. Время, занимаемое выгрузкой данных, называется «окном выгрузки».
Процедура извлечения данных может быть реализована двумя способами:
- Извлечение данных дополнительными программными инструментами из структур хранения данных.
- Выгрузка данных средствами ОЬТР-систем в промежуточную структуру хранения данных (например, в ЗВХ).
После извлечения данные попадают в промежуточную область в которой для каждого ИД создается отдельная таблица или отдельный файл. При этом следует учитывать, что система ИПЗ не предназначена для длительного хранения извлеченных и очищенных данных.
В качестве переходного этапа между ИД и ХД можно использовать определенный тип файла, например БИР или БХБ.
Формат БИР «Шейп-файл» позволяет хранить следующие различные типы геометрических объектов: точки, линии, полигоны и другие объекты. Причем
отдельный файл может хранить, только однотипные объекты. Каждая запись в «Шейп-файле» также может иметь несколько атрибутов для описания своей геометрии, например: название, температура, глубина1.
Формат SXF (Storage and eXchange Format) — открытый формат цифровой информации о местности предназначен для применения в геоинформационных системах для хранения цифровой информации о местности, обмена данными между различными системами, создания цифровых и электронных карт и решения прикладных задач2.
Перед началом процесса извлечения данных целесообразно определить в каких ИД хранятся требуемые данные. При этом выбирая ИД для загрузки в ХД надо учитывать следующие факторы:
- Значимость данных для анализа.
- Сложность извлечения этих данных из ИД.
- Возможность нарушения целостности и достоверности данных.
- Объем данных в ИД.
После выбора ИД определяют какие данные из них требуются в ХД. Если требуется извлечь только определенные записи, создается набор условий или алгоритм выборки записей, представляющих интерес.
Дополнительно, для начала процесса извлечения данных используется некоторая служебная информация, например, имя набора данных, из которого извлекаются записи, номера первой и последней извлекаемых записей, количество извлекаемых записей, формат представления данных, максимальная длина записи и т. д.
Другой не менее важный момент это выбор «временной глубины» выгрузки данных. В основном это относится только ко времени первичной загрузки данных в ХД, когда требуется определить, за какой период времени информация является актуальной. Определение «временной глубины» выгрузки данных обеспечивает
1 О шейпинге на покрытиях. Топология и шейп-файлы // ArcGIS Review. - 2001. - № 4 (19).
2 Формат хранения и обмена цифровых навигационных карт и планов городов в двоичном виде (SXF). -«Панорама».
ЗАО КБ
правильный баланс между объемом выгружаемых из источника данных и их ценностью для анализа.
При повторных загрузках данных в ХД уже целесообразно организовать поиск измененных данных, например с помощью меток времени.
Как отмечалось выше, процесс извлечения данных в системе ИПЗ существенно зависит от ИД, а именно от их типов и структуры. Выделяют следующие разновидности ИД.
Структурированные ИД.
- Базы данных. Структура данных в БД жестко задана, а так же предусмотрен контроль целостности и непротиворечивости данных, поэтому извлечение данных из них не должно вызывать проблем.
- Файлы различных форматов. К таким источникам относятся файлы форматов SHP и SXF, а так же текстовые и табличные файлы с разделителями. Для доступа структурированным данным применяют стандартные средства, такие как ODBC и ADO.
Неструктурированные ИД. Если в целях анализа приходится использовать неструктурированные источники, то применяют средства их преобразования в структурированный вид для возможности загрузки в реляционную таблицу.
Следующим в схеме работы с данными запускается процесс их преобразования. Целью процесса преобразования данных является подготовка извлеченных данных к размещению в ХД а также приведение их к виду пригодному для анализа.
В процессе преобразования данных в системе ИПЗ в основном выполняются следующие операции:
- Преобразование структуры данных.
- Агрегирование данных.
- Перевод значений.
- Создание (вычисление) новых данных.
- Очистка данных.1
Преобразование структуры данных следует применять в случае отличия структурной организации ИД и целевых таблиц ХД (таблиц, в которые передаются данные). Различия в структурной организации могут быть следующими: в соглашении о назначении имен полям и таблицам, в порядке описания данных, форматов и типов данных, в применяемых разделителях целой и дробной частей и т.п.
Процесс агрегирования данных достаточно полно описан в первом разделе диссертационной работы. С целью выяснения необходимости агрегирования данных следует изучить наиболее вероятные направления использования полученных агрегатов данных в ХД.
При выборе способа агрегирования данных целесообразно исходить из планируемых направлений анализа. Дополнительно выбор нужных агрегатов определяется особенностями предметной области. При этом следует понимать, что агрегаты, применяемые для анализа, могут вычисляться, как во время аналитического запроса, так и перед ним.
Существует два правила создания агрегатов. Во-первых, создавать только агрегаты необходимые для анализа, а во-вторых, при определении количества агрегатов, следует соблюдать баланс между потребностью в дополнительных вычислениях агрегатов в процессе анализа и сложностью структуры данных, ее размером.
Обычно данные в ИД хранятся с использованием кодировок, например, если в качестве ИД применяются файлы в форматах БХБ и БИР. В этих случаях перед загрузкой данных в ХД следует выполнить перевод таких сокращенных значений в более понятные и полные. К тому же, может возникнуть необходимость конвертации числовых данных, (преобразовывать вещественные числа в целые, уменьшить точность представления чисел и т.д.)
Во время загрузки данных в ХД дополнительно может потребоваться на основе существующих вычислить новые данные, это связано с обогащением данных, которое может проводиться (частично или полностью) на этапе преобразования. Вычисление новых данных сопровождается созданием новых записей и полей в ХД. Причем, и агрегирование данных можно рассматривать как создание новых данных.
Процедура очистки данных - корректировка данных, которые в каком-либо смысле не удовлетворяют определенным критериям качества, то есть содержат нарушения структуры данных, противоречия, пропуски, дубликаты, неправильные форматы и т.д.1
Другими словами очистка данных - это подготовка данных к загрузке в ХД. Для разработки методики очистки данных, целесообразно определить критерии, по которым оценивать качество получаемых данных, например критичность ошибок, условно разделив эти данные на три категории:
- Данные высокого качества.
- Данные, содержащие критические ошибки.
- Данные, содержащие некритические ошибки.
Некритические ошибки обычно исправляются в процессе анализа средствами аналитической системы на уровне прикладных задач. При обнаружении критических ошибок в данных может потребоваться провести дополнительную работу для их устранения.
Дополнительно при создании методики очистки данных необходимо учитывать особенности предметной области, функционирования ИД и порядка сбора данных. Кроме того, необходимо понимать, что полностью очистить данные не получиться. Если достоверность каких-то данных не влияет на результаты анализа, то от их очистки, возможно, следует вообще отказаться2.
1 Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. - 118 с.
2 Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. - 113 с.
В системе ИПЗ процесс преобразования может выполняться на разных этапах работы с данными. Причем порядок распределения этого процесса зависит от эффективности преобразования.
- Преобразование во время извлечения данных из ИД. Выполняется преобразование типов данных и производится фильтрация интересующих аналитика записей (отбираются только записи, измененные или созданные в ходе предыдущей загрузки).
- Преобразование перед загрузкой данных в ХД. Преобразование происходит в промежуточной области, использующейся для интеграции данных из гетерогенных ИД. В ходе преобразования в этой области происходит сортировка, группировка, обработка временных рядов и т.п.
- Преобразование во время загрузки данных в ХД. На этом этапе могут выполняться только некоторые простые преобразования, но только после загрузки данных в ХД.
В свою очередь данные после процесса преобразования загружаются в ХД. Перенос данных из промежуточной структуры хранения системы ИПЗ в структуры ХД называется процессом загрузки данных. Обычно в ходе этого процесса первыми загружаются данные в таблицы измерений, а затем в таблицы фактов.
Перед внесением новых записей в таблицу измерений требуется убедиться в отсутствии этих или подобных записей в ней. В этом случае, данные добавляются в таблицу, в противном - запись обновляется, либо добавляются дополнительные поля, сохранив старую и добавив новую информацию.
Затем загружаются данные в таблицы фактов. Новая информация добавляется в конец таблицы фактов для того чтобы не изменять существующие данные.
Одной из основных проблем этапа загрузки данных является редкость полной загрузки данных, например, может быть отказано в загрузке некоторых важных записей. В случае неудачной повторной попытки загрузки данных должны быть предусмотрены возможные варианты действий, например:
- Сохранить отфильтрованные данные, в виде таблицы или файла этого же формата (таблица исключений).
- Провести анализ исключенных данных для выявления причин, отказа в загрузке.
- Провести дополнительную или повторную обработку и очистку данных.
А в случае положительного результата предпринять дополнительную попытку загрузки в ХД.
Невозможность загрузки данных после этих операций приведет к появлению в ХД неполных данных. Для решения этой проблемы можно:
- Привести ХД в исходное состояния (до загрузки).
- Очистить таблицы с неполными данными.
- Оставить все как есть, с отметкой для ознакомления пользователей о возникших проблемах.
При очередной загрузке из ИД в ХД переносятся только данные измененные в течение промежутка времени, прошедшего с предыдущей загрузки, при этом происходит либо добавление, либо обновление (дополнение) данных. Для этого загружаемые данные распределяются по двум потокам - потоку добавления и потоку обновления, что позволяет выполнить перенос данных в ХД с помощью запросов, не используя фильтры для разделения данных.
Для разделения загружаемых данных на потоки применяются два основных метода: полное сравнение загружаемых записей с ранее загруженной информацией и частичное сравнение с использованием признаков модифицированных полей «Время/Дата» для определения последних изменений записей.
По окончанию загрузки могут выполняться пост загрузочные операции над только что загруженными данными (переиндексация, верификация и т.д.). Для этих целей предусматривают комплекс верификационных тестов. Дополнительно целесообразно, сравнить данные после их загрузки в ХД с исходными данных.
Метаданные пакета «Информация о системе извлечения, преобразования и загрузки» должны описывать весь приведенный выше алгоритм преобразования данных.
5. Пакет метаданных «Информация о системе выгрузки, реструктуризации и доставки».
Этот пакет метаданных необходим в случае применения в ИС системы ВРД. При использовании системы ВРД весь алгоритм информационного обеспечения витрин данных (далее - ВД) сосредотачивается в ней. Поэтому ВД обслуживают различные пользовательские запросы, а ЕХД осуществляет надежное хранение данных.
К тому же система ВРД также смягчает нагрузку на ЕХД за счет того, что однажды извлеченные данные преобразует в форматы ВД и доставляет их в соответствии с запросами.
Определив основную цель системы ВРД, рассмотрим применяемые ею методы работы с данными.
Выборка данных происходит в соответствии с требованиями, заложенными в ВД или определяемыми пользователями в соответствии с формируемыми запросами.
Реструктуризация - комплекс методов и алгоритмов, направленных на оптимизацию представления и форматов данных для повышения эффективности анализа и решения задач.1
Реструктуризация не изменяет информационное содержание данных, а оптимизирует представление информации, полученной на основе этих данных, в виде пригодном для эффективного использования.
Основная цель реструктуризации данных на этапе аналитического приложения - непосредственная подготовка данных к анализу, объединение и
выделение наиболее ценной информации, обеспечение корректной работы аналитических алгоритмов, методов и моделей1.
Целесообразность применения методов реструктуризации данных в аналитических приложениях вызвано их доступностью аналитику. Если аналитик в процессе подготовки данных к анализу по своему усмотрению применяет методы реструктуризации данных, настраивать их параметры, проводить эксперименты, это позволяет ему определить влияние реструктуризации данных на результат анализа.
Большинство аналитических платформ оснащено следующими основными методами реструктуризации данных.
Преобразование упорядоченных данных. Используется для оптимизации представления данных, то есть повышения наглядности.
Квантование. Позволяет разбить диапазон значений по числовому признаку на определенное количество интервалов, а затем присвоить метки попавшим в них значениям.
Сортировка. Изменяет порядок следования записей первичной выборки данных, основываясь на пользовательском алгоритме.
Слияние. Этот метод позволяет объединить две таблицы по одинаковым полям и дополняет одну таблицу отсутствующими записями из другой.
Группировка и разгруппировка. Группировка позволяет объединить нужную информацию, в наименьшее количество значений и полей. Разгруппировка -обратная операция.
Настройка выборки. Изменяет имена, типы и метки полей первичной выборки данных.
Подстановка значений из таблицы. На основе таблицы подстановки, содержащей «исходное значение - новое значение» происходит замена значений в полученной выборке данных. Этот метод позволяет использовать автоматическую корректировку значений.
Вычисление значений. В случае когда в выборке в явном виде отсутствует информация необходимая для анализа, ее можно получить на основе проведения вычислений над полученными значениями. Для этого целесообразно в аналитическое приложение добавить алгоритм расчета, позволяющий выполнять над данными первичной выборки необходимые вычисления.
Нормализация. Этот метод позволяет проводить преобразование диапазона изменений числового признака в другой диапазон. Это дает возможность применить к новому диапазону данных аналитические алгоритмы.
Все описанные методы реструктуризации должны быть описаны метаданными этого пакета, что позволит аналитикам выбирать способы реструктуризации для поиска наиболее оптимального представления данных для целей анализа.
Доставка данных в различные витрины данных происходит по правилам доставки, правам доступа, а также требованиям к составу информации определенным в среде ХГД и описываемым метаданными этого пакета.
6. Пакет метаданных «Информация о системе предоставления данных».
Уровень представления данных состоит из витрин данных, являющихся тематическими базами данных. Особенность их заключается в хранении информации относящейся только к аспектам деятельности конкретных пользователей, либо определенной тематики Путем переноса части нагрузки на ВД происходит оптимизация работы ЕХД.
Структура ВД должна максимально отвечать потребностям обслуживаемых аналитических задач. В связи отсутствия универсальных структур данных, подходящих для решения любых аналитических задач, структуры данных в ВД следует группировать по определенным признакам: территориальным, тематическим, организационным и т. п.
Достоинства ВД:
- ВД представляет аналитикам, только нужные им данные;
- ВД намного меньше по объему, чем ХД;
- ВД максимально приближена к пользователю;
- ВД проще для проектирования и настройки.
По существу, концепция ВД предполагает создание распределенной ИС с отсутствием контроля избыточности, целостности и непротиворечивости, хранящихся в ней данных.
Дальнейшая эволюция этой концепции заключалась в ее объединении с ХД, и его использования для наполнения ВД.
Идея создания отдельных ВД заключается в проектировании ИС в целом, с дальнейшим разделением по отдельным функциям. Это привело к появлению двух подходов к проектированию ХД. Первый подход начинает проектирование с построения ЕХД, второй с построения ВД.
На сегодняшний момент существует следующее решение:
- Первый уровень содержит детализированные данные. На этом уровне находиться общая БД с нормализованной или слабо нормализованной схемой, реализуемая на основе реляционной СУБД.
- Второй уровень содержит агрегированные данные. Несколько БД, реализуемые на основе многомерной СУБД.
- Третий уровень содержит аналитические приложения, в виде автоматизированных рабочих мест, причем эти аналитические инструменты работают с данными на двух нижних уровнях.
Это решение вписывается в шестиуровневую концепцию и позволяет использовать достоинства каждого из подходов:
- Реляционные СУБД обеспечивают хранение детализированных данных и поддержку больших объемов данных.
- Многомерные СУБД обеспечивают простоту настройки и быстродействие при работе с агрегированными данными.
Описанное решение не может обеспечить оперативной аналитической обработки запросов (из-за отсутствия кубов данных в ЕХД), но при использовании новых способов хранения и индексации данных, либо денормализации реляционных таблиц фактов и измерений, время обработки запросов может оказаться вполне приемлемым.
В случае если в многомерной СУБД можно хранить данные, на постоянной основе, а также динамически загружать их из реляционных БД, то можно на постоянной основе хранить только часто запрашиваемые данные. А для всех остальных данных хранить только описания структуры и программы их выгрузки из единой реляционной БД или ЕХД.
У такого подхода можно выделить три преимущества:
- Однажды разработанные таблицы общих измерений распространяются на все ВД.
- По мере роста программного решения сокращаются усилия, затрачиваемые на проектирование, моделирование и реализацию, так как каждый этап становится базовым блоком для следующего.
- ВД, созданные в первую очередь для проблемных областей, позволяют решать наиболее важные задач.
Главной задачей проектирования ВД является создание структуры данных, наиболее эффективной для целей анализа. Проектирование ВД заключается в создании таблиц измерений и фактов, определении связей между ними, а также связи готовой БД с ЕХД.
Поэтому метаданные этого пакета должны описывать в первую очередь структуру каждой ВД (имеющиеся таблицы фактов и измерений), а также имеющиеся таблицы общих измерений.
7. Пакет метаданных «Информация о прикладных задачах».
Метаданные этого пакета должны описывать используемые для целей анализа прикладные задачи. Спектр прикладных задач анализа очень широк, а способы применения ХД для решения различных прикладных задач весьма разнообразны. Не смотря на это, выделяют следующие основные подходы использования ХД для целей анализа:
- Регулярные отчеты. Многократная подготовка периодических отчетов стандартных форм.
- Нерегламентированные запросы. Нестандартные запросы, не учтенные в ходе разработки ИС.
- Интеллектуальный анализ данных. Анализ больших массивов данных с целью выявления скрытых закономерностей, структур и объектов, а также построения моделей, прогнозов и т.д.1
Для решения различных прикладных задач анализа в среде ХД используются аналитические приложения, расположенные на уровне прикладных задач (далее -ПЗ). Приложения статистического и многомерного анализа, а так же средства планирования и подготовки отчетности. В среде ХГД также должны быть представлены инструменты пространственного анализа.
Все перечисленные приложения работают только с данными структурированными определенным образом, например, многомерному анализу необходимы кубы данных; статистический анализ работает с рядами данных, а моделирование использует реляционные таблицы.
Следует отметить, что помимо очистки данных перед их загрузкой в ХД, пользователь может выполнить дополнительную очистку средствами аналитического приложения уже после выполнения запроса к ВД, направленную на подготовку данных к решению конкретной аналитической задачи2.
8. Пакет метаданных «Информация о визуализации данных».
Метаданные этого пакета описывают применяемые способы визуализации данных в ХГД и позволяют пользователю выбрать способ визуализации с учетом его потребностей.
Визуализация - представление данных в виде, обеспечивающем наиболее эффективную работу пользователя. Способ визуализации должен максимально полно отражать поведение исследуемых данных, а также содержащуюся в них информацию, тенденции и закономерности . Выбор способа визуализации зависит от характера данных и задач анализа.
В ИС на основе ХД целесообразно использовать визуализацию практически на всех этапах работы с данными.
1 Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. - 42 с.
2 Там же 108 с.
3 Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. - 173 с.
Визуализация исходных данных. Визуализация данных находящихся в ИД позволяет определить их соответствие ожиданиям аналитика, оценить степень пригодности для анализа. К целям этой визуализации относится определение необходимости применения к данным дополнительной очистки и предобработки, а так же определение метода загрузки данных в аналитическое приложение. Для визуализации исходных данных могут применяться приложения в которых созданы эти данные, или сами аналитические приложения.
Визуализация данных, загруженных в аналитическое приложение. Целью визуализации на этом этапе является проверка правильности загрузки данных, оценка степени их гладкости, наличие шумов и аномальных выбросов. По результатам визуального анализа исходной выборки делаются выводы о целесообразности применении видов очистки и трансформации данных, вырабатывается методика и стратегия их анализа1.
Визуализация данных в процессе аналитической обработки. Данный вид визуализации применяется в случае многошаговости процедуры анализа, что позволяет изучать промежуточные результаты анализа.
Визуализация результатов анализа. После получения конечных результатов аналитической обработки следует убедиться в их достоверности и правильной интерпретации. Следует заметить, что в случае неудачного выбора метода визуализации не получиться правильно интерпретировать результаты анализа, а также увидеть в них зависимости и закономерности.
В настоящее время существует ряд методов визуализации выбор которых зависит от контекста решаемых задач. В связи с этим можно выделить следующие группы методов визуализации:
- Визуализация общего назначения (решение типовых задач анализа).
- ОЬЛР-анализ (визуализация многомерных данных).
- Оценка качества моделей.
- Интерпретация результатов анализа.
- Визуализация результатов пространственного анализа.
Особенность визуализации данных в ХГД связана с необходимостью отображения взаимодействия исходных данных и результатов их анализа с применением картографического материала. В настоящее время для визуализации данных в ИС использующих ХД применяются ГИС, либо растровый слой данных в качестве картографической основы.
9. Пакет метаданных «Информация о профилях пользователей».
Метаданные содержащиеся в этом пакете применяются для организации доступа к данным, циркулирующим в ХГД. Эти метаданные относятся к группе технических метаданных. Требования к их составу формируются исходя из состава пользователей ИС.
Дополнительно метаданные этого пакета описывают процедуру авторизации - предоставление определенных полномочий пользователю на выполнение ряда действий в ИС. С помощью авторизации устанавливаются права доступа к ресурсам ИС.
Процедуры аутентификации (проверки подлинности) и идентификации (распознавания субъекта по его идентификатору) пользователей ИС позволяют обезопасить хранение и доступ к данным.
Например, стандартом ГОСТ Р 52573-2006 предусмотрен элемент метаданных «С1_Ко1еСоёе» определяющий ответственных субъектов, выполняющих операции над описываемым набором данных, одновременно существуют исторически сложившиеся группы пользователей ХД (администратор ХД, аналитик ИПЗ, аналитик данных и т.д.), поэтому целесообразно расширить перечень субъектов и их ролей в ХГД.
Приведенный в таблице 2.2 набор пакетов метаданных, не является исчерпывающим, так как их состав зависит от особенностей проектируемой ИС.
Таблица 2.2. Базовый набор метаданных
Пакеты метаданных Сущности метаданных
Пакет «Информация о предметной области»
Описание предметной области информационной системы 1. Описание информационных и материальных объектов предметной области в терминах пользователей; 2. Описание основных функций предметной области; 3. Описание основных процессов предметной области; 4. Описание событий, вызываемых внешней средой; 5. Описание целевых установок, соответствующих процессам; 6. Описание созданных правил (исключений).
Описание архитектуры информационной системы 1. Описание положения серверов, рабочих станций и источников данных; 2. Описание размещенных на них программных средств и распределения между ними данных; 3. Описание таблиц расширения (таблицы кодировки и справочники) и истории их изменения.
Пакет «Информация об источниках данных»
Описание структуры источников данных 1. Описание структуры набора данных в источнике данных; 2. Описание применяемой системы классификации; 3. Описание применяемой системы кодирования; 4. Идентификация объекта, набора данных и источника данных.
Описание семантики источников данных 1. Описание применяемой системы координат; 2. Описание содержания набора данных; 3. Предметная область набора данных; 4. Описание области применения набора данных; 5. Категория информации по уровню доступа; 6. Сведения о времени подготовки данных (месяц, год); 7. Периодичность обновления набора данных после их создания; 8. Качество, точность и надежность данных; 9. Степень достоверности источника данных. 10. Описание приоритетности источников данных.
Пакет «Информация о системе извлечения, преобразования и загрузки данных»
Описание критериев выборки данных из источника 1. Описание процесса выгрузки данных; 2.Описание правил конвертации в обменный формат; 3. Описание правил контроля сводки; 4. Описание выявления и устранения ошибок; 5.Описание правил обработки, очистки и согласования данных; 6. Описание правил структурирования данных; 7. Описание правил отбора объектов из набора данных; 8.Описание истории извлечения данных (хранит время выполнения операций); 9.Описание логики (алгоритмов) формирования данных из нескольких источников (приоритетность источников);
Пакеты метаданных Сущности метаданных
10. Периодичность выполнения процессов ИПЗ.
Описание преобразования данных 1.Определение соответствия сущностей (атрибутов) ИД и сущностей (атрибутов) ХД; 2. Описание правил перекодировки пространственных объектов в классификатор ХД; 3. Описание правил реструктуризации пространственных объектов; 4. Построение иерархической модели пространственного объекта (установление связей); 5. Формирование у объекта местности ссылочного атрибута на метаданные источника; 6.Описание правил присвоения полученному набору данных системы координат ХД; 7. Описание преобразования таблиц кодировок и ссылочных таблиц; 8.Описание значения полей по умолчанию.
Описание загрузки данных 1. Описание правил фильтрации; 2. Описание правил агрегирования; 3. Описание правил генерации ключей; 4. Описание правил распределения данных; 5. Описание частоты обновления; 6.Расписание загрузки данных (зависит от частоты обновления данных в источниках).
Пакет «Информация о хранилище данных»
Описание семантики и структуры хранилища данных 1. Описание таблиц, атрибутов и ключей реляционной базы данных, хранящей детальные данные; 2. Описание концептуальной схемы (куба данных) хранилища данных, хранящего агрегированные данные; 3. Описание структуры хранения архивированных данных; 4. Описание местонахождения детальных, агрегированных и архивированных данных; 5. Описание изменений внутренней структуры; 6.Количество столбцов в таблицах (максимальное).
Описание алгоритмов работы хранилища данных 1. Описание применяемой системы координат; 2. Описание алгоритма переноса данных в архив; 3.Описание шаблонов доступа к данным (когда и как данные перешли на другой уровень хранения); 4.Сведения о числе строк в таблицах фактов (измерений); 5. Сведения о скорости роста таблиц; 6. Статистический профиль использования таблиц (среднее и максимальное число запросов за день); 7. Статистика архивирования и удаления данных; 8.Индексирование таблиц; 9.Частота использования индексов в запросах;
Пакет «Информация о системе выгрузки, реструктуризации и доставки данных»
Описание алгоритмов работы системы ВРД 1. Описание причин выполнения выгрузки данных; 2. Описание критериев выгрузки данных; 3. Описание причин и методов выполнения
Пакеты метаданных Сущности метаданных
реструктуризации данных; 4. Описание места доставки данных (целевые базы данных).
Пакет «Информация о системе представления данных»
Описание семантики и структуры витрин данных ¡.Описание предметной области витрин данных; 2. Описание структуры данных целевых баз данных.
Пакет «Информация о прикладных задачах»
Описание инструментов анализа в зависимости от решаемых задач 1. Описание регулярных отчетов 2.Описание инструментов подготовки нерегламентированных запросов 3. Описание способов интеллектуального анализа данных
Описание способов реорганизации для систем анализа в зависимости от решаемых задач 1. Описание способов реорганизации структуры данных для многомерного анализа; 2. Описание способов реорганизации структуры данных для статистического анализа 3.Описание способов реорганизации структуры данных для моделирования; 4. Описание способов реорганизации структуры данных для подготовки отчетов; 5. Описание форм существующих регулярных отчетов.
Пакет «Информация о визуализации данных»
Описание способов визуализации данных 1. Описание методов визуализации исходных данных; 2. Описание методов визуализации данных, загруженных в аналитическое приложение; 3.Описание методов визуализации данных в процессе аналитической обработки; 4. Описание методов визуализации данных, полученных в результате анализа.
Пакет «Информация о профилях пользователей»
Описание субъектов работающих с данными (метаданными) 1. Субъект, ответственный за создание данных (метаданных) и способы связи с ним; 2. Субъект, использующий набор данных и способы связи с ним; 3.Субъект, осуществляющий распространение данных (метаданных) и способы связи с ним.
Описание настроек безопасности данных 1. Информация о настройках безопасности; 2.Информация об аутентификации и идентификации; 3.Права доступа к источникам данных, ХД, ВД и системам анализа.
На рисунке 2.5 изображены пакеты базового набора метаданных, условно
разделенные на три уровня. На первом уровне расположены пакеты, связанные с хранением и представлением данных, содержащие семантическое или/и структурное описание данных. Второй уровень содержит пакеты, связанные с изменениями структуры данных. Третий уровень представлен пакетами,
относящимися практически ко всем пакетам, расположенным на первых двух уровнях.
Информация о профилях пользователей
Информация о визуализации данных
Информация о системе ИПЗ
Информация о системе ВРД
Информация о прикладных задачах
Информация о предметной области
Информация об источниках данных
Информация о хранилище данных
Информация о системе представления данных
Рисунок 2.5. Пакеты базового набора метаданных Приведенный выше базовый набор метаданных по существу является сводом требований к составу метаданных, планируемых к применению в БМД информационного ХД. Но для построения БМД не достаточно собрать требования к метаданным, дополнительно требуется определить модель отношений этих метаданных между собой, то есть модель метаданных. Приступать к созданию модели метаданных (метамодели) можно, только после сбора требований к метаданным.
Выделяют три способа создания метамодели: ручное создание метамодели;
- создание метамодели, основываясь на стандартах (спецификациях);
- одновременное создание метамодели, а также информационного ХД. Первый из указанных способов является наиболее трудоемким, но позволяет
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.