Построение оптимального репозитория атрибутов и отношений для интеграции реляционных баз данных тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Попов, Сергей Геннадьевич
- Специальность ВАК РФ05.13.11
- Количество страниц 135
Оглавление диссертации кандидат технических наук Попов, Сергей Геннадьевич
Введение
1 Интеграция реляционных баз данных на основе репозитория схем
1.1 Анализ вариантов интеграции репозиториев в современных СУБД
1.2 Формирование требований к оптимальному репозиторию.
1.3 Постановка задачи построения оптимального репозитория.
1.4 Выводы.
2 Построение и исследование реляционного репозитория схем баз данных
2.1 Построение схем реляционного репозитория.
2.2 Классификация схем репозитория.
2.3 Методика оптимизации схемы репозитория на этапе эксплуатации
2.4 Операции управления репозиторием.
2.5 Выводы.
3 Формирование подсистемы интеграции реляционных баз данных на основе оптимального репозитория схем
3.1 Проектирование среды управления оптимальным репозиторием.
3.2 Проектирование и реализация универсального интерфейса пользователя генератора отчётов к репозиторию баз данных.
3.3 Реализация редактора графического представления схем реляционных баз данных репозитория схем
3.4 Выводы.
4 Применение подсистемы интеграции реляционных баз данных на основе оптимального репозитория схем
4.1 Реализация подсистемы интеграции в системе управления учебным процессом СПбГПУ.
4.2 Реализация подсистемы интеграции в электронной системе мониторинга технологических компетенцией.
4.3 Выводы.
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Управление метаданными в гетерогенных информационно-аналитических системах масштаба предприятия2005 год, кандидат технических наук Шовкун, Алексей Владимирович
Интеграция объектных систем обработки информации и реляционных серверов2003 год, кандидат технических наук Полтавцева, Наталья Анатольевна
Разработка методики построения унифицированных трехзвенных объектно-ориентированных приложений2007 год, кандидат технических наук Олейник, Павел Петрович
Методика синтеза сложных телекоммуникационных систем1998 год, кандидат технических наук Корсаков, Алексей Валентинович
Исследование и разработка модели и средств доступа к реляционной базе данных на логически независимом уровне1998 год, кандидат технических наук Краснов, Вячеслав Николаевич
Введение диссертации (часть автореферата) на тему «Построение оптимального репозитория атрибутов и отношений для интеграции реляционных баз данных»
В настоящее время наблюдается устойчивая тенденция интеграции независимых реляционных баз данных, что связано с увеличением числа задач, для решения которых требуются результаты, размещённые в удалённых друг от друга базах данных различных производителей. Под интеграцией подразумевается решение комплекса задач по объединению кортежей данных из независимых реляционных баз. К таким задачам относятся управление данными в информационных системах управления учебным процессом высших учебных заведений, получение аналитической информации в системах обработки статистических данных, управление конструкторской и технологической документацией машиностроительных производств. Отличительной чертой таких задач является интенсивный поток запросов на выборку данных из независимых баз данных, что предъявляет повышенные требования к эффективности управления подсистемой интеграции. Эффективное управление интеграцией данных обеспечивает минимизацию объёмов служебных данных, времени анализа и формирования интегрирующих запросов к объединённым данным.
Современные подходы к решению задач интеграции реляционных данных предполагают формирование запросов к объединяемым данным на основе метаданных, к которым в РБД относятся имена серверов, баз, таблиц, атрибутов и связей. Метаданные РБД хранятся в репозиториях — системных, реляционных базах данных в каждой СУБД. Схемы репозиториев определяются исторически сложившимися в процессе разработки соглашениями, как например в СУБД Oracle, DB2, или стандартами языка SQL, которые определяют форматы представлений метаданных INFOR-MATIONSCHEMA, как в MS SQL, MySQL или PostGreeSQL. Передача метаданных между СУБД может осуществляться на основе технологий, определённых протоколом передачи метаданных в рамках вычислительных кластеров по стандарту RFC5661.
В процессе формирования схем репозиториев существующих в настоящее время СУБД в большей мере учитывались технологические аспекты проектирования и функционирования конкретной РСУБД, чем требования высокой эффективности выполнения интеграционных задач. Сложившаяся практика проектирования схем данных на момент формирования стандарта на схему репозитория — начало 90-х годов ХХ-го века, определявшая высокую нормализацию как основной процесс построения схем малых и средних баз данных, также наложила отпечаток на представление схемы репозитория РСУБД.
Последовавшее в следующие десятилетия неуклонное увеличение объёмов данных в БД, числа учитываемых атрибутов, повышение сложности алгоритмов обработки данных, привело к появлению больших, ориентированных на уникальную задачу баз данных, отходящих от традиций высокой степени нормализации данных при построении их схем. Интеграция таких схем в репозиторий с фиксированной стандартом схемой, в общем случае, не может' обеспечить гарантированной оптимальности хранения и управления схемами на этапе эксплуатации интегрирующего приложения.
Решением проблемы потери эффективности управления метаданными в ситуации заранее неизвестных наборов интегрируемых баз, является реконфигурация схемы репо-зитория в процессе эксплуатации системы с целью выбора оптимальных характеристик его функционирования.
Целью работы является построение оптимального репозитория метаданных на основе алгоритмов управления схемами интегрируемых баз данных с прогнозируемым временем отклика на произвольном наборе атрибутов и отношений интегрируемых баз данных.
Для достижения цели в диссертационной работе поставлены и решены следующие задачи: предложена классификация схем репозитория на основе анализа числа реляционных отношений и функциональных зависимостей; разработана методика оптимизации репозитория данных на этапе эксплуатации с гарантированными оценками времени выполнения операций; разработан функционально полный набор операций, обеспечивающий согласованную последовательность преобразований схемы репозитория; разработаны алгоритмы управления схемами репозитория, обеспечивающие адаптацию его структуры к изменяющимся наборам структур интегрируемых данных; разработана архитектура и реализована подсистема интеграции реляционных баз данных на основе реляционного репозитория и операторов управления схемами.
Объектом исследования являются схемы реляционных баз данных, схемы репозитория и алгоритмы управления данными в нём.
Предметом исследования является организация изменения схемы репозитория на этапе эксплуатации и алгоритмы управления атрибутами и отношениями в объединённой базе данных.
Основные методы исследования. В качестве методов исследования применялись методы теории оптимизации, использовался аппарат теории множеств, общей и реляционной алгебр, методы анализа алгоритмов.
Результаты, выносимые на защиту, и их научная новизна. Предлагаемая диссертация содержит следующие результаты: разработана методика оптимизации реляционного репозитория метаданных отличающихся от известных совместным использованием 2 критериев оптимизации, что позволяет получить оптимальный репозиторий, в котором минимизированы объём данных и время доступа; разработан полнофункциональный набор алгоритмов управления схемами репозитория позволяющий обрабатывать любую из существующих реализаций схем репозитория; показано, что для произвольной схемы репозитория объём и время обработки данных линейно зависит от числа атрибутов объединяемых баз, что позволяет эффективно управлять репозиторием с произвольным набором независимых баз данных.
Теоретическая значимость работы заключается в разработке методики построения оптимального репозитория с целью интеграции реляционных баз данных на основе полнофункционального набора операций над схемами средствами реляционной алгебры. Разработанная методика управления схемами позволяет эффективно интегрировать независимые базы данных.
Практическая значимость работы состоит в разработке подсистемы интеграции, состоящей из инструментальных средств анализа схем интегрируемых баз данных, компоненты реконфигурации репозитория, графического редактора доопределения связей и универсального интерфейса доступа к данным средствами системы интеграции.
Предложенный подход позволяет сохранить неизменными данные, операторы и схемы интегрируемых БД, что позволяет реализовать операторы управления схемами независимо от интегрируемых БД и получать подсистемы интеграции с заранее известными временами отклика. В ходе практической реализации получены следующие результаты: реализация методики обеспечивает синтез репозитория независимых баз данных для заданного времени доступа к данным в репозитории, что позволяет проектировать систему с известными эксплуатационными характеристиками; разработанные алгоритмы позволяют повысить производительность подсистемы интеграции баз данных при неизменных требованиях к аппаратной компоненте; реализованный универсальный пользовательский интерфейс, обеспечивает единую технологию доступа к независимым реляционным базам данных.
Разработанные инструментальные средства нашли применение в качестве составных частей системы интеграции независимых реляционных баз данных.
Реализация результатов работы. Разработанная информационная система внедрена в качестве подсистемы интеграции реляционных баз данных в информационной системе управления учебным процессом Санкт-Петербургского государственного политехнического университета и электронной системе мониторинга технологических компетенцией предприятий машиностроительного комплекса Северо-Западного региона.
Апробация работы. Научные результаты и основные положения работы докладывались и обсуждались на конференциях: Международной научно-методической конференции «Высокие интеллектуальные технологии и интеграция знаний в образовании и науке» (Санкт-Петербург 2005), международной научно-методической конференции «Высокие интеллектуальные технологии и инновации в образовании и науке» (Санкт-Петербург, 2006), международной научно-практической конференции «Высокие интеллектуальные технологии в образовании и науке» (Санкт-Петербург, 2010).
Публикации. По теме диссертации автором опубликовано 14 работ, объёмом 5,81 п.л. в том числе в изданиях, рекомендованных ВАК - 2 работы, объёмом 1,05 п.л.
Личный вклад автора. Все основные результаты работы диссертации получены автором самостоятельно.
Структура и объём диссертационной работы. Диссертация состоит из введения четырёх глав и заключения, изложена на 132 страницах, включая перечень литературы из 70 наименований, 60 рисунков и 4 таблицы. К диссертации добавлено приложение на 4 листах, содержащее схемы работы предложенных и реализованных в диссертации алгоритмов.
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Интеграция информации в реляционных базах данных на основе виртуального репозитория2004 год, кандидат технических наук Ахунов, Алексей Ножипович
Автоматизация выбора значений конфигурационных параметров объектной СУБД2001 год, кандидат технических наук Козловский, Виталий Станиславович
Математическое и программное обеспечение асинхронной репликации данных реляционных СУБД методом выделения объектов2008 год, кандидат технических наук Апанасевич, Дмитрий Александрович
Специальное математическое и программное обеспечение манипулирования распределенными объектами в реляционной СУБД на основе политомических представлений2007 год, кандидат технических наук Борисенков, Дмитрий Васильевич
Анализ и синтез интегрированных информационно-управляющих систем распределенного типа: На примере Астраханского ГПЗ2003 год, кандидат технических наук Ясаков, Михаил Николаевич
Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Попов, Сергей Геннадьевич
4.3 Выводы
В четвёртой главе получены следующие результаты:
• Разработана архитектура подсистемы интеграции реляционных баз данных на основе репозитория. Подсистема интеграции включает модули управления схемами, реконфигурации репозитория, универсальный генератор отчётов и редактор графического представления схем.
• Разработан набор алгоритмов, реализующий полнофункциональный набор опера- • ций управления репозиторием. Предложенный набор инвариантен относительно изменяющихся схем репозитория.
• Разработано программное обеспечение, реализующие подсистему интеграции. Программный комплекс содержит 7 модулей и обеспечивает непрерывное управление схемами репозитория.
• Подсистема интеграции данных включена в интегрированную информационную систему управления учебным процессом СПбГПУ и электронной системе мониторинга технологических компетенцией предприятий машиностроительного комплекса Северо-Западного региона, что подтвердило правильность предложенной методики.
Заключение
В ходе решения поставленных задач были получены следующие научные и практические результаты:
1. Проведён обзор существующих репозиториев реляционных СУБД, в результате чего установлено, что в существующих СУБД отсутствуют средства оптимизации схем реляционных репозиториев. Отсутствие средств оптимизации обусловлено отсутствием эффективных средств решения задачи интеграции, которая стала актуальна в последние 10-15 лет.
2. Сформулировано новое требование оптимальности репозитория, расширяющее существующий метод интеграции баз данных на основе отображения моделей данных.
3. Сформулирована постановка задачи оптимальной интеграции, новизна постановки связана с тем, что задача интеграции рассматривается для произвольных схем независимых баз данных в отличие от классического подхода к интеграции схем нормализованных баз.
4. Выработаны критерии классификации схем реляционных репозиториев. В основу классификации положены следующие критерии: число отношений и число функциональных зависимостей. Выделены 5 классов схем репозитория. Каждый класс объединяет схемы с одинаковыми оценками объёма данных и времени доступа к ним.
5. Разработана методика оптимизации схемы репозитория, которая синтезирует ре-позиторий с заданным временем исполнения алгоритмов преобразования и объёмов данных.
6. Предложен функционально полный набор операций, обеспечивающий согласованную последовательность преобразований схемы репозитория. Предложенный набор содержит 4 операции управления схемами, позволяющие впервые решать эту задачу на практическом уровне.
7. Реализованы четыре алгоритма управления схемами, инвариантные к текущей схеме репозитория.
8. Проведено исследование зависимости объёма данных от исходного набора схем в каждом классе репозитория. Исходный набор схем характеризуется числом отношений, числом атрибутов в каждом отношении и числом функциональных зависимостей. В результате анализа установлено, что объем данных линейно зависит от вышеперечисленных параметров. Линейность зависимости позволяет использовать все пять классов репозиториев при любых наборах исходных схем.
9. Проведено исследование зависимости времени исполнения операций из полнофункционального набора от исходного набора схем в каждом классе репозитория. В результате анализа установлено, что рост времени линейно зависит от исходного набора схем, что позволяет применять алгоритмы для произвольной схемы репозитория.
10. Разработана архитектура подсистемы интеграции реляционных баз данных на основе репозитория. Подсистема интеграции включает модули управления схемами, реконфигурации репозитория, универсальный генератор отчётов и редактор графического представления схем, реализующий полнофункциональный набор операций управления репозиторием.
11. Разработано программное обеспечение, реализующие подсистему интеграции. Подсистема интеграции данных включена в интегрированную информационную систему управления учебным процессом СПбГПУ и электронной системе мониторинга технологических компетенцией предприятий машиностроительного комплекса Северо-Западного региона, что подтвердило правильность предложенной методики.
Список литературы диссертационного исследования кандидат технических наук Попов, Сергей Геннадьевич, 2010 год
1. Аткинсон М. и др Манифест систем объектно-ориентированных баз данных Системы «Управления Базами Данных» — №4. — 1995. — с. 142-155.
2. Архипенков С., Голубев Д., Максименко О Хранилища данных. Издательство: Диалог-МИФИ., 2002 — 528 стр.
3. Ахо А., Сети Р., Ульман Дж. Компиляторы. Принципы, технологии, инструменты. Пер. с англ. — М.: Издательский дом "Вильяме", 2001. — 498с.
4. Братко И. Программирование на языке пролог для искусственного интеллекта: Пер. с англ. — М.: Мир, 1990. — 560 е., ил.
5. Буч Г. Объектно-ориентированное проектирование с примерами: Пер. с англ. — М.: Конкорд, 1992.
6. Венцель Е. С., Овчаров JI. А. Теория вероятностей и ее инженерные приложения. Учеб. пособие для втузов. — 2-е изд.,стер.— М.: Высш. шк., 2000. — 480 е.: ил.
7. Виснани, Викрам Полный справочник по MySQL.: Пер. с англ. — М.: Издательский дом "Вильяме", 2006. — 528 е.: ил.
8. Гарсия Молина Г., Ульман Дж., Уидом Д. Системы баз данных. Полный курс. Пер. с англ. — М.: Издательский дом "Вильяме", 2002. — 540с.
9. Гвоздев 10. Генератор отчетов Crystal Reports, http://firststeps.narod.ru/ sql/cryrep/il.html, 2003.
10. ГОСТ 17420-72. Единая система технологической подготовки производства. Операции механической обработки резанием. Термины и определения. Издательство: Государственный комитет по стандартам, Москва, 1980, 19с.
11. Гуляев А.И. Временные ряды в динамических базах, данных. — М.: Радио и связь, 1989 г. — 128с.
12. ДейтД.Дж. Введение в базы данных, 7-е издание. Пер. с англ. — М.: Издательский дом "Вильяме", 2001. — 1072 е.: ил.
13. Евменов В. П. Учебное пособие «Базы данных. Часть 1. Методология теории баз данных» Евменов В.П. СПб,СПбГПУ,2005. - 68 с.
14. Иванов А.Ю., Саенко И.Б. Основы построения и проектирования реляционных баз данных. СПб: ВАС. 1998 . - 80с.
15. Калиниченко JI.А. Методы и средства интеграции неоднородных баз данных. Клиниченко JI.A./Под ред. Л.Н. Королева. — М.: Наука. Главная редакция физико-математической литературы, 1983 — 424 с.
16. Ким ВГарза Ж.Ф., Грэхэм В. Пути развития объектно-реляционных технологий баз данных. Системы управления базами данных, №04, 1996.
17. Кирстен В., Иренгер И., Рёриг Б., Шулыпе П. СУБД Cache: объектно-ориентированная разработка приложений. — СПб: Питер, 2001.
18. Классификатор технологических операций машиностроения и приборостроения 1 85 151. Издательство: Государственный комитет по стандартам, Москва, 1986, 34с.
19. Классификатор технологических переходов машиностроения и приборостроения 1 89 187. Издательство: Государственный комитет по стандартам, Москва, 1990, 164с.
20. Кнут Д.Э. Исскуство программирования, Том 3: Сортировка и поиск. — М.: Издательский дом Вильяме, 2000.
21. Когаловский М.Р. Расширение реляционной модели баз данных временных рядов Управляющие системы и машины. 1994. — № 6.
22. Когаловский М.Р. Энциклопедия технологий баз данных — М.: Финансы и статистика, 2002. — 800 с.
23. Когаловский М.Р. Перспективные технологии информационных систем — М.: ДМК Пресс, 2003 288 с.
24. Компания MySQL АВ. MySQL. Руководство администратора.: Пер. с англ. — М.: Издательский дом "Вильяме", 2001. — 432с.
25. Компания MySQL АВ. MySQL. Справочник по языку.: Пер. с англ. — М.: Издательский дом "Вильяме", 2001. — 462с.
26. Криулин К. Н., Попов С. ГРафиков Ш. М. Автоматизированная система управления контингентом СПбГПУ. Высокие интеллектуальные технологии в высшей школе: Материалы XII Международной научно-методической конференции. — СПб.: Изд-во СПбГПУ, 2005. С.65-71.
27. Кузнецов С. Д. Базы данных. Модели и языки. — М.: Бином-Пресс, 2008. — 720 с.
28. Курочкин М.А, Попов С. Г. Постановка задачи интеграции независимых реляционных баз данных. Международная научно-методическая конференция «Высокие интеллектуальные и инновации в образовании и науке». — Изд-во. СПбГПУ, 2006. Т1. - С.161-165.
29. Мейер Д. Теория реляционных баз данных: перевод с англ. — М.: Мир, 1987. — 608с.
30. Олле Т. В. Предложения КОДАСИЛ по управлению базами данных. / Пер. с англ. В. И. Филиппова и С. М. Кругловой. — М.: Финансы и статистика, 1981. — 226с., ил.
31. Пек Д., 2005. CRYSTAL REPORTS 9. Полное справочное руководство. ЛОРИ, — 736 стр.
32. Попов С. Г., Слюньков Н. В. Структура автоматизированной системы управления рабочими учебными планами. X Всероссийская конференция по проблемам науки и высшей школы. — СПб, Изд-во СПбГПУ, 2006. — С.69-73.
33. Попов С. Г. Исследование вариантов реализации схем реляционного репозитория схем баз данных. Высокие интеллектуальные технологии в образовании и науке: Материалы XVII Международной научно-методической конференции. — СПб.: Изд-во СПбГПУ, 2010. С. 71-74.
34. Раскин Д. 2005. Интерфейс: новые направления в проектировании компьютерных систем. — Пер. с анг. СПб: Символ-Плюс, 2004. — 272с., ил.
35. Спирли Э., 2001. Корпоративные хранилища данных. Планирование, разработка, презентация. — Том 1. М.: Вильяме.
36. Смирнов В. Системы хранения данных- тенденции, решения, перспективы. //Корпоративные системы. 2002, - №3 - С. 24-29.
37. Цаленко М. Ш. Моделирование семантики в базах данных. — М.: Наука. Гл. ред. физ-мат.лит., 1989. — 228с.
38. Чемберлин Д. Анатомия объектно-реляционных баз данных Системы Управления Базами Данных, №1-2, 1998. с.3-24.
39. Шаша Д., Бонне Ф. Оптимизация баз данных: принципы, практика, решение проблем. М.: КУДИЦ-ОБРАЗ, 2004.
40. Энсор Д., Стивенсон Й. Oracle, Проектирование баз данных: Пер. с англ. — К.: Издательская труппа BHV, 1999 — 560 с.
41. Abrial J.-R. B-Technology: Technical overview. B-Core (UK) Ltd., 1993.
42. Batory D. et al. GENESIS: An Extensible Database Management System. IEEE Trans, on Software Engineering, vol. 14, no. 11, Nov. 1988.
43. Bertino E., Kim W., and Garza J. Compositie Objects Revisited. — Proc. ACM SIGMOD Intl. Conf. on Management of Data, Portland, Oregon, June 1989.
44. Bozkaya T., Ozsoyoglu M. Indexing Transaction Time Databases. — Information Sciences, 1998.
45. Chandra R., Segev A. Managing Temporal Financial Data in an Extensible Database. — Proceedings of the 19th Conference on Very Large Databases. 1993, pp. 302-313.
46. Chou H.T., Kim W. Versions of Schema for Object-Oriented Databases. — Proc. Intl. Conf. on Very Large Data Bases. Long Beach, Calif., Sept.
47. Dijkstra E. W. A Discipline of Programming. L.: Prentice Hall, 1976.
48. Easton M. Key-Sequence Data Sets on Indelible Storage. — IBM Journal of Research and Development, 30(3), 1986.
49. Faloutsos C, Sellis Tand Roussopoulos N. Analysis of Object-Oriented Spatial Access Methods. — Proc. ACM SIGMOD Intl. Conf. on Management of Data, San Francisco, Calif., May 1987. — p. 426-439.
50. Freytag J. A Rule-Based View of Query Optimization. Proc. ACM SIGMOD Intl. Conf. on Management of Data, pp. 173-180 San Francisco, Calif., 1987.
51. Greene D. An Implementation and Perfomance Analysis of Spatial Data Access Methods. — Proc. Data Engineering, 1989.
52. Graefe G. Query evaluation techniques for large databases // ACM Computing Surveys. N.Y., 1993. — Vol. 25, N. 2. — P. 73-170.
53. Katz R. Towards a Unified Framework for Version Modelling in Engineering Databases. ACM Computing Surveys, vol. 22, no. 4, Dec. 1990. - p. 375-408.
54. Kim W., Ballou N., Garza J., Woelk D. A Distributed Object-Oriented Database System Supporting Shared and Private Databases. — ACM Trans, on Office Infor- mation Systems, Jan. 1991. — pp. 31-51.
55. Kriegel H. Schiwietz M., Schneider R., Seeger B. Proc. Symp. On the Design and Implementation of Large Spatial Databases, Santa Barbara, —1989. — P.413-418.
56. Oraclelli Concepts. Release 2 (11.2.0.1). April 2010. Part No. A76965-01
57. Oraclelli Administrator's Guide. Release 2 (11.2.0.1). April 2010. Part No. A76956-0166. http://www.mark-itt.ru, Chapter 8. The Data Dictionary, URL http://www.mark-itt.ru/docs/oracle/SCN73/pt8.htm
58. Raskin, Jef. «Down with GUIs,» Wired pp. (December 1993).
59. Stonebraker M. The Design of the Postgres Storage System. Proc. VLDB Conf., 1987.69. http://help.sap.com/businessobject/productguides/boexi/en/crXIUserGde en.pdf, Chapter 1. Introduction to Crystal Reports XI.
60. Woelk D., Kim W. Multimedia Information Management in an Object-Oriented Database System. Proc. Intl. Conf. on Very Large Data Bases, Brighton, England, Sept. 1987, pp. 319-329.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.