Разработка и исследование технологии аналитической обработки данных с контекстными ограничениями тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат технических наук Полуянов, Андрей Николаевич

  • Полуянов, Андрей Николаевич
  • кандидат технических науккандидат технических наук
  • 2009, Омск
  • Специальность ВАК РФ05.13.17
  • Количество страниц 93
Полуянов, Андрей Николаевич. Разработка и исследование технологии аналитической обработки данных с контекстными ограничениями: дис. кандидат технических наук: 05.13.17 - Теоретические основы информатики. Омск. 2009. 93 с.

Оглавление диссертации кандидат технических наук Полуянов, Андрей Николаевич

Введение

Глава 1. Подходы к реализации OLAP-технологии

Глава 2. Автоматизация формирования гиперкуба

2.1. Общие принципы формирования гиперкуба

2.2. Формирование таблицы соединений

2.3. Формирование гиперкубического представления

2.4. Реализованные зависимости

2.5. Автоматизация формирования контекста приложения

Глава 3. Реализация программного обеспечения системы

3.1. Общее описание системы

3.2. Выбор средств для реализации системы

3.3. Реализация технологии формирования гиперкуба

Глава 4. Использование системы для анализа данных

4.1. Описание задачи

4.2. Анализ данных

4.3. Описание работы программного обеспечения 62 Заключение 67 Литература 70 Приложение 1. Сравнение разработанной технологии с программными продуктами Microsoft SQL Server и Oracle. 78 Приложение 2. Шкала оценки печеночной недостаточности

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка и исследование технологии аналитической обработки данных с контекстными ограничениями»

Актуальность темы

Оперативная обработка и анализ накопленной информации является актуальной проблемой для многих предприятий. Имея оперативный доступ к огромным массивам данных, сотрудники предприятия не в состоянии сделать из них какие-либо выводы без использования специальных методов представления и обработки информации. Наиболее популярным способом решения указанной проблемы в настоящее время является технология оперативной аналитической обработки данных OLAP (online analytical processing). Основой OLAP-технологии является построение гиперкубического (многомерного) представления данных.

Не менее актуальна проблема автоматизации анализа данных и для пользователей сравнительно небольших баз данных. Поскольку одни и те же данные приходится многократно реорганизовывать вручную для поиска скрытых в них закономерностей.

Многие аналитики OLAP придерживаются точки зрения, что кубическое представление данных должно быть постоянно хранимым и периодически обновляемым из операционной базы данных (MOLAP). Основным аргументом в пользу такого дублирования данных выдвигается требование минимального времени отклика системы на запросы пользователя. При этом предполагается, что на одном гиперкубе будут удовлетворены все потребности пользователя в анализе данных. Другой подход заключается в преобразовании схемы исходной операционной базы данных в "звезду" или "снежинку" (ROEAP). Такой подход нарушает принцип независимости данных, в- частности независимость схемы операционной базы данных от места и способа использования данных. Общий недостаток этих двух подходов в регламентированности предполагаемых операций анализа данных. И если пользователю потребуется по иному сгруппировать данные, то ему придется ни один рабочий день потратить на реорганизацию данных совместно со специалистом по информационным технологиям. Это и является основным сдерживающим фактором широкого распространения технологий аналитической обработки данных.

В данной работе предлагается следующая технологическая последовательность обработки данных:

1. Исходные данные должны быть представлены в реляционном нормализованном виде, и к ним обеспечивается доступ по технологии OLTP (online transaction processing);

2. Пользовательское представление данных в виде гиперкубов, реализующее технологию OLAP, обеспечивается инструментарием, преобразующим исходные данные в необходимый на данный момент гиперкуб;

3. Гиперкубическое представление данных далее используется для классификации, кластеризации, прогнозирования и т.д.

Существенные затраты времени для формирования схемы и реализации гиперкуба в данной работе предлагается сократить за счет автоматизации этого процесса с использованием свойств схемы исходной операционной базы данных.

Цель работы

Целью данной работы является исследование задачи автоматизации формирования схемы и представления данных в виде гиперкуба из реляционного представления данных при наложении ограничений на результирующее представление.

Основные результаты

Рассмотрим основные результаты (защищаемые положения), описанные в соответствующих разделах диссертации.

1. Разработана технология наложения контекстных и логических ограничений на гиперкубическое представление данных.

2. Адаптирована технология формирования гиперкуба на основе межмодельных преобразований данных при наложении ограничений на данные.

3. Разработан алгоритм проверки существования соединения отношений и доказана его корректность.

4. Исследованы свойства реализованных зависимостей, которые используются для направленного перебора отношений при формировании контекстов. Разработан алгоритм автоматического формирования контекстов.

5. Реализовано программное обеспечение генерации гиперкубов на основе межмодельных преобразований данных при наложении ограничений на данные.

6. С использованием программного обеспечения проведена подготовка и анализ данных по оценке эффективности методов лечения пациентов с печеночной недостаточностью. На основе анализа результатов разработано программное обеспечение для визуальной интерпретации состояния пациентов.

Апробация

Результаты работы доложены на следующих конференциях и семинарах:

VIII Школа-семинар «Математическое моделирование и информационные технологии». - Улан-Удэ, 2006.

Всероссийской конференция с международным участием «Знания - Онтологии - Теории» (30HT-07). - Новосибирск, 2007.

Семинар лаборатории МППИ ОФИМ СО РАН им. C.JI. Соболева. -Омск, 2008.

Публикации

По теме диссертационной работы опубликовано 5 работ, из них: статьи в изданиях из перечня ВАК - 1. Получено 1 свидетельство об отраслевой регистрации разработки.

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Заключение диссертации по теме «Теоретические основы информатики», Полуянов, Андрей Николаевич

Выводы

Рассмотренная технология формирования гиперкубов позволяет существенно автоматизировать работу пользователя за счет учета свойств схемы исходной базы данных. При этом не требуется преобразование этой схемы к виду "звезда" или "снежинка", что позволяет, сохранить положительные свойства исходной операционной базы данных. Рассмотренная технология не навязывает единственно возможное распределение таблиц меду мерами и- измерениями, как это сделано в Microsoft Analysis Services, и не отдает все на откуп пользователю, как это сделано в ORACLE Analytic Workspace Manager, a предлагает на выбор различные комбинации отношений, из которых исполняющая среда может корректно построить гиперкуб.

Разработанная технология ориентирована, прежде всего, на использование подготовленных данных в алгоритмах поиска скрытых закономерностей методами интеллектуального анализа данных.

Дальнейшее развитие системы предполагается провести по пути создания библиотеки модулей интеллектуального анализа данных с описанием шаблонов схем входных параметров, что позволит автоматизировать следующие этапы обработки данных, связанные собственно с анализом данных.

Основные научные результаты

На защиту выносятся следующие научные положения:

1. Разработана технология наложения контекстных и логических ограничений на гиперкубическое представление данных. Введено понятие контекстного ограничения на данные. Разработаны алгоритмы наложения контекстных и логических ограничений на гиперкубическое представление данных.

2. Адаптирована» технология формирования гиперкуба на основе межмодельных преобразований данных при наложении ограничений на данные. Технология формирования гиперкубического представления из реляционного представления данных на основе межмодельных преобразований адаптирована для возможности накладывания ограничений на данные при формировании гиперкубического представления. Для этого переработаны алгоритмы формирования таблицы соединений и гиперкубического представления данных.

3. Разработан алгоритм проверки существования- соединения отношений и доказана его корректность. Для проверки свойства существования соединения отношений разработан алгоритм, проверяющий данное свойство. Доказана корректность данного алгоритма.

Ф. Исследованы свойства реализованных зависимостей, которые используются для направленного перебора отношений при формировании контекстов. На основе исследования данных свойств, сформулированы правила для направленного перебора контекстов при автоматическом формировании контекста приложения и разработан алгоритм, автоматического формирования контекстов.

5. Реализовано программное обеспечение генерации гиперкубов на основе межмодельных преобразований данных при наложении контекстных ограничений на данные. Разработанное программное обеспечение реализует технологию преобразования, данных из реляционного представления- в гиперкубическое и позволяет накладывать на формируемое гиперкубическое представление данных контекстные ограничения.

6. С использованием программного обеспечения проведена подготовка и анализ данных по оценке эффективности методов лечения пациентов с печеночной недостаточностью. На основе анализа результатов разработано программное обеспечение для визуальной интерпретации состояния пациентов. Программное обеспечение было использовано для подготовки и аналитической обработки данных для заключения выводов об эффективности применения новых методов лечения и реабилитации пациентов с заболеваниями печени. Разработанное программное «Шкала оценки печеночной недостаточности» позволяет в динамике оценивать состояние пациентов с заболеваниями печени и визуализировать данное состояние, получить заключение об эффективности применяемого метода лечения.

Заключение

Список литературы диссертационного исследования кандидат технических наук Полуянов, Андрей Николаевич, 2009 год

1. Александрович Ю.С., Гордеев В.И. Оценочные и прогностические шкалы в медицине критических состояний. Справочник. — Санкт-Петербург: Сотис, 2007. - 137 с.

2. Андерсон Р. Доказательство правильности программ. — М.: Мир, 1982. 168 с.

3. Аргерих JI. Профессиональное PHP программирование, 2-е издание. Пер. с англ. - СПб: Символ-Плюс, 2003. - 1048 с.

4. Ахо А., Хопкрофт Дж., Ульман Дж. Построение и анализ вычислительных алгоритмов. М.: Мир, 1979. - 535 с.

5. Бергер А. Microsoft SQL Server 2005 Analysis Services. OLAP и многомерный анализ данных. СПб.: БХВ-Петербург, 2007. — 928 с.

6. Бешелев С.Д. и др. Математико-статистические методы экспертных оценок. -М.: Статистика, 1974. 159 с.

7. Бобровский С.И. Технологии Delphi 2006. Новые возможности -СПб.: Питер, 2006.-288 с.

8. Бронштейн И.Н., Семендяев К.А. Справочник по математике для инженеров и учащихся вузов. М.: Наука, 1981.- 720 с.

9. Генкин Я.Я. Новая информационная технология анализа медицинских данных. СПб.: Политехника, 1999. — 191 с.

10. Ю.Грабер M. SQL. Справочное руководство. -М: Лори, 1997. -291с.

11. П.Грофф Дж., Вайнберг П. SQL: полное руководство: Пер. с англ. -К.: Издательская группа BHV, 2000. 608 с.

12. Дейт К. Введение в системы баз данных. М.: Диалектика, 1998. -782 с.

13. Джексон Г. Проектирование реляционных баз данных для использования с микроЭВМ. М.: Мир, 1991. - 256 с.

14. Н.Зыкин C.B. Актуализация базы данных в OLAP-технологии // Материалы Всероссийской конференции с международным участием «Знания Онтологии — Теории» (30HT-07). -Новосибирск, 2007. - Т.1. - С. 73-79.

15. Зыкин C.B. Межмодельные отображения в базах данных. Омск: ОмГУ, 2000, Адрес: http://www.omsu.omskreg.ru/edumat/

16. Зыкин C.B. Построение отображения реляционной базы данных в списковую модель данных// Управляющие системы и машины. -2001.-№ 3.-С. 42-63.

17. Зыкин C.B. Формирование гиперкубического представления реляционной базы данных // Программирование. 2006. - № 6. - С. 348 - 354.

18. Зыкин C.B. Формирование пользовательского представления реляционной базы данных с помощью отображений // Программирование. 1999. - № 3. - С. 70 - 80.

19. Зыкин C.B., Полуянов А.Н. Реализация OLAP-технологии на основе межмодельных преобразований данных // Информационные технологии моделирования и управления. -2008. -№ 1(44). С. 72-77.

20. Зыкин C.B., Полуянов А.Н. Реализация ограничений на данные в OLAP-технологии // Материалы Всероссийской конференции с международным участием «Знания — Онтологии — Теории» (30HT-07). Новосибирск, 2007. - Т.1. - С. 80-82.

21. Зыкин C.B., Полуянов А.Н. Формирование представлений данных с контекстными ограничениями // Омский научный вестник. Серия "Приборы, машины и технологии", 2008, № 1(64). С. 141-144.

22. Калиниченко Л.А. Методы и средства интеграции неоднородных баз данных. — М.: Наука, 1983. 423 с.

23. Карпова Т. Базы данных. Модели, разработка, реализация. СПб.: Питер, 2001.-304 с.

24. Кнут Д.Э. Искусство программирования, т. 3. Сортировка и поиск, 2-е изд. М.: Вильяме, 2000. - 832 с.

25. Когаловский М.Р. Энциклопедия технологий баз данных. М.: Финансы и статистика, 2002. - 800 с.

26. Кузнецов С.Д. Выработка оптимальных планов выполнения запросов в реляционных СУБД// Программирование. 1990. - № 2. -С. 28-43.

27. Кузнецов С.Д. Логическая оптимизация запросов в реляционных СУБД// Программирование. 1989. - № 6. - С. 46 - 59.

28. Кульба В.В., Ковалевский С.С., Косяченко С.А., Сиротюк В.О. Теоретические основы проектирования оптимальных структур распределенных баз данных. М.: СИНТЕГ, 1999. - 660 с.

29. Лавров С.С., Гончарова М.И. Автоматическая обработка данных. Хранение информации в памяти ЭВМ. М.: Наука, 1971. - 160 с.

30. Мартин Дж. Организация баз данных в вычислительных системах. М.: Мир, 1980.-662 с.31 .Математика и кибернетика в экономике: Словарь-справочник / Сост: И.И. Гонтарева, М.Б. Немчинова, и др. изд. 2-е, перераб. и доп. — М.: Экономика, 1975. — 700 с.

31. Мейер Д. Теория реляционных баз данных. М.: Мир, 1987. -608 с.

32. Мюллер П. и др. — Таблицы по математической статистике. М.: Финансы и статистика, 1982. — 278 с.

33. Наумов А.Н., Вендров A.M., Иванов B.K. Системы управления базами данных и знаний. М.: Финансы и статистика, 1991. — 352 с.35.0зкархан Э. Машины баз данных и управление базами данных. -М.: Мир, 1989. 696 с.

34. Осипов М.А., Мачульский O.JL, Калиниченко JI.A. Отображение модели данных XML в объектную модель языка СИНТЕЗ// Программирование. 2000. - № 4. - С. 23 -30.

35. Педерсен Т.Б., Йенсен К.С. Технология многомерных баз данных// Открытые системы. 2002. - № 1. - С. 45-50.

36. Перевозчикова О.Л., Тульчинский В.Г. Структурный анализ и синтез маршрутных схем для задач Macro Mining // Кибернетика и системный анализ. 2003. - № 1. - С. 82 - 95.

37. Полуянов А.Н. Автоматизация формирования гиперкубического представления данных // Системы управления и информационные технологии, 2.2(32), 2008. С. 289-293

38. Сигнор Р., Стегман Михаэль О. Использование ODBC для доступа к базам данных. М.: БИНОМ, 1995.-384 с.

39. Ульман Д., Уидом Д. Введение в системы баз данных. М.: ЛОРИ, 1999.-374 с.

40. Ульман Д., Хопкрофт Д., Ахо А. Структуры данных и алгоритмы. -М.: Вильяме, 2000. 384 с.

41. Ульман Дж. Основы систем баз данных. М.: Финансы и статистика, 1983. - 334 с.

42. Фаронов В.В. Программирование баз данных в Delphi 7 Спб. : Питер, 2006. - 458 с.

43. Хаббард Ж. Автоматизированное проектирование баз данных: -М.: Мир, 1984.-293 с.

44. Ходоровский В.В. К вопросу нормализации отношений в реляционных базах данных// Программирование. 2002. - N 1. - С. 55-71.

45. Цаленко М.Ш. Моделирование семантики в базах данных. М.: Наука, 1989.-287 с.

46. Цикритзис Д. Модели данных. М.: Финансы и статистика, 1985. -343 с.

47. Четвериков В.Н., Ревунков Г.И., Самохвалов Э. Базы и банки данных. М.: Высшая школа, 1987. - 248 с.

48. Штефан И. А. Математические методы обработки экспериментальных данных: Учебное пособие / И.А. Штефан, В.В. Штефан; ГУ Кузбасский государственный технический университет. — Кемерово, 2003. — 123 с.

49. Armstrong R. Seven Steps to Optimizing Data Warehouse Performance// Computer, V. 34, № 12, 2001. P. 76-79.

50. Beeri C., Fagin R., Maier D., Yannakakis M. On the Desirability of Acyclic Database Schemes// ACM. 1983. - V 30, - № 3. - P. 479 -513.

51. Building OLAP llg Cubes. Адрес: http://www.oracle.com/technology/obe/olapcube/BuildiCubes.htm.

52. Cabibbo L., Torlone R. Querying Multidimensional Databases // Lecture Notes In Computer Science. 1997. - V.1369. - P.319-335.'

53. Casanova M., Fagin R., Papadimitriou C. Inclusion Dependencies and Their Interaction with Functional Dependencies// Journal of Computer and System Sciences. 1984. - № 28(1). - P. 29 - 59.

54. Chatziantoniou D. Using grouping variables to express complex decision support queries// Data & Knowledge Engineering, V. 61, 2007. P. 114-136.

55. Chatziantoniou D., Ross K.A. Partitioned optimization of complex queries// Inf. Syst., V. 32, № 3, 2007. P. 248-282.

56. Chaudhuri S., Dayal U. Data Warehousing and OLAP for Decision Support (Tutorial)// SIGMOD Conference, 1997, P. 507-508.

57. Eisenberg A., Melton J. SQL Standardization: The Next Steps// ACM SIGMOD Record. V. 29 - № 1 - 2000, P. 63-67.

58. Ganti V., Gehrke J., Ramakrishnan R. Mining Very Large Data Sets// Computer, Aug. 1999, P. 38-45.

59. Garmany J., Walker J., Clark T. Logical Database Design Principles. — New York: Auerbach Publications, 2005. 180 p.

60. Gray J., Chaudhuri S., Bosworth A., etc. Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals// Data Mining and Knowledge Discovery. 1997. - № 1. - P. 2953.

61. Gupta A., Harinarayan V., Quass D. Aggregate-query processing in data warehousing environment // 21th International Conference on Very Large Data Bases (VLDB 1995), Zurich. 1995.

62. Harinarayan V., Rajaraman A., Ullman J. D. Implementing Data Cubes Efficiently// SIGMOD Conference. Montreal, CA. -1996. - P. 205216.

63. Lechtenborger J., Vossen G. Multidimensional normal forms for data warehouse design// Inf. Syst., V. 28, № 5, 2003. P. 415-434.

64. Levene M., Vincent M.W. Justification for Inclusion Dependency Normal Form// IEEE Transactions on Knowledge and Data Engineering. 2000. - V 12,-№ 2.-P. 281 -291.

65. Li H.-G., Yu H., Agrawal D., Abbadi A.E. Progressive ranking of range aggregates// Data & Knowledge Engineering, V. 63, 2007. P. 425.

66. Miller L., Nila S. Data Warehouse Modeler: A CASE Tool for Warehouse Design // Thirty-First Annual Hawaii International Conference on System Sciences. 1998. - V.6. - P.42-48.

67. Missaoui R., Godin R. The Implication Problem for Inclusion Dependencies: A Graph Approach// SIGMOD Record. 1990. - V 19, -№ 1.-P. 36-40.

68. Parsaye K. OLAP and Data Mining: Bridging the Gap// Database Programming and Design. 1997. - № 2. - P. 30-37.

69. Parsaye K. Surveying Decision Support: New Realms of Analysis// Database Programming and Design. 1996. - № 4. - P. 26-33.

70. Pedersen T.B., Jensen C.S., Dyreson C.E. A Foundation for Capturing and Querying Complex Multidimensional Data// Information Systems. -V. 26-№.5-2001

71. Vassiliadis P., Sellis T. A survey of logical models for OLAP databases// SIGMOD Ree., V. 28, № 4, 1999. P. 64-69.

72. Zykin S.V. Generation of User View for a Relational Database by Mappings// Programming and Computer Software. V. 25. - №. 3. -1999.-P. 173 - 183.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.