Методика проектирования интегрированных программных систем многомерного анализа данных тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Ровкин, Игорь Олегович

  • Ровкин, Игорь Олегович
  • кандидат технических науккандидат технических наук
  • 2007, Москва
  • Специальность ВАК РФ05.13.11
  • Количество страниц 114
Ровкин, Игорь Олегович. Методика проектирования интегрированных программных систем многомерного анализа данных: дис. кандидат технических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Москва. 2007. 114 с.

Оглавление диссертации кандидат технических наук Ровкин, Игорь Олегович

ВВЕДЕНИЕ.

ГЛАВА 1. ХАРАКТЕРИСТИКА ОСОБЕННОСТЕЙ И ПРОБЛЕМ МНОГОМЕРНОГО АНАЛИЗА ДАННЫХ.

1.1. Бизнес-интеллект и СППР.

1.2. OLTP и анализ данных на основе транзакционных систем.

1.3. Подготовка данных для анализа и хранилища данных.

1.4. Аналитические средства.

1.5. Этапы развития многомерного анализа данных.

1.6. Функциональность OLAP-систем.

1.7. Классификация OLAP-систем по способам хранения детальных и консолидированных данных.

1.8. Проблемы исследования технологии OLAP-анализа, ориентированной на малый и средний иизнес.

ГЛАВА 2. МЕТОДОЛОГИЯ ИНТЕГРИРОВАННОГО ПОДХОДА К ПОСТРОЕНИЮ АНАЛИТИЧЕСКИХ OLAP-СИСТЕМ.

2.1. Классификация аналитических OLAP-систем по степени интеграции компонентных технологии.

2.2. Основные требования к интегрированным OLAP-системам и выбор инструментальной среды для построения интегрированных аналитических систем.

2.3. Метод интеграции компонентных технологий OLAP на основе универсальных фреймовых структур.

2.4. Функциональные возможности языка программирования для разработки интегрированных OLAP-систем.

2.5. Интеграция на основе встроенных внутренних и внешних Интерфейсов.

2.6. Этапы проектирования интегрированной OLAP-системы.

2.6.1. Формирование источников данных.

2.6.2. Подготовка данных для многомерной обработки.

2.6.3. Создание гиперкубовой структуры.

2.6.4. Вывод результатов многомерного анализа данных.

ГЛАВА 3. ИССЛЕДОВАНИЕ ФУНДАМЕНТАЛЬНЫХ ПРОБЛЕМ МНОГОМЕРНОГО OLAP-АНАЛИЗА.

3.1. Анализ свойств неопределенности вывода решений гиперкуба.

3.1.1. Базовые свойства многомерной модели данных.

3.1.2. Исследование свойств неопределенности вывода решений с помощью гиперкубовых структур.

3.2. Анализ влияния «взрывного» роста объема данных на производительность и масштабируемость гиперкубовых структур.

3.2.1. Стратегии повышения производительности и масштабируемости хранилищ данных.

3.2.1.1. ILM-стратегия повышения производительности и масштабируемости хранилищ данных.

3.2.1.2. Стратегия секционирования таблиц и индексов хранилища.

3.2.1.3. Стратегия параллельного исполнения запросов.

3.2.2. Анализ свойств декомпозируемое™ гиперкубовых структур.

3.2.2.1. Аддитивная декомпозиция гиперкуба многомерных данных.

3.2.2.2. Неаддитивная декомпозиция гиперкуба многомерных данных.

3.2.3 Сравнительный анализ стратегий повышения производительности и масштабируемости OLAP-систем.

3.3. Метод аддитивной декомпозиции гиперкубов в условиях неаддитивного индексирования данных.

3.3.1. Анализ условий индексирования для аддитивной декомпозиции гиперкубовой структуры.

ГЛАВА 4. КОМПЛЕКС АЛГОРИТМОВ И ПРОГРАММ ИНТЕГРИРОВАННОЙ OLAP-СИСТЕМЫ ДЛЯ ПРЕДПРИЯТИЙ ТОРГОВЛИ В СФЕРЕ МАЛОГО И СРЕДНЕГО БИЗНЕСА.

4.1. Типовые бизнес-процессы в подсистеме сбыта промышленно-торгового комплекса.

4.2. Программные модули OLAP-системы для решения задач прецизионного сегментирования клиентской базы.

4.3. Поддержка принятия решений по обеспечению равномерности отгрузок товара заказчикам.

4.4. Показатели эффекта от применения разработанной информационно-аналитической системы.

4.5. Внедрение интегрированных OLAP-решений.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методика проектирования интегрированных программных систем многомерного анализа данных»

Актуальность работы.

Повсеместное распространение компьютеров на производстве, в науке, бизнесе, образовании, быстрое увеличение числа информационных систем масштаба предприятия во всем мире, широкий охват компьютерными средствами автоматизации самых разнообразных технологий, отраслевых комплексов, финансовых структур, международных корпораций, предприятий малого, среднего и крупного бизнеса - все это привело к накоплению, хранению и обработке огромных объемов информации, от оперативности и качества анализа которой во многом стала зависеть выживаемость компаний в условиях острой рыночной конкуренции.

Характерно, что большие и быстро растущие объемы информации пополняются главным образом за счет «сырых» и необработанных данных, из которых трудно извлечь полезную информацию при отсутствии современных аналитических программных средств, способных работать с большими объемами данных и извлекать из них ценные знания, помогающие принимать важные решения управленческого характера. Поэтому проблема эффективного извлечения знаний из быстро накапливающихся массивов необработанных данных становится все более актуальной по мере роста объемов информации, используемой предприятиями п компьютерном виде.

Повышение вычислительной мощности компьютеров способствует ускорению обработки больших объемов данных, но этого недостаточно для извлечения знаний, поскольку знания как более сложный вид информации получают с помощью специальных интеллектуальных методов обработки данных, имитирующих процессы мышления человека. В настоящее время важным новым и перспективным направлением в интеллектуальном извлечении знаний из данных является многомерный OLAP-анализ (аббревиатура по названию On-Line Analytical Processing переводится как многомерный оперативный анализ данных) [5, 57], который базируется на интеллектуальном процессе обобщения детализированных данных и позволяет получать знания из консолидированных по разным аспектам анализа взаимосвязанных фрагментов информации. Благодаря такой интеллектуальной особенности OLAP-анализ получил в последние годы широкое распространение в практических приложениях, так как он дает возможность аналитикам и менеджерам легко работать с огромными объемами исходных данных, переводя их в очень сжатую, наглядную и синтезированную форму, по существу, в форму извлеченных из данных знаний.

Однако, с позиций построения систем OLAP-анализа, интеллектуализация методов анализа, к сожалению, сопровождается усложнением моделей, алгоритмов, программ и разрабатываемых аналитических систем, что несомненно отражается на стоимости программных продуктов и затратах, связанных с их внедрением и эксплуатацией. Поэтому в полной мере воспользоваться преимуществами OLAP-анализа пока могут только компании крупного бизнеса, обладающие необходимыми ресурсами для поддержки подобных усложненных и дорогих аналитических решений, способных работать с терабайтными базами и хранилищами данных. Более широкое распространение этой перспективной информационной технологии на сектор малого и среднего бизнеса сдерживается из-за отсутствия недорогих, компактных и высокоэффективных аналитических систем на основе технологии OLAP, ориентированных на небольшие предприятия с ограниченными объемами баз данных, для которых первостепенное значение имеют простота и удобство работы с интеллектуальными процессами обработки данных, а не необходимость углубляться в специфику технологии работы со сверхбольшими объемами данных.

Из сказанного выше следует, что на современном этапе развития OLAP-анализа актуальна проблема исследования методологии построения систем многомерного анализа данных для сектора малого и среднего бизнеса, а также создание новых подходов к интеллектуальной обработке данных на основе OLAP-технологии с учетом специфики задач, решаемых в малом бизнесе.

Целью работы является формирование и исследование методологии построения компактных интегрированных систем многомерного OLAP-анализа, ориентированных на малый и средний бизнес, а также разработка комплекса алгоритмов и программ для реализации интегрированного подхода к OLAP-технологии и решения задач интеллектуальной обработки данных в условиях действия ограничений, характерных для малого бизнеса.

Для достижения этой цели в работе решены следующие задачи:

1. Выполнен анализ существующих методологий и методов построения аналитических систем многомерной обработки данных.

2. Предложена новая классификация систем многомерного OLAP-анализа по степени интегрированности компонентных технологий.

3. Разработаны концепция и принципы интегрированного подхода к построению архитектуры OLAP-систем.

4. Сформирована и исследована методология построения компактных интегрированных систем многомерного OLAP-анализа, ориентированных на малый и средний бизнес.

5. Исследованы фундаментальные свойства многомерных моделей данных в виде гиперкубовых структур и проблемы теоретического и прикладного характера, возникающие в многомерном анализе в связи с реализацией интегрированного подхода.

6. Проведен анализ и выбор инструментальной среды для разработки интегрированных OLAP-систем.

7. Разработан комплекс методов, алгоритмов и программ для решения типовых задач многомерного анализа данных и поддержки принятия решений в компаниях малого и среднего бизнеса.

8. На основе полученных в диссертации теоретических результатов разработана практическая OLAP-система, которая внедрена в оптовых торгово-производственных компаниях, бизнес деятельность которых связана с реализацией металлопродукции и продукции пищевой промышленности.

Структура работы

Диссертация состоит из введения, четырех глав, заключения, списка литературы. Во введении обоснована актуальность темы диссертации и поставлена общая цель работы.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Ровкин, Игорь Олегович

ВЫВОДЫ ГЛАВЫ 4

1. На основе разработанной в диссертации методологии построения интегрированных OLAP-систем создан комплекс алгоритмов и программ для многомерного анализа типовых бизнес процессов, осуществляемых оптовыми торгово-производственными предприятиями малого и среднего бизнеса. Разработана общая модель потоков данных оптовой торгово-промышленной компании и типовые приложения по многомерному анализу данных на основе интегрированной OLAP-системы.

2. С помощью комплекса алгоритмов и программ многомерного анализа разработана информационно-аналитическая OLAP-система, которая была внедрена в нескольких промышленных комплексах, специализирующихся в области производства и оптовой торговли пищевой продукцией, а также в компании по производству и реализации металлопродукции ООО «Металлик» г. Одинцово, Московской области. Результаты внедрения подтвердили высокую эффективность преложенных в диссертации теоретических и прикладных решений.

3. Полученные в диссертации результаты внедрены в учебный процесс на кафедре «Математическое обеспечение вычислительных систем» факультета Информационные технологии Университета Н.Нестеровой, г. Москва.

ЗАКЛЮЧЕНИЕ

В диссертации изложены научно-обоснованные теоретические и программные разработки, обеспечившие решение актуальной научной и практической задачи -построения компьютерных интегрированных систем многомерного анализа данных и поддержки принятия решений на основе OLAP-технологии, ориентированных на широкий класс предприятий малого и среднего бизнеса.

В диссертации получены следующие основные результаты:

1. Проведен анализ современных методов обработки информации в базах данных и хранилищах, а также методов построения систем поддержки принятия решений на основе многомерного OLAP-анализа, показавший актуальность исследования и развития этого перспективного направления информационной технологии, связанного с интеллектуализацией обработки больших объемов слабоструктурированных данных.

2. Предложен новый способ классификации OLAP-технологии, учитывающий степень взаимодействия основных компонентов многослойной структуры аналитической системы и позволивший выделить для исследования класс интегрированных OLAP-систем.

3. Обоснован принцип интеграции компонентных технологий в составе многослойного OLAP-анализа, обеспечивающий гибкую сбалансированность OLAP-решений и возможность построения компактных, недорогих и эффективных в функциональном отношении систем многомерного анализа данных, ориентированных на обширный класс предприятий малого и среднего бизнеса.

4. Сформирована и исследована методология построения компактных интегрированных систем многомерного OLAP-анализа. Основу методологии составляет интегрированная инструментальная среда разработки приложений, позволяющая создавать системно целостные OLAP-решения. Преимуществом такой методологии является независимость основных характеристик OLAP-системы от приоритетности отдельных компонентных технологий и возможность обеспечивать при разработке систем гибкое сочетание технологических решений.

5. Исследованы фундаментальные свойства многомерных моделей данных в виде гиперкубовых структур и проблемы, возникающие в многомерном анализе в связи с реализацией интегрированного подхода. Получены теоретические результаты для эффективного решения следующих проблем: проблемы снижения неопределенности логического вывода результатов для разреженных гиперкубовых структур, проблемы преодоления «взрывного» роста объемов многомерных данных с помощью методов декомпозиции многомерных моделей данных, проблемы устранения нарушений целостности многомерных данных в результате действия нерегламентированных запросов к гиперкубу.

6. На базе предложенной в диссертации методологии разработан комплекс методов, алгоритмов и программ для решения типовых задач многомерного анализа данных и поддержки принятия решений в компаниях малого и среднего бизнеса. Эффективность разработанных методов подтверждена с помощью вычислительных экспериментов при работе с реальными базами данных.

7. На основе полученных в диссертации теоретических результатов разработана практическая OLAP-система, которая внедрена в оптовых торгово-производственных компаниях, бизнес деятельность которых связана с реализацией металлопродукции и продукции пищевой промышленности.

8. Результаты диссертации внедрены в учебные процессы подготовки инженерных кадров в системе высшего образования.

Список литературы диссертационного исследования кандидат технических наук Ровкин, Игорь Олегович, 2007 год

1. Арсеньев С.Б., Бритков В.Б., Маленкова Н.А. Использование технологии анализа данных в интеллектуальных информационных системах.// В кн.: Управление информационными потоками. -М.: УРСС, ИСА РАН,2002, с. 47-68.

2. Архипенков С. ORACLE Express OLAP. М.: Диалог МИФИ, 2000,320 с.

3. Архипенков С.Я. Как добываются знания. Применение технологии хранилищ данных и оперативного анализа в банковских системах поддержки принятия решений.// Банковские технологии, №2,1998.

4. Архипенков С., Голубев Д., Максименко О. Хранилища данных. От концепции до внедрения.- М.: ДИАЛОГ МИФИ, 2002, 528 с.

5. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. СПБ: БХВ-Петербург, 2004, 336 с.

6. Борк Джеймс. «Увеличение прибыли с помощью аналитических решений»// «Computerworld» 06/2001.

7. Бритков В.Б., Смирницкий А.В. Системный анализ основных направлений разработки комплексных корпоративных систем управления.// В кн.: Управление информационными потоками. -М.: УРСС, ИСА РАН,2002, с. 85-98.

8. Буров К. Обнаружение знаний в хранилищах данных. // Открытые системы, №5-6, 1999.

9. Вайдьнатха Г.К., Дешпанде К., Костелак Д. OraclelOl: настройка производительности. -М.: «Лори», 2003,407 с.

10. Вьейра P. SQL Server 2000. Программирование в 2 ч,- М.: БИНОМ. Лаборатория знаний, 2004, 807 с.

11. Гоппа В.Д. Введение в алгебраическую теорию информации. -М.: Наука, 1995.

12. Грешилов А.А. Статистические методы принятия решений. -М.: Радио и связь, 1998.

13. Дейт К.Дж. Введение в системы баз данных. 7-е изд. М.: «Вильяме», 2001.

14. Дюк В., Самойленко A. Data mining: учебный курс. -Спб.: Питер, 2001.

15. Корнеев В.В., Гареев А.Ф., Васютин С.В., Райх В.В. Базы данных. Интеллектуальная обработка информации. -М.: «Нолидж», 2000,352 с.

16. Луни К., Терьо М. и эксперты TUSC. Oracle9i, настольная книга администратора. ~М.: «Лори», 2004, 748 с.

17. Львов В. Создание систем поддержки принятия решений на основе хранилищ данных.// СУБД, №3,1997, с.30-40.

18. Макаров И.М., Рахманкулов В.З., Ахрем А.А., Ровкин И.О. Построение СППР на основе OLAP-технологии. // Информационные технологии и вычислительные системы, № 1,2005, с.19-30.

19. Макаров И.М., Рахманкулов В.З., Ахрем А.А., Ровкин И.О. Исследование свойств гиперкубовых структур в OLAP-системах.// Информационные технологии и вычислительные системы, № 2,2005, с А—9.

20. Мартин Н., Ингленд Дж. Математическая теория энтропии. ~М.: Мир, 1988.

21. Потгитер Й. Масштабируемость OLAP-данных. IntersoftLab, 2006. http://www.citcity.ru

22. Саймон А. Обработка транзакций.// СУБД, №2,1977, с.70-82.

23. Сахаров А.А. Принципы проектирования и использования многомерных баз данных (на примере Oracle Express Server)// СУБД, №3,1996.

24. Спирли Э. Корпоративные хранилища данных. Планирование, разработка, реализация. Т.1: Пер. с англ.- М.: «Вильяме», 2001,400 с.

25. Способы оптимизации работы Хранилищ данных. IntersoftLab, 2006. http://www.intersoftlab.ru

26. Тихонов А.Н., Цветков В.Я. Методы и системы поддержки принятия решений.-М.: МАК-ПРЕССЮ, 2001.

27. Трахтенгерц Э.А. Компьютерная поддержка принятия решений.-М.: СИНЕГ, 1998.

28. Трофимова Л.А., Трофимов В.В. Управленческие решения (методологические аспекты).-СПб.: Изд-во СПбГУЭФ, 2000.

29. Федоров А., Елманова Н. Введение в OLAP-технологии Microsoft. М.: Диалог МИФИ, 2002,268 с.

30. Холл К. Интеллектуальное извлечение информации из транзакций, 2001, http://www.OLAP.ru

31. Хэпгуд Ф. Системы поддержки принятия решений (СППР) стали важнейшими инструментами бизнеса, 2001, http:// www.OLAP.ru

32. Шеремет И.А. Интеллектуальные программные среды для АСОИ. -М.: Наука, 1994.

33. Эдельштейн X. Битовые массивы ускоряют обработку запросов к информационным хранилищам// Компьютеруик, 28 (234) 1996.

34. Ben Messaoud R. Loudcher Rabaseda S. Boussaid O. Missaoui R. Enhanced mining of association rules from data cubes.// Proceedings of the 9th ACM international workshop on Data warehousing and OLAP, 2006, p. 11-18

35. Berry M., Linoff G., Mastering Data Mining, John Wiley & Sons, 2000.

36. Body M., Miquel M., Bedard Y. Tchounikine A. Handling Evolutions in Multidimensional Structures.// DOLAP '05, November 4-5,2005, Bremen, Germany.

37. Cuzzocrea A. Providing Probabilistically-Bounded Approximate Answers to Non-Holistic Aggregate Range Queries in OLAP. // DOLAP '05, November 4-5, 2005, Bremen, Germany.

38. Dehne F., Eavis Т., RauChaplin A. Parallel Querying of ROLAP Cubes in the Presence of Hierarchies. // DOLAP '05, November 4-5,2005, Bremen, Germany.

39. Demarest Marc. Building The Data Mart // DBMS July 1994 v7, n8, p44(7).

40. Furtado P. Experimental evidence on partitioning in parallel data warehouses.// Proceedings of the 7th ACM international workshop on Data warehousing and OLAP,2004, p. 23-30.

41. Golfarelli M., Rizzi S., Proli A. Designing what-if analysis: towards a methodology.// Proceedings of the 9th ACM international workshop on Data warehousing and OLAP, 2006, p. 51-58.

42. Han J., Kamber M., Data mining: concepts and techniques, Morgan Kaufmann, San Francisco, 2001.

43. Horner J., Song I., Chen P. An analysis of additivity in OLAP systems.// Proceedings of the 7th ACM international workshop on Data warehousing and OLAP, 2004, p. 8391.

44. Inmon W.H., Building the Data Warehouse, John Wiley & Sons, New York, 1996.

45. Inmon W.H., Rudin K., Buss C.K., Sousa R., Data Warehouse Performance, John Wiley & Sons, New York, 1999.

46. Inmon W.H., Zachman J., Geiger J. Data Stores, Data Warehousing, and the Zachman framework. McGraw-Hill, 1997.

47. Jones M., Song I. Dimensional modeling: identifying, classifying & applying patterns.// Proceedings of the 8th ACM international workshop on Data warehousing and OLAP,2005, p.29-38.

48. Kimball R., Merz R., The Data Webhouse Toolkit: Building the Web-Enabled Data Warehouse, John Wiley & Sons, New York, 2000.

49. Knowledge Discovery Through Data Mining: What Is Knowledge Discovery? Tandem Computers Inc., 1996.

50. Parsaye K. A Characterization of Data Mining Technologies and Processes // The Journal of Data Warehousing.- 1998.-1

51. Пендс H. Анализ рынка OLAP. http://www.olapreport.com.

52. Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate. E.F.Codd, S.B.Codd, C.T. Salley, E.F.Codd & Associates, 1993.

53. Rud O.C., Data Mining Cookbook: Modeling Data for Marketing, Risk and Customer Relationship Management, Wiley & Sons, 2000.

54. Stockinger K. , Wu K., Arie Shoshani A. Strategies for processing ad hoc queries on large data warehouses.// Proceedings of the 5th ACM international workshop on Data Warehousing and OLAP, 2002, p. 72-79.

55. Swaminathan G. Strategies for Partitioning Relational Data Warehouses in Microsoft SQL Server, 2005. http://www.microsoft.com.

56. Theodoratos D. Exploiting hierarchical clustering in evaluating multidimensional aggregation queries.// Proceedings of the 6th ACM international workshop on Data warehousing and OLAP, 2003, p. 63-70.

57. Thomsen E. OLAP Solutions. John Wiley & Sons, Inc. 2002.

58. Tiwana A., Essential Guide to Knowledge Management, The E-Business and CRM Applications, Prentice Hall, 2000.

59. Todman C., Designing a Data Warehouse: Supporting Customer Relationship Management, Prentice Hall, 2001.

60. Watson H., Gray P. Decision Support in the Data Warehouse. Prentice-Hall, 1997.

61. Welbrock P.R. Strategic Data Warehousing Principles Using SAS Software. -SAS Institute, 1998.

62. Witten I.H., Frank E., Data Mining, Morgan Kaufmann Publishers, 2001.

63. Zachman J. A Framework for Information Systems Architectures // IBM Systems Journal, v.26, #3,1987.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.