Модели и методы обеспечения отказоустойчивости компьютерных систем бизнес-аналитики тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Сивов Виктор Валерьевич
- Специальность ВАК РФ00.00.00
- Количество страниц 240
Оглавление диссертации кандидат наук Сивов Виктор Валерьевич
Реферат
Synopsis
Введение
ГЛАВА 1. Состояние и пути развития компьютерных систем, ориентированных на задачи бизнес-аналитики
1.1 Особенности систем бизнес-аналитики
1.2 Применение Business Intelligence систем
1.3 Сравнение ключевых программных продуктов для бизнес-аналитики
1.4 Обзор современных архитектур BI систем
1.4.1 Роль хранилища данных и базы данных в BI системе
1.4.2 Недостатки существующих подходов по построению архитектуры BI систем
1.4.3 Недостатки существующих подходов по построению архитектуры аналитического хранилища данных
1.5 Выводы по главе
ГЛАВА 2. Методы и решения по построению отказоустойчивых компьютерных систем бизнес-аналитики
2.1 Предлагаемая архитектура BI систем
2.2 ИТ-стандарты
2.3 Меры по обеспечению отказоустойчивости хранилища данных
2.4 Выводы по главе
ГЛАВА 3. Испытания отказоустойчивых компьютерных систем бизнес-аналитики и экспериментальное обоснование проектных решений построения компьютерных систем бизнес-аналитики
3.1 Нагрузочное тестирование конфигурации компьютерных BI систем132
3.2 Анализ конфигурации кластера хранилища данных для аналитических
запросов
Выводы по главе
ГЛАВА 4. Моделирование и обоснование проектных решений построения отказоустойчивых компьютерных систем бизнес-аналитики
4.1 Марковская модель надежности кластера для различных дисциплин восстановления системы
4.2. Марковская модель кластера аналитического хранилища с динамической миграцией виртуальных машин
4.3. Модель доступности кластера при актуализации информации после восстановлении узлов
Выводы по главе
Заключение
Список сокращений и условных обозначений
Словарь терминов
Список литературы
Список иллюстративного материала
Приложение
Приложение
Приложение
Тексты публикаций
Реферат
Общая характеристика диссертации.
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Модели и методы поддержки автоматизированного проектирования высоконадежных кластерных систем с использованием технологий виртуализации2017 год, кандидат наук Алексанков Сергей Михайлович
Метод и модели поддержки автоматизированного проектирования функционально-надежных Кластерных компьютерных систем реального времени2016 год, кандидат наук Богатырев Анатолий Владимирович
Автоматизация управления предприятием в реальном масштабе времени с применением технологий виртуализации2013 год, кандидат наук Сокол, Андрей Андреевич
Разработка методов и алгоритмов построения отказоустойчивых распределенных систем хранения данных на основе модулярной арифметики2019 год, кандидат наук Назаров Антон Сергеевич
Моделирование и оптимизация функционирования твердотельной системы хранения данных2019 год, кандидат наук Пономарев Вадим Анатольевич
Введение диссертации (часть автореферата) на тему «Модели и методы обеспечения отказоустойчивости компьютерных систем бизнес-аналитики»
Актуальность темы.
Актуальность темы диссертации определяется интенсивным развитием систем бизнес-аналитики (Business Intelligence, BI), которые в современной деловой среде выступают в роли инструментов для эффективного принятия решений на основе данных. В связи с расширением сфер применения BI систем и увеличением объемов данных, подлежащих анализу, возрастает значимость обеспечения их надежности и безопасности.
Современный бизнес характеризуется высокой конкурентностью и потребностью в оперативном доступе к актуальным и точным данным. В этом контексте архитектура BI систем и хранилищ данных является основой для повышения производительности предприятий. Однако, распространение систем бизнес-аналитики также связано с рисками в области информационной безопасности, конфиденциальности и отказоустойчивости, которые необходимо учитывать при проектировании и внедрении подобных систем.
Учитывая значимость и сложность проблемы, многие компании и исследователи занимаются вопросами оптимизации архитектуры BI систем. Отмечается растущий интерес к инвестициям в информационную безопасность и аналитические технологии, что свидетельствует о высокой актуальности исследований в данной области. Важность корректного проектирования архитектуры BI систем подчеркивается их влиянием на успешность внедрения аналитических решений в компаниях и возможностях, которые открываются благодаря их использованию.
Целью диссертационной работы является повышение надежности и своевременности вычислений отказоустойчивых компьютерных систем, ориентированных на реализацию целевой архитектуры Business Intelligence системы.
Для достижения данной цели в рамках диссертации были поставлены и решены следующие задачи:
1. Выполнить анализ существующих архитектур BI-систем и определить требования для вычислительных систем, предназначенных для выполнения задач в области бизнес-интеллекта.
2. Определить систему показателей оценки надежности и своевременности обслуживания запросов компьютерных систем ориентированных на задачи BI-систем.
3. Сравнить подходы построения компьютерных систем, ориентированных на задачи BI.
4. Определить возможности по обеспечению отказоустойчивости, надежности и производительности компьютерных систем, ориентированных на задачи BI, в том числе хранилищ данных.
5. Построить модели надежности компьютерных систем, ориентированных на задачи BI.
6. Обосновать выбор и оценить эффективность компьютерных систем, ориентированных на задачи BI.
7. Оптимизировать структуру, функционирование и обслуживание компьютерных систем, ориентированных на задачи BI.
8. Провести нагрузочное тестирование рассматриваемых вариантов построения компьютерных систем, ориентированных на задачи BI.
9. Оценить эффективность предложенных решений построения отказоустойчивых компьютерных систем, ориентированных на задачи BI.
Методы исследования. Для решения задач диссертации и достижения поставленной цели в работе были использованы методы моделирования, теории вероятностей и математической статистики, теории массового обслуживания и теории надежности.
Основные положения, выносимые на защиту:
1. Методы построения отказоустойчивой архитектуры компьютерных системы бизнес-аналитики и аналитического хранилища данных, на основе сочетания виртуализации, миграции виртуальных вычислительных машин, кластеризации, резервного копирования и репликации данных при организации многоуровневого восстановления актуальной информации после отказов узлов системы, что позволило повысить их надежность, при обеспечении непрерывности обслуживания запросов и снижении задержек их ожидания в очередях.
2. Модели оценки надежности отказоустойчивых компьютерных систем, ориентированных на задачи бизнес-аналитики, позволяющие учесть многоуровневое восстановление актуальной информации после отказов узлов, включая их физическое восстановление, восстановление информации на основе данных последнего резервного копирования и репликации данных с узлов, сохранивших работоспособность.
3. Модели и методы обоснования выбора, организации структуры, вычислительных процессов, дисциплин восстановления и обслуживания компьютерных систем, которые позволили повысить их отказоустойчивость, надежность и вероятность своевременного выполнения запросов при снижении задержек выполнения функциональных задач бизнес-аналитики. Предлагаемое методы поиска и обоснование выбора проектных решений основывается на сочетании использования аналитических моделей и натурных экспериментов.
Научная новизна:
1. Методы построения отказоустойчивой архитектуры компьютерных системы бизнес-аналитики и аналитического хранилища данных, способствующие повышению их надежности, при поддержке непрерывности обслуживания запросов и снижении задержек их ожидания на основе сочетания виртуализации, миграции виртуальных вычислительных машин, кластеризации, резервного копирования и репликации данных при организации многоуровневого восстановления актуальной информации после отказов узлов системы.
2. Модели оценки надежности отказоустойчивых компьютерных систем, ориентированных на задачи бизнес-аналитики, учитывающие многоуровневое поэтапное восстановление актуальной информации после отказов, включая физическое восстановление узлов, восстановление информации на основе резервного копирования и репликации данных с узлов, сохранивших работоспособность.
3. Модели и методы обоснования выбора, организации, структуры, вычислительных процессов, дисциплин восстановления и обслуживания компьютерных систем, направленных на повышения их отказоустойчивости и надежности при снижении задержек выполнения функциональных задач бизнес-аналитики. Предлагаемое обоснование выбора проектных решений основывается на сочетании аналитических моделей и натурных экспериментов.
Научно-техническая задача, решаемая в диссертации, заключается в разработке методологии и инструментов для проектирования и анализа отказоустойчивых компьютерных систем, ориентированных на реализацию архитектуры BI-систем. Решение данной задачи включает адаптацию современных подходов в области моделирования, вероятностной теории, теории массового обслуживания и применение различных технологий программирования. Это позволит предложить комплексный подход к проектированию, оценке и оптимизации компьютерных систем для решения задач BI, способствуя повышению эффективности принятия деловых решений и снижению рисков, связанных с надежностью и безопасностью информационных ресурсов.
Объектом исследования являются отказоустойчивые компьютерные системы, ориентированные на реализацию целевой архитектуры BI-систем и обеспечение информационной безопасности.
Предметом исследования является методы, модели и алгоритмы построения и оптимизации отказоустойчивых компьютерных систем для реализации архитектуры BI-систем.
Теоретическая значимость:
Разработаны аналитические модели, методы проектирования и тестирования реализаций отказоустойчивой архитектуры компьютерных системы бизнес-аналитики и аналитического хранилища данных, обеспечивающие повышение их надежности, при поддержке непрерывности обслуживания запросов и снижении задержек их ожидания на основе сочетания виртуализации, миграции виртуальных вычислительных машин, кластеризации, резервного копирования и репликации данных при организации многоуровневого восстановления актуальной информации после отказов узлов системы.
Практическая значимость результатов диссертационной работы заключается в следующем:
1. Спроектирована и реализована распределенная компьютерная система, ориентированная на задачи бизнес-аналитики.
2. Предложены модели оценки и методы повышения надежности компьютерных систем кластерной архитектуры, ориентированные на решение задач бизнес-информатики.
3. Внедрена компьютерная система для задач бизнес-аналитики в банковской сфере. Результаты внедрения подтверждены соответствующим актом, выданным Банком России.
Достоверность представленных научных результатов основывается на адекватности выбора и использования математических методов, подкреплена аналитическим моделированием в системе компьютерной математики Mathcad 15, достоверности исследований подтверждено участием в национальных и международных конференциях, а также успешным внедрением результатов. Полученные выводы не противоречат исследованиям, опубликованным в отечественных и зарубежных изданиях печати.
Внедрение результатов работы
Результаты диссертации внедрены в платформу "Единое Хранилище Данных" Банка России, что подтверждается соответствующим актом. Результаты внедрения диссертационной работы позволили увеличить отказоустойчивость и надежность компьютерных систем бизнес-аналитики и аналитического хранилища данных, а также повысить производительности и масштабируемости компьютерной системы в Банке России.
Результаты диссертации также использованы в научно-исследовательской работе (НИР) №2 620164 «Методы искусственного интеллекта для киберфизических систем».
Апробация результатов работы. Основные результаты работы докладывались и обсуждались на следующих конференциях:
- Международная научно-практическая конференция "Индустрия 4.0", 2023 г.
- XXVI международная научная конференция «Волновая электроника и инфокоммуникационные системы» (WEC0NF-2023).
- Международная научно-техническая конференция "Пром-Инжиниринг", 2023 г.
- Материалы VI Международной конференции. Материалы 15-й Международной конференции (Астрахань, 3-7 октября 2022 г.) - 2022.
- VI Международная научно-практическая конференция «Информационные системы и технологии в моделировании и управлении» (ИСТМУ'2021). Международного научного форума.
- V Международная научно-практическая конференция «Информационные системы и технологии в моделировании и управлении» (ИСТМУ'2020) / V International scientific and practical conference.
- IV Всероссийская научно-практическая конференция «Информационные системы и технологии в моделировании и управлении», 2019 г.
Соответствие диссертации паспорту научной специальности.
Диссертационная работа соответствует паспорту научной специальности
Специальность: 2.3.2 «Вычислительные системы и их элементы», а проведенное исследование - формуле специальности. Исследование соответствует пунктам 1, 3 и 7 паспорта специальности.
Личный вклад автора.
Автором лично решены все поставленные задачи, включая анализ существующих архитектур BI-систем, определение критериев оценки надежности, разработка и сравнительный анализ различных подходов к построению компьютерных систем для задач бизнес-аналитики. Автором также спроектирована и реализована распределенная компьютерная система, ориентированная на задачи бизнес-аналитики, и обоснован выбор проектных решений. Внедрение предложенной системы осуществлено в банковской сфере. Все результаты исследований автором использованы для оптимизации и повышения эффективности работы Банка России. В публикациях всех статей с участием соавторов процент участия распределен между всеми соавторами в равных пропорциях.
Структура и объем диссертации.
Диссертационная работа состоит из введения, четырех глав, заключения, списка сокращений и условных обозначений, словаря терминов, списка литературы, списка рисунков, списка таблиц, а также трех приложений. Общий объем данного научного издания составляет 239 страниц текстового материала, включая 5 таблиц и 26 иллюстраций. Библиографический список насчитывает 86 источников.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Введение. Вступительная часть диссертации представляет собой обоснование актуальности избранной темы, определение объекта и предмета исследования, а также постановку цели и выбор методологии.
В первой главе определена актуальность использования. На основе данных международных исследовательских и консалтинговых компаний, проведен сравнительный анализ систем бизнес-аналитики. Сформулированы проблемы временных лицензий и санкционных рисков, а также проблемы при миграции с одного программного продукта на другой.
Выполнен анализ научных и практических работ по теме бизнес-аналитики и В1-архитектуре. Это позволило определить основные требования и компоненты В1-архитектуры, а также выявить проблемы и недостатки, с которыми сталкиваются организации при внедрении В1-систем. Сформулирована важность аналитического СУБД для системы бизнес-аналитики, от которого зависит скорость получения аналитической информации. Приведены недостатки существующих подходов по построению архитектуры аналитического хранилища данных.
Рассмотрены варианты построения отказоустойчивого кластера, предназначенного для функционирования аналитической СУБД в промышленной среде. Сформулированы проблемы и задачи, решаемые в диссертации.
Во второй главе приводятся меры по улучшению отказоустойчивости и безопасности архитектуры систем бизнес-аналитики. В этой части диссертации предложена архитектура В1 системы, учитывающая отказоустойчивость, ценность и качество данных, а также поток информации в системе. Предложенная архитектура системы бизнес-аналитики приведена на рисунке 1 и состоит из следующих уровней: уровень источника данных, уровень извлечения данных, уровень хранилища данных, уровень качества данных, уровень безопасности данных, уровень метаданных, уровень отчетности и уровень балансировки нагрузки.
Рисунок 1 - Целевая архитектура BI решения
Данное решение с открытой лицензией лишено проблем с лицензированием. Предложенная архитектура BI системы приведена на рисунке 2. Отказоустойчивость сервисов реализована через Docker Swarm или Kubernetes.
Рисунок 2 - Схема предложенной архитектуры В1 системы
Определены общие принципы внедрения и управления В1-системами. Проанализированы стандарты проектирования модели данных и аналитических отчетов.
Перечислены меры по обеспечению отказоустойчивости хранилища данных, как одной из важнейших частей В1 системы. Изложены требования, которыми должны удовлетворять хранилища для проведения эффективного анализа данных. Определено, что для OLAP-сценариев использования предпочтительнее применять колоночные аналитические СУБД, поскольку они позволяют хранить большое количество столбцов в таблице без ущерба для скорости чтения данных. Проведено сравнение распространенных аналитических СУБД, и выделено наиболее предпочтительное решение.
Предложена отказоустойчивая кластерная конфигурация СУБД для аналитических запросов с возможностью резервного копирования, репликации и шардирования данных, представленная на рисунке 3. Проанализированы возможности автоматизации развертывания конфигурации с использованием АшМе Playbooks и интеграции с системой управления версиями Gitlab. Показана возможность задавать актуальную конфигурацию на всех узлах с помощью одной команды или развернуть новый кластер СУБД в течение нескольких минут.
Рисунок 3 - отказоустойчивая кластерная конфигурация СУБД для аналитических
запросов
В третьей главе проведена валидация предложенной архитектуры бизнес-аналитических систем с использованием реального примера. С целью проверки стабильности аналитического решения под нагрузкой была разработана инструментальная панель (дэшборд) в Apache Superset и сформирован испытательный набор данных в Oracle DB объемом 100 млн. записей, хранящихся в оперативной памяти (In-memory). Для моделирования пользовательской активности и создания нагрузки на систему применялось программное обеспечение Apache Jmeter 5.5.
Реализация решения в контексте микросервисной архитектуры позволила обеспечить гибкость при масштабировании системы для решения новых бизнес-задач. Проведена оценка возможности оптимизации системы за счет увеличения пула соединений с базой данных, распределения дополнительных процессорных ядер на сервер бизнес-аналитики, использования кеширования данных в Redis и механизма управления очередями при помощи Celery. Эти модификации способствовали повышению производительности системы и уменьшению времени отклика.
Проведено нагрузочное тестирование сервера BI решения и сервера базы данных Oracle. График среднего времени выполнения запроса для одного и десяти пользователей за 10 секунд представлен на рисунке 4.
Среднее время выполнения 100000 — 41658 9017
2242 1 1086 ■ 1872 S 1 ! s
Миллисекунд '5 Ш 776 5 S s
10 9 Л 5 in
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 ■ 1 пользователь ■ 10 пользователей
Рисунок 4 - Среднее время выполнения запроса при нагрузке от 1 и 10
пользователей за 10 секунд
Установлено, что во время интерактивного взаимодействия с панелью В1 решения каждый пользователь инициирует приблизительно семь ключевых и дополнительное количество вспомогательных запросов. Это генерирует значительную нагрузку, достигающую до 99.5% процессорного времени.
Наблюдение за изменением производительности при масштабировании вычислительных ресурсов показало, что увеличение числа процессорных ядер сервера базы данных Oracle с 4 до 8 приводит к удвоению скорости выполнения запросов. Дальнейшее увеличение числа ядер до 32 приводит к тому, что производительность сервера при многопользовательской нагрузке становится сопоставимой с производительностью при обработке запросов от одного пользователя. Иллюстрация этого динамического изменения представлена на рисунке 5. Среднее время выполнения запросов при использовании 8 ядер составляет 975 миллисекунд, в то время как при использовании 32 ядер это время сокращается до 787 миллисекунд.
Среднее время выполнения
* 9
II „ i s j
5» Ж SS
1 2 3 4 5 б 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
■ 32сри B8qpu
Рисунок 5 - Зависимость времени выполнения запросов от количества
процессорных ядер (CPU)
На рисунке 6 продемонстрировано распределение нагрузки на сервер бизнес-аналитической системы (BI). Основной нагрузкой является взаимодействие с дисковой подсистемой, при пиковой активности достигающее 90% единиц ввода-вывода в секунду (IO/sec). Вместе с тем загрузка процессора сервера BI остается в пределах 30%, указывающих на распределение большей части работы на сервер базы данных Oracle.
Рисунок 6- Нагрузка на сервер BI при обработке запросов от 50 пользователей за
50 секунд
В процессе оптимизации, при увеличении ядер процессора Oracle DB до 32, было замечено ускорение выполнения запросов, что способствовало улучшению отклика системы визуализации. Это демонстрирует успешную адаптацию системы к увеличенной нагрузке без ошибок. Среднее время выполнения запросов при использовании 32 ядер составляет 1242 миллисекунды, при этом нагрузка на процессор базы данных не превысила 40%, указывая на эффективное функционирование системы.
Показано, что система более стабильна при обработке запросов от 100 пользователей в течение 5 минут, по сравнению с 50 пользователями за 50 секунд, что объясняется равномерным распределением нагрузки на более длительный интервал времени. Среднее время выполнения запросов составляет 550 миллисекунд (рисунок 7).
Нагрузка на процессоры сервера BI решения и сервера базы данных составляет 30% и 40% соответственно, что свидетельствует об эффективности и сбалансированности функционирования системы.
Рисунок 7 - Среднее время выполнения запросов для 100 пользователей за 5
минут
Показана устойчивость, восстанавливая производительность после нагрузочного тестирования. Минимальный процент запросов (3%) испытывал ошибки, связанные с превышением времени ожидания, что не является критическим и может быть скорректировано путем регулирования таймаута.
Нагрузка на базу данных поддерживалась на приемлемом уровне даже при обработке 500 пользователей. Рисунок 8 иллюстрирует профилирование нагрузки на сервер В1 решения при обработке запросов от 500 пользователей за 500 секунд. Нагрузка на процессоры сервера В1 и сервера базы данных не превосходила 70% и 65% соответственно, подтверждая стабильную работоспособность системы даже при увеличении числа пользователей, при условии поддержания нагрузки на процессорах в пределах оптимального диапазона.
Рисунок 8 - Профилирование нагрузки на сервер В1 решения при обработке
запросов от 500 пользователей за 500 секунд
Поскольку база данных является высоконагруженным местом в бизнес-аналитической системе, проведен анализ конфигурации кластера хранилища данных для аналитических запросов.
Отказоустойчивость данной конфигурации проверена через цикличное выведение узлов из работы, при этом пользователи продолжали получать данные из таблицы dwh.cluster_test_data_distributed, а количество строк оставалось неизменным (27 547 855). Потеря данных отмечена лишь при одновременном отключении узлов, содержащих реплику и исходные данные.
Такая конфигурация обладает потенциалом масштабирования до 12 узлов, при этом коэффициент репликации будет равен 3, а коэффициент шардирования -6.
В четвертой главе представлена марковская модель надежности кластера для различных дисциплин восстановления системы. Предложены подходы к обеспечению устойчивости к потере данных при восстановлении высоконадежного кластера дублированных вычислительных систем, задействованных в поддержании отказоустойчивого функционирования аналитической системы управления базами данных.
Анализируются следующие модели восстановления дублированных компьютерных систем с репликацией данных:
Модель А1: После отказа узла памяти, необходимая информация восстанавливается по реплике, хранящейся на рабочем узле. Для восстановления требуется участие двух вычислительных узлов; в случае невозможности выполнения этого условия приоритет отдается физическому восстановлению вычислительных узлов. При отказе двух узлов памяти система становится невосстанавливаемой.
Модель А2: В отличие от А1, при отказе двух узлов памяти система восстанавливается заменой на новую. Данные для новой системы восстанавливаются из последней резервной копии, хранящейся на внешнем носителе. Этот вариант связан с увеличением затрат, так как предполагает наличие холодного резерва.
Модель А3: В отличие от А2, система после отказа двух узлов памяти заменяется на новую без занесения результатов последнего резервного копирования. Информационное восстановление происходит в два этапа: сначала заносятся результаты последнего резервного копирования, затем восстанавливаются данные, сформированные между моментом резервного копирования и отказом узлов.
Рассмотрены Марковские модели дублированного узла кластера в контексте различных схем функционирования и восстановления - А1, А2 и А3. Например, модель для схемы А1 представлена на рисунке 9.
Рисунок 9 - Марковская модель дублированного узла кластера для варианта
восстановления А1
Работоспособность дублированной системы определяется спецификой организации вычислительного процесса. Исследованы следующие варианты:
Вариант В1 (режим разделения нагрузки) предполагает равномерное распределение запросов между двумя вычислительными узлами. При отказе одного из узлов, оставшийся в рабочем состоянии обрабатывает все запросы. Режим применяется для не критичных к контролю запросов.
Вариант В2 (режим дублированных вычислений) включает создание реплик запроса, каждая из которых обрабатывается отдельным вычислительным узлом. Результаты сравниваются на контрольных точках, при несовпадении возможен повтор вычислений. Результата без сравнения не выдается. Невозможность сравнения дублированных вычислений является индикатором отказа дублированного узла кластера.
Вариант В21 сочетает предыдущие два подхода: при нормальной работе используется вариант В2, а при отказе компонентов - В1.
Вероятность работоспособности кластера, включающего п дублированных кластерных узлов (дублированных компьютерных систем), определяется как:
r =
тс (1 -р) ""
(1)
где р - вероятность работоспособности дублированного кластерного узла.
=
( г Л , 1,г/ —V < 1,
Л (2)
0,г/ —V > 1, г
где, у-среднее время обслуживания запроса, i число работоспособных дублированных узлов кластера Л -интенсивность трафика функциональных запросов.
Готовность системы к выполнению вычислений с не превышением предельно допустимого времени ожидания ДО. Предлагаемый коэффициент определяется как:
5 =
± вспр (1 - р) -
(3)
где Вi - вероятность того, что время ожидания запросов в очереди будет меньше времени ДО.
В =
Л .. -1 Лч
1 - — vexp(-ф -—) i i
Вероятность безотказной работы кластера, состоящего из п дублированных узлов, в режимах вычислительного процесса В2 и В21, представлена на рисунке 10 кривыми 1, 2 и 3, 4 соответственно (Хо =Х1 =10-4 ч.-1 ,Х2 =10 -6 ч.-1).
На рисунке 11 представлена зависимость математического ожидания вероятности S своевременного выполнения запросов за временной интервал, меньший й0, от накопления отказов за время 1 Кривые 1 и 2 отражают режим вычислительного процесса В2, а кривые 3 и 4 - В21 (при t ^ =0,2 с и йо =0,8 с, Хо =Х1 =10-4 ч.-1, Х2 =10 -6 ч.-1 , у=0,1 с).
На рисунке 12 показана зависимость вероятности S своевременного выполнения запросов за временной интервал, меньший Ю, от интенсивности потока запросов Л при условии накопления отказов за время функционирования системы t=1000 ч. Кривые 1 и 2 соответствуют режиму В2, а кривые 3 и 4 - режиму В21 (при йо =0,2 с и йо =0,8 с).
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Математическое моделирование средств управления ресурсами и данными в распределенных и виртуализованных средах2007 год, доктор физико-математических наук Тормасов, Александр Геннадьевич
Математические модели надежности и методы ее повышения в современных распределенных отказоустойчивых системах хранения данных2018 год, кандидат наук Иваничкина Людмила Владимировна
Исследование и разработка метода ускорения операции соединения распределенных массивов данных по заданному критерию2024 год, кандидат наук Тырышкина Евгения Сергеевна
Разработка математических методов моделирования, хранения и обработки данных большой разрядности с высокой надёжностью в облачной среде на основе системы остаточных классов2018 год, кандидат наук Кучеров Николай Николаевич
Модель расчета надежности двухканальных систем с резервированием на основе альтернирующих процессов восстановления2019 год, кандидат наук Проурзин Олег Владимирович
Список литературы диссертационного исследования кандидат наук Сивов Виктор Валерьевич, 2023 год
ЛИТЕРАТУРА
1. Baars H., Kemper H. G. Management support with structured and unstructured data - an integrated business intelligence framework // Information systems management. 2008. T. 25. №2. C. 132-148.
2. Rachmiel A.G., Morgan N.P., Danielewski D. Batch management of metadata in a business intelligence architecture: нат. 8073863 США. 2011.
3. Turban E. et al. Business intelligence: A managerial approach. Upper Saddle River, NJ: Pearson Prentice Hall, 2008. C. 58-59.
4. Anandarajan M. Business intelligence techniques. Springer-Verlag Berlin Heidelberg GmbH, 2004.
5. Сивов В. В. Безопасность данных в системе бизнес-аналитики // Информационные системы и технологии в моделировании и управлении. 2019. С. 142-145.
6. Negash S., Gray P. Business intelligence. Handbook on decision support systems. Springer, Berlin, Hei-delberg. 2008. P. 175-193.
7. Luhn H. A business intelligence system // IBM Journal of research and development. 1958. P. 314-319.
8. Umhoff C, Galemmo N.. Geiger J. Mastering data warehouse design: relational and dimensional techniques. John Wiley & Sons. 2003. 457 p.
9. Shariat М., Hightower R. Conceptualizing business intelligence architecture // Marketing Management Journal. 2007. T. 17. №2. C. 40-46.
10. Kalelkar M., Churi P., Kalelkar D. Implementation of model-view-controller architecture pattern for business intelligence architecture // International Journal of Computer Applications. 2014. T. 102. №12.
11. Wu L., Barash G., Bartolini C. A service-oriented architecture for business intelligence // EEE international conference on service-oriented computing and applications (SOCA'07). IEEE, 2007. C. 279-285.
12. Алисултанова Э.Д., Тасуев У.Р., Моисеенко H.A. Технологии машинного обучения в бизнесе на основе нейронных сетей // Вестник ГГНТУ. Технические науки. Том XVII. №2. Грозный, 2021. С. 5-10.
13. Моисеенко Н.А., Д.жабраилов //. С. Проектирование информационной системы управления организацией: необходимость современности // Вестник ГГНТУ. Технические науки. Том XV. №2. Грозный, 2019. С. 47-55.
14. Watson Н. Tutorial: business intelligence - past, present, and future // Communications of the Association for Information Systems. 2009. P. 39.
15. Inmon W. Building the data warehouse/John Wiley & sons. 2005. 576 p.
16. Богатырев В. А. Комбинаторно-вероятностная оценка надежности и отказоустойчивости кластерных систем // Приборы и системы. Управление, контроль, диагностика. №6. 2006. С. 21-26.
17. Богатырев В. А. Оценка надежности и оптимальное резервирование кластерных компьютерных систем // Приборы и системы. Управление, контроль, диагностика. №10. 2006. С. 18-21.
18. Богатырев В. А., Богатырев А. В., Богатырев С. В. Перераспределение запросов между вычислительными кластерами при их де1радации // Известия высших учебных заведений. Приборостроение. Т. 57. №9. 2014. С. 54-58.
19. Bogatyrev V.A., Bogatyrev А. V., Bogatyrev S. V. Redundant multi-path service of a flow heterogeneous in delay criticality with defined node passage paths //Journal of Physics: Conference Series. IOP Publishing, 2021. T. 1864. № 1. C. 012094.
20. Cuzzocrea A., Song I. Y., Davis К. C. Analytics over large-scale multidimensional data: the big data revolution! // Proceedings of the ACM 14th international workshop on Data Warehousing andOLAP. 2011. P. 101-104.
21. Sarawagi S., Agrawal R., Megiddo N. Discovery-driven exploration of OLAP data cubes // International Conference on Extending Database Technology. Springer, Berlin, Heidelberg, 1998. P. 168-182.
22. Abouzeid A. et al. HadoopDB: an architectural hybrid of MapReduce and DBMS technologies for analytical workloads //Proceedings of the VLDB Endowment. 2009. № 1. P. 922-933.
23. Agrawal D., Das S., El Abbadi A. Big data and cloud computing: current state and future opportunities // Proceedings of the 14th international conference on extending database technology. 2011. P. 530 533.
24. Cuzzocrea A., Bertino E. Privacy preserving OLAP over distributed XML data: a theoretically sound secure-multiparty-computation approach // Journal of Computer and System Sciences. 2011. №6. P. 965 987.
25. CattellR. Scalable SQL and NoSQL data stores //Acm Sigmod Record. 2011. №4. P. 12-27.
26. Dehne F„ Eavis Т., Rau-Chaplin A. The cgmCUBE project: Optimizing parallel data cube generation for ROLAP//Distributed and Parallel Databases. 2006. № 1. P. 29-62.
DESIGNING COMPLEX ARCHITECTURE OF BUSINESS ANALYSIS
©V.V.Sivov1 1ITMO University, St. Petersburg, Russia 1Central Bank of the Russian Federation. Russia
This article proposes to consider the architecture of Bl arid its various components. Business analytics architecture plays an important role in the successful implementation of business analytics. Banking organizations use business analytics systems to analyze their data for a better understanding and prediction of their customers' behavior, increasing efficiency, and modernizing the products, services, and marketing offered. The work is aimed at forming and justifying the choice of Business Intelligence systems architecture in the banking industry. The considered architecture is important to consider in the modern competitive business environment as it provides advanced data management methods that can bring positive results and maximize the return on your investments in business analytics. The relevance of this study is due to the growing need in the modern banking industry for timely analysis and updating of information to increase business production rates, as well as to attract and retain new customers. The goal of the work is to create the most suitable structure of business analytics for the banking environment. In conducting the research, a business analytics architecture has been developed and proposed for use in the banking industry that meets the majority of user requests: reliability, data processing speed, clarity of requested information results, and data actualization.
Keywords: Business Intelligence, Business Analytics, Bl Architecture, Infrastructure, Bl System, banking analytics, data base, information system.
REFERENCES
1. Baars, H., Kemper, H. G. (2008). 'Management support with structured and unstructured data an integrated business intelligence framework'. Information systems management. Vol. 25. №. 2. Pp. 132-148.
2. Rachmiel, A.G., Morgan, N. P., Danielewski, D. (2011). Batch management of metadata in a business intelligence architecture. USA. Patent No 8073863.
3. Turban, E. et al. (2008). 'Business intelligence: A managerial approach'. Upper Saddle River, NJ: Pearson Prentice Hall. 292 p.
4. Anandarajan, M. (2004). Business intelligence techniques. Springer-Verlag Berlin Heidelberg GmbH.
5. Sivov,V.V.(2019). 'Bezopasnost'dannyhvsistemebisnes-analitiki'. Vsbomike: Informacionnye sistemy 1 tehnologii v modelirovanii i upravlenii. Pp. 142-145.
6. Negash, S., Gray, P. (2008). 'Business intelligence. Handbook on decision support systems'. Springer, Berlin, Hei-delberg. Pp. 175-193.
7. Luhn, H. (1958). 'A business intelligence system'. IBM Journal of research and development. Pp. 314-319.
8. ImhofT, C., Galemmo, N. and Geiger, J. (2003). Mastering data warehouse design: relational and dimensional techniques. John Wiley & Sons. 457 p.
9. Shariat, M., Hightower, R. (2007). 'Conceptualizing business intelligence architecture'. Marketing Management Journal. Vol. 17. №. 2. Pp. 40-46.
10. Kalelkar, M., Churi, P., Kalelkar, D. (2014). 'Implementation of model-view-controller architecture pattern for business intelligence architecture'. International Journal of Computer Applications. Vol. 102. №. 12.
11. Wu, L., Barash, G., Bartolini, C. (2007). 'A service-oriented architecture for business intelligence'. IEEE international conference on service-oriented computing and applications (SOCA'07). Pp. 279-285.
12. Alisultanova, E. D., Tasuev, U. R., Moiseenko, N. A. (2021). 'Machine learning technologies
in business based on neural networks'. Herald of GSTOU. Technical sciences. Vol. XVII, 2, Grozny, pp. 5-10.
13. Moiseenko, N.A. and Dzhabrailov, I.S. (2019). 'Designing an information system for managing an organization: the need for modernity'. Herald of GSTOU. Technical sciences. Vol. XV, 2 ( 16), Grozny.
14. Watson, H. (2009). 'Tutorial: business intelligence-past, present, and future'. Communications of the Association for Information Systems. P. 39.
15. lnmon, W. (2005). Building the data warehouse. John Wiley & sons. 576 p.
16. Bogatyrev, V. A. (2006). 'Combinatorial-probabilistic evaluation of reliability and fault tolerance of cluster systems'. Instruments and systems. Management, control, diagnostics. No. 6, pp. 2126.
17. Bogatyrev, V. A. (2006). 'Evaluation of reliability and optimal backup of cluster computer systems'. Instruments and systems. Management, control, diagnostics. No. 10, pp. 18-21.
18. Bogatyrev, V. A., Bogatyrev, A. V., and Bogatyrev, S.V. (2014). 'Reassignment of requests between computing clusters during their degradation'. Proceedings of higher educational institutions. Instrumentation engineering. Vol. 57, no. 9, pp. 54-58.
19. Bogatyrev, V. A., Bogatyrev, A. V. and Bogatyrev, S.V. (2021 ). 'Redundant multi-path service of a flow heterogeneous in delay criticality with defined node passage paths'. Journal of Physics: Conference Series. Vol. 1864. №. 1. P. 012094.
20. Cuzzocrea, A., Song, I. Y. and Davis, K.C. (2011). 'Analytics over large-scale multidimensional data: the big data revolution!'. Proceedings of the ACM 14th international workshop on Data Warehousing and OLAP. Pp. 101-104.
21. Sarawagi, S., Agrawal, R. and Megiddo, N. (1998). 'Discovery-driven exploration of OLAP data cubes'. International Conference on Extending Database Technology. Springer, Berlin, Heidelberg, pp. 168-182.
22. Abouzeid, A. et al. (2009). 'HadoopDB: an architectural hybrid of MapReduce and DBMS technologies for analytical workloads'. Proceedings of the VLDB Endowment. №. 1. Pp. 922933.
23. Agrawal, D., Das, S. and El Abbadi, (2011). 'A. Big data and cloud computing: current state and future opportunities'. Proceedings of the 14th international conference on extending database technology. Pp. 530-533.
24. Cuzzocrea, A. and Bertino, E. (2011). 'Privacy preserving OLAP over distributed XML data: a theoretically-sound secure-multiparty-computation approach'. Journal of Computer and System Sciences. №. 6. Pp. 965-987.
25. Cattell, R. (2011). 'Scalable SQL and NoSQL data stores'. Acm Sigmod Record. №. 4. Pp. 12-27.
26. Dehne, F., Eavis, T. and Rau-Chaplin, A. (2006). 'The cgmCUBE project: Optimizing parallel data cube generation for ROLAP'. Distributed and Parallel Databases. №. 1. Pp. 29-62.
Reliability of a Cluster of Duplicated Computer Systems with the Criticality of Functional Requests to
Waiting
Vladimir A. Bogatyrev'-2 HTMO University 2Saint-Petersburg State University of Aerospace Instrumentation Saint-Petersburg, Russia vladimir.bogatyrev@gmail.com
Stanislav V. Bogatyrev
ITMO University Saint-Petersburg, Russia realloc@gmail.com
Victor V. Sivov ITMO University Saint-Petersburg, Russia v.sivov777@gmail.com
Abstract—High reliability and fault tolerance of computer systems at high performance and low delays of executing the required functions are achieved by consolidating the data processing and storage resources through the use of cluster systems. Ensuring the reliability of cluster architecture computer systems while accelerating their reconfiguration after failures is accompanied by replication and migration of virtual machines. A approach is proposed for the justification of building a computer system with a cluster architecture, composed of duplicated computer nodes. Studies aimed at increasing the readiness of the cluster to timely execution of real-time requests while ensuring a stationary service traffic mode have been carried out. The work of duplicate nodes in load balancing mode and duplicate calculations is considered. In the first mode, requests are evenly distributed among the functional nodes (servers). In the second mode, replicas of the request are created, each of which is executed on one node of the backup system. For control, the calculation results are compared at check points. If there is a mismatch, a repeat calculation is possible.
Keywords—real-time, cluster, redundant computer system, permissible waiting time
I. Introduction
Modern industrial automation systems are characterized by their constant structural and functional complexity, accompanied by the integration of Internet of Things technologies, cloud computing, distributed processing, storage and big data analytics (BIG DATA). The increasing complexity of industrial cyber-physical systems, coupled with a reduction in the acceptable time for data processing and decision making, stimulates the implementation of intelligent systems, including data-based decision support systems [1-3]. These trends have led to the emergence of the concept of combining Artificial Intelligence (AI) technologies, the Internet of Things (AIoT), and business analytics systems. The construction of AIoT systems poses requirements for ensuring enhanced reliability and fault-tolerance of cyber-physical systems at all its levels, including the lower level of embedded computing systems, the level of telecommunications, and the upper level of distributed data storage and processing. At the upper level, the most responsible tasks of system management,
including decision-making support based on data analysis by artificial intelligence methods [1-3], are implemented.
High reliability and fault-tolerance of upper-level control computer systems with high performance and low execution delays are achieved by consolidating data processing and storage resources through the use of cluster systems [4,5]. Ensuring the reliability of cluster architecture computer systems during accelerated reconfiguration after failures is accompanied by replication and migration of virtual machines [6-8]. The relevance of research on real-time fault-tolerant systems is partly due to the intensive development and implementation of Internet of Things and Business Analytics technologies, including in the industry [9-13]. The possibilities of system recovery, for which the continuity of the computational process is required, are limited if the time of recovery of resources necessary for the implementation of the computational process exceeds the permissible interruption of calculations. The potential interest in preserving the continuity of the computational process through the reservation of resources and reconfiguration with the migration of virtual computing machines on saved resources after failures, is of interest. In such a reconfiguration, after restoring failed physical resources, their inclusion in the computational process is accompanied by replication or dynamic migration of virtual computing machines and data.
The organization of the computational process, reconfiguration, migration of virtual machines and system recovery after accumulated failures can be carried out in various ways, achieving different levels of reliability and probabilities of preserving the continuity of the computational process and timeliness of real-time traffic service. The justification of the efficiency of project solutions for building fault-tolerant cluster systems with reconfiguration based on replication and dynamic migration of virtual machines and data requires the construction of corresponding models of reliability and mass service [14-18]. There are known Markov models for fault-tolerant computer systems with replication and dynamic migration of virtual machines, which allow for the estimation of their reliability (readiness to perform required functional requests) [7,8]. However, known models do not take into account the requirements of practical tasks in ensuring the
978-1-6654-6429-1/23/s31.00 ©2023 ieee
stationary state of the process of servicing requests and their timely execution for real-time systems.
The objective of this work is to justify the organization of a computer system with a cluster architecture, consisting of duplicated computer nodes, aimed at increasing its readiness for timely execution of real-time requests while ensuring a steady state of traffic servicing.
The justification for the choice of design solutions for organizing the cluster is based on analytical models of reliability taking into account the conditions for timely execution of requests with a steady state of their servicing and the requirements for ensuring continuity of the real-time computational process.
In order to ensure high reliability, fault tolerance and continuity of real-time computations with the unacceptability of waiting for service requests beyond a specified maximum allowable time, clusters are built based on duplicate computer systems (two-machine cluster) [7,8]. The duplicate computer systems contain two data processing and storage nodes (server computational nodes (B) and memory nodes (M), which can be implemented based on hard disks -HDD). Inter-machine communication between nodes, united in a duplicate system, is carried out through a switch (S). The structure of the duplicate computer system (duplicate cluster node) is presented in Fig 1.
The reliability of the considered redundant computer system with virtual machine migration will be evaluated based on the Markov model described in reference [8]. The Markov model of the redundant computer node cluster with dynamic migration of virtual machines is presented in Figure 2 in reference [8].
The reliability of the considered redundant computer system with migration of virtual computational machines is evaluated based on a Markov model described in work [8]. The Markov model of the redundant computer node cluster according to [8] with dynamic migration of virtual machines is presented in Fig. 2. The diagram of states and transitions in Fig. 2 [8] shows the respective intensities of failures of
processing nodes, data storage, and switches X0, XI, X2, as well as the intensities of their physical recovery |i0, |il, p2. The intensity of loading current data to the disk after its physical recovery is denoted as ja3, and the intensity of loading a virtual machine with the installation of applications for solving required tasks is denoted as p4.
Fig. 2. The Markov model of a duplicated computer cluster node with dynamic migration of virtual machines.
The corresponding system of differential equations to the diagram in Fig. 2 is as follows:
Kit) = -(2A, )P0(t) + mSM
= + (/) + /uAPu (0 +
WiC).
P1(t) = -(^ )P2 (t)+MA (0+M„P, (0+W)+
+W),
H (0 = "(4 +4, + /", )P, (t)+f,P9 (0+«A (0+«A (0+ +/l0Ps(t) + Wt) + 2^P0(t),
K (0 --w + \ + ^ + + 4 + A, )P, (0+nfx (0+MA (0+
Ps(t) = -v0Pi(t) + AlPl(t) + A,Pu(t),
p6(t) = +V!(t)+W), PAt) = -MlPA')+\PA0,
P,{t) = -//,/>, (0+(0+-W), P,o(0 = -v0Pw(t) + W)+\Pl2(t), P„(t) = -M,P„(t)+*vP№ p;1(t)=-f1pn(t)+W)-
The availability conditions of the duplicated system depend on the organization of the computational process. We will consider some of its variations.
B B
HDD HDD ;
Fig. 1. A duplicated computer system.
II. Reliability of the Duplicated Computer System
In the load-sharing mode (variant Bl), requests are evenly divided between two computers (servers). In case of resource failure of one of them, all requests are executed by the computer that has maintained its operability. This mode can be used for requests that are not critical in terms of the mandatory control requirement.
In the mode of duplicated calculations (variant B2), replicas of the request are created, each of which is executed on one node of the redundant system. The results of the calculations are compared at control points for control. In case of mismatch, a repeat of the calculations is possible. In this mode, the release of results without their comparison is prohibited. A sign of failure of a duplicated cluster node is the impossibility of controlling based on the comparison of duplicated calculations.
It is possible to combine the two previously discussed variants (variant B21), in which, in the initial state (without component failures of the node), duplicate calculations are performed according to variant B2. In case of failure of a component of the duplicate system, calculations are performed on one node without control until their restoration.
In the case of control systems of responsible purpose, the main variants that will be considered are variant B2 and B21. Variant Bl can be used for computing background tasks, the non-execution of which is not critical.
For variants Bl (load balancing mode) and B21, the probability of a working state p is determined by summing up all states with the availability of at least one related pair, including the computing node and the storage system. Based on the diagram in Fig. 2:
(1)
where p, is the probability of the j'-th state of a duplicated cluster node.
It should be noted that only with a probability of po of the system being in the initial state, for variants B21 and B2, the organization of a duplicated computing process with control based on comparison of results is possible. Thus, for mode B2, the probability of a functional state of a duplicated cluster node is determined as p=po-
III. Reliability of a Cluster of Redundant Computer Nodes
For the B2 and B21 variants of the organization of the computational process in duplicate cluster nodes, the desired probability of cluster operability, which combines n duplicate cluster nodes (duplicate computer systems), can be found as:
R =
(2)
where p is the probability of a workable duplicate cluster node, and S. is the condition of cluster operability, determined taking
into account the requirements of the application tasks performed by the cluster.
The availability probability of a duplicated cluster node for the B2 variant of organizing the computational process within it is calculated as p=po, while for the B21 variant it is determined according to (1).
If it is sufficient to maintain the availability of at least one computer connected to a storage node to solve the required tasks, then for all / ¿> = 1.
The servers of the clustered node can be represented as a mass service model of the M/M/l type. Based on the requirement of traffic service stationarity with an intensity of A, for the B2 organizational process variant, the cluster's operability condition, with i operable duplicated nodes, is defined as:
Ö =
'ur-v< 1, i
0,i/-v>l, i
(3)
where v is the average time of service request.
For the case when requests timeliness is critical, the cluster's availability condition will be defined based on the probability of not exceeding a delay of a given value to, taking into account the requirement of timely service.
As a measure of functional reliability for cluster systems consisting of redundant nodes, in the case of organizing computational processes according to the B2 and B21 options, we will choose the readiness coefficient of the system for performing redundant calculations without exceeding the maximum permissible waiting time to.
The proposed coefficient is determined as:
S =
£ 5(C>' (1-/>)"-
(4)
where B, is the probability that the waiting time for requests in the queue is less than time to is given in (5). With uniform traffic distribution, incoming with intensity A on i functioning nodes.
B, =
l-yvexpi-f„|v 1 -yj
(5)
For non-repairable systems, the functional reliability S will be defined as the mathematical expectation of the probability of timely execution of requests within a time less than to, taking into account the accumulation of failures over the operating time t. The desired reliability indicator for the option of organizing the computational process B2 will be determined
by formula (4) when calculating the fault-tolerance of the cluster node p as:
p = exp(-(2/io +2A, +¿2)1). (6)
For the variant of the organization of the computing process B21, the mathematical expectation of the probability of timely execution of requests for a time less than to, taking into account the accumulation of failures, is calculated by the formula:
p = [l - [1 - expH4, + 4 )i)f ] expi-^z) ■ (7)
The dependence of the probability of failure-free operation of a cluster of n duplicated nodes for the options for organizing the computing process B2 and B21 is shown in Fig. 3 by lines 1, 2 and 3, 4, respectively. The calculation was performed at Xo
=X, =10"4 h."1, Xo =10 6 h."1
On Fig. 4 shows the dependence of the mathematical expectation of the probability S of timely execution of requests in a time less than to, taking into account the accumulation of failures over time t. Lines 1, 2 correspond to the organization of the computational process according to option B2, and lines 3,4 - according to option B21 at to = 0.2 s and to = 0.8 s. The calculation was performed at Xo =Xi =104 h.1, Xo =10 "6 h. ', v=0.1 s.
The graph of the probability S of timely execution of requests for a time less than to, taking into account the accumulation of failures during the operation of the system t=1000 hours, on the intensity of the flow of requests A is shown in Fig.5. Curve 1, 2 corresponds to option B2 at, and curves 3,4 to option B21 to =0.2 s and to =0.8 s.
f, h
Fig. 3. Dependence of the probability of non-failure operation of duplicated nodes.
IV. Conclusions
An analysis of the organization of a computer system of cluster architecture, composed of duplicated computer nodes,
was carried out, aimed at increasing its readiness for the timely execution of real-time requests while providing a stationary traffic service mode.
A Markov model for the reliability of a duplicated node and a cluster of duplicated nodes is proposed. The model takes into account the organization of system recovery after failures during replication and migration of virtual machines.
The reliability of a real-time cluster is estimated taking into account the restrictions on the allowable delays of waiting for requests in queues of duplicated cluster nodes.
i\ 2 3'■•■. -.4
0 ImIO3 4.10* 6-103 t»10J 1.10*
t. h
Fig. 4. Mathematical expectation of the probability 5 of timely execution of requests for a time less than 10, taking into account the accumulation of failures during the operation of the system t.
\
1 3
\
\ \ \
A . l/h
Fig. 5. Dependence on the intensity of the flow of requests A of the probability S of the execution of requests for a time less than t0, taking into account the accumulation of failures during the operation of the system /=1000 h.
References
[1] H. Yoo, R.C. Park, and K Chung, "IOT-based health big-data process technologies: A survey," KSII Transactions on Internet and Information Systems, vol. 15, no. 3, pp. 974-992, 2021.
[2] G. Rathee, A. Khelifi, and R. Iqbal, "Artificial Intelligence-(AI-) enabled Internet of Things (IoT) for secure big data processing in multihoming networks," Wireless Communications and Mobile Computing, vol. 2021, 2021.
[3] D. Lee, H. Moon, D. Park, and S. Oh, "MIOT: Metamorphic IOT platform for on-demand hardware replacement in large-scaled IOT applications," Sensors, vol. 20, no. 12, pp. 3337,2020.
[4] H. Aysan, Fault-Tolerance Strategies and Probabilistic Guarantees for Real-Time Systems. Sweden, Vasteras: Malardalen University, 2012, pp. 190.
[5] W. Zou, Z. Xiang, and C.K. Ahn, "Fuzzy-approximation-based distributed fault-tolerant consensus for heterogeneous switched nonlinear multiagent systems," IEEE Transactions on Fuzzy Systems, vol. 29, no. 10, pp. 2916-2925,2021.
[6] G. Lambropoulos, S. Mitropoulos, and C. Douligeris, "Improving business performance by employing visualization technology: A case study in the financial sector," Computers, vol. 10, no. 4, pp. 52, 2021. doi: 10.3390/computersl0040052.
[7] V. A. Bogatyrev, S. M. Aleksankov, and A. N. Derkach, "Model of cluster reliability with migration of virtual machines and restoration on certain level of system degradation," in 2018 Wave Electronics and its Application in Information and Telecommunication Systems (WECONF), 2018.
[8] V. Bogatyrev and A. Derkach, "Evaluation of a cyber-physical computing system with migration of virtual machines during continuous computing," Computers, vol. 9, no. 2, pp. 42, 2020. doi: 10.3390/computers9020042.
[9] A. A. Petrov, I. V. Nikiforov, and S. M. Ustinov, ""Algorithm of ESXi cluster migration between different vCenter servers with the ability to rollback," Information and Control Systems, vol. 2022, no. 2, pp. 20-31, 2022. doi: 10.31799/1684-8853-2022-2-20-31.
[10] A. G. Korobeynikov, A. V. Shukalov, I. O. Zharinov, and O. O. Zharinov, "Cyber-physical and human control of technological process
and equipment sensitive to failures," in IOP Conference Series: Earth and Environmental Science, Krasnoyarsk Science and Technology City Hall of the Russian Union of Scientific and Engineering, Krasnoyarsk, 2021, pp. 42081.
[11] N. Verzun, M. Kolbanev, and A. Romanova, "Two-phase model of information interaction in a heterogeneous internet of things network at the last mile," in CEUR Workshop Proceedings, vol. 12, "MICSECS 2020 - Proceedings of the 12th Majorov International Conference on Software Engineering and Computer Systems," 2020.
[12] E. Pustovalov and A. Turlikov, "Analysis of discontinuous reception based energy-saving techniques," in Conference of Open Innovation Association, FRUCT, vol. 12, "Proceedings - 12th Conference of Open Innovations Association FRUCT and Seminar on e-Tourism, FRUCT 2012," 2012, pp. 106-112.
[13] T. Astakhova, D. Kirilova, and M. Kolbanev, "Spatial-energy model of a wireless sensor network," in CEUR Workshop Proceedings, vol. 12, "MICSECS 2020 - Proceedings of the 12th Majorov International Conference on Software Engineering and Computer Systems," 2020.
[14] A. Vikulov, A. Paramonov, and T. Tatamikova, "Geometrical approach to the plane tessellation in the IEEE 802.11 networks channel planning," in Lecture Notes in Computer Science, vol. 13158 LNCS, 2022, pp. 449-469.
[15] A. A. Burkov, R. O. Rachugin, and A. M. Turlikov, "Analyzing and stabilizing multichannel aloha with the use of the preamble-based exploration phase," Information and Control Systems, vol. 2022, no. 5 (120), pp. 49-59, 2022.
[16] V. A. Miklush, T. M. Tatamikova, and I. A. Sikarev, "Organization of environmental monitoring of the port water area by processing an anti-interference signal from a vessel traffic control system," Automatic Control and Computer Sciences, vol. 55, no. 8, pp. 999-1004, 2021.
[17] B. Y. Sovetov, T. M. Tatamikova, and V. V. Cehanovsky, "Physical access control system for the premises using the Internet of Things technology," in 9th Mediterranean Conference on Embedded Computing, MECO 2020, 2020, pp. 9134107.
[18] V. A. Bogatyrev and A. N. Derkach, "Reliability of a cluster of duplicated computing systems with continuous computing process," in the Proceedings of "Information Systems and Technologies in Modeling and Control," Simferopol, 2021, pp. 116-120.
Advanced Engineering Research (Russia) 2023,-23(l):7i-84.1SS.\ 2M7-J653
INFORMATION TECHNOLOGY, COMPUTER
SCIENCE AND MANAGEMENT ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ
с
с ■о
о >
о.
Íj Check for updHtea
UDC 004.4 Original article
https://doi.orp/10.23947/2687-1653-2023-23-l-76-84 g.
Data Warehouse Failover Cluster for Analytical Queries in Banking
Victor V Sivov©0 . Vladimir A Bogatyrev
ITMO University,49. Kronverksky Pr„ St. Petersburg. Russian Federation El v.sivov777® email .com
Abstract
Introduction. The banking sector assigns high priority to data storage, as it is a critical aspect of business operations. The volume of data in this area is steadily growing. With the increasing volume of data that needs to be stored, processed and analyzed, it is critically important to select a suitable data storage solution and develop the required architecture. The presented research is aimed at filling the gap in the existing knowledge of the data base management system (DBMS) suitable for the banking sector, as well as to suggest ways for a fault-tolerant data storage cluster. The purpose of the work is to analyze the key DBMS for analytical queries, determine the priorities of the DBMS for the banking sector, and develop a fault-tolerant data storage cluster. To meet the performance and scalability requirements, a data storage solution with a fault-tolerant architecture that meets the requirements of the banking sector has been proposed.
Materials and Methods. Domain analysis allowed us to create a set of characteristics that a DBMS for analytical queries (OnLine Analytical processing — OLAP) should correspond to, compare some popular DBMS OLAP, and offer a fault-tolerant cluster configuration written in xml, supported by the ClickHouse DBMS. Automation was done using Ansible Playbook. It was integrated with the Gitlab version control system and Jinja templates. Thus, rapid deployment of the configuration on all nodes of the cluster was achieved.
Results. For OLAP databases, criteria were developed and several popular systems were compared. As a result, a reliable cluster configuration that met the requirements of analytical queries has been proposed for the banking industry. To increase the reliability and scalability of the DBMS, the deployment process was automated. Detailed diagrams of the cluster configuration were also provided.
Discussion and Conclusions. The compiled criteria for the DBMS OLAP allowed us to determine the need for this solution in the organization. Comparison of popular DBMS can be used by organizations to minimize costs when selecting a solution. The proposed configuration of the data warehouse cluster for analytical queries in the banking sector will improve the reliability of the DBMS and meet the requirements for subsequent scalability. Automation of cluster deployment by the mechanism of templating configuration files in Ansible Playbook provides configuring a ready-made cluster on new servers in minutes.
Keywords: DBMS, OLAP, data warehouse, ClickHouse, failover cluster.
Acknowledgements. The author would like to thank V.A. Bogatyrev, Dr.Sci. (Engineering), professor of the Computer Engineering Department of ITMO University, Honorary Worker of Science and Technology of the Russian Federation, who conducted expert interviews together with the authors of the article.
For citation. Sivov VV. Bogatyrev VA. Data Warehouse Failover Cluster for Analytical Queries in Banking. Advanced Engineering Research (Russia). 2023;23(l):76-84. https://doi.org/10.23947/2687-1653-2023-23-l-76-84
С WSivov, VA Bogatyrev. 2023
W Sivov, et al. Data Warehouse Failover Cluster for Analytical Queries in Banking
Научная статья
Отказоустойчивый кластер хранилища данных для аналитических запросов в банковской сфере
В.В. Сивов В.Л. Богатырев
Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, Российская Федерация, г. Санкт-Петербург, Кронверкский пр., д. 49 И у .si vov777 ® email .com
Аннотация
Введение. Банковский сектор придает большое значение хранению данных, поскольку это критически важный аспект бизнес-операций. Объем данных в данной сфере неуклонно растет. С увеличением объемов данных, которые необходимо хранить, обрабатывать и анализировать, крайне важно выбрать подходящее решение для хранения данных и разработать необходимую архитектуру. Представленное исследование направлено на то, чтобы заполнить пробел в существующих знаниях СУБД, подходящих для банковского сектора, а также предложить способы для отказоустойчивого кластера хранения данных. Цель работы — анализ ключевых СУБД для аналитических запросов, определение приоритетов СУБД для банковского сектора и разработка отказоустойчивого кластера хранения данных. Для выполнения требований к производительности и масштабируемости предложено решение для хранения данных с отказоустойчивой архитектурой, отвечающее требованиям банковского сектора.
Материалы и методы. Анализ предметной области позволил создать набор характеристик, которым должна соответствовать СУБД для аналитических запросов (OLAP), выполнить сравнение некоторых популярных OLAP СУБД и предложить отказоустойчивую кластерную конфигурацию, написаш1ую на языке xml, поддерживаемую СУБД ClickHousc. Автоматизация выполнена с помощью Ansible Playbooks. Он интегрирован с системой управления версиями Gitlab и шаблонами Jinja. Таким образом достигается быстрое развертывание конфигурации на всех нодах кластера.
Результаты исследования. Дм баз данных OLAP были разработаны критерии, проведен сравнительный анализ нескольких популярных систем. В результате была предложена надежная кластерная конфигурация в банковской индустрии, которая удовлетворяет требованиям аналитических запросов. Для увеличения надежности и масштабируемости СУБД процесс развертывания был автоматизирован. Также приведены детальные схемы конфигурации кластера.
Обсуждение и заключения. Составленные критерии для OLAP СУБД позволяют определить необходимость данного решения в организации. Сравнение популярных СУБД может быть использовано организациями для минимизации затрат при выборе решения. Предлагаемая конфигурация кластера хранилища данных для аналитических запросов в банковской сфере позволит повысить надежность СУБД и удовлетворить требования к последующей масштабируемости. Автоматизация развертывания кластера путем механизма шаблонизации конфигурационных файлов в Ansible Playbooks позволяет настроить готовый кластер на новых серверах за минуты.
Ключевые слова: СУБД, OLAP, хранилище данных, ClickHouse, отказоустойчивый кластер.
Благодарности. Автор выражает благодарность В.А. Богатыреву, доктору технических наук, профессору кафедры вычислительной техники Университета ИТМО, почетному работнику науки и техники РФ, проводившему экспертные интервью совместно с автором статьи.
с
1
5) я
и О с о
э о.
Б
о о
00 о
-С
I
с
о
■s -
£ с
Advanced Engineering Research (Russia) 2023;23(l):7i-84. ISSN 2687-1653
С
0 •a
1
¿л 'c
и
о >
Для цитирования. Сивов В.В., Богатырев В.А. Отказоустойчивый кластер хранилища данных для аналитических запросов в банковской сфере. Advanced Engineering Research (Russia). 2023;23(1):76 84. https://doi.org/10.23947/2687-l 653-2023-23-1 -76-84
Introduction. Data storage in the banking sector is one of the key business factors. To ensure the security of customer information and transactions, it is required to take measures of protection, distribution and creation of backups. For operational analysis, employees should be able to make operational analytical requests to the data warehouse, while not interfering with the work of other processes within the organization and without causing a heavy load on the storage itself. Databases and Data Warehouse are information systems in which data is stored, but they are also used to solve various tasks. The article describes what such systems do, what the main differences between them are, and why their effective use is essential for business development.
Many organizations make mistakes in designing the architecture of databases and data warehouses, losing sight of aspects of information security, scalability and fault tolerance. The urgency of this problem is due to the intensive development of systems in banks, the expansion of their fields of application and the increase in the amount of data in need of constant analysis. For operational analysis of a large amount of data, a storage is needed that must meet all reliability and security requirements.
Effective decision-making processes in business depend on high-quality information. In today's competitive business environment, flexible access to a data warehouse is required, organized in such a way as to increase business productivity, provide fast, accurate and up-to-date data understanding. The data warehouse architecture is designed to meet such requirements and is the basis of these processes [1-5].
The objective of the work is to determine the priority DBMS for performing analytical queries in the banking sector and design a fault-tolerant data warehouse cluster. This solution will significantly increase the speed of execution of analytical queries, solve problems with scalability and reliability of the data warehouse.
Materials and Methods. The database stores real-time information about one specific part of the business. Its main task is to process daily transactions. Databases use Online Transaction Processing (OLTP) to quickly delete, insert, replace and update a large number of short online transactions.
Data warehouse is a system that collects data from lots of different sources within an organization for reporting and analysis, using operational analytical processing (OLAP) to quickly analyze large amounts of data. This system focuses on reading, rather than changing historical data from lots of different sources, therefore, compliance with ACID (Atomic, Consistent, Isolated and Durable) requirements is less strict. Data warehouses perform complex functions of aggregation, analysis and comparison of data to support management decision-making in companies.
A warehouse in the banking sector may contain:
- user account information (personal data, addresses, phone numbers);
- information about banking products and services (loans, deposits, plastic cards, mobile banking, etc.);
- data on transactions (including card transactions) in minimal detail for the last three years;
- information about accounts, balances on them, etc.
To meet the needs for OLAP, there are separate types of database management systems (DBMS) [3-6]. Each of the systems has its own characteristics in the construction of architecture.
To perform an effective analysis of compliance with these requirements, warehouses must:
- have a high capacity capable of accommodating huge amounts of data (billions or trillions of rows);
- be organized as wide tables with multiple columns;
- perform queries with a small number of columns;
W Sivov, et at. Data Warehouse Faiiover Cluster for Analytical Queries in Banking
- have a high query execution speed (in milliseconds or seconds);
- provide for most of the read-only requests;
- support fast bulk data loading when updating (more than 1,000 rows at a time) and adding, but without changing them;
- have high throughput to process a single request (up to billions of rows);
- have high reliability;
- ensure data security and consistency.
For the OLAP scenario of work in the banking sector, it is preferable to use column-based analytical databases, since they can store a lot of columns in a table, which will not affect the speed of reading data. Column-based DBMS provide strong compression of data in columns, since data in one column of the table is usually of the same type, which cannot be said about a row. They also enable to get a tenfold increase in query execution speed on lower-power equipment. At the same time, thanks to compression, the data will occupy 5-10 times less space on the disk than in the case of traditional DBMS [7-11].
During the requirements analysis, the following column DBMS were selected: ClickHouse, Vertica, Amazon Redshift.
ClickHouse is the preferred solution due to the following advantages: open source; it is possible to define some or all structures that will be stored only in memory; high speed; good data compression; http and command line interface; cluster can be scaled horizontally; high availability; ease of installation and configuration. Installation is carried out on the organization's servers in an isolated segment, which meets the security requirements for sensitive data in the banking sector. The DBMS is also included in the register of domestic software; therefore, it provides implementing this software product in state-owned companies.
Amazon Redshift solution is provided only as a cloud service. For organizations from the banking sector that cannot place their data in the clouds for a number of security-related reasons, this product loses its appeal.
Vertica is an alternative version of ClickHouse with a paid license for large clusters and the installability on the company's local servers.
The implementation of the distributed data warehouse architecture is presented below. To increase fault tolerance and performance, the implementation of a distributed ClickHouse faiiover cluster with three shards and two replicas is proposed.
Sharding (horizontal scaling) makes it possible to write and store parts of data in a distributed cluster, process and read them in parallel on all nodes of the cluster, increasing data throughput.
Replication is copying data to multiple servers; thus, each bit of data can be found on multiple nodes.
Scalability is determined by sharding or segmentation of data. The reliability of the data warehouse is determined by data replication [12-16].
Sharding and replication are completely independent, different processes are responsible for them. It is required to localize small data sets on one shard and ensure a fairly even distribution across different shards in the cluster. To do this, it is recommended to take the hash function value from a field in the table as a sharding key.
Sharding and replication are completely independent, different processes are responsible for them. It is required to localize small data sets on one shard and ensure a fairly even distribution across different shards in the cluster. To do this, it is recommended to take the hash function value from a field in the table as a sharding key.
Depending on the number of available resources and servers, it is proposed to implement this configuration on 3 or 6 nodes. For a production environment, it is recommended to use a cluster of 6 nodes. It should be noted that replication
c
<j
E
u 60
U ■-I
c
01
3 Q.
E
o o
so o "o 9
u
c o •s
a
c
Advanced Engineering Research (Russia) 2023;23(1):76-H4. ISS\ 2M7-1653
docs not depend on sharding mechanisms and works at the level of individual tables, and also, since the replication coefficient is 2, each shard is represented in 2 nodes [17-19]. Configuration options are described below.
The logical topology diagram is as follows:
3(Shard) x 2(Replicas) = Clickhouse Cluster of 6 nodes.
The probability of trouble-free operation of a system with 2 replicas and 3 shards on 6 nodes is equal to:
Pc = [1 - (1 - p)2]3.
The probability of trouble-free operation is an objective possibility that the system will work for time t without restorations [7,13].
Thus, a table containing 30 million rows will be distributed evenly across 3 nodes of the cluster. The remaining 3 nodes will store replicas of the data. When one of the cluster nodes is disabled, data will be taken from another available node that contains its replica, thereby achieving reliability [20]. A cluster of 6 nodes is shown in Figure 1.
5
3
e o •o
'E
tc
u >
Fig. 1. Fault-tolerant cluster of 6 nodes (the authors' figure) To replicate data and execute distributed DDL queries, we need to use +1 node with ZooKeeper installed. You can also use ClickHouse Keeper, compatible with ZooKeeper, which does not require installation on a separate server.
An example of a fragment of the configuration file is shown in Figure 2, from which it can be seen that the shard has replication configured for the 1st and 6th nodes.
1 <yandex>
2 <remote_ servers>
3 A <cluster_l>
«♦ 5 <shard>
6 <weight>l</weight>
7 <interna'l_replication>true</lnternal_rep'lication>
8 creptica>
9 <host>{{ nodel }}</host>
10 <port>9000</po rt>
11 </replica>
12 <replica>
13 <host>{{ node6 }}</host>
14 <port>9000</po rt>
15 </repllea>
16 </shard> |
80
Fig. 2. Fragment of the configuration file for 6 nodes (the authors' figure)
VV Sivov, ft at. Data Warehouse Failover Cluster for Analytical Queries in Banking
An option of the clustcr configuration of 3 nodes with cyclic replication is shown in Figure 3.
node 01
shard 01 replica 01
shard 03 replica 02
node 02
shard 02 replica 01
shard 01 replica 02
node 03
shard 03 replica 01
shard 02 replica 02
y \
Fig. 3. Fault-tolerant cluster of 3 nodes (the authors1 figure)
This implementation requires two different segments located on each node. The main problem arises due to the fact that each shard has the same table name, ClickHouse cannot distinguish one shard/replica from another when they are located on the same server.
To solve this problem, it is needed:
- to place each shard in a separate database (schema);
- to set default_database for each shard;
- to set internal_replication parameter of each shard to true;
- to use an empty database parameter in a distributed table DDL script.
For this topology in an industrial environment, 6 server nodes are required, where each server stores data from only one segment, a security trapdoor for a separate database is not required. To save resources in the development or testing area, a configuration with 3 nodes can be used.
Automation is performed using Ansible Playbooks and integrated with Gitlab version control system. Thus, rapid deployment of the configuration on all nodes of the cluster is provided. When changing the configuration, it can be applied to all nodes with a single command or deploy a new DBMS cluster in a few minutes [21].
Research Results. The fault-tolerant cluster of the analytical DBMS provides redundancy for important system components, which allows for continuous operation even in case of errors in individual cluster nodes. This is done through load balancing, data replication between cluster nodes, and high reliability of the components used in the cluster. The result is an increase in the availability and reliability of the analytical DBMS, which is business-critical when analytical queries play a key role. The fault-tolerant cluster configuration of the data warehouse for analytical queries in the banking sector, taking into account the automation of the deployment process, enables to increase the reliability of the analytical data warehouse and meet the requirements for scalability. The developed task of automating clustcr deployment using the mechanism of tcmplating configuration files in Ansible Playbooks provides for the configuration of a ready-made cluster on new servers in a few minutes. The tasks of the template include operations to install the required packages, create the needed configuration and launch the clustcr.
An example of configuration files for automatic deployment of a DBMS cluster is shown in Figure 4. The j2 extension says that they are created using the Jinja template engine. Purpose-built placeholders in the template provide writing code similar to Python syntax. Parameters arc passed to the template for automatic insertion into the final document, thereby achieving automatic assembly into development, testing and industrial operation zones, which does not require manual modification of configuration files.
c ■j
E
0J
5l a
c
u
3
a.
E o o
Ofi
_o "o 2
c
o
'3
Advanced Engineering Research (Russia) 2023;23(l):76-84. ISSS 2687-1653
s templates clickhouse.
5
3
s/3
c
C T3
I
¿X c
M
o >
O. .2
_config.xml.j2
_keeper.xml.j2
Jdap_auth.xml.j2
Jdap_user_directory.xml.j2
_macro_n1.xml.i2
_macro_n2.xml.j2
_macro_n3.xml.j2
_macro_n4.xml.j2
_macro_n5.xml.i2
_macro_n6.xml.j2
_users.xml.j2
J2
Fig. 4. Configuration files
Description of configuration files:
clickhouse_config.xml.j2 — general clustcr configuration;
clickhouse_keeper.xml.j2 — zookeeper configuration, which is responsible for node synchronization and replication;
clickhouse_ldap_auth.xml.j2 — LDAP connection configuration for data security;
clickhouse_ldap_user_directory.xml.j2 — role-based configuration by access groups to ensure data security;
clickhouse_macro_nl(6).xml.j2 — macro files (each node has its own);
clickhouse_users.xml.j2 — configuration file for creating local users needed for administration;
cluster.xml.j2 — clustcr configuration file.
To test the reliability of this configuration, an experiment was conducted during which data was loaded into a DBMS cluster with a replication factor equal to 2. The dwh schemas and cluster_test_data tables were created on each of the nodes of the DBMS cluster, and a distributed table was created on the dwh cluster.cluster_test_data_distributed. The rows of the dwh.test_data_distributed table distributed across the cluster were 27,547,855. The rows of the dwh.cluster_test_data table with each of the clustcr nodes arc listed below:
9,186.544 rows — 1st node;
9,182,959 rows — 2nd node;
9,182,959 rows — 3rd node;
9,178352 rows — 4th node;
9,178352 rows — 5th node;
9,186344 rows — 6th node.
Conspicuously, the table was distributed over the entire cluster. According to the configuration shown in Figure 1, the replication factor was 2, which means that each data block would be presented on 2 nodes. This can be seen from the number of rows on the nodes: the sixth node stored a copy of the first, the third — a copy of the second, the fifth a copy of the fourth.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.