Методики анализа форматов хранения и глобально распределенной обработки больших объемов данных тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Белов Владимир Александрович

  • Белов Владимир Александрович
  • кандидат науккандидат наук
  • 2023, ФГБОУ ВО «МИРЭА - Российский технологический университет»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 126
Белов Владимир Александрович. Методики анализа форматов хранения и глобально распределенной обработки больших объемов данных: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГБОУ ВО «МИРЭА - Российский технологический университет». 2023. 126 с.

Оглавление диссертации кандидат наук Белов Владимир Александрович

ВВЕДЕНИЕ

ГЛАВА 1. ОБЗОР И АНАЛИЗ ИССЛЕДОВАНИЙ ФОРМАТОВ И СПОСОБОВ ХРАНЕНИЯ БОЛЬШИХ ДАННЫХ

1.1. Обзор современных подходов в разработке хранилищ данных

1.2. Разработка витрин данных в рамках концепции озер данных

1.3. Анализ исследований и подходов к выбору способов хранения данных при проектировании информационных систем

1.4. Классификация форматов хранения больших данных

1.5. Характеристические особенности форматов файлов хранения больших данных

1.5.1 Текстовые форматы

1.5.2. Колоночные форматы

1.5.3. Строковые форматы

1.5.4. Специфичные для платформы Apache Hadoop форматы

2.2.5. Сравнительная характеристика форматов хранения больших данных

1.6. Современные тенденции в развитии форматов хранения больших данных

Выводы по главе

ГЛАВА 2. СРАВНИТЕЛЬНАЯ ЭКСПЕРИМЕНТАЛЬНАЯ ОЦЕНКА РЕЛЯЦИОННЫХ И КОЛОНОЧНЫХ ФОРМАТОВ В БАЗАХ ДАННЫХ

2.1. Методика экспериментальных исследований характеристик форматов данных

2.2. Экспериментальный стенд для получения оценок характеристик СУБД

2.3. Экспериментальные исследования и результаты

Выводы по главе

ГЛАВА 3. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ

СЛАБОСТРУКТУРИРОВАННЫХ ФОРМАТОВ ХРАНЕНИЯ ДАННЫХ

3.1. Характеристики базовых операций с данными, зависящими от формата данных

3.2. Экспериментальный стенд для наблюдения влияния файловых форматов на параметры обработки данных

3.3. Экспериментальный стенд для наблюдения за влиянием файловых структур на эффективность обработки данных в витринах

3.4. Экспериментальная оценка характеристик файловых форматов хранения больших данных при масштабировании объема данных

3.5. Экспериментальная оценка эффективности форматов для задач потоковой передачи данных

Выводы по главе

ГЛАВА 4. ИНФОРМАЦИОННО-МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ РЕШЕНИЯ ЗАДАЧИ ВЫБОРА ФАЙЛОВЫХ СЛАБОСТРУКТУРИРОВАННЫХ ФОРМАТОВ ДЛЯ ОРГАНИЗАЦИИ ВИТРИН ДАННЫХ

4.1. Применение разработанных методик экспериментальной оценки для популярных слабоструктурированных форматов

4.2. Разработка информационно-математического обеспечения решения задачи выбора файлового формата

4.3. Выбор форматов методом тропической оптимизации на основе парных сравнений альтернатив

4.4. Выбор форматов методом анализа иерархий на основе парных сравнений альтернатив

Выводы по главе

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ

ГЛОССАРИЙ

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

ПРИЛОЖЕНИЕ 1. НАСТРОЙКИ БАЗ ДАННЫХ ДЛЯ ЭКСПЕРИМЕТОВ ГЛАВЫ

ПРИЛОЖЕНИЕ 2. СПРАВКА О ВНЕДРЕНИИ (ИСПОЛЬЗОВАНИИ) РЕЗУЛЬТАТОВ ДИССЕРТАЦИИ

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методики анализа форматов хранения и глобально распределенной обработки больших объемов данных»

ВВЕДЕНИЕ

Актуальность темы. Программная инфраструктура распределенной обработки больших объемов данных основывается как на структуре программных средств, так и на структуре хранения данных. Структура хранения, доступа и передачи данных определяет не только стек используемых технологий, но и закладывает базу для инфраструктуры всей программной системы и задает соответствующие условия для обработки данных. Выбор жесткой структуры данных, структуры базы данных и знаний, например, может дать преимущества по скорости обработки и доставки данных, а может и сделать невозможной масштабирование и разработку нового модуля. Наоборот, слабоструктурированные форматы дают возможность масштабирования, создания новых цифровых платформ анализа и обработки на одних и тех же объемах данных. Организация системы хранения является важной частью программной инфраструктуры программной системы, анализ которой необходим как на этапе проектирования, так и на этапах развития программных систем.

Одним из современных видов организации хранения больших данных, учитывающего распределенную обработку программными системами различного назначения и разными цифровыми платформами и инструментами, являются озера данных (data lake) [58]. Озеро данных — это масштабируемая система для хранения и анализа данных, хранимых в их оригинальном формате и используемых для извлечения знаний [37, 58, 80]. Поскольку озера данных хранят информацию в ее оригинальном формате, то требуется специализированный инструмент, способный хранить данные, предназначенные для определенных подсистем программной инфраструктуры. Таким инструментом могут выступать витрины данных [42, 29, 34].

Озера и витрины данных могут быть спроектированы и разработаны или сформированы на основе существующих платформ. Одним из наиболее популяр-

ных программных решений является распределенная система обработки информации Apache Hadoop [12], представленная различными вариантами дистрибутивов как коммерческих (Cloudera CDH, Hortonworks и российский аналог Arenadata), так и решений с открытым исходным кодом (Apache Ambari).

При разработке программной инфраструктуры систем обработки больших данных задача выбора способов хранения является одной из основных и наиболее трудозатратных. На этапе проектирования необходимо определить как форматы и структуры данных, так и многочисленные требования к извлечению и передачи данных. Высокие скорости роста информационных технологий, прикладных цифровых систем определи хранение данных в виде файлов в файловой системе серверного кластера, что позволяет в ходе эволюции программного комплекса изменять или добавлять состав или тип данных. Существует несколько распространенных типов файлового хранения больших данных, однако для численной оценки их соответствия требования программной системы обработки данных необходимо разработать соответствующие модели и методики.

Таким образом, актуальной и имеющей важное практическое значение является задача разработки методик анализа влияния на параметры обработки больших объемов данных в программной инфраструктуре выбора форматов хранения данных в условиях, определяемых задачами и компонентами информационно-аналитической среды.

Степень разработанности проблемы. Рост объема данных привел к появлению концепции больших данных, что, в свою очередь, спровоцировало научный интерес к данной области. Эти исследования (S. Sagiroglu [81], A. Labrinidis, I. Yaqoob, R. Kumar [55], O. O'Malley [30], S. Madden, Z. Zheng, H. V. Jagadish и др.) чаще сосредоточены на вопросе обработки и преобразования данных, потоковой передачи данных, применению реляционных кластерных хранилищ для хранения больших объемов данных, оптимизации работы протоколов в системах Интернета вещей.

Активное изучение озер данных началось недавно, так как само понятие «озеро данных» было введено только в 2011 году. В современных научных исследованиях (J. Darmont [37], C. Giebler, H. Schwarz, Ch. Groger, R. Hai, E. Hoos и др.) рассматриваются вопросы архитектуры, моделирования метаинформации для эффективного доступа к данным, вопросы качества данных. Применение концепции витрин данных менее разработано. В рамках исследования витрин данных (C Ghezzi [42], L Cabibbo [29], T Chenoweth [34], и др.) рассматриваются вопросы разработки архитектуры хранилищ данных, в которых предполагается создание витрин, а также вопросы размерности данных.

Анализ и выбор компонентов информационных систем, отвечающих предъявляемым системе требованиям, является важным этапом проектирования, поскольку допущенная ошибка может вести к неэффективной работе системы в целом. Одним из развивающихся подходов к оценке технологических решений в информационных системах является использование моделей эффективности (R. V. Rao, C. Z. Radulescu, H.-S. Lee, V. Nayak и др.), в том числе и на основе экспериментальных оценок (Никульчев Е. В. [21-24, 66-68, 92-96, 101-102], Магомедов Ш.Г., Ильин Д. Ю. [92, 96, 101-102], Гусев А. А. [96] и др.), обеспечивающих комплексный подход к оценке систем и удовлетворению заданных требований. Вопрос оценки средств хранения данных изучается в работах многих авторов (T. Anees, E. Mehmood, W. Hendricks, F. Bugiotti, L. Cabibbo [29], P. Atzeni, R. Torlone [29] и др.). Большинство из этих работ посвящено выбору реляционных СУБД, NoSQL решений или гибридных систем. Изучение файловых форматов для хранения слабоструктурированных данных, в свою очередь, получило популярность лишь в последние годы, что свидетельствует об актуальности и важности использования подобных инструментов как для хранения больших данных, так и разработки витрин в озерах данных.

Цель исследования - разработка методик экспериментальных исследований и анализа влияния на характеристики распределенной обработки больших объемов данных форматов хранения данных в заданной программной инфраструктуре.

Задачи исследования:

1. Анализ современных технологий организации хранения больших данных.

2. Формализация задачи анализа форматов данных, выбор набора входных и измеряемых данных, критериев эффективности.

3. Разработка методики проектирования экспериментальных стендов для получения достоверных численных оценок характеристик обработки больших данных в зависимости от форматов хранения.

4. Реализациях экспериментальных стендов для сравнительного анализа реляционных и слабоструктурированных форматов, для популярных форматов в витринах данных, при масштабировании и потоковой передаче данных

5. Разработка методики анализа форматов данных для построения витрин данных в информационно-аналитических информационных средах.

6. Разработка информационно-математического обеспечения решения задачи выбора альтернативных вариантов.

7. Внедрение и анализ результатов.

Объектом исследования являются форматы хранения больших данных, их структура и функциональные особенности.

Предметом исследования являются методы, модели и средства оценки форматов хранения данных для систем глобально распределенной обработки больших объемов данных.

Методология и методы исследования. В работе использованы методологии проектирования и анализа программных систем и систем хранения данных; методы и модели планирования экспериментов и обработки экспериментальных данных; методы и модели оценки качества систем хранения данных; методы идемпо-тентной алгебры.

Научная новизна диссертационного исследования заключается в следующем.

1. Разработана методика проектирования экспериментальных стендов, предназначенных для получения достоверных численных оценок характеристик обра-

ботки больших данных в зависимости от форматов данных на основе нагрузочных испытаний в имитационной информационно-аналитической программной инфраструктуре.

2. Разработана методика получения зависимости характеристик обработки больших объемов в витринах данных от параметров слабоструктурированных форматов, определяемых на основе экспериментальных оценок.

3. Сформировано информационно-математическое обеспечение решения задачи выбора файловых слабоструктурированных форматов для требований программной системы.

Достоверность и обоснованность научных результатов, полученных при подготовке диссертационной работы, подтверждены теоретическими и экспериментальными исследованиями по оценке эффективности форматов файлов хранения данных в системах обработки больших данных, использованием современных признанных теоретических положений, комплексным и корректным применением в экспериментах общепризнанных методик, соответствием результатов, полученных различными экспериментальными методами, согласованностью полученных результатов с результатами других исследователей, а также апробацией и обсуждением результатов на международных научных конференциях, рецензированием и экспертизой научных статей, опубликованных в ведущих научных изданиях.

Теоретическая и практическая значимость исследования. Теоретическая значимость исследования заключается в разработке методик экспериментальных исследований и анализа форматов хранения данных в программной инфраструктуре систем глобально распределенной обработки больших объемов данных, разработке методики экспериментальной оценки форматов хранения больших данных и выбора форматов, наиболее соответствующих требованиям, определяемых задачами и технологиями программной системы.

Практическая значимость состоит в разработанном методическом, программном и математическом обеспечении выбора эффективного формата файлов для хранения витрин в озерах данных.

Результаты работы использованы в платформе массовых психологических исследований Психологического института РАО. Результаты работы были использованы при выполнении научных исследований по гранту РФФИ «Разработка открытой экспериментально-аналитической веб-платформы для сбора и интеллектуального анализа данных междисциплинарных исследований в области психического здоровья», грант 17-29-02198 (офи_м).

Основные положения, выносимые на защиту.

1. Методика проектирования экспериментальных стендов, предназначенных для получения достоверных численных оценок влияния форматов данных на характеристики обработки больших объемов на основе нагрузочных испытаний в имитационной информационно-аналитической программной инфраструктуре. Для применения методики были разработаны четыре стенда.

2. Методика получения зависимости характеристик обработки больших объемов в витринах данных от параметров файловых слабоструктурированных форматов, определяемых на основе экспериментальных оценок. Выявлено, что для популярных форматов при двукратном увеличении объемов (с 5 до 10 и с 25 до 50 млн) форматы Apache Parquet, ORC обеспечивают около 30% эффективности по основным операциям по сравнению с другими исследуемыми форматами.

3. Информационно-математическое обеспечение решения задачи выбора файловых слабоструктурированных форматов согласно требованиям программной системы на основе использования аппарата идемпотентной алгебры. Предложенное обеспечение согласуется с результатами применения метода анализа иерархий. Полученные оценки позволяют за счет выбора форматов увеличить в 1,5 раза скорость работы систем распределенной обработки больших объемов данных.

Соответствие паспорту специальности 2.3.5. Основные результаты соответствуют паспорту специальности в части пунктов: 1. Модели, методы и алгоритмы проектирования, анализа, трансформации, верификации и тестирования программ и программных систем. 4. Интеллектуальные системы машинного обу-

чения, управления базами данных и знаний, инструментальные средства разработки цифровых продуктов. 8. Модели и методы создания программ и программных систем для параллельной и распределенной обработки данных, языки и инструментальные средства параллельного программирования. 9. Модели, методы, алгоритмы, облачные технологии и программная инфраструктура организации глобально распределенной обработки данных.

Апробация работы и публикации. Результаты диссертационного исследования докладывались и обсуждались на конференциях и семинарах:

- 8й, 9й, 10й Национальный Суперкомпьютерный Форум (НСКФ-2019, 26-29.11.2019 НСКФ-2020, 24-27.11.2020; НСКФ-2021, 30.1103.12.2021; ИПС им. А. К. Айламазяна РАН, Переславль-Залесский);

- XIV Международная конференция «Управление развитием крупномасштабных систем» MLSD'2021, 27-29.09.2021 (ИПУ им. В. А. Трапезникова РАН, г. Москва);

- Big Data & AI Conference 2020, 17-18.09.2020 (г. Москва, онлайн-конференция);

Основные результаты диссертационного исследования опубликованы в 12 работах, из них: 3 в изданиях, включенных в перечень рецензируемых журналов, рекомендованных ВАК по специальности 2.3.5; 7 — в изданиях, индексируемых в Web of Science и Scopus, в том числе 2-х изданиях квартиля Q2 Scopus. Также получено 1 авторское свидетельство о регистрации программы для ЭВМ.

Личный вклад соискателя в получение результатов, изложенных в диссертации. Основные результаты, выносимые на защиту, получены автором. В работах, опубликованных в соавторстве, Белову В. А. принадлежат разработка методики экспериментальной оценки форматов хранения данных, результаты проведенных экспериментов, разработка модели выбора средств хранения данных.

Структура и объем диссертации. Диссертационное исследование состоит из введения, 4 глав, глоссария и списка использованной литературы. Общий объ-

ем работы составляет 126 с., включает 32 рис., 20 таблиц, библиографический список из 107 наименования.

В первой главе «Обзор и анализ исследований форматов и способов хранения больших данных» рассмотрены современные подходы к разработке хранилищ данных и технологий работы с большими данными; описана технология витрин данных, представлены особенности разработки витрин в озерах данных, обозначена необходимость выбора формата хранения данных при разработке витрин.

Во второй главе «Сравнительная экспериментальная оценка реляционных и колоночных форматов в базах данных» сформулирована конкретная задача исследования; разработана методика проектирования экспериментальных стендов, предназначенных для получения достоверных численных оценок характеристик форматов данных при манипуляции с большими данными; разработаны экспериментальные стенды в соответствии с методикой.

В третьей главе «Экспериментальное исследование слабоструктурированных форматов хранения данных» разработана методика экспериментального исследования для получения оценок влияния файловых слабоструктурированных форматов на характеристики обработки больших объемов в витринах данных; представлено описание экспериментального исследования для прикладной цифровой платформы и стенды для анализа характеристик при масштабировании и при потоковой передаче в витринах данных.

В четвертой главе «Информационно-математическое обеспечение решения задачи выбора файловых слабоструктурированных форматов для организации витрин данных» приведено применение методики получения зависимости характеристик обработки больших объемов в витринах данных от параметров файловых слабоструктурированных форматов; на основе идемпотентной алгебры разработано информационно-математическое обеспечение решения задачи выбора файловых слабоструктурированных форматов для организации витрин данных, представляющее возможность построения вектора рейтинга альтернатив.

В заключении приведены основные результаты и выводы.

ГЛАВА 1. ОБЗОР И АНАЛИЗ ИССЛЕДОВАНИЙ ФОРМАТОВ И СПОСОБОВ ХРАНЕНИЯ БОЛЬШИХ ДАННЫХ

Проведен аналитический обзор современного состояния предметной области. Изучены современные подходы к разработке хранилищ данных, представлено описание технологий работы с большими данными. Представлены современные подходы к разработке хранилищ данных. Описана технология витрин данных, представлены особенности разработки витрин в озерах данных, а также обозначена необходимость выбора формата хранения данных при разработке витрин. Осуществлен аналитический обзор, а также сравнительная характеристика форматов хранения больших данных в системах обработки и хранения больших данных, приведена классификация форматов хранения больших данных в зависимости от основания классификации. Рассмотрены современные тенденции развития файловых слабоструктурированных форматов хранения больших объем данных.

1.1. Обзор современных подходов в разработке хранилищ данных

Важным этапом проектирования программной инфраструктуры систем распределенной обработки данных является разработка системы хранения данных. Традиционным способом хранения данных является использование реляционных баз данных [84]. Реляционная модель была разработана Э. Коддом в 1970-х годах [39]. В ее основе находятся табличное представление данных, также называемое отношениями [39, 19]. Существенным преимуществом баз данных является наличие транзакционности [87]. На сегодняшний день реляционный подход стал одной из самых распространенных моделей в сфере хранения данных [36, 51, 44].

В связи с ростом потребностей предприятий, увеличением количества источников, переходом на микросервисную архитектуру, предполагающую использование множества разрозненных баз данных [56, 98], а также необходимости раз-

работки средств принятия аналитических решений возникла необходимость разработки нового подхода в вопросе хранения данных.

В качестве такого подхода выступила концепция хранилищ данных [41, 78, 47]. Хранилище данных является одним из видов системы управления данными, обеспечивающих поддержку бизнес-аналитики. Хранилища данных предназначены только для выполнения запросов и анализа данных, а также содержат большие объемы исторических данных. При этом источниками данных могут выступать различные системы, а также журналы приложений и данные о выполненных транзакциях.

Основными задачами хранилищ данных является централизация и консолидация данных, полученных из различных источников. Аналитические инструменты дают возможность компаниям извлекать из собственных данных ценные для бизнеса сведения и повышать эффективность принятых решений. Со временем в хранилище накапливаются записи за прошедшие периоды, которые представляют большую ценность для специалистов по изучению данных и бизнес-аналитиков. Эти возможности делают хранилища данных единым источником проверенной информации компании.

Хранилище данных обычно состоит из следующих компонентов:

• реляционная база данных, необходимая для хранения данных и управления ими;

• средства для извлечения, загрузки и преобразования данных, которое служат для предварительной обработки данных перед их анализом;

• средства статистического анализа, подготовки отчетности, а также глубинного анализа данных;

• средства визуализации данных;

• другие приложения, генерирующие полезную информацию по алгоритмам исследования данных или графам и функциям обработки данных.

На рис. 1.1 представлена схема работы хранилищ данных. На первом уровне данной схемы находятся источники данных. В качестве источников могут высту-

пать любые внешние и внутренние системы, такие как ERP, CRM системы, данные банковских транзакций, файлы журналирования и многое другое. Все данные из этих источников интегрируются в хранилище с помощью так называемых ETL процессов (с английского "extract-transform-load" - "извлечь-преобразовать-загрузить") [53]. Задачей ETL-инструментов является очистка и предагрегация большого объема поступающих в хранилище данных [43, 106, 103].

Рисунок 1.1 - Схема работы хранилища данных

Существует большое количество современных инструментов поддержки ETL-процессов. Наиболее популярными в рамках разработки систем больших данных являются проекты с открытым исходным кодом, такие как Apache Spark [16], Apache NiFi [15], Apache Airflow [10] и другие. Кроме того, существует большое количество коммерческих инструментов от таких фирм, как IBM [48], Oracle [70] и другие. Каждый из этих инструментов предлагает набор средств для создания потоков обработки данных. ETL-поток, в свою очередь, представляет

собой ориентированный ациклический граф, где в качестве вершин выступают различные обработчики данных, а в качестве дуг - переходы между этапами обработки и интеграции между обработчиками.

На третьем уровне представлены потребители хранящихся данных. В качестве потребителей могут выступать как конечные пользователи, так и различные инструменты для проведения анализа и системы принятия решений.

Недостатком реляционного хранилища данных для решения современных задач является тот факт, что они строятся на основе показателей и измерений, которые определяются на этапе проектирования подобных систем [58]. Данные собираются и агрегируются для расчета и обновления предопределенных показателей.

Основой для определения подобных показателей выступают потребности конечных пользователей, записанные в функциональные требования. В процессе загрузки новой информации данные идентифицируются, собираются с помощью различных процессов интеграции, а затем в предагрерированном виде записываются в хранилище.

Описанный подход подразумевает наличие строгой схемы и структуры данных. Однако с развитием парадигмы Интернета вещей, широкое использование мобильных устройств, спровоцировавшее рост объема данных, привели к возникновению трудностей или невозможности определения необходимых показателей на первом уровне, что, в свою очередь, определило необходимость хранения слабоструктурированной и неструктурированной информации.

Существует ряд исследований, целью которых является адаптация традиционных хранилищ для обеспечения новых требований пользователей и изменений в базовых источниках данных [80].

Авторы [90] представляют для решения проблемы новую методологию, предлагающую разработку специализированных БТЬ-процессов. Исследование [20] описывает попытку авторов создать динамическую схему хранилища для отображения возникающих в период использования изменений. Данная модель, представленная в исследованиях [20, 84, 79, 3, 85], представляет собой временное

хранилище и версионирование схемы для обновления структуры самого хранилища, обеспечивающего наличие более одной версии данных. Однако в этих работах не показано, как именно пользовательские требования влияют на эволюцию изменений.

Большую популярность набирают исследования, связанные с адаптацией хранилищ к обработке больших данных. Концепция «больших данных» основана на шести аспектах, таких как ценность, объем, скорость, разнообразие, надежность и изменчивость [31]. Это означает, что термин «большие данные» относится не только к количеству этих данных [31], но и к их способности выступать в качестве источника для генерации ценной информации и идей.

Подход, описанный в исследовании [69], предлагает спецификацию схемы данных и процесс эволюции этой схемы, но это не связано с самой концепцией хранилищ данных. Исследование [65] предлагает метод поддержки роста количества источников данных с помощью методов интеграции больших данных на основе онтологий. Данный метод позволяет производить некоторые изменения в источниках данных, но не способен отвечать всем требованиям.

В свою очередь, необходимость хранения неструктурированных и слабоструктурированных данных для задач принятия решения упоминается в ряде исследований [27, 4, 71]. Согласно результатам этих исследований, традиционные хранилища данных обладают лишь небольшим процентом структурированных корпоративных данных. В то же время, подавляющее большинство неструктурированных данных записано в таких инструментах, как электронные письма, заметки, центрах обработки данных, социальных сетях и др. Так, согласно официальным данным, 80% данных организаций представлено в слабоструктурированном и неструктурированном виде [71].

Существуют также примеры исследований, в которых предприняты попытки реализации хранилищ данных на основе КоБрЬ решений. В работе [27] представлен подход разработки хранилища данных на основе документно-ориентированной нереляционной базы данных.

Хотя большинство NoSQL баз данных не содержат предопределенных схем, информация о структурных свойствах постоянных данных является необходимым условием разработки приложений. В противном случае невозможно обеспечить доступ к данным. Авторы [54] предлагают алгоритм извлечения схемы, работающий вне NoSQL хранилища данных. Этот метод специально предназначен для слабоструктурированных данных, хранящихся в NoSQL базах, например, в формате JSON. Вместо разработки схемы на уровне проектирования системы извлечение последующей схемы можно рассматривать как шаг обратного проектирования. Основываясь на извлеченной информации о схеме, авторы предложили набор мер подобия, которые фиксируют степень неоднородности данных JSON и выявляют выбросы структурных значений в данных. Таким образом, приведенный алгоритм может быть применен только к одному набору документов.

Потенциальное информационное богатство всех этих данных еще не известно или недостаточно изучено. Чтобы избежать болота данных и добавить все данные в существующую систему поддержки принятия решений, данные не интегрируются автоматически, прежде чем заранее узнать, для чего они будут использоваться [58]. На этом этапе возникла новая информационная архитектура - концепция больших данных [63, 18, 31, 81, 88, 107, 97].

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Белов Владимир Александрович, 2023 год

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Agocs A., Le Goff J. M. A web service based on RESTful API and JSON Schema/JSON Meta Schema to construct knowledge graphs // 201S International Conference on Computer, Information and Telecommunication Systems (CITS) - P. 1-5.

2. Ahmed S., Ali M.U., Ferzund J., Sarwar M.A., Rehman A., Mehmood A. Modern Data Formats for Big Bioinformatics Data Analytics // International Journal of Advanced Computer Science and Applications. 201V. Vol. S. No 4. P. 366-3VV.

3. Ahmed W., Zimányi E., Wrembel R. A logical model for multiversion data warehouses // 2014 International Conference on Data Warehousing and Knowledge Discovery. 2014. P. 23-34.

4. Alqarni A.A., Pardede E. Integration of data warehouse and unstructured business documents // 2012 15th International Conference on Network-Based Information Systems - P. 32-3V.

5. Amazon: [Электронный ресурс] // Amazon Simple Storage Service Documentation. URL: https://docs.aws.amazon.com/s3/index.html. (Дата обращения: 11.05.2022).

6. Andjelic S., Obradovic S., Gacesa B. A Performance Analysis of the Dbms -MYSQL Vs POSTGRESQL // Communications - Scientific Letters of the University of Zilina. 200S. Vol. 10. No 4. P. 53-5V.

V. Apache Avro: [Электронный ресурс] // Apache Avro™ 1.11.0 Documentation. URL: https://avro.apache.org/docs/current. (Дата обращения: 11.05.2022).

S. Apache Hudi: [Электронный ресурс] // Quick-Start Guide. URL: https://hudi.apache.org/docs/spark_quick-start-guide.html/. (Дата обращения: 11.05.2022).

9. Apache ORC: [Электронный ресурс] // Apache Software Foundation. URL: https://orc.apache.org/. (Дата обращения: 31.01.2022).

10. Apache: [Электронный ресурс] // Apache Airflow. URL: https://airflow.apache.org/docs/. (Дата обращения: 22.10.2022).

11. Apache: [Электронный ресурс] // Apache Arrow. URL: https://arrow.apache.org/docs/. (Дата обращения: 11.05.2022).

12. Apache: [Электронный ресурс] // Apache Hadoop. URL: https://hadoop.apache.org/. (Дата обращения: 11.05.2022).

13. Apache: [Электронный ресурс] // Apache Iceberg. URL: https://iceberg.apache.org/. (Дата обращения: 11.05.2022).

14. Apache: [Электронный ресурс] // Apache Kafka specification. URL: https://kafka.apache.org/documentation. (Дата обращения: 11.05.2022).

15. Apache: [Электронный ресурс] // Apache NiFi Overview. URL: https://nifi.apache.org/docs.html/. (Дата обращения: 22.10.2022).

16. Apache: [Электронный ресурс] // Spark Overview. URL: https://spark.apache.org/docs/latest/. (Дата обращения: 22.10.2022).

17. Apache Parquet: [Электронный ресурс] // Apache Software Foundation. URL: https://parquet.apache.org/documentation/latest/. (Дата обращения: 11.05.2022).

18. Ardito L., Scuotto V., Del Giudice M., Messeni A. A bibliometric analysis of research on Big Data analytics for business and management // Manag. Decis. 2018. Vol. 57. P. 1993-2009.

19. Batra R. A History of SQL and Relational Databases // SQL Primer. 2018. P. 183-187.

20. Bentayeb F., Favre C., Boussaid O. A user-driven data warehouse evolution approach for concurrent personalized analysis needs // Integr. Comput. Aided. Eng. 2008. Vol. 15, No 1. P. 21-36.

21. Belov V., Kosenkov A.N., Nikulchev E. Experimental Characteristics Study of Data Storage Formats for Data Marts Development within Data Lakes // Applied Sciences. 2021. Vol. 11. No. 18. P. 8651.

22. Belov V., Nikulchev E. Analysis of Big Data Storage Tools for Data Lakes based on Apache Hadoop Platform // International Journal of Advanced Computer Science and Applications. 2021. Vol. 12. No. 8. P. 551-557.

23. Belov V., Tatarintsev A., Nikulchev E. Choosing a Data Storage Format in the Apache Hadoop System Based on Experimental Evaluation Using Apache Spark // Symmetry. 2021. Vol. 13. No. 2. P. 195, 1-22.

24. Belov V., Tatarintsev A., Nikulchev E. Comparative characteristics of big data storage formats // Journal of Physics: Conference Series. 2021. Vol. 1727. No. 1. P. 012005.

25. Berenson H., Bernstein P., Gray J., Melton J., O'Neil E., O'Neil P. A Critique of ANSI SQL Isolation Levels // 1995 ACM SIGMOD International Conference on Management of Data - P. 1-10.

26. Boehm M., Dusenberry M. W., Eriksson D., Evfimievski A. V., Manshadi F. M., Pansare N., Reinwald B., Reiss F. R., Sen P., Surve A. C., Tatikonda S. SystemML: declarative machine learning on spark // 2016 Proceedings of the VLDB Endowmen - P. 1425-1436.

27. Bouaziz S., Nabli A., Gargouri F. Design a Data Warehouse Schema from Document-Oriented database // Procedia Computer Science. 2019. Vol. 159. P. 221-230.

28. Brahimi L., Bellatreche L., Ouhammou Y. Coupling Multi-Criteria Decision Making and Ontologies for Recommending DBMS // 2017 International Conference on Management of Data (COMAD).

29. Cabibbo L., Torlone R. On the integration of autonomous data marts // 2004 16th International Conference on Scientific and Statistical Database Management. P. 223-231.

30. Camacho-Rodriguez J., Chauhan A., Gates A., Koifman E., O'Malley O., Garg V., Haindrich Z., Shelukhin S., Jayachandran P., Seth S., Jaiswal D., Bouguer-ra S., Bangarwa N., Hariappan S., Agarwal A., Dere J., Dai D., Nair T., Dem-bla N., Vijayaraghavan G., Hagleitner G. Apache Hive: From MapReduce to Enterprise-grade Big Data Warehousing // Proceedings of the 2019 International Conference on Management of Data. P. 1773-1786.

31. Cappa F., Oriani R., Peruffo E., McCarthy I.P. Big Data for Creating and Capturing Value in the Digitalized Environment: Unpacking the Effects of Volume, Variety and Veracity on Firm Performance // Journal of Product Innovation Management. 2021. Vol. 38. No 1. P. 49-67.

32. Cattell R. Scalable SQL and NoSQL data stores // SIGMOD Rec. 2010. Vol. 39. No 4. P. 12-27.

33. Chauhan D., Bansal K. L. Using the Advantages of NOSQL: A Case Study on MongoDB // International Journal on Recent and Innovation Trends in Computing and Communication. 2017. V. 5. No. 2. P. 90-93.

34. Chenoweth T., Schuff D., St. Louis R. A method for developing dimensional data marts // Communications of the ACM. 2003. Vol. 46. No 12. P. 93-98.

35. Chong D., Shi H. Big data analytics: A literature review // Journal of Management Analytics. 2015. Vol. 2. P. 175-201.

36. Collins M. Network Security Through Data Analysis - O'Reilly Media, Inc. 2014.

37. Darmont J., Favre C., Loudcher S., Nous C. Data Lakes for Digital Humanities // 2020 2nd International Digital Tools & Uses Congress (DTUC 2020), Ham-mamet, Tunisia. 2020. P. 38-41.

38. Databricks: [Электронный ресурс] // Delta Lake documentation 2020. URL: https://docs.delta.io/latest/index.html. (Дата обращения: 11.05.2022).

39. Date C. J. E. F. Codd and Relational Theory: A Detailed Review and Analysis of Codd's Major Database Writings - Lulu Publishing Services, 2019.

40. Dean J., Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters // 2004 Sixth Symposium on Operating System Design and Implementation (OSDI'04). P. 137-150

41. Gardner S. R. Building the data warehouse // Communications of the ACM. 1998. Vol. 41. No 9. P. 52-60.

42. Ghezzi C. Designing data marts for data warehouses // ACM Trans. Softw. Eng. Methodol. Vol. 10. No 4. P. 452-483.

43. Goar V., Sarangdevot P.S.S., Tanwar G., Sharma A. Improve Performance of Extract, Transform and Load (ETL) in Data Warehouse // (IJCSE) International Journal on Computer Science and Engineering. 2010. Vol. 2. No. 3. P. 786789.

44. Halpin T. A., Antony A., Morgan J., Morgan T. Information Modeling and Relational Databases [electronic resource] - 2008.

45. Hive: [Электронный ресурс] // 2020 Apache Hive Specification. URL: https://cwiki.apache.org/confluence/display/HIVE. (Дата обращения: 11.05.2022).

46. Impala: [Электронный ресурс] // Apache Software Foundation. URL: https://impala.apache.org/. (Дата обращения: 31.01.2022).

47. Inmon W.H. Building the Data Warehouse - John Wiley & Sons, Inc. 2002.

48. IBM: [Электронный ресурс] // Telco Network Cloud Manager. URL: https://www.ibm.com/docs/en/tncm-p/1.3.1/. (Дата обращения: 22.10.2022).

49. Ivanov T., Pergolesi M. The impact of columnar file formats on SQL-on-hadoop engine performance: A study on ORC and Parquet // Concurrency and Computation: Practice and Experience. 2020. Vol. 32. No 5. P. 1-31.

50. Jung M., Youn S., Bae J., Choi Y. A Study on Data Input and Output Performance Comparison of MongoDB and PostgreSQL in the Big Data Environment // 2015 8th International Confer-ence on Database Theory and Application (DTA). 2015. P. 14-17.

51. Kasprowski P. Choosing a persistent storage for data mining task // Studia Informatica. 2012. Vol. 33. No. 2B. P. 509-520.

52. Khine P.P., Wang Z.S. Data Lake: a new ideology in big data era // 2018 4th Annual International Conference on Wireless Communication and Sensor Network. Vol. 17. P. 03025.

53. Kimball R., Caserta J. The Data Warehouse ETL Toolkit Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data - Wiley Publishing, Inc. 2006.

54. Klettke M., Storl U., Scherzinger S. Schema extraction and structural outlier detection for json-based nosql data stores // Datenbanksysteme fur Business, Technologie und Web (BTW), 16. Fachtagung des GI-Fachbereichs "Datenbanken und Informationssysteme". 2015. P. 425-444.

55. Kumar R., Gupta N., Charu Sh., Bansal S., Yadav K. Comparison of SQL with HiveQL // International Journal for Research in Technological Studies. 2014. Vol. 1. No. 9. P. 28-30.

56. Li Sh., Zhang H., Jia Z., Zhong Ch., Zhang Ch., Shan Z., Shen J., Babar M. A. Understanding and addressing quality attributes of microservices architecture: A Systematic literature review // Information and Software Technology. 2021. Vol. 131. P. 106449.

57. Li Y., Manoharan S. A performance comparison of SQL and NoSQL databases // 2013 IEEE Pacific Rim Conference on Communications, Computers and Signal Processing (PACRIM) - P. 15-19.

58. Madere C., Laurent A. The next information architecture evolution: the data lake wave // 8th International Conference on Management of Digital EcoSystems (MEDES). Association for Computing Machinery - P. 174-180.

59. Martins P., Tomé P., Wanzeller C., Sá F., Abbasi M. Comparing Oracle and PostgreSQL, Performance and Optimization // Trends and Applications in Information Systems and Technologies. WorldCIST 2021. Advances in Intelligent Systems and Computing. 2021. Vol 1366.

60. Microsoft: [Электронный ресурс] // Azure Data Lake Storage. URL: https://azure.microsoft.com/en-us/services/storage/data-lake-storage/. (Дата обращения: 11.05.2022).

61. Mitlohner J., Neumaier S., Umbrich J., Polleres A. Characteristics of Open Data CSV Files // 2nd International Conference on Open and Big Data (OBD), Vienna, Austria, 22-24 August 2016. P. 72-79.

62. Moniruzzaman A.B.M., Hossain S.A. NoSQL Database: New Era of Databases for Big data Analytics-Classification, Characteristics and Comparison // Int. J. Database Theory Appl. 2013. Vol. 6. P. 1-14.

63. Moro Visconti R., Morea D. Big Data for the Sustainability of Healthcare Project Financing // Sustainability. 2019. Vol. 11. P. 3748.

64. Munir R.F., Abello A., Romero O., Thiele M., Lehner W. A cost-based storage format selector for materialized results in big data frameworks // Distrib Parallel Databases. 2020. Vol. 38. P. 335-364.

65. Nadal S., Romero O., Abello A., Vassiliadis P., Vansummeren S. An integration-oriented ontology to govern evolution in big data ecosystems // Inf. Syst. 2017. Vol. 79. P. 3-19.

66. Nikulchev E., Ilin D., Belov V., Kolyasnikov P., Kosenkov A. E-learning Tools on the Healthcare Professional Social Networks // International Journal of Advanced Computer Science and Applications. 2019. Vol. 10. No. 4. P. 2934

67. Nikulchev E., Ilin D., Belov V., Pushkin P., Kolyasnikov P., Malykh S. Study of Cross-Platform Technologies for Data Delivery in Regional Web Surveys in the Education // International Journal of Advanced Computer Science and Applications. 2019. Vol. 10. No. 10. P. 14-19

68. Nikulchev E., Ilin D., Silaeva A., Kolyasnikov P., Belov V., Runtov A., Pushkin P., Lap-tev N., Alexeenko A., Magomedov S., Kosenkov A., Zakharov I., Ismatullina V., Malykh S. Digital Psychological Platform for Mass Web-Surveys // Data. 2020. Vol. 5. No. 4. P. 95.

69. Olston C. Nova: continuous pig/hadoop workflows // 2011 ACM SIGMOD International Conference on Management of data - P. 1081-1090.

70. Oracle: [Электронный ресурс] // Oracle Analytics. URL: https://www.oracle.com/business-analytics/. (Дата обращения: 22.10.2022).

71. Orobor I.A. Integration and analysis of unstructured data for decision making: Text analytics approach // International Journal of Open Information Technologies. 2016. Vol. 4. P. 82-88.

72. ORC File Format: [Электронный ресурс] // Language Manual ORC. URL: https: //cwiki .apache.org/confluence/display/hive/languagemanual+orc. (Дата обращения: 11.05.2022).

73. Parker Z., Poe S., Vrbsky S. Comparing NoSQL MongoDB to an SQL DB // 2013 Proceedings of the 51st ACM Southeast Conference (ACMSE '13) - P. 16.

74. Plase D., Niedrite L., Taranovs R. A. Comparison of HDFS Compact Data Formats: Avro Versus Parquet // Lietuvos ateitis. 2017. Vol. 9. No 3. P. 267276.

75. Protocol Buffers: [Электронный ресурс] // Protocol Buffers. URL: https://developers.google.com/protocol-buffers. (Дата обращения: 11.05.2022).

76. Razbonyal C., Erdal Guvenglu E. Traditional Data Storage Methods and the Big Data Concepts // International Research Journal of Engineering and Technology (IRJET). 2016. Vol. 3, № 6. P. 2556-2561.

77. Regulation (EU): [Электронный ресурс] // EU General Data Protection Regulation (GDPR). URL: https://gdpr-info.eu/. (Дата обращения: 11.05.2022).

78. Rizzi S., Abello A., Lechtenbörger J., Trujillo J. Research in data warehouse modeling and design: dead or alive // 2016 9th ACM international workshop on Data warehousing and OLAP (DOLAP '06). P. 3-10.

79. Saddad E., El-Bastawissy A., Hegazy O., Hazman M. Towards an alternative Data Warehouses Architecture // 2014 14th International Conference on Hybrid Intelligent Systems (HIS 2014). Vol. 6. P. 48-53.

80. Saddad E., El-Bastawissy A., Mokhtar H. M. O., Hazman M. Lake Data Warehouse Architecture for Big Data Solutions // International Journal of Advanced Computer Science and Applications (IJACSA). 2020. Vol. 11. No 8. P. 417424.

81. Sagiroglu S., Sinanc D. Big data: A review // 2013 International Conference on Collaboration Technologies and Systems (CTS). 2013. P. 42-47.

82. Salloum S., Dautov R., Chen X., Peng P.X., Huang J.Z. Big data analytics on Apache Spark // International Journal of Data Science and Analytics. Vol. 1. №3. P. 145-164.

83. SequenceFile: [Электронный ресурс] // SequenceFile. URL: https://hadoop.apache.org/docs/stable/api/org/apache/hadoop/io/SequenceFile. html. (Дата обращения: 11.05.2022).

84. Thakur G., Gosain A. DWEVOLVE: a requirement based framework for data warehouse evolution // ACM SIGSOFT Softw. Eng. Notes. 2011. Vol. 36. No 6. P. 1-8.

85. Thenmozhi M., Vivekanandan K. An ontological approach to handle multidimensional schema evolution for data warehouse // Int. J. Database Manag. Syst. 2014. Vol. 6. No 3. P. 33.

86. Truica C.-O., Boicea A., Boicea A., Radulescu F., Radulescu F. Asynchronous Replication in Microsoft SQL Server, PostgreSQL and MySQL // 2013 International Conference on Cyber Science and Engineering (CyberSE 2013).

87. Vossen, G. Database transaction models // Computer Science Today. Lecture Notes in Computer Science. 1995. Vol. 1000. P. 560-574.

88. Wang J., Yang Y., Wang T., Sherratt R. S., Zhang J. Big Data Service Architecture: A Survey // Journal of Internet Technology. Vol. 21. No. 2. P. 393-405.

89. Wang X., Xie Z. The Case for Alternative Web Archival Formats to Expedite The Data-To-Insight Cycle // 2020 ACM/IEEE Joint Conference on Digital Libraries - P. 177-186.

90. Wojciechowski A. ETL workflow reparation by means of case-based reasoning // Inf. Syst. Front. 2018. Vol. 20. No. 1. P. 21-43.

91. Zaharia M., Chowdhury M., Franklin M.J., Shenker S., Stoica I. Spark: Cluster computing with working sets // 2010 Proceedings of the 2nd USENIX conference on Hot topics in cloud computing (HotCloud'10) - P.10.

92. Белов В.А., Ильин Д. Ю., Никульчев Е. В. Оценка эффективности обработки больших объемов данных в реляционных и колоночных форматах // Вычислительные технологии. 2022. Т. 27. № 3. С. 46-65.

93. Белов В.А., Никульчев Е.В. Инструменты анализа форматов хранения больших данных для построения озер данных // 14ая международная конференция «Управление развитием крупномасштабных систем» (MLSD'2021). Москва, ИПУ РАН, 27-29 сентября 2021 г. — М.: ИПУ РАН, 2021. С. 1501-1504.

94. Белов В.А., Никульчев Е.В. Оценка временной эффективности форматов хранения больших данных в динамике роста объема данных // Современные информационные технологии и ИТ-образование. 2021. Т. 17. №. 4. С. 889-895.

95. Белов В.А., Никульчев Е.В. Экспериментальная оценка временной эффективности обработки больших данных в заданных форматах хранения // International Journal of Open Information Technologies. 2021. Т. 9. №. 9. C. 92-102.

96. Гусев А.А., Ильин Д.Ю., Никульчев Е.В. Генетический алгоритм выбора компонентов информационных систем на основе экспериментальных оценок критериев качества // Прикаспийский журнал: управление и высокие технологии. 2019. № 2. С. 113-125

97. Дмитриев А. С. Big Data, 4v: volume, velocity, variety, value // Мониторинг. 2015. №3 (127). С. 156-159.

98. Кравченко Д. А. Микросервисная архитектура // Интерактивная наука. 2022. №4 (69). С. 43-44.

99. Кривулин Н. К., Агеев В. А., Гладких И. В. Применение методов тропической оптимизации для оценки альтернатив на основе парных сравнений // Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр. 2017. Т. 13. № 1. С. 27-41.

100. Кривулин Н. К., Агеев В. А. Методы тропической оптимизации в многокритериальных задачах оценки альтернатив на основе парных сравнений // Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр. 2019. T. 15. № 4. С. 472-488.

101. Никульчев Е.В., Ильин Д.Ю., Колясников П.В., Белов В.А., Рунтов А.И., Пушкин П.Ю., Лаптев Н.И., Гусев А.А., Силаева А.А., Алексеенко А.С. Цифровая платформа DigitalPsyTools для массовых веб-опросов в системе образования // Cloud of Science. 2020. Т. 7. № 2. С. 394-411.

102. Никульчев Е.В., Ильин Д.Ю., Колясников П.В., Исматуллина В.И., Захаров И.М., Малых С.Б. Разработка открытой цифровой платформы масштабных психологических исследований // Вестник Российского фонда фундаментальных исследований. 2019. № 4. С. 105-119.

103. Рахман М.Д., Лагунова А.Д. Особенности ETL инструментов // Сборник статей по итогам Международной научно-практической конференции Российского технологического университета. 2019. С. 67-71.

104. Саати Т. Л. Об измерении неосязаемого. Подход к относительным измерениям на основе главного собственного вектора матрицы парных сравнений // Cloud of science. 2015. Т. 2. № 1. С. 5-39.

105. Саати Т. Л. Относительное измерение и его обобщение в принятии решений. Почему парные сравнения являются ключевыми в математике для

измерения неосязаемых факторов // Cloud of science. 2016. Т. 3. № 2. С. 171-262.

106. Талгатова З. Т. Анализ и сравнение существующих моделей процессов ETL для хранилищ данных // Технические науки - от теории к практике. 2016. №1 (49). С. 85-94.

107. Шлюйкова Д. П. Большие данные: современные подходы к хранению и обработке // Наука, техника и образование. 2016. №1 (19). С. 75-79.

ПРИЛОЖЕНИЕ 1. НАСТРОЙКИ БАЗ ДАННЫХ ДЛЯ ЭКСПЕРИМЕТОВ

ГЛАВЫ 2

Для проведения экспериментов с базой данных Ров1§ге8рЬ были использованы настройки по умолчанию. В таблице 1.1 представлены основные свойства, влияющие на оптимизацию выполнения запросов при проведении экспериментальных замеров.

Таблица 1.1. Свойства базы данных Ров1§ге80Ь

Свойство Значение

"аи1:оуасиит" "оп"

"autovacuum_analyze_scale_factoг" "0.0001"

маи1:оуасиит_апа1у7е_1:Ьге8ЬоШ" "50"

"autovacuum_fгeeze_max_age" "200000000"

"autovacuum_max_woгkeгs" "4"

"autovacuum_mu1tixact_fгeeze_max_age" "200000000"

"autovacuum_naptime" "15s"

"autovacuum_vacuum_cost_de1ay" "35ms"

"autovacuum_vacuum_cost_1imit" "1000"

"autovacuum_vacuum_mseгt_sca1e_factoг" "0.2"

"autovacuum_vacuum_mseгt_thгesho1d" "1000"

мautovacuum_vacuum_sca1e_factoгм "^-05"

мautovacuum_vacuum_thresho1dм "200"

"backend_flush_afteг" "0"

"bgwriter_de1ay" "200ms"

"bgwгiteг_flush_afteг" "512кВ"

мbgwгiteг_1гu_maxpagesм "100"

мb1ock_sizeм "8192"

"commit delay" "0"

"commit siblings" "5"

"compute_query_id" "auto"

"cpu_index_tuple_cost" "0.005"

"cpu_operator_cost" "0.0025"

"cpu_tuple_cost" "0.01"

"cursor_tuple_fraction" "0.1"

"data_checksums" "on"

"deadlock_timeout" "1s"

"enable_async_append" "on"

"enable_bitmapscan" "on"

"enable_gathermerge" "on"

"enable_hashagg" "on"

"enable_hashjoin" "on"

"enable incremental sort" "on"

"enable_indexonlyscan" "on"

"enable_indexscan" "on"

"enable_material" "on"

"enable memoize" "on"

"enable mergejoin" "on"

"enable_nestloop" "on"

"enable_parallel_append" "on"

"enable_parallel_hash" "on"

"enable_partition_pruning" "on"

"enable_seqscan" "on"

"enable_sort" "on"

"enable_tidscan" "on"

"escape_string_warning" "on"

"extra_float_digits" "3"

"geqo" "on"

"geqo_effort" "5"

"geqo_generations" "0"

"geqo_pool_size" "0"

"geqo_seed" "0"

"geqo_selection_bias" "2"

"geqo_threshold" "12"

"hot_standby" "on"

"hot_standby_feedback" "on"

"huge_page_size" "0"

"jit_above_cost" "100000"

"jit_expressions" "on"

"jit_inline_above_cost" "500000"

"jit_optimize_above_cost" "500000"

"jit_tuple_deforming" "on"

"lc_collate" "C"

"lc_ctype" "C"

"maintenance work mem" "64MB"

"max index keys" "32"

"min dynamic shared memory" "0"

"min_parallel index scan size" "512kB"

"min_parallel_table_scan_size" "8MB"

"parallel_leader_participation" "on"

"parallel_setup_cost" "1000"

"parallel_tuple_cost" "0.1"

"pg_stat_kcache.linux_hz" "1000000"

"pg_stat_statements.max" "10000"

"pg_stat_statements.save" "on"

"pg_stat_statements.track" "all"

"plan_cache_mode" "auto"

"post_auth_delay" "0"

"pre_auth_delay" "0"

"update_process_title" "on"

"vacuum_cost_delay" "0"

"vacuum_cost_limit" "200"

"vacuum_cost_page_dirty" "20"

"vacuum_defer_cleanup_age" "0"

"vacuum_failsafe_age" "1600000000"

"vacuum_freeze_min_age" "50000000"

"vacuum_freeze_table_age" "150000000"

"vacuum_multixact_failsafe_age" "1600000000"

"vacuum_multixact_freeze_min_age" "5000000"

"vacuum_multixact_freeze_table_age" "75000000"

"work mem" "4MB"

Для проведения исследования на кластере Apache Hive были также применены настройки по умолчанию. Однако некоторые из них были изменены для избежания проблемы переполнения контейнеров обработки данных, известная как «data skew». В таблице 1.2 приведены основные настройки, оказывающие влияние на оптимизацию экспериментальных запросов.

Таблица 1.2. Свойства Apache Hive

Свойство Значение

hive.combine.equivalent.work.optimization true

hive.compute.query.using.stats true

hive. compute. splits .in.am true

hive.constraint.notnull.enforce true

hive. driver.parallel .compilation false

hive. groupby.limit. extrastep true

hive. groupby.mapaggr.checkinterval 100000

hive.groupby.orderby.position.alias false

hive.groupby.position.alias false

hive.groupby.skewindata true

hive.hashtable.initialCapacity 100000

hive. hashtable. key .count.adj ustment 2.0

hive. hashtable.loadfactor 0.75

hive.heap.memory .monitor.usage.threshold 0.7

hive. l imit .optimize.enable false

hive. l imit .optimize.fetch. max 50000

hive.limit.optimize.limit.file 10

hive. l imit .pushdown. memory. usage 0.1

hive.limit.row.max.size 100000

hive.load. dynamic. partitions.thread 15

hive.map.aggr true

hive.map.aggr.hash.force.flush.memory.threshold 0.9

hive.map.aggr.hash.min.reduction 0.5

hive.map.aggr.hash.percentmemory 0.5

hive.map.groupby.sorted true

hive.mapper.cannot.span.multiple. partitions false

hive.mapred.local.mem 0

hive.mapred. partitioner org.apache.hadoop.hive.ql.i

o. DefaultHivePartitioner

hive.mapred.reduce.tasks .speculative.execution true

hive.max. open.txns 100000

hive.merge.cardinality.check true

hive.merge. mapfiles true

hive.merge. mapredfiles false

hive.merge. nway .j oins true

hive. merge .size. per. task 2,56E+08

hive. metadata.move. exported.metadata.to.trash true

hive.multigroupby.singlereducer true

hive.new.job.grouping.set.cardinality 30

hive. optimize.bucketingsorting true

hive. optimize.bucketmapj oin false

hive. optimize.bucketmapj oin.sortedmerge false

hive. optimize.constant.propagation true

hive.optimize.correlation false

hive. optimize.countdistinct true

hive. optimize.cte.materialize.threshold -1

hive. optimize.distinct.rewrite true

hive. optimize.dynamic.partition.hashj oin false

hive. optimize.filter.stats .reduction false

hive. optimize.groupby true

hive. optimize.index.filter false

hive.optimize.joinreducededuplication true

hive. optimize.limittranspose false

hive. optimize.limittranspose.reductionpercentage 1.0

hive. optimize.limittranspose.reductiontuples 0

hive. optimize.listbucketing false

hive. optimize.metadataonly false

hive. optimize.null .scan true

hive. optimize.partition.columns. separate true

hive.optimize.point.lookup true

hive. optimize .point .lookup. min 31

hive.optimize.ppd true

hive. optimize.ppd.storage true

hive. optimize.ppd.windowing true

hive. optimize.reducededuplication true

hive. optimize.reducededuplication.min.reducer 4

hive. optimize.remove .identity.proj ect true

hive.optimize.remove.sq_count check false

hive.optimize.sampling.orderby false

hive.optimize.sampling.orderby.number 1000

hive.optimize.sampling.orderby.percent 0.1

hive.optimize.semij oin.conversion true

hive. optimize.shared. work true

hive. optimize.shared.work.extended true

hive. optimize.skewj oin true

hive.optimize.skewjoin.compiletime true

hive. optimize.sort.dynamic.partition true

hive. optimize.union.remove false

hive. optimize. update. tabl e. propertie s.from.serde false

hive.parquet.timestamp.skip.conversion false

hive.support.concurrency false

hive.vectorized.adaptor.suppress.evaluate.exception s false

hive.vectorized.adaptor.usage.mode all

hive.vectorized.complex.types.enabled true

hive.vectorized.execution.enabled true

hive.vectorized.execution.mapjoin.minmax.enabled false

hive.vectorized.execution.mapjoin.native.enabled true

hive.vectorized.execution.mapjoin.native.fast.hasht able.enabled false

hive.vectorized.execution.mapjoin.native.multikey. only.enabled false

hive.vectorized.execution.mapjoin.overflow.repeate d.threshold -1

hive.vectorized.execution.ptf.enabled true

hive.vectorized.execution.reduce.enabled true

hive.vectorized.execution.reduce.groupby.enabled true

hive.vectorized.execution.reducesink.new.enabled true

hive.vectorized.groupby.checkinterval 100000

hive.vectorized.groupby.complex.types.enabled true

hive.vectorized.groupby.flush.percent 0.1

hive.vectorized.groupby.maxentries 1000000

hive.vectorized.input.format.supports.enabled decimal 64

hive.vectorized. ptf.max .memory .buffering.batch.co unt 25

hive.vectorized.reuse. scratch.columns true

hive.vectorized.row.identifier.enabled true

hive.vectorized.row.serde.inputformat.excludes org. apache. parquet.hadoop. ParquetlnputFor-mat,org.apache.hadoop.hive .ql.io .parquet.MapredParqu etInputFormat

ПРИЛОЖЕНИЕ 2. СПРАВКА О ВНЕДРЕНИИ (ИСПОЛЬЗОВАНИИ) РЕЗУЛЬТАТОВ ДИССЕРТАЦИИ

ПСИХОЛОГИЧЕСКИЙ ИНСТИТУТ

РОССИЙСКОЙ АКАДЕМИИ ОБРАЗОВАНИЯ

Психологический институт Российской академии образования

Лаборатория возрастной псиХогёнетики

СПРАВКА

о внедрении (использовании) результатов Диссертации Владимира Александровича Белова

Настоящим подтверждаем, что результаты диссертации Владимира Александровича Белова На Тему «Методики анализа форматов хранения и глобально распределенной обработки больших объемов данньщ» на соискание ученой степени кандидата технических наук по научной специальности 2.3.5. Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей использовано при разработке программного обеспечения, предназначенного для проведения психологических исследований в лаборатории возрастной психогенетики Психологического института Российской академии образования.

Заведующий лабораторией,

Академик РАО

д-р психолог, наук, профессор

С.Б. Мачых

/

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.