Методы и технологии Больших данных для решения научных задач в распределенной вычислительной среде тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Белов Сергей Дмитриевич

  • Белов Сергей Дмитриевич
  • кандидат науккандидат наук
  • 2024, Объединенный институт ядерных исследований
  • Специальность ВАК РФ00.00.00
  • Количество страниц 126
Белов Сергей Дмитриевич. Методы и технологии Больших данных для решения научных задач в распределенной вычислительной среде: дис. кандидат наук: 00.00.00 - Другие cпециальности. Объединенный институт ядерных исследований. 2024. 126 с.

Оглавление диссертации кандидат наук Белов Сергей Дмитриевич

Введение

В.1 Актуальность исследования

В.2 Цели и задачи

В.3 Методы исследования

В.4 Научная новизна

В.5 Научно-практическая значимость

В.6 Положения, выносимые на защиту

В.7 Апробация работы

В.8 Степень достоверности результатов

В.10 Соответствие диссертации паспорту специальности

В.11 Объем и структура диссертации

Глава 1. Системы распределенной обработки в физике высоких энергий и Большие данные

1.1 Этапы обработки и анализа данных экспериментов на Большом Адронном Коллайдере

1.2 Модели распределенной обработки

1.3 Большие данные и системы распределённой обработки

в других областях науки

1.4 Заключение к Главе

Глава 2. Представление и управление данными и знаниями

2.1 Подходы к описанию смоделированных событий

2.2 Язык разметки ИерМЬ

2.2.1 Структура и схемы описания информации

2.2.2 Программная библиотека для работы с языком разметки

2.3 База знаний смоделированных событий

2.4 Автоматизация цепочки моделирования эксперимента с использованием базы знаний

2.5 Заключение к Главе

Глава 3. Мониторинг передачи данных и анализ их востребованности

3.1 Подходы к мониторингу передачи данных

3.2 Система мониторинга на основе технологий Больших данных

3.2.1 Архитектура системы мониторинга

3.2.2 Практическая реализация мониторинга передачи данных

3.3 Анализ востребованности данных эксперимента ATLAS

3.3.1 Подход к изучению востребованности наборов данных эксперимента

3.3.2 Реализация системы анализа востребованности данных и ее применение

3.4 Заключение к Главе

Глава 4. Платформенный подход к анализу научных данных и его применение

4.1 Многофункциональная цифровая платформа

4.1.1 Архитектура системы

4.1.2 Технологическая основа и реализация

4.2 Практическое применение платформы: мониторинг и анализ

рынка труда в масштабах страны

4.4.1 Исследование рынка труда: постановка задачи и существующие подходы

4.4.2 Методология исследования

4.4.3 Реализация мониторинга рынка труда с использованием платформы

4.4.4 Практические результаты

4.3 Заключение к Главе

Заключение

Список основных публикаций автора по теме диссертации

Список литературы

Список иллюстративного материала

Приложение А. Список элементов языка разметки HepML

Введение

Диссертационная исследование посвящено разработке и развитию методов, моделей и программных систем для аналитики Больших данных для решения научных задач физики высоких энергий с использованием подходов распределенной обработки, а также обобщению полученных результатов для перехода к цифровым аналитическим платформам.

В.1 Актуальность исследования

Современные научные проекты, как правило, сопровождаются хранением и обработкой больших объемов данных различной природы и сложности. В зависимости от особенностей исследования (например, интенсивность поступления данных, необходимая производительность обработки, административная структура владения информационной системой и так далее) используются комбинации различных подходов к организации хранения и обработки данных. Так, в крупных современных экспериментах физики высоких энергий обработку данных и доступ к ним невозможно организовать в единственном центре, поэтому используются географически распределенные вычислительные системы. В качестве примера можно привести эксперимент ATLAS [1] на Большом Адронном Коллайдере (БАК), объем данных которого в 2024 году составляет уже свыше 1 эксабайта, и для хранения и обработки задействованы более 120 вычислительных центров1. Общий объём данных экспериментов на БАК в 2022 году превысил 1.5 эксабайта2, в компьютинг экспериментов вовлечено более 170 вычислительных центров более чем в 40 странах мира, и объём задействованных ресурсов только возрастает [2].

Термин «Большие данные» встречается в научной литературе с 1990-х годов. Одно из первых упоминаний и раскрытия термина «Большие данные» относится к

1 По информации с официального сайта системы управления данными Rucio https://rucio.cern.ch/.

2 По информации с официальной страницы проекта WLCG https://home.cern/science/computing/grid

1997 году в статье [3] ученых из НАСА и Intel Д. Кокса и Д. Элсворта, где они сформулировали ключевые проблемы хранения, управления и анализа больших объемов географически распределенных данных в различных областях науки и экономики. В широкий оборот термин «Большие данные» был введен в 2008 году журналом Nature, выбравшим главной темой одного из выпусков Большие данные и опубликовавшим в этом номере статьи, освещающие разные аспекты данного вопроса (например, [4, 5, 6, 7]). Задачи обработки данных большого объёма, имеющих сложные либо неявные внутренние связи и структуру, были актуальны и до этого момента. Отдельное рассмотрение явления, введение понятия и различных наборов признаков данных и характеристик их обработки (относительно которых нет устоявшегося строго зафиксированного определения) позволило впоследствии выработать новые подходы к обработке Больших данных, а также предложить методы анализа данных и технологии построения информационной инфраструктуры. Часто в качестве одного из наборов характеристических признаков Больших данных (конструктивного и практичного, но, конечно, не полного) рассматривают так называемые 5V: Volume (объём), Velocity (скорость), Variety (разнообразие), Veracity (достоверность), Value (ценность) [8]. Эти параметры могут быть связаны между собой. К примеру, достоверность входных и промежуточных данных может влиять на ценность полученного на их основе результата. Впервые подход к определению Больших данных через «V-признаки» был дан в статье Д. Лэйни [9] в 2001 году.

В экспериментах физики высоких энергий есть несколько важных классов исходных данных. Прежде всего это данные о физических событиях, регистрируемых в детекторах, и сведения о состоянии самих детекторов. Другим необходимым классом данных при подготовке эксперимента, обработке и анализе его данных являются смоделированные события. В качестве одного из основных методов моделирования событий применяется метод Монте-Карло, или метод статистических испытаний. Точное и достоверное моделирование требует значительных компьютерных ресурсов и детального сравнения результатов, получаемых с помощью различных пакетов моделирования. Важной задачей

является обеспечение корректности итоговых результатов моделирования («достоверности» в указанной выше «формуле 5У») и возможности их быстрого получения. Для обеспечения корректности важен тщательный подбор подходящих для конкретной физической задачи средств моделирования (Монте-Карло генераторов), их точная настройка (фактически - тонкое задание некоторых существенных параметров моделирования), выполнение требуемых расчетов в доступной вычислительной среде, сохранение и описание результатов моделирования для дальнейшего использования. Таким образом, возникает необходимость не только в создании и хранении корректно подготовленных и детально описанных образцов смоделированных физических событий для дальнейшего использования, но и в возможности получения доступа к этим данным из глобально распределенной вычислительной инфраструктуры.

Некоторые исследователи в качестве важных характеристик систем аналитики Больших данных отмечают необходимость не столько вертикальной масштабируемости систем (увеличения производительности существующих ресурсов), сколько горизонтальной масштабируемости (добавления новых узлов) [10]. В последнем случае обработка данных выполняется распределённо на большом количество вычислительных узлов, число которых может быть увеличено при необходимости хранить и обрабатывать большие объёмы данных. Принцип горизонтальной масштабируемости используется и при организации вычислений в грид-среде. Ввиду масштабности инфраструктуры данные о функционировании глобальной вычислительной среды, необходимые для поддержания и управления ее работой, сами являются большими данными и требуют новых подходов к их анализу и интерпретации. Интенсивность потока данных мониторинга достаточно высока и составляет десятки тысяч сообщений о состоянии сервисов и процессов в секунду. Стандартные средства хранения и обработки, прежде всего реляционные базы данных, при решении этой задачи оказываются неэффективны, требуется применение альтернативных подходов и программных средств.

В других отраслях знаний также наблюдается «информационный взрыв». Например, в экономических и социальных науках возрастают как объем данных,

так и их структурная и семантическая сложность. С одной стороны, это даёт исследователю качественно новые сведения об объекте. С другой - требует создания новых методов и средств для масштабируемой обработки на порядок возросшего потока информации.

Необходимость работы с Большими данными возникает в различных сферах деятельности, в том числе в тех, где современные подходы и технологии анализа данных пока не получили должного распространения. При этом методы организации обработки данных зачастую весьма схожи, несмотря на определённые различия, обусловленные спецификой предметной области. Ввиду этого одним из перспективных направлений является платформенный подход к созданию программно-аппаратных решений. Такие системы включают в себя как базовые элементы инфраструктуры, общие для решения задач различных типов, так и функциональные модули с узкой специализацией, которые улучшают параметра анализа (например, скорость его выполнения или повышение точности результатов).

В.2 Цели и задачи Цель работы: разработка методов, моделей и программных систем на основе технологий Больших данных для мониторинга, управления передачей и хранения данных в распределённой вычислительной среде, а также усовершенствование процесса моделирования событий в физике высоких энергий.

Для достижения указанной цели были поставлены и решены следующие основные задачи:

1. Разработка методов применения и программная реализация специализированной базы знаний для автоматизации процесса моделирования физических событий в физике высоких энергий с использованием глобальной распределенной вычислительной среды.

2. Применение методологии и технологий аналитики Больших данных для развития систем мониторинга и управления распределенными вычислительными системами.

3. Создание программного комплекса для анализа востребованности данных на основе информации о доступе к наборам данных и их размещении в распределённой среде.

4. Обобщение разработанных подходов для построения архитектуры цифровой аналитической платформы для решения широкого круга задач; практическое использование этих разработок на примере анализа рынка труда в масштабах страны.

В.3 Методы исследования

В проведенных в диссертационной работе исследованиях использовались онтологический подход к описанию процессов в физике высоких энергий, методы системного анализа, теории вероятностей и математической статистики, реляционной алгебры. При реализации программных систем были использованы методы системного программирования, объектно-ориентированного программирования, интернет-технологии.

В.4 Научная новизна

1. Разработаны новые масштабируемые методы мониторинга передачи данных в глобально распределенных вычислительных системах, основанные на использовании технологий Больших данных.

2. Впервые предложен и реализован подход к автоматизации некоторых этапов моделирования физических событий в физике высоких энергий, основанный на описании метаинформации о событиях для передачи между этапами обработки и использовании базы знаний в распределённой вычислительной среде. Разработаны оригинальные методы для описания таких событий и база знаний для хранения и доступа к данным.

3. Разработан и реализован новый метод анализа востребованности данных в распределённой вычислительной среде эксперимента ATLAS на Большом адронном коллайдере.

На основе технологий Больших данных создана и впервые применена методика автоматизированного анализа рынка труда в масштабах страны.

В.5 Научно-практическая значимость

1. Предложенные подходы к мониторингу и разработанные комплексы программ используются в системе мониторинга распределенной вычислительной среды в проекте MONIT и компьютинге эксперимента ATLAS.

2. Созданный программный комплекс для анализа востребованности данных применяется в эксперименте ATLAS для определения эффективности стратегий управления данными.

3. Разработанные база знаний событий Монте-Карло моделирования и средства описания метаинформации о моделировании были успешно использованы для повышения степени автоматизации официальной цепочки моделирования событий в эксперименте CMS в 2010-2013 годах. Созданный язык разметки HepML используется в генераторах событий CompHEP и CalcHEP.

4. Сформулированные подходы и предложенная архитектура платформы для аналитики Больших данных реализованы в прототипе платформы, на котором выполнено исследование рынка труда России.

В.6 Положения, выносимые на защиту

1. Комплекс методов и программных средств для масштабируемого мониторинга и анализа функционирования распределенных вычислительных систем, позволивший реализовать мониторинг и анализ статистики передачи данных в эксперименте ATLAS.

2. Методы описания и доступа к метаданным и смоделированным событиям в физике высоких энергий, повышающие степень автоматизации и надёжности цепочки моделирования, а также достоверность получаемых результатов.

3. Программный комплекс для анализа востребованности наборов данных в глобально распределённой вычислительной среде, позволивший оценить эффективность политик распределённого хранения данных эксперимента ATLAS и оптимизировать их.

4. Архитектура и прототип аналитической системы, построенные на основе обобщения методов, созданных для решения задач физики высоких энергий, и предназначенные для эффективного проведения исследований в различных областях науки с использованием технологий Больших данных.

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы и технологии Больших данных для решения научных задач в распределенной вычислительной среде»

В.7 Апробация работы

Основные положения диссертационной работы, разработанные модели, методы, алгоритмы и результаты практического использования, представленные в диссертации, докладывались и обсуждались на научных семинарах в Лаборатории информационных технологий Объединенного института ядерных исследований и в Европейском центре ядерных исследований (ЦЕРН) (2004-2020 годы), в Национальном исследовательском центре «Курчатовский институт» (2014 год), а также представлялись и докладывались автором на следующих международных научных конференциях: ACAT 2007 (Амстердам, Нидерланды), ACAT 2008 (Эриче, Италия), GRID'2010 (Дубна, Россия), NEC'2011 (Варна, Болгария), NEC'2017 (Будва, Черногория), GRID'2018 (Дубна, Россия), ECDA'2018 (Падерборн, Германия), NEC'2019 (Будва, Черногория), GRID'2021 (Дубна, Россия).

Основные результаты исследования получены автором в рамках работ, выполненных в Лаборатории информационных технологий Объединённого института ядерных исследований (2004-2024 гг.), ЦЕРН (2004-2016 гг.), Российском экономическом университете им. Г.В. Плеханова (2017-2023 гг.). Часть результатов исследований по теме диссертации была получена в рамках

НИР, выполнявшихся при поддержке грантов Дирекции Объединенного института ядерных исследований, а также в рамках следующих проектов:

• РФФИ 07-07-00365-а «Создание HEPML, XML-языка для представления информации при моделировании физических процессов в Физике высоких энергий»;

• РФФИ 18-07-01359-а «Разработка информационно-аналитической системы мониторинга и анализа потребностей рынка труда в выпускниках ВУЗов на основе аналитики больших данных»;

• РНФ 19-71-30008 «Развитие технологий и платформ для решения задач цифровой экономики и научных проектов класса мегасайенс на основе синтеза технологий Больших данных, суперкомпьютерных технологий, озер данных и машинного обучения».

В.8 Степень достоверности результатов

Достоверность полученных результатов подтверждается успешным практическим применением разработанного на их основе программного обеспечения для мониторинга и анализа функционирования распределенных вычислительных систем, автоматизации цепочки моделирования и анализа физического эксперимента, автоматизированного анализа рынка труда в масштабах страны основе открытых данных.

В.9 Публикации и личный вклад

Основные результаты исследования изложены в 19 научных работах, опубликованных в рецензируемых изданиях и соответствующих требованиям к публикациям Положения о присуждении ученых степеней в ОИЯИ. Также получено одно свидетельство о государственной регистрации базы данных. Научные работы были опубликованы в соавторстве, при этом изложенные в них результаты были получены при определяющем вкладе соискателя, а именно:

• В работах по MCDB и HepML разработана архитектура базы знаний, выполнена её практическая реализация, предложены методы и созданы

программные интерфейсы для доступа из распределённой вычислительной среды, спроектирована и реализована схема языка разметки HepML и инструменты для работы с ним;

• Разработаны методы и реализована программная система масштабируемого мониторинга передачи данных для эксперимента ATLAS;

• Предложена концепция и реализован сервис анализа востребованности данных;

• Разработана обобщённая архитектура и выбраны программные средства для построения обобщённой аналитической платформы; на базе прототипа платформы выполнены прикладные исследования российского рынка труда и тематики публикаций в научных журналах.

В.10 Соответствие диссертации паспорту специальности

Содержание и результаты диссертационной работы соответствуют трём направлениям исследований из паспорта специальности 2.3.5 «Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей»:

3. Модели, методы, архитектуры, алгоритмы, языки и программные инструменты организации взаимодействия программ и программных систем.

4. Интеллектуальные системы машинного обучения, управления базами данных и знаний, инструментальные средства разработки цифровых продуктов.

9. Модели, методы, алгоритмы, облачные технологии и программная инфраструктура организации глобально распределенной обработки данных.

В.11 Объем и структура диссертации

Диссертационная работа состоит из введения, четырёх глав, заключения и библиографии. Общий объём работы составляет 126 страниц, включая 1 таблицу, 29 рисунков и список литературы из 201 наименования.

Глава 1. Системы распределенной обработки в физике высоких

энергий и Большие данные

В связи с успешной работой Большого Адронного Коллайдера (БАК) и получением данных с детекторов экспериментов существенные усилия теоретиков и экспериментаторов в области физики высоких энергий направлены на то, чтобы обеспечивать скорейшее понимание получаемых экспериментальных данных. В свою очередь, это требует детального моделирования физических процессов, происходящих на коллайдере.

Одной из наиболее общих задач в сообществе экспериментальной физики высоких энергий является моделирование физических процессов методом Монте-Карло. Полная цепочка моделирования физического процесса на современном коллайдере включает в себя компьютерное описание теоретической модели и ее параметров, вычисление матричного элемента процессов рассеяния частиц, генерацию событий методом Монте-Карло, моделирование радиационного излучения партонов, адронизацию и фрагментацию кварков, моделирование адронных остатков. Далее производится моделирование отклика экспериментального детектора и эффективности восстановления физически значимой информации. Для получения масштабируемого решения по генерации событий необходимо максимально автоматизировать цепочку моделирования.

Эффективное использование распределённой вычислительной среды предполагает одновременное выполнение большого количества задач (для крупных проектов - сотни тысяч), что влечёт за собой необходимость передачи и хранения большого количества файлов и наборов данных. Отслеживание процессов в такой вычислительной среде, и, в частности, мониторинг и анализ её функционирования, является масштабной задачей. Данные, получаемые системой мониторинга, ввиду интенсивности их потока сами являются Большими данными. В связи с постоянным увеличением количества задействованных ресурсов, а также интенсивности их использования, все составляющие цепочки обработки и анализа данных должны быть масштабируемы. Для задач мониторинга данное свойство может быть достигнуто с использованием технологий Больших данных.

1.1 Этапы обработки и анализа данных экспериментов на Большом

Адронном Коллайдере

Эксперименты на БАК предполагают анализ большого объема данных, получаемых от детекторов в результате столкновений частиц, и с каждым обновлением и усовершенствованием детекторов интенсивность потоков данных закономерно возрастает (например, вследствие увеличения светимости ускорителей [11]). При этом общая схема обработки экспериментальных данных, обусловленная особенностями требуемых вычислений, не претерпела значительных изменений с 1990-х (Рисунок 1 [12]) до настоящего времени (Рисунок 2 [13]).

Рисунок 1 - Пример стратегии анализа данных в экспериментах физики высоких энергий (источник: [12])

Events generation

Simulation

T

Digitalization

Reconstruction

Anatysis

Physics

ft? ЕМ

Ш

Data from the detector

Data containers

DPD ¿ CBNT

histograms

Рисунок 2 - Цепочка моделирования и анализа физических данных эксперимента ATLAS (источник: [13])

Обработка и анализ данных современных экспериментов физики высоких энергий включает несколько основных этапов:

• Запись данных

Во время эксперимента детекторы на БАК регистрируют информацию о столкновениях частиц. Эта информация записывается в форме цифровых данных и сохраняется в специальных файлах. В зависимости от конкретного эксперимента объем данных может достигать многих терабайт.

• Предварительная обработка данных

Данная стадия включает в себя проверку данных на наличие ошибок, фильтрацию данных, и корректировку измерений. Это помогает убедиться, что данные являются точными и пригодными для дальнейшего анализа.

• Калибровка данных

Перед дальнейшим анализом данных от установки необходимо произвести их калибровку. Это процесс, в котором корректируются измерения детекторов, чтобы убрать шумы, учесть погрешности и установить соответствие между сигналами, полученными в детекторах, и реальными

физическими величинами, такими как энергия, импульс, угол, и т.д. Калибровка данных на БАК осуществляется с помощью специальных программных средств.

• Моделирование событий

Полная цепочка моделирования физического процесса на современном коллайдере включает в себя компьютерное описание теоретической модели и ее параметров, вычисление матричного элемента процессов рассеяния частиц, генерацию событий методом Монте-Карло, моделирование радиационного излучения с партонов, адронизацию и фрагментацию кварков, моделирование адронных остатков. Далее производится моделирование отклика экспериментального детектора и эффективности восстановления физически значимой информации.

• Реконструкция событий

После калибровки данных происходит реконструкция событий. Это процесс, в котором на основе объединения данных, полученных от различных детекторов, восстанавливаются основные параметры столкновений частиц, такие как энергия, импульс, тип частиц и их траектории. Для этого используются различные алгоритмы, которые реализованы в программном обеспечении.

• Идентификация частиц

После реконструкции событий происходит идентификация частиц. Это процесс, в котором определяется тип частиц, участвующих в столкновениях. Для этого используются данные о траекториях частиц и их энергии, а также знания о физике элементарных частиц.

• Анализ данных

После идентификации частиц происходит анализ данных. На этом этапе данные используются для изучения физических процессов, которые происходят в столкновении частиц. В ходе анализа данных исследователи могут проверять теоретические модели и гипотезы, проводить поиск новых

частиц и взаимодействий, и т.д. Анализ данных включает использование

статистических методов и алгоритмов машинного обучения.

При этом на долю моделирования в общем процессе обработки и анализа данных приходится значительная доля компьютерных ресурсов. Например, в эксперименте ATLAS для решения задач моделирования задействовано около 2/3 из примерно 450 000 процессоров [14].

1.2 Модели распределенной обработки

Одним из первых концепцию информационно-вычислительных сервисов, доступных потребителям так же, как электричество, предложил в 1964 году М. Гринбергер. Наряду с обсуждением различных коренных изменений той значимости, которую привносит информация во все области деятельности человека, он предположил, что одной из важнейших возможностей подобных информационных сервисов будет получение моделирования сложных систем и стохастических процессов как услуги, не требующей от потребителя глубоких познаний в вычислительных технологиях и предметной области [15].

С ростом масштаба и сложности экспериментов физики высоких энергий, таких как ALEPH, DELPHI, L3 и других уже в начале 1990-х стало понятно, что скорость поступления и объёмы данных растут так быстро, что требуются новые подходы к организации их хранения и обработки (например, Р. Маунт [12]).

Подходы к построению систем распределённой обработки данных физических экспериментов менялись по мере развития технологий. На разных этапах развития технологий существовало несколько моделей распределенной обработки данных крупных экспериментов на БАК (ATLAS, CMS, ALICE, LHCb). В рамках проекта MONARC (Models Of Networked Analysis At Regional Centers) было проведено моделирование компьютерной системы для эксперимента ATLAS [16], а затем и для остальных экспериментов LHC [17]. В результате была выработана иерархическая модель сети региональных центров разных ярусов. Каждый ярус (tier) выполняет свои функции, и к центрам, относящимся к разным

ярусам, предъявляются определённые требования. Была предложена схема, состоящая из четырёх основных уровней (Tier0-Tier3). В.В. Кореньков приводит подробную классификацию уровней и описание схемы организации компьютинга

в [18].

В дальнейшем модель компьютинга экспериментов претерпела некоторые изменения, прежде всего из-за развития программных и сетевых технологий. Вычислительная и программная инфраструктура развивалась сначала в рамках проекта LCG (LHC Computing Grid) [19], затем WLCG (Worldwide LHC Computing Grid) [20]. В этих проектах функции центров уровня Tierl и Tier2 несколько отличаются от предложенных в проекте MONARC. В частности, базы данных каждого региональных центров не должны содержать полной информации обо всех событиях. Копии актуальных распределяются между центрами, и при необходимости реплицируются. Для надёжности сведения о каждом событии хранятся в нескольких экземплярах. В центре TierO в ЦЕРН хранятся все экспериментальные данные, базы данных и ключевые смоделированные данные. Как пример можно привести базовую модель организации компьютинга эксперимента ATLAS [21].

В проекте WLCG, как и в большинстве грид-проектов, создание программной компоненты системы, общей для всех экспериментов, ведётся снизу вверх. То есть, требуемая программная среда отчасти создана за счёт интеграции созданных в других проектах программные компоненты (например, взятые из EU DataGrid [22], Globus Toolkit [23], TeraGrid [24] и др.), при этом происходит постепенное замещение устаревших составных частей вновь разработанными компонентами. Это эффективнее написания всего «с нуля», но иногда приводит к возникновению множества проблем при стыковке разрозненных элементов. В настоящее время большая часть сложностей, выявленных в процессе промышленной эксплуатации грид-среды, преодолена силами сообщества (разработчиками системного программного обеспечения, администраторами вычислительных центров, коллаборациями физиков).

Основные предпосылки для использования глобально распределённой инфраструктуры для хранения и обработки данных экспериментов:

• Для распределённой среды весьма значительные затраты на поддержание и обновление компьютерной инфраструктуры и систем массового хранения проще распределять между отдельными институтами и национальными организациями, которые развивают и поддерживают свои собственные ресурсы, несут ответственность за их функционирование. Используются же эти ресурсы совместно всеми участниками для решения общих задач.

• Вычислительная среда, организованная на основе объединения географически удалённых независимых вычислительных центров, является более устойчивой к разного рода ошибкам и неполадкам.

• Репликация данных и автоматический контроль за выполнением вычислительных задач доступ к данным независимо от географического местоположения конечного пользователя. Наличие центров во всех часовых поясах также позволяет осуществлять круглосуточную поддержку и мониторинг.

Системы управления данными и задачами являются важным элементом в распределённых вычислительных инфраструктурах, особенно когда речь идёт о работе с данными большого объёма, возникающими в крупнейших экспериментах физики высоких энергий. На момент создания этих систем не существовало ни одного коммерческого или глобального решения, способного справиться с задачами, связанными с обработкой столь масштабных данных. Даже с учётом развития облачных технологий и высокопроизводительных вычислительных центров (НРС), эти решения сами по себе не могут быть полностью распределёнными ни по вычислительным мощностям, ни по хранению данных, что становится особенно важным при работе с большими объёмами информации.

Каждый эксперимент на LHC предъявляет особые требования к работе с большими данными. При это для решения своих задач эксперименты на БАК используют глобальную инфраструктуру WLCG. Для управления распределёнными вычислениями и данными в каждом эксперименте применяются

различные платформы. Так, в эксперименте ALICE (A Large Ion Collider Experiment) [25] используют систему AliEn [26], которая отвечает за управление как задачами, так и данными. В эксперименте ATLAS для этих целей задействованы PanDA [27] (для распределения задач) и DQ2 [28] (ранее) и Rucio [29] (для управления данными). В эксперименте CMS [30] используется система Crab [31] для задач и PhEDEx [32] для данных. В LHCb [33] применяют систему DIRAC, которая управляет как задачами, так и данными [34, 35]. Эти системы разработаны с учётом необходимости обработки и хранения огромных объёмов информации, распределённых между множеством центров, что является основой работы с большими данными экспериментов на БАК.

Помимо глобально распределённой обработки, достаточно протяжённой во времени, в определённых случаях применяются и другие подходы. Например, используется экспресс-анализ в реальном масштабе времени для фильтрации событий, поступающих с детектора (так называемые триггеры) [36].

Кроме того, в последние десять лет активно развивается применение технологий, изначально созданных для работы с Большими данными в других предметных областях, для решения задач физического анализа и моделирования [37]. Отдельной большой областью применения является организация и управление инфраструктурой и различными процессами в компьютинге экспериментов [38, 39] ввиду их масштаба и сложности.

1.3 Большие данные и системы распределённой обработки

в других областях науки

Совместное применение технологий Больших данных и распределенной обработки играет важную роль в современной науке. Эти технологии позволяют исследователям обрабатывать и анализировать большие объемы данных, которые ранее были недоступны или трудно обрабатываемы. Ниже приведены примеры областей исследования, для которых в настоящее время характерны исследовательские данные, которые можно классифицировать как Большие данные в широком смысле слова. Вследствие этого для их обработки и хранения требуются

соответствующие подходы, иногда отличающиеся от подходов к построению процессов обработки информации в физике высоких энергий.

Одной из ключевых областей, где применяются технологии Больших данных и распределенной обработки, является геномика. Секвенирование генома становится все более доступным, и сотни тысяч геномов были секвенированы по всему миру. Обработка и анализ такого объема генетических данных требует мощных вычислительных ресурсов и эффективных алгоритмов. В статье [40] исследуется применение технологий Больших данных и распределенной обработки в геномике и геномной медицине. Поток геномных данных от пациентов непрерывно растёт, и для работы с ними разрабатываются специальные программные средства, работающие как в облачных средах, так и в инфраструктурах Больших данных, основанных на экосистеме Apache Hadoop [41].

Другой областью применения технологий Больших данных в сфере биоинформатики являются медицина и забота о здоровье. Так, в [42] рассматриваются вопросы и проблемы анализа электронных записей о здоровье (EHR), повсеместно накапливаемых медицинскими учреждениями при ведении электронных медицинских карт. Данные записи можно анализировать совместно с результатами как анализов конкретных пациентов, так и с учётом данных в исследовательских базах знаний по геномике, фармакологии, метаболизму, белкам, биомаркерам и т.д. В статье [43] рассматриваются преимущества и проблемы использования технологий Больших данных в клинических исследованиях. Среди основных сложностей отмечаются недостаточная доказанность практической пользы подобной аналитики для медицины, а также различные методологические проблемы - качество данных, их нестабильность и несогласованность, ограничения наблюдательных исследований, вопросы валидации и анализа, а также юридические аспекты. Отмечается важная роль формирования хороших практик работы с данными для выполнения по-настоящему ценных и обоснованных исследований. Как правило, для исследований в биомедицине также применяется инструментарий Apache Hadoop, обработка данных проводится в парадигме MapReduce [44].

Еще одной важной областью науки, где совместное использование технологий распределённых вычислений и технологий Больших данных становится все более распространенным, является астрономия. Современные телескопы производят огромные объемы данных, и ученые стремятся обрабатывать и анализировать эти данные для изучения космоса. В статье [45] обсуждаются сложности и преимущества применения технологий Больших данных и распределенной обработки в астрономии. Огромные объёмы информации о галактиках, звёздах, планетах и астероидах, собираемые космическими телескопами, спутниками и зондами, передаются на Землю для анализа учёными. Например, телескоп Sloan Digital Sky Survey (SDSS), часто называемый также «проект космического генома», ежедневно собирает 200 ГБ данных, фиксируя миллионы галактик и звёзд [46]. Камера телескопа LSST (Большой обзорный телескоп, в настоящее время Обсерватория имени Веры Рубин) [47], оснащённая 3200-мегапиксельной матрицей, каждые 20 секунд делает снимки по 6 ГБ, регистрируя 37 миллиардов звёзд и галактик, и генерирует 20 терабайт первичных данных за ночь. Для обработки данных Обсерватории имени Веры Рубин используются те же подходы и программные средства, что и в физике высоких энергий: система PanDA для управления процессом вычислений [48] и Rucio для управления данными [49].

Выше приведены лишь несколько примеров применения технологий Больших данных и распределенной обработки в науке. Существует множество других областей, таких как экология, физика, социальные науки и другие, где эти технологии также играют важную роль.

Архитектура распределенных вычислений обычно включает в себя кластеры или сети компьютеров, которые работают вместе для выполнения вычислительных задач. Данные разделяются и распределяются между узлами кластера, позволяя эффективно выполнять параллельные вычисления. Архитектура Hadoop является одним из распространенных примеров архитектуры распределенных вычислений. Она включает в себя Hadoop Distributed File System (HDFS, [50]) для хранения данных и Apache MapReduce для выполнения распределенных вычислений.

Работа [41] содержит подробную информацию об архитектуре Hadoop и ее применении в различных областях науки.

Технологии больших данных также применяются с системами распределенных вычислений. Системы управления базами данных (СУБД) для работы с большими данными, такие как колоночно-ориентированная нереляционная база Apache HBase [51] и распределённая нереляционная база ключ-значение Apache Cassandra [52], дают возможность реализовывать горизонтально масштабируемые распределённые решения для хранения и обработки больших объемов данных.

Помимо наиболее распространённых задач по анализу без ограничения времени, одним из важных применений технологий Больших данных является анализ данных в реальном времени, когда данные обрабатываются и анализируются непосредственно по мере их поступления. В статье «Real-time big data analytics: Emerging architecture» [53] рассмотрены подходы и архитектуры для анализа Больших данных в реальном масштабе времени. В этом случае речь идёт не об одновременном анализе больших объёмов данных, а о быстром принятии оптимальных решений.

Многие исследователи также отмечают важность комбинирования различных подходов и технологий для выполнения более глубокого анализа. более анализа. Одним из достаточно продуктивных подходов является совместное использование с искусственным интеллектом (в том числе машинным обучением). В исследовании [54] представлен большой обзор различных методов и алгоритмов машинного обучения, используемых для анализа Больших данных.

1.4 Заключение к Главе 1

В Главе 1 рассмотрены подходы к организации и использованию распределённых вычислительных систем для решения задач хранения и обработки данных в физике высоких энергий, прежде всего применение глобально распределённой среды на примере моделирования и анализа физических процессов на коллайдерах. Обсуждается применение концепций, подходов и технологий

Больших данных при решении задач физики высоких энергий в глобально распределённой среде.

Моделирование физических процессов методом Монте-Карло является одной из наиболее общих задач в сообществе экспериментальной физики высоких энергий. Полная цепочка моделирования физического процесса на современном коллайдере включает в себя компьютерное описание теоретической модели и ее параметров, вычисление матричного элемента процессов рассеяния частиц, генерацию событий методом Монте-Карло, моделирование радиационного излучения партонов, адронизацию и фрагментацию кварков, моделирование адронных остатков. Далее производится моделирование отклика экспериментального детектора и эффективности восстановления физически значимой информации. Для получения масштабируемого решения по генерации событий необходимо максимально автоматизировать цепочку моделирования.

Эффективное использование распределённой вычислительной среды предполагает выполнение большого количества задач (сотни тысяч выполняющихся одновременно), что влечёт за собой необходимость в передаче и хранении большого количества данных. Отслеживание процессов в такой вычислительной среде, и, в частности, мониторинг и анализ её функционирования, является масштабной задачей. Данные, получаемые системой мониторинга, ввиду интенсивности их потока сами являются Большими данными. В связи с постоянным увеличением количества задействованных ресурсов, а также интенсивности их использования, все составляющие цепочки обработки и анализа данных должны быть масштабируемы. Для задач мониторинга данное свойство может быть достигнуто с использованием технологий Больших данных.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Белов Сергей Дмитриевич, 2024 год

Источники данных

Большинство источников данных мониторинга принадлежат экспериментам на БАК и контролируются ими, при этом используются различные способы публикации этих данных и доступа к ним [A9]. Принципы работы с некоторыми источниками данных были хорошо проработаны ещё в проекте Dashboard, и включали в себя получение сведений не только от систем управления данными, но и от вычислительных задач - о передаче выходных и (при некоторых способах организации вычислений) входных данных [A5]. В некоторых случаях источники данных могут иметь многоуровневую структуру. Примером такого решения является мониторинг федераций хранилищ на основе XRootD, когда сообщения об отдельных событиях, связанных с передачей данных, агрегируются сервисами-сборщиками на основе программного пакета GLED [138], формируются сообщения с достаточно полной информацией о событиях передачи данных, и впоследствии передаются в систему мониторинга посредством брокеров сообщений. Таким образом достигается масштабируемость сбора информации в федерации хранилищ: объём и поток итоговых данных многократно меньше, чем у исходных, агрегированные данные требуют лишь минимальной обработки, а развёртывание выделенных сервисов-агрегаторов в различных регионах позволяет распределить нагрузку между ними [A7].

Для каждого из таких источников данных был определен набор стандартных способов получения данных с использованием различных решений, таких как брокер сообщений Apache ActiveMQ [139], прямое подключение к базе данных, загрузка по HTTP-каналу, прием файлов протоколов событий и получение показателей центра обработки данных LEMON [140] и Collectd [141]. Для управления потоками данных и первичной обработки используется Apache Flume [142], поступающие первичные данные проверяются и при необходимости

модифицируются (например, исправляются ошибки или дополняются недостающими метаданными). Способы добавления новых источников данных в систему подробно описаны и, как правило, сводятся к достаточно простым действиям [A9]. Кластер узлов Apache Flume используется для распределения нагрузки по получению потоков данных из различных источников. Для контроля качества поступающих данных используется кластер Apache Flume с меньшим количеством узлов.

Потоки данных

Из источников (source) в Flume все данные передаются в кластер Apache Kafka [143] через стоки (sink) Flume, что позволяет построить единую платформу с высокой пропускной способностью и низкой задержкой для обработки данных в режиме реального времени. Данные публикуются в соответствующих именованных разделах (topics), относящихся к конкретной предметной области, которые разделяются на фрагменты (partitions) и распределяются по всему кластеру в общей сложности с 3 репликами. Для эксплуатации системы используется кластер из 20 серверов Kafka, и меньший по мощности для контроля качества данных.

Серверы размещаются на виртуальных машинах с подключенными к ним сетевыми хранилищами, которые используются в качестве буфера для хранения. Поскольку основным назначением этого компонента является предоставление актуальных данных, фрагменты формируются таким образом, чтобы полностью распределяться по кластеру для максимизации пропускной способности. Данные хранятся в буфере Kafka в течение 12 часов.

Обработка данных

Система поддерживает два различных способа обработки данных: потоковую обработку микропакетов данных реального времени и пакетную обработку исторических данных.

Потоковая обработка используется для решения нескольких задач. Во-первых, для обогащения данных, когда данные из поступающих событий объединяются и обогащается информацией из нескольких других источников, таких как метаинформация топологии '^ЬСО. Во-вторых, для агрегирования данных во времени, такого как создание сводной статистики по временному интервалу или по другим измерениям, т.е. вычисление совокупной метрики для набора машин, на которых размещён один и тот же сервис. Наконец, потоковая обработка также может быть использована для исследования корреляции данных и выполнения дополнительных проверок для обнаружения аномалий, сбоев и сообщений об ошибках, исходящих из нескольких источников - для выявления признаков сбоев с учётом топологии центров обработки данных и всей распределённой системы.

Пакетная обработка используется для повторной обработки и пересчёта исторических данных, архивирования исходных данных и для создания различных высокоуровневых отчетов, которые используются в '^ЬСО и внутри ЦЕРН.

Рисунок 12 - Платформа обработки данных мониторинга (источник: [A9])

На Рисунке 12 (источник: [A9]) представлена схема функционирования платформы, используемая для обработки собранных данных мониторинга. Платформа опирается на Apache Spark [133] для надежности и масштабируемости расчётов, Apache Mesos [144], Apache Marathon [145] и Chronos [146] для

организации заданий и планирования, а также на Docker [147] для изолированной среды и легкого развертывания заданий обработки. Кроме того, интеграция с GitLab CI [148] позволяет автоматизировать создание новых образов Docker при отправке нового кода в репозитории Git.

Хранение и поиск

Набор приёмников (источников) Flume считывает данные из Kafka и записывает в различные конечные системы хранения: HDFS [50] для долгосрочного архивирования данных и автономной аналитики, Elasticsearch [132] для краткосрочного хранения и индексации данных, а также в другие популярные решения для хранения временных рядов, такие как InfluxDB [149] для средне- и долгосрочного хранения данных временных рядов либо в необработанном, либо в агрегированном формате. Кластер Hadoop/HDFS, используемый проектом, является ресурсом общего пользования, предоставляется и поддерживается ИТ-отделом ЦЕРН. Общий кластер состоит примерно из 40 узлов. Используемый кластер Elasticsearch [132] является выделенным, предоставляемым ИТ-отделом ЦЕРН, и состоит из 33 узлов, 25 из которых являются узлами данных. 6 узлов Flume используются для приемников HDFS для производственной среды и 4 узла для среды контроля качества. Кроме того, 6 и 4 узла Flume используются для приемников Elasticsearch для производственной среды и среды контроля качества соответственно.

Доступ к данным и отчёты

Пользователи могут получить доступ к данным мониторинга, используя хорошо известные средства визуализации и анализа данных. Первое из них, Kibana [150], используется для визуализации показателей временных рядов и журналов, и она подключается к серверной части Elasticsearch. Это позволяет пользователям создавать информационные панели с полными возможностями поиска/ фильтрации, а также изучать данные мониторинга в режиме реального времени. Второе средство визуализации, Grafana [151], применяется для

отображения данных анализа временных рядов, получаемых как из Elasticsearch, так и из InfluxDB.

В рамках проекта MONIT был создан набор официальных информационных панелей мониторинга, которые предлагаются пользователям в Kibana и Grafana для доступа к метрикам и журналам, хранящимся в UMA. Пример таких панелей мониторинга для Grafana представлен на Рисунке 13 (источник: [A9]) и для Kibana на Рисунке 14 (источник: [A9]). Эти информационные панели используются в качестве основы для создания пользовательских информационных панелей, поскольку они могут быть скопированы, а копии настроены пользователями самостоятельно.

il IT Overview * & В В < ZoomOut > 0 Last 24 heurs

COMPUTING

Seivers (Meyrin) Cores (Meyrin)

Disks (Meyrin)

14.2 К

168 К

85.7 К

Servers [Wigner) Cores (Wigner)

Disks (Wigner) Tape Cartridges

3.5 К

56.0 К

29.7 К

21.1 К

3.7 К

2.1 К

EOS Active Data Transfers

File Transfer Throughput

- ATLAS —CMS — LHCB ALICE

-ATLAS —CMS —LHCB ALICE

D Bps

16:00 0000 08:00

— ATLAS — CMS —LHCB ALICE

Рисунок 13 - Обзор состояния центров обработки данных в Grafana

(источник: [А9])

В дополнение к информационным панелям в режиме реального времени пользователям предлагаются различные технологии интерактивных записных книжек для проведения предварительного анализа данных и обмена результатами с сообществом пользователей. Эти интерактивные блокноты представляют собой совместную веб-среду для исследования и визуализации данных, которую также можно использовать для совместного анализа данных, объясняя и документируя,

как пользователь переходит от необработанных данных к ценной информации и инсайтам. Две такие технологии поддерживаются в проекте MONIT: Apache Zeppelin [152] и Swan [153] (проект, разработанный в ЦЕРН, и основанный на Jupyter [154]). В Apache Zeppelin пользователи могут взаимодействовать с потоковыми данными, хранящимися в Kafka, и/или с данными, хранящимися в HDFS, для создания интерактивных записных книжек для анализа данных или расширенных отчетов. В Swan пользователи могут получать доступ к данным, хранящимся в HDFS, Elasticsearch и / или InfluxDB, получая преимущества от интеграции с несколькими широко используемыми инструментами физики высоких энергий, такими как ROOT [155], CERNBOX [156] и CVMFS [157], для создания интерактивных записных книжек для анализа данных или расширенных отчетов.

Рисунок 14 - Визуализация мониторинга File Transfer Service

в Kibana (источник: [A9])

Наконец, к данным мониторинга также могут получить доступ внешние сторонние системы, используя набор строго определенных и подробно

задокументированных интерфейсов командной строки (CLI) и прикладных программных интерфейсов (API).

Система ежедневно обрабатывает более 3 терабайт данных, события от более чем 100 источников поступают с суммарной частотой 90 кГц. Система может выдерживать большую нагрузку, так как построена на горизонтально масштабируемых технологиях.

Рисунок 15 - Объёмы трафика с разбивкой по технологиям передачи

данных (fts/xшotd) и странам

Одним из результатов из результатов данной диссертационной работы является создание в рамках проекта MONIT мониторинга передачи данных для глобального компьютинга ATLAS. Были разработаны алгоритмы и программные компоненты для обработки и агрегации информации о передачах файлов, поступающей из разных источников. Программные компоненты разработаны на языке Scala, потоки данных управляются и преобразовываются с помощью Flume. Микропакетная (близкая к реальному времени) и пакетная (для сохранённых данных) обработка реализованы в Spark. Созданный сервис полностью соответствует и является неотъемлемой частью архитектуры UMA и проекта MONIT, описанных выше. В качестве примера отчёта на основе агрегированной

информации можно привести диаграммы по объёмам трафика с разбивкой по технологиям передачи данных и странам (Рисунок 15).

З.ЗАнализ востребованности данных эксперимента ATLAS

Модель распределённой обработки эксперимента ATLAS предполагает хранение нескольких копий данных (реплик) в зависимости от их класса на различных хранилищах для последующей обработки. По мере интенсивного накопления данных хранилища заполняются и возникает вопрос о выборе стратегии репликации и управления данными в зависимости от характеристик обращения к ним на различных ресурсах хранения. Таким образом, возникает необходимость в инструменте для анализа востребованности данных различного типа. Под «востребованностью» понимаются такие характеристики, как частота доступа к данным, время последнего обращения и т.п.

3.3.1 Подход к изучению востребованности наборов данных эксперимента

Вопрос распределения копий данных (как экспериментальных, так и смоделированных) по центрам обработки крайне важен для планирования организации вычислений крупных физических экспериментов. С одной стороны, стратегия создания копий влияет на потенциальные накладные расходы по передаче данных, необходимых для вычислительных задач - для ускорения работы последних, очевидно, большее число копий данных является положительным фактором. С другой стороны, хранение данных, к которым доступ осуществляется относительно редко, является неоптимальным из-за естественной ограниченности ресурсов хранилищ. Вследствие этого, для выработки и проверки стратегий управления репликами необходимым является возможность измерения характеристик доступа к данным, таким как частота доступа, объём переданной информации, время создания и последнего доступа, тип данных и т.п. На основе указанных характеристик можно ввести также обобщённый коэффициент востребованности данных. Ранее предпринимались попытки сформировать

инструментарий для выработки политик репликации и хранения файлов на основе информации о событиях доступа с использованием нейросетевых моделей [158].

Рассмотрим определение характеристик доступа к данным на примере эксперимента ATLAS как обладающего в настоящее время одной из наиболее

Рисунок 16 - Объемы данных в зависимости от количества обращений за

3-, 6- и 12-месячные периоды для эксперимента ATLAS. Для каждого периода данные, созданные за этот период, но к которым не

было доступа, приписываются ко второму столбцу. Первая ячейка предназначена для данных, созданных до начала периода. Данные имеют общий объем 53 ПБ. (источник: [159])

сложных и гибких систем распределённой обработки и оперирующим значительными объёмами данных, находящихся в большом количестве файлов.

С точки зрения планирования развития хранилищ данных является объём размещаемой в них информации. Так как модель компьютинга ATLAS предполагает создание множества копий (реплик) данных в различных вычислительных центрах, на первый план выходит эффективность использования этих данных, в том числе экономическая эффективность ресурсов, где эти данные хранятся и обрабатываются. Группа контроля за компьютерными ресурсами (CRSG, Computing Resources Scrutiny Group) в своём отчёте [159] обратила внимание на то, что существует достаточно много наборов данных, к которым последние обращения производились давно либо обращений никогда не было

(см. Рисунок 16, источник: [159]). Расчёты проводились в реляционной базе, куда выгружались данные о доступе к файлам из системы управления данными DQ2. Запрос был достаточно сложный и ресурсоёмкий, чтобы учесть принадлежность данных к наборам, время доступа к каждому из наборов файлов, количество реплик, расположение в определённых вычислительных центрах. Тогда же стала очевидна необходимость в инструменте, построенном на технологиях Больших данных, для достаточно оперативного анализа ситуации с доступом к данным.

3.3.2 Реализация системы анализа востребованности данных и ее

применение

На основе технологического стека технологий аналитики Больших данных был создан сервис, реализующий регулярную автоматическую подготовку сведений о востребованности наборов данных в зависимости от типа и места хранения.

В функционировании сервиса присутствуют следующие этапы анализа данных:

• Загрузка метаданных из систем управления данными DQ2 [28] и Rucio [29];

• Получение информации о событиях доступа к данным;

• Унификация информации;

• Обработка данных о репликах, правилах хранения и хранилищах;

• Фильтрация и объединение данных по наборам, правилам и ресурсным

центрам.

Инфраструктура сервиса состоит из следующих компонентов:

• Кластер Hadoop;

• Программный пакет для среды обработки данных Apache Pig [160];

• Запуск и поддержание работы:

o Вспомогательные программы (Python);

o Запуск программы на кластере посредством класса PigRunner;

o Авторизации в хранилище HDFS.

• Управление сервисом: система управления конфигурациями Puppet [137].

35 30 25 20

tf) 0)

15

m

to

ш 10

CL

50,00 40,00 30,00 20,00 10,00 0,00

к.

il

о*'

oW

ill.---------

// t t

/ / ç.

.p, N <V -Ъ ^ <b <o \ <b К? s^ ti> v> ^ ^

iX = 3 months iX = 6 months X = 9 months iX= 12 months ■ X = infinity

Number of accessesin time X

Рисунок 17 - Объём наборов данных ATLAS как функция от числа обращений за различные периоды времени (3, 6, 9, 12 месяцев, X - œ), 2014 г.

Рисунок 18 - Объёмы наборов данных в зависимости от частоты доступа к ним: до и после оптимизации политик управления данными (источник: [161])

Было проведено исследование востребованности наборов данных в эксперименте ATLAS. Пример распределения объёма данных по числу обращений, полученный на 2014 год с помощью данного сервиса, приведён на Рисунке 17. Созданный инструмент для анализа востребованности наборов данных позволил исследовать влияние политики управления данными на динамику доступа к ним, а также, после подбора стратегии, более корректно оценить и спланировать обеспечение необходимых объёмов хранилища данных для эксперимента ATLAS после модернизации детектора и ускорителя БАК. На Рисунке 18 (источник: [161]) показан результат оптимизации политик репликации и хранения данных на основе переработанной концепции конечного времени существования копий набора данных; на Рисунке 19 (источник: [162]), полученном при помощи разработанной системы, также видно, что количество невостребованных данных заметно сократилось и изменилась их структура. Количество реплик данных было поставлено в зависимость от типа данных, частоты использования и давности их создания. Изменение указанных политик позволило освободить порядка 25% дискового пространства, занимаемого редко используемыми данными моделирования и анализа, что составило на момент исследования около 30 Пбайт.

ATLAS number of access in time X ■ 3 months ■ 6 months 11 year

40

il II II II........................—

1 2 3 4 5 6 7 S 9 10 11 12 13 14 >14

Рисунок 19 - Объём наборов данных ATLAS как функция от числа обращений (см. Рисунок 17), 2017 г. (Источник: [162])

3.4 Заключение к Главе 3

В главе 3 были рассмотрены процессы передачи и доступа к данным физического эксперимента, предложены подходы к организации масштабируемой системы мониторинга передачи данных и описана практическая реализация мониторинга с использованием стека технологий Больших данных. Рассмотрена задача анализа востребованности наборов данных в эксперименте ATLAS и реализующий её сервис.

При моделировании и анализе данных в таком крупном физическом эксперименте, как ATLAS, за сутки могут выполняться миллионы вычислительных задач. В случае использования распределённой вычислительной среды это означает необходимость осуществлять не меньшее количество передач файлов (входные и выходные данные). Со временем компьютерная инфраструктура расширяется, и количество задач и передач данных только возрастает.

При передаче каждого файла в системе возникает несколько информационных сообщений - на каждое связанное с передачей событие (начало, окончание, ошибки, перезапуск передачи и т.д.). Поэтому процессы передачи данных производят достаточно интенсивный поток сообщений. До 2014 года в WLCG для мониторинга вычислительной и сетевой инфраструктуры и процессов, происходящих в системах обработки данных отдельных экспериментов, развивался проект Dashboard, основанный на применении традиционных подходов, в том числе реляционных баз данных для всего массива информации [A4]. В то время как традиционный подход принципиально позволяет осуществлять оперативный мониторинг, запросы исторической информации стали требовать всё большего времени. В связи с развитием вычислительной среды возникла потребность в масштабируемом решении для мониторинга.

В проекте MonIT была реализована архитектура обработки и хранения, основанная на использовании стека технологий Больших данных. Исходные характеристики входных данных: более ста источников данных, порядка 90 тысяч

сообщений в секунду, около 3 Тбайт данных мониторинга в день. В рамках данной инфраструктуры был реализован мониторинг передачи файлов в глобально распределённой системе управления данными эксперимента ATLAS, позволяющий получать как информацию в режиме реального времени, так и статистические срезы по различным параметрам.

Основные результаты исследования, изложенные в главе 3, опубликованы в работах [A4-A9].

Глава 4. Платформенный подход к анализу научных данных и его

применение

4.1 Многофункциональная цифровая платформа

4.1.1 Архитектура системы

Исходя из опыта, полученного в описанных выше проектах, было решено обобщить наработки и создать прототип достаточно универсальной цифровой платформы для задач, выходящих за рамки физики высоких энергий. Наиболее общими требованиями к платформе были: масштабируемость, возможность потоковой и пакетной обработки данных, возможность интеллектуального анализа Больших данных с использованием технологий машинного обучения и искусственного интеллекта. Также потенциально была бы интересна совместимость с существующими глобальными инфраструктурами (грид, озёра данных).

Обобщённая архитектура платформы показана на Рисунке 20 ([А18]).

Сервисы и интерфейсы

Интерактивный анализ и представление результатов

Управление данными

Управление обработкой

Визуализация

Бизнес-аналитика

АР1

Обработка Больших данных

Потоковая обработка

Пакетная обработка

Машинное обучение

Распределённое хранилище

Основное хранилище

Промежуточное хранение

Базы в памяти

'—

Облачные

ресурсы

Инфраструктура

Аппаратные

Системные сервисы

Сервисы, специфичные для

задачи: Проблемно-ориентированные Служебные/ системные

Озеро данных

Внешние источники данных

Грид

Рисунок 20 - Обобщённая архитектура аналитической платформы

(источник: [А18])

4.1.2 Технологическая основа и реализация

В качестве технологической основы рассматривались и отбирались по результатам тестирования свободно распространяемые продукты с открытым исходным кодом. Ядро системы должно быть максимально независимо от внешних обстоятельств и прямого финансирования, коммерческие же продукты могут выполнять вспомогательные функции на её периферии.

В Таблице 1 приведены исследованные и предложенные в [А18] основные программные продукты технологического стека, на Рисунке 21 представлена соответствующая функциональная схема прототипа платформы.

Таблица 1 - Технологический стек платформы ([A18])

Функциональный слой Программные пакеты

Визуализация и программные интерфейсы Zeppelin, Jupyter (пользовательский интерфейс разработчика) Graphana (отчёты и графическое представление результатов) KrakenD (организация программных шлюзов для различных компонентов)

Распределённый анализ Больших данных Apache Kylin

Вычислительные эксперименты в машинном обучении MLflow (управление и организация вычислительных экспериментов)

Вычисления в памяти Apache Spark, Dask, Hadoop

Организация потоков данных и сбора данных Apache Kafka, Apache Flume, Apache Airflow, Celery, Scrapy

Репозитории данных и специализированные базы данных CEPH, NFS (хранение и доступ к файлам) Elasticsearch (индексирование и анализ структурированных данных) Apache Ignite (база данных в оперативной памяти для быстрого доступа и кэширования) Russian Data Lake Apache Calcite (динамическое управление данными и интеграция)

Сквозные аутентификация и авторизация, безопасность Free IPA, Vault

Компьютерная инфраструктура, управление ресурсами OpenNebula, Kubernetes, Docker, Puppet, Git

Рисунок 21 - Функциональная схема прототипа аналитической платформы

4.2 Практическое применение платформы: мониторинг и анализ рынка

труда в масштабах страны

4.4.1 Исследование рынка труда: постановка задачи и существующие

подходы

Взаимодействие рынка труда и системы образования - сложный процесс, в который вовлечено достаточно много участников (правительства, университеты, работодатели, частные лица и т.д.). Связь образования и рынка труда затрагивает в значительной степени молодёжь, так как после завершения образования

возможность их первого трудоустройства непосредственно зависит от знаний и опыта, полученных в стенах учебного заведения.

Согласно ряду исследований, проблемы в экономике прежде всего отражаются на молодых сотрудниках [163], в частности, среди них угроза безработицы выше, чем в других возрастных группах [164] . Поэтому поиск мер предотвращения этих рисков является весьма актуальной задачей. Многие исследователи обращают внимание на нестабильность рынка труда и сложности, с которыми сталкивается молодежь при входе на него. Российские [165] и европейские [166] исследователи отмечают, в сущности, одни и те же проблемы трудоустройства и безработицы молодёжи. Существует множество организаций и институций, которые могут влиять на эту сферу через различные механизмы (например, один из самых очевидных - целевая подготовка специалистов с учётом потребностей рынка). При этом несоответствие между знаниями и квалификацией соискателя и требованиями работодателя в той или иной мере наблюдается в разных странах независимо от уровня экономического и социального развития [167, 168].

С точки зрения работодателя, квалификация и навыки успешного работника должны быть на уровне, необходимом для выполнения определённой работы. Для потенциальных сотрудников качество образования означает конкурентные преимущества. Большинство подходов к выявлению реальных потребностей рынка используют опросы работодателей и работников по регионам. Проведение таких опросов требует определенного времени и ресурсов и не может обеспечить полный охват рынка труда.

Эффективное прогнозирование потребностей рынка невозможно основывать на среднестатистических оценках, различных выборочных показателях и не всеобъемлющих социологических опросах. Полноценное исследование и прогнозирование возможно только на основе мониторинга различных ресурсов и сервисов, предоставляющих информацию о предложениях работодателей. Анализ этих данных позволяет увидеть структуру рынка труда и ее изменение с течением времени, а также дает возможность прогнозирования развития как рынка, так и его

отдельных секторов. Такие функции выполняются специализированными информационно-аналитическими системами [169, 170]. При проектировании подобных систем необходимо учитывать несколько факторов: отсутствуют единые системные подходы к описанию и количественному измерению требований к квалификации сотрудника со стороны работодателя; со стороны рынка труда, системы образования и регулирующих органов существует множество источников исходных данных, при этом нет единого подхода к представлению информации, используемого всеми сторонами процесса справочников и тематических словарей, обязательных к применению. Некоторые факторы связаны с необходимостью единообразия формулировок вакансий работодателей и резюме кандидатов.

В научной литературе множество работ посвящено изучению различных аспектов рынка труда. В контексте данной работы можно указать на некоторые из них, которые объединены общими методологическими подходами - применением технологий искусственного интеллекта в широком смысле, методами исследования естественных языков, построении онтологий и семантических моделей. Как правило, прикладной целью данных исследований является создание автоматизированных систем обработки информации, систем поддержки принятия решений, сквозной обработки и анализа данных, и так далее. Например, на использовании нейронных сетей и методов машинного обучения основаны как хорошо проработанный метод оценки вложенности таксономических данных на рынке труда является MEET-LM [171], так и рекомендательная система eDoer, ориентированная на рынок труда [172]. Существует целый ряд рекомендательных систем (QualiChain [173], Find my next job [174] и др.) и онтологий (например, EduCOR [175]) для подбора направлений подготовки с учётом потребностей рынка. В [176] для извлечения информации из заданного набора вакансий используется метод k ближайших соседей, в [177] для классификации вакансий используется метод k-средних, а в [178] представлен подход к автоматической классификации вакансий в Интернете с использованием машинного обучения в соответствии со стандартной таксономией профессий.

С изучением возможности трудоустройства молодёжи непосредственно связано определение соответствия образовательных программ и стандартов требованиям рынка труда. В идеале образование должно не только подстраиваться под рынок, но и предвосхищать и формировать его. В мировой научной литературе уже давно и широко обсуждается вопрос о несоответствии между спросом экономики и предложением системы профессионального образования и влиянии этого несоответствия на состояние и развитие экономики в целом [179, 180, 181]. При этом некоторые исследователи отмечают, что, например, для изучения подобных взаимосвязей в России зачастую имеется недостаточно информации о рынке труда, прежде всего региональной [182]. Распространённые методы проведения подобных исследований на основе опросов не всегда дают корректные результаты вследствие относительно малого охвата респондентов-работодателей, субъективности оценок и ответов. Экстраполяция полученных результатов на системы на порядок большего масштаба и сложности, чем затронутые опросами, также могут приводить к неверным выводам.

Достаточно распространённый и эффективный подход к семантическому исследованию и сопоставлению предметных областей - построение онтологических моделей. Некоторые исследования по выявлению соответствия между потребностями студентов с одной стороны и возможностями системы образования с другой, а также между профессиональными профилями специалистов и требованиями компаний приводят к созданию информационных систем для получения конкретных практических результатов. Так, в [183] описана система RësuMatcher, которая с использованием технологий машинного обучения позволяет определять ключевые требования вакансий и более быстро находить наиболее соответствующие друг другу вакансии и резюме. В работе [184] описано использование онтологического подхода для сопоставления компетенций трудовых мигрантов с потребностями рынка труда в платформе ЬО-МАТСИ. В работе [185] рассматривается онтологические модели для педагогического дизайна и профессиональной области для избранных образовательных профилей, которые

учитывает взаимосвязь между профессиональными стандартами, требованиями рынка труда и моделью компетенций выпускника.

Отчасти проблема качественного и количественного несоответствия выпускников системы профессионального образования решается за счёт механизма государственного и регионального заказа на специалистов, но для этого также необходимы адекватные численные оценки рынка труда и его прогнозного развития [186]. Необходимым условием для получения таких данных с весьма широким и глубоким охватом, достаточным получения результатов с приемлемой достоверностью, является создание специализированных автоматизированных информационных систем. Такие системы позволяют не только собирать объективные данные (прежде всего на основе информации о вакансиях) о потребностях и особенностях региональных рынков труда и прогнозировать их показатели, но и проводить анализ системы образования на соответствие этим потребностям.

4.4.2 Методология исследования

Чтобы в разумные сроки выявлять как качественные, так и количественные корреляции между образованием и рынком труда, была предложена интеллектуальная система для мониторинга требований работодателей и приведения их в соответствие со стандартами и программами высшего образования (Зрелов и др., [187]). В качестве источника реальных потребностей рынка было предложено использовать объявления о вакансиях из ресурсов поиска работы в Интернете (сайты поиска работы, государственные и городские службы занятости и т.д.). Для дообучения модели используются тексты государственных образовательных стандартов наряду с образовательными программами университетов.

Создание семантических моделей является одним из ключевых направлений в работе с естественными языками, нашедших широкое практическое применение в решении таких задач, как поиск в больших объёмах информации и компьютерный перевод текстов между разными языками. В работах [188, 187] впервые было

предложены алгоритмы семантического сравнения профессиональных стандартов и образовательных программ с требованиями к вакансиям на рынке труда с использованием векторного представления формулировок. Сравнение основано на иерархических моделях рынка труда и образования, предложенных в этих работах. Первые результаты были получены в 2016 году, и это направление продолжает последовательно развиваться, в том числе в данной работе.

В настоящее время одними их перспективных подходов к переводу слов и языковых конструкций в семантическое векторное пространство для работы с их смыслами является применение прогностических нейросетевые моделей [189]. Наиболее распространёнными и продвинутыми инструментами, использующими развитые алгоритмические подходы к построению векторных моделей языка, являются word2vec [190], 01оУв [191] и ¥ая1Тех1 [192].

Несмотря на то, что во многих случаях использование этих модели даёт схожие результаты, и большее значение может иметь подбор обучающего корпуса текстов, длина векторов и другие параметры, каждый из подходов обладает своими особенностями [193]. Рассмотрим их более подробно в контексте семантического сравнения коротких предложений:

• word2vec не может построить векторное представление для слов, не встречавшихся в обучающем корпусе, тогда как ¥ая1Тех1 позволяет это сделать. ¥ая1Тех1 может предоставить лучшее векторное представление для морфологически богатых языков по сравнению с word2vec.

• ¥ая1Тех1 использует иерархический классификатор для обучения модели, поэтому он работает быстрее word2vec. Однако в ¥а81Тех1 обучается на уровне слов, не используя в полной мере информацию о предложении или контексте, в котором слово употребляется.

• word2vec полагается на локальный контекст слов в рамках заданного окна, тогда как 01о¥е использует глобальную статистику по совместному появлению слов для подготовки векторных представлений слов.

Авторами word2vec в рамках развития подхода по переводу текстов на естественных языках в векторное пространство выполняются исследования по

созданию соответствующих моделей. Например, модель doc2vec позволяет предсказывать появление конкретных слов в документе и строить для документа векторное представление [194]. При этом прямое использование существующих моделей для перевода фрагментов текста без учёта их особенностей и структуры, как правило, даёт недостаточно точный результат. Например, в случае объявления о вакансии её название зачастую имеет большее значение для определения смысла и контекста, чем описание требований к кандидату.

Рисунок 22 - Взаимное отображение моделей образовательной системы и рынка труда на разных уровнях иерархии (источник: [А10])

В основе анализа лежит сопоставление должностных требований и отдельных компетенций из профессиональных стандартов, низших уровней модели рынка труда и системы образования соответственно (Рисунок 22, источник: [А10]). Уровни модели:

• Образование: Компетенция ^ Вид деятельности ^ ^ Профиль образования ^ Область обучения.

• Рынок труда: Требования ^ Профессия ^ Область деятельности ^ ^ Сфера деятельности.

Как правило, для достижения приемлемой точности и достоверности подобного сопоставления недостаточно использования только лингвистического сравнения элементов текстов, поскольку с обеих сторон используется различная лексика, исходная информация довольно слабо структурирована и т.д. Общим же

свойством образовательных компетенций и требований о вакансиях, следующих из свойств естественного языка, является примерно одинаковое количество слов (около 10), использующихся для их описания. Поэтому метод сравнения основан на определении семантической (смысловой) близости между короткими предложениями.

Исходя из приведённого анализа, для целей сравнения формулировок (коротких предложений) в профессиональных и образовательных стандартах и объявлениях о вакансиях на рынке труда с другой с учётом необходимости выполнения настраиваемого семантического сопоставления наиболее подходящим инструментом является word2vec. Семантическое сравнение производится путём перевода рассматриваемых объектов в векторное пространство с учётом подобранных по результатам численного эксперимента весовых коэффициентов для их составных частей (для вакансии: название, описание, требования, отрасль промышленности и т.д.). Затем с использованием различных метрик (например, косинусного расстояния) вычисляется расстояние между полученными векторами и производится ранжирование и отбор результатов. При анализе из текстов исключаются служебные части речи.

Для сравнения на основе семантического анализа контекста требуются модели (в случае данного исследования - векторные), построенные на больших корпусах текстов. В рамках данного исследования по результатам тестов на точность сопоставления в качестве основной была выбрана модель ruscorpora_1_300_10 [195] из проекта RusVectбrës [195]. Модель построена на базе текстов Национального корпуса русского языка (НКРЯ) [196] и русскоязычной Википедии. Векторное пространство модели имеет размерность 300 и размер окна 10 (число слов в окрестности данного, которые образуют его семантический контекст), что согласуется с необходимостью сравнения коротких предложений с характерной длиной в 10 слов.

Наличие семантической модели, тщательно подготовленной с использованием текстового корпуса, традиционного для рассматриваемого предмета (например, 1Т-индустрии, фармакологии или академического сектора и

т.д.), позволяет выявить семантически близкие слова и словосочетания, а затем дать количественную оценку того, насколько компетенции соответствуют требованиям к должности. Начиная с этого момента, можно перейти к концепциям более высокого уровня, используя связь между компетенциями и требованиями. Например, чтобы сопоставить содержание образовательного профиля с особенностями реальной сферы деятельности.

4.4.3 Реализация мониторинга рынка труда с использованием платформы

Непрерывный сбор и анализ объявлений о вакансиях из основных источников даёт возможность детально отслеживать состояние рынка труда и тенденций его развития, уделяя внимание отдельным отраслям или профессиям, а также получая статистику по городам и регионам. Ежедневно в России имеются сотни тысяч актуальных вакансий (см. ниже). Вакансии, резюме, информация о работодателях, профессиональные стандарты и образовательные программы имеют сложную внутреннюю структуру и множество неявных связей. Для отслеживания показателей рынка труда и возможностей осуществления прогнозов необходимо хранить и анализировать информацию за как можно более длительный период. По указанным выше причинам наиболее эффективным технологическим подходом представляется использование технологий Больших данных.

Для построения прототипа аналитической системы использовались программные продукты со свободной лицензией, прежде всего на основе платформенного решения [A14]. Программные продукты из экосистемы Apache: Apache Spark [133], Apache Hadoop [41], Apache Kafka [143], Apache Flume [142]. Прочие: Marathon [144], Chronos [146], Docker [147]. Ключевые рассмотренные пакеты для организации вычислений в качестве вычислительных ресурсов могут использовать как обычные процессоры, так и графические ускорители [A17].

Общая схема процесса сбора и анализа данных представлена на Рисунке 23. Ключевой функциональностью прототипа системы является автоматический анализ и сопоставление компетенций из системы образования и требований рынка труда, выполняемое с использованием векторных нейросетевых моделей языка ^16]. После выполнения сопоставления появляется возможность определить и спрогнозировать запросы региональных рынков труда по отдельным специальностям. Или же оценить актуальность образовательных программ и профессиональных стандартов относительно реальных вакансий по определённым профессиям.

Образовательные стандарты

Учебные программы

Источники данных

Объявления о найме

Данные службы занятости

Сбор и хранение данных

Автоматическое извлечение данных

Первичная обработка

Хранилище Г^ОЬ

Хранилище 5(2Ь

Кластеризация данных

Обработка

Выполнение пакетных заданий

Визуализация

Проверка гипотез

Интерпретация результатов

V7

Интеллектуальный анализ (Data Mining)

Анализ

Интерпретация результатов

Выявление тенденций и прогнозирование

Моделирование

Оценка применимости алгоритмов

Рисунок 23 - Схема совместного анализа данных рынка труда

и системы образования

Информационной базой для системы является информация из открытых источников. Со стороны рынка труда основными источниками данных о вакансиях и резюме соискателей являются крупные интернет-порталы «Работа России» [197] (информационный сайт агентства Роструд), SuperJob [198] и HeadHunter [199]. Ежедневно в каждом из этих источников представлены порядка 300-600 тысяч активных объявлений о вакансиях. Сбор данных осуществляется непрерывно ^12], что позволяет оценивать потребности в специалистах в

масштабах страны с минимальной задержкой (подготовка и пересчёт статистической информации с учётом поступивших данных производится на ежедневной основе). Для привязки вакансий к профессиям и образовательным программам используются справочник профессий [200] и реестр профессиональных стандартов [201], формируемые Минтруда России.

Предложенный метод смыслового сравнения документов, основанный на векторном представлении статистических языковых моделей, позволяет количественно оценить степень соответствия сопоставляемых документов с учётом их структуры и определения весов (по сути, значимости) их частей и разделов. Впоследствии указанный метод нашёл применение в анализе научных статей в системе подбора научных журналов, наиболее подходящих для публикации результатов исследований по заданной тематике [A20]. Реализованная система позволяет по заданным ключевым словам предполагаемой тематики статьи получать аннотации и полные тексты статей для первичного анализа из нескольких источников (arXiv, Springer, CrossRef), а также дату публикации, статистику цитирования и т.д. На основе указанных данных анализируются тенденции для журналов, в которых были опубликован полученный массив статей, и выносятся рекомендации по близости реальной тематики журналов к тематике статьи, готовящейся к публикации.

4.4.4 Практические результаты

Создана автоматизированная система для мониторинга и анализа кадровых потребностей рынка труда [A10, A11]. Система позволяет определять соответствие запросов рынка направлениям подготовки учебных заведений. Используются данные из открытых источников - интернет-порталов рекрутинговых компаний HeadHunter и SuperJob, а также портала "Работа России" (федеральная государственная информационная система Федеральной службы по труду и занятости). В качестве данных со стороны системы образования используются справочник профессий, образовательные стандарты и программы.

На основе анализа объявлений о вакансиях было показано, что многие профессии и их названия из профессиональных стандартов лишь частично соответствуют содержанию реальных вакансий, и наоборот, что может свидетельствовать о необходимости корректировки как профессиональных, так и образовательных стандартов.

Система позволяет оценить потребности в специалистах в конкретном регионе, предлагаемый диапазон зарплат и уровень требований к соискателям, а также понять, по каким образовательным программам они могут проходить обучение [A13]. На Рисунке 24 представлен пример распределения числа вакансий и средней зарплаты по специальностям, полученного в системе (источник: [A19]).

Сбор данных продолжается с 2015 года по настоящее время (2024 год), собрана уникальная база данных вакансий, резюме соискателей и информации о работодателях объемом более 250 Тбайт. Часть базы данных была обезличена, подготовлена для экономического анализа и загружена в систему бизнес-аналитики Contour BI для получения статистических сведений о динамике показателей рынка труда; впоследствии указанная база данных прошла процедуру государственной регистрации [A15]. Аналитическое ядро платформы построено на методах и алгоритмах, разработанных с использованием методов обработки естественного языка, в частности, семантического анализа на основе нейросетевых моделей, обученных на больших массивах текстов [A16].

Обе задачи - анализ рынка труда как такового и соответствие образовательных стандартов его потребностям - успешно решаются с помощью разработанной автоматизированной информационно-аналитической системы для интеллектуального анализа потребностей рынка труда. Информация об используемых образовательных стандартах высшего образования извлекается из открытых источников данных. Разработанная система была использована в работе Ситуационного центра социально-экономического развития регионов Российской Федерации РЭУ им. Г.В. Плеханова, а также в совместных проектах РЭУ им. Г.В. Плеханова и ВНИИ Труда Минтруда России для исследования структуры потребностей рынка труда.

Scicniific Liberalen "Cloud Techiioli>£k4 and Big Du* Aittlvtks"

rkkhunov Russian University оГ

Date

Year Qua ris г. Month: 2021 v ■ 2021

■V □ 2022

-age salary IflubJ

43 077

Source I Head Hunter

Number of vectocles

23 734

□ SuperJob

Number of vacancies by Professional area

265(1.12%) 361 (1.52%)

370 (1.56%) 385 (1 62%) 399(1.68%)

2.343 (9.87%)

Regions

□ Altai Territory

□ Amur Region

__Arkhangelsk Region

Astrakhan Region D Belgorod Region Bryansk Region

Professional area

# Service, provision of service* to the...

# Transport

# Finance and economics

# End-to-end professional activities in i... 9 Health care, public health, health ser... 9 Information and Communication Tec...

Administrative, management and offi...

# Rocket and space industiy

# Construction

# Woodworking and pulp and paper in..

# Agriculture

Department of Housing and Utilities

Automotive industry Power industry Metallurgical production Welding Ф Aircraft industry

Manufacture of machinery and equip...

# Chemical and chemital-techndogica...

• Atomic industry

Average salary by Professional area (Rub.)

Chemical and chemical-tech,.. 64 812,43 ■

Welding 62 633,52

Nanotechnology ' 56482.71

Metallurgical production 56

Aircraft industry 55 230,34

Architecture, engineering, ge... 55 173,08

Agriculture 52 786,28

Mining, processing of coal, o... 51 510,23

Health care, public health, he . 50 990,74

Construction 50 452,15

Physical Culture and sport 50 079,55

Extraction, processing, transp . I■ 49 538,61

Ш Manufacture of machinery a.. H 48 524,23

m Automotive industry 47 587,64

« с Transport И 47 524,23

Atomic industry 47 141,66

Ol о Power industry ■ 45 976,38

CL Shipbuilding ■ 43 487,75

Woodworking and pulp and ... ■ 43 038.15

Rocket and space industry И 43 034,22

End-to-end professional acti... ■ 41 332,90

Culture and art 1 41 324,32

Information and Communica... 1 40 882,40

Production of electrical equi... 1 40113,31

Area of professional activity 1 40 000,00

Fish farming and fishing 1 39 911,76

Forestry, hunting 1 39 540,09

Finance and economics 37713,59

Light and textile industry 36 726,00

Service, provision of services ... | 36 481,67

0 50 000 Averge salary

Рисунок 24 - Пример отчёта: распределение числа вакансий и средней зарплаты по специальностям (^19]).

4.3 Заключение к Главе 4

Глава посвящена обобщению применения подходов анализа Больших данных и распределённых вычислений решения задач исследования некоторых классов сложных систем. Рассмотрены обобщённая архитектура и прототип аналитической платформы, предполагающей совместное использование указанных выше подходов. Приводятся практические результаты использования созданного прототипа для анализа рынка труда в России.

Необходимость работы с Большими данными возникает в различных сферах деятельности, в том числе в тех, где современные подходы и технологии анализа данных пока не получили должного распространения. При этом методы организации обработки данных зачастую весьма схожи, несмотря на определённые различия, обусловленные спецификой предметной области. Ввиду этого одним из перспективных направлений является платформенный подход к созданию программно-аппаратных решений. Такие системы включают в себя как базовые элементы инфраструктуры, общие для решения задач различных типов, так и функциональные модули с узкой специализацией, которые улучшают параметра

анализа (например, скорость его выполнения или повышение точности результатов).

На базе опыта разработки и применения систем для анализа Больших данных в физике высоких энергий была предложена общая архитектура аналитической системы, способной обрабатывать данные как в потоковом, так и в пакетном режимах. Система предназначена для обработки данных большого объёма, либо имеющих значительную внутреннюю сложность, в том числе скрытые связи. В технологическом стеке этой системе используются открытые программные продукты из экосистемы Больших данных.

На базе прототипа платформы было выполнено исследование российского рынка труда. Сбор основных исходных данных для исследования (резюме и объявлений о найме) осуществлялся из крупнейших информационных ресурсов, связанных с поиском и предложением работы (Работа России, НеаёНиШег, БирегДоЬ). Был предложен и реализован метод смыслового сравнения документов, позволяющий сопоставлять вакансии и резюме с одной стороны и профессиональные и образовательные стандарты с другой. Данный метод позволяет количественно оценить степень соответствия между требованиями работодателя, опытом и знаниями соискателя и существующими профессиональными стандартами, а также компетенциями выпускников вузов. Схема анализа данных в системе соответствует логике построения предложенной аналитической платформы.

На основе созданного прототипа информационно-аналитической системы совместно с МИА «Россия сегодня», ВНИИ Труда Минтруда России и РЭУ им. Г.В. Плеханова был создан социальный навигатор по профессиям и зарплатам в регионах России1. С 2015 года накоплено и обработано более 250 Тбайт данных о вакансиях и резюме. С применением машинного обучения и семантического

1 Профессии, зарплаты, вузы: навигатор абитуриента 2022 https://na.ria.ru/20220323/vuzy-1779514893.html

анализа осуществляется сопоставление вакансий с более чем 1700 профессиями (согласно Справочнику профессий Минтруда России).

Основные результаты исследования, изложенные в главе 4, опубликованы в работах [Л10-Л20].

Заключение

В работе рассмотрено применение методов и технологий Больших данных для создания средств мониторинга передачи и анализа управления данными в распределённом компьютинге эксперимента ATLAS. На примере эксперимента CMS показана возможность увеличения степени автоматизации и повышения качества Монте-Карло моделирования с использованием базы знаний сгенерированных событий и специализированного языка разметки. Проведено обобщение опыта создания систем сбора и анализа Больших данных и баз знаний. На этой основе создан прототип цифровой аналитической системы, с помощью которого проведено исследование рынка труда в масштабах России. Далее приведены наиболее значимые результаты исследования. Основные результаты:

1. Разработаны методы и программные средства для масштабируемого мониторинга передачи данных эксперимента ATLAS в распределенной вычислительной среде.

2. Предложены и реализованы средства для описания метаданных моделирования в физике высоких энергий, позволившие автоматизировать цепочку моделирования. Разработан и реализован подход к созданию специализированной базы знаний смоделированных событий для использования в распределенной вычислительной среде. Созданная база знаний MCDB успешно применялась в официальной цепочке анализа эксперимента CMS, а язык разметки HepML используется программами-генераторами событий CompHEP и CalcHEP.

3. На базе инструментов аналитики Больших данных разработан метод анализа востребованности наборов данных в глобально распределенных хранилищах физического эксперимента ATLAS, позволивший провести оптимизацию политик репликации и хранения данных и тем самым более эффективно использовать дисковое пространство вычислительных центров.

4. На основе обобщения методов и опыта создания программных систем для решения задач физики высоких энергий предложена архитектура и реализован прототип цифровой платформы для анализа сложных социально-экономических систем. С использованием этого прототипа решена задача по исследованию рынка труда в масштабах России.

Список основных публикаций автора по теме диссертации

A1. S. Belov, L. Dudko, D. Kekelidze, A. Sherstnev. HepML, an XML-based format for describing simulated data in high energy physics // Computer Physics Communications. - 2010. - Vol. 181. - №. 10. - P. 1758-1768. -DOI: 10.1016/j.cpc.2010.06.026.

A2. S. Belov, L. Dudko, E. Galkin, A. Gusev, W. Pokorski, A. Sherstnev. LCG MCDB — a knowledgebase of Monte-Carlo simulated events // Computer Physics Communications. - 2008. - Vol. 178. - №. 3. - P.222-229. -

DOI: 10.1016/j.cpc.2007.08.010.

A3. J. Alwall, A. Ballestrero, P. Bartalini, S. Belov, E. Boos, A. Buckley et al. A Standard format for Les Houches event files // Computer Physics Communications.

- 2007. - Vol. 176. - №. 4. - P. 300-304. - DOI: 10.1016/j.cpc.2006.11.010. A4. J. Andreeva, S. Belov, A. Berejnoj et al. Dashboard for the LHC experiments. //

Journal of Physics: Conference Series. - IOP Publishing, 2008. - Vol. 119. - №. 6.

- P. 062008. - DOI: 10.1088/1742-6596/119/6/062008.

A5. J. Andreeva, M. Boehm, S. Belov, J. Casey et al. Job monitoring on the WLCG scope: Current status and new strategy. // Journal of Physics: Conference Series. -IOP Publishing, 2010. - Vol. 219. - №. 6. - P. 062002. -DOI: 10.1088/1742-6596/219/6/062002. A6. J. Andreeva, A. Beche, S. Belov, I. Kadochnikov, P. Saiz, D. Tuckett. WLCG Transfers Dashboard: a Unified Monitoring Tool for Heterogeneous Data Transfers. // Journal of Physics: Conference Series. - IOP Publishing, 2014. - Vol. 513. - №. 3.

- P. 032005. - DOI: 10.1088/1742-6596/513/3/032005.

A7. J. Andreeva, A. Beche, S. Belov, D. Diguez Arias et al., Monitoring of large-scale federated data storage: XRootD and beyond // Journal of Physics: Conference Series.

- IOP Publishing, 2014. - Vol. 513. - №. 3. - P. 032004. - DOI: 10.1088/17426596/513/3/032004.

A8. J. Andreeva, A. Beche, S. Belov, I. Dzhunov et al., Processing of the WLCG monitoring data using NoSQL // Journal of Physics: Conference Series. - IOP

Publishing, 2014. - Vol. 513. - №. 3. - P. 032048. -DOI: 10.1088/1742-6596/513/3/032048. A9. A. Aimar, A. Aguado Corman, P. Andrade, S. Belov, J. Delgado Fernandez et al., Unified Monitoring Architecture for IT and Grid Service // Journal of Physics: Conference Series. - IOP Publishing, 2017. - Vol. 898. - №. 9. - P. 092033. - DOI: 10.1088/1742-6596/898/9/092033. A10. S.D. Belov, I.A. Filozova, I.S. Kadochnikov, V.V. Korenkov, R.N. Semenov, P.V. Zrelov. Automated system to monitor and predict matching of higher vocational education programs with labour market // CEUR Workshop Proceedings. - 2017. -Vol. 2023. - P. 98-104. A11. S. Belov, I. Filozova, I. Kadochnikov, V. Korenkov, R. Semenov, P. Smelov, P. Zrelov. Labour market monitoring system // CEUR Workshop Proceedings. -

2018. - Vol. 2267. - P. 528-532.

A12. J. Javadzade, S. Belov. Data gathering and analysis for the monitoring of the Russian labour market // CEUR Workshop Proceedings. -2018. - Vol. 2267. -P. 549-552.

A13. Валентей С.Д., Зрелов П.В., Кореньков В.В., Белов С.Д., Кадочников И.С. Мониторинг соответствия профессионального образования потребностям рынка труда // Общественные науки и современность. - 2018. - №. 3. - С. 5-16. - DOI: 10.7868/S0869049918030012. A14. S.D. Belov, J.N. Javadzade, I.S. Kadochnikov, V.V. Korenkov, P.V. Zrelov. Big data technologies for labour market analysis // CEUR Workshop Proceedings. -

2019. - Vol. 2507. - P. 469-472.

A15. Свидетельство о государственной регистрации базы данных № 2019620680 Российская Федерация. База данных вакансий и резюме на рынке труда: № 2019620246: заявл. 28.02.2019: опубл. 26.04.2019 / П.А. Смелов, С.Д. Белов, В.А. Изварина [и др.]; заявитель Федеральное государственное бюджетное образовательное учреждение высшего образования «Российский экономический университет имени Г.В. Плеханова».

A16. S. D. Belov, I. S. Kadochnikov, V. V. Korenkov, P. V. Zrelov. Intellectual texts processing in socio-economic applications. // CEUR Workshop Proceedings. - 2020. - Vol. 2772. - P. 65-71.

A17. S. Belov, I. Kadochnikov, V. Korenkov, A. Reshetnikov, R. Semenov, P. Zrelov. Data Analysis Platform for Stream and Batch Data Processing on Hybrid Computing Resources. // CEUR Workshop Proceedings. - 2021. - Vol. 3041. - P. 174-179. -DOI: 10.54546/MLIT.2021.31.67.001.

A18. S.D. Belov, A.V. Ilina, J.N. Javadzade, I.S. Kadochnikov, V.V. Korenkov, I.S. Pelevanyuk, V.A. Tarabrin, P.V. Zrelov and R.N. Semenov. Analytical platform for socio-economic studies. // CEUR Workshop Proceedings. - 2021. - Vol. 3041. -P. 619-623. - DOI: 10.54546/MLIT.2021.81.99.001.

A19. A.V. Ilina, S. Belov, I. Filozova, Y. Gavrilenko, J. Javadzade, I. Kadochnikov, V. Korenkov, I. Pelevanyuk, D. Priakhina, R. Semenov, V. Tarabrin and P. Zrelov. Methods and algorithms of the analytical platform for analyzing the labor market and the compliance of the higher education system with market needs. // Proceedings of Science. - 2022. - Vol. 429. - Conf. DLCP2022. - DOI: 10.22323/1.429.0028.

A20. M. Balakin, S. Belov, P. Zrelov. Simple Journal Adviser for Scientific Articles. // Physics of Particles and Nuclei. - 2024. - Vol. 55. - № 3, P. 572-575. -DOI: 10.1134/S1063779624030080.

Список литературы

1. ATLAS Collaboration. Aad G. et al. The ATLAS experiment at the CERN Large

Hadron Collider // Journal of Instrumentation. - 2008. - Vol. 3. - №. S. -P. 8003-8008. - DOI: 10.1088/1748-0221/3/08/S08003.

2. Britton D., Campana S., Panzer-Stradel B. A holistic study of the WLCG energy needs for the LHC scientific program // EPJ Web of Conferences. - EDP Sciences, 2024. - Vol. 295. - P. 04001.

3. Cox M., Ellsworth D. Managing big data for scientific visualization // ACM SIGGRAPH. - MRJ/NASA Ames Research Center, 1997. - Vol. 97. - №. 1. -P. 21-38.

4. Buxton B. et al. Big data: the next Google. Interview by Duncan Graham-Rowe // Nature. - 2008. - Vol. 455. - №. 7209. - P. 8-9.

5. Frankel F., Reid R. Big data: Distilling meaning from data // Nature. - 2008. -Vol. 455. - №. 7209. - P. 30.

6. Doctorow C. Big data: Welcome to the petacentre // Nature. - 2008. - Vol. 455. -№. 7209. - P. 16-21.

7. Waldrop M. et al. Big data: wikiomics // Nature. - 2008. - Vol. 455. - №. 7209. -P. 22.

8. Demchenko Y. et al. Addressing big data issues in scientific data infrastructure // 2013 International conference on collaboration technologies and systems (CTS). -IEEE, 2013. - p. 48-55.

9. Laney D. et al. 3D data management: Controlling data volume, velocity and variety // META group research note. - 2001. - Vol. 6. - №. 70. - P. 1. URL: https://studylib.net/doc/8647594/3d-data-management--controlling-data-volume--velocity

10. Amudhavel J. et al. Big data scalability, methods and its implications: A survey of current practice // Proceedings of the 2015 International Conference on Advanced

Research in Computer Science Engineering & Technology (ICARCSET 2015). -2015. - P. 1-5.

11. Adamova D., Litmaath M. New strategies of the LHC experiments to meet the computing requirements of the HL-LHC era // Proceedings of Science, 2017. -Vol. BORMIO2017 - P. 053. URL: https://pos.sissa.it/302/053/pdf (дата обращения: 14.06.2024).

12. Mount R. P. Off-line computing for experimental high-energy physics // Reports on Progress in Physics. - 1992. - Vol. 55. - №. 9. - P. 1385.

URL: https://lib-extopc.kek.jp/preprints/PDF/1992/9207/9207232.pdf (дата обращения: 12.06.2024).

13. Kaczmarska A., Malecki P., Szymocha T. The ATLAS experiment simulations as the computing challenge for the ACK CYFRONET AGH // Computer Science. -2008. - Vol. 9. - P. 47-54. - DOI: 10.7494/csci.2008.9.3.47.

14. Rodriguez Vera A. M. et al. Software and Computing Infrastructure-ATLAS Fact Sheet. - 2021. - №. ATLAS-OUTREACH-2021-066. URL: https://cds.cern.ch/ record/2775199/files/Software%20and%20computing%20infrastructure.pdf

15. Greenberger M. The Computers of Tomorrow // The Atlantic Monthly. - 1964. Vol. 213. - № 5, May. - P. 63-67. URL:

http://www.theatlantic.com/past/docs/unbound/flashbks/computer/greenbf.htm (дата обращения: 04.09.2024) - Режим доступа: свободный.

16. Campanella M., Perini L. The analysis model and the optimization of geographical distribution of computing resources: a strong connection // MONARC note. - 1998. - №. 1/98.

17. Aderholz M. et al. Models of Networked Analysis at Regional Centres for LHC Experiments (MONARC), Phase 2 Report, 24th March 2000. - 2000. -

№. CERN-LCB-2000-001.

18. Кореньков В. В. Распределенная система для обработки, хранения и анализа экспериментальных данных Большого адронного коллайдера // Современные информационные технологии и ИТ-образование. - 2012. - №. 8. - С. 8-20.

19. Apostolakis J. et al. Report of the LHC Computing Grid Project Architecture Blueprint RTAG. - 2002.

20. Shiers J. The worldwide LHC computing grid (worldwide LCG) // Computer physics communications. - 2007. - Vol. 177. - №. 1-2. - P. 219-223.

21. Jones R., Barberis D. The ATLAS computing model // Journal of Physics: Conference Series. - IOP Publishing, 2008. - Vol. 119. - №. 7. - P. 072020.

22. Kunszt P. et al. European DataGrid project: Status and plans // Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment. - 2003. - Vol. 502. -№. 2-3. - P. 376-381.

23. Foster I. Globus toolkit version 4: Software for service-oriented systems // IFIP international conference on network and parallel computing. - Berlin, Heidelberg : Springer Berlin Heidelberg, 2005. - P. 2-13.

24. Catlett C. et al. TeraGrid: Analysis of organization, system architecture, and middleware enabling new types of applications // High Performance Computing and Grids in Action. - IOS Press BV, 2008. - С. 225-249.

25. Aamodt K. et al. The ALICE experiment at the CERN LHC // Journal of Instrumentation. - 2008. - Vol. 3. - №. 08. - P. S08002.

26. Bagnasco S. et al. AliEn: ALICE environment on the GRID // Journal of Physics: Conference Series. - IOP Publishing, 2008. - Vol. 119. - №. 6. - P. 062012.

27. Maeno T. et al. PanDA: Production and Distributed Analysis System // Computing and Software for Big Science. - 2024. - Vol. 8. - №. 1. - P. 4.

28. Branco M. et al. Managing ATLAS data on a petabyte-scale with DQ2 // Journal of Physics: Conference Series. - IOP Publishing, 2008. - Vol. 119. - №. 6. -

P. 062017.

29. Barisits M. et al. Rucio: Scientific data management // Computing and Software for Big Science. - 2019. - Vol. 3. - P. 1-19.

30. CMS Collaboration et al. The CMS experiment at the CERN LHC // Journal of Instrumentation. - 2008. - Vol. 3. - №. 8. - P. S08004.

31. Codispoti G. et al. CRAB: a CMS application for distributed analysis // IEEE Transactions on Nuclear Science. - 2009. - Vol. 56. - №. 5. - P. 2850-2858.

32. Egeland R., Wildish T., Huang C. H. PhEDEx data service // Journal of Physics: Conference Series. - IOP Publishing, 2010. - Vol. 219. - №. 6. - P. 062010.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.