Методика и программная инфраструктура глобально распределенной обработки данных эксперимента COMPASS тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Петросян Артем Шмавонович

  • Петросян Артем Шмавонович
  • кандидат науккандидат наук
  • 2021, Объединенный институт ядерных исследований
  • Специальность ВАК РФ05.13.11
  • Количество страниц 100
Петросян Артем Шмавонович. Методика и программная инфраструктура глобально распределенной обработки данных эксперимента COMPASS: дис. кандидат наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Объединенный институт ядерных исследований. 2021. 100 с.

Оглавление диссертации кандидат наук Петросян Артем Шмавонович

1.1 Эксперимент COMPASS

1.1.1 Хранение данных

1.1.2 Модель обработки данных

1.1.3 Процесс реконструкции событий

1.1.4 Потоки данных

1.1.5 Предпосылки для обновления системы управления процессами обработки данных

1.1.6 Требования к новой системе управления процессами обработки данных

1.2 Современные программные комплексы по обработке данных физических экспериментов

1.2.1 ALICE

1.2.2 ATLAS

1.2.3 CMS

1.2.4 LHCb

1.3 Заключение к Главе

Глава

2.1 Методика организации среды глобально распределенной обработки данных физического эксперимента

2.2 Компоненты среды распределенных вычислений эксперимента COMPASS

2.3 Тестирование обработки данных COMPASS в распределенной среде

2.4 Архитектура системы управления процессами обработки данных

2.5 Заключение к Главе

Глава

3.1 Развертывание среды глобально распределенных вычислений

3.2 Система управления процессами обработки данных

3.2.1 Управление заданиями

3.2.2 Определение задач

3.2.3 Управление выполнением задач

3.2.4 Управление процессами обработки данных

3.2.5 Управление данными

3.2.6 Мониторинг

3.3 Сервисы системы управления процессами обработки данных

3.4 Работа с вычислительными ресурсами среды грид

3.5 Работа на высокопроизводительных системах

3.5.1 Blue Waters

3.5.2 Frontera

3.6 Инфраструктура

3.6.1 Грид

3.6.2 Blue Waters

3.6.3 Frontera

3.7 Статистика

3.8 Заключение к главе

Заключение

Перечень наименований и сокращений

Литература

Приложения

Введение

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методика и программная инфраструктура глобально распределенной обработки данных эксперимента COMPASS»

Актуальность темы

Жизненный цикл современных физических экспериментов нередко длится десятки лет и включает несколько этапов модернизации различных компонентов в связи с их износом или развитием для проведения новых исследований. При этом, если процессы развития элементов физической установки находятся под контролем участников эксперимента, то развитие вычислительной инфраструктуры, версий системного программного обеспечения, использующегося для записи, хранения и обработки собранных экспериментом данных, находится вне зоны контроля участников эксперимента. Любой эксперимент сталкивается с задачей обеспечения сбора, хранения и обработки данных в постоянно изменяющихся условиях. Крайне важно, чтобы система управления обработкой данных эксперимента была спроектирована с учетом неизбежных изменений в качественном и количественном составе компонентов 1Т-инфраструктуры. Необходимо учитывать и развитие самой физической установки, приводящей к изменениям в процессе обработки данных. В противном случае каждый этап обновления или замены любого из компонентов установки и 1Т-инфраструктуры будет подразумевать необходимость проведения глубокой модернизации или полного перепроектирования и замены системы управления процессом обработки.

Опыт построения и эксплуатации распределенных вычислительных сред экспериментами на Большом адронном коллайдере (БАК) в ЦЕРН продемонстрировал, что появились решения, способные управлять обработкой данных не только в рамках одного вычислительного центра, но и за его пределами. Появилась возможность организовывать распределенные системы с использованием ресурсов институтов-участников коллаборации. Стали до-

ступны ресурсы разных типов: коммерческие облачные инфраструктуры и высокопроизводительные вычислительные системы. Созданы продвинутые системы управления распределенными данными. Однако, несмотря на то, что сервисы хранения, управления и обработки данных уже существуют, каждый из экспериментов реализует свою систему верхнего уровня, способную обеспечить управление обработкой данных, используя эти сервисы.

Эксперимент COMPASS, начавший работу за несколько лет до введения в эксплуатацию БАК и реализации проекта Worldwide LHC Computing Grid (WLCG), в течение 15 лет хранил и обрабатывал данные только в ЦЕРН, а к 2015 году столкнулся с рядом вызовов, потребовавших проведения масштабной модернизации системы управления обработкой данных.

Цели и задачи исследования

Целью работы является организация глобально распределенной обработки данных физического эксперимента COMPASS.

В рамках диссертационной работы решались следующие задачи:

1. Анализ имеющейся системы обработки данных эксперимента COMPASS и актуальных программных средств, предназначенных для управления обработкой данных физического эксперимента.

2. Разработка методики организации глобально распределенной обработки данных на базе компонентов программной инфраструктуры экспериментов на БАК.

3. Развертывание среды глобально распределенной обработки данных эксперимента COMPASS.

4. Проектирование и разработка программного инструментария, способного обеспечить глобально распределенную обработку данных физического эксперимента COMPASS.

5. Интеграция высокопроизводительных систем для осуществления на них обработки данных эксперимента.

Методы исследования

Диссертационная работа выполнена с применением методов системного анализа, проектирования информационных систем, организации взаимодействия программ, программных систем и глобально распределенной обработки данных, программной инженерии и анализа программного обеспечения.

Научная новизна

1. Впервые осуществлен успешный перенос обработки данных работающего в течение 15 лет эксперимента из среды одного вычислительного центра в глобально распределенную среду.

2. Предложена ориентированная на особенности эксперимента COMPASS методика, позволяющая использовать различные вычислительные ресурсы для выполнения десятков тысяч задач на основе широкого использования групповых операций и параллелизма.

3. Создано реализующее предложенную методику программное обеспечение для эффективной массовой обработки данных эксперимента COMPASS на объединенных в единую глобально распределенную инфраструктуру вычислительных ресурсов различного типа.

Научно-практическая значимость

1. С помощью созданного программных средств обработаны наборы данных разных годов: 2004, 2009-2012, 2015-2018. С 2017 года программный инструментарий является основной платформой для обработки данных эксперимента COMPASS. На текущий момент при помощи созданного программного обеспечения обработано более 150 миллиардов физических событий, оформленных в виде более 13 миллионов задач.

2. Примененные при разработке программного обеспечения средства организации глобально распределённых вычислений позволили использовать в качестве вычислительных ресурсов не только грид-сайты, но и высокопроизводительные вычислительные системы, такие как Blue Waters (в 2018) и Frontera (в 2019-2020). Подключение высокопроизводительных систем позволяло в два раза увеличить объем доступных эксперименту вычислительных мощностей. Кроме высокопроизводительных

ресурсов, в различные периоды использовались вычислительные мощности институтов-участников эксперимента:

ОИЯИ и INFN Триест. Внедрение сервисов массовой передачи данных позволило значительно, в некоторых случаях в десятки раз, сократить время, требующееся для записи результатов на носители ленточного хранилища.

Защищаемые положения

1. Методика организации процесса обработки данных физического эксперимента на примере эксперимента COMPASS, позволяющая использовать различные вычислительные ресурсы для управления десятками тысяч одновременно выполняемых задач.

2. Программное обеспечение управления процессом обработки данных эксперимента COMPASS, реализованное на основе предложенной методики, позволяющее обеспечить эффективную обработку данных эксперимента на объединенных в единую глобально распределенную инфраструктуру вычислительных ресурсах различного типа.

3. Внедренная в промышленную эксплуатацию система управления обработкой данных эксперимента COMPASS, подтвердившая за три года эксплуатации свою надежность, способность выдерживать пиковые нагрузки и являющаяся в настоящее время официальной системой обработки данных эксперимента.

Апробация работы

Результаты исследований, положенных в основу диссертации, докладывались автором на научных семинарах Объединенного института ядерных исследований (ОИЯИ), рабочих совещаниях коллаборации COMPASS, проходивших в ЦЕРН и ОИЯИ, на международных рабочих совещаниях, конференциях и симпозиумах, наиболее важные из которых:

• Международные конференции "Распределенные вычисления и

Grid-технологии в науке и образовании" (GRID), 4-9 июля 2016, Дубна, ЛИТ ОИЯИ (GRID-2016); 10-14 сентября 2018, Дубна, ЛИТ ОИЯИ (GRID-2018).

• International Symposium on Nuclear Electronics & Computing (NEC), 2529 сентября 2017, Будва, Черногория (NEC-2017); 30 сентября-4 октября 2019, Будва, Черногория (NEC-2019).

• PanDA Workshop, 22 апреля 2016, ЦЕРН, Швейцария.

• COMPASS Collaboration Meeting, 17 ноября 2017, ЦЕРН, Швейцария.

• Rucio Workshop, 1-2 марта 2018, ЦЕРН, Швейцария.

• 23d International Conference on Computing in High Energy and Nuclear Physics (CHEP-2018), 9-13 июля 2018, София, Болгария.

Публикации и личный вклад

Основные результаты диссертации представлялись автором на научных семинарах ЛИТ ОИЯИ и на международных научных конференциях. По теме диссертации подготовлено 20 научных работ, 18 из которых опубликованы в рецензируемых изданиях, соответствующих требованиям к публикациям Положения о присуждении ученых степеней в ОИЯИ (пр. ОИЯИ от 30.04.2019 № 320).

Представленные в диссертации результаты по созданию программного обеспечения по управлению обработкой данных эксперимента COMPASS выполнена автором. Автор являлся ответственным за проведения исследований, проектирование и реализацию программных модулей, подготовку публикаций. Все представленные в диссертации результаты получены лично автором, либо в соавторстве при определяющем вкладе соискателя.

Соответствие диссертации паспорту специальности

В диссертационной работе присутствуют результаты в трех областях, соответствующих пунктам 3, 8 и 9 паспорта специальности: взаимодействия программ и программных систем, методы создания программ и программных систем для параллельной и распределенной обработки данных, алгоритмы и программная инфраструктура для организации глобально распределенной обработки данных.

Достоверность результатов

Подтверждается практическим использованием разработанного программного обеспечения в качестве платформы обработки данных эксперимента COMPASS в течении более чем трех лет.

Объем и структура диссертации

Диссертационная работа состоит из введения, трех глав, заключения, перечня наименований и ссокращений, списка цитируемой литературы (82 пункта) и приложения. Работа содержит 100 страниц и включает в себя 22 рисунка и 2 таблицы.

Глава 1

1.1 Эксперимент COMPASS

Физическая установка COMPASS - это спектрометр для изучения протонов и спектроскопии (COmmon Muon Proton Apparatus for Structure and Spectroscopy), построенный на протонном суперсинхротроне в ЦЕРН [1]. Научная программа коллаборации эксперимента COMPASS была одобрена в 1997 году. Целью первой фазы эксперимента (COMPASS-I) является изучение структуры глюонов и кварков и спектроскопия адронов с использованием высокоинтенсивных пучков мюонов и адронов, рис. 1.1. К 2010 году эксперимент вступил во вторую фазу (COMPASS-II), фокусируясь на изучении эффекта Дрелла-Яна, рассеянии Примакова, и глубоко виртуальном комптоновском рассеянии. Более двухсот физиков из тринадцати стран и двадцати четырех институтов образуют пользовательское сообщество эксперимента [2].

I

•--------------

190 GeV/c

Рис. 1.1: Физическая установка COMPASS

1.1.1 Хранение данных

Начиная с 2002 года, эксперимент набирает от 1.5 до 3 ПБ данных каждый год. Кроме этого, на ленточное хранилище CASTOR (CERN Advanced STORage) [3] записываются также и данные, прошедшие обработку, что привело в настоящее время к необходимости управлять достаточно большим массивом данных объемом в 20 ПБ, рис. 1.2.

Ш Необработанные Ш Обработанные 3,0 -

ml

2002 2004 2006 2008 2010 2012 2014 2016 2018

Рис. 1.2: Объемы данных эксперимента, ПБ

Каталог данных, собранных с установки, хранится в СУБД (система управления базами данных) Oracle [4], используется соглашение об именовании: год/период/номер набора данных, объединяющий до 2014 года 100, а после 200 сбросов детектора/номер файла.

1.1.2 Модель обработки данных

Базируясь в ЦЕРН, эксперимент COMPASS при построении компьютерной модели обработки данных полностью полагался на IT-сервисы, предлагае-

■lili

мые департаментом информационных технологий европейской организацией ядерных исследований, такие как распределенная файловая система AFS (Andrew File System), системой долговременного хранения CASTOR, системой пакетной обработки под управлением LSF (Load Sharing Facility) [5]. Изначально и необработанные, и промежуточные данные размещались на CASTOR. С введением в эксплуатацию сервиса EOS [6], он стал использоваться в качестве временного хранилища данных во время обработки. На ленточное хранилище CASTOR же доставлялись только финальные данные для долгосрочного хранения. Упрощенная схема движения данных в процессе их обработки представлена на рис. 1.3:

Ixplus

Каталог данных

■01

База Скрипты

заданий управления

и задач обработкой

Задачи

Ixbatch

Входные данные

Файлы для слияния

— Данные CASTOR fe Результаты — Ц — Результаты

Рис. 1.3: Обработка данных в 2015 году

• все собранные данные записываются системой сбора информации DAQ

(Data Acquisition System) на CASTOR, данные и метаданные регистрируются в специализированной базе данных;

• когда задание на обработку сформировано и запущено, производится подготовка входных данных: запрашивается перенос данных с лент долгосрочного хранения на дисковый массив, и, как только это сделано, на вычислительную ферму отправляются задачи обработки этих данных;

• обработка данных выполняется при помощи прикладного программного обеспечения эксперимента: CORAL (COmpass Reconstruction AnaLysis software package) [7] и PHAST (PHysics Analysis Software Tools) [8];

• после обработки промежуточные результаты (результаты работы отдельных задач) перемещаются на EOS для ожидания завершения остальных задач и подготовки процедуры объединения результатов обработки нескольких файлов в один финальный (процедура слияния) размером не более 4.2ГБ, а затем отправляются на CASTOR для долгосрочного хранения;

• обработка выполняется в рамках квоты эксперимента на ВЦ ЦЕРН, составляющей до 9 000 одновременно выполняемых задач.

База данных системы хранит историю выполнения задач и является каталогом обработанных данных с соглашением об именовании: год/период/название обработки/номер сброса детектора-номер файла-параметры обработки, например

/data/2016/oracle_dst/P11/slot2/mDST/mDST-276384-2-7.root.001. Любые процессы обработки используют в качестве входных данных файлы, хранящиеся на ленточном хранилище. Во время обработки временные файлы хранятся на дисковом хранилище или других системах хранения институтов-участников, но, после завершения обработки результаты загружаются на ленты. Файлы всех типов хранятся на CASTOR. Таким образом, эксперимент использует одно единственное хранилище, куда попадают только конечные данные.

Управлением обработкой занимается менеджер обработки данных. Для построения вычислительной среды эксперимента создан служебный пользователь, в рабочей директории на AFS которого размещается необходимое программное обеспечение. Автоматизацию обеспечивает набор скриптов на Perl и Python, запускаемые вручную или по расписанию. Реализован автоматический перезапуск задачи при ошибках. Менеджер обработки подготавливает список файлов с входными данными, устанавливает или проверяет установку необходимой версии программного обеспечения, задает параметры в специальном файле и отправляет файлы на обработку. Скрипт запуска и мониторинга выполнения задания на вычислительном узле использует команды системы пакетной обработки LSF, такие как bsub, bstat [9]. Имеется веб-интерфейс, где представлен ход обработки. Все скрипты, необходимые для произведения массовой обработки данных, размещены в рабочей директории служебного пользовательского аккаунта на AFS.

1.1.3 Процесс реконструкции событий

На момент начала исследований реализован процесс реконструкции физических событий (рис. 1.4). Набор файлов из одного сброса детектора может состоять из 1 000 файлов необработанных данных (chunks). Система управления процессом обработки данных создает по задаче на каждый файл. Каждая завершившаяся задача создает выходные файлы разных типов: дерево событий (mini Data Summary Tree, mDST), гистограмма, и файл, содержащий только данные о значимых для данного задания событиях (event dump). После обработки каждого файла производится проверка и выполняется независимое слияние разных типов результатов (mDST, hist, event dump) задач в рамках одного набора файлов сброса детектора. Размер файлов финальных результатов не должен превышать 4.2Гб. Таким образом, каждый финальный файл может создаваться из разного количества промежуточных. Финальные файлы проверяются на целостность и совпадение количества событий с промежуточными файлами.

Chunk 11001

Chunk 11002

Run 284349 Chunk 11003

Я Chunk 14167

mDST.284349.022

hist.284349.001

dump.284349.008

dump.14167

Рис. 1.4: Процесс обработки данных в ходе реконструкции физических событий

1.1.4 Потоки данных

Задание на реконструкцию в среднем состоит из около 35 000 входных файлов, что соответствует 35 000 задачам. Файл необработанных данных имеет размер около 1ГБ, таки образом, в среднем в рамках задания обрабатывается около 35ТБ входных данных. Среднее время выполнения одной задачи реконструкции составляет около 7 часов, для обработки всех задач одного задания требуется около 245 000ЦПУ/часов. После выполнения задачи размер выходного файла mDST составляет около 30% от размера входного файла. Кроме этого, в результате выполнения задачи создаются файлы гистограмм и отобранных событий, их размеры отличаются от задания к заданию. Файлы каждого типа проходят процедуру слияния в файлы большего размера для оптимального размещения на ленточном хранилище. Задачи слияния выполняются на узлах ВЦ ЦЕРН. Таким образом, результаты

обработки одного входного файла являются входными для задач слияния трех типов: mDST, гистограмм и файлов отобранных событий.

После завершения слияния и проверки результатов производится передача результатов на ленточное хранилище. В течении месяца в среднем эксперимент обрабатывает около 300ТБ данных в виде 300 000 файлов, оформленных в виде примерно 10-15 заданий. Каждый месяц 100ТБ обработанных данных записывается на ленточное хранилище CASTOR.

Объем обрабатываемых данных постоянно растет не только в связи с получением новых данных с детектора, но и в процессе многократной переобработки данных, набранных в предыдущие годы. Связано это с постоянным совершенствованием прикладного ПО: устраняются ошибки, модифицированные алгоритмы позволяют получать новые физические результаты из ранее набранных данных.

1.1.5 Предпосылки для обновления системы управления процессами обработки данных

Данные эксперимента с момента начала эксперимента обрабатываются в ВЦ ЦЕРН, задания запускаются пользователем, ответственным за массовую обработку. К 2015 году большая часть сервисов, таких как LSF, AFS, на которых основана обработка данных эксперимента, подошла к концу своего жизненного цикла [10, 11] и постепенно выводится из эксплуатации. Кроме этого, политика ЦЕРН по развитию вычислительных ресурсов предполагает в первую очередь наращивание ресурсов, доступных через среду грид [12] и уменьшение объема ресурсов, доступных для локального доступа. Обработка же данных на удаленных вычислительных центрах вместо одного локального требует пересмотра концепции обработки и миграции в распределенную вычислительную среду, что подразумевает использование промежуточного ПО, способного обеспечить доставку и выполнение задач на любых типах удаленных вычислительных ресурсов. Так как старая система управления обработкой не поддерживала обработки на более чем одном ресурсе определенного типа, модернизации необходимо было подвергнуть и ее. Таким образом, модернизации должны быть подвергнуты все элементы системы

обработки данных эксперимента. При этом описанная модель обработаки данных эксперимента ничем принципиально не отличается от той, что используется в экспериментах, использующих распределенную среду для обработки данных, и позволяет предположить, что в случае построения грид-инфраструктуры и подключения необходимых сервисов, обработка данных может быть выведена на новый уровень гибкости, надежности и производительности. Однако, очевидно, что использование контекста пользователя и размещение ПО в его домашней директории не позволяет использовать никакие другие вычислительные ресурсы кроме ЦЕРН. Использование же команд системы пакетной обработки жестко привязывает систему управления обработкой к одному типу вычислительного ресурса.

Список предпосылок для модернизации системы можно сформулировать в виде следующего списка:

• смена системы управления вычислительными ресурсами в ЦЕРН. Замена LSF на HTCondor [13] к концу 2018 года;

• планируемый вывод из эксплуатации CASTOR, который должен быть заменен системой CTA (CERN Tape Archive) [14];

• планируемый вывод из эксплуатации файловой системы AFS;

• намерение расширить набор автоматизированных процессов обработки данных симуляцией физических событий, отбором интересующих событий из больших объемов данных, пользовательским анализом больших объемов данных;

• намерение обрабатывать все типы заданий с помощью одной системы;

• намерение организовать распределенную обработку на вычислительных ресурсах институтов-участников эксперимента.

Иначе говоря, требовалось переработать весь интерфейс взаимодействия с вычислительной инфраструктурой.

1.1.6 Требования к новой системе управления процессами обработки данных

При проведении масштабной модернизации комплекса управления обработкой данных эксперимента COMPASS было необходимо рассмотреть возможность реализации обновленного комплекса с учетом дополнительных требований, удовлетворение которых позволит избежать необходимости повторения процедуры модернизации при следующем изменении в составе компонентов IT-инфраструктуры эксперимента. Дополнительные требования можно сформулировать следующим образом:

• возможность смены типа использующегося вычислительного ресурса без необходимости изменения архитектуры системы для обеспечения плавного перехода с одного типа вычислительного ресурса на другой в будущем;

• расширение набора автоматизированных процессов обработки данных;

• возможность организации обработки на вычислительных ресурсах участников коллаборации;

• возможность обеспечить обработку данных на высокопроизводительных вычислительных ресурсах.

1.2 Современные программные комплексы по обработке данных физических экспериментов

Ключевыми характеристиками современных комплексов для обработки данных физических экспериментов являются:

• обеспечение обработки данных в географически распределенной среде на всех доступных ресурсах любого типа;

• обеспечение управления распределенными данными;

• предоставление единого интерфейса для любого типа задач;

• максимальная автоматизация всех процессов обработки данных.

На момент проведения исследования наиболее полно описанные выше характеристики были реализованы в комплексах управления обработкой данных экспериментов на Большом адронном коллайдере в ЦЕРН: в условиях дефицита вычислительных мощностей и возможностей обеспечить хранение набираемых данных экспериментами были созданы системы, эффективно управляющие хранением и обработкой данных в глобально распределенной гетерогенной вычислительной среде на вычислительных ресурсах, расположенных в более чем 170 центрах по всему миру.

Многие компоненты программных комплексов, разработанных экспериментами на БАК, реализованы в виде независимых программных продуктов с открытым кодом, доступных для использования сторонними пользователями. При этом, если компоненты можно подобрать, исходя из ожидаемых объемов данных, имеющихся вычислительных ресурсов и ресурсов хранения, то систему, управляющую этими компонентами и обеспечивающую их согласованное взаимодействие в рамках процесса обработки данных, каждый эксперимент вынужден разрабатывать для реализации собственной логики обработки задач.

Для оценки возможности использования существующих систем и сервисов был проведен сравнительны анализ программных комплексов экспериментов на БАК, построенных в ЦЕРН и делящих с экспериментом COMPASS многие элементы как физической, так и IT-инфраструктуры. Ключевыми характеристиками при оценке возможности использования наработок каждого из программных комплексов являлись подтвержденное использование программных компонентов за пределами эксперимента, для которого они были разработаны, универсальность, надежность, масштабируемость, наличие поддержки и перспективы развития.

1.2.1 ALICE

ALICE (A Large Ion Collider Experiment) [15] это детектор тяжелых ионов, который изучает сильное взаимодействие при экстремальных значениях плотности энергии и температуры во время столкновения тяжелых ядер. Де-

тектор предназначен для идентификации большого количества единичных событий, которые происходят при каждом столкновении тяжелых ядер. Основная цель этого эксперимента - изучение кварк-глюонной плазмы и восстановление киральной симметрии [16, 17], в частности, весь детектор был спроектирован так, чтобы справляться с чрезвычайно высокой множественностью, которая характерна для столкновений тяжелых ионов (от трех до четырех на порядки выше, чем протон-протонное столкновение).

Коллаборация ALICE с 2000 года развивает фреймворк AliEn [18] (Alice grid Environment), обеспечивающий управление обработкой данных в глобально распределенной среде. Фреймворк включает в себя модули управления данными, управления задачами и пользовательский интерфейс. Поток данных с детектора в рамках первого сеанса набора данных БАК составляет около 4ПБ в год. Эксперимент использует преимущественно распределенные ресурсы для хранения, обработки и анализа данных.

Фреймворк AliEn можно разделить на три уровня:

• центральные сервисы, формирующие единую очередь задач и обеспечивающие глобальное управление хранением и обработкой данных;

• сервисы ВЦ, размещенные на VO-Box (выделенный узел на ВЦ, где размещаются сервисы виртуальной организации (VO)) и предоставляющие центральным сервисам информацию об удаленном ВЦ;

• агенты управления задачами, работающие на вычислительных узлах удаленнных ВЦ, обеспечивающие доставку задач на вычислительные узлы и контролирующие их выполнение [21].

В качестве протокола передачи данных используется только XRootD [19]. В качестве сервиса доставки прикладного ПО эксперимента на удаленные ВЦ используется CVMFS [20].

Большинство сервисов, связанных с управлением нагрузкой, работают с очередью задач (Task Queue, TQ) - базы данных, которая отслеживает все задачи, отправленные в систему, и их текущий статус выполнения. Оптимизаторы просматривают TQ, переупорядочивая задания, чтобы обеспечить соблюдение политики оптимального распределения задач и приоритетов и

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Список литературы диссертационного исследования кандидат наук Петросян Артем Шмавонович, 2021 год

Литература

[1] Abbon P. et al. The COMPASS experiment at CERN // Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment. - 2007. - Vol. 577. - No. 3 - P. 455-518. - DOI: 10.1016/j.nima.2007.03.026. - URL: https: //doi.org/10.1016/j.nima.2007.03.026.

[2] COMPASS. - Дата последнего обращения: 18.03.2021. https:// wwwcompass.cern.ch/.

[3] CASTOR (CERN Advanced STORage). - Дата последнего обращения: 09.02.2021. https://castor.web.cern.ch/castor/.

[4] СУБД Oracle. - Дата последнего обращения: 16.03.2021. https://www. oracle.com/database/.

[5] IBM LSF. - Дата последнего обращения: 16.03.2021. https: //www.ibm.com/support/knowledgecenter/SSETD4/product_welcome_ platform_lsf.html.

[6] EOS. - Дата последнего обращения: 09.02.2021. https://eos-web.web. cern.ch/.

[7] CORAL (COmpass Reconstruction AnaLysis software package). - Дата последнего обрращения: 16.03.2021. https://twiki.cern.ch/twiki/bin/view/ Compass/DataReconstruction/CoralSoftware.

[8] PHAST (PHysics Analysis Software Tools). - Дата последнего обращения: 16.03.2021. http://ges.home.cern.ch/ges/phast/index.html.

[9] IBM LSF Commands. - Дата последнего обращения: 16.03.2021. https://www.ibm.eom/support/knowledgecenter/SSWRJV_10.1.0/lsf_ welcome/lsf_kc_cmd_ref.html.

[10] CERN Batch Service. - Дата последнего обращения: 16.03.2021. https: //information-technology.web.cern.ch/services/batch.

[11] Iven J. et al. CERN's AFS replacement project // Journal of Physics: Conference Series. - 2017. - Vol. 898. - DOI: 10.1088/17426596/898/6/062040. - URL: https://iopscience.iop.org/article/10.1088/ 1742-6596/898/6/062040.

[12] Foster I., Kesselman C. The grid: blueprint for a new computing infrastructure / Morgan Kaufmann Publishers Inc. - 1998.

[13] HTCondor. - Дата последнего обращения: 16.03.2021. https://research. cs.wisc.edu/htcondor/.

[14] CTA (CERN Tape Archive). - Дата последнего обращения: 16.03.2021. https://cta.web.cern.ch/cta/.

[15] The ALICE Collaboration et al. The ALICE experiment at the CERN LHC // Journal of Instrumentation. - 2008. - Vol. 3. - DOI: 10.1088/1748-0221/3/08/S08002. - URL: https://iopscience.iop.org/article/10.1088/ 1748-0221/3/08/S08002.

[16] Procura M. et al. Nucleon mass: from lattice QCD to the chiral limit // Phys. Rev. D. - 2006. - Vol. 73. - DOI: 10.1103/PhysRevD.73.114510. - URL: https://journals.aps.org/prd/abstract/10.1103/PhysRevD.73. 114510.

[17] Heinz U. Concepts of heavy-ion physics // 2002 European School of high-energy physics, Pylos, Greece, 25 Aug-7 Sep 2002: Proceedings. - 2004. -URL: https://inspirehep.net/literature/655507.

[18] Bagnasco S. et al. AliEn: ALICE environment on the GRID // Journal of Physics: Conference Series. - 2008. - Vol. 119. - DOI: 10.1088/1742-

6596/119/6/062012. - URL: https://iopscience.iop.org/article/10.1088/ 1742-6596/119/6/062012.

[19] XRootD. - Дата последнего обращения: 09.02.2021. https://xrootd.slac. stanford.edu/.

[20] CVMFS. - Дата последнего обращения: 07.02.2021. http://cernvm.cern. ch/portal/filesystem/.

[21] Bagnasco S. et al. The ALICE Workload Management System: Status before the real data taking // Journal of Physics: Conference Series. - 2010. - Vol. 219. - DOI: 10.1088/1742-6596/219/6/062004. - URL: https://iopscience.iop.org/article/10.1088/1742-6596/219/6/062004.

[22] Skiers J. The Worldwide LHC Computing Grid (worldwide LCG) // Computer Physics Communications. - 2007. - Vol. 177. - Issues 1-2. -P. 219-223. - DOI: - 10.1016/j.cpc.2007.02.021. - URL: https://doi.org/ 10.1016/j.cpc.2007.02.021.

[23] MonALISA monitoring. - Дата последнего обращения: 06.02.2021. http: //pcalimonitor.cern.ch/.

[24] Tke ATLAS Collaboration et al. The ATLAS Experiment at the CERN Large Hadron Collider // Journal of Instrumentation. - 2008. - Vol. 3. -DOI: 10.1088/1748-0221/3/08/S08003. - URL: https://iopscience.iop.org/ article/10.1088/1748-0221/3/08/S08003.

[25] Borodin M. et al., Scaling up ATLAS production system for the LHC Run 2 and beyond: project ProdSys2 // Journal of Physics: Conference Series. -2015. - Vol. 664. - DOI: 10.1088/1742-6596/664/6/062005. - URL: https: //iopscience.iop.org/article/10.1088/1742-6596/664/6/062005.

[26] Garonne V. et al. Rucio - The next generation of large scale distributed system for ATLAS Data Management // Journal of Physics: Conference Series. - 2014. - Vol. 513. - DOI: 10.1088/1742-6596/513/4/042021. - URL: https://iopscience.iop.org/article/10.1088/1742-6596/513/4/042021.

[27] Maeno T. PanDA: Distributed Production and Distributed Analysis System for ATLAS J // Journal of Physics Conference Series. - 2008.

- Vol. 119. - DOI: 10.1088/1742-6596/119/6/062036. -URL: https:// iopscience.iop.org/article/10.1088/1742-6596/119/6/062036.

[28] Anisenkov A., Di Girolamo A., Klimentov A., Oleynik D., Petrosyan A. AGIS: The ATLAS Grid Information System // Journal of Physics Conference Series. - 2014. - Vol. 513. - DOI: 10.1088/17426596/513/3/032001. - URL: https://iopscience.iop.org/article/10.1088/ 1742-6596/513/3/032001.

[29] Stewart G.A., Petrosyan A. et al. Advances in service and operations for ATLAS data management // Journal of Physics: Conference Series.

- 2012. - Vol. 368. - DOI: 10.1088/1742-6596/368/1/012005. - URL: https://iopscience.iop.org/article/10.1088/1742-6596/368/1/012005.

[30] Oleynik D., Petrosyan A., Garonne V., Campana S. ATLAS DQ2 deletion service // Journal of Physics: Conference Series. - 2012. - Vol. 396. - DOI:

- 10.1088/1742-6596/396/3/032083. - URL: https://iopscience.iop.org/article/10.1088/1742-6596/396/3/032083.

[31] Petrosyan A., Oleynik D. DDM DQ2 deletion service. Implementation of central deletion service for ATLAS experiment // Proceeding of The 5th International Conference "Distributed Computing and Grid-technologies in Science and Education" (GRID 2012). - 2012. - C. 189.

[32] Aderholz M. et al. Models of Networked Analysis at Regional Centres for LHC Experiments (MONARC) - Phase 2 Report // CERN-LCB-2000-001.

- 2000. - URL: https://cds.cern.ch/record/510694.

[33] Maeno T., Petrosyan A. et al. Evolution of the ATLAS PanDA workload management system for exascale computational science // Journal of Physics Conference Series. - 2014. - Vol. 513. - https://iopscience.iop.org/ article/10.1088/1742-6596/513/3/032062.

[34] Петросян А.Ш. Современное использование сетевой инфраструктуры в системе обработки задач коллаборации ATLAS // Компьютерные исследования и моделирование. - 2015. - №6. - С. 1343-1349. -DOI: 10.20537/2076-7633-2015-7-6-1343-1349. - URL: http://crm.ics.org. ru/journal/article/2406/.

[35] Klimentov A., Petrosyan A. et al. Next generation workload management system for big data on heterogeneous distributed computing // Journal of Physics Conference Series. — 2015. — Vol. 608. — https://iopscience.iop. org/article/10.1088/1742-6596/608/1/012040.

[36] De K, Petrosyan A. et al. The future of PanDA in ATLAS distributed computing // Journal of Physics: Conference Series. - 2015. - Vol. 664.

- DOI: 10.1088/1742-6596/664/6/062035. - URL: https://iopscience.iop. org/article/10.1088/1742-6596/664/6/062035.

[37] Kiryanov A. et al, FTS3 / WebFTS - A Powerful File Transfer Service for Scientific Communities // Procedia Computer Science. - 2015. - Vol. 66.

- P. 670-678. - DOI: 10.1016/j.procs.2015.11.076. - URL: https://www. sciencedirect.com/science/article/pii/S1877050915034250.

[38] Nilsson P. et al. Extending ATLAS Computing to Commercial Clouds and Supercomputers // PoS. - 2014. - Vol. ISGC2014. - DOI: 10.22323/1.210.0034. - URL: https://inspirehep.net/literature/1328697.

[39] Belov S., Kadochnikov I., Korenkov .V., Kutouski M, Oleynik D., Petrosyan A. VM-based infrastructure for simulating different cluster and storage solutions used on ATLAS Tier-3 sites // Journal of Physics: Conference Series. - 2012. - Vol. 396. - DOI: 10.1088/17426596/396/4/042036. - URL: https://iopscience.iop.org/article/10.1088/ 1742-6596/396/4/042036.

[40] Petrosyan A., Oleynik D., Belov S., Andreeva J., Kadochnikov I. ATLAS Off-GRID sites (TIER-3) monitoring // Proceeding of The 5th International Conference "Distributed Computing and Grid-technologies in Science and Education" (GRID 2012). - 2012. - P. 195.

[41] Andreeva J., Petrosyan A. et al. Monitoring of large-scale federated data storage: XRootD and beyond // Journal of Physics: Conference Series. -2014. - Vol. 513. - DOI: 10.1088/1742-6596/513/3/032004. - URL: https: //iopscience.iop.org/article/10.1088/1742-6596/513/3/032004.

[42] De K., Klimentov A., Oleynik D., Panitkin S., Petrosyan A., Schovancova J., Vaniachine A., Wenaus T. on behalf of the ATLAS Collaboration, Integration of PanDA workload management system with Titan supercomputer at OLCF // Journal of Physics Conference Series. - 2015. - Vol. 664. - DOI: 10.1088/1742-6596/664/9/092020. - URL: https://iopscience.iop.org/article/10.1088/1742-6596/664/9/092020.

[43] Barreiro Megino F.H., Petrosyan A. et al. on behalf of the ATLAS collaboration PanDA: Exascale Federation of Resources for the ATLAS Experiment at the LHC // EPJ Web of Conferences. -2016. - Vol. 108. - DOI: 10.1051/epjconf/201610801001. - URL: https://www.epj-conferences.org/articles/epjconf/abs/2016/03/epjconf_ mmcp2016_01001/epjconf_mmcp2016_01001.html.

[44] The CMS Collaboration The CMS experiment at the CERN LHC // Journal of Instrumentation. - 2008. Vol. 3. - DOI: 10.1088/1748-0221/3/08/S08004. - URL: https://iopscience.iop.org/article/10.1088/ 1748-0221/3/08/S08004.

[45] Sanchez-Hernandez A. et al. From Toolkit to Framework: The Past and Future Evolution of PhEDEx // Journal of Physics Conference Series. -2012. - Vol. 396. - DOI: 10.1088/1742-6596/396/3/032118. - URL: https: //iopscience.iop.org/article/10.1088/1742-6596/396/3/032118.

[46] The Glidein-based Workload Management System. - Дата последнего обращения: 17.02.2021. https://glideinwms.fnal.gov/doc.prd/index.html.

[47] Cinquilli M. et al. The CMS workload management system // Journal of Physics Conference Series. - 2012. - Vol. 396. - DOI: 10.1088/17426596/396/3/032113. - URL: https://iopscience.iop.org/article/10.1088/ 1742-6596/396/3/032113.

[48] Ryu S., Wakefield S. The WorkQueue project - a task queue for the CMS workload management system // Journal of Physics Conference Series. -2012. - Vol. 396. - DOI: 10.1088/1742-6596/396/3/032114. - URL: https: //iopscience.iop.org/article/10.1088/1742-6596/396/3/032114.

[49] Apache CouchDB. - Дата последнего обращения: 16.02.2021. https:// couchdb.apache.org/.

[50] The LHCb Collaboration The LHCb Detector at the LHC // Journal of Instrumentation. - 2008. - Vol. 3. - DOI: 10.1088/1748-0221/3/08/S08005. -URL: https://iopscience.iop.org/article/10.1088/1748-0221/3/08/ S08005.

[51] Arrabito L. et al Major Changes to the LHCb Grid Computing Model in Year 2 of LHC Data // Journal of Physics Conference Series. - 2012.

- Vol. 396. - DOI: 10.1088/1742-6596/396/3/032092. - URL: https:// iopscience.iop.org/article/10.1088/1742-6596/396/3/032092.

[52] DIRAC (Distributed Infrastructure with Remote Agent Control) interware. -Дата последнего обращения: 18.02.2021. http://diracgrid.org/.

[53] Casajus A. et al. DIRAC pilot framework and the DIRAC Workload Management System // Journal of Physics Conference Series. - 2010.

- Vol. 219. - DOI: 10.1088/1742-6596/219/6/062049. - URL: https:// iopscience.iop.org/article/10.1088/1742-6596/219/6/062049.

[54] Casajus A. et al. Status of the DIRAC Project // Journal of Physics Conference Series. - 2012. - Vol. 396. - DOI: 10.1088/17426596/396/3/032107. - URL: https://iopscience.iop.org/article/10.1088/ 1742-6596/396/3/032107.

[55] Baud J.P. The LHCb Data Management System // Journal of Physics Conference Series. - 2012. - Vol. 396. - DOI: 10.1088/17426596/396/3/032023. - URL: https://iopscience.iop.org/article/10.1088/ 1742-6596/396/3/032023.

[56] Turilli M, Santcroos M, Jha S. A Comprehensive Perspective on PilotJob Systems // ACM Computing Surveys. - 2018. - Vol. 51, - No. 2. -DOI: 10.1145/3177851. - URL: https://dl.acm.org/doi/10.1145/3177851.

[57] X.509. - Дата последнего обращения: 27.02.2021. https://www.itu.int/ rec/T-REC-X.509

[58] VOMS (Virtual Organization Membership Service). - Дата последнего обращения: 26.02.2021. https://italiangrid.github.io/voms/.

[59] Korenkov V., Petrosyan A. et al. JINR (Dubna) and Prague Tier2 sites: Common experience in the WLCG grid infrastructure // Physics of Particles and Nuclei Letters. - 2013. - Vol. 10. - С. 288-294. - DOI: 10.1134/S1547477113030023. - URL: https://link.springer.com/article/10. 1134/S1547477113030023.

[60] JINR Participation in the WLCG Project / Korenkov V., Petrosyan A. [et al.] // JINR LIT Scientific Report 2012-2013/ ed. by G. Adam [et al.]. - Dubna. - 2014. - Chap. Networking, Computing, Information and Grid Technologies. - URL: https://lit.jinr.ru/sites/default/files/LIT_Report_ 2014_r.pdf.

[61] Petrosyan A. PanDA for COMPASS at JINR // Physics of Particles and Nuclei Letters. - 2016. - №13. P. 708-710. - DOI: 10.1134/S1547477116050393.

[62] Petrosyan A., Zemlyanichkina E. PanDA for COMPASS: processing data via Grid // CEUR Workshop Proceedings. - 2017. - Vol. 1787. - P. 385388. - URL: http://ceur-ws.org/Vol-1787/385-388-paper-67.pdf.

[63] Petrosyan A. COMPASS Grid Production System // CEUR Workshop Proceedings. - 2018. - Vol. 2023. - P. 234-238. - URL: http://ceur-ws. org/Vol-2023/234-238-paper-37.pdf.

[64] Petrosyan A. COMPASS Production System Overview // EPJ Web of Conferences. - 2019. - Vol. 214. - DOI: 10.1051/epjconf/201921403039.

- URL: https://www.epj-conferences.org/articles/epjconf/abs/2019/19/ epjconf_chep2018_03039/epjconf_chep2018_03039.html.

[65] Django. - Дата последнего обращения: 11.03.2021. https://www. djangoproject.com/.

[66] TGEANT. - Дата последнего обращения: 16.03.2021. https:// wwwcompass.cern.ch/compass/software/offline/TGeant/TGeantOldPage/ na58-project-tgeant.web.cern.ch/index.html.

[67] Blue Waters. - Дата последнего обращения: 5.03.2021. https:// bluewaters.ncsa.illinois.edu/.

[68] University of Illinois Urbana-Champaign. - Дата последнего обращения: 5.03.2021. https://illinois.edu/.

[69] Cray. - Дата последнего обращения: 2.03.2021. https://www.cray.com/.

[70] Lustre. - Дата последнего обращения: 3.03.2021. https://www.lustre. org/.

[71] Globus Online. - Дата последнего обращения: 2.03.2021. https://www. globus.org/.

[72] Adaptive Computing. - Дата последнего обращения: 2.03.2021. http:// www.adaptivecomputing.com/.

[73] SAGA-Python (Simple API for Grid Applications). - Дата последнего обращения: 5.03.2021. https://github.com/saga-project.

[74] Petrosyan A. COMPASS Production System: Processing on HPC // CEUR Workshop Proceedings. - 2018. - Vol. 2267. - P. 139-144. - URL: http: //ceur-ws.org/Vol-2267/139-144-paper-25.pdf.

[75] Frontera. - Дата последнего обращения: 5.03.2021. https://www.tacc. utexas.edu/systems/frontera.

[76] Texas Advanced Computing Center. - Дата последнего обращения: 5.03.2021. https://www.tacc.utexas.edu/.

[77] Рейтинг Top 500 HPC на июнь 2019. - Дата последнего обращения: 5.03.2021. https://www.top500.org/lists/top500/2019/06/.

[78] Slurm workload manager. - Дата последнего посещения: 8.03.2021. https: //slurm.schedmd.com/.

[79] Harvester. - Дата последнего обращения: 5.03.2021. https://github.com/ HSF/harvester/wiki.

[80] Barreiro Megino F. H. et al. PanDA for ATLAS distributed computing in the next decade // Journal of Physics Conference Series. - 2017. - Vol. 898. - DOI: 10.1088/1742-6596/898/5/052002. - URL: https://iopscience.iop. org/article/10.1088/1742-6596/898/5/052002.

[81] Maeno T. Harvester: an edge service harvesting heterogeneous resources for ATLAS // EPJ Web of Conferences. - 2019. -Vol. 214. - DOI: 10.1051/epjconf/201921403030. - URL: https: //www.epj-conferences.org/articles/epjconf/abs/2019/19/epjconf_ chep2018_03030/epjconf_chep2018_03030.html.

[82] Petrosyan A., Malevanniy D. Distributed data processing of the COMPASS experiment // CEUR Workshop Proceedings. - 2019. -Vol. 2507. P. 94-98. - URL: http://ceur-ws.org/Vol-2507/94-98-paper-15. pdf.

Приложения

Приложение 1

Dr Vincent Andrieux COMPASS analysis coordinator Bldg 892, 1-B02 01631 CERN CEDEX Vincent. anririeux@cern.ch

To whom it may concerns

Object: PanDA production system deployment within COMPASS collaboration

Dear Sir, Madame,

In 2015, the COMPASS collaboration decided to move to a new production system. Mr Artem Petrosyan was given the task to implement COMPASS workflow into PanDA production system. The production system should :

- recall the data files stored on tape

- submit the jobs to the batch system with the appropriate software and option files

- parse the log files with error handling for automatic resubmission or intervention of the user

- transfer the outputs to temporary and permanent storage with sanity check of the copies

Since 2018, the PanDA production system is used as the official production system for COMPASS real-data processing at CERN. The production system is being deployed to alternative production centres, like Frontera cluster at TACC.

Since 2019, the tasks of PanDA were successfully extended to Monte-Carlo simulation productions (generation of Monte-Carlo data and reconstruction) at CERN. Several analyses used the 2016 data set processed by PanDA system and were shown at international conferences:

- Measurement of azimuthal modulations of hadrons in unpolarised SIDIS events

- Transverse momentum dependent multiplicities of hadrons produced in SIDIS

- Exclusive single photon muoproduction at COMPASS

- Pion and Kaon multiplicities in SIDIS from COMPASS

A first publication using data processed by PanDA system is expected in the coming months.

The implementation and deployment of the PanDA system by Mr Artem Petrosyan into COMPASS production scheme was successful at CERN and the system is currently used for all productions at CERN.

With my best regards,

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.