Методы и средства организации системы управления вычислительными заданиями в территориально распределенной сети суперкомпьютерных центров коллективного пользования тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Тихомиров Артем Игоревич
- Специальность ВАК РФ05.13.11
- Количество страниц 143
Оглавление диссертации кандидат наук Тихомиров Артем Игоревич
Введение
Глава 1. Иерархическая организация территориально распределенной сети суперкомпьютерных центров. Анализ, обзор, характеристики
1.1. Иерархическая организация вычислительных ресурсов распределенной сети суперкомпьютерных центров
1.2. Состав суперкомпьютерного центра коллективного пользования
1.2.1. Вычислительная установка
1.2.2. Суперкомпьютерный центр
1.3. Сеть суперкомпьютерных центров. Общие принципы построения
1.3.1. Промежуточное программное обеспечение
1.3.2. Стандарты организации распределенных сетей
1.4. Направления исследований в области организации распределенной сети суперкомпьютерных центров
1.5. Модель территориально распределенной сети суперкомпьютерных центров
1.5.1. Принципы построения распределенной сети
суперкомпьютерных центров
1.5.2. Характерные свойства модели распределенной сети суперкомпьютерных центров
1.6. Система управления заданиями распределенной сети
Выводы по первой главе
Глава 2. Архитектура системы управления заданиями сети суперкомпьютерных центров
2.1. Выбор архитектуры системы управления заданиями распределенной сети суперкомпьютерных центров
2.2. Методы и средства построения глобальной системы управления
2.3. Модели взаимодействия диспетчеров
2.4. Состав диспетчера глобальной системы управления заданиями
2.4.1. Диспетчер вычислительной установки
2.4.2. Диспетчер суперкомпьютерного центра
2.5. Система безопасности распределенной сети суперкомпьютерных центров
2.5.1. Модель системы безопасности распределенной сети
2.5.2. Аутентификация пользователей в распределенной сети суперкомпьютерных центров
2.5.3. Безопасность копирования исходных данных задания
2.5.4. Ролевая модель сети суперкомпьютерных центров
Выводы по второй главе
Глава 3. Информационная подсистема системы управления заданиями территориально распределенной сети суперкомпьютерных центров
3.1. Требования к единой информационной подсистеме системы управления заданиями территориально распределенной сети
3.2. Методы и средства организации информационной подсистемы системы управления распределенной сети суперкомпьютерных центров
3.3. Выбор модели хранения данных в качестве основы информационной подсистемы системы управления территориально распределенной сети
3.4. Макет территориально распределенной сети с распределенной информационной подсистемой
3.5. Организация информационной подсистемы системы управления заданиями распределенной сети
Выводы по третей главе
Глава 4. Алгоритм планирования заданий в сети суперкомпьютерных центров обработки данных с абсолютными приоритетами
4.1. Критерий эффективности планирования вычислительных заданий
в распределенной сети суперкомпьютерных центров
4.2. Алгоритм и метод планирования заданий в территориально распределенной сети суперкомпьютерных центров
4.2.1. Классические методы планирования заданий
4.2.2. Алгоритмы и методы планирования масштабируемых заданий
4.2.3. Алгоритмы и методы планирования заданий с абсолютными приоритетами
4.3. Аукционные методы планирования
4.3.1. Основные понятия и характеристики аукционных методов планирования
4.3.2. Модели аукционов, применяемых для планирования заданий в распределенных сетях
4.4. Метод планирования заданий в распределенной сети суперкомпьютерных центров, основанный на обратном аукционе
4.4.1. Обратная форма аукциона
4.4.2. Задача назначения ставки
4.4.3. Механизм ограничения заданий глобального потока, поступающего на ресурсы вычислительной установки
4.5. Алгоритм планирования вычислительных заданий в распределенной сети на основе аукционного метода
4.6. Экспериментальное исследование разработанного метода и алгоритма планирования заданий в распределенной сети суперкомпьютерных центров
4.6.1. Экспериментальное сравнение моделей аукциона: английского и закрытого первой цены
4.6.2. Экспериментальное исследование характеристик алгоритма на основе английского аукциона
Выводы по четвертой главе
Заключение
Список сокращений и условных обозначений
Список литературы
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Методология развития научного информационно-вычислительного комплекса в составе глобальной грид-инфраструктуры2012 год, доктор технических наук Кореньков, Владимир Васильевич
Методы обработки сверхбольших объемов данных в распределенной гетерогенной компьютерной среде для приложений в ядерной физике и физике высоких энергий2018 год, доктор наук Климентов Алексей Анатольевич
Управление потоками заданий в распределенных неоднородных вычислительных средах2007 год, кандидат физико-математических наук Соболев, Сергей Игоревич
Методы управления ресурсами в проблемно-ориентированных распределенных вычислительных средах2014 год, кандидат наук Шамакина, Анастасия Валерьевна
Метод контроля и управления доступом в распределенных вычислительных сетях2013 год, кандидат наук Коноплев, Артем Станиславович
Введение диссертации (часть автореферата) на тему «Методы и средства организации системы управления вычислительными заданиями в территориально распределенной сети суперкомпьютерных центров коллективного пользования»
Введение
Научные суперкомпьютерные центры коллективного пользования (СКЦ) являются неотъемлемой частью современной научной инфраструктуры. СКЦ обеспечивают потребности организаций образования, науки и промышленности в вычислительных мощностях, необходимых для проведения высокопроизводительных расчетов, суперкомпьютерного моделирования и интерпретации результатов. Ключевым методом повышения эффективности использования и доступности суперкомпьютерных ресурсов является объединение СКЦ, находящихся в разных регионах, в единую территориально распределенную сеть (ТРС). Подобное объединение отвечает Стратегии научно-технологического развития Российской Федерации, в которой предусматривается создание условий для проведения исследований и разработок путем развития сетевых форм организации научной, научно-технической и инновационной деятельности. Объединение ресурсов суперкомпьютерных центров отвечает содержанию Национального проекта «Наука», который предусматривает развитие научной и научно-производственной кооперации, формирование научно-образовательных центров, создание передовой инфраструктуры и развитие кадрового потенциала для проведения исследований и разработок в России.
В современном мире без применения суперкомпьютеров невозможно развитие новых цифровых технологий, которые определены в качестве сквозных в национальной программе «Цифровая экономика». В рамках программы «Цифровая экономика» создаются условия институционального и инфраструктурного характера. Подчеркивается, что поставленную цель программы невозможно достичь без эффективного партнерства государства, исследовательских институтов и высокотехнологичных компаний [1]. К примеру, для высокотехнологичных компаний рациональной альтернативой созданию собственного суперкомпьютерного центра является получение научно-технических услуг по высокопроизводительным вычислениям в режиме удаленного доступа у центров коллективного пользования, функционирующих при крупных университетах,
академических институтах и других организациях. Подобное оказание услуг на договорной основе получила распространение в мировой практике, например, крупные промышленные корпорации концерны Daimler [2], Airbus [3] арендуют ресурсы для проведения высокопроизводительных расчетов, суперкомпьютерного моделирования и инжиниринга.
Объединение СКЦ в единую территориально распределенную сеть дает возможность повысить эффективность использования ресурсов за счет возможности оперативного перераспределения вычислительной нагрузки. В случае недоступности, неисправности или перегруженности ресурсов какого-либо СКЦ пользовательские задания будут перенаправлены на ресурсы других СКЦ, что сократит время ожидания в очереди и повысит качество обслуживания пользователей как потребителей услуг СКЦ. Кроме того, организация сети СКЦ позволяет:
- повысить скорость выполнения высокоприоритетных расчетов, так как вероятность найти в сети СКЦ свободные вычислительные ресурсы, или ресурсы, занятые выполнением менее приоритетными расчетами, выполнение которых может быть прервано, выше, чем в отдельном СКЦ;
- повысить качество доступа к суперкомпьютерным ресурсам за счет реализации единой системы доступа, предоставляющей пользователю возможность использовать единую учетную запись для доступа ко всем суперкомпьютерным ресурсам сети;
- упростить процедуру предоставления пользователю суперкомпьютерных ресурсов различных архитектур;
- упростить управление и централизованный мониторинг использования суперкомпьютерных ресурсов.
Задача объединения территориально распределенных
высокопроизводительных ресурсов в единую сеть известна с 90 -х годов прошлого столетия, когда интенсивно велись научные и практические разработки грид-систем. Фундамент построения подобных систем был заложен в работах таких
ведущих зарубежных ученых, как M. Flynn, I. Foster, A. Gara, C. Kesselman, R. Buyya и других. Значительный вклад в развитие теории и практики построения распределенных высокопроизводительных вычислительных сред внесли выдающиеся отечественные ученые В.А. Мельников, Н.Н. Говорун, В.П. Иванников, А.В. Забродин, В.Б. Бетелин, В.К. Левин, Г.И. Савин, Вл.В. Воеводин, Б.М. Шабанов, А.Н. Томилин, В.Г. Хорошевский, Ю.И. Шокин, В.В. Корнеев, В.В. Топорков и др.
Начиная с 2004 года, активные работы в области исследования и построения единой распределенной сети научных суперкомпьютерных центров ведутся в том числе и в Межведомственном суперкомпьютерном центре РАН (МСЦ РАН). Проводимые исследования направлены в первую очередь на обеспечение потребности организаций образования, науки и промышленности в вычислительных мощностях для проведения высокопроизводительных расчетов, суперкомпьютерного моделирования. Результаты исследований отражены в ряде научных публикаций [4-7]. В 2008 году под руководством академика Г.И. Савина на вычислительных ресурсах филиалов МСЦ РАН был развернут действующий сегмент Распределенной инфраструктуры суперкомпьютерных приложений (РИСП) [1, 8]. Проект РИСП был завершен в 2013 году. В настоящий момент в МСЦ РАН осуществляется проект по созданию глобальной системы управления распределенной сети суперкомпьютерных центров коллективного пользования [911].
За прошедшие два десятилетия в мире и в России исследованы различные алгоритмы планирования заданий, разные аппаратные и программные инструменты организации управления в распределенной сети, большинство из которых вошло в набор инструментов организации распределенных сетей -промежуточного программного обеспечения. Несмотря на достигнутые результаты, существующие решения, в большинстве случаев, обладают следующими недостатками.
1. Значительную часть существующих решений занимает подсистема обеспечения безопасности. При этом для авторизации пользователей и ресурсов
сети используется надежный, но, как показал опыт практической эксплуатации, громоздкий и неудобный в использовании протокол X.509 [12].
2. Проблема переносимости параллельных программ между СКЦ. Различия, даже незначительные, в стеке инструментального и системного программного обеспечения двух суперкомпьютерных центров приводит к невозможности переноса исполняемых программных модулей между СКЦ и, как следствие - к существенному усложнению системы управления заданиями в распределенной сети.
3. Развитие промежуточного программного обеспечения нестабильно. Рассмотрим на примере набора инструментов Globus Toolkit, фактически ставшего стандартом в области построения грид-систем. За свою историю Globus Toolkit несколько раз менял идеологию построения, в результате чего разработчикам распределенных сетей приходилось либо непрерывно модифицировать систему управления заданиями, либо использовать устаревшие версии Globus Toolkit. Подобные изменения особенно критично отражались на информационной подсистеме - MDS (Monitoring and Discovery System), поддержка и развитие которой прекратилась на версии Globus Toolkit 4.0.
Указанные недостатки явились серьезным препятствием на пути широкого распространения разработанных решений. Заметим, что в настоящее время большая часть перечисленных недостатков может быть преодолена за счет применения современных технологий в области построения распределенных сетей. К примеру, сегодняшний уровень развития сетевых технологий: VLAN, а также VPN, позволяет организовать безопасную сеть суперкомпьютерных центров, без использования протокола безопасности X.509. Средства контейнерной виртуализации решают проблему бинарной переносимости параллельных программ между суперкомпьютерными установками [13]. Федеративная авторизация пользователей предоставляет безбарьерный и безопасный доступ к вычислительным и информационным ресурсам распределенной сети.
Помимо постоянно совершенствующихся технологий организации распределенных систем изменяются и требования к системе управления заданиями.
Если раньше в большинстве случаев суперкомпьютерные расчеты применялись в сфере научных исследований, то сейчас все чаще наблюдается процесс внедрения технологий суперкомпьютерного имитационного моделирования в исследовательскую, инновационную и практическую деятельность промышленных предприятий. Как уже отмечалось, представители промышленности пользуются услугами высокопроизводительных вычислений, предоставляемыми на договорной основе ведущими суперкомпьютерными центрами коллективного пользования. Отличительной особенностью вычислительных заданий промышленности являются сжатые сроки решения, что обуславливает их высокий приоритет в системах коллективного пользования суперкомпьютерных центров.
К современной распределенной сети суперкомпьютерных центров можно предъявить следующие требования, определяющие ее основные свойства:
- динамический состав вычислительных ресурсов - в любой момент времени ресурсы СКЦ могут как добавляться, так и исключаться из состава ТРС, несмотря динамические изменения состава распределенная сеть продолжает корректно функционировать;
- вычислительная и коммуникационная гетерогенность - в распределенную сеть объединяются вычислительные установки различной производительности и разной аппаратной архитектуры, а используемые для объединения коммуникационные каналы связи могут отличаться пропускной способностью, при управлении заданиями в сети учитывается коммуникационная и вычислительная гетерогенность.
- автономность - после включения вычислительных ресурсов в состав ТРС они не отчуждаются от их владельца и продолжают использоваться для выполнения локальных вычислительных заданий;
- независимое администрирование ресурсов - ресурсы вычислительных установок принадлежат разным суперкомпьютерным центрам, каждый суперкомпьютерный центр определяет правила предоставления ресурсов;
- наличие нескольких уровней приоритетов вычислительных заданий - для обеспечения своевременного выполнения заданий промышленности целесообразно применение схемы планирования вычислительных заданий с абсолютными приоритетами, при которой высокоприоритетное задание может вытеснять с выполнения низкоприоритетное.
Все перечисленные свойства современной сети в первую очередь должна учитывать система управления заданиями распределенной сети. Построение системы управления распределенной сети, обладающей названными свойствами, является актуальной научной задачей.
Объектом исследования является территориально распределенная сеть суперкомпьютерных центров коллективного пользования.
Предметом исследования выступают методы и средства организации управления вычислительными заданиями в сети суперкомпьютерных центров коллективного пользования.
Цель работы и задачи исследования. Цель диссертационной работы заключается в исследовании и разработке системы управления заданиями в территориально распределенной сети суперкомпьютерных центров коллективного пользования, обладающей свойствами динамичности, автономности, гетерогенности и поддерживающей схему планирования вычислительных заданий с абсолютными приоритетами.
В соответствии с целью определены следующие задачи исследования.
1. Исследовать существующие методы планирования вычислительных заданий в территориально распределенной сети, архитектурные особенности современных распределенных сетей суперкомпьютерных центров коллективного пользования.
2. Разработать архитектуру системы управления заданиями распределенной сети суперкомпьютерных центров коллективного пользования.
3. Обосновать выбор модели организации информационной подсистемы системы управления заданиями распределенной сети суперкомпьютерных центров коллективного пользования для хранения глобальной очереди заданий.
4. Исследовать и разработать методы и алгоритмы планирования вычислительных заданий, учитывающие сформулированные выше свойства модели сети суперкомпьютерных центров коллективного пользования.
5. Исследовать характеристики разработанного алгоритма планирования заданий в сети суперкомпьютерных центров коллективного пользования.
Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения и списка литературных источников. Каждая глава соответствует отдельному направлению исследования и содержит аналитический обзор современного состояния исследований и разработок по данному направлению, постановку задачи, а также предлагаемое научное решение. Общий объем диссертации 143 страницы, в том числе 19 рисунков и 1 таблица. Список литературы состоит из 158 источников.
Во введении обоснована актуальность темы, сформулированы цель и задачи исследования, представлены основные положения диссертационной работы, выносимые на защиту.
В первой главе рассмотрены вопросы создания территориально распределенной сети суперкомпьютерных центров. Исследована иерархическая организация ресурсов распределенной сети, сформулированы понятия предметной области, определены основные направления исследований в области организации распределенной сети, по каждому из направлений проведен анализ достигнутых результатов. Предложена модель современной распределенной сети суперкомпьютерных центров, сформулированы базовые и специальные свойства. Отличительными свойствами рассматриваемой модели сети являются универсальность, срочность и федеративность. Исследованы актуальные системы управления заданиями, обоснована необходимость разработки системы
управления заданиями, удовлетворяющей свойствам рассматриваемой модели распределенной сети.
Вторая глава посвящена выбору архитектуры системы управления заданиями распределенной сети СКЦ. Проведен аналитический обзор основных архитектур, используемых для организации системы управления заданий в распределенных сетях. Предложена децентрализованная архитектура системы управления заданиями распределённой сети, основанная на асинхронном взаимодействии равноправных диспетчеров через единую информационную систему. Предложена схема однократной авторизации пользователей на время ввода федеративной схемы авторизации, подход к безопасному копированию исходных данных заданий между вычислительными установками, а также ролевая модель.
Третья глава посвящена организации информационной подсистемы системы управления заданиями территориально распределенной сети. На основе сценария работы диспетчеров вычислительных установок с информационной подсистемой сформулированы требования к информационной подсистеме системы управления заданиями сети суперкомпьютерных центров. Исследованы существующие способы организации информационной подсистемы. Предложена информационная подсистема основанная на распределенной СУБД с документо -ориентированной моделью хранения и представления данных, что позволило совместить достоинства централизованного и децентрализованного подходов при организации глобальной очереди заданий. Подготовлен макет распределенной сети, реализующий предложенную автором информационную подсистему. Эмпирическим путем подтверждена надежность и производительность разработанной информационной подсистемы системы управления заданиями распределенной сети суперкомпьютерных центров
Четвертая глава посвящена разработке метода и алгоритма планирования вычислительных заданий в распределенной сети суперкомпьютерных центров коллективного пользования. Определен показатель эффективности планирования. Проведен аналитический обзор актуальных алгоритмов и методов планирования
заданий в распределенной сети. Предложен метод планирования задания на основе формы обратного аукциона. Разработан алгоритм планирования заданий, реализующий предложенный метод. Представлены результаты экспериментального сравнения двух моделей аукциона: закрытого аукциона первой цены и английского аукциона, а также результаты экспериментального исследования эффективных параметров разработанного алгоритма планирования заданий.
В заключении приведены основные итоги и научно-практические результаты диссертационной работы.
Методология исследования. Для достижения поставленной цели и решения сформулированных в диссертационной работе задач использовались методы теории вычислительных систем, исследования операций и теории алгоритмов. Экспериментальные исследования осуществлялись с помощью моделирования распределенной сети СКЦ на экспериментальном стенде.
Научная новизна работы
1. Разработана модель территориально распределенной сети СКЦ, которая, в отличие существующих, обладает свойством универсальности и предусматривает обработку масштабируемых заданий с абсолютными приоритетами.
2. В практике построения территориально распределенных сетей СКЦ использована документо-ориентированная модель хранения информации для организации единой информационной подсистемы системы управления заданиями распределенной сети.
3. Адаптирован метод обратного аукциона для планирования вычислительных заданий с абсолютными приоритетами в территориально распределенной сети СКЦ.
4. Разработан и реализован алгоритм планирования вычислительных заданий, который отличается от известных тем, что позволяет реализовать модель английского аукциона и закрытого аукциона первой цены и адаптирован для
планирования заданий с абсолютными приоритетами в территориально распределенной сети СКЦ.
5. Экспериментально определены эффективные характеристики английского аукциона: продолжительность и число участников.
Теоретическая значимость. Теоретическая значимость заключается в разработке метода и алгоритма планирования вычислительных заданий с абсолютными приоритетами в распределенной сети суперкомпьютерных центров, архитектуры системы управления заданиями распределенной сети суперкомпьютерных центров, а также в выборе и обоснование документо-ориентированной модели хранения и представления данных в качестве основы единой информационной подсистемы системы управления заданиями в сети суперкомпьютерных центров.
Практическая значимость. Предложенные архитектура, модель информационной подсистемы системы управления заданий, алгоритм планирования реализованы в виде действующего макета системы управления заданиями распределенной сети суперкомпьютерных центров. Макет функционирует на сегментах Торнадо, НаБ,№е11, Вгоаё,№е11 суперкомпьютера МВС-10П, установленного в МСЦ РАН. Подготовлена программная документация, включающая: руководство программиста (28 стр.), руководство системного программиста (56 стр.), подробное описание системы управления заданиями распределенной сети.
Положения, выносимые на защиту.
1. Архитектура системы управления заданиями позволяет организовать децентрализованную схему взаимодействия равноправных диспетчеров в территориально распределенной сети СКЦ.
2. Модель информационной подсистемы системы управления заданиями, основанной на распределенной документо-ориентированной базе данных,
позволяет совместить достоинства централизованного и децентрализованного подходов при организации глобальной очереди заданий.
3. Метод планирования заданий в распределенной сети суперкомпьютерных центров, основанный на обратном аукционе, позволяет учесть абсолютные приоритеты заданий, коммуникационную и вычислительную гетерогенность распределенной сети суперкомпьютерных центров.
4. Алгоритм английского аукциона позволяет наиболее эффективно планировать вычислительные задания с абсолютными приоритетами в распределенной сети суперкомпьютерных центров.
Реализация и внедрение результатов работы. Основные результаты диссертации внедрены в практическую деятельность МСЦ РАН, что подтверждается актом об использовании результатов настоящей диссертационной работы от 16.09.2019 №2.
Достоверность полученных результатов подтверждается проведенными экспериментами и моделированием, согласованностью с данными, имеющимися в отечественной и зарубежной литературе.
Апробация работы. Основные результаты работы докладывались и обсуждались на международных, всероссийских и региональных научных конференциях, в том числе:
1. Международная конференция 1Т + $&ЕЛ17, Гурзуф, Россия, 01 - 11 октября 2017.
2. XVII Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям YM2016, Новосибирск, Россия, 30 октября - 3 ноября 2016.
3. XVIII Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям YM2017, Иркутск, Россия, 21 -25 августа 2017.
4. 14th International Conference on Parallel Computing Technologies PaCT2017, Нижний Новгород, Россия, 4 - 8 сентября 2017.
5. Суперкомпьютерные дни в России (RussianSCDays2017) Москва, Россия, 25 - 26 сентября 2017.
6. 2018 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus2018), Москва, Россия, 29 января - 1 февраля 2018.
7. Национальный Суперкомпьютерный Форум (НСКФ-2016), ИПС имени А.К. Айламазяна РАН, Переславль-Залесский, Россия, 29 ноября - 02 декабря 2016.
8. Национальный Суперкомпьютерный Форум (НСКФ-2017), ИПС имени А.К. Айламазяна РАН, Переславль-Залесский, Россия, 28 ноября - 01 декабря 2017.
9. Научный семинар в Межведомственном суперкомпьютерном центре Российской академии наук, Москва, Россия, 7 ноября 2018.
10. Научный семинар в Центральном институте авиационного моторостроения им. П.И. Баранова, Москва, Россия, 12 декабря 2018.
11. Научный семинар в Федеральном исследовательском центре «Информатика и управление» Российской Академии Наук (ФИЦ ИУ РАН), 1 апреля 2019
12. Научный семинар в Институте прикладной математики им. М.В. Келдыша Российской академии наук, Москва, Россия, 1 октября 2019.
Публикации. По теме диссертации автором опубликовано 9 печатных работ [9, 11, 14-20], из них 4 работы опубликованы в изданиях, входящих в Перечень рецензируемых научных изданий, рекомендованных ВАК [9, 11, 18, 19]. Результаты исследований отражены в отчетах по НИР, проводившихся в рамках государственного задания в МСЦ РАН по темам:
1. 0065-2018-0404 «Исследование и разработка методов сетевой интеграции ресурсов и сервисов научных организаций».
2. 0065-2018-0409 «Разработка архитектур, системных решений и методов для создания вычислительных комплексов и распределенных сред
мультипетафлопсного диапазона производительности, в том числе нетрадиционных архитектур микропроцессоров».
3. 0065-2019-0016 «Разработка архитектур, системных решений и методов для создания и использования высокопроизводительных вычислительных комплексов, в том числе гетерогенных суперкомпьютеров и нетрадиционных архитектур микропроцессоров».
4. 0065-2019-0014 «Исследование и разработка методов и средств организации высокопроизводительных вычислений, создания, обработки, хранения и распределения больших данных и цифрового контента в распределенных информационных и вычислительных средах».
Глава 1. Иерархическая организация территориально распределенной сети суперкомпьютерных центров. Анализ, обзор, характеристики
В главе рассмотрены вопросы создания территориально распределенной сети суперкомпьютерных центров. Исследована иерархическая организация ресурсов распределенной сети (пункты 1.1- 1.3), сформулированы основные направления исследований в области организации распределенной сети (пункт 1.4), приведены достигнутые результаты по каждому из направлений.
В пункте 1.5 автором предложена модель современной распределенной сети суперкомпьютерных центров, сформулированы базовые и специальные свойства модели. В результате исследования существующих систем управления заданиями обозначена необходимость разработки системы управления заданиями, удовлетворяющей свойствам рассматриваемой модели распределенной сети (пункт 1.6).
1.1. Иерархическая организация вычислительных ресурсов распределенной сети
суперкомпьютерных центров
В территориально распределенной сети СКЦ вычислительные ресурсы организованы в соответствии с иерархическим принципом, представленном на рисунке 1: самый нижний уровень формируется из вычислительных установок (ВУ) - отдельных суперкомпьютеров. Отличительной чертой этого уровня является наличие собственной системы управления в каждой ВУ, в дальнейшем будем назвать такую систему локальной системой управления заданий. Следующий, второй, уровень - это уровень суперкомпьютерных центров. Для этого уровня важно, что каждый суперкомпьютерный центр коллективного пользования принадлежит одной организации научной или промышленной области. Верхним уровнем иерархической организации ресурсов сети СКЦ -уровень распределенной сети, объединяющий разные территориально удаленные СКЦ, принадлежащие различным организациям.
Уровень ТРС
Уровень СКЦ CKUil СКЦ2
Рисунок 1. Трехуровневая иерархическая организация териториально распределенных ресурсов сети СКЦ
Каждый уровень предполагает использование соответствующего стека технологий и методов организации. К примеру, на нижнем уровне иерархии в качестве коммуникационной среды используется Intel Omni-Path или Infiniband имеющие пропускную способность до 100 Гбит/c и низкую задержку. Применение этих коммуникационных сред на более высоких уровнях распределенной среды затруднительно из-за высокой стоимости и технических ограничений. К классическому стеку технологий уровня вычислительной установки также относятся системы резервного копирования и архивирования данных (Quantum Scalar i500), системы хранения данных (параллельная распределенная файловая система Lustre [21], иерархическая файловая система StorNext), системы управления заданиями (СУППЗ, Slurm [22]).
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Метод попарной обработки элементов информационных массивов для многозадачных вычислений в гибридном облаке2022 год, кандидат наук Бобылева Ирина Владимировна
Методы и способы построения, выбора и применения высокопроизводительных вычислительных систем для выполнения научных и технических задач2019 год, доктор наук Шабанов Борис Михайлович
Средства управления ресурсами вычислительных систем в режиме обслуживания потока задач с нефиксированными параметрами2018 год, кандидат наук Перышкова Евгения Николаевна
Система пакетной обработки заданий в гетерогенной вычислительной сети2004 год, кандидат технических наук Хачкинаев, Геннадий Месропович
Виртуализация многокомпонентной системной архитектуры предметно-ориентированной облачной вычислительной среды2014 год, кандидат наук Федосин, Михаил Евгеньевич
Список литературы диссертационного исследования кандидат наук Тихомиров Артем Игоревич, 2020 год
Список литературы
1. Заседание президиума Совета при Президенте Российской Федерации по стратегическому развитию и национальным проектам от 17.09.2018 г. URL: http://government.ru/news/34001 (дата обращения: 21.10.2018).
2. Mercedes-Benz Cars: High Performance Computing for a highly efficient development. URL: http://www.hpctoday.com/verbatim/mercedes-benz-cars-high-performance-computing-for-a-highly-efficient-development/ (дата обращения: 20.06.2019).
3. High Performance Computing for Airbus. URL: https://hps.vi4io.org/_media/events/2015/2015-iodc-airbus-buettner.pdf (дата обращения: 21.06.2019).
4. Корнеев В.В., Киселев А.В., Семенов Д.В., Сахаров И.Е. Управление метакомпьютерными системами // Открытые системы. 2005, №2, c. 11-16.
5. Шабанов Б.М., Корнеев В.В., Савин Г.И., Аладышев О.С., Овсянников А.П., Телегин П.Н., Семенов Д.В., Кузнецов А.В., Вдовикин О.И., Киселев А.В., Козырев И.А. Инфраструктура ГРИД для суперкомпьютерных приложений // Известия высших учебных заведений. Электроника. 2011, №1 (87), c. 51-56.
6. Шабанов Б.М., Телегин П.Н., Корнеев В.В., Семенов Д.В. Отказоустойчивое децентрализованное управление ресурсами Грид // Известия вузов. Электроника. 2015, т. 20, № 1, с. 83-90.
7. Шабанов Б.М., Овсянников А.П., Баранов А.В., Лещев С.А., Долгов Б.В., Дербышев Д.Ю. Проект распределенной сети суперкомпьютерных центров коллективного пользования // Программные системы: теория и приложения, 2017, т. 8, № 4, с. 245-262. DOI: https://doi.org/10.25209/2079-3316-2017-8-4-245-262.
8. Савин Г.И., Семенов Д.В., Овсянников А.П., Шабанов Б.М., Киселев А.В., Аладышев О.С., Кузнецов А.В., Вдовикин О.И., Корнеев В.В., Телегин П.Н. Создание распределенной инфраструктуры для суперкомпьютерных приложений // Программные продукты и системы. 2008, № 2, c. 2-7.
9. Тихомиров А.И., Баранов А.В. Методы и средства организации глобальной очереди заданий в территориально распределенной вычислительной системе // Вестник Южно-Уральского государственного университета. Серия: Вычислительная математика и информатика. 2017, т. 6, № 4, с. 28-42. DOI: 10.14529/cmse170403.
10. Баранов А.В., Старичков В.В., Ионин Р.П., Киселев А.В., Ляховец Д.С. Сравнение систем пакетной обработки с точки зрения организации промышленного счета. Научный сервис в сети Интернет: поиск новых решений // Труды Международной суперкомпьютерной конференции (Новороссийск, 17-22 сентября 2012 г.). М.: Изд-во МГУ, 2012, c. 5.
11. Тихомиров А.И., Баранов А.В. Планирование заданий в территориально распределенной системе с абсолютными приоритетами // Вычислительные технологии. 2017, т. 22, № S1, c. 4-12.
12. Internet X.509 Public Key Infrastructure Certificate and CRL Profile. 1999. URL: https://tools.ietf.org/html/rfc2459 (дата обращения: 07.03.2019).
13. Nikolayev D.S., Baranov A.V. The use of container virtualization in the organization of high-performance computing // Program Systems: Theory and Applications. 2016, vol. 7, issue 1, pp. 117-134.
14. Тихомиров А.И., Шабанов Б.М., Овсянников А.П., Баранов А.В., Телегин П.Н., Ляховец Д.С. Система управления заданиями распределенной сети суперкомпьютерных центров коллективного пользования // Труды научно-исследовательского института системных исследований Российской академии наук. 2018. т. 8. № 6, c. 65-73. DOI: 10.25682/NIISI.2018.6.0009.
15. Tikhomirov A., Baranov A., Telegin P. Comparison of Auction Methods for Job Scheduling with Absolute Priorities // Malyshkin V. (eds) Parallel Computing Technologies. PaCT 2017. Lecture Notes in Computer Science, vol 10421. Springer, Cham. DOI: 10.1007/978-3-319-62932-2_37 .
16. Artem I. Tikhomirov, Boris M. Shabanov., Pavel Telegin., Oleg S. Aladyshev., Anton V. Baranov. Comparison of priority-based and first price sealed-bid auction algorithms of job scheduling in a geographically-distributed computing system // 2018
IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus). 2018, pp. 1557-1562. DOI: 10.1109/EIConRus.2018.8317396.
17. Тихомиров А.И., Баранов А.В. Применение закрытого аукциона первой цены в территориально распределенной системе с абсолютными приоритетами // ИТНОУ: Информационные технологии в науке, образовании и управлении. 2017, №3, с. 62-71.
18. Тихомиров А.И., Баранов А.В., Телегин П.Н., Молоканов В.В. Применение метода английского аукциона при планировании заданий с абсолютными приоритетами в распределенной вычислительной системе // Программные продукты и системы. 2018, № 3, c. 461-468. D0I:10.15827/0236-235X.123.461-468.
19. Tikhomirov A.I. The English Auction Method for Scheduling Jobs in a Distributed Network of Supercomputer Centers // Lobachevskii Journal of Mathematics. 2019, vol. 40, issue 5, pp. 478-485. DOI: 10.1134/S1995080219050214.
20. Tikhomirov A.I., Baranov A.V. Methods and Tools for Organizing the Global Job Queue in the Geographically Distributed Computing System // Bulletin of the South Ural State University. Series: Computational Mathematics and Software Engineering. 2017. vol. 6, no. 4. pp. 28-42. DOI: 10.14529/cmse170403.
21. Luste File System: High-Performance Storage Architecture and Scalable Cluster FileSystem. 2007. URL: http://www.cse.buffalo.edu/faculty/tkosar/cse710/papers/lustre-whitepaper.pdf (дата обращения: 14.05.2018).
22. Ляховец Д.С., Баранов А.В. Сравнение качества планирования заданий в системах пакетной обработки SLURM и СУППЗ // Труды Международной суперкомпьютерной конференции Научный сервис в сети Интернет: все грани параллелизма, (Новороссийск, 23-28 сентября 2013 г.). М.: Изд-во МГУ, 2012, c. 410-414.
23. Ganglia Monitoring System URL: http://ganglia.sourceforge.net (дата обращения: 12.08.2018).
24. Zabbix Monitoring. URL: http://www.zabbix.com/ru (дата обращения: 12.08.2018).
25. Nagios Monitoring. URL: https://www.nagios.org/ (дата обращения: 12.08.2018).
26. LDAP for Rocket Scientists. URL: http://www.zytrax.com/books/ldap (дата обращения: 22.08.2018).
27. Open-source Ticket Request System. URL: http://www.otrs.org/ (дата обращения: 12.08.2018).
28. Nimrod/G: an architecture for a resource management and scheduling system in a global computational grid. URL: https://ieeexplore.ieee.org/document/846563 (дата обращения: 21.09.2018).
29. Wolski R., Casanova H., Berman F. Adaptive computing on the grid using AppLeS // IEEE Trans. on Parallel and Distributed Systems. 2003, vol. 14, no. 4, pp. 369-382.
30. Livny M., Tannenbaum T., Frey J., Condor-G: A computation management agent for multi-institutional grids // Cluster Computing. 2001, vol. 5. pp. 237-246.
31. Вычислительные ресурсы МСЦ. URL: http://www.jscc.ru/resources/hpc/ (дата обращения: 12.03.2019).
32. Yoo A.B., Jette M.A., Grondona M. SLURM: Simple Linux Utility for Resource Management // Feitelson D., Rudolph L., Schwiegelshohn U. (eds) Job Scheduling Strategies for Parallel Processing. JSSPP 2003. Lecture Notes in Computer Science, vol. 282862. Springer, Berlin, Heidelberg. pp. 44-60. DOI: 10.1007/10968987_3.
33. Henderson R.L. Job scheduling under the Portable Batch System // Job Scheduling Strategies for Parallel Processing (JSSPP). Lecture Notes in Computer Science. 1995, vol. 949. Springer, Berlin, Heidelberg. pp. 279-294. DOI: 10.1007/3-540-60153-8_34.
34. Moab HPC Suite Enterprise Edition. URL: http://www.adaptivecomputing.com/products/hpc-products/moab-hpc-suite-enterprise-edition (дата обращения 12.07.2018).
35. Система управления прохождением параллельных заданий (СУППЗ). Руководство программиста (пользователя). URL: http://www.jscc.ru/wp-content/uploads/2017/06/SUPPZ-user-guide-2016.pdf (дата обращения 23.08.2018).
36. Эксафлопные технологии. Концепция по развитию технологии высокопроизводительных вычислений на базе суперэвм эксафлопного класса 20122020. 2012. URL: https://www.rosatom.ru/upload/iblock/c4e/c4e2a133ad639c499cafc5f6f618d851.pdf. (дата обращения: 12.04.2019).
37. Сухорослов О.В. Организация вычислений в гетерогенных распределенных средах // Известия ЮФУ. Технические науки. 2016, №12(185), с. 115-130. DOI 10.18522/2311-3103-2016-12-115130.
38. The Extreme Science and Engineering Discovery Environment (XSEDE). URL: https://www.xsede.org/ (дата обращения: 22.05.2019).
39. PRACE Research Infrastructure. URL: http://www.prace-ri.eu/ (дата обращения: 07.05.2019).
40. Foster Ian. What is the Grid? // A Three Point Checklist. GRID today. 2002, № 1, pp. 32-36.
41. Коваленко В.Н., Корягин Д.А. Грид: истоки, принципы и перспективы развития // Информационные технологии и вычислительные системы. 2008, № 4, c. 38-50.
42. Хорошевский В.Г., Курносов М.Г., Мамойленко С.Н., Поляков А.Ю. Архитектура и программное обеспечение пространственно-распределенных вычислительных систем // Вестник СибГУТИ. 2010, № 2 (10), c. 112-122.
43. Коваленко В.Н., Коваленко Е.И., Корягин Д.А., Любимский Э.З., Орлов А.В., Хухлаев Е.В. Структура и проблемы развития программного обеспечения среды распределенных вычислений Грид // Препринты ИПМ им. М.В. Келдыша. 2002. № 22. с. 1-23.
44. Foster Ian Globus toolkit version 4: software for service-oriented systems // NPC'05 Proceedings of the 2005 IFIP international conference on Network and Parallel Computing pp. 2-13.
45. Российская инфраструктура для суперкомпьютерных приложений (РИСП). URL: http://old.jscc.ru/rispinfo.html (дата обращения: 15.06.2019).
46. EGEE - Enabling Grids for E-sciencE. URL: http://euegee.org/ (дата обращения: 11.11.2018).
47. gLite - Lightweight Middleware for Grid Computing. URL: http://cern.ch/glite (дата обращения: 02.10.2018).
48. Globus Toolkit Support. URL: https://github.com/globus/globus-toolkit/blob/globus_6_branch/support-changes.md (дата обращения: 05.10.2018).
49. Шабанов Б.М., Овсянников А.П., Баранов А.В., Лещев С.А., Долгов Б.В., Дербышев Д.Ю. Проект распределенной сети суперкомпьютерных центров коллективного пользования // Программные системы: теория и приложения. 2017, № 4(35), c. 245-262. DOI: 10.25209/207.
50. Овсянников А.П., Савин Г.И., Шабанов Б.М. Удостоверяющие федерации научнообразовательных сетей // Программные продукты и системы. 2012, №4(100), c. 3-7.
51. Федеративная авторизация и аутентификация. URL: https://www.runnet.ru/services/runnetaai (дата обращения: 15.06.2019).
52. Коваленко В.Н., Корягин Д.А. Грид: истоки, принципы и перспективы развития // Информационные технологии и вычислительные системы. 2008, №4, с. 38-50.
53. Jean Dollimore, Tim Kindberg, George Coulouris Distributed Systems: Concepts and Design (4th Edition) // Addison Wesley, 2005, p. 944.
54. Feitelson D.G., Rudolph L., Schwiegelshohn U., Sevcik K.C. Theory and practice in parallel job scheduling // Lecture Notes in Computer Science 1997, no. 1291, pp. 1-34.
55. Баранов А.В., Киселев А.В., Старичков В.В., Ионин Р.П., Ляховец Д.С. Сравнение систем пакетной обработки с точки зрения организации промышленного счета // Научный сервис в сети Интернет: поиск новых решений: Труды Международной суперкомпьютерной конференции (17-22 сентября 2012 г., г. Новороссийск). М.: Изд-во МГУ, 2012. С. 506.
56. Tetiana Filimonchuk, Maksym Volk, Ihor Ruban, V. Tkachov Development of information technology of tasks distribution for GRID-systems using the GRASS simulation environment // INFORMATION AND CONTROLLING SYSTEM. 2016, vol. 3, no 9(81). DOI: 10.15587/1729-4061.2016.71892.
57. Коваленко В.Н., Корягин Д.А. Вычислительная инфраструктура будущего. // Открытые системы. 1999, № 11, с. 45-52.
58. Коваленко В.Н. Проблемы сетевых файловых систем. // Открытые системы. 1999, №3, с. 9-15.
59. Коваленко В.Н., Коваленко Е.И. Пакетная обработка заданий в компьютерных сетях // Открытые системы. 2000, № 8, с. 1-19.
60. Топорков В.В. Модели распределенных вычислений, М.: ФИЗМАТЛИТ, 2004, 320 с.
61. Buyya R., Abramson D., Giddy J. Nimrod/G: An architecture for a resource management and scheduling system in a global computational Grid // Proc. of the 4th International Conference on High Performance Computing in Asia-Pacific Region. 2000, pp. 283-289.
62. Abramson D., Giddy J., Kotler L. High performance parametric modeling with Nimrod/G: Killer application for the global grid? // In Proc. The Int. Parallel and Distributed Processing Symposium (IPDPS). 2000, pp. 520-528.
63. Cooper K., Dasgupta A., Kennedy K. New grid scheduling and rescheduling methods in the GrADS project // In Proc. of the 18th International Parallel and Distributed Processing Symposium (IPDPS'04). 2004. P. 199-206.
64. Курносов М.Г., Пазников А.А. Основы теории функционирования распределенных вычислительных систем / Новосибирск: Автограф, 2015, 52 с.
65. Топорков В.В., Емельянов Д.М., Топоркова А.С. Анализ состояния исследований в области методов и алгоритмов планирования в грид и облачных вычислениях // ИТНОУ: информационные технологии в науке, образовании и управлении. 2018, №2 (6), c. 26-31.
66. Шабанов Б.М. Методы и способы построения, выбора и применения высокопроизводительных вычислительных систем для выполнения научных и
технических задач // Автореферат диссертации на соискание ученой степени доктора технических наук, 2019, с.32.
67. Коваленко В.Н., Семячкин Д.А. Использование алгоритма Backfill в ГРИД // Распределенные вычисления и Грид -технологии в науке и образовании. 2004, c. 139-144.
68. Курносов М.Г., Пазников А.А. Децентрализованные алгоритмы диспетчеризации пространственно-распределенных вычислительных систем // Вестник томского государственного университета. 2012, т. 1, № 18, с. 133-142.
69. A. Mutz, R. Wolski, J. Brevik Eliciting honest value information in a batch-queue environment // 8th IEEE/ACM International Conference on Grid Computing, Austin, Texas, 2007, pp. 291-297. DOI: 10.1109/GRID.2007.4354145.
70. The EGEE project. URL: http://eu-egee-org.web.cern.ch/eu-egee-org/index.html (дата обращения: 12.02.2013).
71. Resource efficiency on heterogeneous clusters. URL: http://www.adaptivecomputing.com/products/hpc-products/moab-hpc-basic-edition/ (дата обращения: 13.03.2017).
72. GridWay Metascheduler. URL: http://www.gridway.org/doku.php (дата обращения: 13.03.2017).
73. Venugopal S., Buyya R., Winton L. Grid service broker for scheduling distributed data-oriented applications on Global Grids // MGC '04 Proceedings of the 2nd workshop on Middleware for grid computing. 2004, pp. 75-80.
74. Воеводин Вл.В., Жолудев Ю.А., Соболев С.И., Стефанов К.С., Эволюция системы метакомпьютинга X-Com // Вестник Нижегородского университета им. Н.И. Лобачевского. 2009, № 4, с. 157-164.
75. Dail H., Sievert O., Berman F. Scheduling in the Grid Application Development Software Project // Grid resource management. State of the Art and Future Trends, 2003, pp. 73-98.
76. Condor. URL: http://research.cs.wisc.edu/htcondor (дата обращения: 12.11.2018).
77. Прохоров А.В., Пахнина Е.М. Мультиагентные технологии управления ресурсами в распределенных вычислительных средах // Second International Conference Cluster Computing. Ukraine, Lviv. June 3-5, 2013, pp. 184-190.
78. Cirne W., Brasileiro F., Costa L., Paranhos D., Santos-Neto E., Andrade N., De Rose C., Ferreto T., Mowbray M., Scheer R., Jornada J. Scheduling in bag-of-task Grids: the PAUA case // 16th Symposium on Computer Architecture and High Performance Computing. 2004, pp. 124-131. DOI: 10.1109/SBAC-PAD.2004.37.
79. Buncic P., Peters A.J., Saiz P. Computing in High Energy and Nuclear Physics // The AliEn system, status and perspectives, La Jolla, California, 2003.
80. Лапонина О.Р. Анализ возможностей языка SAML 2.0 // Сборник трудов V Международной научно-практической конференции «Современные информационные технологии и ИТобразование». - Москва: МГУ им. М.В. Ломоносова. 2010, c. 462-472.
81. Абрамов А.Г., Васильев И.В., Порхачев А.А. Развитие инфраструктуры аутентификации и авторизации для удостоверяющей федерации в рамках проектов eduGAIN и eduroam на базе сети RUNNet // ИТНОУ: информационные технологии в науке, образовании и управлении. 2017. №4 (4) c.12-18.
82. Фрадков С.А. Алгоритм HMAC - цифровая подпись в реальном масштабе времени для протокола IPv6 // Радиоэлектроника и информатика. 1999, №2(7), с. 82-84.
83. Lamport L. Time, clocks, and the ordering of events in a distributed system. // Communications of the ACM. 1978, vol. 21, issue 7, pp. 558-565. DOI: 10.1145/359545.359563.
84. Валиев М.К., Китаев Е.Л., Слепенков М.И. Олужба директорий LDAP как инструментальное средство для создания распределенных информационных систем // Препринты ИПМ им. М.В. Келдыша. 2000, № 23, с. 1-22.
85. Fitzgerald S., Foster I., Kesselman C., Smith W., Tuecke S. A directory service for configuring high-performance distributed computations // The Proceedings of 6th IEEE Symp. on High Performance Distributed Computing. 1997. pp. 365-375.
86. DHT Protocol. 2008. URL: http://bittorrent.org/beps/bep_0005.html (дата обращения: 11.03.2017).
87. ClickHouse reference manual. 2015. URL: https://clickhouse.yandex/reference_en.html (дата обращения: 16.02.2017).
88. Elastic stack and product documentation. 2018. URL: https://www.elastic.co/guide/index.html (дата обращения: 22.01.2017).
89. Programming with Redis. 2016. URL: https://redis.io/documentation. (дата обращения: 12.02.2017).
90. Managing the index lifecycleedit. 2018. URL: https://www.elastic. co/guide/en/ elasticsearch/reference/current/index-lifecycle-management.html (дата обращения: 10.11.2018).
91. Климов Г.П. Теория массового обслуживания, Москва: Издательство Московского университета, 2011, 312 с.
92. Schwiegelshohn Uwe, Yahyapour Ramin Analysis of first-come-first-serve parallel job scheduling // Proceedings of the Annual ACM-SIAM Symposium on Discrete Algorithms. 1998, pp. 629-638. DOI: 10.1145/314613.315031
93. Aida K., Casanova H. Scheduling mixed-parallel applications with advance reservations // Proceedings of the 17th international symposium on High performance distributed computing. 2008, pp. 65-74. DOI: 10.1145/1383422.1383432.
94. Ando S., Aida K. Evaluation of scheduling algorithms for advance reservations // Information Processing Society of Japan SIG Notes, 2007, pp. 37-42.
95. Elmroth E., Tordsson J. A standards-based grid resource brokering service supporting advance reservations, coallocation and cross-grid interoperability // Concurrency and Computation: Practice and Experience. 2009, vol. 21, issue 18, pp. 2298-2335. DOI: 10.1002/cpe.1441.
96. Cafaro M., Mirto M., Aloisio G. Preference-based matchmaking of grid resources with CP-Nets // Journal of Grid Computing. 2013, vol. 11, issue 2, pp. 211237. DOI: 10.1007/s10723-012-9235-2.
97. Коваленко В.Н., Семячкин Д.А. Использование алгоритма Backfill в грид // Труды международной конференции «Распределенные вычисления и Грид-технологии в науке и образовании». 2004, с. 139-144.
98. Полежаев П.Н. Симулятор вычислительного кластера и его управляющей системы, используемый для исследованияалгоритмов планирования задач // Вестник ЮУрГУ. Серия «Математическое моделирование и программирование». 2010, №35(211), вып. 6, с. 79 - 90.
99. Tsafrir D., Etsion Y., Feitelson D. Backfilling using system-generated predictions rather than user runtime estimates // IEEE Transactions on Parallel and Distributed Systems. 2007, vol. 18, issue 6, pp. 789-803.
100. Feitelson D.G., Mu'alem Weil A.W. Utilization and predictability in scheduling the IBM SP2 with Backfilling // IEEE Trans. Parallel & Distributed Syst. 2001 vol. 12(6), pp. 529-543.
101. Moab HPC Suite Enterprise Edition. URL: http://www.adaptivecomputing.com/products/hpc-products/moab-hpc-suite-enterpriseedition (дата обращения: 12.07.2018).
102. Kannan S., Roberts M., Mayes P., Brelsford D., Skovira J.F. Workload Management with LoadLeveler. IBM, First ed., 2001. 210 p.
103. Castillo C., Rouskas G.N., Harfoush K. Resource co-allocation for large-scale distributed environments // 18th ACM International Symposium on High Performance Distributed Compuing, ACM. 2009, pp. 137-150.
104. Takefusa A., Nakada H., Kudoh T., Tanaka Y., Frachtenberg E., Schwiegelshohn U. An Advance Reservation-based Co-allocation Algorithm for Distributed Computers and Network Bandwidth on QoS-guaranteed Grids // Lecture Notes in Computer Science. 2010, Vol. 6253, pp. 16-34. DOI: 10.1007/978-3-642-16505-4_2.
105. Костромин Р.О. Модели, методы и средства управления вычислениями в интегрированной кластерной системе // Фундаментальные исследования. 2015, №2 6, c. 35-38.
106. Blanco H., Guirado F., Lérida J.L., Albornoz V.M. MIP model scheduling for multiclusters // Lecture Notes in Computer Science. 2012, vol. 7640, pp. 196-206. DOI: 10.1007/978-3-642-36949-0_22.
107. Garg S.K., P. Konugurthi, R. Buyya A linear programming-driven genetic algorithm for meta-scheduling on utility grids // International Journal of Parallel, Emergent and Distributed Systems. 2011, vol. 26, issue 6, pp. 493-517. DOI: 10.1080/17445760.2010.530002.
108. Olteanu A., Pop F., Dobre C., Cristea V. A dynamic rescheduling algorithm for resource management in large scale dependable distributed systems // Computers and Mathematics with Applications. 2012, vol. 63, issue 9, pp. 1409-1423. DOI: 10.1016/j.camwa.2012.02.066.
109. Toporkov V., Toporkova A., Tselishchev A., Yemelyanov D. Slot selection algorithms in distributed computing // Journal of Supercomputing. 2014, vol. 69, issue 1, pp. 53-60. DOI: 10.1007/s11227-014-1210-1.
110. Toporkov V., Toporkova A., Tselishchev A., Yemelyanov D., Malyshkin V. Slot selection algorithms in distributed computing with non-dedicated and heterogeneous resources // Lecture Notes in Computer Science 2013, vol. 7979, pp. 120-134. DOI: 10.1007/978-3-642-39958-9_10.
111. Топорков В.В., Бобченков А.В., Емельянов Д.М., Целищев А.С. Методы и эвристики планирования в распределенных вычислениях с неотчуждаемыми ресурсами // Вестник ЮУрГУ. Серия «Вычислительная математика. 2014, № 3(2), с. 43-62.
112. Топорков В.В., Емельянов Д.М. Топоркова А.С. Метапланирование вычислений в распределенных средах с неотчуждаемыми ресурсами // Информационные технологии в науке, образовании и управлении. IT + S&E16 (Гурзуф, 22.05. - 01.06.2016), 2016, c. 22-31.
113. Rodero I., Villegas D., Bobroff N., Liu Y., Fong L., Sadjadi S. Enabling interoperability among grid meta-schedulers // Journal of Grid Computing. 2013, vol. 11, issue 2, pp. 311-336. DOI: 10.1007/s10723-013-9252-9.
114. Azzedin F., Maheswaran M., Arnason N. A synchronous co-allocation mechanism for grid computing systems // Cluster Computing. 2004, vol. 7, issue 1, pp. 39-49. DOI: 10.1023/b:clus.0000003942.73875.29.
115. Kurowski K., Nabrzyski J., Oleksiak A., Weglarz J. Multicriteria aspects of grid resource management // International Series in Operations Research & Management Science. 2003, pp. 271-293. DOI: 10.1007/978-1-4615-0509-9_18.
116. Ernemann C., Hamscher V., Yahyapour R., Feitelson D.G., Rudolph L., Schwiegelshohn U. Economic scheduling in grid computing // Lecture Notes in Computer Science. 2002, vol. 2537, pp. 128-152. DOI: 10.1007/3-540-36180-4_8.
117. Коваленко В.Н., Коваленко Е.И., Шорин О.Н. Разработка диспетчера заданий грид, основанного на опережающем планировании // Москва: Препринт ИПМ РАН им. М.В. Келдыша, 2005, 28 с.
118. Коваленко В.Н., Коваленко Е.И., Корягин Д.А., Любимский Э.З. Основные положения метода опережающего планирования для грид вычислительного типа // Вестник СамГУ - Естественнонаучная серия. 2006, №4(44). с. 238-264.
119. Корнеев В.В., Монахов О.Г. О децентрализованном распределении заданий в вычислительных системах с программируемой структурой // Архитектура вычислительных систем с программируемой структурой, Новосибирск, ИМ СО АН АН СССР, 1982, c. 3-17.
120. Поляков А.Ю., Молдованова О.В., Пазников А.А., Курносов М.Г., Мамойленко С.Н., Ефимов А.В. Алгоритмы отказоустойчивого управления ресурсами пространственно-распределенных вычислительных систем // Вестник СибГУТИ. 2014, № 4, c. 11-29.
121. Топорков В.В., Емельянов Д.М., Потехин П.А. Формирование и планирование пакетов заданий в распределенных вычислительных системах // Вестник Южно-Уральского государственного университета. Серия: Вычислительная математика и информатика. 2015, т. 4, № 2, c. 44-57.
122. Топорков В.В. Модели распределенных вычислений // 2004 Москва ФИЗМАТЛИТ, 320 с.
123. Bogdanova V.G., Bychkov I.V., Korsukov A.S. Multiagent approach to distributed computing management in a cluster GRID system // Journal of Computer and Systems Sciences International. 2014, no. 5. pp. 95-105. DOI: 10.7868/s0002338814040039.
124. Toporkov V.V., Yemelyanov D.M. Economic model of scheduling and fair resource sharing in distributed computing // Programming and Computer Software. 2014, no. 1, pp. 54-65.
125. Garg S.K., Buyya R., Siegel H.J. Scheduling parallel applications on utility grids: time and cost trade-off management // Proc. of the 32nd Australasian Computer Science Conference. Wellington, 2009. pp. 151-160.
126. Rajkumar Buyya, David Abramson, Jonathan Giddy A case for economy grid architecture for service-oriented grid computing // IPDPS '01 Proceedings of the 15th International Parallel & Distributed Processing Symposium 2001, p. 83.
127. Иващенко А.В. Управление согласованным взаимодействием пользователей интегрированной информационной среды предприятия // Самара, Самарский научный центр РАН, 2011, 100 c.
128. Wolski R., Plank J.S., Brevik J. Analyzing market-based resource allocation strategies for the computational Grid // Int. J. of High Performance Computing Applications. 2001, vol. 15, no. 3, pp. 258-281.
129. Feitelson D.G. Toward convergence in job schedulers for parallel supercomputers // Job Scheduling Strategies for Parallel Processing, Lecture Notes in Computer Science. 1996, no. 1162, pp. 1-26.
130. Khandekary R., Schieber B., Shachnaix H., Tamir T. Real-time scheduling to minimize machine busy times // Journal of Scheduling. 2015, № 18, p. 561-573.
131. Sabin G., Lang M., Sadayappan P. Job Scheduling Strategies for Parallel Processing. 2007, no. 4376, pp. 94-114.
132. Utrera G., Corbalán J., Labarta J. Another approach to backfilled jobs: applying virtual malleability to expired windows // Proceedings of the 19th annual international conference on Supercomputing , 2005, pp. 313-322.
133. Lifka D. The ANL/IBM SP scheduling system // Job Scheduling Strategies for Parallel Proc. LNCS. Springer-Verlag. 1995, no. 949, pp. 295-303.
134. Cirne W., Berman F. A model for moldable supercomputer jobs // Proceedings of the 15th International Parallel & Distributed Processing Symposium (IPDPS '01). IEEE Computer Society, Washington, DC, USA. 2001, p. 59
135. Мамойленко С.Н., Ефимов А.В., Перышкова Е.Н. Исследование эффективности обработки масштабируемых задач на распределенных вычислительных системах // Сборник тезисов докладов НСКФ'2016, Переславль-Залесский, 2016, c. 34.
136. Towsley D. Analysis of Fork-Join Program Response Times on Multiprocessors // IEEE Trans. Parallel and Distributed System. 1990, vol. 1, no. 3, pp. 286-303.
137. Sarood O., Langer A., Gupta A., Kale L. Maximizing throughput of overprovisioned HPC data centers under a strict power budget // Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. 2014, pp. 807-818.
138. Ефимов А.В., Мамойленко С.Н., Перышкова Е.Н. Организация функционирования распределенных вычислительных систем при обработке наборов масштабируемых задач // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2011, т. 2, № 15, c. 51-60.
139. Евреинов Э.В., Хорошевский В.Г. Однородные вычислительные системы // Наука. 1978, c. 319.
140. Башарин Г.П., Толмачев А.Л. Теория сетей массового обслуживания и ее приложения к анализу информационно-вычислительных систем // Итоги науки и техн. Сер. Теор. вероятн. Мат. стат. Теор. кибернет. 2009, т. 21, pp. 3-119.
141. Kleinrock L. Queuing Systems Vol. 1 // Theory, New York: Wiley, 1975,
417 p.
142. Хританков А.С. Модели и алгоритмы распределения нагрузки. Алгоритмы на основе сетей СМО // Информационные технологии и вычислительные системы. 2009, № 3, pp. 33-48.
143. Климов Г.П. Системы обслуживания с разделением времени. I. // Теория вероятностей и ее применения. 1974, т. 19 № 3, с. 558—576.
144. Бахарев И.А., Крюков В.А. Управление прохождением задач на ЭВМ // препринт Института прикладной математики им. М. В. Келдыша АН СССР, 1981, № 149, 24 с.
145. Buyya R., Abramson D., Giddy J. Nimrod/G: An Architecture for a Resource Management and Scheduling System in a Global Computational Grid, HPC ASIA'2000, China, IEEE CS Press, USA, 2000.
146. Stonebraker M., Devine R., Kornacker M., Litwin W., Pfeffer A., Sah A., Staelin C. An Economic Paradigm for Query Processing and Data Migration in Mariposa // Proceedings of 3rd International Conference on Parallel and Distributed Information Systems, Austin, TX, USA, 28-30 Sept. 1994. Los Alamitos, CA, USA: IEEE Computer Society Press, 1. DOI: 10.1109/PDIS.1994.331732.
147. Amir Y., Awerbuch B., Barak A.A., Borgstrom S., Keren A. An opportunity cost approach for job assignment in a scalable computing cluster // IEEE Tran. Parallel and Distributed Systems. 2000, Vol. 11, No. 7 pp. 17-23.
148. Abramson D., Giddy J., Kotler L. High performance parametric modeling with Nimrod/G: killer application for the global grid? // Proceedings 14th International Parallel and Distributed Processing Symposium. IPDPS 2000, Cancun, Mexico, 2000, pp. 520-528. DOI: 10.1109/IPDPS.2000.846030.
149. Kale L.V., Kumar S., Potnuru M. Efficient Resource Allocation on the Computational Grid // Proc. Int. Conf. on Parallel Processing (ICPP 2004). 2004, pp. 2027.
150. Топорков В.В., Емельянов Д.М., Потехин П.А. Формирование и планирование пакетов заданий в распределенных вычислительных средах // Вестник ЮУрГУ. Серия: "Вычислительная математика и информатика". 2015, № 2, c. 21-24.
151. Алпатов А.Н. Развитие распределенных технологий и систем // Перспективы науки и образования. 2015, №2 (14), с. 60-66.
152. Вентцель Е.С. Теория вероятностей // Учебное пособие для вузов. Москва: 6-е изд. стер. - М.: Высш. шк., 1999.
153. Морозов А.В., Петухова Е.О., Петухов О.А. Моделирование: системное, имитационное, аналитическое // Санкт-Петербург: Учебное пособие. -СПб.: издательство СЗТУ, 2008. - 288 с., 2008.
154. Ernemann C. Economic scheduling in Grid computing // Job Scheduling Strategies for Parallel Processing. 2002, no. 2537, pp. 129-152.
155. Foster I., Kesselman C., Tuecke S. The anatomy of the Grid: enabling scalable virtual organizations // International Journal of Supercomputer Applications. 2001. Vol. 15, N 3. P. 200-222.
156. Платформы eScience. URL: https://www.osp.ru/os/2012/07/13017646/ (дата обращения 12.06.2018).
157. Berman F. Adaptive Computing on the Grid Using AppLeS // IEEE Transactions On Parallel and Distributed Systems. 2003, vol. 14, no 4. pp. 369 -382.
158. Foster I. The Physiology of the Grid: An Open Grid Services Architecture for Distributed Systems Integration // Computer Networks: The International Journal of Computer and Telecommunications Networking. 2002, vol. 40, no. 1, pp. 5-17.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.