Программная среда поддержки эффективного выполнения задач на параллельных вычислительных системах тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Жуматий, Сергей Анатольевич
- Специальность ВАК РФ05.13.11
- Количество страниц 95
Оглавление диссертации кандидат физико-математических наук Жуматий, Сергей Анатольевич
Введение.
Глава 1. Программная инфраструктура параллельных вычислительных систем.
§ 1.1. Средства сопровождения выполнения параллельных программ: предпосылки разработки.
§ 1.2. Пакеты управления вычислительными ресурсами.
§ 1.3. Пакеты мониторинга.
§ 1.4. Постановка задачи.
Глава 2. Архитектура и базовые возможности комплекса РагСоп.
§ 2.1. Общая структура комплекса.
§ 2.2. Архитектура системы управления заданиями Cleo.
§ 2.3. Архитектура системы мониторинга Antmon.
§ 2.4. Архитектурные особенности комплекса РагСоп.
Глава 3. Использование комплекса РагСоп.
§ 3.1. Пользовательский интерфейс РагСоп.
§ 3.2. Исследование параллельных приложений с помощью РагСоп.
§3.3. Комплекс РагСоп на кластерных системах.
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Разработка системы запуска ресурсоемких приложений в облачной гетерогенной среде2013 год, кандидат технических наук Е Мьинт Найнг
Методология развития научного информационно-вычислительного комплекса в составе глобальной грид-инфраструктуры2012 год, доктор технических наук Кореньков, Владимир Васильевич
Система мониторинга вычислительного кластера расширенной функциональности2011 год, кандидат технических наук Тарасов, Алексей Григорьевич
Система управления специализированными виртуальными инструментами с механизмами оптимального распределения вычислительных ресурсов2009 год, кандидат технических наук Первин, Артем Юрьевич
Система пакетной обработки заданий в гетерогенной вычислительной сети2004 год, кандидат технических наук Хачкинаев, Геннадий Месропович
Введение диссертации (часть автореферата) на тему «Программная среда поддержки эффективного выполнения задач на параллельных вычислительных системах»
Активное внедрение идей параллелизма в вычислительную практику привело к широкому распространению высокопроизводительных кластерных систем. Обладая многими характеристиками классических суперкомпьютеров, кластеры имеют и целый ряд дополнительных преимуществ. Они намного дешевле, их архитектуру можно выбирать в зависимости от класса решаемых задач, а сами кластерные решения хорошо масштабируются, позволяя создавать конфигурации с необходимыми параметрами по числу процессоров, стоимости, производительности, потребляемой мощности, объему оперативной и внешней памяти и целому ряду других.
Однако вместе с доступностью кластеров на первый план вышли серьезные задачи, с которыми сразу столкнулись как пользователи, так и администраторы этих систем. Потенциал систем огромен, но используется ли он в полной мере - в этом и состоит основной вопрос. При этом для пользователя важно понять, насколько эффективно выполняется именно его программа, где узкие места, в чем причины снижения производительности и как их устранить, У администраторов кластеров акцент смещается в сторону анализа эффективности работы вычислительной системы в целом, обрабатывающей поток заданий разных пользователей.
Подобные проблемы всегда сопровождали суперкомпьютерную технику, но стали особенно актуальными именно сейчас, когда использование кластеров стало массовым. Различные стороны проблемы эффективного функционирования параллельных программ и систем рассматривались многими зарубежными и российскими учеными. В нашей стране это направление имеет свою историю, активно развивается и к настоящему времени получены значительные результаты в научных коллективах, возглавляемых академиками В.С.Бурцевым, В.В.Воеводиным,
Г.И.Савиным, чл.-корр. А.В.Забродиным и В.П.Иванниковым, докторами физ.-мат. наук С.М.Абрамовым, Д.А.Корягиным, В.А.Крюковым, И.Д.Софроновым. Вместе с этим, несмотря на значительную предысторию данного вопроса особенности современных кластерных систем и значительное расширение круга пользователей потребовали разработки новых подходов к решению задачи анализа эффективности выполнения программ на параллельных вычислительных системах.
Целями данной диссертационной работы являются:
• разработка методики анализа эффективности функционирования высокопроизводительных вычислительных систем с кластерной архитектурой;
• разработка принципов построения и архитектуры программного комплекса для мониторинга и исследования базовых характеристик программно-аппаратной среды кластерных систем, обрабатывающих поток пользовательских программ;
• реализация распределенного программного комплекса, позволяющего определять узкие места в конфигурациях программно-аппаратных сред кластерных систем как в процессе выполнения, так и после завершения работы параллельных программ;
• проведение апробации предложенных подходов и разработанных программных средств, их внедрение в практику работы современных суперкомпьютерных центров.
Научная новизна диссертации состоит в разработке принципов построения программного комплекса для мониторинга и исследования ключевых характеристик программно-аппаратной среды высокопроизводительных кластерных систем. Основными свойствами предложенной архитектуры являются распределенность, расширяемость, живучесть, переносимость, незначительное влияние на поведение исследуемых параллельных программ.
Все исследования, выполненные в рамках данной работы, ориентированы на совместный анализ кластерных характеристик системного уровня с возможностью одновременного изучения профиля пользовательских программ.
Данная диссертационная работа отталкивалась от реальной потребности в разработке эффективных методов организации вычислений на современных параллельных вычислительных системах, что определяет её практическую значимость. Работоспособность всех основных положений и подходов, предложенных в ходе исследований, проверялась в практике работы суперкомпьютерных центров. Использование созданного программного комплекса РагСоп позволяет значительно повысить эффективность работы высокопроизводительных вычислительных кластерных систем. Для пользователей кластеров появляется возможность проанализировать работу параллельных программ с точки зрения использования ресурсов кластеров, обнаружить их узкие места. Администраторы кластеров могут оценить и оптимизировать работу вычислительных систем на потоке задач в целом, отталкиваясь от собранных интегральных характеристик.
Принципы и характеристики, заложенные в архитектуру комплекса РагСоп, позволяют его использовать и для решения более широкого класса задач, таких, как мониторинг распределённых сетей и сервисов, анализ производительности сетевых сервисов и вычислительных комплексов, управление распределёнными сетевыми ресурсами и ряда других.
Данная диссертационная работа состоит из трёх основных глав и кратно её содержание может быть описано следующим образом.
Первая глава посвящена обзору и анализу существующей программной инфраструктуры параллельных вычислительных систем. На основе этого анализа выбирается направление исследований и уточняется постановка задачи.
Для эффективной работы параллельных программ на кластере, необходимо программное окружение, позволяющее управлять использованием ресурсов кластера. В противном случае для каждой задачи нужно будет указывать ресурсы вручную. Это сложно даже в том случае, когда задачи запускаются одним пользователем. Если же кластер находится в распоряжении нескольких пользователей, то без программной поддержки управления ресурсами просто не обойтись.
Однако, эффективность распределения ресурсов кластера между разными программами пользователей - это лишь одна сторона вопроса. Не меньшее значение имеет и эффективность работы отдельных параллельных программ. В чём причина низкой эффективности параллельной программы? Оптимизировать программу, не имея соответствующего инструментария, очень сложно, а сам этот процесс может занять значительное время.
Подобный круг вопросов является предметом исследования данной работы. В данной главе проведен анализ наиболее распространенных в настоящее время пакетов LoadLeveler, Condor, OpenPBS (TorquePBS), Queue, NQS/NQE, DQS, LSF, системы управления прохождением задач для МВС-1000/М, Autostatus, Sysmon, Ganglia, Nagios, PIKT, Mon. Оцениваются их сильные стороны и недостатки, вырабатываются требования к проектируемому комплексу.
Вторая глава посвящена описанию методики анализа эффективности параллельных программ и вычислительных систем, проектированию архитектуры и набора определению базовых функций комплекса РагСоп, разработанного на основе этой методики.
На основе выделенных уровней программно-аппаратных сред вычислительных кластеров разработаны механизмы отслеживания изменения состояния критических компонентов. Все ключевые динамические параметры кластера, такие как загруженность процессоров, особенности работы с памятью, сетевое взаимодействие и многие другие, фиксируются системой мониторинга и сохраняются в базе данных. По этой базе и информации о работающих и/или уже завершившихся задачах аналитический блок комплекса генерирует отчёт о работе задачи на кластере или о работе кластера в целом.
На основе проведенного анализа предметной области сформулирован ряд требований, которым должен удовлетворять создаваемый программный комплекс. В течение длительного времени комплекс РагСоп успешно работает на четырех различных кластерах НИВЦ МГУ, обслуживая в сумме более 300 процессоров. Комплекс работает под операционной системой Linux и требует для работы лишь интерпретатор языка perl версии не ниже 5.6.0 и пакет rrd [22]. Оба этих компонента являются свободно распространяемыми и доступны в подавляющем большинстве дистрибутивов Linux. Комплекс разработан на модульной основе, что позволяет легко расширять его возможности. Длительная эксплуатация комплекса подтвердила правильность сделанных проектных решений: нагрузка на вычислительные узлы кластеров, вызванная работой компонентов РагСоп, составляет менее 3% процессорного времени и значительно меньше 1% сетевого трафика.
Компоненты комплекса РагСоп работают независимо друг от друга. Система управления заданиями ведёт файл журнала, а система мониторинга сохраняет данные о параметрах вычислительных узлов в легковесной базе данных rrd.
В третьей главе диссертации описывается опыт практического использования разработанных программных средств. Многочисленные примеры, взятые из практики суперкомпьютерного комплекса НИВЦ МГУ, иллюстрируют возможности РагСоп по анализу эффективности выполнения параллельных программ и работе кластерных систем.
В заключении сформулированы основные результаты диссертационной работы.
Дополнительная информация о разработанном комплексе размещена на сайте http://parcon.parallel.ru.
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Численное моделирование задач газовой динамики на гибридных вычислительных системах2012 год, кандидат физико-математических наук Давыдов, Александр Александрович
Управление потоками заданий в распределенных неоднородных вычислительных средах2007 год, кандидат физико-математических наук Соболев, Сергей Игоревич
Преобразование циклических конструкций для многопроцессорных систем кластерного типа с учетом количества вычислительных устройств2008 год, кандидат технических наук Мялицин, Вадим Владимирович
Инструментальный комплекс для организации параллельных вычислений в интеллектуальных пакетах прикладных программ2008 год, кандидат технических наук Горский, Сергей Алексеевич
Методы и средства программирования софт-архитектур для реконфигурируемых вычислительных систем2012 год, кандидат технических наук Коваленко, Василий Борисович
Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Жуматий, Сергей Анатольевич
Заключение
Программный комплекс РагСоп на сегодняшний день является завершённым продуктом, позволяющим управлять ресурсами вычислительных кластеров и проводить анализ эффективности как параллельных программ, там и самих кластеров. Приведём основные результаты данной работы:
1. Разработана методика анализа эффективности функционирования программно-аппаратных сред высокопроизводительных вычислительных систем с кластерной архитектурой. Методика носит комплексный характер, объединяя исследование кластерных характеристик системного уровня с возможностью изучения профиля пользовательских параллельных программ.
2. Разработаны принципы построения и архитектура распределенного программного комплекса, позволяющего осуществлять мониторинг и проводить исследование динамики изменения базовых характеристик программно-аппаратной среды кластерных систем во время работы потока пользовательских программ.
3. На основе предложенных принципов реализован программный комплекс РагСоп, позволяющий определять узкие места в конфигурации программно-аппаратных сред кластерных систем как в процессе выполнения, так и после завершения работы параллельных программ. Программный комплекс ориентирован на возможность динамического изменения спектра измеряемых параметров среды, минимизацию привносимых накладных расходов и расширяемость функциональности, все характеристики комплекса хорошо масштабируются с ростом числа процессоров и программ пользователей.
4. Программный комплекс ParCon прошел успешную апробацию и внедрен в ряде организаций, в частности, в Институте вычислительной математики РАН, в Южно-Уральском и Самарском государственных университетах. На его основе в течение нескольких лет построено администрирование и сопровождение всех суперкомпьютерных систем НИВЦ МГУ, обслуживающих более 300 процессоров.
Список литературы диссертационного исследования кандидат физико-математических наук Жуматий, Сергей Анатольевич, 2005 год
1. Лацис А.О. "Как построить и использовать суперкомпьютер". -М.:Бестселлер, 2003.
2. Воеводин В.В., Воеводин Вл.В. "Параллельные вычисления" -СПб.: БХВ, 2002г. 608 е.: ил.
3. Швель А. "Визуализация состояний вычислительного кластера"
4. Бешков А. "Установка Nagios" // Системный администратор. N22003. стр. 6-14.
5. Коваленко В., Коваленко Е. "Пакетная обработка заданий в компьютерных сетях" // Открытые системы. N7-8 2000.
6. Владимиров Д. "Кластерная система " // Открытые системы. №7-8. 2000.
7. Кузьминский М. "NQS и пакетная обработка в Unix" // Открытые системы. №1. 1997.v> 27. Андреев А.Н., Антонов А.С., Воеводин Вл.В., Жуматий С.А.
8. Комплексный подход к анализу эффективности программ для параллельных вычислительных систем //
9. Высокопроизводительные вычисления и их приложения. Труды научной конференции, пос. Черноголовка, 2000, Изд-во МГУ. С. 18-20.
10. Андреев А.Н., Воеводин Вл.В., Жуматий С.А. Кластеры и суперкомпьютеры — близнецы или братья? // Открытые Системы. 2000. №5-6. С. 9-14.
11. Жуматий С.А., Кальянов А.А. Комплекс мониторинга распределенных информационно-вычислительных систем // Научный сервис в сети Интернет. Труды всероссийской научной конференции. 2002. Изд-во МГУ. С. 47.
12. Жуматий С.А. Исследование эффективности работы параллельных программ в программно-аппаратной средекластерных установок. // Распределённые вычисления и ГРИД-технологии в науке и образовании. Труды международной конференции. 2004. г. Дубна. С. 90-92.
13. Жуматий С. А. РагСоп — Универсальное решение для вычислительных кластеров // Научный сервис в сети Интернет. Труды всероссийской научной конференции. 2004. Изд-во МГУ. С. 270.
14. Жуматий С.А. Испытываем Antmon — новую систему мониторинга // Системный администратор. 2005. №6. С. 20-24.
15. Жуматий С.А. Система анализа производительности параллельных программ на кластерных установках // Вычислительные методы и программирование. 2005. Раздел 2. С. 57.
16. Абламейко С.В., Абрамов С.М., Анищенко В.В., Парамонов Н.Н. Принципы построения суперкомпьютеров семейства "СКИФ" и их реализация // "Информатика", ОИПИ НАН Беларуси, Минск, No 1, январь-март 2004. стр. 89-106.
17. Абрамов С.М., Анищенко В.В., Парамонов Н.Н.
18. Суперкомпьютерные кластерные конфигурации "СКИФ" // "Научный сервис в сети Интернет": Труды Всероссийской научной конференции (20-25 сентября 2004 г., г. Новороссийск) М.: МГУ, стр. 216-218,2004. 37. Абламейко С.В., Абрамов С.М., Анищенко В.В.,
19. Парамонов Н.Н. Суперкомпьютеры семейства "СКИФ" // Труды
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.