Программная среда поддержки эффективного выполнения задач на параллельных вычислительных системах тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Жуматий, Сергей Анатольевич

  • Жуматий, Сергей Анатольевич
  • кандидат физико-математических науккандидат физико-математических наук
  • 2005, Москва
  • Специальность ВАК РФ05.13.11
  • Количество страниц 95
Жуматий, Сергей Анатольевич. Программная среда поддержки эффективного выполнения задач на параллельных вычислительных системах: дис. кандидат физико-математических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Москва. 2005. 95 с.

Оглавление диссертации кандидат физико-математических наук Жуматий, Сергей Анатольевич

Введение.

Глава 1. Программная инфраструктура параллельных вычислительных систем.

§ 1.1. Средства сопровождения выполнения параллельных программ: предпосылки разработки.

§ 1.2. Пакеты управления вычислительными ресурсами.

§ 1.3. Пакеты мониторинга.

§ 1.4. Постановка задачи.

Глава 2. Архитектура и базовые возможности комплекса РагСоп.

§ 2.1. Общая структура комплекса.

§ 2.2. Архитектура системы управления заданиями Cleo.

§ 2.3. Архитектура системы мониторинга Antmon.

§ 2.4. Архитектурные особенности комплекса РагСоп.

Глава 3. Использование комплекса РагСоп.

§ 3.1. Пользовательский интерфейс РагСоп.

§ 3.2. Исследование параллельных приложений с помощью РагСоп.

§3.3. Комплекс РагСоп на кластерных системах.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Программная среда поддержки эффективного выполнения задач на параллельных вычислительных системах»

Активное внедрение идей параллелизма в вычислительную практику привело к широкому распространению высокопроизводительных кластерных систем. Обладая многими характеристиками классических суперкомпьютеров, кластеры имеют и целый ряд дополнительных преимуществ. Они намного дешевле, их архитектуру можно выбирать в зависимости от класса решаемых задач, а сами кластерные решения хорошо масштабируются, позволяя создавать конфигурации с необходимыми параметрами по числу процессоров, стоимости, производительности, потребляемой мощности, объему оперативной и внешней памяти и целому ряду других.

Однако вместе с доступностью кластеров на первый план вышли серьезные задачи, с которыми сразу столкнулись как пользователи, так и администраторы этих систем. Потенциал систем огромен, но используется ли он в полной мере - в этом и состоит основной вопрос. При этом для пользователя важно понять, насколько эффективно выполняется именно его программа, где узкие места, в чем причины снижения производительности и как их устранить, У администраторов кластеров акцент смещается в сторону анализа эффективности работы вычислительной системы в целом, обрабатывающей поток заданий разных пользователей.

Подобные проблемы всегда сопровождали суперкомпьютерную технику, но стали особенно актуальными именно сейчас, когда использование кластеров стало массовым. Различные стороны проблемы эффективного функционирования параллельных программ и систем рассматривались многими зарубежными и российскими учеными. В нашей стране это направление имеет свою историю, активно развивается и к настоящему времени получены значительные результаты в научных коллективах, возглавляемых академиками В.С.Бурцевым, В.В.Воеводиным,

Г.И.Савиным, чл.-корр. А.В.Забродиным и В.П.Иванниковым, докторами физ.-мат. наук С.М.Абрамовым, Д.А.Корягиным, В.А.Крюковым, И.Д.Софроновым. Вместе с этим, несмотря на значительную предысторию данного вопроса особенности современных кластерных систем и значительное расширение круга пользователей потребовали разработки новых подходов к решению задачи анализа эффективности выполнения программ на параллельных вычислительных системах.

Целями данной диссертационной работы являются:

• разработка методики анализа эффективности функционирования высокопроизводительных вычислительных систем с кластерной архитектурой;

• разработка принципов построения и архитектуры программного комплекса для мониторинга и исследования базовых характеристик программно-аппаратной среды кластерных систем, обрабатывающих поток пользовательских программ;

• реализация распределенного программного комплекса, позволяющего определять узкие места в конфигурациях программно-аппаратных сред кластерных систем как в процессе выполнения, так и после завершения работы параллельных программ;

• проведение апробации предложенных подходов и разработанных программных средств, их внедрение в практику работы современных суперкомпьютерных центров.

Научная новизна диссертации состоит в разработке принципов построения программного комплекса для мониторинга и исследования ключевых характеристик программно-аппаратной среды высокопроизводительных кластерных систем. Основными свойствами предложенной архитектуры являются распределенность, расширяемость, живучесть, переносимость, незначительное влияние на поведение исследуемых параллельных программ.

Все исследования, выполненные в рамках данной работы, ориентированы на совместный анализ кластерных характеристик системного уровня с возможностью одновременного изучения профиля пользовательских программ.

Данная диссертационная работа отталкивалась от реальной потребности в разработке эффективных методов организации вычислений на современных параллельных вычислительных системах, что определяет её практическую значимость. Работоспособность всех основных положений и подходов, предложенных в ходе исследований, проверялась в практике работы суперкомпьютерных центров. Использование созданного программного комплекса РагСоп позволяет значительно повысить эффективность работы высокопроизводительных вычислительных кластерных систем. Для пользователей кластеров появляется возможность проанализировать работу параллельных программ с точки зрения использования ресурсов кластеров, обнаружить их узкие места. Администраторы кластеров могут оценить и оптимизировать работу вычислительных систем на потоке задач в целом, отталкиваясь от собранных интегральных характеристик.

Принципы и характеристики, заложенные в архитектуру комплекса РагСоп, позволяют его использовать и для решения более широкого класса задач, таких, как мониторинг распределённых сетей и сервисов, анализ производительности сетевых сервисов и вычислительных комплексов, управление распределёнными сетевыми ресурсами и ряда других.

Данная диссертационная работа состоит из трёх основных глав и кратно её содержание может быть описано следующим образом.

Первая глава посвящена обзору и анализу существующей программной инфраструктуры параллельных вычислительных систем. На основе этого анализа выбирается направление исследований и уточняется постановка задачи.

Для эффективной работы параллельных программ на кластере, необходимо программное окружение, позволяющее управлять использованием ресурсов кластера. В противном случае для каждой задачи нужно будет указывать ресурсы вручную. Это сложно даже в том случае, когда задачи запускаются одним пользователем. Если же кластер находится в распоряжении нескольких пользователей, то без программной поддержки управления ресурсами просто не обойтись.

Однако, эффективность распределения ресурсов кластера между разными программами пользователей - это лишь одна сторона вопроса. Не меньшее значение имеет и эффективность работы отдельных параллельных программ. В чём причина низкой эффективности параллельной программы? Оптимизировать программу, не имея соответствующего инструментария, очень сложно, а сам этот процесс может занять значительное время.

Подобный круг вопросов является предметом исследования данной работы. В данной главе проведен анализ наиболее распространенных в настоящее время пакетов LoadLeveler, Condor, OpenPBS (TorquePBS), Queue, NQS/NQE, DQS, LSF, системы управления прохождением задач для МВС-1000/М, Autostatus, Sysmon, Ganglia, Nagios, PIKT, Mon. Оцениваются их сильные стороны и недостатки, вырабатываются требования к проектируемому комплексу.

Вторая глава посвящена описанию методики анализа эффективности параллельных программ и вычислительных систем, проектированию архитектуры и набора определению базовых функций комплекса РагСоп, разработанного на основе этой методики.

На основе выделенных уровней программно-аппаратных сред вычислительных кластеров разработаны механизмы отслеживания изменения состояния критических компонентов. Все ключевые динамические параметры кластера, такие как загруженность процессоров, особенности работы с памятью, сетевое взаимодействие и многие другие, фиксируются системой мониторинга и сохраняются в базе данных. По этой базе и информации о работающих и/или уже завершившихся задачах аналитический блок комплекса генерирует отчёт о работе задачи на кластере или о работе кластера в целом.

На основе проведенного анализа предметной области сформулирован ряд требований, которым должен удовлетворять создаваемый программный комплекс. В течение длительного времени комплекс РагСоп успешно работает на четырех различных кластерах НИВЦ МГУ, обслуживая в сумме более 300 процессоров. Комплекс работает под операционной системой Linux и требует для работы лишь интерпретатор языка perl версии не ниже 5.6.0 и пакет rrd [22]. Оба этих компонента являются свободно распространяемыми и доступны в подавляющем большинстве дистрибутивов Linux. Комплекс разработан на модульной основе, что позволяет легко расширять его возможности. Длительная эксплуатация комплекса подтвердила правильность сделанных проектных решений: нагрузка на вычислительные узлы кластеров, вызванная работой компонентов РагСоп, составляет менее 3% процессорного времени и значительно меньше 1% сетевого трафика.

Компоненты комплекса РагСоп работают независимо друг от друга. Система управления заданиями ведёт файл журнала, а система мониторинга сохраняет данные о параметрах вычислительных узлов в легковесной базе данных rrd.

В третьей главе диссертации описывается опыт практического использования разработанных программных средств. Многочисленные примеры, взятые из практики суперкомпьютерного комплекса НИВЦ МГУ, иллюстрируют возможности РагСоп по анализу эффективности выполнения параллельных программ и работе кластерных систем.

В заключении сформулированы основные результаты диссертационной работы.

Дополнительная информация о разработанном комплексе размещена на сайте http://parcon.parallel.ru.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Жуматий, Сергей Анатольевич

Заключение

Программный комплекс РагСоп на сегодняшний день является завершённым продуктом, позволяющим управлять ресурсами вычислительных кластеров и проводить анализ эффективности как параллельных программ, там и самих кластеров. Приведём основные результаты данной работы:

1. Разработана методика анализа эффективности функционирования программно-аппаратных сред высокопроизводительных вычислительных систем с кластерной архитектурой. Методика носит комплексный характер, объединяя исследование кластерных характеристик системного уровня с возможностью изучения профиля пользовательских параллельных программ.

2. Разработаны принципы построения и архитектура распределенного программного комплекса, позволяющего осуществлять мониторинг и проводить исследование динамики изменения базовых характеристик программно-аппаратной среды кластерных систем во время работы потока пользовательских программ.

3. На основе предложенных принципов реализован программный комплекс РагСоп, позволяющий определять узкие места в конфигурации программно-аппаратных сред кластерных систем как в процессе выполнения, так и после завершения работы параллельных программ. Программный комплекс ориентирован на возможность динамического изменения спектра измеряемых параметров среды, минимизацию привносимых накладных расходов и расширяемость функциональности, все характеристики комплекса хорошо масштабируются с ростом числа процессоров и программ пользователей.

4. Программный комплекс ParCon прошел успешную апробацию и внедрен в ряде организаций, в частности, в Институте вычислительной математики РАН, в Южно-Уральском и Самарском государственных университетах. На его основе в течение нескольких лет построено администрирование и сопровождение всех суперкомпьютерных систем НИВЦ МГУ, обслуживающих более 300 процессоров.

Список литературы диссертационного исследования кандидат физико-математических наук Жуматий, Сергей Анатольевич, 2005 год

1. Лацис А.О. "Как построить и использовать суперкомпьютер". -М.:Бестселлер, 2003.

2. Воеводин В.В., Воеводин Вл.В. "Параллельные вычисления" -СПб.: БХВ, 2002г. 608 е.: ил.

3. Швель А. "Визуализация состояний вычислительного кластера"

4. Бешков А. "Установка Nagios" // Системный администратор. N22003. стр. 6-14.

5. Коваленко В., Коваленко Е. "Пакетная обработка заданий в компьютерных сетях" // Открытые системы. N7-8 2000.

6. Владимиров Д. "Кластерная система " // Открытые системы. №7-8. 2000.

7. Кузьминский М. "NQS и пакетная обработка в Unix" // Открытые системы. №1. 1997.v> 27. Андреев А.Н., Антонов А.С., Воеводин Вл.В., Жуматий С.А.

8. Комплексный подход к анализу эффективности программ для параллельных вычислительных систем //

9. Высокопроизводительные вычисления и их приложения. Труды научной конференции, пос. Черноголовка, 2000, Изд-во МГУ. С. 18-20.

10. Андреев А.Н., Воеводин Вл.В., Жуматий С.А. Кластеры и суперкомпьютеры — близнецы или братья? // Открытые Системы. 2000. №5-6. С. 9-14.

11. Жуматий С.А., Кальянов А.А. Комплекс мониторинга распределенных информационно-вычислительных систем // Научный сервис в сети Интернет. Труды всероссийской научной конференции. 2002. Изд-во МГУ. С. 47.

12. Жуматий С.А. Исследование эффективности работы параллельных программ в программно-аппаратной средекластерных установок. // Распределённые вычисления и ГРИД-технологии в науке и образовании. Труды международной конференции. 2004. г. Дубна. С. 90-92.

13. Жуматий С. А. РагСоп — Универсальное решение для вычислительных кластеров // Научный сервис в сети Интернет. Труды всероссийской научной конференции. 2004. Изд-во МГУ. С. 270.

14. Жуматий С.А. Испытываем Antmon — новую систему мониторинга // Системный администратор. 2005. №6. С. 20-24.

15. Жуматий С.А. Система анализа производительности параллельных программ на кластерных установках // Вычислительные методы и программирование. 2005. Раздел 2. С. 57.

16. Абламейко С.В., Абрамов С.М., Анищенко В.В., Парамонов Н.Н. Принципы построения суперкомпьютеров семейства "СКИФ" и их реализация // "Информатика", ОИПИ НАН Беларуси, Минск, No 1, январь-март 2004. стр. 89-106.

17. Абрамов С.М., Анищенко В.В., Парамонов Н.Н.

18. Суперкомпьютерные кластерные конфигурации "СКИФ" // "Научный сервис в сети Интернет": Труды Всероссийской научной конференции (20-25 сентября 2004 г., г. Новороссийск) М.: МГУ, стр. 216-218,2004. 37. Абламейко С.В., Абрамов С.М., Анищенко В.В.,

19. Парамонов Н.Н. Суперкомпьютеры семейства "СКИФ" // Труды

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.