Комплексный подход к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Никитенко, Дмитрий Александрович

  • Никитенко, Дмитрий Александрович
  • кандидат науккандидат наук
  • 2014, Москва
  • Специальность ВАК РФ05.13.11
  • Количество страниц 141
Никитенко, Дмитрий Александрович. Комплексный подход к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга: дис. кандидат наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Москва. 2014. 141 с.

Оглавление диссертации кандидат наук Никитенко, Дмитрий Александрович

Оглавление

Введение

Глава 1. Существующие подходы к исследованию эффективности работы суперкомпьютерных приложений и суперкомпьютерных систем

1.1 Существующие подходы и инструменты для исследования эффективности работы параллельных приложений

1.2 Использование данных системного мониторинга

1.3 Использование данных от систем управления потоком задач

1.4 Выводы

Глава 2. Комплексный подход к анализу эффективности суперкомпьютерных приложений и систем

2.1 Очереди задач, разделы и счетное поле суперкомпьютеров

2.2 Три уровня исследования эффективности работы

суперкомпьютерной системы

2.3 Системный мониторинг как основа реализация комплексного подхода к исследованию эффективности работы суперкомпьютерных приложений и систем

2.4 Выводы

Глава 3. Причины и признаки снижения эффективности суперкомпьютерных приложений и систем

3.1 Набор ключевых динамических характеристик суперкомпьютерных приложений

3.2 Формат описания динамических характеристик

суперкомпьютерных приложений

3.3 Диапазон изменения динамических характеристик бсуперкомпьютерных приложений

3.4 Причины снижения эффективности работы суперкомпьютерных приложений и систем

3.5 Выявление признаков неэффективного поведения

суперкомпьютерных приложений

3.6 Согласованный анализ причин и признаков снижения эффективности суперкомпьютерных приложений

3.7 Взаимосвязь динамических характеристик суперкомпьютерных приложений

2 ' 1 •''<''' " ' ' ' '

3.8 Интегральные характеристики выполнения суперкомпьютерных приложений и использования ресурсов системы

3.8 Выводы

Глава 4. Методы комплексного анализа эффективности

суперкомпьютерных приложений и систем и их апробация

4.1 Особенности целевых программно-аппаратных суперкомпьютерных сред

4.2 Методы анализа динамики выполнения отдельного суперкомпьютерного приложения

4.3 Примеры анализа задач из реального потока

4.4 Методы анализа качества использования разделов суперкомпьютеров

4.5 Примеры анализа соответствия приложений свойствам разделов суперкомпьютеров

4.6 Методы анализа использования ресурсов по системе в целом

4.7 Примеры анализа использования ресурсов по системе в целом

4.8 Выводы

Заключение

Список литературы

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Комплексный подход к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга»

Введение

Продолжающееся стремительное развитие суперкомпьютерных систем сопровождается рядом важных особенностей. Многие из них могут быть определены путем анализа данных рейтингов высокопроизводительных вычислительных систем. Наиболее известным из таких списков является Тор500, в котором представлены данные по пяти сотням наиболее мощных вычислительных систем мира. Прежде всего, выделяется устойчивый рост производительности систем - имеет место увеличение производительности на три порядка каждые десять лет. Отчетливо прослеживается и стремительный рост числа вычислительных ядер - современные вычислительные системы высшего уровня производительности насчитывают сотни тысяч, даже миллионы вычислительных ядер. Говоря о грядущей эре экзафлопсных вычислений, большинство специалистов сходится во мнении, что число вычислительных ядер увеличится не на один порядок. Столь значительные масштабы, с одной стороны, потенциально позволяют раскрыть колоссальный потенциал параллелизма, но, с другой стороны, обостряют проблемы, связанные с эффективностью использования вычислительных ресурсов. В классическом понимании эффективность - отношение достигнутой производительности к теоретически возможной.

В ходе выполнения каждой задачи на суперкомпьютерной системе в условиях одновременной работы множества пользователей и приложений может быть выделен целый набор факторов, которые могут повлиять на итоговую эффективность работы приложения. Свой вклад, в частности, вносят особенности программно-аппаратного комплекса, на котором ведется работа, распределение задачи по узлам вычислительной системы, использование опций компиляции, задействованные технологии параллельного программирования и способы их применения, особенности языка и манеры написания кода программы, особенности используемых

г ,

алгоритмов и выбранных методов решения проблемы. Все это определяет огромное количество потенциальных причин снижения производительности приложения и делает последовательный поиск этих причин крайне трудоемким.

Практическая значимость работы определяется ее изначальной нацеленностью на решение одной из основных проблем высокопроизводительных вычислений и вычислительной практики -повышение эффективности работы суперкомпьютерных приложений и систем. Проблема эффективности работы приложений и использования вычислительных ресурсов обозначена давно. Однако, практическая значимость ее решения в условиях высокой стоимости использования суперкомпьютерных ресурсов при современных масштабах решаемых задач определяет острую востребованность проведения комплексных исследований в данной области. Цель - повышения эффективности работы на уровне отдельных суперкомпьютерных приложений, эффективности формирования потока задач и использования счетного поля вычислительной системы.

Целью диссертационной работы является разработка комплексного подхода к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга. Комплексный подход должен учитывать как неоднородность вычислительной системы и соответствующее деление счетного поля на разделы, так и большое разнообразие возможных причин снижения производительности суперкомпьютерных систем. Комплексный подход должен быть направлен на нахождение истинных причин снижения эффективности суперкомпьютерных приложений и систем, а также анализ соответствия свойств суперкомпьютера и суперкомпьютерных приложений.

Необходимо подробно исследовать динамические свойства параллельных приложений и разработать метод описания возможных причин и признаков снижения эффективности выполнения программ, которые могут

быть обнаружены при анализе динамических свойств приложений. Неотъемлемыми составляющими метода описания должны являться следующие моменты: выделение набора ключевых динамических характеристик, достоверно отражающих поведение приложения во время выполнения, выбор метода описания динамических характеристик, структуризация причин и признаков снижения эффективности, отражающая способ выявления потенциально узких мест в производительности и природу их возникновения. На основании проведенных исследований необходимо разработать методы исследования эффективности работы отдельного приложения, соответствия приложений свойствам разделов суперкомпьютера и эффективности использования ресурсов системы в целом.

Научная новизна диссертационной работы заключается в разработке комплексного подхода к исследованию эффективности использования суперкомпьютера, основанного на анализе потоков данных системного мониторинга, выявлении причин и признаков снижения эффективности: от исследования динамических характеристик работы отдельной задачи до исследования соответствия приложений свойствам разделов суперкомпьютера и характера использования ресурсов всего счетного поля вычислительной системы. На основе единого подхода возможно проведение анализа как динамических свойств отдельных приложений, так и всей суперкомпьютерной системы в целом. Предложены принципы выделения набора ключевых динамических характеристик суперкомпьютерных приложений и метод их описания. Введены понятия причин и признаков снижения эффективности и их иерархии, предложен формат описания выявленного соответствия причин и признаков снижения эффективности. Разработаны и апробированы методы исследования эффективности суперкомпьютерных приложений, опирающиеся на введенные понятия, методы исследования соответствия свойств приложений структуре разделов и системы в целом.

Полученные новые научные результаты и положения, выносимые на защиту:

1) Предложен и обоснован комплексный подход к анализу эффек-тивности работы суперкомпьютерных приложений и систем на основе исследования потоков данных системного мониторинга суперкомпьютерных комплексов.

2) Разработаны методы анализа эффективности работы параллельных приложений и суперкомпьютерных систем, опирающиеся на исследование динамических и интегральных характеристик суперкомпьютерных приложений.

3) Предложена методика, опирающаяся на понятие причин и признаков снижения эффективности суперкомпьютерных приложений и систем, направленная на нахождение истинных источников потерь производительности.

4) Предложенные в данной работе подходы, методы и методики прошли успешную апробацию в рамках суперкомпьютерного комплекса Московского университета на большом числе реальных приложений пользователей.

Апробация работы. В четвертой главе приводятся результаты апробации предложенного подхода. Результаты применения разработанных методов на реальном потоке задач Суперкомпьютерного комплекса Московского государственного университета имени М.В. Ломоносова показали свою целесообразность, а также перспективность внедрения и в других суперкомпьютерных центрах.

Содержание работы. Диссертационная работа состоит из четырех основных глав, содержание которых может быть описано следующим образом.

В первой главе приводится описание текущего состояния объекта и предмета исследований. Объектом исследований является задача исследования эффективности работы параллельных приложений и

суперкомпьютерных систем, предметом исследований - решение данной задачи на основе использования данных системного мониторинга. Приводится описание существующих подходов к решению задачи исследования эффективности работы параллельных приложений и суперкомпьютерных систем, а также описание существующих инструментов, связанных с решением этой задачи.

Проведенный обзор показал, что, несмотря на проводимые исследования в данной области, на текущий момент задачу нельзя назвать полностью решенной. Вместе с тем выполненный обзор указывает на предпосылки к разработке комплексного подхода к исследованию эффективности, а также возможности и целесообразность использования данных системного мониторинга в качестве основы для такого рода анализа.

Вторая глава посвящена описанию сути предлагаемого комплексного подхода к исследованию эффективности. Рассматриваются все этапы выполнения приложения на суперкомпьютерной системе. В соответствии с этими этапами вводятся три уровня абстракции при исследовании эффективности высокопроизводительной системы: исследование эффективности выполнения отдельного приложения, исследование соответствия приложений свойствам отдельного раздела суперкомпьютера и исследование эффективности использования ресурсов всего счетного поля. Основным выводом главы является возможность разработки методов анализа, соответствующих введенным уровням абстракции, основанных на данных системного мониторинга и общедоступных, эффективных инструментах.

В третьей главе описан предлагаемый метод описания причин и признаков снижения эффективности параллельных приложений и суперкомпьютерных систем. В главе приведены результаты исследований, являющиеся основой для разработанных методов исследования эффективности. В главе рассмотрено введение набора , ключевых

1,1 , ч. I ' ' < • ■'

4 , г / , ! 1 (

• 8 .

характеристик и принципов его формирования. Предложен формат описания динамических характеристик с учетом источника данных для их построения. Описаны основные варианты поведения динамических характеристик, диапазоны их изменений и некоторые предложения по интерпретации значений. Описан принцип формирования интегральных характеристик. Указаны возможные взаимосвязи между характеристиками. Введено понятие причин и признаков снижения эффективности суперкомпьютерных приложений и систем. Предложен формат описания установленного соответствия признаков и причин снижения эффективности работы суперкомпьютерных приложений.

В четвертой главе сформулированы принципы и описаны методы проведения комплексного анализа эффективности параллельных приложений и суперкомпьютерных систем. Это принципы и методы исследования эффективности выполнения отдельного приложения, исследование соответствия приложений свойствам отдельного раздела суперкомпьютера и исследование использования ресурсов всего счетного поля. Приведены примеры, показывающие эффективность предложенных методов комплексного анализа.

В заключении сформулированы основные результаты диссертационной работы.

Глава 1. Существующие подходы к исследованию эффективности работы суперкомпьютерных приложений и суперкомпьютерных систем

Современные суперкомпьютерные центры обладают огромными вычислительными ресурсами, эффективное использование которых позволяет получать прорывные решения во многих областях промышленности, науки и образования. В это вносят вклад и новые разработки в архитектуре и алгоритмах, и сам рост масштабов вычислителей. Передовые вычислительные системы уже сейчас содержат десятки, сотни тысяч, а то и миллионы вычислительных ядер. Флагманская Российская система Ломоносов насчитывает около 90 ООО вычислительных ядер при пиковой производительности 1,7 РР1ор/Б. Масштабы решаемых задач также растут по мере роста возможностей суперкомпьютеров [1]. Для одних задач рост вычислительных возможностей отражается на скорости получения результатов, для других - на его точности и т.д. Кроме того, появляются задачи, к решению которых в принципе стало возможным подступиться, достигнув определенного уровня в развитии суперкомпьютерной техники.

Проводя анализ истории развития вычислительных возможностей

суперкомпьютеров, например, на основании рейтинга Топ500 самых мощных

вычислительных систем в мире [2], замечено, что производительность

передовых вычислительных установок увеличивается на три порядка

приблизительно каждые 10 лет. На данный момент производительность

самых мощных систем измеряется десятками РР1ор/Б (1016 операций в

секунду), а число вычислительных ядер достигает трех миллионов.

Большинство экспертов сходятся в том мнении, что через 5-7 лет

суперкомпьютерные системы выйдут на экзафлопсный уровень

18

производительности (10 операций в секунду). Вокруг данной темы,

, ( 1 ,, , 1 1 , ' 1 • г» 1 " ,

которую чаще всего именуют термином «ЕхавсаЬ», по всему миру ведутся активные работы, вовлечены ведущие специалисты, представляющие лидирующие мировые центры [3]. Вычислительные системы будут содержать сотни миллионов ядер, но столь невероятный ресурс параллелизма при всей своей привлекательности ставит массу серьезных вопросов. Один из них состоит в обеспечении эффективного использования возможностей самих суперкомпьютеров. Для передовых, дорогостоящих систем, для систем с высокой стоимостью содержания, высоким уровнем электропотребления, этот вопрос стоит наиболее остро. Даже самая мощная вычислительная система при низкой эффективности работы может по реальной отдаче опуститься на одну ступень с существенно уступающей в своем потенциале системой. Именно поэтому очень важно уделять особое внимание эффективности использования вычислительных систем и суперкомпьютерных центров.

Успешное функционирование современного суперкомпьютерного центра обладает целым рядом важных условий и особенностей. Известно, что надежность системы определяется наиболее слабым ее звеном. По аналогии, и при организации работы суперкомпьютерного центра попытка пренебречь одной из важных его особенностей может обернуться сведением на нет любых других результатов оптимизации. Именно во всестороннем подходе к анализу эффективности работы кроется залог успеха решения задачи по обеспечению эффективной работы суперкомпьютерного центра. Рассмотрим некоторые важные особенности работы суперкомпьютерных комплексов и возможности обеспечения их эффективной работы.

С тем чтобы обеспечить формирование объективной картины, отражающей всю специфику процессов, возникающих в ходе работы вычислительной системы или комплекса систем, необходимо опираться на некоторый достоверный, надежный источник сведений о возникновении элементарных событий и о состоянии программно-аппаратной среды. Этим

задачам хорошо соответствуют системы мониторинга. Несмотря на то, что работы в данном направлении ведутся давно, остаются существенные недостатки и пробелы в доступных комплексах мониторинга. Наибольшую сложность вызывает масштабирование системы мониторинга при сохранении приемлемой грануляции съема данных и числа снимаемых метрик. При этом необходимо придерживаться допустимого уровня накладных расходов, не допуская существенного влияния на сам ход выполнения программ. Существующие системы мониторинга не всегда удовлетворяют данным требованиям уже на масштабах современных вычислительных систем [4].

Таким образом, одной из первых больших актуальных задач является создание и доработка хорошо масштабируемых систем мониторинга с целью сбора полного объёма достоверной информации обо всех аспектах функционирования суперкомпьютерного комплекса.

Помимо задачи непосредственно сбора данных мониторинга следует учесть, что существует ряд задач, тесно с ней сопряженных. Это задачи первичной обработки данных мониторинга, агрегации, балансировки накладных расходов, организации пересылки и сохранения данных для необходимой последующей обработки. Естественным образом вытекает необходимость организации работы с сохраненными данными, и работы с результатами первичной обработки. К некоторым аспектам этой большой задачи мы еще будем возвращаться в рамках данной работы.

Следует также отметить, что важнейшим преимуществом наличия отлаженной системы мониторинга является возможность создания автоматических и автоматизированных инструментов обеспечения оперативного контроля и эффективной автономной работы систем. В основе такой системы находится подробная модель вычислителя и обширный набор правил и реакций на текущее состояние аппаратуры и окружения. Своевременное выведение сбойных узлов из счетного поля, реакция на некорректное поведение системного ПО, возникновение прочих внештатных

ситуаций вплоть до пожара и несанкционированного проникновения в помещения с ограниченным доступом - все это не только способно предотвратить прямой ущерб от возникающих ситуаций, но и сократить число неудачных запусков приложений, что позволит за то же время повести большее число полезных расчетов, повышая эффективность использования доступных ресурсов. Большая часть известных решений таких задач, с одной стороны, обладают крайне скудным функционалом, а другой - зачастую глубоко интегрированы в коммерческие решения поставщиков суперкомпьютерных систем, что существенно ограничивает возможность их использования даже в случае возможности их модификации до приемлемого функционального уровня. Известен и пример разработки системы, учитывающей подобные недочеты ранее использовавшихся инструментов [5]. Данная разработка обещает быть перспективной и уже проходит апробацию в Суперкомпьютерном центре Московского университета.

Разработка полноценной системы обеспечения оперативного контроля и эффективной работы суперкомпьютерных комплексов открывает возможность решения и новых перспективных задач. Например, анализ взаимосвязей возникающих ошибок и цепочек распространения ошибок по иерархии вычислительного комплекса. Другим примером такой задачи является задача анализа истории аварийных и нештатных ситуаций. В результате решения таких задач появляется возможность разработки методов предсказания возникновения сбойной ситуации для превентивного принятия мер к предотвращению возникновения самой ситуации, что опять-таки скажется на повышении доступности сервисов и повышении эффективности использования ресурсов.

Помимо автоматизированной или полностью автоматической реакции на изменения условий работы суперкомпьютера, требуется инструментарий, который позволил бы администратору системы получить исчерпывающую картину происходящего на вычислительной установке целиком или на какой-

то ее части. Исходных данных, полностью отражающих текущее состояние системы, весьма много, поэтому грамотная их агрегация, структуризация и разбиение на отдельные смысловые блоки и уровни абстракции -существенное подспорье для их анализа. Одни и те же данные можно представить в разном виде, и правильный метод их представления и визуализации упрощает восприятие, делает поиск аномалий более эффективным.

Отдельно следует упомянуть о задаче управления пользовательскими данными, выделенными квотами и доступами к ресурсам, свойствами учетных записей, лицензиями и т.д. Каждый суперкомпьютерный центр, являющийся центром коллективного пользования, неизбежно сталкивается с необходимостью учета и планирования всей массы административных вопросов, неотрывно связанных с обеспечением доступа к вычислительным ресурсам. Как показывает опыта общения с лидирующими вычислительными центрами России (МСЦ РАН, ЮУрГУ) и зарубежья (JSC - Юлих, Германия; BSC - Барселона, Испания) и другими - везде эти вопросы решаются по-своему, но неизменно - набором разных инструментов, не решающих требуемой задачи в полной мере централизованно. Известны решения, являющиеся составной части коммерческой поставки вычислительной системы, но они не предоставляют гибкости настройки и привязаны к конкретной конфигурации системы. В Суперкомпьютерном центре Московского университета совместно с компанией Evrone ведется работа над созданием интегрированной системы обеспечения поддержки работы суперкомпьютерного центра [(октошелл)]. В данный момент система используется в базовой версии, но уже на этом этапе очевидны преимущества предложенного авторами подхода, что выливается в удобство и экономию времени как пользователей, так и администраторов систем.

Результат работы вычислительного центра складывается из результатов, полученных каждым отдельным пользователем, решающим

задачу своей предметной области. Задач этих - великое множество из самых разных областей. И путь каждой из задач от момента возникновения идеи в голове исследователя, ее формулировании в виде научной проблемы и до получения ее численного решения проходит множество этапов. Свое влияние на итоговую эффективность вносят все элементы этой цепочки [7]. Итоговый ход выполнения и свойства задачи зависят от того, на какие узлы системы была она распределена, от результатов работы компилятора и использованных опций оптимизации, от самого кода программы, корректности и особенностей его написания, от выбранных алгоритмов и методов решения прикладной задачи. Каждая задача вносит свой вклад в эффективность того раздела, в рамках которого она запущена. Поток всех пользовательских задач отражает общую отдачу от вычислительной системы. Отметим, что первая часть цепочки - от выбора пользователем методов и алгоритмов, соответствующих решаемой прикладной задаче, до запуска задачи, характерна для любых типов вычислительных систем, вне зависимости от уровня их производительности. Во многом именно этим обуславливается то, что данный этап решения прикладной задачи является наиболее исследованным. Существует масса специализированных средств для детального исследования свойств приложений, направленного на последующую оптимизацию. Завершающая же часть цепочки формирование потока задач, обычно рассматривается независимо.

В данной работе будет показано, что существование развитой системы мониторинга позволяет использовать получаемые данные для исследования как динамических свойств приложений, так и для исследования свойств потоков задач. В частности, такие возможности являются существенным подспорьем при решении важной сопряженной задачи - изучения эффективности программного обеспечения суперкомпьютера. Это может быть планировщик, настройка сетевой файловой системы и т.п. Типовых решений подобных задач нет, и системные администраторы исследуют

данные аспекты собственными силами, что далеко не всегда приводит к получению верных выводов, принятию соответствующих решений, и, как следствие, эффективность работы реальных приложений получается сильно ограниченной условиями среды, в которой они работают.

Возвращаясь к исследованию динамических свойств параллельных приложений, составляющих поток задач суперкомпьютерного центра, следует отметить, что в существующем многообразии специализированных средств для исследований динамических свойств, большинство инструментов ориентированы на исследование отдельного приложения и не могут быть применимы для оценки всех задач из потока. Подходы же, основанные на исследовании данных системного мониторинга, позволяют не только исследовать отдельные задачи, но и на основании тех же данных оценить состав потока задач в отдельном разделе или по системе в целом, что будет показано в последующих главах. Тем не менее, проблема исследования эффективности отдельных задач без внесения в них каких-либо изменений, а лишь на основании анализа собранной статистики в ходе работы задачи, остается актуальной, а решение ее - востребованным. Не многие знают, что на практике эффективность приложений зачастую находится на уровне всего нескольких процентов. В последние годы большая исследовательская работа в данном направлении ведется в Московском университете, которая находит поддержку как в административных кругах в форме грантов и государственных контрактов [8, 9], так и среди специалистов - от начинающих исследователей до профессионалов, опытных пользователей суперкомпьютерных систем.

Вернемся на уровень всей вычислительной установки. Каждая высокопроизводительная вычислительная система по-своему уникальна. Она работает в определенных условиях, у каждой системы свой набор выполняемых приложений со своими особенностями и т.д. Естественным образом давно возникало желание как-то сравнить эффективность систем.

' ' ' г

Этой задаче отвечают суперкомпьютерные мировые рейтинги, такие как Тор500, вгееп500 [10], СгарЬ500 [11]. Первый использует для ранжирования систем по результатам, полученным на тесте Ыпраск (решение системы линейных уравнений), второй - это тот же результат, нормированный по энергопотреблению, третий является относительно новым и реализует подход оценки производительности системы на основании возможной скорости поиска по графу. Все эти рейтинги объединяет одно - они отражают некоторую потенциальную возможность суперкомпьютерной системы, но они не отражают реальной эффективности работы системы в условиях реального потока задач. Потребность разработки системы метрик эффективности суперкомпьютерных комплексов подпирается тем, что их наличие позволило бы администраторам и держателям систем лучше контролировать использование систем, позволило бы провести оптимизационные процессы при выявлении признаков низкой эффективности. Многие идеи можно почерпнуть из уже разработанных методик - оценивать среднее время ожидания предоставления сервиса, соотношение времени счета и времени ожидания и т.п. Тем не менее, это большая исследовательская работа, которая существенно бы помогала в оценке загруженности систем и эффективности их использования.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Список литературы диссертационного исследования кандидат наук Никитенко, Дмитрий Александрович, 2014 год

Список литературы

1. Воеводин Вл.В., Жуматий С.А., Соболев С.И., Антонов А.С., Брызгалов П.А., Никитенко Д.А., Стефанов К.С., Воеводин Вад.В. Практика суперкомпьютера "Ломоносов" // Открытые системы. 2012. № 7. 36-39.

2. Тор500 Supercomputer Sites [Электронный ресурс] : [web-сайт] / Тор500. -Режим доступа: http://top500.org. - 19.06.2014.

3. Big Data and Extreme-Scale computing workshop [Электронный ресурс] : [web-сайт] / BDEC.. - Режим доступа: http://exascale.org. - 19.06.2014.

4. Стефанов К.С. Распределенная система сбора и обработки информации о состоянии программно-аппаратной среды суперкомпьютеров // Труды международной суперкомпьютерной конференции «Научный сервис в сети Интернет: все грани параллелизма» (23 - 28 сентября 2013 г., г. Новороссийск).—М: Изд-во МГУ, 2013.—С. 355-360.

5. Воеводин Вл.В., Соболев С.И., Антонов А.С., Никитенко Д.А., Стефанов К.С., Воеводин Вад.В., Швец П.А., Жуматий С.А. Разработка принципов построения и реализация прототипа системы обеспечения оперативного контроля и эффективной автономной работы суперкомпьютерных комплексов// Научный сервис в сети Интернет: все грани параллелизма: Труды Всероссийской научной.-М.: Изд-во МГУ, 2013. С. 347-354.

6. Жуматий С.А., Никитенко Д.А. Подход к гибкому управлению суперкомпьютерами // Научный сервис в сети Интернет: все грани параллелизма: Труды Всероссийской научной.-М.: Изд-во МГУ, 2013. С. 296-300.

7. Воеводин В.В., Воеводин Вл.В. Параллельные вычисления. СПб.: БХВ-Петербург, 2002.

8. Автоматическое обнаружение логических ошибок и шаблонов неэффективного поведения в параллельных приложениях на основе данных системного мониторинга. Отчет о НИР, ГК №14-514-11-4062;

МГУ имени M.B. Ломоносова; рук. Вл.В. Воеводин; исполн.: Д. А. Никитенко [и др.]. М.: ЦИТИС, 2013. 161 с. Инв. № 02201361358.

9. Исследование типовых профилей использования суперкомпьютерных комплексов на основе данных системного мониторинга для формирования банка прототипированных приложений. Отчет о НИР; ГК №14-514-11-4107; МГУ имени М.В. Ломоносова; рук. Вл.В. Воеводин; исполн.: Д. А. Никитенко [и др.]. М.:ЦИТИС, 2013. 230 с. Инв. № 02201457601

10. The Green500 List News And Submitted Items | The Green500 [Электронный ресурс] : [web-сайт] / Green500. - Режим доступа: http://green500.org. — 19.06.2014.

11. Brief Introduction | Graph 500 [Электронный ресурс] : [web-сайт] / Graph500. - Режим доступа: http://graph500.org. - 19.06.2014.

12. Scalasca [Электронный ресурс] : [web-сайт] / Scalasca. - Режим доступа: http://www.scalasca.org. - 19.06.2014

13. Markus Geimer, Felix Wolf, Brian J. N. Wylie, Daniel Becker, David Böhme, Wolfgang Frings, Marc-André Hermanns, Bernd Mohr, Zoltân Szebenyi:

Recent Developments in the Scalasca Toolset. In Tools for High Performance

(

Computing 2009, Proc. of the 3rd Parallel Tools Workshop, Dresden, Germany, September 2009, chapter 4, pages 39-51, Springer, 2010.

14. SCORE-P [Электронный ресурс] : [web-сайт] / VI-HPS. - Режим доступа: http://www.vi-hps.org/projects/score-p. - 19.06.2014

15. Andreas Knüpfer, Christian Rössel, Dieter an Mey, Scott Biersdorff, Kai Diethelm, Dominic Eschweiler, Markus Geimer, Michael Gerndt, Daniel Lorenz, Allen D. Malony, Wolfgang E. Nagel, Yury Oleynik, Peter Philippen, Pavel Saviankou, Dirk Schmidl, Sameer S. Shende, Ronny Tschüter, Michael Wagner, Bert Wesarg, Felix Wolf: Score-P - A Joint Performance Measurement Run-Time Infrastructure for Periscope, Scalasca, TAU, and

Vampir. In Proc. of 5th Parallel Tools Workshop, 2011, Dresden, Germany, pages 79-91, Springer Berlin Heidelberg, September 2012.

16. ThreadSpotter [Электронный ресурс] : [web-сайт] / Rogue Wave Software. -Режим доступа: http://www.roguewave.com/products/threadspotter. -19.06.2014

17. Vampir [Электронный ресурс] : [web-сайт] / TUD - ZIH. - Режим доступа: http://www.tu-dresden.de/zih/vampir. - 19.06.2014

18. HTCToolkit Home [Электронный ресурс] : [web-сайт] / Rice University, Rice Computer Center. - Режим доступа: http://hpctoolkit.org. - 19.06.2014

19. Laksono Adhianto, Sinchan Banerjee, Mike Fagan, Mark Krentel, Gabriel Marin, John Mellor-Crummey, and Nathan R. Tallent. HPCToolkit: Tools for performance analysis of optimized parallel programs. Concurrency and Computation: Practice and Experience, 22(6):685-701, 2010.

20. Intel VTune [Электронный ресурс] : [web-сайт] / Intel Software. - Режим доступа: http://software.intel.com/en-us/intel-vtune-amplifier-xe. -19.06.2014

21. Paradyn Tools Project [Электронный ресурс] : [web-сайт] / Paradyn Tools . — Режим доступа: http://www.paradyn.org. — 19.06.2014

22. Andrew R. Bernat, Kevin Roundy, and Barton. P Miller, «Efficient, Sensitivity Resistant Binary Instrumentation», International Symposium on Software Testing and Analysis (ISSTA), Toronto, Canada, July 2011.

23. Philip J. Mucci, Daniel Ahlin, Johan Danielsson, Per Ekman, Lars Malinowski. PerfMiner: Cluster-Wide Collection, Storage and Presentation of Application Level Hardware Performance Data. In Proceedings of 2005 European Conference on Parallel Computers (Euro-Par), pages 124-133.

24. Крюков В.А. Разработка параллельных программ для вычислительных кластеров и сетей // Информационные технологии и вычислительные системы. 2003. № 1-2. 42-61.

25. Intel Inspector XE [Электронный ресурс] : [web-сайт] / Intel Software. -Режим доступа: http://software.intel.com/en-us/intel-inspector-xe. -19.06.2014

26. Ganglia Monitoring System [Электронный ресурс] : [web-сайт] / Sourceforge.net. - Режим доступа: http://ganglia.sourceforge.net. -19.06.2014

27. Nagios - The Industry Standard In IT Infrastructure Monitoring [Электронный ресурс] : [web-сайт] / Nagios. - Режим доступа: http://nagios.org. -19.06.2014

28. SUPERMON [Электронный ресурс] : [web-сайт] / Sourceforge.net. — Режим доступа: http://supermon.sourceforge.net. - 19.06.2014

29. Жуматий С.А. Испытываем Antmon — новую систему мониторинга // Системный администратор. 2005. №6. С. 20-24.

30. ClustrX Watch [Электронный ресурс] : [web-сайт] / Т-Платформы. — Режим доступа: http://www.t-

platforms.ru/products/software/cIustrxproductfamily/clustrxwatch.html. -19.06.2014.

31. PAPI [Электронный ресурс] : [web-сайт] / Innovative Computer Laboratory. - Режим доступа: http://icl.cs.utk.edu/papi. - дата обращения: 19.06.2014

32. PAPIex [Электронный ресурс] : [web-сайт] / Innovative Computer Laboratory. - Режим доступа: http://icl.cs.utk.edu/~mucci/papiex. — дата обращения: 19.06.2014

33. HOPSA [Электронный ресурс] : [web-сайт] / VI-HPC Projects. - Режим доступа: http://www.vi-hps.org/projects/hopsa/overview. - 19.06.2014

34. Mohr В., Voevodin VI., Gimenez J., Hagersten E., Knuepfer A., Nikitenko D., Nilsson M., Servat H., Shah A., Winkler F., Wolf F., Zhujov I. The HOPSA workflow and tools // Tools for High Performance Computing. Heidelberg: Springer, 2013. 127-146.

35. Адинец A.B., Брызгалов П.А., Воеводин Вад.В., Жуматий С.А., Никитенко Д.А., Стефанов К.С. Job Digest — подход к исследованию динамических свойств задач на суперкомпьютерных системах // Вестн. Уфимского гос. авиационного технического ун-та. 2013. 17, № 2. 131— 137.

36. Никитенко Д.А., Стефанов К.С. Исследование эффективности параллельных программ по данным мониторинга // Вычислительные методы и программирование. 2012. 13. 97-102.

37. Брызгалов П.А., Жуматий С.А., Никитенко Д.А., Адинец A.B. Система визуализации параметров работы больших вычислительных систем // Сб. трудов Международной научной конференции "Параллельные вычислительные технологии 2012" (ПаВТ-2012). 2012. 714.

38. Адинец A.B., Брызгалов П.А., Воеводин В.В., Жуматий С.А., Никитенко Д.А. Мониторинг, анализ и визуализация потока заданий на кластерной системе // Материалы XI Всероссийской конференции "Высокопроизводительные параллельные вычисления на кластерных системах". Нижний Новгород: Изд-во Нижегородского госуниверситета, 2011. 10-14.

39. Адинец A.B., Жуматий С.А., Никитенко Д.А. Hoplang - язык обработки потоков данных мониторинга // Сб. трудов Международной научной конференции "Параллельные вычислительные технологии 2012" (ПаВТ-2012). 2012. С. 351-359.

40. Воеводин Вад В., Стефанов К.С., Никитенко Д.А., Адинец A.B., Брызгалов П.А., Жуматий С.А. Hoplang - развитие языка обработки потоков данных мониторинга // Вычислительные методы и программирование. 2012. 13. 126-131.

41. Воеводин Вл.В., Жуматий С.А. Вычислительное дело и кластерные системы. М.: Изд-во Моск. ун-та, 2007.

. . I > '' г* ■ < ' \ 11 , ♦ ' ' ' I

139 '

42. Tivoli Workload Scheduler LoadLeveler [Электронный ресурс] : [web-сайт] / IBM. - Режим доступа: http://www-

O3.ibm.com/soflware/products/ru/ru/tivoliworkloadschedulerloadleveler.-19.06.2014.

43. Менеджер ресурсов TORQUE [Электронный ресурс] : [web-сайт] / Ыпих.Кластер. Практическое руководство по параллельным вычислениям. - Режим доступа: http://cluster.linux-ekb.info/torque.php-19.06.2014.

44. SLURM [Электронный ресурс] : [web-сайт] / IBM. - Режим доступа: https://computing.llnl.gov/linux/slurm/.- 19.06.2014.

45. Система управления заданиями CLEO [Электронный ресурс] : [web-сайт] / ParCon.Parallel.ru. - Режим доступа: http://parcon.parallel.ru/cleo.html-19.06.2014.

46. Тор50 Суперкомпьютеры [Электронный ресурс] : [web-сайт] / Тор50. -Режим доступа: http://top50.supercomputers.ru. - 19.06.2014.

47. Никитенко Д.А. Комплексный анализ производительности суперкомпьютерных систем, основанный на данных системного мониторинга // Вычислительные методы и программирование. 2014. 15. 85-97.

48. Berry М., Gallivan К., Gallopoulos Е., Grama A., Philippe В., Saad Y., Saied F. (Eds.) High-performance scientific computing. Algorithms and applications. New York: Springer, 2012.

49. Адинец A.B., Брызгалов П.А., Воеводин Вад.В., Жуматий С.А., Никитенко Д.А. Об одном подходе к мониторингу, анализу и визуализации потока заданий на кластерной системе // Вычислительные методы и программирование. 2011. 12. 90-93.

50. Jin X., Zhang F., Song Y., Fan L., Liu Z. Energy: efficient scheduling with time and processors eligibility restrictions // Lecture Notes in Computer Science. Vol. 8097. Heidelberg: Springer, 2013. 66-77.

51. Bailey D., Lucas R., Williams S. (Eds.) Performance tuning of scientific applications. Boca Raton: CRC Press, 2011.

52. Servat H., Llort G., Gimenez J., Huck K., Labarta J. Folding: detailed analysis with coarse sampling // Tools for High Performance Computing. Heidelberg: Springer, 2013. 105-118.

53. Антонов A.C., Жуматий С.А., Никитенко Д.А., Стефанов К.С., Теплов A.M., Швец П.А. Исследование динамических характеристик потока задач суперкомпьютерной системы // Вычислительные методы и программирование. 2013. 14. 104-108.

54. Shah A., Wolf F., Zhumatiy S., Voevodin VI. Capturing inter-application interference on clusters // Proc. of the 2013 IEEE Int. Conf. on Cluster Computing (CLUSTER 2013). New York: IEEE Press, 2013. 1-5.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.