Разработка и исследование архитектуры глобально адресуемой памяти мультитредово-потокового суперкомпьютера тема диссертации и автореферата по ВАК РФ 05.13.15, кандидат технических наук Семенов, Александр Сергеевич

  • Семенов, Александр Сергеевич
  • кандидат технических науккандидат технических наук
  • 2010, Москва
  • Специальность ВАК РФ05.13.15
  • Количество страниц 224
Семенов, Александр Сергеевич. Разработка и исследование архитектуры глобально адресуемой памяти мультитредово-потокового суперкомпьютера: дис. кандидат технических наук: 05.13.15 - Вычислительные машины и системы. Москва. 2010. 224 с.

Оглавление диссертации кандидат технических наук Семенов, Александр Сергеевич

Введение

Актуальность темы.

Цель и задачи работы.

Основные результаты работы.

Научная новизна работы

Практическая ценность работы.

Доклады и публикации.

1 Проблемы организации глобально адресуемой памяти суперкомпьютеров и обзор их решений

1.1 Требования к организации глобально адресуемой памяти

1.2 Методика разработки и исследования глобально адресуемой памяти мультитредовопотокового суперкомпьютера.

1.3 Архитектура глобально адресуемой памяти в серии суперкомпьютеров Тега МТА, Cray МТА

2, Cray ХМТ

1.4 Архитектура глобально адресуемой памяти суперкомпьютера Cray XI.

1.5 Архитектура глобально адресуемой памяти суперкомпьютера Cray BlackWidow.

1.6 Архитектура глобально адресуемой памяти суперкомпьютера Cray ТЗЕ.

1.7 Программ но-аппаратная поддержка глобально адресуемой памяти

1.8 Итоговый анализ суперкомпьютеров перед разработкой глобально адресуемой памяти мультитредово-потокового суперкомпьютера.

1.9 Выводы.

2 Глобально адресуемая память мультитредово-потокового суперкомпьютера

2.1 Общее описание суперкомпьютера "Ангара" и его глобально адресуемой памяти

2.2 Базовые адресуемые элементы памяти.

2.3 Команды обращения в память.

2.4 Физическая память.

2.5 Виртуальная память.

2.5.1 Уровень V-сегментов - защита и управление распределением по узлам.

2.5.2 Уровень R-сегментов - управление размещением данных внутри узлов.

2.6 Трансляция виртуальных номеров узлов в логические.

2.7 Сравнение разработанной архитектуры глобально адресуемой памяти с существующими.

2.8 Выводы.

3 Имитационная модель мультитредово-потокового СКСН "Ангара"

3.1 Общее описание имитационной модели.

3.2 Моделирование выполнения команд работы с памятью.

3.3 Моделирование коммуникационной сети.

3.4 Моделирование блока MMU трансляции адресов.

3.5 Итоговые задержки обращений к памяти.

3.6 Выполнение имитационной модели на суперкомпьютере.

3.7 Выводы.

4 Исследование эффективности разработанной архитектуры глобально адресуемой памяти

4.1 Методика оценочного тестирования па основе тестов HPCChallenge и АРЕХ-поверхностей.

4.2 Эффективность реализации виртуальной памяти.

4.2.1 Оценка влияния ограничений аппаратной реализации виртуальной памяти на производительность суперкомпьютера.

4.2.2 Моделирование промахов при обращении к VTLB и RPTLB.

4.3 Оценка производительности суперкомпьютера при решении различных прикладных задач.

4.3.1 АРЕХ-МАР.

4.3.2 STREAM

4.3.3 RandomAccess.

4.3.4 FFT.

4.3.5 Умножение матриц.

4.3.6 Поиск вширь в графе.

4.3.7 Общий анализ производительности.

4.4 Оценка поддержки предложенной архитектурой памяти перспективных языков программирования на примере UPC.

4.4.1 Чтение-запись из удаленной памяти.

4.4.2 Оценка поддержки ARMCI.

4.4.3 Оценка поддержки GASNet.

4.4.4 Оценка поддержки языков PGAS на примере языка UPC.

4.5 Оценка функциональности глобально адресуемой памяти при решении задач

4.6 Выводы.

Рекомендованный список диссертаций по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка и исследование архитектуры глобально адресуемой памяти мультитредово-потокового суперкомпьютера»

Актуальность темы

Важнейшими проблемами современных высокопроизводительных вычислении являются развиваемая на многих задачах низкая реальная производительность суперкомпьютеров в сравнении с заявленной пиковой производительностью, а также низкая продуктивность параллельного программирования суперкомпьютеров. Эти проблемы существенно усиливают ряд других серьезных трудностей, например: высокое энергопотребление, чрезмерная стоимость систем и недопустимо длительные процессы разработки приложений.

Главные работы по решению проблем низкой реальной производительности и низкой продуктивности программирования в настоящее время ведутся фирмами Cray (проект Cascade) и IBM (проект PERCS) с целью создания суперкомпьютеров стратегического назначения (СКСН) транспетафлопсного уровня реальной производительности с перспективной мультитредово-векторной архитектурой и глобально адресуемой памятью. Эти проекты ведутся в рамках крупной американской программы DARPA HPCS, начатой в 2002 году. Всего лишь с задержкой в 4 года к работам по созданию СКСН такого же типа приступили ведущие фирмы и государственные организации Японии (проект Keisoku-Keisan-Ki) и Китая (проект "программа 863"). При этом наиболее близок к основным решениям проектов программы DARPA HPCS проект создания китайской перспективной СКСН, который предполагает создание собственного массово-мультитредового микропроцессора и собственной специальной коммуникационной сети с большой пропускной способностью и малым диаметром.

В России работа по перспективной СКСН ведутся с 2000 года в рамках разных НИОКР, а с 2005 года - в рамках проекта "Ангара" по созданию мультитредово-потокового суперкомпьютера с глобально адресуемой памятью.

Главной задачей, решаемой в этих проектах, является преодоление так называемой проблемы «стены памяти». Суть этой проблемы состоит в сложившемся на сегодняшний день значительном отставании (сотни раз) времени выполнения операций с оперативной памятью от времени выполнения арифметико-логических операций в процессоре. Эта проблема обусловлена особенностями развития микроэлсктронной компонентой базы — задержка обращения к внекристальной DRAM-памяти с учетом промахов в кэш-память дескрипторов сегментов и/или страниц может составлять 300-500 тактов процессора. Задержка обращения к коммуникационной сети может составлять десятки тысяч тактов процессора. Значимость этой проблемы усилена качественными изменениями требований перспективных прикладных программ - увеличение необходимого задаче логически неделимого объема памяти, рост доли команд обращений к памяти, нарастающее ухудшение пространственно-врсмснной локализации обращений к памяти (нерегулярность). Следует отметить важность приложений с интенсивной нерегулярной работой с памятью (сокращенно DIS-задачн), особенно в областях обеспечения национальной безопасности.

Наличие проблемы ''стены памяти" приводит к тому, что на DIS-задачах пз-за простоев процессора при ожидании данных из памяти реальная производительность (sustained performance) СКСН может деградировать до 5-0.1 % от пиковой производительности. Эта проблема также не позволяет существенно масштабировать реальную производительность при увеличении количества процессоров, используемых при выполнении задачи. В результате многие DIS-задачи практически невозможно решить за приемлемое время на су и чествующих суперкомпьютерах.

Решение проблемы "стены памяти" позволит реально работать с глобально адресуемой памятью и перейти на одностороннее взаимодействие параллельных процессов, что важно для эффективного выполнения программ на языках нового поколения класса PGAS (Partitioned Global Address Space - языки UPC, CAF), а также для перспективных языков с иерархическим описанием параллельных программ (языки Chapel, Х10 и Fortress). В целом, это позволит повысить продуктивность параллельного программирования, по оценкам мировых экспертов - в 10-40 раз.

Повышение реальной производительности и продуктивности программирования повысит коэффициент полезного использования как оборудования, так и человеческого ресурса, поэтому повлияет па снижение энергопотребления, снизит стоимость систем и сократит сроки разработки приложений.

Проблема «стены памяти» должна решаться с учетом дополнительного условия повышенной информационной безопасности, обеспечиваемой на аппаратном уровне и связанной с эксплуатацией создаваемых перспективных СКСН для обеспечения национальной безопасности.

Решение проблемы «стены памяти» в создаваемых перспективных СКСН производится за счет комплексного использования новых архитектурных принципов построения процессоров, памяти и коммуникационной сети, а также применения новых вычислительных моделей программ и соответствующего системного и прикладного программного обеспечения. Архитектура глобально адресуемой памяти определяет организацию виртуального адресного пространства, методы его защиты, отображения на физическую память, алгоритмы трансляции виртуальных адресов в физические. Вопрос выбора этой архитектуры является одним из основных в перспективных СКСН. Выбор этой архитектуры должен быть компромиссным. С одной стороны, она не должна ограничивать функциональность и эффективность ее использования в приложениях. С другой стороны она не должна быть слишком сложной, чтобы ее реализация была эффективной в контексте применяемых в СКСН других решений.

Данная диссертационная работа посвящена разработке архитектуры глобально адресуемой памяти СКСН «Ангара», исследованию ее функциональности, эффективности и ее реализации в базовом для этой СКСН массово мультитредовом микропроцессоре с учетом выбранной коммуникационной сети и памяти, а также исследованию применяемых программ с разной мультитредовой организацией и используемыми моделями памяти.

Цель и задачи работы

Целью диссертационной работы является разработка архитектуры глобально адресуемой памяти для суперкомпьютера мультитредово-потокового типа. Для достижения этой цели решались следующие задачи:

1. Разработка архитектуры глобально адресуемой памяти мультитредово-потокового суперкомпьютера "Ангара", которая является развитием вариантов организации глобально адресуемой памяти известных суперкомпьютеров заказного типа.

2. Реализация глобально адресуемой памяти в параллельной имитационной модели суперкомпьютера "Ангара" для исследования эффективности применения разработанной архитектуры глобально адресуемой памяти при решении прикладных задач.

3. Исследование возможностей использования разработанной архитектуры глобально адресуемой памяти в сочетании с другими особенностями суперкомпьютера "Ангара" для достижения высокой реальной производительности.

4. Исследование возможности использования разработанной архитектуры глобально адресуемой памяти при реализации перспективных языков параллельного программирования РСАЭ-класса.

Основные результаты, выносимые на защиту

При выполнении диссертационной работы были получены следующие результаты, которые выносятся на защиту:

1. Разработана архитектура глобально адресуемой памяти мультитредово-потокового суперкомпьютера.

2. Разработаны и исследованы блоки, имитирующие работу глобально адресуемой памяти в составе параллельной программной потактовой имитационной модели суперкомпьютера «Ангара».

3. Показано, что применение разработанной глобально адресуемой памяти в сочетании с другими возможностями мультитредово-потокового суперкомпьютера "Ангара" в сравнении с опубликованными данными по существующим суперкомпьютерам позволяет: повысить реальную производительность на задачах с интенсивным нерегулярным доступом к памяти до одного-двух порядков при совпадении реальной производительности на остальных задачах; использовать при получении высокой реальной производительности короткие односторонние коммуникационные передачи, при помощи которых проще создавать параллельные программы по сравнению с традиционным программированием с использованием MPI.

4. Продемонстрирована возможность использования разработанной архитектуры глобально адресуемой памяти при реализации перспективных языков параллельного программирования PGAS-класса на примере языка UPC.

Научная новизна работы

Полученные результаты являются новыми. Разработанная архитектура защищена патентом Российской Федерации № 2396592 "Способ организации глобально адресуемой общей памяти в многопроцессорной ЭВМ" от 21 октября 2008 года и обладает следующими основными свойствами: имеет сегмеитпо-страничную организацию с двухуровневой виртуализацией адресов и широким диапазоном размеров сегментов и страниц, а также возможностью работы с сегментами сверхбольшого размера; обладает расширенными возможностями отображения виртуальной памяти на физическую за счет использования блочного и блочно-циклического методов, а также зашумления адресов; использует теги состояния в ячейках памяти и теги доступа в адресах, что позволяет выполнять мелкозернистую синхронизацию непосредственно на ячейках памяти без участия процессора; включает набор атомарных операций для односторонних взаимодействий параллельных процессов, векторных операций чтения-записи, операций синхронизации обращений к памяти.

Практическая ценность работы

Разработанная архитектура глобально адресуемой памяти является одним из основных архитектурных решений, принятых при разработке мультитредово-потокового суперкомпьютера "Ангара", которая ведется в ОАО "НИЦЭВТ" с 2006 года.

Программная параллельная имитационная потактовая модель мультитредово-потокового суперкомпьютера используется в ОАО "НИЦЭВТ" для отработки принципов работы суперкомпьютера "Ангара" и вариантов их аппаратной реализации, создания и отработки системного программного обеспечения, построения моделей вычислений прикладных задач.

Практическую ценность работы подтверждает акт №83/6-4328 от 26.10.2010 о внедрении архитектры глобально адресуемой памяти мультитредово-потокового суперкомпьютера в ОАО "НИЦЭВТ".

Полученные результаты исследования возможностей реализации средств продуктивного параллельного программирования используются при реализации интерфейсов и языков РСАБ-класса для суперкомпьютера

Ангара" и суперкомпьютеров поколения СКИФ-4.

Доклады и публикации

Основные положения работы докладывались на второй международной конференции "Параллельные вычислительные технологии" (ПАВТ-2008), на XIV международной конференции студентов, аспирантов и молодых ученых Ломоносов-2007, на научных семинарах в НИВЦ МГУ под руководством член-корр. д.ф.-м. н. Вл. В. Воеводина, в ОАО "НИЦЭВТ" под руководством к. ф.-м. н. Л. К. Эйсымонта, а также в ИПМ РАН (направление -"Программирование").

По материалам диссертации опубликовано восемь работ [1, 2, 3, 4, 5, б, 7, 8], в том числе три [1, 6, 7] из списка ВАК и патент РФ [5].

Краткое содержание работы

В первой главе формулируются требования к архитектуре глобально адресуемой памяти перспективных суперкомпьютеров, приводится обзор и анализ архитектур глобально адресуемой памяти существующих суперкомпьютеров. Главная цель обзора состоит в выяснении сильных и слабых качеств архитектур глобально адресуемой памяти суперкомпьютеров, а также в отслеживании динамики изменений, происходящих при переходе от одного поколения систем к другому в рамках одной линейки систем. Понимание этих вопросов позволяет учитывать при разработке опыт использования суперкомпьютеров высшей производительности при решении важнейших стратегических задач.

Вторая глава посвящена описанию разработанной автором архитектуры глобально адресуемой памяти. Описываются способы адресации и схемы трансляции адресов, защиты данных, рассматриваются вопросы обеспечения гибкости отведения памяти, эффективности схем трансляции адресов и выполнения обращений к памяти, управления локализации данных при отображении адресного пространства на физическую память.

В третьей главе описывается потактовая имитационная модель суперкомпьютера для исследования разработанной архитектуры. Приводятся оценки накладных расходов, необходимых для реализации глобально адресуемой памяти.

В четвертой главе приводятся результаты проведенных автором исследований на имитационной модели. С помощью тестов пакета НРС-ОтПенце на одном узле исследуются вопросы влияния накладных расходов на трансляцию адреса на производительность программ. Затем на мультипроцессорных вариантах тех же тестов производится общая оценка производительности системы и оценка функционального богатства и гибкости возможностей глобально адресуемой памяти.

В заключении перечисляются основные результаты работы.

Автор выражает искреннюю и глубокую благодарность руководителю работы к.ф.-м. н. Леониду Константиновичу Эйсымонту, а также коллегам по совместной работе - Александру Фролову, Алексею Соколову, Дмитрию Макагону, Дарье Аверичевой, Валерию Горохову и Александру Румянцеву.

Похожие диссертационные работы по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК

Заключение диссертации по теме «Вычислительные машины и системы», Семенов, Александр Сергеевич

Эти выводы подтверждают выполнение требования об эффективности доступа к памяти в разных режимах пространственно-временной локализации

Сравнение с современным уровнем производительности, достигнутым на существующих суперкомпьютерах при использовании стандартных языков программирования и библиотеки MPI, показало, что применение мультитредовых моделей с использованием разработанной архитектуры глобально адресуемой памяти позволило повысить уровень реальной и абсолютной производительности для задач DIS-класса до 1-2 порядков и сохранить уровень производительности на остальных задачах. Причем высокая реальная производительность была получена с использованием коротких односторонних коммуникационных передач, при помощи которых проще создавать параллельные программы по сравнению с традиционным программированием с использованием MPI. Таким образом, выполнено требование о функциональности разработанной архитектуры глобально адресуемой памяти.

Рассмотрим требование о поддержке разработанной глобально адресуемой памятью реализаций низкоуровневых интерфейсов GASNet и ARMCI, а также языков с вычислительной моделью PGAS. Анализ набора функций GASNet и ARMCI и их семантики показал, что эти интерфейсы удобно реализуются при помощи использования большого количества тредов и глобальной адресации.

В качестве языка с моделью PGAS взят язык UPC. Реализация языка UPC для СКСН "Ангара" обладает преимуществами по сравнению с реализацией UPC, например, на Cray XI. Во-первых, преимущество связано с наличием сегментов и суперсегментов, которые позволяют более гибкую и гранулированную работу с отдельными объектами в "Ангаре" по сравнению с Cray XI. Также, как и в Cray XI, для СКСН "Ангара" возможна эффективная трансляция указателей UPC на глобальную память в виртуальный адрес глобально адресуемой памяти. Во-вторых, для достижения высокой производительности на СКСН "Ангара" требуется распараллеливание программы на треды, что гибче и проще, чем векторизация программ, необходимая для достижения высокой производительности на Cray XI. Глобально адресуемая память СКСН "Ангара" обладает всеми функциональными свойствами организации памяти Cray XI, что с учетом известного положительного опыта реализации языков PGAS на Cray XI позволяет говорить о том, что разработанная глобально адресуемая память поддерживает удобную и эффективную реализацию PGAS-языков на СКСН "Ангара".

В заключение вернемся к методике разработки и исследования глобально адресуемой памяти. Разработанная архитектура предоставляет доступ к большому объему глобально адресуемой памяти, при помощи анализа выяснено, что предоставляются возможности экономного управления памятью. Исследования показывают, что накладные расходы на организацию глобально адресуемой памяти оказываются приемлемыми, а средства архитектуры позволяют достичь высокого уровня реальной производительности параллельных программ. При помощи анализа показано, что разработанная архитектура предоставляет широкий набор средс тв мелкозернистой синхронизации. Оценка показала, что разработанная архитектура поддерживает эффективную реализацию языков РСАЭ. Таким образом, разработанная глобально адресуемая память удовлетворяет всем пяти требованиям, сформулированным в первой главе, и следует признать за пей право на существование.

Заключение

В диссертационной работе получены следующие основные результаты:

1. Разработана архитектура глобально адресуемой памяти мультитредово-потокового суперкомпьютера.

2. Разработаны и исследованы блоки, имитирующие работу глобально адресуемой памяти в составе параллельной программной потактовой имитационной модели суперкомпьютера «Ангара».

3. Показано, что применение разработанной глобально адресуемой памяти в сочетании с другими возможностями мультитредово-потокового суперкомпьютера "Ангара" в сравнении с опубликованными данными по существующим суперкомпьютерам позволяет: повысить реальную производительность на задачах с интенсивным нерегулярным доступом к памяти до одного-двух порядков при совпадении реальной производительности на остальных задачах; использовать при получении высокой реальной производительности короткие односторонние коммуникационные передачи, при помощи которых проще создавать параллельные программы по сравнению с традиционным программированием с использованием MPI.

4. Продемонстрирована возможность использования разработанной архитектуры глобально адресуемой памяти при реализации перспективных языков параллельного программирования PGAS-класса на примере языка UPC.

Список литературы диссертационного исследования кандидат технических наук Семенов, Александр Сергеевич, 2010 год

1. Фролов A.C., Семенов A.C., Корснс A.A., Эйсымонт J1.K. Программа создания перспективных суперкомпьютеров // Открытые системы. - 2007. - №9. - С. 21-29.

2. URL: http://www.osp.ru/os/2007/09/4566841/ (дата обращения: 15.06.2010).

3. Семенов A.C., Эйсымонт Л.К. Параллельное умножение матриц на суперкомпьютере с мультитредово-потоковой архитектурой // Программные системы и инструменты. М.: - Издательство факультета ВМиК МГУ, 2007. - №8. - С. 106-117.

4. URL: http: //omega. sp. susu. ас. ru/books/conf erence/PaVT2008/ papers/fullpapers/024.pdf (дата обращения: 21.06.2010).

5. Патент РФ №2396592. Способ организации глобально-адресуемой общей памяти в многопроцессорной ЭВМ. Семенов A.C., Слуцкин A.PL, Соколов A.A., Эйсымонт JI.K. 2008.

6. Аверичева Д.Л., Семенов A.C., Фролов A.C. Поиск вширь в графе па суперкомпьютере с мультитредово-потоковой архитектурой // Информационные технологии. М.: - Издательство "Новые технологии", 2009. - Ж7. - С. 7-12.

7. Семенов A.C., Соколов A.A., Эйсымонт Л.К. Архитектура глобально адресуемой памяти мультитрсдово-потокового суперкомпьютера // ЭЛЕКТРОНИКА: Наука, Технология, Бизнес.- 2009. №1. - С. 50-61.

8. URL: http://www.electronics.ru/pdf/l2009/1962.pdf (дата обращения: 21.06.2010).

9. DARPA's HPCS Program: History, Models, Tools, Languages / Dongarra J., Graybill R., Harrod W. et al.J // Advances in Computers.- 2008. Vol. 72. - P. 1-100.

10. URL: http://netlib.org/utk/people/JackDongarra/PAPERS/adv-comp-darpa-08.pdf (дата обращения: 14.06.2010).10j Ubiquitous High Performance Computing (OHPC). DARPA-BAA-10-37, 2010.11J Omnipresent High Performance Computing (OHPC). DARPA-BAA-10-78, 2010.

11. URL: http://www.darpa.mil/tcto/docs/DARPAOHPCBAA-10-78.pdf (дата обращения: 21.10.2010).

12. Слуцкин А.И., Эйсымонт JI.K. Российский суперкомпьютер с глобально адресуемой памятью // Открытые системы. 2007. - №9.- С. 42-51.

13. URL: http://www.osp.ru/os/2007/09/4569294/ (дата обращения: 15.06.2010).

14. Митрофанов В.В., Слуцкин А.И., Эйсымонт Л.К. Суперкомпьютерные технологии для стратегически важных задач // ЭЛЕКТРОНИКА: Наука, Технология, Бизнес. 2008. - №7. - С. 66-79. URL: http://www.electronics.ru/pdf/72008/1923.pdf (дата обращения: 15.06.2010).

15. UPC Language Specifications, vl.2. Lawrence Berkeley National Lab Tech Report LBNL-59208, 2005.

16. URL: http://www.gwu.edu/~upc/docs/upcspecsl-2.pdf (дата обращения: 25.06.2010).

17. Numrich R., Reid J. Co-Array Fortran for Parallel Programming // SIGPLAN Fortran Forum. New York, NY, USA: ACM, 1998. - Vol. 17, N. 2. - P. 1-31.

18. URL: http://www.cs.ucla.edu/~palsberg/course/cs239/papers/ numrich.pdf (дата обращения: 14.06.2010).

19. Numrich R., Reid J. Co-Arrays in the Next Fortran Standard // SIGPLAN Fortran Forum. New York, NY, USA: ACM, 2005. - V. 24.- N. 2. P. 4-17.

20. URL: ftp://ftp.nag.co.uk/sc22wg5/N1701-N1750/N1724.pdf (дата обращения: 14.06.2010).

21. Cray XI Evaluation Status Report / Dunigan Т., Oliker L., Vetter J. et al.J / Oak Ridge National Laboratory, ORNL/TM-2004/13, 2004. URL: http://www.netlib.org/utk/people/JackDongarra/PAPERS/ CRAYEvaluation.pdf (дата обращения: 14.06.2010).

22. Nishtala R., Hargrove P., Bonachea D., Yelick K. Scaling Communication-Intensive Applications on BlueGene/P Using One-Sided Communication and Overlap // Proceedings of the 23rd International

23. Parallel and Distributed Processing Symposium. Rome, Italy, 2009. URL: http://gasnet.cs.berkeley.edu/nishtala-upc-bgp-final.pdf (дата обращения: 17.06.2010).

24. Bader D., Feo J. Advanced Scientific Computing Research: Delivering Computing for the Frontiers of Science. Faciilities Division Strategic Plan for High Performance Computing Resources. Technical Report, 2007.

25. URL: http://www.er.doe.gov/ascr/About/

26. ASCRstrategicplan073004final.pdf (дата обращения: 08.06.2010).

27. ARMCI Webpage. Электронный ресурс]. URL: http://www.emsl. pnl.gov/docs/parsoft/armci/ (дата обращения: 08.06.2010).

28. URL: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1. 90.3656&rep=repl&type=pdf (дата обращения: 17.06.2010).

29. Abts D., Thompson J., Schwoerer G. Architecture Support for Mitigating DRAM Soft Errors in Large-Scale Supercomputers / Cray Inc., 2007. URL: http://selse3.selse.org/Papers/20AbtsP.pdf (дата обращения: 08.06.2010).

30. Cray BlackWidow: a Highly Scalable Vector Multiprocessor / Abts D., Bataineh A., Scott S. et al.J // Proceedings of the 2007 ACM/IEEE Conference on Supercomputing. New York, NY, USA: ACM, 2007. - P. 1-12.

31. URL: http://sc07.supercomputing.org/schedule/pdf/pap392.pdf (дата обращения: 21.06.2010).

32. Cray/MTA Principles of Operation / Cray Inc., 2005.

33. Feo J., Harper D., Kahan S., Konecny P. Eldorado // Proceedings of the 2nd Conference on Computing Frontiers. New York, NY, USA: ACM, 2005. - P. 28-34.

34. URL: www-csag.ucsd.edu/teaching/cse294/20050711-eldorado.docдата обращения: 14.06.2010).

35. Konecny P. Introducing the Cray XMT / Cray Inc., 2007.

36. URL: http://www.nccs.gov/wp-content/uploads/2007/08/konecny paper.pdf (дата обращения: 15.06.2010).

37. Тега principles of operation / National Partnership for Advanced Computational Infrastructure: Archives, Tera Computer Company, 1998.

38. Characterizing Applications on the Cray MTA-2 Multithreading Architecture / Alain S., Roth P., Vetter J. et al.J // Proceedings of CUG Conference. 2006.

39. URL: http://ft.ornl.gov/pubs-archive/2006-05cug06mta2.pdfдата обращения: 14.06.2010).

40. Early Experience with Scientific Programs on the Cray MTA-2 / Anderson W., Hess D., Briggs P., Khoklov A. et al.J // Proceedings of the 2003 ACM/IEEE Conference он Supercomputing. Phoenix, AZ, USA, 2003.

41. URL: http://www.sc-conference.org/sc2003/paperpdfs/pap271.pdf (дата обращения: 08.06.2010).

42. Bokhari S., Sauer J. Sequence Alignment on the Cray MTA-2 // Proceedings of the 17th International Symposium on Parallel and Distributed Processing. Washington, DC, USA: IEEE Computer Society, 2003. -P. 152.1.

43. Bader D., Madduri K. Designing Multithreaded Algorithms for Breadth-First Search and st-connectivity on the Cray MTA-2 // Proceedings of the 2006 International Conference on Parallel Processing, 2006. -P. 523-530.

44. URL: http://www.cc.gatech.edu/~bader/papers/

45. MultithreadedBFS-ICPP2006.pdf (дата обращения: 14.06.2010).

46. Cieslewicz J., Berry J., Hendrickson В., Ross K. Unlocking Parallelism in Database Operations: Insights from a Massively Multithreaded Architecture. Technical Report SAND 2005-7065C / Sandia National Laboratories, 2005.

47. Cray XMT Brings New Energy to High-Performance Computing / Chavarria D., Nieplocha J., Scherrer C. et al.] // SciDAC Review: Fall, 2008. P. 36-41.

48. URL: http ://cass-mt.pnl.gov/docs/pubs/crayscidacrevfall08. pdf (дата обращения: 08.06.2010).

49. Kahan S., Копеспу Р. "МАМА!": a Memory Allocator for Multithreaded Architectures // Proceedings of the 11th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming. New York, NY, USA: ACM, 2006. - P. 178-186.

50. US Patent 6922766B2. Remote Translation Mechanism for a Multinode System. Scott S. 2004.

51. URL: http ://www.google.com/patents/download/6922766Remote translationmechanismfor.pdf?id=SOYUAAAAEBAJ&output=pdf&sig= ACfU3U0K2LXjySoiSDBQ3ElFk9I-iEf6A&source=gbsoverviewr&cad=0 (дата обращения: 17.06.2010).

52. Cray Assembly Language (CAL) for Cray XI Systems Reference Manual, version 1.2 / Cray Corporation, 2003.

53. URL: http ://docs.cray.com/books/S-2314-51/S-2314-51-manual.pdf (дата обращения: 14.06.2010).

54. Bell С., Chen W., Bonachea D., Yelick K. Evaluating Support for Global Address Space Languages on the Cray XI // Proceedings of the International Conference on Superconiputing. New York, NY, USA: ACM, 2004. - P. 184-195.

55. URL: http://upc.lbl.gov/publications/xl-gas--ics04.pdf (дата обращения: 14.06.2010).

56. Dunigan T., Vetter J., White III JWorley P. Performance Evaluation of the Cray XI Distributed Shared-Memory Architecture // IEEE Micro. Los Alarnitos, CA, USA: IEEE Computer Society Press, 2005. - Vol. 25, N. 1. - P. 30-40.

57. URL: http://www.csm.ornl.gov/~dunigan/hoti04.pdf (дата обращения: 14.06.2010).

58. El-Ghazawi Т., Contonnet F., Yao Y., Vetter J. Evaluation of UPC on the Cray XI // Proceedings of the 47th Cray User Group Conference.- 2005.

59. URL: http://www.gwu.edu/~upc/publications/cug05.pdf (дата обращения: 25.06.2010).

60. ORNL Cray XI Evaluation Status Report. Technical Report ORNL/TM-2004/13 / Agarwal P., Dongarra J., Dunigan T. et al / Oak Ridge National Laboratory, 2004.

61. URL: http://icl.cs.utk.edu/newspub/submissions/

62. CRAYEvaluation.pdf (дата обращения: 17.06.2010).

63. Shmerri Programming Manual / Quadrics Supercomputing World Ltd., 2001.

64. URL: http://staff.psc.edu/oneal/compaq/ShmemMan.pdf (дата обращения: 22.09.2010).

65. Scott S., Abts D., Kim J., Dally W. The BlackWidow High-Radix Clos Network // ACM SIGARCH Computer Architecture News. New York, NY, USA: ACM, 2006. - Vol. 34, N. 2. - P. 16-28.

66. URL: http://cva.Stanford.edu/publications/2006/ISCAYARC.pdf (дата обращения: 21.06.2010).

67. Cray XT5h 1.0 Software Release Overview S-2475-10 / Cray Corporation, 2008.

68. Scott S. Synchronization and Communication in the T3E Multiprocessor // Proceedings of the Seventh International Conference on Architectural Support for Programming Languages and Operating Systems.- New York, NY, USA: ACM, 1996. P. 26-36.

69. URL: http://pages.cs.wise.edu/~markhill/Misc/asplos96t3e comm.pdf (дата обращения: 17.06.2010).

70. Anderson E., Brooks J., Grassl C., Scott S. Performance of the Cray T3E Multiprocessor // Proceedings of the 1997 ACM/IEEE Conference on

71. Supercomputing. New York, NY, USA: ACM, 1997. - P. 1-17.

72. URL: http://userweb.es.utexas.edu/users/dburger/teaching/cs395t-s08/papers/8t3e.pdf (дата обращения: 17.06.2010).

73. US Patent 5835925. Using External Registers to Extend Memory-Reference Capabilities of a Microprocessor. Fromm E. 1998.

74. URL: http://www.google.com/patents/download/5835925Using externalregisterstoexte.pdf?id=nIMYAAAAEBAJ&output=pdf&sig= ACfU3U01ob0mDGU2XSfmT4vdUwDfHB5vQ&source=gbsoverviewr&cad=0 (дата обращения: 17.06.2010).

75. Alpha 21164 Microprocessor Hardware Reference Manual / Digital Eqiopment Corporation, 1995.

76. High Performance Fortran Forum. High Performance Fortran Language Specification. Version 2.0. Электронный ресурс]. URL: http:// hpff .rice.edu/versions/hpf2/hpf-v20/index.html (дата обращения: 15.06.2010).

77. URL: http://sc07.supercomputing.org/schedule/pdf/pap282.pdf (дата обращения: 25.06.2010).

78. Underwood К., Levenhagen M., Rodrigues A. Simulating Red Storm: Challenges and Successes in Building a System Simulation // International Parallel and Distributed Processing Symposium. 2007.

79. URL: https://cfwebprod.sandia.gov/cfdocs/CCIM/docs/rs-sim.pdfдата обращения: 25.06.2010).

80. The Adaptive Bubble Router / Puente V., Izu C., Beivide R. et al./ // Journal of Parallel Distributed Computing. Orlando, FL, USA: Academic Press, Inc., 2001. - Vol. 61, N. 9. - P. 1180-1208.

81. URL: http://www.ate.unican.es/investigacion/publicaciones/ publicacionesf iles/publ12.pdf (дата обращения: 17.06.2010).

82. US Patent 7117330. Synchronization Techniques in a Multithreaded Environment. Alverson G., Callahan C., Kahan S. et al.]. 2003.

83. URL: http://www.google.com/patents/download/7117330

84. Synchronizationtechniquesina.pdf?id=VvN6AAAAEBAJ&output= pdf&sig=ACfU3U2aWeijzP61UrGP-aqXVsj5AuliAg&source=gbs overviewr&cad=0 (дата обращения: 08.06.2010).

85. Cell Broadband Engine Programming Handbook / IBM Corporation, 2006.

86. Kale L., Krishnan S. Charm++: Parallel Programming with Message-Driven Objects // Parallel Programming using C-H- / G. Wilson, P. Lu.- Cambridge, Mass.: MIT Press, 1996. P. 175-213.

87. Performance Modeling and Programming Environments for Petaflops Computers and the Blue Gene Machine / Kale L., Adve S., Padua D. etal.J // 18th International Parallel and Distributed Processing Symposium, 2004.

88. DRAMSim2. University of Maryland. Электронный ресурс]. URL: http://www.ece.urad.edu/dramsim (дата обращения: 21.09.2010).

89. TN-47-02 DDR2 Technical Note / Micron, 2005.

90. Top500. Электронный ресурс]. URL: http://www.top500.org (дата обращения: 25.06.2010).

91. Dongarra J., Luszczek PPetitet A. Linpack Benchmark: Past, Present, Future // Concurrency and Computation: Practice and Experience, 2003. Vol. 15. - P. 1-18.

92. URL: http://www.netlib.org/utk/people/JackDongarra/PAPERS/ hplpaper.pdf (дата обращения: 14.06.2010).

93. HPC Challenge Benchmarks. Электронный ресурс]. URL: http:// icl.cs.utk.edu/hpcc (дата обращения: 11.06.2010).

94. Dongarra J. , Luszczek P. Introduction to the HPCChallenge Benchmark Suite. Technical Report UT-CS-05-544 / University of Tennessee, 2005. URL: http://icl.cs.utk.edu/proj ectsfiles/hpcc/pubs/ hpcc-challenge-benchmark05.pdf (дата обращения: 14.06.2010).

95. Shan H., Strohmaier E. Apex-Map: A Global Data Access Benchmark to Analyze HPC Systems and Parallel Programming Paradigms // Proceedings of the 2005 ACM/IEEE Conference on Supercomputing. Washington, DC, USA: IEEE Computer Society, 2005.

96. URL: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1. 123.5567&rep=repl&type=pdf (дата обращения: 25.06.2010).

97. Shan H., Strohmaier E. Performance Characteristics of the Cray XI and their Implications for Application Performance Tuning // Proceedings of the 18th Annual International Conference on Supercomputing. New York, NY, USA: ACM, 2004. - P. 175-183.

98. URL: https://ftg.lbl.gov/ApeX/ics04.pdf (дата обращения: 25.06.2010).

99. Weinberg J., McCracken M., Strohmaier E., Snavely A. Quantifying1.cality In The Memory Access Patterns of HPC Applications // Proceedings of the 2005 ACM/IEEE Conference on Supercomputing. Washington, DC, USA: IEEE Computer Society, 2005.

100. URL: http://www.sdsc.edu/pmac/publications/pubs/weinberg051ocality.pdf (дата обращения: 25.06.2010).

101. Волков Д., Фролов А. Оценка быстродействия нерегулярного доступа к памяти // Открытые системы. 2008. - №1. - С. 15-19. URL: http://www.osp.ru/os/2008/01/4836914/ (дата обращения: 14.06.2010).

102. Cooley J., Tukey J. An Algorithm For The Machine Calculation of Complex Fourier Series // Mathematics of Computation. 1965. - P. 297301.

103. URL: http://www.amath.Washington.edu/~narc/win08/papers/cooley-tukey.pdf (дата обращения: 14.06.2010).

104. Chen L., Ни ZLin J., Gao G. Optimizing Fast Fourier Transform on a Multi-core Architecture // Proceedings of the IEEE International Parallel and Distributed Processing Symposium, 2007. P. 1-8.

105. URL: http://www.capsl.udel.edu/pub/doc/papers/P0HLL2007-L0NG. pdf (дата обращения: 15.06.2010).

106. Krishnan M., Nieplocha J. SRUMMA: A Matrix Multiplication Algorithm Suitable for Clusters and Scalable Shared Memory Systems // Proceedings of the 18th International Parallel and Distributed Processing Symposium. 2004. - Vol. 1. - P. 70b.

107. URL: http://hpc.pnl.gov/proj ects/sruraraa/srumma-ipdps04.pdf (дата обращения: 17.06.2010).

108. Krishnan M., Nieplocha J. Optimizing Performance on Linux Clusters Using Advanced Communication Protocols: Achieving Over 10 Teraflops on a 8.6 Teraflops Linpack-Rated Linux Cluster / Advanced Computing Technology Laboratory, 2005.

109. URL: http://hpc.pnl.gov/projects/srumma/lci.pdf (дата обращения: 17.06.2010).74J HPCS SSCA2 Graph Analysis Benchmark Specifications v2.1. / Bader D., Feo J., Koester D. et al.J. 2006.

110. URL: http://www.graphanalysis.org/benchmark/HPCS-SSCA2

111. Graph-Theoryv2.1. pdf (дата обращения: 14.06.2010).

112. Bader D., Cong G., Feo J. On the Architectural Requirements for Efficient Execution of Graph Algorithms // Proceedings of the 2005 International Conference on Parallel Processing. Washington, DC, USA: IEEE Computer Society, 2005. - P. 547-556.

113. URL: http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid= 4657C87EB37FF0692213B2178427CC07?doi=10.1.1.124.318&rep= repl&type=pdf (дата обращения: 14.06.2010).

114. Lumsdaine A., Gregor D., Hendrickson В., Berry J. Challenges in Parallel Graph Processing // Parallel Processing Letters. 2007. - Vol. 17, N. 1. - P. 5-20.

115. URL: http://www.sandia.gov/"bahendr/papers/graphs-and-machines.pdf (дата обращения: 15.06.2010).

116. Villa О., Scarpazza D., Petrini F., Peinador J. Challenges in Mapping Graph Exploration Algorithms on Advanced Multi-core Processors. // Proceedings of the 21st International Parallel and Distributed Processing Symposium. 2007. - P. 1-10.

117. URL: http://hpc.pnl.gov/people/fabrizio/papers/ipdps07-graphs. pdf (дата обращения: 25.06.2010).

118. Agariual V., Petrini F., Pasetto D., Bader D. Scalable Graph Exploration on Multicore Processors // Proceedings of the 2010 ACM/IEEE Supercomputing Conference (SC10) New Orleans, LA, 2010.

119. URL: http://www.cc.gatech.edu/~bader/papers/

120. ScalableGraphMulticore-SC10.pdf (дата обращения: 14.10.2010).

121. BO. Global Arrays Homepage. Электронный ресурс]. URL: http:// www.emsl.pnl.gov/docs/global (дата обращения: 21.10.2010).

122. Evaluation of Remote Memory Access Communication on the Cray ХТЗ / Tipparaju VKot A., Nieplocha J. et al.j // Proceedings of the 21th International Parallel and Distributed Processing Symposium. Long Beach, California, USA, 2007. - P. 1-7.

123. URL: http://crtc.wm.edu/papers/conf75.pdf (дата обращения: 17.06.2010).

124. Kißpnei^ee M.B., Мошкин Д.В., Полунин М.А., Эйсымонт Л.К. Суперкластеры между прошлым и будущим // Открытые системы. - 2008. - №8. - С. 40-47.

125. URL: http://www.osp.ru/os/2008/08/5661383/ (дата обращения: 15.06.2010).

126. Bonachea D. GASNet Specification, vl.l. Technical Report CSD-02-1207. / UC Berkeley, 2002.

127. URL: http://digitalassets.1ib.berkeley.edu/techreports/ucb/ text/CSD-02-1207.pdf (дата обращения: 15.06.2010).

128. Lurnetta S. Culler D. Managing Concurrent Access for Shared Memory Active Messages // Proceedings of the 12th International Parallel Processing Symposium. Washington, DC, USA: IEEE Computer Society, 1998.

129. URL: http://users.crhc.illinois.edu/steve/papers/ipps98.pdf (дата обращения: 15.06.2010).

130. Introduction to UPC and Language Specification. CCS-TR-99-157 / Carlson W., Draper J., Culler D., Yelick K. et al.J // IDA Center for Computing Sciences, 1999.

131. URL: http://upc.lbl.gov/publications/upctr.pdf (дата обращения: 25.06.2010).

132. The Berkley UPC Compiler. Электронный ресурс]. URL: http:// upc.lbl.gov (дата обращения: 25.06.2010).

133. GCC UPC homepage. Электронный ресурс]. URL: http://www. intrepid.com (дата обращения: 25.06.2010).

134. IBM XL UPC compiler. Электронный ресурс]. URL: http ://www. alphaworks.ibm.com/tech/upccompiler (дата обращения: 25.06.2010).

135. HP UPC compiler homepage. Электронный ресурс]. URL: h30097. www3.hp.com/upc (дата обращения: 25.06.2010).

136. URL: http ://www.gwu.edu/~upc/publications/IPDPSupc04.pdfдата обращения: 14.06.2010).

137. URL: http://www.gwu.edu/~upc/publications/ipdps05.pdf (дата обращения: 14.06.2010).

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.