Исследование и разработка методов увеличения производительности интегральных схем многоядерных микропроцессоров на основе повышения эффективности коммутационной логики тема диссертации и автореферата по ВАК РФ 05.27.01, кандидат технических наук Путря, Федор Михайлович

  • Путря, Федор Михайлович
  • кандидат технических науккандидат технических наук
  • 2009, Москва
  • Специальность ВАК РФ05.27.01
  • Количество страниц 159
Путря, Федор Михайлович. Исследование и разработка методов увеличения производительности интегральных схем многоядерных микропроцессоров на основе повышения эффективности коммутационной логики: дис. кандидат технических наук: 05.27.01 - Твердотельная электроника, радиоэлектронные компоненты, микро- и нано- электроника на квантовых эффектах. Москва. 2009. 159 с.

Оглавление диссертации кандидат технических наук Путря, Федор Михайлович

СОДЕРЖАНИЕ.

ВВЕДЕНИЕ.

ОПРЕДЕЛЕНИЯ, ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ.

1 Анализ принципов построения многоядерных систем и выявление основных причин снижения их производительности.

1.1 Тенденции в производстве современных вычислительных систем, многоядерные процессоры.

1.2 Обзор существующих многоядерных решений.

1.3 Анализ и сравнение существующих методов коммутации для многоядерных систем.

1.4 Методы борьбы с эффектом дальней памяти: мультитредовость и увеличение регистрового файла.

1.5 Характерные черты перспективных многоядерных систем.

1.6 Проблема арбитража обращений к памяти в многоядерной системе

1.7 Организация обмена с внешними устройствами.

1.8 Выводы.

2 Алгоритм арбитража на основе динамического определения характеристик потоков обращений.

2.1 Структура модели многоядерной системы.

2.2 Методика комплексного сравнения алгоритмов арбитража.

2.2.1 Сравнение алгоритмов арбитража при обращении к одному разделяемому ресурсу.

2.2.2 Сравнение алгоритмов арбитража при обращениях к нескольким разделяемым ресурсам.

2.3 Разработка программного обеспечения для комплексного сравнения алгоритмов арбитража на различных конфигурациях многоядерных систем.

2.4 Вариант аппаратной реализации алгоритма арбитража на основе динамического определения характеристик потоков обращений.

2.4.1 Индикация высокой плотности потоков.

2.4.2 Выбор условия переключения между механизмами запуска смены приоритета для арбитража с индикацией высокой плотности потоков

2.5 Комплексное сравнение разработанного алгоритма арбитража со стандартными алгоритмами.

2.5.1 Сравнение арбитража с индикацией высокой плотности потоков со стандартными алгоритмами в случае напряженного трафика.

2.5.2 Сравнение алгоритмов арбитража при обращениях к нескольким разделяемым ресурсам в случае, когда все потоки обращений имеют идентичные характеристики.

2.5.3 Сравнение устойчивости различных алгоритмов арбитража к эффекту оттеснения потоков малой плотности при обращениях к нескольким разделяемым ресурсам.

2.6 Оценка влияния особенностей схемотехнической реализации арбитража на его эффективность.

2.7 Анализ влияния структуры многоядерной системы на эффективность арбитража на основе динамического определения характеристик потоков обращений.

2.8 Выводы.

3 Решение проблемы доступа к дальней памяти. Применение распределенных очередей.

3.1 Новый принцип размещения элементов очередей обращений на кристалле. Распределенные виртуальные очереди.

3.2 Разработка симулятора многоядерной системы.

3.2.1 Обоснование необходимости разработки симулятора многоядерной системы.

3.2.2 Возможности разработанного симулятора.

3.2.3 Оценка прироста производительности системы при использовании распределенных очередей обращений с помощью разработанного симулятора.

3.3 Автоматизация процесса проектирования миогоядерной системы

3.3.1 Использование препроцессоров для автоматизации процесса проектирования, разработка препроцессора Generate.

3.3.2 Структура параметризированного описания многоядерной системы.

3.3.3 Процесс генерации RTL-описания многоядерной системы.

3.4 Выводы.

4 Решение проблем увеличения скорости обмена данными с внешними устройствами и нехватки выводов кристалла, программируемый последовательный порт.

4.1.1 Выявленные функциональные требования к универсальному контроллеру последовательных шин.

4.2 Разработка структурной схемы совмещенного контроллера последовательной шины.

4.2.1 Блоки генерации тактовых и управляющих сигналов.

4.2.2 Использование блока логики обмена для аппаратной обработки данных и организации ускоренной записи в буфер чтения.

4.2.3 Выбор структуры блока приёма-передачи.

4.2.4 Блок управления выводами.

4.2.5 Структурная схема программируемого контроллера последовательных интерфейсов.

4.3 Выводы.

Рекомендованный список диссертаций по специальности «Твердотельная электроника, радиоэлектронные компоненты, микро- и нано- электроника на квантовых эффектах», 05.27.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Исследование и разработка методов увеличения производительности интегральных схем многоядерных микропроцессоров на основе повышения эффективности коммутационной логики»

Актуальность. Сегодня сложно найти область человеческой деятельности, в которой бы не использовались микропроцессоры и микроконтроллеры. Характеристики всех приборов, в которых они используются, напрямую зависят от производительности микропроцессоров, поэтому бурное развитие современной электронной промышленности вызвано именно гонкой за производительностью вычислительных систем.

Другой современной тенденцией развития электроники является создание систем на кристалле (СНК) - готовых устройств, реализованных на одной интегральной схеме, содержащих как вычислительные ядра общего назначения и специализированные вычислительные блоки, так и набор периферийных контроллеров, а также универсализация таких систем, позволяющая расширить спектр применения каждой отдельно взятой СНК. По ряду причин в последнее время увеличения производительности вычислительных систем добиваются наращиванием числа вычислительных ядер, размещаемых на одном кристалле. Однако на практике увеличение числа ядер не даёт желаемого прироста производительности, в результате чего эффективность многоядерпых систем, которую можно определить как отношение производительности системы на реальных приложениях к её пиковой производительности, падает с ростом числа ядер. Это связано не только со сложностями, возникающими при оптимизации программного обеспечения под многоядерную архитектуру, выражающимися в неполной загрузке всех вычислительных ресурсов системы, но и с неэффективностью собственно аппаратной части системы, приводящей к частым простоям вычислительных ядер при обмене данными в системе. Для системы с большим числом вычислительных ядер (8 и более) оптимальной является архитектура с ассиметричным доступом к памяти, основным недостатком которой является большое время доступа ядер к удаленным участкам памяти. С увеличением числа ядер и сложности системы растет время, требуемое для обмена данными между ее элементами, обусловленное как увеличением времени доступа ядер к общей накристальной памяти, так и увеличением числа конфликтов между вычислительными ядрами при обращении к разделяемым ресурсам системы.

Существует ряд программных и аппаратных методов, позволяющих снизить время простоя ядер при обмене данными с дальней памятью, например увеличение регистрового файла, применение мультитредовой архитектуры ядра и фоновая подкачка данных в локальную память, однако данные методы не позволяют полностью решить проблему простоя ядер при доступе к дальней памяти. Таким образом, эффективность логики разрешения конфликтов и коммутационной логики, связывающей ядра с памятью и между собой становится одним из основных факторов, влияющих на производительность многоядерной системы. Поэтому в русле общей направленности борьбы за увеличение производительности вычислительных систем выдвигается на первый план и становится весьма актуальной задача оптимизации коммутационной логики в многоядерной системе, в целях снижения общего времени простоя ядер при обменах данными в системе.

Одной из задач, возникающих в процессе разработки коммутационной логики для новой многоядерной системы, является оценка производительности системы и влияния способа соединения элементов системы на ее производительность. Обычно для вновь создаваемой системы, не имеющей близких аналогов, точно оценить ее производительность на реальных приложениях удается только после изготовления кристалла. Это обусловлено тем, что высокоуровневая модель многоядерной системы, как правило, дает описание только её функциональных возможностей, не учитывая при этом ряда особенностей аппаратной реализации системы, существенно влияющих на её производительность, таких, например как топологические расстояния между элементами. Моделирование RTL-описания многоядерной системы позволяет установить точную производительность разрабатываемой системы, однако является очень медленным процессом, что исключает возможность определения производительности системы на реальных приложениях до физического изготовления кристалла. Кроме того для такого моделирования требуется разработка полного RTL-описания системы, что является трудоёмким процессом. Таким образом, у разработчика системы на этапе выбора её архитектуры нет возможности произвести полноценное сравнение нескольких вариантов систем с различной архитектурой с учётом реальных расстояний между элементами системы. Таюке затруднена оценка влияния на производительность системы изменения расстояний между элементами, которое может иметь место на стадии разработки топологии. Поэтому актуальным является создание средства, позволяющего производить оценку производительности широкого спектра многоядерных архитектур с учетом ряда топологических и функциональных параметров системы, таких как расстояния между элементами и длина вычислительного конвейера используемых в системе ядер.

Другой проблемой процесса разработки многоядерных систем является необходимость многократного проектирования и тестирования коммуникационной логики, связывающей все элементы системы при изменении каких-либо параметров системы, её архитектуры или смене типа используемых в ней вычислительных ядер. В ряде случаев уже на этапе проектирования топологии может быть установлено, что для достижения требуемых характеристик системы необходимо проектирование и соответственно тестирование нового варианта коммутационной логики. Это является серьезной проблемой в силу большой трудоемкости данных процедур, что помимо прочего может повлечь возникновение ошибок при проектировании коммутационной логики. Таким образом, актуальной и решаемой в данной работе является задача автоматизации процесса создания RTL-описания многоядерной системы.

Еще одной проблемой современных вычислительных систем является задача обмена даиными системы с периферийными устройствами. Большая вычислительная мощность современных СНК не приносит пользователю существенной пользы, если скорости обмена системы с внешней средой не хватает для того, чтобы полностью обеспечить все вычислительные ресурсы системы потоком входных данных, либо вовремя выгрузить из системы обработанные данные. В этом случае производительность всей системы в целом будет ограничиваться скоростью обмена данными системы с внешними устройствами. Поэтому при проектировании СНК важной задачей становится обеспечение высокопроизводительного обмена данными проектируемой системы с внешними устройствами. При этом участие собственно вычислительных ядер в процессе передачи таких объёмов данных должно быть минимизировано с целью сохранения вычислительных ресурсов системы, используемых для выполнения основной задачи. Тенденция к универсализации СНК приводит к тому, что проектируемая система должна поддерживать возможность обмена данными по множеству внешних интерфейсов. Использование отдельных (реализованных на отдельной аппаратуре) контроллеров для каждого из этих интерфейсов ведет к перерасходу площади, и что более критично - нехватке выводов кристалла. Соответственно, актуальной, с точки зрения достижения главной цели - повышения вычислительной мощности системы является задача организации высокоскоростного обмена данными системы с широким спектром внешних устройств без отвлечения на это ее вычислительной мощности и с минимальным расходом на эти цели внешних выводов кристалла.

Таким образом, тема диссертационной работы, направленная на решение научной задачи, заключающейся в исследовании и разработке методов повышения производительности интегральных схем многоядерных микропроцессоров иа основе повышения эффективности коммутационной логики, является актуальной в рамках обозначенной проблематики.

Целью работы является исследование и разработка методов повышения производительности многоядерных систем путем оптимизации процессов обмена данными как между внутренними элементами системы, так и между системой и периферийными устройствами, а также автоматизация процесса создания RTL-описания разрабатываемой системы.

Для достижения поставленной цели необходимо было решить следующие задачи:

1. Провести анализ основных причин снижения эффективности многоядерных систем при увеличении числа вычислительных ядер, среди которых: простой вычислительных ядер при обращении к памяти с большим временем доступа; неэффективность стандартных алгоритмов арбитража в случае одновременных пакетных и одиночных обращений к памяти от различных ядер; отвлечение вычислительной мощности системы на процесс обмена данными с внешними устройствами

2. Разработать аппаратные средства обмена данными между элементами многоядерной системы, позволяющие решить проблему простоя вычислительных ядер при обращении к дальней памяти в системе с ассиметричным доступом к памяти.

3. Исследовать зависимость эффективности коммутационной логики от используемого в ней алгоритма арбитража и от характеристик потоков обращений

4. Разработать новый алгоритм арбитража, позволяющий добиться максимальной производительности, за счёт оптимизации процесса обмена данными в многоядерной системе.

5. Разработать средство оценки производительности разрабатываемой многоядерной системы на ранних стадиях её разработки, учитывающее топологические расстояния между элементами системы.

6. Автоматизировать процесс проектирования RTL-описания многоядерной системы.

7. Разработать универсальный контроллер последовательных интерфейсов, способный осуществлять обмен данными с периферийными устройствами с минимальным отвлечением вычислительной мощности системы. Научная новизна работы заключается в следующих результатах:

1. В результате проведенного анализа изменения производительности многоядерных вычислительных систем при увеличении числа вычислительных ядер установлено, что основными причинами падения эффективности таких систем, определяемыми аппаратной реализацией коммутационной логики, являются: увеличение времени доступа ядер к дальней памяти в ассиметричных системах, увеличение числа конфликтов между вычислительными ядрами, возникающими при обмене данными в системе, нехватка пропускной способности внешних интерфейсов для обеспечения данными всех вычислительных ядер в системе.

2. Предложен новый принцип размещения элементов очередей обращений, представляющих собой буферную память (FIFO) на физическом пространстве кристалла, обеспечивающий значительное снижение времени простоя ядер при обмене данными в ассиметричной системе.

3. Установлена зависимость пропускной способности коммутационной логики от используемого в ней алгоритма арбитража и характеристик потоков обращений.

4. Создан и оптимизирован для схемотехнической реализации новый алгоритм арбитража потоков данных в многоядерной вычислительной системе, одновременно обеспечивающий исключение эффекта оттеснения потоков малой плотности и высокую пропускную способность при пакетном характере обмена данными.

5. Создана принципиально новая структурная схема контроллера последовательной шины, обеспечивающая функциональное совмещение множества последовательных интерфейсов.

Практическая ценность.

1. Разработан комплекс схемотехнических решений, позволяющих увеличить пропускную способность коммутации, и скорость обмена данными между отдельными элементами системы, который применен в системах на кристалле «1892ВМ7Я» и «NVComOl», разработанных в ГУП НПЦ «ЭЛВИС», что обеспечило 25% увеличение производительности данных систем для приложений ЦОС (в системах применен предложенный в работе комплекс схемотехнических решений, за исключением механизма буферизации чтения).

2. Разработанный универсальный контроллер последовательных шин применен в разработанной в ГУП НПЦ «ЭЛВИС» микросхеме «NVComOl», что значительно расширило спектр применения данной системы за счет увеличения числа поддерживаемых ей периферийных интерфейсов без увеличения числа внешних выводов кристалла и существенных аппаратных затрат.

3. Разработанное программное обеспечение для оценки производительности многоядерных систем и параметризированное описание многоядерной системы позволили автоматизировать процесс разработки RTL-описания многоядерных систем на кристалле Положения, выносимые на защиту:

1. Принцип размещения элементов очереди обращений (представляющей собой буферную память типа FIFO), позволяющий более рационально использовать площадь кристалла и значительно повысить эффективность коммутации в многоядерной системе, заключающийся в разбиении очереди на несколько частей, располагающихся в отдельных буферных элементах, и распределении этих буферных элементов по всему расстоянию от ведущего до ведомого устройства.

2. Разработанный и оптимизированный для схемотехнической реализации алгоритм арбитража, основанный на динамическом определении характеристик потоков обращений к памяти с переключением к алгоритму наиболее эффективному при текущем сочетании характеристик потоков обращений.

3. Программное средство для оценки производительности многоядерных систем.

4. Метод автоматизации процесса проектирования RTL-описания многоядерной системы и созданный на его основе программный пакет, использующий для создания RTL-описания системы параметризированное исходное описание системы, предназначенное для обработки препроцессорами, и специально разработанное средство для оценки производительности проектируемой многоядерной системы.

5. Структура универсального контроллера последовательных интерфейсов, обеспечивающая за счет введения в него блока логики обмена и блока управления выводами возможность совмещения в одном устройстве функций нескольких контроллеров последовательных шин, что существенно экономит аппаратные ресурсы и число используемых выводов кристалла. Одновременно за счет введения блоков генерации управляющих сигналов и буферизации как записи, так и чтения минимизируется отвлечение вычислительных ресурсов системы на передачу данных. Личный вклад. Все результаты, изложенные в диссертации и сформулированные в положениях, выносимых на защиту, получены автором лично.

Апробация работы. Основные результаты работы докладывались и представлялись на следующих научно-технических конференциях: Международная научно-техническая конференция "Электроника и информатика", МГИЭТ(ТУ), 2005 г; Всероссийская научно-техническая конференция "Проблемы разработки перспективных микроэлектронных систем", Москва, 2005г; Всероссийская научно-техническая конференция "Проблемы разработки перспективных микроэлектронных систем", Москва, 2006г; Всероссийская межвузовская научно-техническая конференция "Микроэлектроника и информатика", МГИЭТ(ТУ), 2007 г.; Всероссийская молодёжная конференция "Электроника", МГИЭТ(ТУ), 2007г. (диплом победителя); научная конференция "Современные проблемы фундаментальных и прикладных наук", МФТИ, 2007г. (диплом победителя); Всероссийская межвузовская научно-техническая конференция

Микроэлектроника и информатика", МГИЭТ(ТУ), 2008 (диплом победителя); Всероссийская научно-техническая конференция "Проблемы разработки перспективных микроэлектронных систем", Москва, 2008г; Форум диссертационных работ при Всероссийской научно-технической конференции "Проблемы разработки перспективных микроэлектронных систем", Москва, 2008г;

Результаты данной работы были внедрены и использованы в системах на кристалле «1892ВМ7Я» и «NVComOl», разработанных в ГУП НПЦ «ЭЛВИС», предназначенных для цифровой обработки сигналов, решения задач обработки аудио и видео, а так же навигации и связи.

Публикации. По теме диссертационной работы опубликовано 15 научных работ, в том числе 7 статей в периодических печатных изданиях, 3 из которых опубликованы в журналах, входящих в перечень ВАК, 5 тезисов доклада (3 доклада отмечены дипломом победителя), 1 патент на изобретение, 1 научнотехнический отчет по НИР (исполнитель), 1 научно-технический отчет по НИОКР (руководитель).

Структура и объём работы. Диссертационная работа состоит из введения, 4 глав, заключения и списка литературы из 102 наименований. Общий объём диссертации составляет 159 страниц, в том числе 4 таблицы и 59 рисунков.

Похожие диссертационные работы по специальности «Твердотельная электроника, радиоэлектронные компоненты, микро- и нано- электроника на квантовых эффектах», 05.27.01 шифр ВАК

Заключение диссертации по теме «Твердотельная электроника, радиоэлектронные компоненты, микро- и нано- электроника на квантовых эффектах», Путря, Федор Михайлович

4.3 Выводы

1 Проведен анализ ряда последовательных интерфейсов и реализованных в аппаратуре контроллеров последовательных шин.

2 Выявлены функциональные требования к структурной схеме контроллера, выполнение которых позволит объединить в одной аппаратуре контроллеры нескольких последовательных интерфейсов.

3 Проведен сравнительных анализ различных вариантов блоков приёма и передачи. Показано, что для универсального контроллера наиболее оптимальным решением являются блоки приёма и передачи на массиве защелок.

4 Предложен новый вариант структурной схемы контроллера последовательных интерфейсов, позволяющей реализовать универсальный контроллер последовательных шин, обеспечивающий обмен данными с широким спектром устройств (совместимость с интерфейсами I2S, SPI, Microwire, SPORT, С-Bus, FSB). Предложенная структурная схема обладает следующими особенностями:

• Аппаратная сложность контроллера, реализованного по предложенной схеме, лишь па 10-15% превосходит сложность обычного контроллера I2S с полной буферизацией.

• Разработанная схема позволяет легко добавлять поддержку новых последовательных интерфейсов за счет коррекции только блока генерации управляющих сигналов.

• В блок приёма дополнительно введена логика обмена, позволяющая производить ускоренную запись в буфер чтения, что устраняет проблему записи в буфер чтения, с прекращением формирования тактового сигнала в некоторых режимах SPI. Дополнительно данная логика производит аппаратную обработку принятых данных, что исключает необходимость программной обработки данных.

• Блоки аппаратной генерации управляющих сигналов вместе с буферами записи и чтения, позволяют исключить необходимость участия вычислительного ядра в процессе обмена данными с внешними устройствами.

• Блок управления выводами и ряд особенностей блоков генерации тактовых и управляющих сигналов позволяют значительно повысить гибкость при организации коммутации между устройствами по последовательным интерфейсам.

5 Применение в системах на кристалле универсального контроллера, разработанного по предложенной схеме вместо обычных контроллеров последовательных шин, позволит лишь при небольшом увеличении площади кристалла значительно повысить гибкость всей системы.

ЗАКЛЮЧЕНИЕ

1. Проведенный в работе анализ позволил выявить основные причины насыщения производительности многоядерных систем с ростом числа вычислительных ядер, среди которых главными являются следующие: простой вычислительных ядер при обращении к памяти с большим временем доступа, увеличение числа конфликтов между ядрами при обращении к разделяемым ресурсам, неэффективность стандартных алгоритмов арбитража в случае одновременных пакетных и одиночных обращений к памяти от различных ядер, отвлечение вычислительной мощности системы на процесс обмена данными с внешними устройствами.

2. В работе предложена методика комплексного сравнения алгоритмов арбитража обращений к памяти в многоядерпой системе, включающая сравнение алгоритмов для случая напряженного трафика и в случае обращений вычислительных ядер к нескольким разделяемым ресурсам для различных сочетаний плотностей потоков, длин передаваемых пакетов и различном характере распределения обращений по устройствам. Создано специальное программное обеспечение для многокритериального сравнения различных алгоритмов арбитража по предложенной методике.

3. Установлена зависимость пропускной способности коммутационной логики от используемого в ней алгоритма арбитража и характеристик потоков обращений. Установлены основные недостатки стандартных алгоритмов арбитража обращений к памяти. Показано, что стандартные алгоритмы арбитража эффективные при одном характере потока данных, являются малоэффективными при другом характере потока данных, что приводит к необходимости разработки более универсального алгоритма арбитража.

4. Разработай и оптимизирован для схемотехнической реализации алгоритм арбитража, основанный на динамическом определении характеристик потоков обращений к памяти с переключением к алгоритму наиболее эффективному при текущем сочетании характеристик потоков обращений

5. Предложен принцип размещения элементов очереди обращений (представляющей собой буферную память типа FIFO), позволяющий более рационально использовать площадь кристалла и значительно повысить эффективность коммутации в многоядерной системе, заключающийся в разбиении очереди на несколько частей, располагающихся в отдельных буферных элементах, и распределении этих буферных элементов на кристалле по всему расстоянию от ведущего до ведомого устройства.

6. Автоматизирован процесс проектирования RTL-описания многоядерной системы, за счет создания параметризированного исходного описания системы, предназначенного для обработки препроцессорами и использования специально разработанного средства для оценки производительности проектируемой миогоядерпой системы.

7. Разработана структурная схема универсального контроллера последовательных интерфейсов, которая за счет введения блока логики обмена и блока управления выводами обеспечивает возможность совмещения функций нескольких контроллеров последовательных шип, что существенно экономит аппаратные ресурсы и число используемых выводов кристалла, а за счет введения блоков генерации управляющих сигналов и буферизации как записи, так и чтения минимизирует отвлечение вычислительных ресурсов системы на передачу данных.

8. Предложенные в работе методы и схемотехнические решения (без использования буферизации чтения) были использованы при создании микросхем «1892ВМ7Я» и «NVComOl», выпускаемых ГУП НПЦ «ЭЛВИС», что позволило для задач ЦОС добиться 25% увеличения производительности данных микросхем.

Таким образом, в результате выполнения данной работы была решена важная задача повышения производительности интегральных схем многоядерных вычислительных систем с ассиметричпым доступом к памяти и расширен потенциал ассимегричиой архитектуры. Применение комплекса предложенных в работе аппаратных методов повышения эффективности коммутационной логики позволило для ряда задач, не оптимизированных под ассиметричную архитектуру, повысить реальную производительность системы в 1.5 раза, а для задач, оптимизированных под конкретную архитектуру, за счет сокращения времени простоя ядер при конфликтах, достичь повышения производительности в 2 и более раз, в этом случае разработанные методы позволяют в принципе избежать проблемы доступа к дальней памяти и добиться эффективности даже большей чем для идеальной симметричной системы.

Список литературы диссертационного исследования кандидат технических наук Путря, Федор Михайлович, 2009 год

1. Gepner P., Kowalik М., Multi-Core Processors: New Way to Achieve High System Performance // Parallel Computing in Electrical Engineering, PAR ELEC 2006 -P. 9-13.

2. Корнеев В., Киселев А., Современные микропроцессоры. // СПб.:БХВ-Петербург- 2003.

3. Sterling, T.L., Zima, Н.Р., Gilgamesh: A Multithreaded Processor-In-Memory Architecture for Petaflops Computing // Supercomputing, ACM/IEEE Conference 2002 P. 48.

4. Venkateswaran N., Krishnan A., Kumar S. N., Shriraman A., Sridharan S., Memory in processor: a novel design paradigm for supercomputing architectures //ACM SIGARCH Computer Architecture Volume 32 , Issue 3 2004 - P. 19 -26

5. Hennessy J. L., Jouppi N. P., Computer technology and architecture: An evolving interaction // Computer, Volume 24, Issue 9 1991. - P. 18-29.

6. Rakesh Kumar, Keith I. Farkas, Norman P. Jouppi, A multi-core approach to addressing the energy-complexity problem in microprocessors // In Workshop on Complexity-Eective Design 2003.

7. Almasi G., Cascaval G., Castanos J. G., Denneau M., Lieber D., Moreira J. E., Warren H.S., Dissecting Cyclops: a detailed analysis of a multithreaded architecture // ACM SIGARCH Computer Architecture Volume 31 , Issue 1 2003 - P. 26 - 38

8. Dally William J., Towles Brian, Route Packets, Not Wires: On-Chip Interconnection Networks // DAC 2001, 2001. - P. 684- 689.151

9. PentiumD Processor 11 www.intel.com

10. Core2 Duo Processors // www.intel.com

11. Key Architectural Features AMD Athlon™ Dual-Core Processors // www.amd.com

12. Performance Guidelines or AMD Athlon™ 64 and AMD Opteron™ ccNUMA Multiprocessor Systems // www.amd.com

13. BIOS and Kernel Developer's Guide (BKDG) For AMD Family lOh Processors

14. Hammond L., Hubbert B, Siu M., Prabhu M., Chen M., Olukotun K., The Stanford Hydra CMP // IEEE MICRO Magazine- 2000 P.71-84.

15. Tremblay M., Majc-5200: A vliw convergent MPSOC // In Microprocessor Forum, 1999.

16. Poonacha Kongetira, Kathirgamar Aingaran, Kunle Olukotun, Niagara: A 32-way multithreaded spare processor // IEEE MICRO Magazine, Volume 25, Issue 2, -2005.-P.-21-29.17 http://www.research.ibm.com/power4

17. IBM. Power5: Presentation at microprocessor forum. 2003

18. Le H. Q., Starke W. J. IBM POWER6 microarchitecture. IBM J. Res. Dev., v. 51, №. 6, 2007.

19. Александров Ю., Беляев А., Глушков А., и др., Новая отечественная платформа СБИС "МУЛЬТИКОР" для высокоскоростной обработки информации и управления объектами // Цифровая обработка сигналов № 3 2001 - С. 25-38.

20. Петричкович Я., Технологии определяют все // ЭЛЕКТРОНИКА: Наука, Технология, Бизнес № 1 — 2004 С. 4-10.

21. Солохина Т., Петричкович Я., Александров Ю., и др., Микросхемы базовых серий "МУЛЬТИКОР". Сигнальный микроконтроллер 1892ВМ2Т (МС-24). // Chip News № 2 2005 - С. 20-31.

22. Солохина Т., Петричкович Я., Александров Ю., и др., Микросхемы базовых серий "МУЛЬТИКОР". Сигнальный микроконтроллер 1892ВМ2Т (МС-24). II Chip News № 3 2005 - С. 20-26.

23. Солохииа Т., Александров Ю., Глушков А., Беляев А., Петричкович Я., Отечественные трехъяерные сигнальные микроконтроллеры с производительностью 1,5 GFLOPs // Цифровая обработка сигналов. Электронные компоненты № 6 2006 - С. 73-78.

24. Солохина Т., Александров Ю., Петричкович Я., Сигнальные контроллеры компании ЭЛВИС: первая линейка отечественных DSP // ЭЛЕКТРОНИКА: Наука, Технология, Бизнес №7 2005 - С. 70-77.

25. Kahle J. A., Day М. N. Hofstee Н. P., Johns С. Я., Maeurer Т. R., Shippy D., Introduction to the cell multiprocessor // IBM Journal of Research and Development — 2005.

26. Hofstee H. Peter, Power efficient processor architecture and the cell processor // 11th International Symposium on High-Performance Computer Architecture (HPCA'05) 2005 - P. 258-262

27. Tile Processor Architecture. Technology Brief- 2007 // www.tilera.com

28. A Tera-scale Computing Research Overview // www.intel.com31 http://www-vlsi.stanford.edu/smartmemories/32 www.tensilica.com

29. Burger D., Keckler, S.W., Scaling to the end of silicon with EDGE architectures // Computer Volume 37, Issue 7 2004. - P. 44- 55.

30. Swanson Steven, Michelson Ken, Schwerin Andrew, Oskin Mark WaveScalar International Symposium on Microarchitecture (MICRO-36 2003) - 2003.

31. Rakesh Kumar, Keith Farkasy, Norman P, Jouppiy Partha, Ranganathany Dean M. Tullsen, Processor Power Reduction Via Single-ISA Heterogeneous Multi-Core Architectures // computer Architecture Letters, Vol 2, April 2003.

32. Hwang Soo-Yun, Jhang Kyoung-Sun, An improved implementation method of AHB BUSMATRIX // IEEE International SOC Conference 2005. - P. 211-214.

33. AMBA AXI Protocol specification // www.arm.com153

34. Kumar V.P. Reddy S.M. Augmented Shuffle-Exchange Multistage Interconnection Networks // IEEE Computer Magazine, vol. 20 1987. - P. 30-40.

35. Мак P. Shared-cache clusters in a system with a fully shared memory // IBM Journal of Research and Development 1997.

36. Ye T.T., Benini L., Micheli G., Packetized On-Chip Interconnect Communication Analysis for MPSoC // Proceedings of the conference on Design, Automation and Test in Europe Volume 1 - 2003 P. 10344

37. Т. T. Ye, L. Benini, G. De Micheli, "Analysis of power consumption on switch fabrics in network routers" Proceedings of the 39th Design Automation Conference, June 2002, pp. 524-529.

38. Ye T.T., Benini L., Micheli G., Packetization and routing analysis of on-chip multiprocessor networks // Journal of Systems Architecture: the EUROMICRO Journal archive Volume 50 , Issue 2-3 2004 P. 81-104.

39. Hu J., Marculescu R., Exploiting the Routing Flexibility for Energy/Performance Aware Mapping of Regular NoC Architectures // Proceedings of Design Automation and Test in Europe, March 2003, pp. 688-693.

40. Zhang M., Asanovic K, Victim replication: maximizing capacity while hiding wire delay in tiled chip multiprocessors // Computer Architecture, 2005. ISC A '05. Proceedings. 32nd International Symposium on 2005 - P. 336-345

41. Таненбаум Э. Архитектура компьютера / 4-е издание СПб.:Питер 2002.

42. Lenoski D., LaudonJ., Gharachorloo К, Weber W.-D., Gupta A., Hennessy J., Horowitz M., Lam M.S., The Stanford DASH Multiprocessor // Computer Volume 25, Issue 3- 1992.-P. 63-79.48 http://www.montalvosystems.com/

43. Mai, K.; Paaske, Т.; Jayasena, N.; Ho, R.; Dally, W.J.; Horowitz, M. Smart Memories: a modular reconfigurable architecture // Computer Architecture 2000. - P. 161 - 171.

44. Guz Zvika, Keidar Idit, Kolodny Avinoam, Weiser Uri C. Nahalal: Cache Organization for Chip Multiprocessors // IEEE ComputerArchitecture Letters Volume 6, Issue 1 2007.

45. Intel® Hyper-Threading TechnologyTechnical User's Guide // www.Intel.com

46. Thomas L. Sterling, Hans P. Zima Gilgamesh: A Multithreaded Processor In-Memory architecture for Petaflops Computing I. E. E. E Computer, June 1998

47. Wenisch T.F., Somogyi S., Hardavellas N. и др., Store-Ordered Streaming of Shared Memory // Proceedings of the 14th International Conference on Parallel Architectures and Compilation Techniques 2005 - P. 75-86

48. Kavaldjiev, N.K. and Smit, G.J.M., Jansen, P.G. A Virtual Channel Router for On-chip Networks // IEEE Computer Society 2004 - P. 289-293.

49. Kumar R., Holistic design for multi-core architectures // University of California at San Diego ISBN:978-0-542-73443-4, Order Number:AAI322299 2006 -214 стр.

50. Wu X., YangJ., Shi L., Bus Buffer Evaluation of Different Arbitration Algorithms // SOC Conference, 2005. Proceedings. IEEE International 2005 - P. 261264

51. Yihan Li, Panwar S., Chao, H.J. The dual round robin matching switch with exhaustive service // High Performance Switching and Routing. Workshop. 2002 - P. 58-63.

52. Motorola M68HC11 Reference Manual // www.motorola.com (http://www.mcumaster.com/hcl 1/Block/SPI/spi.html)

53. Пат. PCT/US2004/037576. US. Lambrache Emil, Froemming Benjamin. 09.06.2005. WO 2005/052776 A160 http://www.rapidio.org/

54. Интерфейс SPI Microwire. Мир периферийных устройств ПК. 2004, №4, с52-53.

55. I2S bus specification (Phillips Semiconductors)

56. CMX881 Baseband Processor for PMR and Trunked Radios // www.cmlmicro.com

57. CMX981 Advanced Digital Radio Baseband Processor // www.cmlmicro.com155

58. ADSP-2126x SHARC Processor Peripherals Manual // www.analog.com

59. ADSP-BF537 Blackfin Processor Hardware Reference // www.analog.com

60. Nan Wang, MA. Bayoumi, Dynamic Fraction Control Bus: New SOC On-chip Communication Architecture Design // IEEE International SOC Conference 2005. - P. 199- 202.

61. Yihan Li, Panwar S., Chao, H.J. The dual round robin matching switch with exhaustive service // High Performance Switching and Routing. Workshop. 2002 - P. 58-63

62. Путря Ф.М. Новые алгоритмы снижения простоя в многоядерных процессорах // Всероссийская молодёжная конференция "Электроника" 2007. с 26.

63. Путря Ф.М., Исследование, разработка и оптимизация аппаратных средств обмена данными в многоядерных вычислительных системах // Сборник трудов "Проблемы разработки перспективных микроэлектронных систем. Форум диссертационных работ." 2008. - с 509 -515.

64. Путря Ф.М., отчет по НИОКР по теме: «Разработка аппаратно-программных методов минимизации времени простоев в многоядерной системе при разработке ядер с общей памятью» по государственному контракту №5441р/7991 от 14 декабря 2007 года

65. Путря Ф.М., Мепыиепин JI.B. Многоядерный процессор на основе архитектуры с общим адресным пространством, разделенным на ближнюю и дальнюю память // Всероссийская межвузовская научно-техническая конференция "Микроэлектроника и информатика" 2007. с 267.

66. Kavaldjiev, N.K. and Smit, G.J.M., Jansen, P.G. A Virtual Channel Router for On-chip Networks // IEEE Computer Society 2004 - P. 289-293.74 http://www.covvare.com75 http://www.synopsvs.com

67. IEEE 1666 -2005 Standard Language Reference Manual // www.systcmc.org77 www.ibm.com

68. John D. Davis, Cong Fu, James Laudon, The RASE (Rapid, Accurate Simulation Environment) for Chip Multiprocessor // Computer Architecture News -September 2005 Vol. 33, No. 4 - P. 14-23

69. Путря Ф.М., Кучинский А.С., Программная модель для многокритериальной оценки производительности многоядерных вычислительных систем // Всероссийская межвузовская научно-техническая конференция "Микроэлектроника и информатика 2008" - 2008 г. с 207.

70. Воеводин В. В. II Вычислительная математика и структуры алгоритмов. Издательство Московского Университета 2006, 112 с.

71. IEEE Standard Verilog ® Hardware Description Language //http://ww\v. veriIog.com/IEEEVerilog.html

72. SystemVerilog 3.1a Language Reference Manual //http://www.systemverilog.org/

73. Solomatnikov A., Firoozshahian A., Qadeer W., Shacham O., Kelley K., Asgar Z., Wachs M., Hameed R., Horowitz M., Chip multi-processor generator // DAC. 2007 -P. 262-263

74. Shalan M., Shin E., Mooney V., DX-Gt: Memory management and crossbar switch generator for multiprocessor system-on-a-chip // 11th Workshop on Synthesis And System Integration of Mixed Information technologies 2003 - P. 357-364

75. Shalan M., Mooney V. J., A dynamic memory management unit for embedded real-time system-on-a-chip // Proceedings of the 2000 international conference on Compilers, architecture, and synthesis for embedded systems 2000 - P. 180 - 186.

76. Shalan M., Mooney V. J., Hardware support for real-time embedded multiprocessor system-on-a-chip memory management // Proceedings of the tenth international symposium on Hardware/software codesign — 2002 — P. 79-84.

77. Shin E. iS., Mooney V.J., Riley G. F., Round-robin arbiter design and generation // Proceedings of the 15th international symposium on System Synthesis -2002 P. 243 - 248.

78. Preparata F. P., Vuillemin J., The Cube-Connected Cycles: A Versatile Network for Parallel Computation // Comm. of the ACM 1981 - P. 300-309.

79. Путря Ф.М., Беляев A.A., Глобальный коммутатор для многоядерного процессора с несимметричным доступом к памяти // Вопросы радиоэлектроники, серия ЭВТ. выпуск 3. - 2008. - С. 28 - 39.

80. Путря Ф.М. Метод автоматизации процесса разработки коммутационной среды для многоядерной системы с ассиметричным доступом к памяти // Сборник трудов "Проблемы разработки перспективных микроэлектронных систем" 2008. -с 201 -204.

81. Кучинский А. С., Путря Ф.М., Симулятор многоядериой вычислительной системы и примеры его применения // Известия вузов. ЭЛЕКТРОНИКА № 2 2008 г. с 72-77.

82. Serially Interfaced, 8-Digit LED Display Drivers MAX7219/MAX7221 // http://www.maxim-ic.com/

83. Crews M., Yuenyongsgool Y., Practical design for transferring signals between clock domains // EDN 2/20/2003

84. Беляев A.A., Путря Ф.М. Выбор оптимальной структуры функционально полного контроллера шины SPI с 32-зазрядным интерфейсом // Известия вузов. Электроника-№ 4 2006.- с 71-75

85. Беляев А.А. Путря Ф.М. Проектирование СФ-блока контроллера шины SPI с интерфейсом АМВА // Международная научно-техническую конференция "Электроника и информатика" 2005. - Часть 1, с 180.

86. Глушков А.В., Беляев А.А., Путря Ф.М., Алексеев КН., Миронова Ю.В. Библиотека периферийных IP ядер платформы МУЛЬТИКОР // Сборник трудов "Проблемы разработки перспективных микроэлектронных систем" - 2005. - с 530 -535.

87. Путря Ф.М. Оптимизация структуры контроллеров последовательных шин. Решение проблем нехватки выводов микросхемы и загрузки процессора при передаче данных // Сборник трудов "Проблемы разработки перспективных микроэлектронных систем" 2006. - с 274 -275.

88. Путря Ф.М. ПРОГРАММИРУЕМЫЙ КОНТРОЛЛЕР ПОСЛЕДОВАТЕЛЬНЫХ ШИН // Решение о выдаче патента на изобретение от 24.12.2008 по заявке номер 2007132778 от 31.08.2007

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.