Принципы построения и разработка DSP-ядер с оптимальным по производительности конвейером для вычислительных и управляющих систем тема диссертации и автореферата по ВАК РФ 05.13.05, кандидат технических наук Беляев, Андрей Александрович
- Специальность ВАК РФ05.13.05
- Количество страниц 193
Оглавление диссертации кандидат технических наук Беляев, Андрей Александрович
ВВЕДЕНИЕ.
ГЛАВА 1 . ОБЗОР МЕТОДОВ ПОСТРОЕНИЯ И ОПТИМИЗАЦИИ КОНВЕЙЕРА СОВРЕМЕННЫХ МИКРОПРОЦЕССОРОВ.
1.1. Архитектура современных микропроцессоров.
1.2. Конвейеризация как основной метод повышения производительности современных микропроцессоров.
1.3. Архитектурные особенности сигнальных процессоров.
1.3.1. Общая характеристика сигнальных процессоров.
1.3.2. Сигнальные процессоры Texas Instruments.
1.3.3. Сигнальные процессоры Analog Devices.
1.4. Организация конвейера сигнальных процессоров.
1.5. Реализация сигнальных процессоров в виде DSP-ядер для вычислительных и управляющих систем на кристалле.
1.6. Критерии, уровни и методы оптимизации систем на кристалле.
1.6.1. Критерии оптимизации проектируемых СнК.
1.6.2. Уровни и методы оптимизации СнК.
1.7. Известные методы оптимизации структуры конвейера инструкций микропроцессора.
1.8. Сравнительный анализ особенностей и недостатков существующих методов построения конвейера сигнальных процессоров и DSP-ядер.
1.9. Цели и задачи диссертационной работы.
Выводы.
ГЛАВА 2 . ПРИНЦИПЫ ПОСТРОЕНИЯ ОПТИМАЛЬНОГО ПО ПРОИЗВОДИТЕЛЬНОСТИ КОНВЕЙЕРА ИНСТРУКЦИЙ DSP-ЯДРА НА ОСНОВЕ УЧЕТА СТАТИСТИЧЕСКИХ ХАРАКТЕРИСТИК ИСПОЛНЯЕМЫХ ПРИЛОЖЕНИЙ.
2.1. Анализ влияния программных переходов и зависимостей по данным в исполняемом приложении на производительность конвейера.
2.2. Определение статистических характеристик программной трассы путем построения и редукции графа зависимостей по данным.
2.3. вывод математической зависимости производительности процессора от числа фаз конвейера.
2.4. Определение оптимальной глубины конвейера для приложений с наличием программных переходов и зависимостей по данным.
2.5. Сравнение полученных формул с ранее известными.
Выводы.
ГЛАВА 3 . РАЗРАБОТКА СЕРИИ DSP-ЯДЕР С ОПТИМАЛЬНЫМ ПО ПРОИЗВОДИТЕЛЬНОСТИ КОНВЕЙЕРОМ С УЧЕТОМ ХАРАКТЕРИСТИК ТЕХНОЛОГИЧЕСКОГО БАЗИСА.
3.1. Разработка аппаратной структуры серии масштабируемых DSP-ядер Elcore-xx™.
3.2. Проблема построения DSP-ядра с оптимальным конвейером в конкретном технологическом базисе: схемотехнический подход.
3.2.1. Определение глубины конвейера: постановка задачи.
3.2.2. Учёт временных характеристик библиотеки элементов.
3.2.3. Оценка предельного быстродействия конвейера.
3.3. Анализ влияния временных характеристик внутрикристальной памяти на выбор структуры конвейера DSP-ядра.
3.3.1. Временные характеристики внутрикристальной памяти.
3.3.2. Влияние временных характеристик внутрикристальной памяти на структуру конвейера.
3.3.3. Повышение производительности конвейера за счет выбора структуры памяти.
3.4. Определение глубины конвейера: функциональный подход.
3.4.1. Модификация адреса памяти программ.
3.4.2. Модификация адреса памяти данных.
3.4.3. Зависимость по данным в исполняемой программе: краевые случаи.
3.4.4. Зависимость по данным в исполняемой программе: общий случай.
3.5. Формирование управляющих сигналов как фактор ограничения производительности конвейера DSP-ядра.
3.6. Комплексная методика оптимизации конвейера DSP-ядра.
Выводы.
ГЛАВА 4 . РЕЗУЛЬТАТЫ РАЗРАБОТОК, ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ И ВНЕДРЕНИЯ СЕРИИ DSP-ЯДЕР В РАМКАХ АППАРАТНО-ПРОГРАММНОЙ ПЛАТФОРМЫ «МУЛЬТИКОР».
4.1. Определение оптимальной глубины конвейера DSP-ядра для
Рекомендованный список диссертаций по специальности «Элементы и устройства вычислительной техники и систем управления», 05.13.05 шифр ВАК
Теория, разработка и создание проблемно-ориентированных процессорных ядер с оптимальным вычислительным конвейером и многоядерных сигнальных процессоров на их основе.2012 год, доктор технических наук Беляев, Андрей Александрович
Исследование и разработка методов цифровой согласованной фильтрации радиолокационных сигналов в гетерогенных системах на кристалле2009 год, кандидат технических наук Янакова, Елена Сергеевна
Исследование и разработка методов увеличения производительности интегральных схем многоядерных микропроцессоров на основе повышения эффективности коммутационной логики2009 год, кандидат технических наук Путря, Федор Михайлович
Разработка и анализ программно-алгоритмических средств высокоскоростной обработки графической информации и управления в бортовых приборах визуализации изображений2009 год, кандидат технических наук Милов, Алексей Николаевич
Исследование и разработка конвейера команд процессора с архитектурой явного использования параллелизма команд2001 год, кандидат технических наук Столярский, Евгений Зиновьевич
Введение диссертации (часть автореферата) на тему «Принципы построения и разработка DSP-ядер с оптимальным по производительности конвейером для вычислительных и управляющих систем»
Актуальность работы. Курс на модернизацию отечественной экономики, перевод её на рельсы инновационного развития невозможен без создания современной элементной базы для вычислительных систем и систем управления различного назначения на основе новейших достижений микроэлектронной технологии. Наличие такой элементной базы является необходимым условием развития высокотехнологичных отраслей промышленного производства, и предоставляет конкурентные преимущества как в коммерческом, так и в военно-стратегическом плане.
Существующий в мире уровень разработок микроэлектронной элементной базы в настоящее время очень высок, и достижения лидеров в этой области, таких, как компании Intel, Texas Instruments, Analog Devices предоставляют широчайшее возможности для создания систем управления и обработки информации самого различного назначения. Однако не является секретом, что, как и в прежние годы, странами северо-атлантического альянса проводится политика ограничения поставок на российский рынок новейшей элементной базы, которая могла бы быть использована для создания систем вооружений, в связи с чем всё большую остроту приобретает проблема импортозамещения.
Ключевыми элементами, на базе которых создаются современные вычислительные и управляющие системы, являются микропроцессоры - программируемые вычислительные устройства различной архитектуры и назначения, в том числе цифровые процессоры обработки сигналов - DSP (Digital Signal Processors).
В разработку теории и практики построения вычислительных систем и микропроцессорной техники существенный вклад внесли известные российские ученые: С.А.Лебедев, В.М.Глушков, В.С.Бурцев, Б.А.Бабаян, Л.Н.Преснухин,
A.И.Галушкин, В.А.Шахнов, В.П.Корячко и другие. В создании новейших архитектур процессоров, а также в области практической реализации процессоров в виде интегральных схем участвовали отечественные предприятия: ИТМ ВТ им. С.А.Лебедева, НИИСИ РАН, НИИМА "Прогресс", НТЦ «Модуль», ЗАО МЦСТ, ГУП НПЦ «ЭЛВИС» и другие. Достигнутые в этой области успехи связаны с именами таких ученых, как Ю.В.Гуляев, В.Б.Бетелин, К.А.Валиев, Г.Я.Гуськов,
B.Г.Немудров, Г. Я. Красников, А. Л. Стемпковский и многие другие.
Со времени появления первых вычислительных машин важнейшим направлением их совершенствования является повышение скорости вычислений, т.е. производительности. При этом уже на первых порах стало понятно^ что повышение производительности достигается не только за счёт лучшей элементной базы и технологии производства, но также и за счёт совершенствования принципов их построения, их архитектуры.
Одним из наиболее эффективных архитектурных методов повышения производительности микропроцессоров является конвейеризация. Конвейерная обработка команд применяется практически во всех современных микропроцессорах.
Общая идея конвейера связана с разбиением процесса обработки данных на этапы и организацией их параллельного во времени выполнения. Тем самым реализуется принцип параллелизма (или «совмещение операций») на уровне команд. Принцип совмещения операций был выдвинут академиком С.А.Лебедевым и впервые реализован в машине М20 в 1956 году. В дальнейшем эта идея получила развитие и была успешно реализована в многочисленных устройствах цифровой обработки данных. При конвейерной обработке увеличение числа фаз конвейера, в принципе, должно приводить к увеличению производительности. Однако на практике существуют программные ограничения, из-за которых увеличение глубины конвейера выше некоторого предела становится неэффективным. Эти ограничения связаны с наличием в исполняемых приложениях зависимостей по данным и программных переходов, что приводит к конфликтам между операциями в конвейере и вынужденным его остановкам, вызывающим падение производительности.
Анализируя структуру конвейера популярных семейств современных DSP-процессоров ведущих мировых фирм-производителей (Texas Instruments, Analog Devices и других), можно отметить следующее:
- современные DSP-процессоры (особенно процессоры с плавающей точкой) имеют достаточно большую глубину конвейера (10-11 фаз), которая влияет на скорость исполения тех или иных программных приложений в зависимости от их статистических характеристик;
- у пользователя нет возможности оптимизировать структуру конвейера выбранного им DSP-процессора под свое конкретное приложение, он вынужден использовать его «так, как есть».
В связи с этим при разработке новых микропроцессоров, и особенно DSP-процессоров, назначение которых состоит в массовой высокопроизводительной обработке данных, актуальной является задача построения оптимального по производительности конвейера инструкций с учетом статистических характеристик тех исполняемых программ.
Задача оптимизации конвейера становится ещё более актуальной при проектировании DSP-ядер для многоядерных систем на кристалле в связи со всё более возрастающей сложностью таких систем и повышающимися требованиями к производительности DSP-ядер в их составе, а также усложнением самого процесса проектирования. Сложность задачи возрастает в связи с необходимостью учета в этом случае временных характеристик используемого технологического базиса (библиотеки элементов) и связанных с этим ограничений.
Нахождение оптимальной глубины конвейера может выполняться либо математическими методами, либо путем прямого моделирования работы конвейера, причем на практике чаще используется именно второй метод, несмотря на то, что достоинства математического подхода к оптимизации достаточно очевидны. Точная аналитическая формула, выражающая зависимость производительности проектируемого DSP-ядра от глубины его конвейера и статистических характеристик исполняемой программы, позволяет заранее предсказать поведение конвейера при различных значениях указанных характеристик и аналитически определить оптимальную глубину конвейера, тем самым облегчив и ускорив процесс проектирования. Однако представленные к настоящему времени в научно-технической литературе математические модели, описывающие работу конвейера с учётом статистических характеристик исполняемой программы и позволяющие произвести его оптимизацию, имеют лишь приближённый характер.
Поэтому объектом исследования в данной работе являются ядра процессоров сигнальной обработки (DSP-ядра) для многоядерных систем на кристалле, а предметом исследования — принципы построения и разработка DSP-ядер с оптимальным по производительности конвейером инструкций.
Исходя из анализа существующих проблем, связанных с реализацией высокопроизводительных DSP-ядер для многоядерных систем на кристалле, были I сформулированы следующие цели и задачи диссертационной работы.
Целью диссертационной работы является разработка принципов построения оптимального по производительности конвейера DSP-ядра с учётом как стати стических характеристик исполняемых программ, так и временных характеристик используемого технологического базиса, и создание на этой основе серии масштабируемых DSP-ядер для вычислительных и управляющих систем.
Для достижения этой цели необходимо решить следующие задачи:
1. Вывести математическую зависимость производительности DSP-ядра от числа фаз (глубины) его конвейера при наличии в исполняемом приложении программных переходов и зависимостей по данным, а также соотношения для расчета оптимальной по производительности глубины конвейера.
2. Разработать методику определения статистических характеристик программной трассы (относительных частот программных переходов и зависимостей по данным) посредством построения и редукции графа зависимостей по данным.
3. Разработать комплексную методику оптимизации конвейера DSP-ядра по производительности с учётом статистических характеристик исполняемых программ и временных характеристик используемого технологического базиса. "
4. На основе комплексной методики выполнить .разработку серии масштабируемых DSP-ядер с оптимальным по производительности конвейером для различных задач сигнальной обработки и различных технологических базисов.
5. Провести анализ и разработать принципы и способы построения многоядерных систем на кристалле с реконфигурируемыми потоками данных и управления на основе разработанных DSP-ядер, внедрить разработанные ядра в состав многоядерных систем на кристалле и экспериментально определить достигаемую ими производительность.
Методы исследования. Для решения поставленных задач использовались теория и методы оптимизации, теория программирования, теория графов, теория параллельных вычислительных систем, теория и алгоритмы цифровой обработки сигналов, теория и методы проектирования интегральных схем.
Научная новизна. При выполнении диссертационной работы получены следующие новые научные результаты.
1. Выведены математические соотношения, выражающие зависимость производительности DSP-ядра от глубины его конвейера при наличии в исполняемом приложении программных переходов и зависимостей по данным.
2. Выведены математические соотношения для расчета оптимальной по производительности глубины конвейера. .
3. Разработана методика определения статистических характеристик программной трассы посредством построения и редукции графа зависимостей по данным. Предложены и теоретически обоснованы правила редукции графа зависимостей.
4. Впервые разработана комплексная методика оптимизации конвейера DSP-ядра по производительности с учётом как статистических характеристик исполняемых программ, так и временных характеристик технологического базиса, предназначенная для практического проектирования DSP-ядер.
5. Проведен анализ, предложены принципы и способы построения многоядерных систем на кристалле с реконфигурируемыми потоками данных и управления и аппаратными средствами синхронизации вычислительных потоков на основе разработанных DSP-ядер.
Практическая значимость работы состоит в следующих достижениях.
1. Применение полученных в работе теоретических результатов позволило повысить, по сравнению с известными ранее методами, точность определения оптимальной глубины конвейера DSP-ядра. Для отдельных приложений повышение точности достигает 50%, что позволяет соответственно уменьшить аппаратные затраты на конвейеризацию при одновременном росте производительности на 10% и более.
2. Разработанная методика позволяет определить оптимальную глубину конвейера DSP-ядра аналитическими методами, не прибегая к ресурсоемкому моделированию, тем самым сокращая сроки проектирования на 20-25%.
3. Разработанная автором серия DSP-ядер ELcore-xx™ представляет собой библиотеку процессорных IP-ядер, многократно применяемых при проектировании многоядерных систем на кристалле различного назначения.
4. Внедрение разработанных DSP-ядер в состав многоядерных микросхем сигнальных процессоров позволило обеспечить их производительность на уровне сопоставимом или превосходящем лучшие мировые аналоги. В частности, DSP-кластер QELcore-09™ на частоте 500 МГц обеспечивает производительность 12 Гфлоп/с.
5. Предложенные принципы и способы построения многоядерных систем на кристалле обеспечивают объединение DSP-ядер в многоядерные кластеры с высокой скоростью обмена данными и аппаратной синхронизацией вычислительных потоков. В 4-ядерном DSP-кластере QELcore-09™ обеспечивается скорость обмена 80 Гбайт/с внутри кластера и 8 Гбайт/с - с центральными процессором.
В соответствии с Государственной стратегией импортозамещения микроэлектронных компонентов проведенное исследование является критически важным -ввиду его направленности на создание высокопроизводительной отечественной элементной базы. Исследования проводились автором в рамках «Стратегии развития электронной промышленности России на период до 2025 года», утвержденной министром промышленности и энергетики РФ в 2007 г., а также «Приоритетных направлений развития науки, технологий и техники РФ».
Достоверность результатов работы обусловлена применением общепринятых математических методов оптимизации, математического моделирования, использованием систем автоматизированного проектирования, и подтверждается многолетним опытом эксплуатации DSP-ядер ELcore-xx™ в составе систем на кристалле, разработанных на основе теоретических и технических идей данной работы.
Внедрение результатов работы.
На основе полученных научных результатов автором была разработана серия DSP-ядер ELcore-xx™, на базе которой созданы микросхемы сигнальных процессоров семейства «Мультикор»: 1892ВМЗТ, 1892ВМ2Я, 1892ВМ4Я, 1892ВМ5Я , 1892ВМ7Я и др. Микросхемы сигнальных процессоров 1892ВМЗТ, 1892ВМ4Я, 1892ВМ5Я включены в «Перечень электрорадиоизделий, разрешенных к применению при разработке (модернизации), производстве и эксплуатации аппаратуры, приборов, устройств и оборудования военного назначения» (МОП 44 001.02-2009) МО РФ. Микросхемы семейства «Мультикор» были внедрены при разработке аппаратуры на 51 предприятии (см. Приложение 4). Среди них можно выделить системные концерны российской оборонной промышленности: ФГУП "НПО машиностроения", ОАО "Концерн "Созвездие", ОАО НПО "Алмаз" им. академика Расплетина, ОАО Концерн радиостроения "Вега", ФГУП ЦНИИ "Комета", ФГУП "НИИ "Вектор", ФГУП НПО "Орион", ФНПЦ «Раменское приборостроительное конструкторское бюро» и другие.
11 i
Основные научно-технические результаты работы, основанные на исследованиях автора, использованы при выполнении 11-ти ОКР и НИР, проводившихся на предприятии ГУЛ НПЦ «ЭЛВИС» в течение ряда лет (см. Приложение 2).
Личный вклад автора. Все выносимые на защиту научные положения, проведенные в рамках диссертационной работы теоретические и экспериментальные исследования, разработка и внедрение выполнены автором лично.
Кроме того, автор участвовал в подготовке и проведении приемо-сдаточных испытаний изготовленных микросхем, в разработке программной, текстовой и конструкторской документации, а также проводил сопроводительные работы в местах эксплуатации изделий, созданных на базе изготовленных микросхем.
На защиту выносятся:
- математические соотношения, выражающие зависимость производительности DSP-ядра от глубины конвейера и статистических характеристик (относительных частот программных переходов и зависимостей по данным) программной трассы;
- математические соотношения для расчета оптимальной по производительности глубины конвейера DSP-ядра;
- методика определения статистических характеристик программной трассы посредством построения и редукции графа зависимостей по данным;
- комплексная методика оптимизации конвейера DSP-ядра по производительности с учётом статистических характеристик прикладных программ и временных характеристик технологического базиса и разработанная на ее основе серия масштабируемых DSP-ядер для обработки данных в форматах 8/16/32/64/128 разрядов для различных задач сигнальной обработки и технологических базисов;
- принципы и способы построения многоядерных систем на кристалле с реконфи-гурируемыми потоками данных и управления и аппаратными средствами синхронизации вычислительных потоков на основе разработанных DSP-ядер и внедрение разработанных ядер в состав ряда многоядерных систем на кристалле.
Апробация работы. Основные результаты работы докладывались и обсуждались на: международной научно-технической конференции «Современные телевизионные технологии. Состояние и направления развития», Москва, 2004; Всероссийской научно-технической конференции «Проблемы разработки перспективных микроэлектронных систем - 2005», Истра; международной научно-технической конференции «Современные телевизионные технологии. Состояние и направления развития», Москва, 2006; Всероссийской научно-технической конференции «Проблемы разработки перспективных микроэлектронных систем - 2006», Истра, 2006; Всероссийской научно-технической конференции «Проблемы разработки перспективных микро- и наноэлектронных систем - 2008», Истра.
По теме диссертации опубликовано 24 научных работы. Из них в ведущих рецензируемых журналах, входящих в перечень, утвержденный ВАК - 7, тезисов докладов всероссийских конференций -10,1 авторское свидетельство об изобретении. Без соавторов опубликовано 8 работ.
Структура и объем диссертации. Диссертационная работа состоит из введения, четырех глав, заключения, списка использованной литературы и приложений. Объем основного текста диссертации - 170 страниц. В работе содержится 77 рисунков и 15 таблиц. Список литературы содержит 93 наименования.
Похожие диссертационные работы по специальности «Элементы и устройства вычислительной техники и систем управления», 05.13.05 шифр ВАК
Исследование методов реализации алгоритмов обработки больших потоков данных за счет конвейерного распараллеливания2009 год, кандидат технических наук Лысаков, Константин Федорович
Высокопроизводительные сопроцессоры для параллельной обработки данных в формате с плавающей точкой в системах цифровой обработки сигналов2013 год, кандидат технических наук Пантелеев, Алексей Юрьевич
Методы построения пакетов прикладных программ для неоднородных многоядерных процессоров2012 год, кандидат технических наук Недоводеев, Константин Владимирович
Вычислительные устройства с параллельной и изменяемой архитектурой для задач обработки изображения2002 год, кандидат технических наук Аряшев, Сергей Иванович
Модернизация архитектуры системы на кристалле для снижения энергопотребления в декодерах потоковых видеоданных2010 год, кандидат технических наук Пучков, Григорий Анатольевич
Заключение диссертации по теме «Элементы и устройства вычислительной техники и систем управления», Беляев, Андрей Александрович
Выводы
1. В соответствии с предложенной комплексной методикой была определена оптимальная глубина конвейера DSP-ядра с учетом статистических характеристик реальных приложений сигнальной обработки и рассчитанной при помощи схемотехнического синтеза параметра у, характеризующего свойства используемого технологического базиса.
2. На основе выполненных оценок в рамках работ по созданию библиотеки процессорных ядер аппаратно-программной платформы «Мультикор» автором была разработана серия DSP-ядер ELcore-xx™ с различной структурой конвейера , для различных задач сигнальной обработки.
3. Разработанные DSP-ядра серии ELcore-xx™ имеют сравнительно короткий конвейер инструкций — от 3 до 7 фаз, с исполнительной частью от 1 до 3 фаз (для сравнения, конвейер процессора TS201 имеет 10 фаз с исполнительной частью 5 фаз). Это позволяет сократить потери, связанные с торможением конвейера при наличии в исполняемом приложении программных переходов и зависимостей по данным.
4. На основе DSP-ядер серии ELcore-xx™ в рамках платформы «Мультикор» было разработано и внедрено в серийное производство семейство многоядерных гетерогенных систем на кристалле - сигнальных процессоров 1892ВМЗТ (МС-12), 1892ВМ2Я (МС-24), 1892ВМ4Я (М-ЦОС), 1892ВМ5Я (ЦПОС), 1892ВМ7Я (МС-0428), NVCom-01. Микросхемы сигнальных процессоров 1892ВМЗТ, 1892ВМ4Я, 1892ВМ5Я включены в «Перечень электрорадиоизделий, разрешенных к применению при разработке (модернизации), производстве и эксплуатации аппаратуры, приборов, устройств и оборудования военного назначения» (МОП 44 001.02-2009) Министерства Обороны РФ.
5. Применение DSP-ядер серии ELcore-xx™ при создании перечисленных микросхем сигнальных процессоров позволило обеспечить их производительность на уровне ведущих мировых производителей - фирм Analog Devices и Texas Instruments. Так, изготовленный по 0,13-мкм технологии процессор NVCom-01 дает такую же производительность при вычислениях в формате плавающей точки, что и процессор TS201 фирмы Analog Devices - 3,6 Гфлоп/с; а при вычислениях в 16-разрядном формате фиксированной точки даже превосходит его -19,2 млрд.оп/с против 14,4 млрд.оп/с.
6. Рассмотрены проблемы, предложены принципы и способы построения многоядерных вычислительных систем на кристалле с реконфигурируемыми потоками данных и управления на основе разработанных DSP-ядер. К основным принципам построения таких систем можно отнести: 1) масштабируемость; 2) высокую скорость обмена данными, соответствующую скорости выполнения вычислений; 3) аппаратную поддержку синхронизации вычислительных потоков в DSP-ядрах.
7. В результате применения предложенных принципов и способов построения многоядерных вычислительных систем были спроектированы 4-ядерный DSP-кластер QELcore-28™ для 5-ядерной системы на кристалле 1892ВМ7Я и QELcore-091M для 6-ядерной системы на кристалле СБИС МП. В DSP-кластере QELcore-09 ш на тактовой частоте 500 МГц обеспечивается скорость обмена 80 Гбайт/с внутри кластера и 8 Гбайт/с - с центральным процессором.
8. В разработанных DSP-кластерах используется метод аппаратной поддержки синхронизации вычислительных потоков, основанный на использовании буфера обмена XBUF. Буфер обмена XBUF представляет собой многопортовый регистровый файл и допускает одновременное чтение одной и той же ячейки со стороны нескольких абонентов. Механизм синхронизации основан на том, что каждая ячейка XBUF снабжена дополнительным битом состояния для сохранения информации о типе последней транзакции. В синхронном режиме для конкретного регистра XBUF обязательно должны чередоваться операции чтения записи, если какое-либо ядро пытается осуществить запись после записи или чтение после чтения - оно блокируется.
9. DSP-кластер QELcore-09™ , спроектированный по технологическим нормам 90 нм, работая на тактовой частоте 500 МГц, обеспечивают производительность 12 млрд. операций с плавающей точкой в секунду, что является на сегодняшний день наивысшим достижением среди отечественных сигнальных процессоров.
Заключение
В работе изложен комплекс научно обоснованных разработок, направленных на повышение производительности процессорных ядер сигнальной обработки (DSP-ядер) в составе многоядерных систем на кристалле путем построения оптимального по производительности конвейера инструкций с учётом как статистических характеристик исполняемых прикладных программ, так и временных характеристик используемого технологического базиса.
Наиболее значимые результаты работы состоят в следующем.
1. Выведены математические соотношения, выражающие зависимость производительности DSP-ядра от числа фаз его конвейера при наличии в исполняемом приложении программных переходов и зависимостей по данным, и позволяющие произвести расчет оптимальной по производительности глубины конвейера. Полученные соотношения являются более точными, чем известные ранее. Для отдельных приложений повышение точности достигает 50%, что позволяет соответственно уменьшить аппаратные затраты на конвейеризацию при одновременном росте производительности 10% и более.
2. Разработана методика определения статистических характеристик программной трассы, влияющих на производительность конвейера DSP-ядра (относительных частот программных переходов и зависимостей по данным), посредством построения и редукции графа зависимостей по данным. Предложены и теоретически обоснованы правила редукции графа зависимостей.
3. Впервые разработана комплексная методика оптимизации конвейера DSP-ядра по производительности с учётом как статистических характеристик исполняемых программ, так и временных характеристик технологического базиса, предназначенная для практического проектирования DSP-ядер. Разработанная методика позволяет определить оптимальную глубину конвейера DSP-ядра аналитическими методами, не прибегая к ресурсоемкому моделированию, тем самым сокращая сроки проектирования на 20-25%.
4. На основе предложенной методики разработана серия масштабируемых DSP-ядер ELcore-xx™ для обработки данных в форматах 8/16/32/64/128 разрядов с оптимальным по производительности конвейером для различных задач сигнальной обработки и технологических базисов. Разработанная серия DSP-ядер представляет собой библиотеку процессорных IP-ядер, многократно применяемых при проектировании многоядерных систем на кристалле различного назначения.
5. Внедрение разработанных DSP-ядер в состав многоядерных микросхем сигнальных процессоров обеспечивает их производительность на уровне сопоставимом или превосходящем лучшие мировые аналоги. В частности, DSP-кластер QELcore-09rM на частоте 500 МГц обеспечивает производительность 12 Гфлоп/с.
6. Проведен анализ и предложены способы построения многоядерных систем на кристалле с реконфигурируемыми потоками данных и управления на основе разработанных DSP-ядер, обеспечивающие возможность объединения DSP-ядер в многоядерные кластеры с аппаратными средствами синхронизации вычислительных потоков и высокой скоростью обмена данными. Так, в 4-ядерном DSP-кластере QELcore-091M обеспечивается скорость обмена 80 Гбайт/с внутри кластера и 8 Гбайт/с - с центральным процессором.
7. На основе разработанной автором серии DSP-ядер ELcore- XX™ были созданы микросхемы сигнальных процессоров семейства «Мультикор»: 1892ВМЗТ, 1892ВМ2Я, 1892ВМ4Я, 1892ВМ5Я , 1892ВМ7Яи др. Микросхемы сигнальных процессоров 1892ВМЗТ, 1892ВМ4Я, 1892ВМ5Я включены в «Перечень электрорадиоизделий, разрешенных к применению при разработке (модернизации), производстве и эксплуатации аппаратуры, приборов, устройств и оборудования военного назначения» (МОП 44 001.02-2009) Министерства Обороны РФ. Микросхемы семейства «Мультикор» внедрены на 51 предприятии.
Список литературы диссертационного исследования кандидат технических наук Беляев, Андрей Александрович, 2010 год
1. Микропроцессоры. В 3-х кн. // Нестеров П.В.,.Шаньгин В.Ф, Горбунов В.Л.и др.; Под ред. Преснухина Л.Н. М.: "Высшая школа", 1986. Кн. 1: Архитектура и проектирование микроЭВМ. Организация вычислительных процессов. 495 с.
2. Таненбаум Э. Архитектура компьютера, 4-е изд. Спб.: Питер, 2003. - 704 с.
3. Столлингс В. Структурная организация и архитектура компьютерных систем. Проектирование и производительность. 5-е издание. Москва, 2002. 896 с.
4. Микропроцессоры и микропроцессорные комплекты интегральных микросхем. Под ред. Шахнова В.А. М.: "Радио и связь" ,1988. T.I, (Т.2) - 368 е., (368 с.)
5. Хамахер К., Вранешич 3., Заки С. Организация ЭВМ, 1-е изд. Спб.: Питер, 2003.-848 с.
6. Ульянов М.В. Архитектуры процессоров. М.: МГАПИ, 2002. - 68 с.
7. Микропроцессорные системы. Под ред. Пузанкова Д.В. «Политехника», С.Петербург, 2002.-935 с.
8. Современные высокопроизводительные компьютеры. Информационно-аналитический обзор. М.:ЦИТ, 1997.
9. Von Neumannn J. First Draft of a Report on the EDVAC. Moore School, University of Pensylvania, 1945.
10. Flynn M. Very high-speed computing system // In proceddings of IEEE. 1966. N 54. P.1901-1909.
11. Flynn M. Some Computer Organisations and Their Effectiveness // In proceddings of IEEE Trans. Computers. 1972. V.21. N 9. P.948-960.12. http://www.analog.com/13. http://www.ti.com/
12. Коуги П.М. Архитектура конвейерных ЭВМ // Пер. с англ.— М.: Радио и связь, 1985.-360 с.
13. Каган Б.М. Электронные вычислительные машины и системы. М.; Энергоатом-издат, 1991.-592 с.
14. Hartstein A. and Puzak T. R. The optimum pipeline depth for a microprocessor. //Proceedings of the 29th Annual International Symposium on Computer Architectures, pp. 7 13,2002.
15. Hrishikesh M., Jouppi N., Farkas K., Burger D., Keckler S. and Shivakumar P. The optimal logic depth per pipeline stage is 6 to 8 F04 inverter delays // Proceedings of the 29th Annual Int Symposium on Computer Architectures, pp.14 24, 2002.
16. Sprangle E. and Carmean D. Increasing processor performance by implementing deeper pipelines // Proceedings of the 29th Annual International Symposium on Computer Architectures, pp. 25 35, 2002.
17. Srinivasan V., Brooks D., Gschwind M., Bose P., Zyuban V., Strenski P. N. and Emma P. G. Optimizing pipelines for power and performanc. // Proceedings of the 35th Annual IEEE/ACM International Symposium on Microarchitecture, pp.333 -344, 2002.
18. Kunkel S.R. and Smith J.E. Optimal pipelining in supercomputers // Proceedings of the 13th Annual International Symposium on Computer Architectures, pp. 404 411, 1986.
19. Emma P.G., Davidson E.S. Characterization ob Branch and Data Dependencies in Programs for Evaluating Pipeline Performance // IEEE Trans. On Computers, Vol.C-36, N0.7, July 1987, pp.859-875.
20. Hartstein A., Puzak T.R. Optimum Power/Performance Pipeline Depth // Proceedings of the 36th International Symposium on Microarchitecture (MICRO-36'03), pp.117 -125, 2003.
21. MIPS32™ Architecture For Programmers. Volume I: Introduction to the MIPS32™ Architecture. MIPS Technologies. March 12, 2001.
22. Солонина А., Улахович Д., Яковлев JI. Алгоритмы и процессоры цифровой обработки сигналов. С-Пб, «БХВ-Петербург», 2002 г. 464 с.
23. TMS320C64x Technical Overview. Texas Instruments. SPRU395B January 2001.
24. TMS320C64x/C64x+ DSP CPU and Instruction Set Reference Guide. Texas Instruments. SPRU732H October 2008.
25. TMS320DM6467 Digital Media System-on-Chip. Texas Instruments. SPRS403E -December 2007.
26. ADSP-219x/2192 DSP Hardware Reference Revision 1.1, April 2004 Part Number 82-002001-01 Analog Devices, Inc.
27. TigerSHARC®Embedded Processor ADSP-TS203S 2006 Analog Devices, Inc.
28. ADSP-TS201 TigerSHARC® Processor Programming Reference Revision 1.1, April 2005 Part Number 82-000810-01 Analog Devices, Inc.
29. ADSP-TS201 TigerSHARC® Processor Hardware Reference Revision 1.1, December 2004 Part Number 82-000815-01 Analog Devices, Inc.
30. Кривченко И. Системы на кристалле: общее представление и тенденции развития. Компоненты и технологии.№6, 2001г.
31. Бухтеев А. Методы и средства проектирования систем на кристалле. Chip News №4, 2003. с.4 -14.
32. РТМ «Сложно-функциональные блоки. Общие требования к разработке» », децимальный номер ШИЛГ 430109.004 РМ. ФГУП «НИИМА «Прогресс», Москва, 2002.
33. РТМ «Состав информации и форматы её передачи для цифровых СФ блоков», децимальный номер ШИЛГ 430109.002 РМ. ФГУП «НИИМА «Прогресс», Москва, 2002.
34. РТМ «Состав и форматы передачи информации для тестирования цифровых СФ блоков», децимальный номер ШИЛГ 430109.003 РМ. ФГУП «НИИМА «Прогресс», Москва, 2002.
35. Немудров В., Мартин Г. Проектирование систем на кристалле. Техносфера. 2004г., 216 с.
36. Michael J. Flynn, Patrick Hung, Kevin W. Rudd. Deep-Submicron Microprocessor Design Issues // IEEE Micro, Vol. 19, No. 4, July/Aug. 1999, pp. 11-22.
37. Marc Duranton. The challenges for high performance embedded systems // Proceedings of 9th EUROMICRO Conference on Digital System Design (DSD'06),2006,pp.3-7.
38. Borkar S. Design Challenges of Technology Scaling // IEEE Micro, Vol. 19, No. 4, July/Aug. 1999, pp. 23-29.
39. Ullman J.D. Computational Aspects of VLSI. // Computer Science Press, Rockville, Md., 1984, pp. 42-79.
40. Vikas Agarwal, Hrishikesh Stephen, Keckler W., Doug Burger. Clock Rate versus IPC: The End of the Road for Conventional Microarchitectures // Proceedings of the 27 Annual International Symposium on Computer Architecture, 2000,pp.248 259.
41. Беляев А.А. Организация программного конвейера DSP-ядер серии ELcore-xx™ IP-Библиотеки «МУЛЬТИКОР» // Проблемы разработки перспективных микроэлектронных систем. Сборник научных трудов. И1111М РАН, 2005. С. 508-511.
42. Artisan Components. 1st Silicon (Malaysia) Sdn. Bhd. 0.25mm Process 2.5-Volt // SAGETM Standard Cell. Library Databook. - September 2002. - Release 2.0.
43. Преснухин H., Воробьев H.B., Шишкевич A.A. Расчет элементов цифровых устройств. Москва, Издательство Высшая школа, 1991. 384 с.
44. Антонова С.С., Беляев А.А., Епанчинцев А.Г., Заболотный А.Е., Максимов В.А., Назаров С.И., Петричкович Я.Я. Динамический D-триггер с третьим состоянием по выходу. Авторское свидетельство SU №1774472 А1, 1992 г.
45. Петричкович Я.Я., Филатов В.Н., Заболотный А.Е., Максимов В.А. Конвейеризация суммирующих устройств // Электронная техника. Сер. 10. Микроэлектронные устройства, 1987, вып. 5/65/, с. 3-6.
46. Филатов В.Н., Петричкович Я.Я., Максимов В.А., Заболотный А.Е. Конвейеризация схем с помощью графов» // Электронная техника. Сер. 10. Микроэлектронные устройства, вып. 1/61/, 1987, с. 42-47.
47. Markovic D., Stojanovic V., Nikolic В., Horowitz М.А, and Brodersen R.W. Methods for true energy-performance optimization // IEEE J. Solid-State Circuits, vol. 39, pp. 1282-1293, Aug. 2004.
48. Chandrakasan A.P, Sheng S., Brodersen R.W. Low power CMOS digital design //IEEE J. Solid-State Circuits, vol. 27, pp. 473^184, Apr. 1992.58. http://www.elvees.ru
49. Солохина Т.В., Александров Ю.Н., Петричкович Я.Я. Сигнальные контроллеры компании «Элвис»: первая линейка отечественных DSP // Электроника: Наука, Технология, Бизнес. 2005. - №7. - С. 70-77.
50. Беляев А.А. Влияние программных переходов и зависимостей по данным в исполняемом программном коде на производительность конвейера DSP-ядра //Известия высших учебных заведений. Электроника. №3, 2009. М., МИЭТ, 2009 г.-С. 75 -80.
51. Беляев А.А. Неконвейеризуемые операции как фактор ограничения производительности DSP-ядра // Известия высших учебных заведений. Электроника. №4, 2009. М., МИЭТ, 2009 г. - С. 56 - 60.
52. Солохина Т.В., Петричкович Я.Я., Глушков А.В., Беляев А.А., и др. Время кентавров: Микросхемы серии Мультикор-llxx (MC-llxx) для встраиваемых и мобильных применений // Chip News. № 8(71). - 2002 г. - С. 10-17.
53. Александров Ю.Н., Беляев А.А., Глушков А.В., Петричкович Я.Я.,Солохина Т.В. и др. Новая отечественная платформа СБИС «МУЛЬТИКОР» для высокоточной скоростной обработки информации и управления объектами // Цифровая обработка сигналов», 2001,№ 3, с.25-38.
54. Солохина Т.В., Петричкович Я.Я., Александров Ю.Н., Герасимов Ю.М., Забо-лотнов И.В., Алексеев М.Н., Беляев А.А. и др. Микросхемы базовых серий «МУЛЬТИКОР». Сигнальный микроконтроллер 1892ВМ2Т (МС-24) // Chip News. № 2(95). - 2005 г. - С. 20-31.
55. Солохина Т.В., Петричкович Я.Я., Александров Ю.Н., Герасимов Ю.М., Забо-лотнов И.В., Алексеев М.Н., Беляев А.А. и др. Микросхемы базовых серий «МУЛЬТИКОР». Сигнальный микроконтроллер 1892ВМ2Т (МС-24) // Chip News. № 3(95). - 2005 г. - С. 20-26.
56. Петричкович Я.Я., Солохина Т.В. SoC серии «МУЛЬТИКОР» первый шаг и положительная динамика развития // Компоненты и технологии, №5, 2003г., с. 104-106.
57. Петричкович Я.Я., Солохина Т.В. SoC серии «МУЛЬТИКОР» первый шаг и положительная динамика развития // Компоненты и технологии, №6, 2003г., с. 140-143.
58. Беляев А.А. Влияние глубины конвейера на производительность процессора. // Известия высших учебных заведений // Электроника. №6 (80), 2009. М., МИЭТ, 2009 г.-С. 50-53.
59. Беляев А.А., Солохина Т.В., Юдинцев В.А. Современные устройства цифровой обработки сигналов. Вместе или врозь? // Электроника: Наука, Технологии, Бизнес. 1/2009, с.28-35.
60. Беляев А.А., Александров Ю.Н.,Глушков А.В.,Солохина Т.В.,Петричкович Я.Я. Отечественные трехядерные сигнальные микроконтроллеры с производительностью 1,5 GFLOPS // Электроника: Наука, Технологии, Бизнес. 6/2006, с.73-78.78. http://www.multicore.ru
61. Беляев А.А. Сигнальный микроконтроллер для видеоприложений. // Вопросы радиоэлектроники, Серия общетехническая, Выпуск 2, Москва, 2006г., с.48-58.
62. Петричкович Я.Я. Электронные системы обеспечения безопасности на основе интегральных интеллектуальных датчиков. Дисс. доктора техн. наук, Москва, 2006.-359 с.
63. Pennebaker W.B., Mitchell J.L. JPEG Still Image Data Compression Standard// VNR, New York, 1992.
64. Беляев А.А. Оптимизация по критерию быстродействия приложений для DSP-ядер ELcore-xx™ с различной глубиной конвейеризации // Вопросы радиоэлектроники. Серия ЭВТ, выпуск 3. Москва, 2008, С.99-112.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.