В каком направлении развивается архитектура процессоров

Опубликовано 15.12.2019 автором admin

Содержание

0.1 Основные направления развития архитектуры универсальных микропроцессоров

1 Nav view search

Основные направления развития архитектуры универсальных микропроцессоров

Развитие микропроцессорной техники в области универсальных микропроцессоров идет по пути постоянного повышения их производительности. Традиционными направлениями такого развития являются повышение тактовой частоты работы МП и увеличение количества одновременно выполняемых команд за счет увеличения числа конвейеров (исполнительных устройств) в МП.

Однако оба эти направления следует признать экстенсивными, имеющими естественные ограничения.

Повышение тактовой частоты , которое в основном обеспечивается путем увеличения количества ступеней в конвейере, приводит к большим потерям времени при необходимости перезагрузки конвейера вследствие конфликтов по управлению или при переключении на новую задачу. Такое увеличение имеет также и физические ограничения, связанные со схемотехникой кристалла БИС. Ограничения определяются также влиянием накладных расходов при передаче частично обработанной команды на следующую ступень конвейера ( значение ?t при определении длительности такта). На больших частотах эти расходы становятся соизмеримыми с длительностью обработки на очередном этапе. Во многом это направление исчерпало себя в микропроцессоре Pentium 4, работающем на частотах, близких к 4 ГГц.

Повышение производительности за счет увеличения числа конвейеров в микропроцессоре можно оценить увеличением числа команд, выполняемых программами за такт ( IPC – INsTRuctions Per Cycle ). Так, для МП Alpha 21264 этот показатель равен 6, столько же микроопераций за такт может выдать Pentium 4. Но это предельные значения, а реальные программные коды, в частности, из-за различных взаимозависимостей, дают гораздо более низкое значение IPC . Дальнейшее увеличение числа исполнительных устройств ведет к усложнению расположенного в БИС устройства управления , распределяющего команды по конвейерам, а также к сложным взаимозависимостям между данными. К тому же реальные коды программ не позволяют обеспечить эффективную загрузку всех имеющихся в МП исполнительных устройств, что приводит к их простоям. Следует отметить также, что рост производительности микропроцессора не является прямо пропорциональным росту количества конвейеров, а обычно существенно ниже.__

В настоящее время для повышения производительности микропроцессоров используется ряд новых подходов, основными из которых являются:

CMP (Chip Multi ProcessINg) – создание на одном кристалле системы из нескольких микропроцессоров (многоядерность);
SMT (Simultaneous MultiThreadINg) – многонитевая архитектура;
EPIC (Explicitly Parallel INsTRuction ComputINg) – вычисления с явным параллелизмом в командах.

Рассмотрим эти направления подробнее.

Направление CMP обеспечивается возросшими технологическими возможностями, которые позволяют создать на одном кристалле несколько микропроцессоров и организовать их работу по принципу мультипроцессорных систем.

Производители чипов уже не гонятся за частотой, сместив акцент на многоядерную архитектуру, которая позволяет наращивать производительность, сохраняя в приемлемых границах энергопотребление и тепловыделение.

Многоядерные процессоры хорошо приспособлены для требовательных мультимедийных задач, таких как обработка видеозаписей, работы с большими базами данных, одновременное выполнение нескольких ресурсоемких заданий, например, компьютерной игры, записи DVD и загрузки файлов из Интернета.

При таком подходе задача повышения производительности работы отдельных приложений требует распараллеливания последних, то есть проблема перемещается с аппаратного на программный уровень. На данный момент сложности заключаются в том, что большая часть существующего программного обеспечения создавалась без расчета на использование в многоядерных и многопроцессорных конфигурациях . Другими словами, прогресс в области аппаратных средств на какое-то время опередил прогресс в области программного обеспечения.

Развитие микропроцессорной техники в этом направлении идет очень быстрыми темпами. Так, компания Tilera в 2007 году начала поставки специализированных процессоров Tile64, насчитывающих 64 ядра. А в 2009 году, как ожидается, свет увидит 120-ядерная модификация этого процессора.

80-ядерный процессор от фирмы INTel

Еще в 2001 году руководство фирмы Intel уверенно обещало дотянуть одноядерную архитектуру процессоров Pentium до 2010 года с поднятием планки их рабочей частоты до 10 ГГц. Однако уже в 2008 году Intel объявила о прекращении выпуска одноядерных микропроцессоров. Новый 80-ядерный процессор от Intel, который в некоторых документах имеет обозначение Polaris, обеспечивает производительность до 1,28 триллиона операций с плавающей точкой в секунду (терафлопс) при частоте 4 ГГц.

Микропроцессор построен по технологии 65 нм из 100 млн транзисторов на кристалле площадью 275 мм 2 . Для сравнения: двухъядерный Intel Core 2 Ex TR eme, также с технологическими нормами 65 нм, содержит 291 млн транзисторов на площади 143 мм 2 . Разница обусловлена малым количеством памяти на кристалле нового МП и доминированием логических схем и схем ввода-вывода, размер которых трудно минимизировать. Большое внимание в нем уделено новому показателю, который занимает все более главенствующее положение, – производительность/ватт. По этому показателю Polaris обеспечивает чрезвычайную энергоэффективность: 16 гигафлопс/Вт. Процессор работает при напряжении питания 0,95 В.

Согласно заявлению представителей Intel, достигнутые показатели отнюдь не являются предельными. Инженеры компании могут значительно увеличить производительность процессора за счет увеличения его тактовой частоты . Так, например, на частоте 5,1 ГГц процессор демонстрирует 1,63 терафлопс, а на частоте 5,7 ГГц – 1,81 терафлопс. Однако с ростом тактовой частоты растет и потребляемая мощность, составляя при вышеуказанных режимах работы 175 и 265 ватт соответственно.

Polaris представляет собой 80 одинаковых процессорных элементов , каждый из которых состоит из вычислителя и маршрутизатора на 6 портов. Вычислитель содержит 2 устройства для операций умножения с накоплением ( FP MultIPle- Accumulator , FPMAC ), 3 Кбайт памяти команд и 2

Кбайт памяти данных, набор 32-разрядных регистров и оперирует 96-разрядными сверхдлинными словами команд ( Very Long INsTRuction Word – VLIW ). Планирование и параллельное выполнение команд возлагается на компилятор (архитектура EPIC , аналогичная реализованной разработчиками Intel и в процессоре Itanium ). Она позволяет процессору исполнять до восьми команд за один такт. По своему набору инструкций новый микропроцессор несовместим с x86.

Все арифметические операции выполняются на FPMAC-модулях.

Эффективность многоядерных процессоров во многом определяется пропускной способностью памяти системы. Применение многоканальных шин памяти и повышение их частоты сопряжено с чрезмерным усложнением контроллеров. Другой путь уменьшения задержки – ввести еще один уровень иерархии кэш-памяти. Однако это приведет к неоправданному увеличению памяти на кристалле, площадь которого эффективнее использовать для вычислительной логики. Несколько мегабайт дополнительной кэш-памяти занимают площадь, достаточную для 10 процессорных ядер. Такой подход обеспечит широкий доступ ядер процессора к памяти. Каждый слой будет содержать до 256 Мбайт.

Другой фактор, ограничивающий производительность современных компьютеров, – пропускная способность процессорной шины. Разделяемые шины уже уступают свое место соединениям типа "точка-точка". В Polaris используется сеть процессорных элементов , основанная на передаче данных с коммутацией каналов . Каждый маршрутизатор содержит шесть 39-битных портов и обеспечивает суммарную пропускную способность до 80 Гбайт/c при частоте микросхемы 4 ГГц. Четыре порта ведут к смежным процессорным элементам, один к вычислителю, а шестой порт в перспективе будет взаимодействовать с многослойной памятью. Система коммутации предусматривает взаимодействие каждого маршрутизатора с каждым. В микропроцессоре ядра независимы в плане операций ввода-вывода. Поэтому, добавив необходимое ПО, можно реализовать различные интерфейсы и добиться любой функциональности устройства.

В настоящее время главное достижение Polaris – это создание фундамента (как аппаратного, так и идейного) для отработки новых технологий многоядерных архитектур. Он представляет собой скорее исследовательский проект, чем инженерное решение.

Направление SMT в развитии архитектуры микропроцессоров базируется на том, что одна задача не в состоянии полностью загрузить все возрастающие ресурсы микропроцессора. Поэтому на одном процессоре осуществляется запуск нескольких задач одновременно, при этом распараллеливание программ осуществляется аппаратными средствами МП.

Это позволяет более равномерно загрузить ресурсы процессора. Параллельно в разных устройствах МП могут выполняться команды из разных задач. Так, микропроцессор Alpha 21264 поддерживает выполнение до 4 задач одновременно. При поддержке SMT на 4 нити каждый процессор с точки зрения операционной системы выглядит как 4 логических процессора. Исследования показали, что SMT позволяет увеличить производительность данного процессора до двух раз, а дополнительные схемы управления занимают всего около 10 % площади кристалла.

Некоторые микропроцессоры для максимального повышения своей производительности используют оба вышеназванных подхода. Так, компания Sun Microsystems представила новый процессор ULTRaSPARC T2.

Новый чип снабжен восемью ядрами, каждое из которых может обрабатывать восемь потоков инструкций . Таким образом, он одновременно способен оперировать с 64 потоками. Тактовая частота ULTRaSPARC T2 составляет от 900 МГц до 1,4 ГГц.

Направление EPIC фактически использует известную технологию VLIW (Very Large INsTRuction Word) – очень длинного командного слова.

Распараллеливание алгоритма между исполнительными модулями производится компилятором на этапе создания машинного кода, когда команды объединяются в связки и не конкурируют между собой за ресурсы микропроцессора. При этом упрощается блок управления на кристалле.

Особенности архитектуры EPIC:

Явный параллелизм в машинном коде. Поиск зависимостей между командами проводит не процессор, а компилятор.
Большое количество регистров.
Масштабируемость архитектуры до большого количества функциональных устройств ( АЛУ , FPU , MMX , SSE и т. п.).
Применение предикатов. Предикатный подход исходит из предпосылки, что возросшие мощности микропроцессоров позволяют запускать параллельно команды из разных ветвей условного ветвления вместо того, чтобы ожидать формирования истинных признаков для выбора правильного направления или полагаться на блок предсказания переходов, рискуя прийти к необходимости перезагрузки достаточно длинных конвейеров в случае неудачного предсказания. При этом каждая команда снабжается специальным полем условия (предикатом) (рис. 11.1). По мере определения истинных признаков ветвления те команды, предикаты которых указывали, что они выбраны из другой ветви, снимаются с обработки в конвейере. Результаты команд не записываются в прием ник до определения правильности направления перехода.

Отметим основные достоинства этого подхода:

Упрощается архитектура процессора. Вместо логики распараллеливания на EPIC -процессоре можно разместить больше регист ров, функциональных устройств и т. п.
Процессор не тратит время на анализ потока команд .
Возможности процессора по анализу программы во время выполнения ограничены сравнительно небольшим участком программы, тогда как компилятор способен произвести анализ всей программы.
Если некоторая программа должна запускаться многократно (а именно так и бывает в подавляющем большинстве случаев), выгоднее распараллелить ее один раз при компиляции, а не тратить на это время каждый раз, когда она исполняется на процессоре.

Однако архитектуре EPIC присущ и ряд недостатков:

Компилятор производит статический анализ программы, раз и навсегда планируя вычисления. Однако даже при небольших изменениях исходных данных путь выполнения программы существенно изменяется.
Значительно усложняются компиляторы, следовательно, увеличиваются время компиляции программы и число ошибок в самих компиляторах. Если первый фактор, учитывая высокое быстродействие современных компьютеров, не очень существенен, то на второй следует обратить определенное внимание. Исследования показывают, что к моменту поставки даже ответственного программного обеспечения в нем содержится примерно 1 ошибка на 10 000 строк исходного кода. Следовательно, программа из 500 тыс. строк будет содержать около 50 ошибок, как бы хорошо ни работали тестировщики . И эти ошибки могут проявиться самым неожиданным образом.
Производительность микропроцессора во многом определяется качеством компилятора. Правда, здесь необходимо четко определить, что понимается под производительностью, ведь количество операций, выполняемых микропроцессором в единицу времени, от компилятора не зависит. Но это тема будет особо рассмотрена далее.
Увеличивается сложность отладки, так как отлаживается не исходная программа, а оптимизированный параллельный код. Программисту тяжело определить место и причину появления ошибки, так как в процессе трансляции исходной программы ее отдельные команды будут переставлены компилятором для обеспечения оптимальности работы микропроцессора.

Читайте также: Второй квартал 2019 года

Типичным представителем архитектуры EPIC является микропроцессор Itanium фирмы Intel.

Как отмечается в /1, 14, 15/, список команд современного микропроцессора может содержать достаточно большое число команд. Однако не все они используются одинаково часто и регулярно. Это свойство системы команд явилось предпосылкой для развития процессоров с RISC-архитектурой. Основная идея заключалась в сокращении списка используемых команд и, вследствие этого, упрощение управляющего блока процессора и для организации более быстрого исполнения оставшихся команд за счёт освободившихся при этом ресурсов кристалла.

Первые процессоры с сокращённым набором команд были реализованы в начале 80-х годов 20 века /1/:

1) В 1980 году в калифорнийском университете города Беркли под руководством профессоров Давида Паттерсона (David Patterson) и Карло Секуина (Carlo Sequin) был разработан процессор, который получил название RISC. Были разработаны модели RISC-I, RISC-II, SOLAR.

2) В 1981 году в университете города Стэнфорда под руководством Джона Хеннеси (Dohn Hennesy) был спроектирован процессор, получивший название MIPS (Microprocessor Without Interlocked Pipeline Stages – микропроцессор без блокировки конвейера). Более подробно о сути конвейеризации будет рассмотрено в следующем вопросе лекции.

Позднее обе модели с сокращённым набором команд стали называть RISC-процессорами. Отличительной особенностью этих процессоров является большое количество РОН (порядка 256).

Кратко охарактеризуем основные принципы RISC-архитектуры /1, 15/.

1) Одинаковая длина команд. Это облегчает их выборку из основной памяти. Все команды считываются за один такт, что позволяет обрабатывать поток командных инструкций по конвейерному принципу, то есть выполняется синхронизация аппаратных частей процессора с учётом последовательной передачи управления от одного аппаратного блока к другому. В современных RISC-процессорах длина команды составляет 32 бита.

2) Сокращённый набор действий над операндами, размещёнными в памяти. Простые способы адресации памяти обеспечивают быстрый доступ к операндам в памяти. Обработка данных, реализуемая при выполнении команд RISC, никогда не совмещается с операциями чтения (записи) памяти (в отличие от многих команд CISC). Обмен операндами между памятью и регистрами выполняется специальными командами загрузки (LOAD) и запоминания (STORE). Большое количество регистров блока РОН позволяет уменьшить число обращений к памяти.

3) Выполнение всех вычислительных операций над данными, размещёнными только в РОН. Поскольку регистров много, то все скалярные переменные и даже небольшие массивы переменных чаще всего размещаются в регистрах, что позволяет ускорить обработку данных. Использование простых команд упрощает реализацию их конвейерной обработки. В среднем команды RISC выполняются за один такт.

4) Относительно простые схемы управления. Уменьшение списка команд, использование команд, реализующих только простые операции, исключение в командах обработки данных обращений к памяти позволили уменьшить расход ресурсов кристалла на управление. Благодаря этому большая площадь кристалла выделяется для размещения устройств, позволяющих увеличить общую производительность процессора: дополнительных конвейеров, увеличенной кэш-памяти 1-го уровня, большего числа РОН.

Важно отметить, что при одинаковой технологии производства RISC-процессоры имеют более высокие частоты работы по сравнению с CISC-процессорами, что является важным достоинством RISC-процессоров.

Согласно /15/, в архитектуре RISC-процессоров можно выделить следующие аппаратные блоки, образующие ступени конвейера:

1) Блок загрузки инструкций включает в себя следующие составные части: блок выборки инструкций из памяти, регистр инструкций, куда помещается команда после выборки и блок декодирования инструкций. Эта ступень называется ступенью выборки инструкций.

2) РОН совместно с блоками управления регистрами образуют вторую ступень конвейера, которая отвечает за чтение операндов команд. Операнды могут храниться в самой команде или в одном из РОН. Эта ступень называется ступенью выборки операндов.

3) АЛУ и, если в данной архитектуре реализован аккумулятор, вместе с логикой управления, которая исходя из содержимого регистра инструкций определяет тип выполняемой микрооперации. При выполнении операций условного и безусловного переходов источником данных может быть также счётчик команд. Данная ступень называется исполнительной ступенью конвейера.

4) Набор из РОН и логики записи образуют ступень сохранения данных. Здесь результаты выполнения команд записываются в РОН или основную память.

К RISC-процессорам причисляют микропроцессоры MIPS R4000, R8000, R100000 фирмы MIPS Technologies Inc., UltraSPARC I, UltraSPARC II, UltraSPARC III фирмы Sun, PowerPC фирмы IBM-Motorola, Alpha AXP фирмы DEC, PA-RISC фирмы Hewlett Packard, микроконтроллеры фирмы Microchip.

Несмотря на очевидные преимущества, RISC-процессоры «в чистом виде» не получили широкого распространения на рынке персональных компьютеров, большинство из них используется в качестве центральных процессоров рабочих станций. Однако большинство современных CISC-процессоров, например, Pentium, используют достижения RISC-архитектур, в частности, RISC-ядра для выполнения вычислительных операций.

Модели RISC-процессоров активно развиваются и совершенствуются. В настоящее время на их основе реализуются коммерчески важные продукты: SPARC- и MIPS-системы.

Более полные сведения о RISC-процессорах, особенностях их архитектуры и функционирования можно найти в /1/, специальной литературе и открытых источниках сети Интернет.

Не нашли то, что искали? Воспользуйтесь поиском:

Nav view search

Искать

Новости

Учебники

Как пользоваться:

Счетчики

Сайт участвует

Подробности Опубликовано 16.02.2014 10:36 Просмотров: 3556

1.2. Архитектура персонального компьютера

Магистрально-модульный принцип построения компью тера. В основу архитектуры современных персональных компьютеров положен магистрально-модульный принцип. Модульность позволяет потребителю самому комплектовать нужную ему конфигурацию компьютера и производить при необходимости ее модернизацию. Модульная организация компьютера опирается на магистральный (шинный) принцип обмена информацией между устройствами.

К магистрали, которая представляет собой три различные шины, подключаются процессор и оперативная память, а также периферийные устройства ввода, вывода и хранения информации, которые обмениваются информацией в форме последовательностей нулей и единиц, реализованных электрическими импульсами.

Многие необходимые дополнительные устройства интегрированы в современные материнские (системные) платы: сетевая карта, внутренний модем, сетевой адаптер беспроводной связи Wi-Fi, контроллер IEEE 1394 для подключения цифровой видеокамеры, звуковая плата и др. Раньше эти устройства подключались к материнской плате с помощью слотов расширения и разъемов.

Чипсет. Важнейшей частью материнской платы является чипсет, который во многом определяет архитектуру современного персонального компьютера. Современные компьютеры содержат две основные большие микросхемы чипсета (рис. 1.12):

•контроллер-концентратор памяти, или Северный мост (англ.NorthBr > Пропускная способность шины. Быстродействие процессора, оперативной памяти и периферийных устройств существенно различается. Быстродействие устройства зависит от тактовой частоты обработки данных (обычно измеряется в мегагерцах — МГц) и разрядности, т. е. количества битов данных, обрабатываемых за один такт. (Такт — это промежуток времени между подачами электрических импульсов, синхронизирующих работу устройств компьютера.)

Соответственно, скорость передачи данных (пропускная способность) соединяющих эти устройства шин также должна различаться. Пропускная способность шины (измеряется в бит/с) равна произведению разрядности шины (измеряется в битах) и частоты шины (измеряется в герцах — Гц, 1 Гц = 1 такт в секунду):

пропускная способность шины =

= разрядность шины к частота шины.

Системная шина (см. рис. 1.12). Между Северным мостом и процессором данные передаются по системной шине (FSB от англ. FrontS >

64 бита • 1600 МГц = 102400 Мбит/с = = 100 Гбит/с = 12,5 Гбайт/с.

Частота процессора. В процессоре используется внутреннее умножение частоты, поэтому частота процессора в несколько раз больше, чем частота системной шины. Например, в современных процессорах используется коэффициент умножения частоты 8. Это означает, что процессор за один такт шины способен генерировать 8 своих внутренних тактов и, следовательно, частота процессора составляет 400 МГц • 8 = 3,2 ГГц.

Шина памяти (см. рис. 1.12). Обмен данными между северным мостом и оперативной памятью производится по шине памяти, частота которой может быть больше (например, в 4 раза), чем частота системной шины. У современных модулей памяти (DDR3 от англ. double-data-rate) частота шины памяти может составлять 400 МГц • 4 = 1600 МГц, т. е. оперативная память получает данные с такой же частотой, что и процессор. Так как разрядность шины памяти равна разрядности процессора и составляет 64 бита, то пропускная способность шины памяти также равна:

64 бита • 1600 МГц = 102 400 Мбит/с = = 100 Гбит/с = 12,5 Гбайт/с = 12 800 Мбайт/с.

fjk Модули памяти маркируются своей пропускной спо- ^^ собностью, выраженной в Мбайт/с: РС4200, РС8500, РС12800 и др.

Шина PCI Express (см. рис. 1.12). По мере усложнения графики приложений требования к быстродействию шины, связывающей видеопамять с процессором и оперативной памятью, возрастают.

В настоящее время для подключения видеоплаты к северному мосту все большее распространение получает шина PCI Express (Peripherial Component Interconnect bus Express — ускоренная шина взаимодействия периферийных устройств). Пропускная способность этой шины может достигать 32 Гбайт/с.

К видеоплате с помощью аналогового разъема VGA (Video Graphics Array — графический видеоадаптер) или цифрового разъема DVI (Digital Visual Interface — цифровой видеоинтерфейс) подключается электронно-лучевой или жидкокристаллический монитор или проектор.

Шина SATA (см. рис. 1.12). Устройства внешней памяти (жесткие диски, CD- и DVD-дисководы) подключаются к южному мосту по шине SATA (англ. Serial Advanced Technology Attachment — последовательная шина подключения накопителей), скорость передачи данных по которой может достигать 300 Мбайт/с.

Шина USB (см. рис. 1.12). Для подключения принтеров, сканеров, цифровых камер и других периферийных устройств обычно используется шина USB (Universal Serial Bus — универсальная последовательная шина). Эта шина обладает пропускной способностью до 60 Мбайт/с и обеспечивает подключение к компьютеру одновременно до 127 периферийных устройств (принтер, сканер, цифровая камера, Web-камера, модем и др.).

Увеличение производительности процессора. Увеличение производительности процессоров за счет увеличения частоты имеет свой предел из-за тепловыделения. Выделение процессором теплоты Q пропорционально потребляемой мощности Р, которая, в свою очередь, пропорциональна квадрату частоты v :

Уже в настоящее время для отвода тепла от процессора используются массивные воздушные кулеры, состоящие из вентилятора и металлических теплоотводящих ребер.

Увеличение производительности процессора, а значит и компьютера, достигается за счет увеличения количества ядер процессора (арифметических логических устройств). Вместо одного ядра процессора используются два или четыре ядра, что позволяет распараллелить вычисления и повысить производительность процессора.

1. В чем состоит магистрально-модульный принцип построения компьютера?
2. Какие устройства обмениваются информацией через Северный мост?
3. Какие устройства обмениваются информацией через Южный мост?
4. В каком направлении развивается архитектура процессоров?

Post Views: 11

admin

Добавить комментарий Отменить ответ