Процессоры – завтрашний день. Обзор до 2012 года. Часть 1.

26 ноября 2007. Камаев Андрей.

Процессоры – завтрашний день.
Новый магистральный путь развития. Обзор до 2012 года.
Часть 1

Предисловие.

Обсудить изложенное можно будет здесь:
http://forums.overclockers.ru/viewtopic.php?t=231765

Всё описанное ниже взято из опубликованных в Интернете статей и новостных лент почти слово в слово. Всё что Вы видите всего лишь подборка, проанализированная и оформленная в виде статьи с выделением некоторых значимых моментов. Во время обобщения информации, меня тоже занимал вопрос такого плана: мы предугадываем будущее или они заведомо знают, каким оно будет? Сейчас даже не о Законе Мура, а о тенденциях развития индустрии в целом – в какую сторону повернут технологии через годик-другой?

После прочтения материалов Владимира Романченко, побывавшего на Intel Developer Forum 2007 SF в Сан-Франциско, послушавшего кейноты "вживую", а также побывавшего за закрытыми для простых смертных дверями фабрики по тестированию будущих процессоров, чипсетов и графики Intel, можно с уверенностью сказать: сотрудники Intel заведомо знают своё будущее, потому что работают на него с солидным опережением уже сейчас.

Полный перечень технических характеристик будущих процессоров сейчас не знает никто, но новый магистральный путь развития становится понятным. Поначалу новые процессоры будут оккупировать серверный сегмент и верх настольного, но с переходом на новый техпроцесс они потихоньку начнут переходить в бюджетную категорию.

Что же Интел нам готовит?

1. Переход на многопроцессорные системы (планируется 2, 4 или 8 процессоров на одной плате).


Nehalem многопроцессорные системы


Плата для настольных компьютеров поддерживает два четырёхъядерных процессора поколения Penryn с шиной 1600 МГц.

2. Переход процессоров с двух на 4 и 8 ядерность.

3. Переход каждого ядра на многопоточность (65 нм техпроцесс, в основном используемый сейчас, предполагает один вычислительный поток данных на ядро, 45 нм техпроцесс - два потока данных на ядро, далее 32 нм - четыре потока данных на ядро, 22 нм – восемь потоков). Каждый поток получит производительность приблизительно равную производительности одного ядра процессора Conroe (65 нм) на аналогичной частоте. Производительность будет увеличиваться пропорционально числу вычислительных потоков.

4. Переход на новый техпроцесс – 45, 32, 22 нм даёт возможность каждый раз удваивать, количество ядер, количество потоков в ядре и увеличивать объём кэша.

5. Четырехкратный рост количества вычислительных потоков в процессоре, при переходе на новый техпроцесс, возможен за счёт незначительного роста суммарного объёма кэша и за счёт увеличения площади кристалла (65 нм технология – 2 ядра (2 потока) на одном кристалле площадью 143 кв.мм. - Conroe, 45 нм – 4 ядра (8 потоков) на одном кристалле площадью 191 кв.мм. - Nehalem, 32 нм – 8 ядер (32 потока) на одном кристалле площадью 260 кв.мм.– Gesher и, наконец, 22 нм – до 16 ядер (до 128 потоков), дальнейшие перспективы туманны).

6. Начиная с 2008 и по 2012 год производительность процессоров серверного сегмента и верха настольного ежегодно может удваиваться.

Проверка перспективной архитектуры.

Компания Intel уже давно проанализировала архитектуру процессора Sun Niagara и поняла, что за ней будущее.

Архитектура поколения Core 2, доведенная до блеска, вдвое проигрывает архитектуре процессора Sun Niagara.

- 291 миллион транзисторов у Core 2, против 279 миллионов транзисторов процессора Sun Niagara;
- 65 нм технология Core 2, против 90 нм технологии Sun;
- 130 Вт, против 72 Вт Sun Niagara;
- четырё 3 ГГц ядра Core 2, вдвое проигрывают восьми 1,2 ГГц ядрам Sun Niagara.

Основой для анализа Intel послужил серверный процессор Sun Niagara (UltraSPARC T1). Он производится по 90-нм технологии, имеет один кристалл и восемь ядер, работает на 1,2 ГГц, даёт по четыре вычислительных потока на ядро, использует четыре кэша L2 (3 Мбайт), доступ к которым осуществляется через crossbar-коммутатор, поддерживает четыре двухканальных интерфейса памяти DDR2-400. И состоит из 279 миллионов транзисторов. Размер ядра составляет 379 мм². И добавьте к этому низкое энергопотребление - 72 Вт. Да, этот продукт для компании Intel представляет серьёзную угрозу.

Процессор Niagara примерно в два раза быстрее четырехъядерной конфигурации Intel Kentsfield - Core 2 Extreme QX6850 (восемь 1,2-ГГц ядер против четырёх 3-ГГц ядер).

Будущие 65 нм и 45 нм версии процессоров типа Niagara могут удваивать число потоков на ядро и размер кэша L2 с каждым поколением, параллельно с этим переходя на новые технологии памяти. Intel хочет к этому подготовиться, считая, что хорошо структурированный многоядерный подход с "умным" кэшем L3 поможет обойти Sun.

Хорошо структурированный многоядерный подход - Проект Intel Keifer: 32 вычислительных потока в одном процессоре.


Проект Intel Keifer: 32

Intel занята пока продвижением микро-архитектуры Core 2 и четырёхъядерных процессоров, которые содержат два двухъядерных кристалла внутри единой физической упаковки.


(кликните по картинке для увеличения)

Core 2 - четырёхъядерные процессоры,

Вполне понятно, что коллектив разработчиков не сидит, сложа руки. Весьма любопытно, но компания Intel решила, изучив опыт Sun UltraSPARC T1 (Niagara), завершить к 2010 году радикальный процессорный редизайн (новую архитектуру), который должен давать в 16 раз большую производительность, чем Core 2 Duo (Woodcrest). Причём, это данные не маркетингового отдела, а информация технических специалистов внутри компании.


Одно – двух сокетная (двух процессорная) многоядерная микро-архитектура Core 2 против Sun Niagara в худшем и лучшем сценариях.

Intel верит, что может победить "динозавра" к 2010 году. Относительно крутые подъёмы графика Intel соответствуют возможным обновлениям микро архитектуры, а также переходам на 45, 32 и 22 нм техпроцесс.

Тяжело припомнить, когда всего за четыре года процессоры получали почти шестнадцатикратный прирост производительности. Если сравнить Pentium 4 на 3,06 ГГц из 2002 года с нынешним 3 ГГц Core 2 Extreme, то мы получим, в лучшем случае, от двух - до пятикратного улучшения. Шестнадцатикратный прирост производительности у 32 вычислительных потоков (восемь узлов – ядер, по четыре потока) в 2010 году против нынешних двух ядер, если он действительно произойдёт, указывает на линейное масштабирование, то есть производительность будет увеличиваться пропорционально числу вычислительных потоков. Многие из вас наверняка скажут, что это невозможно, поскольку даже сохранение уровня частот при переходе на два ядра оказалось проблематичным. Согласен, но давайте всё же посмотрим на новую архитектуру.

Санта-Клара бросила на серверный рынок, учитывая конкуренцию с Sun UltraSPARC T1, свои лучшие "мозги". В результате возник проект под названием Keifer. Проект подразумевает создание микро-архитектуры, способной опередить Sun в серверных процессорах к 2010 году, но Keifer уже давно стал технической основой для массовых процессоров в будущем.

Продуктовые циклы Intel.

Перед тем, как мы перейдём к обсуждению Keifer, давайте взглянем на цикл разработки процессоров Intel, чтобы лучше понимать ситуацию. Узнать о грядущих продуктах и сроках выхода можно в публикуемых планах Intel. При этом следует следить ещё и за технологическими процессами производства компании Intel. Постройка или модернизация процессорного завода проедает много-миллиардную долларовую дыру в бюджете полупроводниковой компании. Поэтому особое внимание уделяется тому, насколько массовыми и прибыльными будут получившиеся продукты. Intel сегодня перешла на весьма эффективный цикл производства, который представлен ниже.

1. Разрабатывается новый технологический процесс каждый нечётный год (например, 65 нм в 2005 году, 45 нм в 2007 году, 32 нм в 2009 году) и на него переводится производство существующих процессоров для максимального снижения себестоимости продукции и возможного увеличения доли выхода годных кристаллов новых процессоров.

2. На следующий год, на обкатанном новом техпроцессе выпускается новый мощный процессор (например, Core 2 в 2006, Nehalem в 2008, Gesher в 2010 году). Новый процессор использует последнюю микро-архитектуру и сбалансировано сочетает число ядер, набор функций и тактовую частоту. Его цель: достичь лучшей производительности и хорошего соотношения производительности на ватт на основе текущего техпроцесса. Пример: Core 2 Duo.

3. Выпускаются дешёвые продукты из кристаллов имеющих дефекты, чтобы максимально увеличить долю выхода годных процессоров, снизить себестоимость и повысить прибыль. Частично дефектные двухъядерные процессоры Core 2 можно продавать как версию с уменьшенным Кэшем (Allendale) или как одноядерную модель (Millville) - в зависимости от того, где находятся дефекты. Пример: Core 2 Duo E6400, E6300, E4200 (всего 2 Мбайт кэша L2).

4. Этот шаг относится только к многоядерным поколениям: создаётся продукт следующего поколения, взяв два существующих кристалла и установив их в одну упаковку. Придётся снизить тактовые частоты, дабы остаться в пределах теплового пакета. Зато можно дёшево и сердито удвоить число ядер. Пример: Pentium D Presler использует два ядра Pentium 4 Cedar Mill, Core 2 Kentsfield использует два ядра Core 2 Duo (Conroe).

5. Разрабатывается и внедряется новый технологический процесс. К данному моменту существующие продукты должны быть готовы к переходу на следующий техпроцесс (45 нм в 2007). Тактовые частоты можно регулировать в зависимости от прогресса характеристик материалов используемых в производстве.

В зависимости от того, насколько всё пойдёт хорошо, цикл может быть больше или меньше двух лет. С учётом этого логично предположить, что первый четырёхъядерный процессор (на едином кристалле) выйдет в 2008 году. К тому времени улучшения от использования прогрессивных материалов в 65-нм техпроцессе должны дать повышение тактовых частот Conroe и Kentsfield без изменения энергопотребления, чтобы не выйти за пределы теплового пакета. Nehalem станет также основой для восьмиядерного Gainstown, который должен последовать через несколько месяцев.

Проблемы масштабирования.

Если несколько процессорных ядер на одном кристалле общаются друг с другом напрямую, то при построении многоядерных процессоров на основе нескольких физических кристаллов в одном корпусе, приходится связывать их через процессорный интерфейс, которым, в случае серверных и настольных процессоров, является FSB (Front Side Bus). Такой подход уже не раз критиковали за создание "узкого места" в многоядерной конфигурации - ещё тогда, когда Intel выпустила первый Pentium D 800 (Smithfield). Если одному ядру понадобятся данные, находящиеся в кэше L1 или L2 другого процессора, то придётся использовать FSB, что "съедает" доступную пропускную способность шины.

Именно из за "узкого места", поколение Core 2 имеет большой объединённый кэш L2, который совместно используется двумя ядрами. Но когда мы начнём собирать два двухъядерных кристалла в единую физическую упаковку для построения четырёхъядерного процессора, "узкое место" FSB вновь проявит себя - и наверняка ещё хуже, поскольку уже четырём ядрам необходимо будет бороться за данные в кэшах L2 большего размера. Контр меры Intel включают увеличение тактовой частоты шины. Шина серверной платформы уже работает на 333 МГц (FSB 1333 QDR) и переходит на 400 МГц (FSB 1600), настольная платформа получила FSB 1333 в 2007 году.

Второе "узкое место" - оперативная память системы. Она не является частью процессора, но находится за северным мостом материнской платы. И опять же, для связи с чипсетом материнской платы используется шина FSB, где за доступ к контроллеру памяти будут биться два ядра или больше. AMD интегрировала контроллер памяти в процессор ещё в 2003 году, что позволило сократить путь до памяти и увеличить производительность: контроллер работает на полной частоте CPU. Но реальное преимущество встроенного контроллера памяти становится заметным в многопроцессорных окружениях, когда каждый CPU может обращаться к памяти с максимальной пропускной способностью.

Конечно, возникает проблема когерентности памяти, но тот же Opteron достаточно "умён", чтобы справиться с этой проблемой в конфигурации вплоть до четырёх процессоров. Возможно, Intel не интегрировала контроллер памяти по двум причинам. Во-первых, никто не будет усложнять процессор, если это не помогает зарабатывать деньги. Во-вторых, не забывайте бизнес чипсетов, которым Intel тоже занимается. Перенос контроллера памяти на процессор позволил бы убрать выгодные "галочки" у платформ Intel: совместимость, последовательность и набор функций, которые доступны эксклюзивно для платформ Intel.

А что, если интегрировать контроллер памяти?

По причинам, сказанным выше, контроллер памяти рано или поздно придётся перенести на процессор. Добавление большого кэша, конечно, помогает, но если у вас работают четыре или больше процессорных ядер, необходимо гарантировать, что они не будут испытывать недостаток данных. Действительно, кому нужны десятиполосные магистрали, если заезд и выезд на них осуществляется только по одной полосе?

Кроме того, 45 нм техпроцесс позволит поместить контроллер памяти на кристалле процессора с минимальными накладными издержками. Так что Intel обязательно перенесёт контроллер памяти в процессор.

Keifer: 32 потока в 8 узлах.

Наверное, самым главным оружием в арсенале Intel можно считать высокий уровень технологии производства и прогресс в этом отношении. Если Intel раньше перейдёт на 45 и 32 нм техпроцесс, то компания сможет раньше выпустить процессор с большим числом ядер и большим кэшем, чем у конкурентов.

Ранее приведённый график роста производительности процессоров Niagara и Intel показывает: переход на новый 32 нм техпроцесс и переход с 8 на 16 однопотоковых ядер, при том же тепловом пакете, даст 50% прирост производительности. Проект Keifer, который будет основываться на базе полного редизайна (новой архитектуры), сразу же получив только 8 ядер (32 потока), в 2010 году может дать 100% прирост производительности по сравнению с 16-однопотоковыми ядрами.

Причиной подобных оптимистических прогнозов является модульный дизайн, включающий восемь рабочих узлов - ядер, каждое из которых несёт общий 3 Мбайтный кэш L3 (24 Мбайт в сумме), кэш L2 512 кбайт и имеет четыре вычислительных потока в каждом узле.


Keifer: 32-модульный дизайн

Каждый из четырех потоков ядра (узла) Keifer оснащен кэшем L1 64 кбайт - 32 кбайт для данных, 32 кбайт для инструкций. В каждый узел встроено 512 кбайт кэша L2. Ограничение объёма кэша L2 (при том же транзисторном бюджете) позволит получить более высокую производительность на ядро, чем меньшее количество вычислительных потоков с большими кэшами.


Keifer: 32 - одно ядро

Каждое ядро с контроллером памяти.

Давайте обсудим встроенный контроллер памяти. Если представить себе 4 ядра с 32 вычислительными потоками на чип, то придётся как-то реализовывать логику памяти, чтобы она не создавала "узких мест". И общий многоканальный контроллер DDR на чип, с высокой пропускной способностью, здесь будет не лучшим вариантом. Другой подход: 32 контроллера - по выделенному контроллеру памяти на 1 поток, что просто технически невозможно при таком их количестве. Эффективным решением станет по контроллеру памяти на узел (на ядро). Об этом думает и Intel.

Каждое ядро с 4 вычислительными потоками получит контроллер памяти - вполне разумный компромисс.

Подобный модульный подход не только многообещающ с точки зрения производительности. Он также хорош и с позиции бизнеса. Процессоры с дефектными ядрами можно превращать в модели с меньшим числом ядер или меньшим числом потоков на ядро. Кремний с дефектами в области кэша L3 можно превращать в модели с меньшим количеством кэша L3 и т.д.


Keifer: 32 шины CSI

Будут ли использоваться все восемь контроллеров памяти, пусть покажет время, но уже понятно, что подобный однопроцессорный 8-ядерный сервер с 32 потоками и всего с восемью модулями памяти станет впечатляюще дешёвым и скоростным решением.

Процессорные архитектуры 2007 – 2008 года и ближайшего будущего.

Современные процессоры AMD и Intel хоть и обеспечивают превосходное быстродействие, а также поддерживают огромное число современных технологий, все еще остаются сильно измененными разработками 8-летней давности. Но обе компании уже объявили о своих намерениях представить ЦП (центральные процессоры), быстродействие которых будет расти на основе принципиально новых микроархитектур. У AMD это Bulldozer, у Intel – Nehalem. В этом материале рассматриваются их основные возможности и нововведения, а также дальнейшие перспективы развития рынка микропроцессоров.

Хорошо было 10 лет назад. Компания Intel выпустила процессор Pentium II, в основе которого лежали все идеи, реализованные в Pentium и Pentium Pro, и это было единственное решение для компьютеров из middle-end и high-end сегментов. Для бюджетного сектора предназначались уже морально устаревшие Pentium, а также решения от других компаний, в частности от AMD. Вопроса "Что выбрать: Intel или AMD?" тогда не было. Все знали, что процессоры Intel лучшие и все их рекомендовали к приобретению.
Теперь вопрос выбора стоит немного более остро, хотя число производителей ЦП несколько поубавилось. С одной стороны Intel предлагает более скоростные чипы Core 2 Duo, а с другой стороны каждое их обновление требует смены системной платы, да и их стоимость относительно решений AMD повыше. Последние, к слову, обещают быть совместимыми с Socket AM2 платами чуть ли не до 2009 года.

Тем не менее, все самые современные процессоры AMD и Intel имеют в своей основе наработки 8-10-летней давности. Чипы Core выросли из Pentium M, которые в свою очередь базируются на архитектуре P6, легшей в основу Pentium Pro и последующих разработок. AMD очень преуспела, выпустив процессор Athlon, основанный на архитектуре K7. K8 хоть и имеет сильные отличия, однако это всего лишь сильно переработанный K7. Ну а K10 - это эволюционное развитие K8.

Однако и Intel и AMD обещают в ближайшие полтора-два года представить принципиально новые процессорные архитектуры. Междоусобная конкуренция заставила пойти обоих производителей ЦП на этот весьма дорогостоящий шаг. Intel стала говорить об этом еще два года назад, а AMD в этом году объявила о намерении представить новый процессор с высокой интеграцией компонентов. В этой статье мы собрали всю имеющуюся информацию о планах этих компаний касательно готовящегося обновления архитектур. Сведений пока мало, но из них уже можно делать кое-какие выводы.

Что есть сейчас?

Прежде чем перейти к новому поколению процессоров Intel и AMD вкратце остановимся на том, что есть на рынке сейчас и что будет в ближайшее время.

Phenom.

Начнем с AMD. Как было отмечено выше, этот производитель подготовил к выходу архитектуру K10. Первые чипы, в основу которых она легла, стали серверные Opteron на ядре Barcelona. Их анонс пришелся на вторую половину этого года, хотя изначально компания планировала это событие шестью месяцами ранее.


(кликните по картинке для увеличения)

Barselona - архитектура К10.

Главной причиной задержки стал не до конца отработанный AMD 65 нм техпроцесс производства. До сих пор на эти нормы переведены только процессоры на ядре Brisbane, и их частота не превышает 2.7 ГГц. А вот старшие модели на 90 нм ядре Windsor работают на частотах до 3.2 ГГц. Главной "фишкой" Barcelona должен стать специально разработанный четырехъядерный дизайн. А четыре ядра на одном кристалле, при существующих материалах в 65 нм технологии AMD, будут весьма ощутимо выделять тепло. В таких условиях AMD не может обеспечить массовый выпуск процессоров Phenom с относительно высокими номинальными частотами. Не удивительно, что частота первых моделей не превысила 2.3 ГГц., а их разгонный потенциал 2.7 ГГц. Что касается пугающе высокого значения TDP, то к весне, с переходом на новый степпинг, всё может преобразиться в лучшую сторону.

В ноябре появилась 2.0 ГГц версия, в декабре ожидается 2.3 ГГц версия, однако это далеко до 2.9 ГГц, о которых ходили слухи еще год назад. В следующем году K10 пойдет в массы. Уже после появления на сайте AMD информации о характеристиках процессоров Phenom стало известно, что компания рассчитывает довести частоты четырёхъядерных процессоров Phenom до 3.0 ГГц в первой половине 2008 года. Словом, первые серийные процессоры не станут фаворитами оверклокеров, однако потом ситуация с разгонным потенциалом должна начать планомерно улучшаться.

AMD представит новые процессоры для настольных и мобильных модификаций компьютеров. Пока ожидается пять различных семейств на основе K10:

•Phenom FX (ядро Agena FX);
•Phenom X4 (ядро Agena);
•Phenom X2 (ядро Kuma);
•Athlon X2 (ядро Rana);
•Sempron (ядро Spica).

Первые три будут оснащены общим кэшем третьего уровня объемом 2 Мбайта. Это одно из главных нововведений, что позволит повысить скорость обмена данными между ядрами. Остальные процессоры предназначаются для бюджетного сегмента и L3-кэшем похвастать не смогут. Тем не менее, остальные нововведения K10 им будут не чужды.

Не будем подробно расписывать изменения, внесенные в новую архитектуру AMD, поскольку цель этой статьи несколько иная. Поэтому только приведем их краткий список.

Выборка инструкций. Процессоры K10 будут производить выборку инструкций из кэша первого уровня по 32 байта, а не 16 как это делают все K8 и Core2.

Предсказание переходов. В K10 будет улучшен блок предсказаний переходов. Он используется для того, что бы исполнительный конвейер был максимально загружен. Теперь конвейер будет простаивать меньше благодаря лучшей приспособленности процессора к угадыванию правильных переходов.

Декодирование. Будет значительно улучшен блок отвечающий за декодирование команд. К схемам декодера даже добавлен специальный блок Sidebank Stack Optimizer, назначение которого повысить эффективность декодирования.

ALU. Произойдет оптимизация блока целочисленных вычислений. В нем закроют наиболее слабые места процессоров K8.

FPU. Блок FPU, отвечающий за операции с плавающей точкой, всегда был сильной стороной процессоров AMD (начиная с K7). В K10 он будет модернизирован и улучшен. В частности повысится скорость работы с SSE-инструкциями. Кроме того, по ряду параметров он превзойдет FPU чипов Core 2.

Кэш. Одним из главных недостатков кэша процессоров Athlon была и есть узкая шина обмена данными между L1 и L2 кэшами. В K10 ожидается ее двухкратное расширение, хотя эти данные не подтверждены. Если это случится, то возрастет как скорость работы кэша, так и снизятся его задержки. Помимо этого у старших семейств появится кэш третьего уровня. Он будет общим для всех ядер (двух или четырех в зависимости от модели чипа). Это позволит значительно повысить скорость обмена данными между ними.

TLB. Будут увеличены буферы кэша TLB (translation-lookaside buffer). Этот кэш используется для хранения соответствия между виртуальными и физическими страницами. В новых процессорах преобразования адресов будут происходить быстрее.

Предвыборка данных. Предвыборка данных впервые была реализована в процессорах Pentium 4, после чего перекочевала в Athlon XP и во все их последователи. Специальный блок отслеживает за обработкой данных процессором и пытается рассчитать, которые могут пригодиться в ближайшее время, после чего подгружает их в кэш-память из ОЗУ. В K8 данный блок почти не изменился. AMD не уделила его реализации должного внимания, положившись на низколатентный контроллер памяти. Но данное упущение будет исправлено с выходом Barcelona - блок предвыборки в нем значительно усовершенствован.

Контроллер памяти. Интегрированный на кристалл контроллер памяти уже четыре года остается одной из сильных сторон архитектуры K8. В K10 данный компонент будет усовершенствован. Теперь получение данных может происходить по двум независимым каналам по 64 бита каждый, тогда как до этого был один общий канал на 128 бит, что не очень хорошо подходит для многоядерных решений.

Виртуализация. Будет расширена поддержка технологии виртуализации. Местами ожидается значительный прирост производительности при запуске нескольких операционных систем.

Управление питанием. Новые процессоры смогут регулировать частоту работы каждого из ядер в зависимости от текущей нагрузки. При этом рабочее напряжение будет оставаться у всех одинаковым. Его значение будет соответствовать максимальному из четырех ядер.

НyperTransport 3.0. В качестве средства связи процессора и северного моста (а также процессоров в многопроцессорных конфигурациях на Opteron) будет использоваться новая шина HyperTransport 3.0 вместо текущей HT 1.1. Нововведение обещает повысить скорость работы в несколько раз, при этом сохранив совместимость со старой версией.

Ожидается, что в следующем году абсолютно все процессоры AMD будут построены на обновленной архитектуре - К10. В мобильном секторе на смену текущим Turion 64 X2 придут чипы на ядре Griffin, обещающие повышение производительности и снижение энергопотребления. Представители AMD недавно подтвердили свои намерения развернуть производство процессоров по 45 нм технологии в конце первой половины 2008 года. Первые 45 нм процессоры AMD будут построены на архитектуре К10 (кодовое имя — Deneb) и предназначены для использования в серверах и настольных компьютерах. Deneb будет совместим с разъемом AM2+ и сможет работать на системной логике AMD 790FX. Процессор будет иметь 4 ядра и конкурировать с Penryn. Массовое производство их намечено на вторую половину 2008 года. Но все это промежуточные решения на пути к принципиально новой архитектуре, о которой мы расскажем позже.

Penryn.

Пока несколько слов о новых CRU Intel на ядре Penryn. Им не нужны столь значительные усовершенствования, как K10 по отношению к K8, чипы Core 2 Duo и так достаточно хороши, чтобы их сильно модифицировать. Penryn как раз придет на смену 65 нм технологии. Ожидается, что новые ЦП смогут поднять планку производительности ещё выше. Посмотрим, благодаря чему это должно случиться.

45 нм техпроцесс. Penryn станет первым процессором, выполненным по 45 нм техпроцессу производства. Это позволит поднять тактовые частоты выше теперешних 3.0 ГГц, что не может не радовать. При этом понизится энергопотребление и нагрев.

L2-кэш. Размер кэша второго уровня возрастет с 4 до 6 Мбайт, таким образом доведя число транзисторов в четырехъядерном процессоре до 820 млн.

Частота и FSB. Изначально частоты первых Penryn составят не более 3.2 ГГц, хотя в дальнейшем они возрастут до 3.6 – 3.8 ГГц. Вырастет и системная шина. Сейчас она составляет 1067 или 1333 МГц. У некоторых новых чипов она будет работать на частоте 1600 МГц.

Энергосбережение. В достаточно эффективную систему будет добавлен новый режим энергосбережения, условно называемый Deeper Power Down Technology. Процессор будет способен уходить "в сон" еще глубже, таким образом экономя больше энергии. Это особенно актуально в ноутбуках.

Остальное. Помимо вышеперечисленного будет модернизирована технология виртуализации, а также в Penryn добавят несколько новых команд и сделают незначительные улучшения в архитектуре. Но последнее не более чем доведение уже отработанных механизмов до совершенства.

С одной стороны AMD приложила все усилия, чтобы вывести быстродействие своего нового чипа на уровень несколько превышающий Core 2. Однако Intel не дремлет, и обновленная архитектура Core станет еще немного более быстрой.

На результат этого противостояния можно посмотреть в тесте от 29.10.2007 в демо-версии (оптимизированной для двухъядерных процессоров) игры Crysis. Процессор Phenom с четырьмя ядрами и 2 Мб кэша второго уровня удалось разогнать до частоты 3.0 ГГц. Этот процессор основан на степпинге B2. Частота шины памяти была равна 375 МГц. В ходе тестирования коллеги использовали материнскую плату на базе чипсета AMD 790FX (RD790). Процессоры Intel смогла приютить материнская плата на базе чипсета Intel P35. Одиночная видеокарта GeForce 8800 GTX работала на номинальных частотах под управлением операционной системы Windows XP и драйверов ForceWare 169.01.


Результаты тестирования в Crysis

Результаты тестирования в Crysis сведены в таблицу. Как видите, даже на частоте 3.0 ГГц процессор Phenom немного не дотягивает до уровня Conroe, Kentsfield и Yorkfield, но отставание не так велико. С другой стороны, номинальные частоты Phenom пока будут существенно ниже 3.0 ГГц, а процессоры Yorkfield довольно скоро покорят рубеж 3.2 ГГц. Более того, в обозримом будущем, при желании, Intel может освоить частоту 3.8 ГГц. В руках оверклокеров процессоры Yorkfield очень часто разгоняются до 4.2-4.6 ГГц на воздушном охлаждении.

Однако это все баталии сегодняшнего дня. Самое интересное ждет нас впереди. Как уже было сказано выше, в 2008 году Intel и в 2009 году AMD, намерены представить очередное поколение принципиально новых процессорных архитектур, к которым мы и переходим.

Bulldozer и Bobcat: тяжеловес и легкоатлет от AMD.
В 2009 году компания AMD собирается представить два принципиально новых процессорных ядра: Bulldozer и Bobcat.




Bulldozer позиционируется на место современных мобильных, настольных и серверных процессоров. На основе этого ядра будут представлены чипы с тепловыделением от 10 до 100 Вт.

Вabcat в свою очередь предназначен для энергоэффективных устройств, вроде субноутбуков, а также встраиваемых систем, плееров и т.д. TDP этих чипов будет варьироваться в пределах от 1 до 10 Вт.

Остановимся подробнее на ядре Bulldozer.

В числе нововведений ЦП на основе следующей архитектуры AMD ожидаются следующие:




• до 16 процессорных потоков;

• более длинный конвейер, в сравнении с K8/K10, что позволит поднять тактовые частоты;

• новые дополнительные инструкции, направленные на оптимизацию работы с мультимедиа-контентом;

• поддержка шины HyperTransport 3 (до четырех линьков на процессор);

• поддержка памяти DDR3 и технологии G3MX;

• поддержка интерфейса PCI Express 2.0.

Как можно заметить, в будущем нас ожидает развитие идеи многопотоковых процессоров. Если сегодня двухъядерные модели уже почти заняли все сегменты рынка, а четырехъядерные неуклонно приближаются к mainstream-сегменту, то через два года мы можем увидеть восьми и шестнадцати потоковые процессоры. При этом у процессоров Bulldozer будет увеличено число стадий исполнительного конвейера. У теперешних K8/K10 их 12, у Core 2 Duo - 14, а у Pentium 4 было 31. Наверняка многие помнят особенности последних - высокая частота и малая эффективность. Будем надеяться, что AMD в этом вопросе поведет себя разумно и конвейер будет разбит не на столь значительное число стадий.

Поддержка шины HyperTransport 3.0 появится уже в чипах Barcelona, поэтому для Bulldozer она уже будет не в новинку. Но число линьков (через них осуществляется обмен данными с чипсетом и другими процессорами) в серверных ЦП будет равно четырем, тогда как сейчас используется только три линька.

Пока неизвестно, будут ли процессоры K10 в дальнейшем поддерживать память DDR3 или нет, но ясно то, что такая совместимость появится в Bulldozer. При этом ожидается, что с DDR2 новые чипы работать не станут. Все это означает смену процессорного разъема, несовместимого с Socket AM2 и Socket AM2+. И виной тому не только обновленный контроллер памяти, но и множество нововведений в архитектуре.

Вместе с тем ожидается внедрение технологии G3MX (G3 Memory Extender). Прежде чем объяснить, что это такое сделаем небольшой экскурс в историю. Несколько лет назад на рынке появился новый тип памяти FB-DIMM, главное назначение которого - значительно увеличить максимальный объем ОЗУ на одном компьютере. Intel быстро взяла на себя инициативу, и представила чипсеты с поддержкой FB-DIMM. Сегодня вся серверная платформа Intel работает только с этими модулями. Даже в Apple Mac Pro стоят планки FB-DIMM вместо стандартных DDR2.

Но полностью буферизированная (Fully-Buffered Dual In-line Memory Module - FB-DIMM) память при своих достоинствах имеет ряд недостатков. Среди них высокая стоимость конечных модулей, большая латентность и большой нагрев. В процессоры AMD, чьей сильной стороной являются малые задержки при работе с памятью, такая поддержка не была добавлена. И, судя по всему, не будет. Intel, похоже, в дальнейших разработках тоже будет отказываться от FB-DIMM.

Технология G3MX призвана дать достойный ответ FB-DIMM. Принцип работы последней заключается в размещении на модулях памяти специального буфера, что и позволяет значительно увеличивать максимальный объем. И это же источник всех недостатков. При использовании G3MX такой буфер и специальный чип, контролирующий поток данных, будет расположен прямо на системной плате. Таким образом, решается проблема большого нагрева, а также высокой стоимости планок памяти - можно будет использовать самую обычную не буферизированную DDR3.




Одним из главных вопросов касательно процессоров Bulldozer, является вопрос об их конкурентоспособности. Ведь мало оснастить ЦП сотней новых блоков и функций - важно чтобы при этом он обеспечивал более высокое быстродействие чем у конкурентов. По неподтвержденным данным, Bulldozer будет существенно быстрее современных чипов. Так решения для настольного и мобильного сегментов будут иметь на 30% лучшее соотношение производительность на ватт, чем у Barcelona. В серверном секторе превосходство над Barcelona составит 50-100%. Что ж, будем надеяться, что всё будет именно так.

На основе архитектуры Bulldozer также будет представлено отдельное семейство процессоров, известное под кодовым именем Falcon. При этом в его состав войдет чип Fusion, информация о котором циркулирует в Сети уже около года.




Fusion - это решение высокой интеграции, на одном кристалле которого разместятся несколько процессорных ядер Bulldozer, графический процессор (с поддержкой UVD - Unified Video Decoder), общая для CPU и GPU кэш-память, а также контроллер шины PCI Express 2.0.

Пока неизвестно, что именно за графическое ядро будет интегрировано на кристалл, однако в числе его возможностей значатся поддержка API DirectX 9/10, второе поколение технологии UVD, а также возможность вывода информации на порты DVI, HDMI и DisplayPort.

Полагаем, что компания AMD не сможет интегрировать высокопроизводительный GPU вместе с процессорными ядрами, в противном случае она просто не справится с отводом тепла.

Процессоры Fusion будут позиционироваться на рынке мобильных компьютеров. В настольном сегменте они также "засветятся", однако это будут mainstream и low-end решения. Для достижения максимальной производительности придется покупать процессор и видеокарту по отдельности.




И несколько слов о Bobcat. Процессоры на этом ядре будут довольно сильно урезанными версиями Bulldozer. С одной стороны это снизит производительность, а с другой позволит значительно уменьшить энергопотребление. Ожидается, что они найдут свое место в сегменте смартфонов, карманных компьютеров, UMPC, телевизорах, ТВ-приставках и так далее. Теперь посмотрим, чем на все это "безобразие" ответит Intel.

По материалам ресурса TGDaily и с использованием статей Сергея Сырого, Алексея Садовского и Дмитрия Чеканова.

Обсудить материал можно здесь: http://forums.overclockers.ru/viewtopic.php?t=231765

Во второй части материал собран более актуальный и интересный.

Telegram-канал @overclockers_news - это удобный способ следить за новыми материалами на сайте. С картинками, расширенными описаниями и без рекламы.
Оценитe материал

Возможно вас заинтересует

Популярные новости

Сейчас обсуждают