Рождественская сказка AMD. Обзор и тестирование видеокарты Radeon HD 7970

Потребительские характеристики по сравнению с флагманами прошлых линеек и производительность Radeon HD 7970 на фоне GTX 590, HD 6990, GTX 580, HD 6970, GTX 560 Ti 448 Cores, HD 6950.

6 января 2012, пятница 06:00

Дмитрий Владимирович для раздела Лаборатория

Страница 1 из 4

Вступление, архитектура, внешний вид и размеры, печатная плата

Печатная плата (VRM), система охлаждения, тестовый стенд, инструментарий и методика тестирования, исследование потенциала системы охлаждения, температурный режим, уровень шума и потребляемого электричества, разгон

Инструментарий и методика тестов производительности, результаты тестов: 3DMark 2011, Unigine Heaven, Colin McRae Dirt II, Metro 2033, BattleField Bad Company 2, Aliens vs Predator 3, Star Craft II

Результаты тестов: Battlefield III, Total War Shogun, Colin McRae Dirt III, выводы по разрешениям 1680х1050, 1920х1200 и 2560x1440, итоговые результаты, заключение, за кадром

Вступление

Прошедший Новый год поставил перед журналистами непростую задачу. Видимо, производители, любящие преподносить сюрпризы именно в канун праздника, взяли за правило ежегодно дарить нам незабываемые моменты. В целом мне нравятся приятные неожиданности, тем более, от одного из лидеров графических технологий. Что ж, встречайте лидера игрового (и не только) мира - новую видеокарту Radeon HD 7970.

Технические характеристики

Наименование		HD 6970	HD 7970	HD 6990	GTX 580	GTX 590
Кодовое имя		Cayman XT	Tahiti XT	Antilles	GF110	GF110
Техпроцесс, нм		40	28	40	40	40
Размер ядра/ядер, мм²		389	378	389 x2	~530	~530 x2
Количество транзисторов, млн		2640	4300	2640 x2	3300	3300 x2
Частота ядра, МГц	2D	150	150	150	50 / 100	50 / 100
Частота ядра, МГц	3D	880	925	830/880	772 / 1544	608/1216
Частота ядра OC, МГц		1000	1125	980	925 / 1850	650/1300
Напряжение на ядре, В	2D	0.90	0.90	0.90	0.96	0.95
Напряжение на ядре, В	3D	1.18	1.14	1.12/1.175	1.09	0.98
Число шейдеров (PS), шт.		1536	2048	1536x2	512	512 x2
Число блоков растеризации (ROP), шт.		32	32	32 x2	48	48 x2
Число текстурных блоков (TMU), шт.		96	128	96 x2	64	64 x2
Максимальная скорость закраски, Гпикс/с		28.2	29.6	53.1/56.3	37.1	58.4
Максимальная скорость выборки текстур, Гтекс/с		84.5	118.4	159.4/169	49.4	77.8
Версия пиксельных/вертексных шейдеров		5.0 / 5.0	5.0 / 5.0	5.0 / 5.0	5.0 / 5.0	5.0 / 5.0
Тип памяти		GDDR5	GDDR5	GDDR5	GDDR5	GDDR5
Эффективная частота памяти, МГц	2D	300	300	300	67	67
Эффективная частота памяти, МГц	3D	5500	5500	5000	4008	3420
Эффективная частота памяти OC, МГц		5800	6300	5800	4100	3600
Напряжение на памяти, В	2D	1.60	1.60	1.60	1.36	1.31
Напряжение на памяти, В	3D	1.60	1.60	1.60	1.62	1.53
Объём памяти, Мбайт		2048	3072	2048 x2	1536	1536 x2
Шина памяти, бит		256	384	256 x2	384	384 x2
Пропускная способность памяти, Гбайт/с		176	264	160 x2	192.4	164 х2
Потребляемая мощность, Ватт	2D	20	3	37	нд	нд
Потребляемая мощность, Ватт	3D	250	250	375 / 450	244	365
Crossfire/Sli		да	да	да	да	да
Размер карты ДхШхВ, мм		275x100x37	275x100x37	340x100x38	270x100x38	280x100x38
Рекомендованная цена, $		369	549	699	499	699

Архитектура

Как и любое устройство, архитектура графического ядра начинается с небольших блоков, составляющих основу. Ядро Tahiti стало и проще, и сложнее одновременно. Сложнее, потому что теперь оно содержит 4.3 млрд транзисторов, что почти вдвое больше, чем ранее было в видеопроцессоре HD 5870. А проще, потому что теперь в единичном устройстве меньше логики.

Для сравнения приведу упрощенную схему трех GPU. В порядке последовательности идут: GTX 580, как наиболее производительное и современное решение NVIDIA, предыдущий лидер AMD – HD 6970, и соответственно само ядро Tahiti, дающее жизнь графическому ускорителю 7970.

GF110.

Cayman.

Tahiti.

Былое разнообразие типовых вычислительных юнитов превратилось в простой массив элементарных частиц под названием ALU. Одновременно увеличился объём кэш-памяти до шестнадцати единиц, а вся управляющая логика переместилась на один уровень выше.

GF110.

Cayman.

Tahiti.

Сделаем небольшую поправку на разные технологические нормы производства, ведь GTX 580 и HD 6970 используют 40 нм, а Tahiti - 28 нм. Архитектура GCN для AMD действительно стала новым шагом в сторону GPGPU вычислений. Ранее VLIW была оптимизирована для графических вычислений, но время не стоит на месте, и требуется все большая унификация в неграфических вычислениях и сложных универсальных задачах.

Посмотрите, как схематично изменился набор вычислительных юнитов в одном блоке. Правильным и одновременно своевременным стало событие, позволяющее AMD отдалиться от графического контента и приблизиться к смешанным вычислениям, где графическая часть больше не является первостепенной. Благодаря нескольким упрощениям архитектура GCN стала гибче и проще для программирования и использования. Но еще важнее то, что AMD наделила CU (Compute Unit) собственным планировщиком и позволила единому блоку работать самостоятельно. Теоретически, планировщик может выдавать до пяти задач, что должно равномернее загружать исполнительные модули.

Как-то раз между слов мне удалось добыть интересную информацию, говорящую о том, что средняя загрузка VLIW архитектуры не поднималась выше 3.6 ядер из 5 возможных. Нетрудно подсчитать, что процент бездействия непозволительно высок для современной архитектуры. Сейчас пользователям обещают практически 80-85% загрузки. А все благодаря тому, что блок GCN состоит из нескольких важных частей.

Векторные ALU объединены в ячейки по шестнадцать штук с собственной кэш-памятью, общей суммой в 64 ALU. Ячеек четыре штуки, и каждая способна работать с собственным потоком команд, плюс еще один важный модуль скалярных вычислений, также оснащенный кэш-памятью. Объединение скалярных и векторных модулей позволяет максимально упростить программную часть кода и разгрузить компилятор.

В VLIW архитектуре параллельность вычислений достигалась за счет нескольких операций в одной инструкции. С GCN параллельность задействована за счет нескольких ячеек из ALU юнитов. Производительность VLIW напрямую зависела от компилятора, передающего некоторое число кодированных скалярных операций в длинном коде на исполнение. Отдельный блок CU динамически распределяет нагрузку между объединёнными ALU блоками, которая состоит из 64 инструкций.

Для выполнения последовательности CU выделяется четыре цикла, но одновременно исполняется только 4х64 инструкции, еще 28х64 находятся во временном буфере, позволяющем планировщику динамически перераспределять нагрузку на исполнительные блоки. Таким образом, если одна из четырех частей массива ALU «буксует», то планировщик распределит нагрузку на другие блоки. Отдельный скалярный ALU предназначен для операций, не укладывающихся в 64 инструкции, или контролирует условные ветвления, переходы и прочее. Он физически ограничен одной операцией за такт работы.

Естественно не обошлось без увеличения объёмов кэш-памяти, что так хорошо реализовано в GF110 и чем обоснованно может гордиться NVIDIA. Каждый GCN оснащён двумя различными кэш-буферами: L1 16 Кбайт и локальным хранилищем данных 64 Кбайта, общим для четырех CU. Первый, L1 по праву может считаться полноценным: исполнительные модули не только читают, но и пишут в него. Помимо персонального хранилища промежуточных результатов GCN блок обращается и к общему хранилищу. Прибавьте сюда полностью когерентный кэш L2, поделенный на массивы по 64 Кбайта между двухканальными контроллерами памяти. Шины кэшей L1 и L2 получили разрядность 64 байта.

Система кэширования памяти подверглась модернизации и линейному расширению. В Tahiti внедрена двухуровневая адресация, и не только в режиме чтения, но и при записи с перекрестным обращением. Что это даёт? Многое, но отнюдь не все, ориентировочно аналогичная схема уже используется у NVIDIA, что даёт большую гибкость модулям и простор для обмена данными. Всего же в графическом ядре насчитывается 512 Кбайт L1 и 768 Кбайт L2. Каждый GCN блок обращается дифференцированно по 64 байта в L1 кэш или глобальную общую память, служащую для обмена данными между наборами команд. L2 также гранулирован наборами ячеек по 64 байта для блоков CGN, таким образом запись или чтение туда осуществляется аналогичными порциями.

Суммарная пропускная способность Tahiti увеличилась на 50% по сравнению с ядром Cayman. В составе GCN можно обнаружить полноценный текстурный конвейер, состоящий из четырех TMU. Все вместе это делает GCN самостоятельной единицей в архитектуре графического ядра. Нет, центральный планировщик никуда не пропал, но теперь его работа существенно облегчилась.

Схематический вид графических ядер:

GF110.

180x150 46 KB. Big one: 1500x1248 1093 KB

Cayman.

180x150 37 KB. Big one: 1500x1248 710 KB

Tahiti.

132x150 33 KB. Big one: 1323x1500 870 KB

С приходом демократии в блоки GCN планировщик организует потоки команд и распределяет их самостоятельно. Максимальное число достигает 32 массивов, по 64 инструкции. Немаловажно то, что теперь массивы планировщик может получать из разных адресных пространств, полностью защищённых и независимых друг от друга. Забавно наблюдать, как архитектурные улучшения AMD логично повторяют наработки NVIDIA, которые уже доказали свою эффективность в пересчете на один МГц частоты GPU. Само собой, скопирована только логика, что представляет собой не более 1% от всей сложности компоновки GPU, и говорить об аналогичности нужно очень осторожно.

Но, как можно заметить по схемам выше, один немаловажный аспект строения GF110 остался практически незамеченным. Блоки тесселяции у NVIDIA находятся в SM, в то время как AMD осталась верна собственным алгоритмам. С другой стороны, вычислительная мощность Tahiti сейчас предлагает невиданное количество исполнительных, независимых блоков, способных «перемолоть» массивы входных данных и выдать результат 3.79 ТФлоп. Архитектура, основанная на скалярном исполнении, позволяет упростить задачи по программированию, а также ликвидирует прямую зависимость и конфликты единственного планировщика в предыдущем решении.

А теперь несколько мнений, как мое, так и компетентных инженеров, где ядро Tahiti сравнивается с Fermi. На глобальном уровне у последней планировщик выстраивает потоки (kernels) для каждого блока SM. Алгоритм Tahiti немного иной, в блоке содержится большее число исполнительных единиц. Разработчики AMD поставили командный процессор (CP) во главу микросхемы, в которой содержится распределитель заданий, блок по обработке примитивов, пиксельный блок. Все эти устройства нагружены обработкой в большой степени, что скажется на эффективности обработки данных в остальных частях графического ядра. То есть предполагается, что именно на начальной стадии у новой архитектуры будут случаться задержки, возможно, и блоки ROP обслуживаются этим же глобальным устройством. Что опять же скажется на эффективности графического ядра в целом.

Планировщик Fermi теоретически может обработать и выдать шестнадцать независимых потоков, AMD пиковую производительность своего планировщика скромно умалчивает. Хотя известно, что ядро Tahiti содержит два ACE устройства (асинхронных вычислительных движка или Asynchronous Compute Engines).

Разделение ресурсов в CU и SM на чтение и запись также существенно отличается между Fermi и Tahiti. Количеством простых исполняющих устройств ALU и разной частотой, вы ведь помните, что у NVIDIA применена двойная частота для SM. Двойная частота – двойная эффективность при меньшем количестве простых ядер. Это означает то, что у её решений планирование и распределение заданий должно происходить быстрее.

Распределение кэшей так же получило ряд отличий. У Fermi пул из 64 Кбайт, делящийся на L1 и LDS (общей разделяемой памяти), а небольшой объём текстурной памяти как бы отделен. У Tahiti L1 и текстурная память составляют одно целое, а LDS находится в стороне. Отдельно расположенный SFU (Scalar) у Tahiti оснащен общей кэш-памятью только для чтения.

Два планировщика Fermi в SM блоке производят и отслеживают потоки из независимых адресных пространств, у Tahiti четыре планировщика, работающих на меньшей частоте. Они не могут наблюдать за независимыми потоками заданий. ALU Fermi сопряжены с единым 128 Kбайт буфером, для Tahiti он поделен на четыре блока по 64 Кбайта для каждого CU.

Tahiti ведет себя агрессивней при сохранении промежуточных результатов в общую кэш-память, Fermi делает запись только после полного выполнения заданий. У Fermi полиморфный и растровые блоки находятся в каждом SM и синхронизированы, что позволяет лучше справляться с упорядоченными параллельными задачами. AMD оставила аналогичные блоки за пределами CU, что делает подход к конструированию графического ядра более консервативным.

И, несмотря на кажущиеся большие отличия между GF110 и Tahiti, они все же похожи друг на друга =). Продолжим знакомство с нововведениями в Tahiti.

Количество геометрических блоков не изменилось - две штуки, официально AMD говорит о возросшей эффективности. Всего в Tahiti тридцать два GCN блока, в каждом по четыре TMU, итого 128 текстурных блоков, и это пока рекорд для единичной микросхемы. Модернизации подверглись и ROP блоки, больше не привязанные к каналам памяти. Теперь ROP отданы GCN модулям. Растущие потребности видеоигр и неграфических вычислений привели AMD к одному логичному пути, скорость микросхем растет, но не так быстро как рассчитывала компания, поэтому пришлось расширить ширину шины обмена данными до 384 бит. А заодно обновить внешнюю шину, до версии PCI-E 3.0.

В очередной раз улучшилось качество текстурной фильтрации, но отличить без визуального определения используемую графическую карту, думаю, не под силу даже специалисту. В динамике в части игр исчез «песок», но из-за тестовой версии драйверов появились мигающие текстуры.

Асинхронные командные движки призваны помочь наступлению AMD на фронт неграфических вычислений. Впрочем, я все еще помню её обещание открыть доступ к ним для программирования «напрямую» через OpenCL. Как только появится такая возможность, можно будет проверить эффективность некоторых частей графического ядра.

Не думаю, что стоит вам перечислять всевозможные улучшения GPGPU вычислений, так что остановлюсь на интересных физических особенностях новинки.

Контроль энергопотребления отныне внедрен в программную часть. Причем грамотно, а не для галочки, в чем пришлось убедиться, когда возникла необходимость разогнать и сравнить энергопотребление двух моделей: HD 6970 и HD 7970. PowerTune «калькулятор» достаточно шустро вычисляет энергопотребление видеокарты и в режиме реального времени устанавливает пиковые частоты. Но даже на частоте 1125 МГц в FurMark он не позволял сбрасывать частоты! В то же время при наличии возможности тактовая частота GPU увеличивается. Да здравствует динамический разгон видеокарт, пришедший к нам из страны CPU, что дальше? Ждем плавную Х-миграцию технологий.

Дополнительно AMD позволяет вентилятору полностью останавливаться, когда монитор отключается и переходит в режим сна. Последнее может быть очень полезным для любителей не выключать компьютер. 3 ватта в простое говорят как раз за такой режим работы видеокарты. Не обошли стороной и конфигурации Crossfire, и пусть PowerTune до них еще не добрался, но в 2D бездействующие видеокарты практически полностью отключаются, в том числе - с остановкой вентиляторов. Кроме того, ведущий ускоритель в CrossFire также будет переходить в режим сна при длительном простое.

В новой архитектуре нашлось место для очередного улучшения технологии AMD Eyefinity. Она получила большие разрешения, поддержку большего количества дисплеев и расширение гибкости. Eyefinity 2.0 поддерживает вывод изображения и в стереорежиме HD3D (до трех мониторов). Нашлось место применению формату пакетной передачи, в котором кадры для левого и правого глаза объединены в один массив, AMD Radeon HD 7970 передаёт его в виде HDMI 1.4a для вывода стереокартинки, и на каждый глаз приходится Full HD картинка с частотой 60 Гц.

Появилась возможность вывода звука на разные источники, теперь можно для каждого монитора задать тип аудиоданных. Полезно, когда к одной видеокарте подключен и монитор, и телевизор. Не забыты просьбы пользователей с разными диагоналями мониторов. Формат разрешений вырос до 16384?16384, используемые мониторы могут быть с разной диагональю, работающие в портретных и горизонтальных режимах. Доступны конфигурации как горизонтальные и вертикальные 5?1, так и на основе шести мониторов в виде 3?2.

В ближайшем будущем новые драйвера позволят изменять настройки размещения панели задач. Кроме того, поддерживаемые стандарты DisplayPort 1.2 HBR 2 и 3 ГГц HDMI потребуются для подключения дисплеев с разрешением 4096x2160. Расширившийся список мультимедийных возможностей достаточно велик, и наверняка оправдает надежды многих пользователей. Но на этом AMD обещала не останавливаться и продолжать совершенствование и улучшение потребительских свойств своих графических карт.

Внешний вид и размеры

400x429 27 KB. Big one: 1399x1500 143 KB

	A, мм	B, мм	C, мм	D, мм	A1, мм	B1, мм	C1, мм
AMD HD 6970	266	95	34	65	273	97	39
AMD HD 7970	266	98	34	71	277	98	39
NVIDIA GTX 580	268	98	36	68	268	98	38

А - длина печатной платы, без учёта системы охлаждения и планки портов видеовыходов.
В - ширина печатной платы, без учёта контактов PCI-E и системы охлаждения.
С - высота, от горизонтальной плоскости печатной платы до уровня верхней поверхности системы охлаждения.
D - диаметр отверстий под вентиляторы.

А1 - длина печатной платы, с учётом системы охлаждения (если выходит за пределы печатной платы) до планки портов видеовыходов.
В1 - ширина печатной платы, без учёта контактов PCI-E, но с замером системы охлаждения (если выходит за пределы печатной платы).
С1 - высота, с учётом задней пластины (если есть)/винтов крепления радиатора до уровня верхней поверхности СО. Если она ниже высоты задней планки портов видеовыходов, то измеряется высота до верхней точки планки.

Длина печатной платы HD 7970 и HD 6970 одинакова. А вот ширина отличается на несколько миллиметров, у HD 7970 нет скошенного края, из-за плотной компоновки модулей памяти. Тип турбины остался прежним, но изменился профиль лопастей и их количество. Полная длина карты несколько увеличилась по сравнению как с HD 6970, так и с GTX 580, но пока не превышает разумные пределы.

На задней части видеокарты убрали один разъём DVI, высвободив место под отверстие системы охлаждения.

Печатная плата

Любая видеокарта начинается с дизайна печатной платы и качества используемых элементов. К моделям, относящимся к верхнему ценовому сегменту, требования предъявляются серьёзные. AMD применила ранее опробованную схему с раздельным питанием графического ядра и независимым питанием памяти (Vmem, Pll). Предыдущая схема выражается числами 6+2+1, нынешняя 6+1+1 (инженерные образцы), магазинные варианты довольствуются комбинацией 5+1+1.

Количество фаз питания GPU на видеокартах с черным цветом печатной платы (тех, что поступят в продажу) сократится на одну, вместо Volterra используются иные силовые ключи, аналогичные тем, что ставит на свои продукты серии Lightning MSI. Там они показали себя только с положительной стороны, но количество фаз у моделей MSI исчисляется десятками, а у HD 7970 только пять фаз.

Часть управляющей логики переместилась на обратную сторону платы. Временами даже не верится, что мощные интегрированные микросхемы Volterra заменили на вполне заурядные силовые цепи.

Поскольку ширина шины подросла до 384 бит, то и число модулей памяти увеличилось, расположены они по окружности вокруг GPU, последняя микросхема сильно смещена к слоту.

По пути к графическому ядру инженеры дополнительно предусмотрели фильтры в виде конденсаторов, что прежде не было видно, потому как конденсаторы были без оболочки. Присмотритесь, как близко расположены модули памяти к цепям питания.

Единые блоки дросселей заменили одиночными решениями. Ширина платы увеличилась из-за большего количества микросхем памяти.

Чтобы соблюсти правила одинаковой длины соединительных каналов памяти, последнюю микросхему развернули на 90 градусов.

250x249 14 KB. Big one: 1500x1495 287 KB

248x249 15 KB. Big one: 1500x1505 418 KB

Графическое ядро приобрело оригинальный панцирь. Вместо привычной рамки по бокам, защитная часть теперь частично закрывает подложку GPU. Маркировка наносится непосредственно на стороны рамки, а не на сам процессор.

С памятью все просто, как стояли микросхемы Hynix, рассчитанные на 6 ГГц, так и стоят. Как говорится - от добра добра не ищут. Частично, чтобы компенсировать свой выбор, была расширена граница разгона памяти в самих драйверах до 1575 МГц.