Рождественская сказка AMD. Обзор и тестирование видеокарты Radeon HD 7970
реклама
Оглавление
- Вступление
- Архитектура
- Внешний вид и размеры
- Печатная плата
- Система охлаждения
- Тестовый стенд
- Инструментарий и методика тестирования
- Исследование потенциала системы охлаждения
- Температурный режим, уровень шума и потребляемого электричества
- Разгон
- Инструментарий и методика тестов производительности
- Результаты тестов
- 3DMark 2011
- Unigine Heaven
- Colin McRae Dirt II
- Metro 2033
- BattleField Bad Company 2
- Aliens vs Predator 3
- Star Craft II
- Battlefield III
- Total War Shogun
- Colin McRae Dirt III
- Выводы по разрешению 1680х1050
- Выводы по разрешению 1920х1200
- Выводы по разрешению 2560x1440
- Итоговые результаты
- Заключение
- За кадром
Вступление
Прошедший Новый год поставил перед журналистами непростую задачу. Видимо, производители, любящие преподносить сюрпризы именно в канун праздника, взяли за правило ежегодно дарить нам незабываемые моменты. В целом мне нравятся приятные неожиданности, тем более, от одного из лидеров графических технологий. Что ж, встречайте лидера игрового (и не только) мира - новую видеокарту Radeon HD 7970.
Технические характеристики
реклама
|
|
|
|
|
|
|
Кодовое имя |
|
|
|
|
|
|
Техпроцесс, нм |
|
|
|
|
|
|
Размер ядра/ядер, мм2 |
|
|
|
|
|
|
Количество транзисторов, млн |
|
|
|
|
|
|
Частота ядра, МГц | 2D |
|
|
|
|
|
3D |
|
|
|
|
|
|
Частота ядра OC, МГц |
|
|
|
|
|
|
Напряжение на ядре, В | 2D |
|
|
|
|
|
3D |
|
|
|
|
|
|
Число шейдеров (PS), шт. |
|
|
|
|
|
|
Число блоков растеризации (ROP), шт. |
|
|
|
|
|
|
Число текстурных блоков (TMU), шт. |
|
|
|
|
|
|
Максимальная скорость закраски, Гпикс/с |
|
|
|
|
|
|
Максимальная скорость выборки текстур, Гтекс/с |
|
|
|
|
|
|
Версия пиксельных/вертексных шейдеров |
|
|
|
|
|
|
Тип памяти |
|
|
|
|
|
|
Эффективная частота памяти, МГц | 2D |
|
|
|
|
|
3D |
|
|
|
|
|
|
Эффективная частота памяти OC, МГц |
|
|
|
|
|
|
Напряжение на памяти, В | 2D |
|
|
|
|
|
3D |
|
|
|
|
|
|
Объём памяти, Мбайт |
|
|
|
|
|
|
Шина памяти, бит |
|
|
|
|
|
|
Пропускная способность памяти, Гбайт/с |
|
|
|
|
|
|
Потребляемая мощность, Ватт | 2D |
|
|
|
|
|
3D |
|
|
|
|
|
|
Crossfire/Sli |
|
|
|
|
|
|
Размер карты ДхШхВ, мм |
|
|
|
|
|
|
Рекомендованная цена, $ |
|
|
|
|
|
Архитектура
Как и любое устройство, архитектура графического ядра начинается с небольших блоков, составляющих основу. Ядро Tahiti стало и проще, и сложнее одновременно. Сложнее, потому что теперь оно содержит 4.3 млрд транзисторов, что почти вдвое больше, чем ранее было в видеопроцессоре HD 5870. А проще, потому что теперь в единичном устройстве меньше логики.
Для сравнения приведу упрощенную схему трех GPU. В порядке последовательности идут: GTX 580, как наиболее производительное и современное решение NVIDIA, предыдущий лидер AMD – HD 6970, и соответственно само ядро Tahiti, дающее жизнь графическому ускорителю 7970.
- GF110.
- Cayman.
реклама
- Tahiti.
Былое разнообразие типовых вычислительных юнитов превратилось в простой массив элементарных частиц под названием ALU. Одновременно увеличился объём кэш-памяти до шестнадцати единиц, а вся управляющая логика переместилась на один уровень выше.
- GF110.
- Cayman.
- Tahiti.
Сделаем небольшую поправку на разные технологические нормы производства, ведь GTX 580 и HD 6970 используют 40 нм, а Tahiti - 28 нм. Архитектура GCN для AMD действительно стала новым шагом в сторону GPGPU вычислений. Ранее VLIW была оптимизирована для графических вычислений, но время не стоит на месте, и требуется все большая унификация в неграфических вычислениях и сложных универсальных задачах.
Посмотрите, как схематично изменился набор вычислительных юнитов в одном блоке. Правильным и одновременно своевременным стало событие, позволяющее AMD отдалиться от графического контента и приблизиться к смешанным вычислениям, где графическая часть больше не является первостепенной. Благодаря нескольким упрощениям архитектура GCN стала гибче и проще для программирования и использования. Но еще важнее то, что AMD наделила CU (Compute Unit) собственным планировщиком и позволила единому блоку работать самостоятельно. Теоретически, планировщик может выдавать до пяти задач, что должно равномернее загружать исполнительные модули.
Как-то раз между слов мне удалось добыть интересную информацию, говорящую о том, что средняя загрузка VLIW архитектуры не поднималась выше 3.6 ядер из 5 возможных. Нетрудно подсчитать, что процент бездействия непозволительно высок для современной архитектуры. Сейчас пользователям обещают практически 80-85% загрузки. А все благодаря тому, что блок GCN состоит из нескольких важных частей.
Векторные ALU объединены в ячейки по шестнадцать штук с собственной кэш-памятью, общей суммой в 64 ALU. Ячеек четыре штуки, и каждая способна работать с собственным потоком команд, плюс еще один важный модуль скалярных вычислений, также оснащенный кэш-памятью. Объединение скалярных и векторных модулей позволяет максимально упростить программную часть кода и разгрузить компилятор.
В VLIW архитектуре параллельность вычислений достигалась за счет нескольких операций в одной инструкции. С GCN параллельность задействована за счет нескольких ячеек из ALU юнитов. Производительность VLIW напрямую зависела от компилятора, передающего некоторое число кодированных скалярных операций в длинном коде на исполнение. Отдельный блок CU динамически распределяет нагрузку между объединёнными ALU блоками, которая состоит из 64 инструкций.
реклама
Для выполнения последовательности CU выделяется четыре цикла, но одновременно исполняется только 4х64 инструкции, еще 28х64 находятся во временном буфере, позволяющем планировщику динамически перераспределять нагрузку на исполнительные блоки. Таким образом, если одна из четырех частей массива ALU «буксует», то планировщик распределит нагрузку на другие блоки. Отдельный скалярный ALU предназначен для операций, не укладывающихся в 64 инструкции, или контролирует условные ветвления, переходы и прочее. Он физически ограничен одной операцией за такт работы.
Естественно не обошлось без увеличения объёмов кэш-памяти, что так хорошо реализовано в GF110 и чем обоснованно может гордиться NVIDIA. Каждый GCN оснащён двумя различными кэш-буферами: L1 16 Кбайт и локальным хранилищем данных 64 Кбайта, общим для четырех CU. Первый, L1 по праву может считаться полноценным: исполнительные модули не только читают, но и пишут в него. Помимо персонального хранилища промежуточных результатов GCN блок обращается и к общему хранилищу. Прибавьте сюда полностью когерентный кэш L2, поделенный на массивы по 64 Кбайта между двухканальными контроллерами памяти. Шины кэшей L1 и L2 получили разрядность 64 байта.
Система кэширования памяти подверглась модернизации и линейному расширению. В Tahiti внедрена двухуровневая адресация, и не только в режиме чтения, но и при записи с перекрестным обращением. Что это даёт? Многое, но отнюдь не все, ориентировочно аналогичная схема уже используется у NVIDIA, что даёт большую гибкость модулям и простор для обмена данными. Всего же в графическом ядре насчитывается 512 Кбайт L1 и 768 Кбайт L2. Каждый GCN блок обращается дифференцированно по 64 байта в L1 кэш или глобальную общую память, служащую для обмена данными между наборами команд. L2 также гранулирован наборами ячеек по 64 байта для блоков CGN, таким образом запись или чтение туда осуществляется аналогичными порциями.
Суммарная пропускная способность Tahiti увеличилась на 50% по сравнению с ядром Cayman. В составе GCN можно обнаружить полноценный текстурный конвейер, состоящий из четырех TMU. Все вместе это делает GCN самостоятельной единицей в архитектуре графического ядра. Нет, центральный планировщик никуда не пропал, но теперь его работа существенно облегчилась.
Схематический вид графических ядер:
- GF110.
- Cayman.
- Tahiti.
С приходом демократии в блоки GCN планировщик организует потоки команд и распределяет их самостоятельно. Максимальное число достигает 32 массивов, по 64 инструкции. Немаловажно то, что теперь массивы планировщик может получать из разных адресных пространств, полностью защищённых и независимых друг от друга. Забавно наблюдать, как архитектурные улучшения AMD логично повторяют наработки NVIDIA, которые уже доказали свою эффективность в пересчете на один МГц частоты GPU. Само собой, скопирована только логика, что представляет собой не более 1% от всей сложности компоновки GPU, и говорить об аналогичности нужно очень осторожно.
Но, как можно заметить по схемам выше, один немаловажный аспект строения GF110 остался практически незамеченным. Блоки тесселяции у NVIDIA находятся в SM, в то время как AMD осталась верна собственным алгоритмам. С другой стороны, вычислительная мощность Tahiti сейчас предлагает невиданное количество исполнительных, независимых блоков, способных «перемолоть» массивы входных данных и выдать результат 3.79 ТФлоп. Архитектура, основанная на скалярном исполнении, позволяет упростить задачи по программированию, а также ликвидирует прямую зависимость и конфликты единственного планировщика в предыдущем решении.
А теперь несколько мнений, как мое, так и компетентных инженеров, где ядро Tahiti сравнивается с Fermi. На глобальном уровне у последней планировщик выстраивает потоки (kernels) для каждого блока SM. Алгоритм Tahiti немного иной, в блоке содержится большее число исполнительных единиц. Разработчики AMD поставили командный процессор (CP) во главу микросхемы, в которой содержится распределитель заданий, блок по обработке примитивов, пиксельный блок. Все эти устройства нагружены обработкой в большой степени, что скажется на эффективности обработки данных в остальных частях графического ядра. То есть предполагается, что именно на начальной стадии у новой архитектуры будут случаться задержки, возможно, и блоки ROP обслуживаются этим же глобальным устройством. Что опять же скажется на эффективности графического ядра в целом.
Планировщик Fermi теоретически может обработать и выдать шестнадцать независимых потоков, AMD пиковую производительность своего планировщика скромно умалчивает. Хотя известно, что ядро Tahiti содержит два ACE устройства (асинхронных вычислительных движка или Asynchronous Compute Engines).
Разделение ресурсов в CU и SM на чтение и запись также существенно отличается между Fermi и Tahiti. Количеством простых исполняющих устройств ALU и разной частотой, вы ведь помните, что у NVIDIA применена двойная частота для SM. Двойная частота – двойная эффективность при меньшем количестве простых ядер. Это означает то, что у её решений планирование и распределение заданий должно происходить быстрее.
Распределение кэшей так же получило ряд отличий. У Fermi пул из 64 Кбайт, делящийся на L1 и LDS (общей разделяемой памяти), а небольшой объём текстурной памяти как бы отделен. У Tahiti L1 и текстурная память составляют одно целое, а LDS находится в стороне. Отдельно расположенный SFU (Scalar) у Tahiti оснащен общей кэш-памятью только для чтения.
Два планировщика Fermi в SM блоке производят и отслеживают потоки из независимых адресных пространств, у Tahiti четыре планировщика, работающих на меньшей частоте. Они не могут наблюдать за независимыми потоками заданий. ALU Fermi сопряжены с единым 128 Kбайт буфером, для Tahiti он поделен на четыре блока по 64 Кбайта для каждого CU.
Tahiti ведет себя агрессивней при сохранении промежуточных результатов в общую кэш-память, Fermi делает запись только после полного выполнения заданий. У Fermi полиморфный и растровые блоки находятся в каждом SM и синхронизированы, что позволяет лучше справляться с упорядоченными параллельными задачами. AMD оставила аналогичные блоки за пределами CU, что делает подход к конструированию графического ядра более консервативным.
И, несмотря на кажущиеся большие отличия между GF110 и Tahiti, они все же похожи друг на друга =). Продолжим знакомство с нововведениями в Tahiti.
Количество геометрических блоков не изменилось - две штуки, официально AMD говорит о возросшей эффективности. Всего в Tahiti тридцать два GCN блока, в каждом по четыре TMU, итого 128 текстурных блоков, и это пока рекорд для единичной микросхемы. Модернизации подверглись и ROP блоки, больше не привязанные к каналам памяти. Теперь ROP отданы GCN модулям. Растущие потребности видеоигр и неграфических вычислений привели AMD к одному логичному пути, скорость микросхем растет, но не так быстро как рассчитывала компания, поэтому пришлось расширить ширину шины обмена данными до 384 бит. А заодно обновить внешнюю шину, до версии PCI-E 3.0.
В очередной раз улучшилось качество текстурной фильтрации, но отличить без визуального определения используемую графическую карту, думаю, не под силу даже специалисту. В динамике в части игр исчез «песок», но из-за тестовой версии драйверов появились мигающие текстуры.
Асинхронные командные движки призваны помочь наступлению AMD на фронт неграфических вычислений. Впрочем, я все еще помню её обещание открыть доступ к ним для программирования «напрямую» через OpenCL. Как только появится такая возможность, можно будет проверить эффективность некоторых частей графического ядра.
Не думаю, что стоит вам перечислять всевозможные улучшения GPGPU вычислений, так что остановлюсь на интересных физических особенностях новинки.
Контроль энергопотребления отныне внедрен в программную часть. Причем грамотно, а не для галочки, в чем пришлось убедиться, когда возникла необходимость разогнать и сравнить энергопотребление двух моделей: HD 6970 и HD 7970. PowerTune «калькулятор» достаточно шустро вычисляет энергопотребление видеокарты и в режиме реального времени устанавливает пиковые частоты. Но даже на частоте 1125 МГц в FurMark он не позволял сбрасывать частоты! В то же время при наличии возможности тактовая частота GPU увеличивается. Да здравствует динамический разгон видеокарт, пришедший к нам из страны CPU, что дальше? Ждем плавную Х-миграцию технологий.
Дополнительно AMD позволяет вентилятору полностью останавливаться, когда монитор отключается и переходит в режим сна. Последнее может быть очень полезным для любителей не выключать компьютер. 3 ватта в простое говорят как раз за такой режим работы видеокарты. Не обошли стороной и конфигурации Crossfire, и пусть PowerTune до них еще не добрался, но в 2D бездействующие видеокарты практически полностью отключаются, в том числе - с остановкой вентиляторов. Кроме того, ведущий ускоритель в CrossFire также будет переходить в режим сна при длительном простое.
В новой архитектуре нашлось место для очередного улучшения технологии AMD Eyefinity. Она получила большие разрешения, поддержку большего количества дисплеев и расширение гибкости. Eyefinity 2.0 поддерживает вывод изображения и в стереорежиме HD3D (до трех мониторов). Нашлось место применению формату пакетной передачи, в котором кадры для левого и правого глаза объединены в один массив, AMD Radeon HD 7970 передаёт его в виде HDMI 1.4a для вывода стереокартинки, и на каждый глаз приходится Full HD картинка с частотой 60 Гц.
Появилась возможность вывода звука на разные источники, теперь можно для каждого монитора задать тип аудиоданных. Полезно, когда к одной видеокарте подключен и монитор, и телевизор. Не забыты просьбы пользователей с разными диагоналями мониторов. Формат разрешений вырос до 16384?16384, используемые мониторы могут быть с разной диагональю, работающие в портретных и горизонтальных режимах. Доступны конфигурации как горизонтальные и вертикальные 5?1, так и на основе шести мониторов в виде 3?2.
В ближайшем будущем новые драйвера позволят изменять настройки размещения панели задач. Кроме того, поддерживаемые стандарты DisplayPort 1.2 HBR 2 и 3 ГГц HDMI потребуются для подключения дисплеев с разрешением 4096x2160. Расширившийся список мультимедийных возможностей достаточно велик, и наверняка оправдает надежды многих пользователей. Но на этом AMD обещала не останавливаться и продолжать совершенствование и улучшение потребительских свойств своих графических карт.
Внешний вид и размеры
|
|
|
|
|
|
|
|
AMD HD 6970 |
|
|
|
|
|
|
|
AMD HD 7970 |
|
|
|
|
|
|
|
NVIDIA GTX 580 |
|
|
|
|
|
|
|
В - ширина печатной платы, без учёта контактов PCI-E и системы охлаждения.
С - высота, от горизонтальной плоскости печатной платы до уровня верхней поверхности системы охлаждения.
D - диаметр отверстий под вентиляторы.
А1 - длина печатной платы, с учётом системы охлаждения (если выходит за пределы печатной платы) до планки портов видеовыходов.
В1 - ширина печатной платы, без учёта контактов PCI-E, но с замером системы охлаждения (если выходит за пределы печатной платы).
С1 - высота, с учётом задней пластины (если есть)/винтов крепления радиатора до уровня верхней поверхности СО. Если она ниже высоты задней планки портов видеовыходов, то измеряется высота до верхней точки планки.
Длина печатной платы HD 7970 и HD 6970 одинакова. А вот ширина отличается на несколько миллиметров, у HD 7970 нет скошенного края, из-за плотной компоновки модулей памяти. Тип турбины остался прежним, но изменился профиль лопастей и их количество. Полная длина карты несколько увеличилась по сравнению как с HD 6970, так и с GTX 580, но пока не превышает разумные пределы.
На задней части видеокарты убрали один разъём DVI, высвободив место под отверстие системы охлаждения.
Печатная плата
Любая видеокарта начинается с дизайна печатной платы и качества используемых элементов. К моделям, относящимся к верхнему ценовому сегменту, требования предъявляются серьёзные. AMD применила ранее опробованную схему с раздельным питанием графического ядра и независимым питанием памяти (Vmem, Pll). Предыдущая схема выражается числами 6+2+1, нынешняя 6+1+1 (инженерные образцы), магазинные варианты довольствуются комбинацией 5+1+1.
Количество фаз питания GPU на видеокартах с черным цветом печатной платы (тех, что поступят в продажу) сократится на одну, вместо Volterra используются иные силовые ключи, аналогичные тем, что ставит на свои продукты серии Lightning MSI. Там они показали себя только с положительной стороны, но количество фаз у моделей MSI исчисляется десятками, а у HD 7970 только пять фаз.
Часть управляющей логики переместилась на обратную сторону платы. Временами даже не верится, что мощные интегрированные микросхемы Volterra заменили на вполне заурядные силовые цепи.
Поскольку ширина шины подросла до 384 бит, то и число модулей памяти увеличилось, расположены они по окружности вокруг GPU, последняя микросхема сильно смещена к слоту.
По пути к графическому ядру инженеры дополнительно предусмотрели фильтры в виде конденсаторов, что прежде не было видно, потому как конденсаторы были без оболочки. Присмотритесь, как близко расположены модули памяти к цепям питания.
Единые блоки дросселей заменили одиночными решениями. Ширина платы увеличилась из-за большего количества микросхем памяти.
Чтобы соблюсти правила одинаковой длины соединительных каналов памяти, последнюю микросхему развернули на 90 градусов.
Графическое ядро приобрело оригинальный панцирь. Вместо привычной рамки по бокам, защитная часть теперь частично закрывает подложку GPU. Маркировка наносится непосредственно на стороны рамки, а не на сам процессор.
С памятью все просто, как стояли микросхемы Hynix, рассчитанные на 6 ГГц, так и стоят. Как говорится - от добра добра не ищут. Частично, чтобы компенсировать свой выбор, была расширена граница разгона памяти в самих драйверах до 1575 МГц.
Переключатель BIOS остался на прежнем месте, но вторую микросхему перезаписать теперь невозможно. Она оставлена на всякий пожарный случай.
Система питания памяти.
- HD 7970.
Выделенная фаза выглядит следующим образом.
С обратной стороны расположен ШИМ-контроллер, сама фаза занимает достаточно большое пространство.
- HD 6970.
На Cayman схемотехника Volterra ничтожно мала по габаритам.
реклама
Страницы материала
Лента материалов раздела
Соблюдение Правил конференции строго обязательно!
Флуд, флейм и оффтоп преследуются по всей строгости закона!
Комментарии, содержащие оскорбления, нецензурные выражения (в т.ч. замаскированный мат), экстремистские высказывания, рекламу и спам, удаляются независимо от содержимого, а к их авторам могут применяться меры вплоть до запрета написания комментариев и, в случае написания комментария через социальные сети, жалобы в администрацию данной сети.
Комментарии Правила