Обзор видеокарт AMD Radeon HD 6950 и HD 6970 (часть 2)

Продолжение. Начало здесь.

Оглавление

Архитектура AMD HD 6950/70

Едва ли не самое значимое событие со времён R600 произошло внутри GPU Cayman. Как и раньше, основные элементы архитектуры остались на своих местах, модернизировалась лишь самая маленькая, но при этом еще и одна из самых важных частей GPU – суперскалярный модуль. Схематично новое графическое ядро выглядит следующим образом. Слева направо: хх50, хх70.

600x255  160 KB. Big one: 1500x637  633 KB

Для сравнения Cypress…

600x260  174 KB. Big one: 1500x650  655 KB

И Barts…

600x260  157 KB. Big one: 1500x649  582 KB

Для неподготовленного взгляда выглядит все довольно-таки одинаковым. Но значимые изменения прячутся глубже, чем вы могли бы подумать. Так, с момента появления на рынке ядра Cypress в свет вышло одно промежуточное звено – Barts. Его видоизменённый GPU носил слегка ретушированный вариант предыдущей архитектуры. Значимую роль сыграл, прежде всего, Ultra Threaded Dispatch Processor. Как подобает настоящим энтузиастам, вы могли бы поверить официальный слайдам AMD и решить, что их количество увеличилось вдвое. Но доскональное изучение столь сложного вопроса привело к простым выводам - сумма 1+1 не равнялась 2.

Да, производительность увеличилась вдвое, опять же на некоторых операциях, но по процентной составляющей от всей площади ядра он остался неизменным. Что позволяет говорить о фактически одном Ultra Threaded Dispatch Processor, который ускорили и оптимизировали. К сожалению, важные объемы кэш-памяти оставили без изменений, что совсем не характерно для Dx11 совместимых архитектур. Быть может, AMD твёрдо уверена в неоспоримом архитектурном гении конструирования GPU?





Следующим важным шагом стало наращивание геометрической мощности графического процессора. И «апгрейд» Barts'а в Cayman шёл по вполне логичному пути. На повестке дня назрел тактический план, каким образом увеличить производительность при работе с геометрией? Достаточно ли будет умножить на два Setup Engine? Как показали тесты с участием HD 6950/70, ответ носит скорее двойственный характер и не позволяет однозначно сделать выводы. И к счастью вполне очевидно показывает узкие места текущей архитектуры AMD. О них расскажу чуть позже, после курса «анатомии» GPU.

Стараясь в наиболее лёгкой форме пояснить сущность GPU, я привожу диаграммы в схематичном виде.

Наименьшая по размерам часть ядра, суперскалярный процессор.

 
Cypress
Barts
Cayman
Схематичный вид
188x114  8 KB
188x114  7 KB
188x114  5 KB
Название
Thread Processor
Thread Processor
Thread Processor
Количество Single Precision FMAD юнитов, шт.
4
4
4
Формат инструкций
VLIW 5 (6 операций)
VLIW 5 (6 операций)
VLIW 4 (5 операций)
Количество SFU (Super Function Unit) юнитов, шт.
1
1
1
Количество FMAD юнитов с операциями двойной точности, шт.
1
0
1
Количество потоковых процессоров, шт.
5
5
4
Пиковое кол-во операций с плавающей точкой (FP), шт.
10
10
8
Частота GPU, МГц
850
900
880

В основе каждого блока содержится 4 «скаляра», способных обрабатывать до четырех инструкций: SFU, блок специальных функций (синус, косинус и так далее), хоть и лишился своего независимого места, но все еще в строю. Его операции взяты на контроль тремя FMAD процессорами. Не забыты и операции с двойной точностью, их вернули в состав одного суперскалярного процессора. На первый взгляд непонятно, каким образом «урезание» простых ядер могло способствовать увеличению производительности и КПД GPU в целом. Но по заверению AMD обычно задействуется 3-4 из 5 ядер в среднестатистических задачах, таким образом, уменьшение носит оптимизированный характер.

 
Cypress
Barts
Cayman
Схематичный вид
190x294  10 KB
190x294  10 KB
190x294  10 KB
Название
Simd Core
Simd Core
Simd Core
Количество процессоров, шт.
16
16
16
Гранулярность, ед.
64
64
64
Объем общей памяти, Кб
32
32
32
Количество Single Precision FMAD юнитов, шт.
64
64
64
Количество SFU (Super Function Unit) юнитов, шт.
16
16
16 (замещающие)
Количество FMAD юнитов с операциями двойной точности, шт.
16 (замещающие)
0
16 (замещающие)
Количество потоковых процессоров, шт.
80 (16х5)
80 (16х5)
64 (16х4)
Пиковое кол-во операций с плавающей точкой (FP), шт.
160
160
128
Количество юнитов фильтрации текстур, шт.
4
4
4

Процесс наращивания объёма кэш-памяти переживает режим стагнации. Специализированные операции выполняются за счёт трех из четырех ядер, что явно не вяжется с теорией о возросшем КПД. Опять же, возвращаясь к словам представителей AMD, такие аппаратные оптимизации наоборот улучшают процент средней загрузки поточных процессоров до 65% и выше. В то время как у предыдущих архитектур результат был не более 65%.

 
Cypress
Barts
Cayman
Схематичный вид
190x332  14 KB
190x332  13 KB
190x332  14 KB
Количество блоков процессоров, шт.
20 (10x2)
14 (7x2)
24 (12x2)
Объем общей памяти, Кб
64
64
64
Количество юнитов фильтрации текстур, шт.
80
56
96
Количество Single Precision FMAD юнитов, шт.
1280
896
1536
Количество SFU (Super Function Unit) юнитов, шт.
320
224
384 (замещающие)
Количество FMAD юнитов с операциями двойной точности, шт.
320
0
384
Сумма потоковых процессоров, шт.
1600 (80х20)
1120 (80х14)
1536 (64х24)
Пиковое кол-во операций с плавающей точкой (FP), шт.
3200
2240
3072
Максимальная производительность операций с плавающей точкой (FP), TFLOPS
2,72
2,02
2,70
Количество блоков тесселяции, шт.
1
1
2
Количество блоков растеризации, шт.
2
2
2





Сперва хотелось бы определится с правильным позиционированием и трактовкой количества SP юнитов. 1600 штук у Cypress против 1536 у Cayman'а выглядят, по крайней мере, спорно. Правильнее сосчитать блоки процессоров, и картина меняется на противоположную, 20 против 22. А еще - учесть блоки фильтрации текстур (80 и 96) и подвести некоторую черту. Формально, по математической оценке производительности Cypress приблизительно равен Cayman'у, но последний очень грамотно приспособлен к существующим игровым сценариям. И форсаж получили именно те области GPU, где создавались пробки.

Ложкой дёгтя здесь может стать только одна причина, соотношение потоковых процессоров к Ultra Threaded Dispatch Processor. Как видно из схем, соотношение с каждым новым GPU только ухудшается, и лишь игровые тесты ответят на вопрос - хватит ли мощностей для загрузки данными самих суперскалярных процессоров. Тогда же можно будет говорить о величине индекса КПД по отношению к предыдущим графическим ядрам AMD.

Печатная плата

450x303  31 KB. Big one: 1500x1010  322 KB

Многих сильно интересовал ответ на вопрос, есть ли различия в PCB между HD 6970 и HD 6950, не буду вас томить, ответ НЕТ. Принципиальных различий действительно не наблюдается ни при беглом осмотре, ни при доскональном, лицом к лицу, сравнении. Более внимательным получится найти несколько мест, где распаяны немного другие элементы, не влияющие на основные функции видеокарты.

450x383  56 KB. Big one: 1500x1278  591 KB

Дополнительные 2 штекера земли фактически никак не способны повлиять на энергопотребление и разгон с условием обыкновенного домашнего подхода. Заядлым энтузиастам-оверклокерам, любящим азот, гелий, и другие жидкообразные газы советую не экспериментировать без определенной подготовки видеокарты.

450x329  55 KB. Big one: 1500x1098  540 KB

С обратной стороны все различия заканчиваются на светодиоде с конца видеокарты, который к тому же не работает. Невелика потеря, он все равно закрыт декоративной алюминиевой пластиной.

Система питания продолжает определенные традиции AMD доверять (и не перепроверять) проверенным решениям в виде Volterr’ы, только дроссели поменяли место прописки и производятся малоизвестной нам фирмой Сooperbussmann.





 
HD 6950
HD 6970
Шестифазная система питания GPU
140x150  17 KB
Volterra VT1636SF
140x150  10 KB
Volterra VT1636SF
Двухфазная система питания памяти
125x150  10 KB
Volterra VT243WF
125x150  11 KB
Volterra VT243WF
Однофазная система питания IO памяти
110x150  11 KB
Volterra VT262BWF
110x150  12 KB
Volterra VT262BWF
PWM, контроллер
300x300  30 KB
Volterra VT1556MF
300x300  35 KB
Volterra VT1556MF
Дроссели* системы питания GPU
300x86  11 KB
300x86  10 KB
Дроссели* системы питания памяти
200x120  11 KB
200x120  10 KB
Дроссели* системы питания IO памяти
140x190  13 KB
140x190  13 KB

* - найти требуемую документацию на дроссели Coiltronic не предоставлялось возможным, но немного информации из интернета удалось подчерпнуть из куска PDF файла.

550x375  165 KB

И хотя в первой части обзора частота памяти с учетом разгона составила 1450 Мгц у обеих карт, физически она выполнена по разным частотным стандартам.

250x209  15 KB

У HD 6950 установлено восемь микросхем, небывалой до текущего момента плотностью в 2 Гбит. Производитель Hynix, маркировка T2C, что соответствует эффективной максимальной частоте 5 Ггц.

250x209  13 KB

HD 6970 радует глаз 6 Ггц памятью. Вопиющая расточительность со стороны AMD, и приятная особенность старшей карты для оверклокеров. На проверку, правда, оказалось, что оба варианта с легкостью работают на частотах порядка 1450-1550 Мгц.

Фотоснимок на память. Графическое ядро Cayman с видеокарты HD 6950.





300x300  26 KB

И его брат-близнец с лицевой стороны печатной платы HD 6970.

300x300  28 KB

Можно заметить слегка разный шрифт написания маркировки на GPU, а также то, что на HD 6950 стоит инженерный образец с приставкой ENG. Упакован он кстати на 32 неделе 2010 года, в конце июля - начале августа. Как же давно были у AMD на руках рабочие экземпляры графических ядер, похоже задержка с анонсом действительно была связана с нехваткой комплектующих. Ядро HD 6970 несет на себе вполне заводскую надпись (внутриAMD'ешный код 215-0807019) и упаковано на 42 неделе 2010 года. Никаких различий между расположениями конденсаторов обнаружено не было.

Вольтмод

Готовить материал по вольтмоду, да еще и связанный с элементами питания производства весьма и весьма скрытной компании Volterra чрезвычайно сложно. Но благодаря всемирной паутине, серому веществу в голове и прямым рукам, всегда можно проверить догадки опытных пользователей, либо свои собственные наблюдения. К несчастью для обывателей, программное управление напряжениями пока что недоступно. Скорее всего, после Нового года MSI Afterburner приобретет такую важную функцию.

Как и любая другая видеокарта, HD 69xx использует ряд базовых напряжений: Vgpu, Vmem, VmemIO. На зарубежных ресурсах чаще встречаются другие аббревиатуры: Vddc, Mvddq, Mvdd. В первой части было неверно указан Vgpu в таблице спецификаций, на самом деле в 3D оно составляет 1,175 В. Путаница произошла из-за не совсем адекватного поведения драйвера, который решил работать в режиме +20%. Такой режим добавлял +0,1 В к стандартному значению. Результаты были проверены с обновленным драйвером 10.12а, и убедившись, что результаты корректны, моя душа успокоилась.

Иными словами, на бета-драйверах был вольтмод, а сама функция увеличения производительности соответствовала +0%. Вернемся к аппаратной модификации, и для начала ознакомимся с точками замера напряжений.

450x157  32 KB

Расположены они с обратной стороны, алюминиевый кожух полностью перекрывает доступ щупу мультиметра. К тому же кончики конденсаторов слишком близко находятся по отношению друг к другу. Легкое покачивание... и замыкание контактов неминуемо. Но если у вас все еще осталось желание следить за напряжением, то последовательность действий такова: 1) Снимаете кожух. 2) Под каждый винт подкладываете паранитовые шайбы, чтобы компенсировать заводской зазор. 3) Припаиваете три провода. Красным обозначено место замера Vgpu (Vddc), желтым VmemIO (Mvddq), синим Vmem (Mvdd).

450x598  83 KB

Увеличить напряжение Vgpu можно вот по такой схеме. Это наиболее легкий вариант на данный момент. Вам понадобится переменное сопротивление номиналом 50…10 Ом. Предварительно не забудьте выставить его на максимальное сопротивление! Или не мешайте карте работать и дождитесь софтвольтмода. По предварительным данным, он ограничен на уровне 1,5 В, в то время как аппаратный вольтмод доходит до отметки 1.899 В, при 1.9 В срабатывает защита «по току».

С другими хирургическими вмешательствами нужны очень ловкие и статичные кисти рук. Помимо впайки проводов в четырех местах вам придется убрать 2 резистора (закрашено соответствующим цветом).

500x420  73 KB

Не забудьте найти или приобрести в магазине два переменных резистора номиналом порядка 100 кОм. Но лично я не считаю, что столь сложная операция стоит таких ювелирных манипуляций. Память и так прекрасно разгоняется, другое дело, когда речь идет об экстремальном разгоне. Лишнее напряжение поможет не замерзнуть модулям GDDR.

Telegram-канал @overclockers_news - это удобный способ следить за новыми материалами на сайте. С картинками, расширенными описаниями и без рекламы.
Страницы материала
Страница 1 из 3
Оценитe материал
рейтинг: 4.4 из 5
голосов: 165

Комментарии 1110 Правила



Возможно вас заинтересует

Популярные новости

Сейчас обсуждают