13 декабря 2010, понедельник 16:52

Дмитрий Владимирович для раздела Лаборатория

Страница 2 из 4

реклама

Архитектура GF100/110

Для того чтобы понять, как nVidia смогла разумно распределить и настроить свою основную архитектуру Fermi, нужно всего лишь один раз показать вам это наглядно. Базой для всех GPU послужила собирательная структура слова «Fermi». Основной подход моделирования ядер сильно отличается от «кухни» AMD. Если nVidia «шлифует» и оптимизирует блоки, старается максимально адаптироваться под современные требования, то AMD копирует, клонирует и размножает удачные составляющие. К тому же не грех будет сказать, что существенных улучшений у AMD давно не видно. И сравнивая обоих конкурентов, становится видно, как диаметрально противоположны философии строительства успешного GPU.

Я не брал в расчет графические ядра медленнее GTX 460 (GF104). У AMD рассмотрим всех, кто быстрее Cypress LE, в том числе обе новинки Barts.

Начнем с самой примитивной части графического процессора. В случае AMD это суперскалярный процессор, у nVidia – Cuda Core.

Видеокарта	Название GPU	Схематичный вид
HD 5870	Cypress
HD 6870	Barts
HD 6970*	Cayman*
GTX 460	GF104
GTX 570*	GF114*
GTX 480	GF100
GTX 580	GF110

Cypress – 1 SFU, 4 FMAD, в том числе умеющие выполнять операции с двойной точностью.

За один такт может обработать:

4x 32-битных FP MAD,
2x 64-битных FP MUL или ADD,
1x 64-битный FP MAD,
4x 24-битных Int MUL или ADD SFU,
1x 32-битный FP MAD.

Barts – 1 SFU, 4 FMAD, без поддержки двойной точности.

За один такт может обработать:

4x 32-битных FP MAD,
4x 24-битных Int MUL или ADD SFU,
1x 32-битный FP MAD.

GF104 – 1 FMAD, 2 типа CUDA-ядер, с двойной и с одинарной точностью, в соотношении 1 к 2. Блоки SFU вынесены за пределы Cuda-ядра.

За один такт может обработать:

1x 32-битных FP MAD,
1x 64-битных FP MUL или ADD,
1x 64-битный FP MAD,
1x 24-битных Int MUL,
1x 32-битный FP MAD.

GF100 – 1 FMAD, в том числе умеющий выполнять операции с двойной точностью. Блоки SFU вынесены за пределы Cuda-ядра.

За один такт может обработать:

1x 32-битных FP MAD,
1x 64-битных FP MUL или ADD,
1x 64-битный FP MAD,
1x 24-битных Int MUL,
1x 32-битный FP MAD.

GF110 – 1 FMAD, в том числе умеющий выполнять операции с двойной точностью. Блоки SFU вынесены за пределы Cuda ядра.

За один такт может обработать:

1x 32-битных FP MAD,
1x 64-битных FP MUL или ADD,
1x 64-битный FP MAD,
1x 24-битных Int MUL,
1x 32-битный FP MAD.

SM и SIMD блоки:

Видеокарта	Название GPU	Схематичный вид
HD 5870	Cypress
HD 6870	Barts
GTX 460	GF104
GTX 570*	GF114*
GTX 480	GF100
GTX 580	GF110

Сразу видно, что SIMD ядро гораздо проще SM блока. AMD, в первую очередь, берет реванш у соперника за счет количества и простоты, а не качества исполнения. Суммарный объем кэшей и логических буферов у nVidia существенно больше чем у AMD. Предполагаемая схема Cayman’а позволит сократить удельную площадь на 1 суперскалярный юнит. Тип и количество текстурных блоков у SM GF104/114 отличается от таковых в GF100/110. Судя по всему, один SM в GF104/114 занимает большую площадь, чем в GF100/110, и если бы не ограничения в минимальных производственных нормах, мы бы вполне могли увидеть следующее поколение Fermi, основанное на SM от GF104/110.

Следующий шаг - сравнить GPU без вспомогательных модулей, так сказать, чистую математическую мощь.

Видеокарта	Название GPU	Схематичный вид:
HD 5870	Cypress
HD 6870	Barts
GTX 460	GF104
GTX 570*	GF114*
GTX 480	GF100
GTX 580	GF110

Эволюция от Cypress до предполагаемого Cayman’а логична. Огромное число SP юнитов постоянно требует работы, а равномерно и эффективно их «загружать» должен Ultra Threaded Dispatch Processor. Допустим, AMD решила, что в достаточной мере обеспечила беспрерывность вычислений с помощью двух процессоров по очереди, но по моделям тесселяции соперник все еще впереди. И судя по некоторым данным, можно считать, что в будущем Cayman’е поместят целых два блока тесселяции. Впрочем, думаю, что даже такая оптимизация не способна полностью раскрыть потенциал всего GPU.

500x128 54 KB

В nVidia проблему эффективности решают ювелирными модификациями, оснастив каждый SM по блоку тесселяции и геометрии. В итоге чистая производительность выше, чем у AMD, на несколько порядков.

Подход конфигурации контроллеров памяти и ROP практически идентичен у обоих вендоров. Только nVidia в который раз балует нас широкой шиной данных, но относительно низкой частотой. У AMD в этом плане застой, то ли дело в экономической нецелесообразности, то ли в сложности реализации, но прогресс замер на 256 bit. Правда, по эффективному уровню пропускной способности конкуренты находятся на приблизительно одинаковом уровне.

Видеокарта	Название GPU	Схематичный вид:
HD 5870	Cypress
HD 6870	Barts
HD 6970*	Cayman*
GTX 460	GF104
GTX 570	GF114
GTX 480	GF100
GTX 580	GF110

Из приведенных схем напрашиваются несколько выводов:

Для AMD математическая мощность GPU ограничивается искусственными факторами (неспособность блока распределения задач полностью загрузить работой суперскалярные процессоры). Ограниченное пространство GPU не может в себя вписать большее количество блоков тесселяции.

Для nVidia существующая модель архитектуры Fermi уникальна, но ей немного не повезло с размерами. Чтобы уместить все исполнительные элементы, потребовалось слишком большое пространство. А сильное тепловыделение (все CUDA-ядра работают на удвоенной частоте) не позволяет наращивать SM блоки. В итоге потребовалось внедрить дополнительный тип транзисторов на производстве, чтобы удержать тепловой пакет в расчетном значении.

Кстати, впервые промежуточные транзисторы были опробованы в GF104, а уже потом в GF110. Условно-упрощённо, сейчас используется несколько типов: высокой производительности (Hiprf подразделяются еще на 2 вида, высоковольтные и низковольтные), с низкими токами «утечки» (LoLeak подразделяются еще на 2 вида, высоковольтные и низковольтные), транзисторы для цепей ввода/вывода (IO низковольтные), и разработанные специально для решения проблем с Fermi «средневольтные» (MdVlt низковольтные).

Часть 2

предыдущая страница

Страница 2 из 4

следующая страница

Добавить в закладки

дмитрий владимирович

Лента материалов раздела

Обзор и тестирование ноутбука ASUS ZenBook Duo (UX8407A)

Обзор и тестирование моноблока ASUS V600 AiO (VM670KA)

Обзор игровой клавиатуры MSI Forge GK110

Обзор игровой сборки MSI на базе корпуса MAG PANO 130R PZ и блока питания MAG A750GLS PCIE5

Обзор телевизора Hisense 65E7S PRO

Обзор видеокарты MSI GTX 480 Lightning (часть 1)

ECO A.L.C. – СВО от компании CoolIT

Обзор и тестирование процессорного кулера Zalman CNPS 9900 MAX

Обзор AMD Phenom II X3 720

Обзор NVIDIA GeForce GTX 570

Автоматизируем процесс замера производительности в играх

Эффективная реклама для вашего бизнеса

Низкое расположение винтов Ил-114-300 ставит под вопрос его работу на региональных аэродромах

Тяжёлый авиационный двигатель ПД-35 может иметь тягу выше 35 тонн

Пилоты Boeing и Airbus высоко оценили лётные характеристики нового российского самолёта Ил-114-300

В России создали импортозамещенные ЭКГ-чипы для умных часов и браслетов

Автоматизация производства Ту-214 на КАЗ позволила в 4 раза повысить производительность труда

УАЗ в сентябре запустит производство крупного рамного внедорожника Sollers S9

Huawei выпустит новые планшеты MatePad с улучшенными матовыми экранами

Замена двигателей на самолёте-амфибии Бе-200 оказалась сложнее ремоторизации SJ-100

Возрождённая «Волга» пока не собирается поставлять автомобили на экспорт

SpaceX планирует строительство трубопровода длиной 13 км для снабжением топливом Starship

Опубликовано фото спутника, зафиксировавшего экстремальную жару в Европе с температурой до +55 °C

Кольцо галактик диаметром 1,3 млрд световых лет ставят под сомнение теории эволюции Вселенной

Casio представила механические часы Edifice EFK-200 за пределами Китая

Песков: Россия ведёт контакты с другими странами на тему импорта нефтепродуктов

В Красноярске специалисты из Китая завершили проходку первого тоннеля метротрама длиной 2,5 км

Британский водитель попытался переплыть лужу на Aston Martin Vantage и заглох посередине

Эксперт сравнил производительность Steam Machine с одним и двумя модулями оперативной памяти

Блокбастер «Супергёрл» провалился в прокате и принесёт своим создателям убытков примерно на $100 млн

В сети появились снимки нового BMW X5 - дизайн кроссовера стал известен за день до премьеры

Intel выпустила драйверы для Windows 11 по новым стандартам качества Microsoft