Подробности об архитектуре графического процессора GF100 (GT300)

Редакция

Новости Hardware 30 сент. 2009, 17:20 TheJudge

Знакомые черты угадываются с трудом.

Как мы и обещали, сегодня рассмотрим подробности новой архитектуры – Fermi. NVIDIA утверждает, что это крупнейшее и важнейшее обновление архитектуры с момента выпуска G80 (GeForce 8800 GTX). Итак, что же нового?

Потоковые процессоры (CUDA Cores). Их число составляет 512 штук, причём в отличие от GT200, теперь за расчёты с одинарной (FP32) и двойной (FP64) точностью отвечают одни и те же блоки. При использовании FP64 темп работы снижается вдвое, обеспечивая таким образом 256 вычислений с двойной точностью за такт. У GT200, для сравнения, было только 30 выделенных блоков для подобных расчётов. Кроме того, каждое CUDA Core содержит в себе помимо устройства для операций с плавающей запятой, отдельное устройство для целочисленных операций с 64-битной точностью. Все расчёты выполняются этими устройствами за один такт. Никуда не делись и блоки для специальных операций (SFU), которые позволяют вычислять синус, косинус, квадратный корень и другие сложные функции. Но если раньше соотношение SP и SFU составляло 4 к 1, то теперь на каждый SFU приходится 8 SP, т.е. в два раза больше. С другой стороны, их производительность выросла примерно в четыре раза, так что общий удельный прирост можно оценить как двукратный;
Иерархическая организация чипа тоже изменилась. Если раньше базовой единицей был TPC (текстурно-процессорный кластер), содержащий в себе восемь блоков выборки текстур (TMU) и три массива потоковых процессоров (SM), то теперь TPC фактически упразднён, уступив место SM, который “располнел” с 8 потоковых процессоров до 32. Таким образом, GF100 (GT300) содержит в себе 16 блоков SM, каждый из которых состоит из 2х16 CUDA Cores, 16 блоков загрузки и выгрузки данных (LSU) и 4 SFU;
Два диспетчера потоков на каждом SM обеспечивают фактически аналог технологии Hyper-Threading на GPU, что благоприятно сказывается на эффективности загрузки исполнительных устройств и, следовательно, на производительности;
GPU содержит настраиваемые кэши первого уровня суммарным объёмом 1 Мб и кэш второго уровня объёмом 768 Кб.

Пока это все подробности. Уже можно заметить, что немало изменений направлено на повышение КПД расчётов общего назначения на GPU, однако, будем надеяться, что обновление архитектуры благоприятным образом сказалось и на 3D приложениях. Кроме того, хочется отметить, что новая архитектура изменена настолько, что в ней не осталось фактически ничего от оригинала – G80, и их схожесть улавливается только на схемах с топологией, но не более. Свежая информация будет публиковаться по мере поступления.

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные статьи