Платим блогерам
Блоги
Moleculo
Так всё-таки количество потоковых процессоров удвоилось или нет?
Onur Binay, Unsplash

Обзорные статьи архитектуры AMD RDNA 3 помогают разобраться в некоторых нюансах новых видеокарт, так в предыдущей новости поверхностно были рассмотрены некоторые причины перехода к чиплетному дизайну и особенности соединения чиплетов, а также показана блок-схема флагманского графического процессора (GPU) Navi 31. Архитектура RDNA 3 существенно изменилась, в ней по-прежнему присутствуют знакомые сдвоенные вычислительные блоки Dual Compute Unit (DCU) или Work Group Processor (WGP), но сам блок CU преобразился. Как правильно считать потоковые процессоры или шейдерные блоки (Streaming Processor, SP) всё ещё не очень понятно, на сайте и в презентациях AMD указывает 6144 SP для Radeon RX 7900 XTX. Но при увеличении потоковых процессоров относительно предыдущего поколения на 20%, вычислительная производительность возрастает в 2,7 раза, что может сбивать с толку.

Схема DCU показывает, что количество SIMD32 блоков всё-таки увеличилось в два раза, теперь в одном CU их четыре и каждая пара SIMD32 может работать параллельно в режиме Dual-Issue Wave32 или как один SIMD64 в режиме Wave64, пишет HotHardware. Получается, что CU содержит 128 SP, в два раза больше, чем в предыдущем поколении и даже Майк Мантор (Mike Mantor), главный архитектор GPU в AMD, насчитал 12288 SP в Radeon RX 7900 XTX во время пресс-конференции, сообщает Tom’s Hardware.

Блок-схема сдвоенного вычислительного блока AMD RDNA 3. Источник: HotHardware и AMD

В публикации Tom’s Hardware приводится интересная и понятная параллель с архитектурами NVIDIA последних поколений. Наверняка многие помнят споры о количестве CUDA-ядер в архитектуре NVIDIA Ampere, кто-то соглашался, что правильно использовать для расчёта производительности все доступные в одном мультипроцессоре 128 FP32 CUDA-ядер, а кто-то нет, поскольку половина из FP32 ядер соседствует с INT32 ядрами и не всегда задействуются все FP32 ядра. Но всё-таки, при расчёте пиковой теоретической производительности на операциях FP32 можно учитывать все FP32 ядра. Судя по всему, что-то похожее наблюдается и в архитектуре RDNA 3, всего в одном CU присутствует четыре SIMD32 и 128 SP, но AMD считает по-другому — 64 SP Dual-Issue. Вероятно, потому что для задействования всех ресурсов нового CU требуется соблюдение определённых условий, объясняет ресурс HardwareLuxx. Иными словами, говоря о пиковой теоретической производительности в идеальных условиях, можно было бы оперировать значением 12288 SP, но, вероятно, более правильным всё-таки является 6144 SP с поправкой Dual-Issue.

Также теперь появилось ускорение WMMA операций с матрицами для задач ИИ, что позволяет до 2,7 раз увеличить количество матричных математических операций. Пока не очень понятно, где это найдёт применение, по ряду предположений, новая технология масштабирования FSR 3 может использовать в работе ИИ, но официального подтверждения этому нет. Больше подробностей о матричных ускорителях в RDNA 3 приводится в публикациях Tom's Hardware и японского ресурса Mynavi.

Источник:
HotHardware
Tom's Hardware
HardwareLuxx
Mynavi
Telegram-канал @overclockers_news - теперь в новом формате. Подписывайся, чтобы быть в курсе всех новостей!
Источник: hothardware.com
+
Написать комментарий (0)

Популярные новости

Сейчас обсуждают