
В отчете со ссылкой на источники, знакомые с проблемой, говорится, что графические процессоры Blackwell перегреваются при их объединении в серверные стойки, рассчитанные на установку до 72 чипов.
По словам сотрудников Nvidia, которые работали над этой проблемой, а также клиентов и поставщиков, осведомленных о ней, производитель чипов несколько раз просил своих поставщиков изменить конструкцию стоек, чтобы решить проблему перегрева, говорится в отчете без указания имен поставщиков.
Чип Blackwell от Nvidia использует два кремниевых квадрата размером с предыдущий чип компании GPU Blackwell с GH100 и объединяет их в один компонент, который в 30 раз быстрее справляется с такими задачами, как работа с чат ботами, быстрый поиск ответов для пользователя.
Но это не одна проблема с чипами как пишут специалисты инженеры: Графические процессоры не становятся лучше, они просто становятся больше. За последние четыре года плотность вычислений (TFLOPS/мм2) улучшилась всего на 15%.
Графические процессоры следующего поколения (NVIDIA B200, AMD MI300X, Intel Gaudi 3, AWS Trainium2 и так далее) теперь считают два чипа за одну карту, что «удваивает» их производительность, но несет риски в частности и перегрев, который требует хорошего охлаждения, что не всегда получается при проектировании стоек для центров обработки данных.

