
Источник изображения: Nvidia
Компания Nvidia столкнулась с сложностями при тестировании своей видеокарты Blackwell. Как сообщает Tom's Hardware со ссылкой на Дага Лефевера (Doug Lefever), главного исполнительного директора компании Advantest, тестирование GPU для дата-центров Blackwell занимает в три-четыре раза больше времени, чем у предыдущего поколения GPU Hopper.
Архитектура Blackwell GPU включает в себя два вычислительных чиплета, содержащих в общей сложности 104 миллиарда транзисторов, и восемь чиплетов памяти HBM3E, связанных между собой с помощью технологии упаковки CoWoS-L от TSMC. В отличие от него, Hopper H100 оснащён одним чиплетом на 80 миллиардов транзисторов и шестью блоками памяти HBM3.
С увеличением количества транзисторов сложность тестирования возрастает практически экспоненциально. Это связано с необходимостью использования большего числа тестовых паттернов и удлинения процессов тестирования, которые должны учитывать высокоскоростные соединения, экстремальные тепловые условия, а также множество режимов работы, включая новый режим поддержки FP4 в Blackwell.
Кроме того, применение технологии упаковки CoWoS-L от TSMC добавляет этапы тестирования. Каждый компонент в такой упаковке должен пройти проверку как индивидуально, так и в составе сборки, чтобы гарантировать корректное функционирование и надежность соединений.
Хотя точное количество тестовых циклов для GPU Blackwell B100 и B200 не раскрывается, известно, что эти GPU проходят значительно больше тестов по сравнению с Hopper H100. Это отражает общую тенденцию увеличения сложности в разработке AI и HPC GPU, а также необходимость широкой проверки для обеспечения их эффективности и надёжности в различных средах дата-центров, где они работают в тандеме с CPU, DPU и сетевыми картами.

