Илон Маск за 19 дней справился с настройкой 100 тысяч GPU NVIDIA H200

В интервью каналу YouTube BG2 Pod генеральный директор NVIDIA Дженсен Хуан отметил, что особое сочетание инженерного интеллекта и управления проектами Илона является "уникальным", и отдал должное владельцу X и собственному опыту NVIDIA в области инфраструктуры за невероятное достижение.
18 октября 2024, пятница 10:30

Рассматриваемый кластер - это система xAI Colossus в Мемфисе, штат Теннесси, в которой установлено сто тысяч графических процессоров Hopper H100, что делает его теоретически самым быстрым кластером для обучения ИИ в мире. Однако замечание о "девятнадцати днях" немного вводит в заблуждение. Это время от настройки оборудования до его первого функционального использования для обучения ИИ. По словам Маска, весь проект Colossus был запущен за 122 дня от начала до конца.

Одна из стоек NVIDIA Blackwell GB200 NVL72. Вся стойка функционирует как один GPU.

Генеральный директор NVIDIA также  указывает на то, что "сетевое оборудование NVIDIA сильно отличается от сетевого гипермасштабного центра обработки данных". Он продолжает объяснять, что кластеры NVIDIA требуют гораздо большего количества соединений между узлами, чем в типичном центре обработки данных, из-за высокой пропускной способности вычислительных нагрузок GPU.