Во время саммита Open Compute Project (OCP) 2024 компания Meta* (признана экстремистской на территории России), один из главных участников проекта OCP, продемонстрировала системы NVIDIA «Blackwell» GB200 для своих крупных центров обработки данных. Ранее в сети уже упоминались системы для сервера Microsoft Azure с графическими процессорами GB200, в которых треть пространства стойки отведена под вычисления и две трети под охлаждение. Несколько дней спустя Google продемонстрировала свою малую систему GB200, а сегодня Meta* демонстрирует свою систему GB200, являющуюся самой маленькой из всех.
Чтобы обучить большую языковую модель с 405 миллионами параметров и 128 тыс. токенов, например, Llama 3.1 405B, Meta* должна перепроектировать инфраструктуру своего центра обработки данных для выполнения распределенного задания обучения на двух кластерах, содержащих по 24 000 графических процессоров. То есть это 48 000 графических процессоров, используемых для обучения одной модели ИИ.
Названой Catalina, система построена на платформе NVIDIA Blackwell, подчеркивая модульность и адаптивность, а также включая новейший суперчип NVIDIA GB200 Grace Blackwell. Чтобы удовлетворить растущие требования к мощности графических процессоров, Catalina представляет Orv3, мощную стойку, способную выдавать мощность до 140 кВт. Комплексная установка с жидкостным охлаждением включает в себя полку питания, поддерживающую различные компоненты, включая вычислительный лоток, лоток коммутаторов, Orv3 HPR, коммутатор Wedge 400 с коммутационной способностью 12,8 Тбит/с, управляющий коммутатор, резервный аккумулятор и контроллер управления стойкой.
Интересно, что Meta* также модернизировала свою систему Grand Teton для внутреннего использования, например, для моделей рекомендаций глубокого обучения (DLRM) и распознавания контента с помощью ускорителей AMD Instinct MI300X. Они используются для вывода внутренних моделей, и Instinct MI300X, по-видимому, обеспечивает лучшую производительность на доллар. По данным Meta*, вычислительные потребности, связанные с ИИ, будут продолжать расти в геометрической прогрессии, поэтому компании потребуется больше графических процессоров как производства NVIDIA, так и конкурирующих решений от AMD.