По данным аналитиков Morgan Stanley, в четвёртом квартале 2024 года NVIDIA намерена реализовать полтора миллиона графических ускорителей Hopper. Цифра поражает воображение, ведь за каждый H100 просят немногим больше 40 тысяч долларов. Но это если дождаться очереди, ведь на чёрном рынке подобная продукция может обойтись до двух раз дороже.
Несмотря на это, желающих приобрести продукцию от дядюшки Хуанга меньше не становится, а сегодня в прессу попали любопытные данные. Как выяснилось, почти 10% всей поставки достанется одному человеку. По названию материала вы уже догадались, что счастливый билет выиграл Илон Маск, в распоряжении которого уже находятся внушительные мощности.

Согласно ранее опубликованным данным, компания xAI владеет самым мощным суперкомпьютерным кластером GPU в мире. Общее число графических ускорителей H100 в составе системы доходит до 100 000 единиц, а всё это позволяет достигать невероятных результатов. Напомним, даже Дженсен Хуанг восхищался инженерными и организаторскими способностями Илона, который всего за 122 дня собрал полностью рабочий кластер Colossus. Кроме того, после этого системе понадобилось всего 19 дней, чтобы полностью обучить языковую модель Grok. Глава NVIDIA отметил, что обычно на такие задачи уходят годы, тогда как Маску потребовалось всего четыре месяца. Глава Tesla подтверждает озвученные цифры и уже заявил, что планирует увеличить мощность суперкомпьютера. Похоже, сегодня у миллиардера такая возможность есть, а уже к весне 2025 в распоряжение xAI появится ещё более внушительная система, состоящая из 200 000 графических ускорителей H100. Добавим, что несколько крупных игроков планируют нарастить закупки графических ускорителей нового поколения Blackwell, но NVIDIA испытывает сложности с производством подобной продукции, поэтому ещё нескоро выйдет на 1.5 миллиона единиц в квартал.
Пока Илон активно закупает новое железо, самое время изучить уже работающий кластер. Благодаря авторам канала ServeTheHome мы имеем возможность рассмотреть сервер Colossus, на создание которого ушло всего 122 дня. К сожалению, точные характеристики системы не раскрываются по соображениям безопасности. Это значит, что подробности об используемых деталях при сборке мы не узнаем, но есть и другие интересные моменты. Серверы представлены в виде платформ HGX H100, каждая из которых включает 8 графических ускорителей H100. Каждая серверная платформа интегрируется в стойку по 8 единиц и состоит из 64 графических ускорителей. Каждая платформа имеет доступ к системе жидкостного охлаждения, а также резервную систему, подключаемую в случае непредвиденных сбоев. Там же содержится и система мониторинга, а всё оборудование работает в автоматическом режиме.
Каждый сервер подключён к четырём блокам питания и имеет по девять кабелей Ethernet. Стойки объединены таким образом, что получается 512 графических ускорителей на массив. Каждый сервер получил по четыре резервные источника питания, что гарантирует бесперебойную работу даже в случае чрезвычайной ситуации. Полноценный кластер Colossus включает 1500 стоек по 64 графических ускорителя или 200 полноценных массива по 512 единиц H100. Эксперты отмечают, что была проделана невероятно сложная работа. Серверный кластер потребляет огромное количество энергии, но также ему требуется высокая скорость доступа к интернету. С этой целью проложены кабели, каждый из которых подключается в стеку HGX H100 со скоростью 3.6 Тбит/с. Что примечательно, используется привычная технология, тогда как многие конкуренты предпочитают экзотические способы подключения.
Очевидно, что сами по себе графические ускорители работать не могут, но источники не раскрывают, какие процессоры установлены, а также общий размер оперативной памяти и объём дисковых накопителей на объекте. Всё это также охлаждается при помощи неизвестной системы СЖО, а в целом Илон Маск предпочитает не распространяться о важных деталях. Обычно такие данные публикуются без особых проблем, но по невыясненным причинам основатель компании xAI отмалчивается. По мнению аналитиков, следующее поколения умных алгоритмов столкнётся с фундаментальным вызовом в виде ограниченного количества информации. Оказывается, человечество сгенерировало слишком мало данных, поэтому ИИ просто упрётся в стену, дальше которой пройти пока не выйдет. А может инженеры найдут решение данной проблемы, но случится это не в так быстро, как хотелось бы Илону Маску.

