Илон Маск и Dell представили самый мощный ИИ-суперкомпьютер Colossus

Система Colossus, разработанная xAI, была запущена всего за 122 дня. В ближайшие месяцы мощность будет удвоена до 200 000 GPU.
5 сентября 2024, четверг 19:46
technoboom для раздела Блоги

                                               Источник изображения: Elon Musk on X / Twitter

Компания Илона Маска представила суперкомпьютер Colossus, который стал самой мощной системой для обучения искусственного интеллекта на планете. В рамках первого этапа проекта была задействована впечатляющая цифра — 100 000 графических процессоров Nvidia H100. В ближайшие месяцы Colossus будет расширен на 50 000 новых GPU, включая модели H100 и H200, что сделает его еще более мощным.

«На этих выходных команда xAI запустила наш кластер Colossus с 100 000 H100 для обучения», — сказал Маск в своем посте на платформе X. Он подчеркнул, что весь процесс, от начала до конца, занял всего 122 дня и что эта система «является самой мощной системой обучения ИИ в мире».

Разработка и сборка суперкомпьютера Colossus была осуществлена компанией Dell под руководством Майкла Делла (Michael Dell), так как Dell имеет большой опыт в развертывании серверов для ИИ. С учетом растущего спроса на мощные вычислительные ресурсы, Dell смогла быстро создать систему, способную удовлетворить потребности xAI и других проектов Маска.

Интересно, что в последние месяцы Маск активно анонсирует новые разработки в области суперкомпьютеров для своих компаний. Так, в конце августа Tesla представила кластер Cortex AI, включающий 50 000 GPU Nvidia H100 и 20 000 чипов Tesla Dojo. Кроме того, недавно X запустила обучение ИИ на суперкомпьютере Memphis, который также состоит из 100,000 жидкостных охладителей H100. Данная система требует значительных ресурсов, потребляя как минимум 150 МВт, так как только 100 000 графических процессоров H100 требуют около 70 МВт.

Несмотря на то, что все перечисленные кластеры официально запущены и уже проводят обучение моделей ИИ, неясно, сколько из них действительно функционируют на данный момент. Во-первых, требуется время для отладки и оптимизации настроек суперкомпьютеров. Во-вторых, X необходимо обеспечить их достаточным количеством электроэнергии. Хотя компания использует 14 дизельных генераторов для питания суперкомпьютера Memphis, этого все еще недостаточно для обеспечения работы всех 100 000 H100 GPU. 

В будущем, для обучения следующей версии модели Grok, которая будет называться Grok 3, Маск предполагает, что потребуется еще больше ресурсов — вплоть до 100 000 графических процессоров Nvidia H100. Для этого xAI необходимо разрабатывать обширные дата-центры для обучения Grok 3 и последующего выполнения задач на этой модели.