Отрасль искусственного интеллекта вступает в неизведанную территорию, когда нет ясности относительно границ масштабируемости и окупаемости масштабных вложений. Тем не менее крупные компании продолжают увеличивать инвестиции в вычисления с использованием ИИ.
Появился новый ориентир для оценки мощностей в ИИ: способность собрать максимальное количество чипов Nvidia. Это соревнование между технологическими гигантами кардинально меняет индустрию ИИ. Оно стимулирует беспрецедентные инвестиции в вычислительную инфраструктуру и расширение границ машинного обучения.
На передовой этой технологической гонки находятся такие компании, как xAI Илона Маска и Meta* Марка Цукерберга. Они строят огромные суперкластеры серверов, каждый из которых содержит внушительное количество специализированных чипов Nvidia для ИИ. Стоимость достигает миллиардов долларов, а количество чипов — сотни тысяч.
Особое внимание в этой рискованной игре привлекает участие xAI. За короткое время компания построила суперкомпьютер под названием «Колосс» в Мемфисе. Он оснащён 100000 чипами Nvidia Hopper для ИИ — числом, которое считалось немыслимым ещё год назад, когда кластеры с десятками тысяч чипов воспринимались как очень большие.
Цукерберг недавно объявил, что Meta обучает свои самые передовые модели ИИ на количестве чипов, которое превосходит всё, о чём говорили конкуренты.
Мотивация для этих огромных инвестиций очевидна: большие кластеры взаимосвязанных чипов до сих пор приводили к созданию более мощных ИИ-моделей, разрабатываемых быстрее. Некоторые уже представляют себе кластеры, содержащие миллионы графических процессоров.
Nvidia может получить огромную выгоду от этого. Генеральный директор Дженсен Хуанг не видит конца этому росту. Он предсказывает, что будущие кластеры будут начинаться с примерно 100000 чипов Blackwell.
Эта гонка по созданию всё более крупных кластеров чипов сопряжена с рядом проблем и неопределённостей. С ростом размера этих суперкластеров увеличиваются и инженерные трудности. Охлаждение десятков тысяч требующих большого количества энергии чипов — это серьёзная проблема. Она приводит к инновациям в области технологий охлаждения. Жидкостное охлаждение, при котором хладагент подаётся непосредственно к чипам, становится всё более распространённым в этих масштабных установках.
Надёжность — ещё одна значительная проблема. Исследования Meta показали, что кластер из более чем 16000 графических процессоров Nvidia столкнулся с регулярными сбоями чипов и других компонентов в ходе 54-дневного периода обучения продвинутой версии их модели Llama.
Несмотря на эти трудности, стремление к созданию более крупных и мощных ИИ-кластеров сохраняется. Илон Маск уже анонсировал планы по расширению «Колосса» xAI со 100000 чипов до 200000 в одном здании. К лету их должно стать 300000.
Гонка за превосходство в ИИ стимулирует и спрос на сетевое оборудование Nvidia. Оно быстро становится значительным бизнесом само по себе. Выручка компании от сетевых решений в 2024 году составила $3,13 млрд, что на 51,8% больше, чем в прошлом году. Сетевые решения Nvidia, включая ускоренное Ethernet-переключение для ИИ и облака, Quantum InfiniBand для ИИ и научных вычислений и Bluefield Network Accelerators, играют ключевую роль в соединении и управлении этими огромными кластерами чипов.
Несмотря на огромные расходы, вопрос масштабируемости остаётся нерешённым. Дилан Патель, главный аналитик SemiAnalysis, сообщил Wall Street Journal, что нет доказательств того, что эти системы будут эффективно масштабироваться до миллиона чипов.
* Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»