Alibaba, по всей видимости, разработала новую систему, которая на 82% сокращает количество графических процессоров Nvidia, необходимых для запуска больших языковых моделей (LLM). Результаты, представленные на симпозиуме ACM по операционным системам (SOSP) 2025 в Сеуле, свидетельствуют о том, что поставщики облачных услуг могут получить значительно больше пользы от существующих чипов.
В течение тестового периода количество графических процессоров, необходимых для поддержки десятков различных LLM с 72 миллиардами параметров, сократилось с 1192 до всего 213. В исследовании не уточняется, какие модели способствовали наибольшей экономии, но в статье South China Morning Post говорится, что тесты проводились с чипами Nvidia H20. Это один из немногих чипов, легально доступных китайским покупателям, несмотря на действующий экспортный контроль США.
По данным Alibaba, экономия достигается за счёт двух основных методов: объединения нескольких моделей на каждом графическом процессоре и использования автоматического масштабирования на уровне токенов для динамического распределения вычислительной мощности на выходе, а не резервирования ресурсов на уровне запроса.
Однако, по данным The Register, это исследование «не обязательно» является прорывом, поскольку гиперскейлеры — крупные поставщики услуг облачных вычислений, которые управляют огромными масштабируемыми центрами обработки данных и, таким образом, предоставляют клиентам огромные объёмы вычислительной мощности, хранилища и другие облачные сервисы — стараются не раскрывать все технологические возможности своих платформ. Вполне возможно, что другие гиперскейлеры уже решили эту проблему и, возможно, даже показали лучшие результаты, чем Alibaba.
The Register заключает: это исследование «не вызовет паники у инвесторов в ИИ», подобно «появлению DeepSeek» в январе 2025 года, когда, казалось, китайские технологические компании нашли способы радикально сократить количество графических процессоров, необходимых для обучения моделей.