Недавно созданные инновационные модели от DeepSeek стали причиной серьезного беспокойства в США. Компания уверенно утверждает, что способна обучать свои модели поразительно дешевле, чем, к примеру, OpenAI, используя для этого меньше ускоряющих устройств от NVIDIA. Это заставило индустрию задуматься над тем, стоит ли инвестировать миллиарды долларов в разработку все более громоздких моделей, если аналогичного эффекта можно достичь с меньшими затратами и с более энергоэффективными центрами обработки данных.
Компания DeepMind, дочернее предприятие Google, представила исследование, посвященное разработке методики распределенного обучения моделей искусственного интеллекта, содержащих миллиарды параметров. Причем процесс обучения осуществляется с помощью разрозненных кластеров при неизменной сохранности качества. В статье под названием «Потоковое обучение DiLoCo с перекрывающимся общением» исследователи углубляют концепцию DiLoCo (распределенное обучение с малым взаимодействием), позволяя тренировать модели даже на слабо связанных устройствах.
Обучение крупных языковых моделей сегодня требует тысячи ускорителей и высокоскоростного интернета с большим трафиком и минимальной задержкой. При увеличении количества ускорителей расходы на сетевые технологии неуклонно растут. Поэтому гиперскейлеры предпочитают строить сети из «островов», где внутренняя скорость и связность выше, нежели между самими островами.
DeepMind предлагает использовать распределенные кластеры с редкой синхронизацией, снижая тем самым нагрузку на сеть и не ухудшая качество модели. «Потоковый DiLoCo» представляет собой продвинутую технику, которая позволяет децентрализовать синхронизацию определенных параметров по графику, тем самым снижая объем передаваемых данных без утраты производительности. По утверждениям исследователей, новая технология сокращает требования к пропускной способности сети в 400 раз.
Компании типа Anthropic начинают осознавать значимость и потенциал DiLoCo, подтверждая, что Streaming DiLoCo существенно превосходит традиционный подход DiLoCo, а его преимущества лишь усиливаются по мере увеличения масштабов моделей. В результате наблюдается тенденция к непрерывному обучению моделей на тысячах удаленных систем, что облегчает путь в индустрию новым компаниям, не обладающим крупными ресурсами для создания масштабных центров обработки данных.
По данным Gartner, техники, освоенные DeepSeek и DeepMind, постепенно превращаются в отраслевые стандарты. В долгосрочной перспективе использование ресурсов центров обработки данных станет еще более эффективным. Тем не менее в самой DeepMind рассматривают Streaming DiLoCo лишь как начальную стадию в процессе усовершенствования технологий, требующую дальнейшей разработки и испытаний. NVIDIA, в свою очередь, обдумывает возможность создания виртуального мегакластера из множества центров обработки данных, следуя существующей стратегии некоторых систем высокопроизводительных вычислений.