
Стартап DeepSeek произвел значительный резонанс в мире искусственного интеллекта, представив свою новую языковую модель Mixture-of-Experts (MoE), которая включает 671 миллиард параметров. Обучение этой модели заняло всего два месяца с использованием кластера из 2048 графических процессоров Nvidia H800, что стало настоящим достижением для компании.
DeepSeek добился своего успеха благодаря внедрению множества мелких оптимизаций и использованию архитектуры PTX (Parallel Thread Execution) от Nvidia. Эта промежуточная архитектура находится между высокоуровневыми языками программирования, такими как CUDA, и низкоуровневым машинным кодом, позволяя более детально управлять параллельными вычислениями. PTX открывает возможности для тонкой настройки, такие как распределение регистров и корректировка потоков, что недоступно в стандартных языках.
При обучении своей модели V3, DeepSeek осуществил перенастройку графических процессоров H800. Из 132 потоковых мультипроцессоров 20 были выделены для связи между серверами, что помогло оптимизировать сжатие и распаковку данных. Это решение позволило преодолеть ограничения процессора и ускорить транзакции. Кроме того, компания внедрила расширенные алгоритмы конвейера, что также способствовало повышению производительности.
Эти изменения требуют высококвалифицированных специалистов и сложных технических решений, что подчеркивает уровень мастерства инженеров DeepSeek. В условиях глобального дефицита графических процессоров, вызванного ограничениями со стороны США, компания нашла инновационные пути для достижения своих целей.
Рынок отреагировал на прорыв DeepSeek с недоверием. Некоторые инвесторы начали полагать, что спрос на высокопроизводительное оборудование для новых моделей ИИ может снизиться, что негативно скажется на продажах компаний, таких как Nvidia. Тем не менее, ветераны отрасли, в том числе Пэт Гелсингер, бывший генеральный директор Intel, считают, что ИИ требует максимальной вычислительной мощности. Более того, он заявил, что активно покупает акции Nvidia на фоне их распродажи. Гелсингер рассматривает достижения DeepSeek как возможность интегрировать ИИ в более доступные устройства, что может изменить ландшафт технологий в будущем.

