DeepSeek обновила свою языковую модель, приблизившись к возможностям OpenAI

Обучение модели V3 обошлось менее чем в 6 миллионов долларов.
25 марта 2025, вторник 19:23
apprenticebase для раздела Блоги

Китайский стартап DeepSeek представил новую версию своей большой языковой модели — DeepSeek-V3-0324. Как сообщает Reuters со ссылкой на тесты, опубликованные на платформе Hugging Face, обновленная модель демонстрирует значительный прирост производительности в ключевых областях, включая логическое мышление и написание кода.

Появление DeepSeek вызвало переполох в Кремниевой долине. Компания, судя по всему, достигает показателей, сравнимых с ChatGPT от OpenAI, при этом затрачивая на разработку значительно меньшие средства.

DeepSeek утверждает, что обучение модели V3 обошлось менее чем в 6 миллионов долларов, использовав вычислительные мощности 2000 чипов Nvidia H800. Достигнутый уровень производительности сопоставим с передовыми моделями OpenAI и Meta. Этот факт заставляет задуматься об оправданности миллиардных инвестиций ведущих американских технологических компаний в мощные чипы и крупные дата-центры для обучения ИИ.

Новая модель DeepSeek-V3-0324 доступна на платформе Hugging Face. Успех китайской компании можно расценивать как «момент Спутника» в гонке ИИ между США и Китаем, учитывая ранее существовавшее мнение о превосходстве США в этой области.