Китайская компания DeepSeek выпустила обновленную версию своей языковой модели DeepSeek-V3-0324 всего через три месяца после первоначального релиза. Новая версия демонстрирует улучшение производительности на 5,3-19,8% по сравнению с оригинальной V3 моделью, приближаясь по возможностям к таким признанным лидерам, как GPT-4.5 и Claude Sonnet 3.7. При этом модель сохранила свои ключевые преимущества — относительно низкие требования к оборудованию для обучения и более доступную стоимость API.

Особенностью DeepSeek-V3-0324 является ее специализация на быстрых ответах без глубокого анализа (non-reasoning модель), что отличает ее от другой разработки компании — модели R1, предназначенной для сложных логических задач. Среди конкретных улучшений — более качественная генерация веб-страниц и интерфейсов для онлайн-игр, а также улучшенная работа с китайским языком. Модель с 685 миллиардами параметров доступна под лицензией MIT.

Для работы с полной версией модели потребуется не менее 700 ГБ свободного места и несколько GPU Nvidia A100/H100. Однако компания также предлагает уменьшенные версии модели, которые можно запустить на одной видеокарте уровня Nvidia 3090.
Интересно, что DeepSeek сохраняет конкурентное преимущество по стоимости использования своих моделей через API. Компания рекомендует использовать V3 для задач, не требующих сложного анализа, отключая функцию "DeepThink" для максимальной скорости работы.

