Лаборатория, принадлежащая китайскому хедж-фонду High-Flyer, представила 25 декабря чрезвычайно мощную модель искусственного интеллекта. Модель, получившая название «DeepSeek V3», имеет открытый исходный код и позволяет разработчикам загружать и использовать ее для различных приложений. Сюда входят и коммерческие проекты, сообщает TechCrunch. Согласно новым тестам производительности, DeepSeek V3 работает лучше, чем GPT-4o от OpenAI и Llama 3.1 405B.
DeepSeek V3 лучше, чем GPT-4o от OpenAI
По данным DeepSeek AI, их модель DeepSeek V3 была обучена на наборе данных, включающем 14,8 триллиона токенов, что очень много. 1 миллион токенов — особый размер в науке о данных — соответствует примерно 750 000 слов.
Огромен не только объем обучающих данных, но и так называемые параметры, которые они содержат. Это переменные, которые модели ИИ используют для прогнозирования или принятия решений. Сообщается, что DeepSeek V3 содержит более 670 миллиардов из них. Это сделало бы китайскую модель в 1,6 раза больше, чем модель Llama 3.1 405B, которая имеет всего 405 миллиардов таких параметров решения.
Модели ИИ с большим количеством параметров часто работают лучше, чем модели с меньшим количеством параметров. В то же время более крупные модели, такие как DeepSeek V3, также требуют более мощного оборудования, например центров обработки данных.
По словам китайских разработчиков, использовался дата-центр с графическими процессорами Nvidia H800, где модель обучалась всего 2 месяца. В случае с сопоставимыми моделями это могло занять гораздо больше времени.
Однако тест TechCrunch показал, что следует ожидать потерь «китайского характера» в содержании ответов языковой модели, поскольку модель подвергается цензуре контента и привержена «социалистическим ценностям» страны. Если искать события на площади Тяньаньмэнь, произошедшие в Пекине в июне 1989 года, DeepSeek V3 не даст ответа.
Китайская финансовая компания High-Flyer занимается исследованием моделей искусственного интеллекта с 2019 года и представила первую версию своей большой языковой модели DeepSeek в 2023 году. В ноябре 2024 года китайская компания также представила модель под названием DeepSeek R1-Lite, которая, по мнению компании, должна быть лучше o1, которую OpenAI представила в сентябре 2024 года.

