Более года назад китайский стартап в области искусственного интеллекта DeepSeek из города Ханчжоу произвёл настоящий фурор в Кремниевой долине (район США, где сконцентрированы ведущие технологические компании), представив свою модель ИИ под обозначением R1. Появление этой модели, имеющей открытый исходный код и способной имитировать процесс человеческого мышления спровоцировало распродажу акций на фондовом рынке. По своей производительности модель R1 составила конкуренцию передовым разработкам ИИ от ведущих компаний. При этом утверждается, что затраты на создание R1 были значительно ниже затрат на модели конкурентов.
Фото: CFOTO/Future Publishing/Getty Images
Через год с лишним, стартап из Китая выпустил предварительные версии своей новой флагманской модели искусственного интеллекта. Согласно заявлению компании DeepSeek, в настоящее время новая модель является самой мощной платформой с открытым исходным кодом. Тем самым, китайская компания бросила вызов таким гигантам на рынке ИИ, как OpenAI и Anthropic. Об этом сообщает Bloomberg.
DeepSeek представила серии V4 Flash и V4 Pro. При этом компания заявила о высочайшей производительности в тестах на программирование и значительных улучшениях в задачах логического мышления и работы агентов. Согласно сообщению компании, её продукты обладают обновлённой архитектурой и улучшенной оптимизацией.
DeepSeek особо выделила технологию под названием Hybrid Attention Architecture («Архитектура гибридного внимания»), которая улучшает способность платформы ИИ запоминать запросы в длительных диалогах. Компания также удалось создать контекстное окно на один миллион токенов. Такой прорыв, позволяет отправлять целые базы кодов или длинные документы в едином запросе.
Как отмечает Bloomberg, выпуск новой серии продуктов является большим шагом вперёд в масштабе и эффективности, которые стали причиной взлёта DeepSeek и оказали огромное давление на конкурентов. После появления модели R1 технологические компании и инвесторы занялись переосмыслением целесообразности многомиллиардных инвестиций в разработку ИИ. Однако с тех пор, затраты вновь возросли. Согласно прогнозам, только в текущем году технологические корпорации из США намерены инвестировать около 650 миллиардов долларов в инфраструктуру ИИ и строительство центров обработки данных.
Новая система от DeepSeek, которая насчитывает триллион параметров, использует метод «смешивания экспертов». Она избирательно активирует лишь небольшую группу экспертов и использует до 37 миллиардов параметров на задачу, что позволяет значительно снизить затраты на вывод, по сравнению с аналогичными моделями передовых разработок.
Несмотря на производительность своего продукта, стартап признаёт, что версия V4 отстает от передовых моделей примерно на 3–6 месяцев. Однако компания подчеркнула, что стремится не только к увеличению производственных мощностей, но и к снижению затрат. По сравнению с конкурирующими моделями, версия V4 разработана для развертывания на менее затратной инфраструктуре.

