
В мире искусственного интеллекта информация о стоимости обучения моделей часто становится предметом обсуждения. Исследовательская компания SemiAnalysis обнародовала отчет, который ставит под сомнение общепринятые представления о финансовых затратах на обучение модели DeepSeek V3. Вместо ожидаемых $6 миллионов, реальная сумма достигает $1,3 миллиарда.
Отчет SemiAnalysis подробно рассматривает структуру затрат DeepSeek, акцентируя внимание на том, что оценка в 6 миллионов долларов учитывает только расходы на предварительное обучение графических процессоров. При этом не учитываются значительные инвестиции в исследования, разработки и инфраструктуру. В частности, DeepSeek несет затраты на серверы, которые составляют $1,3 миллиарда. Эти средства направляются на поддержку обширных кластеров графических процессоров, необходимых для выполнения вычислительных задач.
DeepSeek располагает примерно 50 000 графическими процессорами Hopper, однако это не равно 50 000 H100, как считали ранее. В действительности, в их ассортимент входят различные модели, такие как H800, H100 и H20, адаптированные под экспортные ограничения США.
В отличие от крупных лабораторий, DeepSeek управляет своими центрами обработки данных.
Что касается производительности, модель DeepSeek R1 показывает сопоставимые результаты с моделью OpenAI o1. Тем не менее, DeepSeek не может считаться безусловным лидером. Примечательно, что Gemini Flash 2.0 от Google, обладая аналогичными возможностями, оказывается более экономичным при использовании через API.
Отчет также выделяет инновационную технологию Multi-Head Latent Attention (MLA), которая значительно сокращает затраты на вывод.
В отчете также было отмечено, что к концу года операционные расходы могут сократиться в пять раз благодаря способности DeepSeek к быстрой адаптации.

