На мероприятии Baidu World 2025 компания представила свою новейшую базовую модель ERNIE 5.0. Эта запатентованная модель автоматически обрабатывает и генерирует контент из текста, изображений, аудио и видео. В отличие от недавно выпущенной модели с открытым исходным кодом ERNIE-4.5-VL-28B-A3B-Thinking, доступной по лицензии Apache 2.0, ERNIE 5.0 остаётся закрытой и работает исключительно через сайт ERNIE Bot и API облачной платформы Qianfan для корпоративных клиентов.
Модель демонстрирует особенно хорошие результаты в распознавании структурированных документов: по данным Baidu, ERNIE 5.0 превосходит GPT-5-High и Gemini 2.5 Pro в OCRBench, DocVQA и ChartQA – трёх бенчмарках для распознавания, понимания документов и анализа структурированных данных. В области генерации изображений модель достигает паритета с Google Veo3, согласно внутренней оценке GenEval. Однако независимая проверка этих результатов ещё не проведена.
Пока неизвестно, как ERNIE 5.0 покажет себя в независимых тестах. Например, новая модель ИИ пока не представлена на LMArena. Однако инвесторы, похоже, не были довольны презентацией. На открытии торгов 14 ноября акции Baidu резко упали после разочаровывающей презентации новой ИИ-модели.
Baidu позиционирует себя в среднем ценовом диапазоне. Стоимость ERNIE 5.0 составляет 0,85 доллара за миллион входящих токенов и 3,40 доллара за миллион исходящих токенов — значительно дешевле, чем GPT-5.1 (1,25/10 долларов), Claude Opus 4.1 (15/75 долларов) или Grok 4 (3/15 долларов), но заметно дороже, чем ERNIE 4.5 Turbo от Baidu (0,11/0,45 долларов). Такая ценовая стратегия отражает дифференциацию Baidu между моделями для массового производства и бюджетными моделями, а также моделями с высокой производительностью для сложных мультимодальных задач.