Новая ИИ-модель Llama 4 опустилась на 32-е место в рейтинге Chatbot Arena

Ранее компанию Марка Цукерберга уличили в подтасовке результатов тестов на LMArena новых моделей Llama 4. Оказывается, Llama 4 Maverick не может конкурировать с топовыми моделями от Google и OpenAI.
14 апреля 2025, понедельник 14:53
kosmos_news для раздела Блоги

После того как стало известно, что компания Meta* (признана экстремистской, ее деятельность запрещена на территории России) смошенничала во время тестирования последней модели искусственного интеллекта «Llama 4 Maverick», ее рейтинг на платформе ChatBot Arena резко упал.

Модель ИИ, которая по плану разработчиков должна была конкурировать с ведущими моделями от Google и OpenAI, теперь занимает лишь 32-е место в рейтинге ChatBot Arena — даже позади давно устаревших моделей ИИ. Напомним, на ChatBot Arena тестируется множество языковых моделей. Платформа основана на рейтинговой системе Elo, заимствованной из шахматного мира.

Как сообщалось, компания Meta* выпустила первые модели ИИ своей новой серии Llama 4 полторы недели назад, а именно небольшую модель «Scout» и более совершенную «Maverick» — выпуск топовой модели «Behemoth» пока откладывается, судя по всему, она еще не закончена. В тестах производительности, опубликованных самой Meta*, утверждалось, что Llama 4 Maverick способна конкурировать с GPT-4.5 от OpenAI и Grok-3 от xAI.

Но важнее внутренних бенчмарков — рейтинг Chatbot Arena, где пользователи сами оценивают производительность моделей ИИ по различным категориям и аспектам. Однако, как сообщалось, Meta* выпустила версию Maverick, специально оптимизированную для этой платформы бенчмаркинга, а именно «Llama-4-Maverick-03-26-Experimental». Эта версия быстро получила очень высокую оценку, из-за чего на короткое время даже заняла второе место в рейтинге.

Однако эта экспериментальная версия — не то, что получают программисты и компании, приобретая Llama 4 Maverick. Вместо этого они фактически получают оригинал, а именно «Llama-4-Maverick-17B-128E-Instruct». После того как обман Meta* был раскрыт, создатели Chatbot Arena удалили поддельную экспериментальную версию и вместо нее выпустили версию Instruct для тестирования.

«Настоящая» модель Maverick на самом деле довольно плохая, она занимает лишь 32-е место в рейтинге ChatBot Arena. Она примерно на одном уровне с версиями GPT-40 (OpenAI), DeepSeek или Claude (Anthropic), которые уже давно уступили место более совершенным моделям ИИ. Это поднимает большой вопрос: является ли Llama 4 вообще конкурентоспособной? Эксперты полагают, что компания Цукерберга просто хотела скрыть тот факт, что Meta*, несмотря на миллиарды инвестиций, больше не может конкурировать с Google, OpenAI, Anthropic или xAi.

* Meta признана экстремистской, ее деятельность запрещена на территории России.