Компания xAI, принадлежащая Илону Маску, представила нейросеть Grok 4. Новинка выходит спустя полгода после предшественника и приносит с собой существенный прирост по различным бенчмаркам.

Особой гордостью команды разработчиков является лидирующий результат в тесте Humanity's Last Exam, что в переводе означает «Последний экзамен человечества». Это сборник из 2500 сложных заданий, в котором лучшая нейросеть 2024 года могла набрать всего около 8% решённых задач.
Самая мощная версия Grok 4 – Heavy способна заработать в этом тесте результат в 44,4%. Увы, система является платной, и за её использование придётся заплатить около 300 долларов в месяц.
Базовая версия Grok 4, которая может оказаться доступной для бесплатного использования, набирает в этом же тесте всего 25,4%. Однако это все равно больше, чем у прежнего лидера Humanity's Last Exam. Им, напомним, около месяца являлась модель Gemini 2.5 Pro от Google. Она набирала в тесте 21,6%.

Выросли показатели Grok и на других популярных бенчмарках. Например, в тесте GPQA, который проверяет научные знания и способность к рассуждениям, Grok 4 набирает 87,5%, а Grok 4 Heavy – 88,9%. Прежним лидером здесь также была модель Gemini 2.5 Pro с результатом 86,6%.
Лучшая модель OpenAI – o3, которую можно встретить в платной версии ChatGPT, решает в GPQA 83,3% задач. Первая (январская) версия DeepSeek R1 – ~71%, обновлённая майская – 81%.
Также авторы Grok 4 отмечают высокие результаты в LiveCodeBench, который оценивает навыки программирования. Все версии Grok 4 набирают здесь около 79%, в то время как предыдущие лидеры могли решать только 72-74% задач. Наконец, Grok 4 Heavy стала первой моделью, которая решила 100% олимпиадных задач по математике в тесте AIME 2025. Эти задачи отличаются крайней степенью сложности. Базовая версия Grok 4 решает из них 98,8%.

Помимо прогресса в тестах, авторы сообщили, что обновили голосовой режим. Отзывчивость системы в нём стала быстрее, голос ИИ научился шептать, напевать мелодии и менять интонации. Также сообщается о появлении у нейросети агентских функций, где она сама может, например, управлять браузером и выполнять различные задания.
У ряда конкурентов такое уже есть, однако авторы Grok заявляют, что их результат лучше, а вдобавок система может использовать несколько агентов одновременно. Они работают параллельно над одной задачей, а позже сравнивают свои результаты, выбирая лучший.
В России детище Илона Маска предсказуемо недоступно, однако бесплатно пообщаться с базовой версией Grok 4, скорее всего, скоро можно будет на популярном портале LMArena.
Тремя сильнейшими конкурентами для Grok 4 должны стать GPT-5 от OpenAI, Gemini 3.0 от Google и DeepSeek R2. Все три системы, предположительно, могут показать ещё более высокие цифры в бенчмарках, а их релиз ожидается в ближайшие месяцы.

