Принадлежащая миллиардеру Илону Маску компания xAI продолжает тестирование ИИ-бота Grok 4.2. Бета-тест начался ещё в середине февраля, а несколько дней назад была выпущена вторая тестовая версия. Вместе с ней разработчики впервые открыли доступ через API, что позволило порталу Artificial Analysis провести серию тестов новой версии Grok.
Напомним, несмотря на незначительное обновление номера версии, Grok 4.2 существенно отличается от предшественников. Во время внутренних рассуждений система теперь при необходимости может разделяться на четыре условные личности, каждая из которых имеет свои сильные стороны.
Такая «команда» какое-то время обсуждает вопрос между собой, после чего выдаёт пользователю итоговый ответ.
Grok 4.2 пока не удаётся занять наиболее высокие места в рейтинге Artificial Analysis. По итогам 10 подтестов языковая модель набрала 48 баллов. При этом лучшие версии Claude, ChatGPT и Gemini набрали 53, 57 и 57 баллов соответственно.
Общий рейтинг Artificial Analysis
Зато в нескольких подтестах Grok 4.2 удалось стать лидером. Прежде всего, Grok с большим отрывом лидирует в тесте на устойчивость к галлюцинациям. Здесь он набирает 78%, что значительно выше показателей конкурентов. Например, ChatGPT 5.4 получает в этом же тестировании всего 11%, а наиболее мощный Claude 4.6 Opus – 39%.
Данный тест проверяет ситуации, когда нейросеть гарантированно не знает правильного ответа на вопрос. Большинство моделей начинают пытаться угадать ответ вместо того, чтобы честно признаться, что не знают его. Grok, судя по результатам теста, лучше остальных «понимает», что он знает, а чего не знает.
Результаты теста на защиту от галлюцинаций
Также Grok 4.2 удалось завоевать лидерство в тесте IFBench, который оценивает, насколько точно модель следует пользовательским инструкциям или, как их ещё называют, промптам. Здесь Grok набрал 83%, оставив позади Claude, Gemini и ChatGPT, которые набирают от 53% (Claude 4.6 Opus) до 77% (Gemini 3.1 Pro).
Заметим, что вышедший прошлым летом Grok 4.0 в IFBench показывал результат 54%, а в тесте на устойчивость к галлюцинациям – 36%.
Результаты теста на следование указаниям пользователя
В других тестах Grok 4.2 также проявил себя весьма сильно, показав не рекордные, но высокие результаты. Например, ему удалось обойти Claude, Gemini и ChatGPT в Tau-2 Bench Telecom, проверяющем агентские способности. Впрочем, здесь ИИ-модель от Илона Маска всё же уступила первое место китайской модели GLM-5.
Наиболее слабым звеном у Grok 4.2, как и у предшественников, является программирование. Именно связанные с ним тесты ощутимо снижают общий рейтинг Grok на фоне других моделей. Также Grok 4.2 немного уступает конкурентам в высшей математике и не очень хорошо справляется с длинным контекстом.
Напомним, разработчики позиционируют Grok как модель, менее подверженную цензуре и более креативную, чем аналоги. После завершения работы над Grok 4.2, вероятно, настанет очередь Grok 5.0, выпуск которого Илон Маск изначально обещал ещё в 2025 году.