
Американский миллиардер Илон Маск утром провёл совместный стрим с сотрудниками подконтрольной ему компании xAI. Последняя сосредоточена на разработке генеративного искусственного интеллекта, а её флагманский продукт – умный чат-бот Grok.
Темой презентации стало третье поколение системы. Grok 3.0 приносит с собой большой прирост характеристик в различных бенчмарках. Например, за полгода, что прошли с момента выхода версии 2.0, результаты в популярном тесте GPQA выросли с 56 до 85%. GPQA, напомним, проверяет логику и научные знания.
Не менее впечатляющим результатом стал рекорд новинки в сервисе для тестирования чат-ботов – Chatbot Arena от LMSYS. Тестовая версия Grok 3 оказалась там первой системой, которая набрала более 1400 баллов по системе ELO. Ещё ни одному чат-боту не удавалось демонстрировать столь высокие показатели. Позади остались предыдущие лидеры, включая Gemini 2.0 от Google, актуальную версию GPT-4o от OpenAI и DeepSeek R1.
Напомним, рейтинг Chatbot Arena выстраивается на основе «слепого» пользовательского голосования. Ранняя версия Grok 3 там сейчас показывает 1402 балла. Финальная версия может набрать ещё чуть больше.

Маск во время стрима вместе с командой разработчиков.
Также во время презентации стало известно, что Grok 3, в отличие от предшественника, может использовать режим размышлений. Последнее сейчас является чуть ли не главным трендом среди больших языковых моделей. К примеру, в упомянутом выше тесте GPQA Grok 3 по умолчанию решает 75% задач. Однако если включить режим размышлений, дать боту время, чтобы получше «подумать», то результаты вырастают до 85%.
В тестах математической олимпиады AIME 2025, которая прошла недавно, рассуждающий режим Grok 3.0 находится выше лучших выпущенных моделей OpenAI – o1 и o3 mini. В своём самом сильном режиме «Thinking Hard» бот способен решить более 90% задач. Для понимания: в США бывают годы, когда 100% задач AIME не может решить ни один участник, хотя олимпиада носит массовый характер.
Помимо большого прогресса в тестах для Grok 3 заявлен продвинутый голосовой режим, чего раньше у бота не было. Однако сейчас новинка ещё недоступна, возможность говорить с системой «вживую», а не только текстом появится через несколько недель.
Также для Grok 3 доступна функция Deep Search. Это аналог того, что с начала года уже получили платные пользователи ChatGPT, а также Perplexity (там бесплатно 5 запросов в день). Благодаря Deep Search бот получает доступ к поисковым системам и способен сделать целое мини-исследование по вашему запросу. Изюминка в том, что это не просто поиск «по верхам», а глубокое исследование около сотни сайтов, на что у человека ушли бы часы.


Результаты модели в популярных тестах. Верхняя иллюстрация – стандартный режим работы Grok. Нижняя – режим рассуждений.
Ещё у Grok 3 помимо основной будет версия mini. Она существенно быстрее и иногда умеет показывать себя лучше в задачах, связанных с математикой. Например, в AIME 2024 Grok 3 со включённым режимом раздумий и максимальными настройками набирает 93%, а Grok 3 mini – 96%. Судя по всему, как и в случае OpenAI, версия mini – это не просто облегчённая основная модель, а нечто относительно самостоятельное.
Попробовать Grok 3 уже сегодня могут премиум-пользователи X/Twitter (заблокирован в РФ). Также есть официальный сайт Grok, но в России он не работает. При этом бесплатно опробовать новинку можно через упомянутый выше сервис LMSYS Chatbot Arena. Там следует перейти во вкладку «Direct Chat» и среди списка моделей выбрать Grok 3. Если сайт выдаёт ошибку, попробуйте зайти через Яндекс.Браузер.
Наконец, скоро ожидаются и другие новинки. OpenAI обещает выпустить GPT-4.5 в ближайшие недели (но рекордов от модели ждать не стоит) и мощнейшую GPT-5 в ближайшие месяцы. Также в течение недель ожидается новое поколение Claude и «думающая» версия Gemini 2.0 Pro от Google. Сильных новинок стоит ожидать и от китайских компаний.
В свою очередь, Илон Маск в течение года может выпустить ещё одну или две новые версии Grok. Любопытно, что до конца года миллиардер намерен увеличить мощность своего главного вычислительного центра с 200 тысяч до 1 миллиона передовых ускорителей Nvidia. Причём использоваться будут уже не H100, а гораздо более мощные GPU семейства Nvidia Blackwell.

