Илон Маск запустил третье поколение умного чат-бота Grok

Блоги

18 февр. 2025, 13:06 Alex040

Новинка перешла в категорию «рассуждающих» моделей и достигла рекордных цифр на арене чат-ботов.

Американский миллиардер Илон Маск утром провёл совместный стрим с сотрудниками подконтрольной ему компании xAI. Последняя сосредоточена на разработке генеративного искусственного интеллекта, а её флагманский продукт – умный чат-бот Grok.

Темой презентации стало третье поколение системы. Grok 3.0 приносит с собой большой прирост характеристик в различных бенчмарках. Например, за полгода, что прошли с момента выхода версии 2.0, результаты в популярном тесте GPQA выросли с 56 до 85%. GPQA, напомним, проверяет логику и научные знания.

Не менее впечатляющим результатом стал рекорд новинки в сервисе для тестирования чат-ботов – Chatbot Arena от LMSYS. Тестовая версия Grok 3 оказалась там первой системой, которая набрала более 1400 баллов по системе ELO. Ещё ни одному чат-боту не удавалось демонстрировать столь высокие показатели. Позади остались предыдущие лидеры, включая Gemini 2.0 от Google, актуальную версию GPT-4o от OpenAI и DeepSeek R1.

Напомним, рейтинг Chatbot Arena выстраивается на основе «слепого» пользовательского голосования. Ранняя версия Grok 3 там сейчас показывает 1402 балла. Финальная версия может набрать ещё чуть больше.

Маск во время стрима вместе с командой разработчиков.

Также во время презентации стало известно, что Grok 3, в отличие от предшественника, может использовать режим размышлений. Последнее сейчас является чуть ли не главным трендом среди больших языковых моделей. К примеру, в упомянутом выше тесте GPQA Grok 3 по умолчанию решает 75% задач. Однако если включить режим размышлений, дать боту время, чтобы получше «подумать», то результаты вырастают до 85%.

В тестах математической олимпиады AIME 2025, которая прошла недавно, рассуждающий режим Grok 3.0 находится выше лучших выпущенных моделей OpenAI – o1 и o3 mini. В своём самом сильном режиме «Thinking Hard» бот способен решить более 90% задач. Для понимания: в США бывают годы, когда 100% задач AIME не может решить ни один участник, хотя олимпиада носит массовый характер.

Помимо большого прогресса в тестах для Grok 3 заявлен продвинутый голосовой режим, чего раньше у бота не было. Однако сейчас новинка ещё недоступна, возможность говорить с системой «вживую», а не только текстом появится через несколько недель.

Также для Grok 3 доступна функция Deep Search. Это аналог того, что с начала года уже получили платные пользователи ChatGPT, а также Perplexity (там бесплатно 5 запросов в день). Благодаря Deep Search бот получает доступ к поисковым системам и способен сделать целое мини-исследование по вашему запросу. Изюминка в том, что это не просто поиск «по верхам», а глубокое исследование около сотни сайтов, на что у человека ушли бы часы.

Результаты модели в популярных тестах. Верхняя иллюстрация – стандартный режим работы Grok. Нижняя – режим рассуждений.

Ещё у Grok 3 помимо основной будет версия mini. Она существенно быстрее и иногда умеет показывать себя лучше в задачах, связанных с математикой. Например, в AIME 2024 Grok 3 со включённым режимом раздумий и максимальными настройками набирает 93%, а Grok 3 mini – 96%. Судя по всему, как и в случае OpenAI, версия mini – это не просто облегчённая основная модель, а нечто относительно самостоятельное.

Попробовать Grok 3 уже сегодня могут премиум-пользователи X/Twitter (заблокирован в РФ). Также есть официальный сайт Grok, но в России он не работает. При этом бесплатно опробовать новинку можно через упомянутый выше сервис LMSYS Chatbot Arena. Там следует перейти во вкладку «Direct Chat» и среди списка моделей выбрать Grok 3. Если сайт выдаёт ошибку, попробуйте зайти через Яндекс.Браузер.

Наконец, скоро ожидаются и другие новинки. OpenAI обещает выпустить GPT-4.5 в ближайшие недели (но рекордов от модели ждать не стоит) и мощнейшую GPT-5 в ближайшие месяцы. Также в течение недель ожидается новое поколение Claude и «думающая» версия Gemini 2.0 Pro от Google. Сильных новинок стоит ожидать и от китайских компаний.

В свою очередь, Илон Маск в течение года может выпустить ещё одну или две новые версии Grok. Любопытно, что до конца года миллиардер намерен увеличить мощность своего главного вычислительного центра с 200 тысяч до 1 миллиона передовых ускорителей Nvidia. Причём использоваться будут уже не H100, а гораздо более мощные GPU семейства Nvidia Blackwell.

#искусственный интеллект #илон маск #чат-бот #xai #grok #grok 3

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Популярные статьи

Популярные новости

Популярные статьи

Блог

Авторы

Статистика разгона

Закладки