Обновлённая нейросеть Google Gemini 2.5 Pro набрала более 86% в тесте GPQA Diamond

Блоги

6 июн. 2025, 10:01 Alex040

Обновление выводит Gemini на первое место в тестах Humanity's Last Exam, а также в пользовательском голосовании на ChatBot Arena.

Компания Google представила крупное обновление для своей флагманской нейросети Gemini 2.5 Pro. Последняя выступает одним из главных конкурентов для ChatGPT, включая его платные версии с «рассуждающими» моделями o3 и o4 mini.

Модель Gemini 2.5 Pro также умеет «рассуждать» и была представлена ещё в марте, показав рекордные на фоне предыдущих систем Google цифры в различных ИИ-бенчмарках. Позже корпорация обновила модель в начале мая, значительно усилив возможности программирования, но зато по другим параметрам «интеллект» системы слегка упал.

Теперь Gemini 2.5 Pro получила своё второе большое обновление. В отличие от первого, оно, согласно данным от самой Google, оказалось более обширным и разносторонним. Наиболее интересная деталь: Gemini впервые в ряде ключевых бенчмарков превосходит своего главного конкурента – o3 от OpenAI. Сравнение также проводилось с актуальными версиями Claude 4, Grok 3.0 от Илона Маска и обновлённой DeepSeek R1.

Прежде всего, новая Gemini установила рекорд в бенчмарке GPQA Diamond, который оценивает научные знания и возможность ИИ-моделей рассуждать. Если прежняя (майская) версия Gemini 2.5 Pro набирала здесь 83% и всего на 0,3% уступала o3, то теперь система от Google стала лидером. Она набирает 86,4%, и это больше, чем любая другая большая языковая модель на рынке.

Также новинка набрала 21,6% в тесте Humanity's Last Exam, опередив o3 с её 20,3%. Humanity's Last Exam считается одним из сложнейших испытаний для больших языковых моделей. По итогам 2024 года около 8% в данном тесте могла набрать только одна нейросеть – o1 от OpenAI.

Нейросети Google тогда показывали результат менее 7%. Теперь же Google догнала и превзошла конкурента. До обновления Gemini 2.5 Pro (майская версия) демонстрировала в тесте 17,8%. Сам Humanity's Last Exam сейчас состоит из 2500 сложных и разнообразных задач.

Лидеры теста Humanity's Last Exam.

Ещё Google отмечает своё превосходство над конкурентами в плане точности информации и минимизации галлюцинаций. Так, в тестах SimpleQA и FACTS grounding обновлённая система набирает 54% и 87,8% соответственно. К сравнению, сильнейшие конкуренты в этих же двух бенчмарках достигают только 48,6% (o3 в SimpleQA) и 77,7% (Claude 4 Opus в FACTS grounding).

Дополнительно стоит отметить усиление возможностей модели по решению олимпиадных математических задач. Всего за месяц с предыдущего обновления результаты в тесте AIME 2025 выросли с 83 до 88%. В тестах программирования Aider Polyglot цифры обновились с 76,5 до 82,2%. По части визуального распознавания в тесте MMMU новая Gemini 2.5 Pro усилилась с 79,6% до 82%.

Наконец, Gemini вновь взяла первое место в рейтинге ChatBot Arena с результатом 1470 баллов по системе ELO. Данный рейтинг оценивает то, насколько нравятся ответы нейросети самим пользователям.

Лидеры рейтинга ChatBot Arena.

Также Google подчёркивает, что её система обойдётся разработчикам заметно дешевле нейросетей o3 от OpenAI и тем более Claude 4 от Anthropic. С другой стороны, с DeepSeek R1 по цене новинка конкурировать всё же не может.

Заметим, что лидерство Gemini 2.5 Pro в тестах может быть весьма недолгим. Уже в ближайшие недели или даже дни свет могут увидеть o3 Pro от OpenAI, а также Grok 3.5 от Илона Маска. В свою очередь, до конца лета можно ожидать флагманскую GPT-5 от OpenAI, конкурировать с которой будут DeepSeek R2 и Gemini 3.0.

#google #нейросети #gemini

Источник: deepmind.google

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Популярные статьи