Лучшие ИИ совсем не справились с новым тестом ARC-AGI-2 на мышление и рассуждение

Блоги

25 мар. 2025, 21:34 technoboom

Новый тест ARC-AGI-2 на интеллект ИИ поставил ведущие ИИ-модели в тупик. Даже самые продвинутые из них, включая OpenAI o1-pro и DeepSeek R1, набрали лишь 1-1,3%, в то время как люди справились с поставленными задачами на 60%.

Источник изображения: Arc Prize

Некоммерческая организация Arc Prize, созданная известным специалистом по ИИ Франсуа Шолле (François Chollet), объявила о запуске нового испытания ARC-AGI-2, разработанного для проверки уровня интеллекта современных ИИ-систем. Однако этот тест оказался слишком сложным для большинства моделей. Рассуждающие системы, такие как o1-pro от OpenAI и R1 от DeepSeek, показали результат в пределах 1–1,3%, при этом другие, не рассуждающие мощные модели, включая GPT-4.5, Gemini 2.0 Flash и Claude 3.7 Sonnet не превысили отметку даже в 1%.

ARC-AGI-2 представляет собой набор задач-головоломок с разноцветными квадратами, где ИИ должен находить скрытые закономерности и предлагать правильные решения, не опираясь на ранее изученные данные. Эти тесты специально созданы для того, чтобы оценить способность ИИ адаптироваться к новым задачам и условиям. Для сравнения, более 400 человек, имеющих базовый уровень знаний и участвовавших в тестировании, в среднем справились с задачами на 60%, что несоизмеримо выше результатов ИИ-систем.

По словам Шолле, ARC-AGI-2 превосходит предыдущий тест ARC-AGI-1 в оценке реального интеллекта ИИ, так как исключает использование избыточных вычислительных мощностей. Новый тест делает акцент на эффективности, требуя от моделей решать задачи с минимальным потребленим ресурсов. Сооснователь фонда Грег Камрадт (Greg Kamradt) пояснил: «Интеллект — это не только умение находить решения, но и способность делать это с наименьшими затратами».

Отметим, тест ARC-AGI-1 оставался лучшим тестом почти пять лет, пока модель OpenAI o3 не достигла результата в 75,7%, сравнявшись с людьми. Однако на новом ARC-AGI-2 эта модель показала лишь 4%, расходуя $200 на каждую задачу, что показало сложность обновленного теста.

Источник изображения: Arc Prize

Томас Вольф (Thomas Wolf) из Hugging Face считает, что появление ARC-AGI-2 отвечает на потребность отрасли в новых инструментах для оценки прогресса ИИ, особенно в сфере творческих способностей. Одновременно фонд запустил конкурс Arc Prize 2025, где разработчикам предстоит добиться 85% точности на ARC-AGI-2, тратя не более $0,42 на задачу.

Появление ARC-AGI-2 отвечает на потребность отрасли в новых инструментах для оценки прогресса ИИ, особенно в сфере творческих способностей, как подчеркнул Томас Вольф (Thomas Wolf) из Hugging Face. Одновременно фонд Arc Prize запустил конкурс, в котором разработчикам предстоит добиться 85% точности на ARC-AGI-2, с условием затрат не более $0,42 на задачу.

#openai #gemini

Источник: techcrunch.com

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Популярные статьи