Источник изображения: Arc Prize
Некоммерческая организация Arc Prize, созданная известным специалистом по ИИ Франсуа Шолле (François Chollet), объявила о запуске нового испытания ARC-AGI-2, разработанного для проверки уровня интеллекта современных ИИ-систем. Однако этот тест оказался слишком сложным для большинства моделей. Рассуждающие системы, такие как o1-pro от OpenAI и R1 от DeepSeek, показали результат в пределах 1–1,3%, при этом другие, не рассуждающие мощные модели, включая GPT-4.5, Gemini 2.0 Flash и Claude 3.7 Sonnet не превысили отметку даже в 1%.
ARC-AGI-2 представляет собой набор задач-головоломок с разноцветными квадратами, где ИИ должен находить скрытые закономерности и предлагать правильные решения, не опираясь на ранее изученные данные. Эти тесты специально созданы для того, чтобы оценить способность ИИ адаптироваться к новым задачам и условиям. Для сравнения, более 400 человек, имеющих базовый уровень знаний и участвовавших в тестировании, в среднем справились с задачами на 60%, что несоизмеримо выше результатов ИИ-систем.
По словам Шолле, ARC-AGI-2 превосходит предыдущий тест ARC-AGI-1 в оценке реального интеллекта ИИ, так как исключает использование избыточных вычислительных мощностей. Новый тест делает акцент на эффективности, требуя от моделей решать задачи с минимальным потребленим ресурсов. Сооснователь фонда Грег Камрадт (Greg Kamradt) пояснил: «Интеллект — это не только умение находить решения, но и способность делать это с наименьшими затратами».
Отметим, тест ARC-AGI-1 оставался лучшим тестом почти пять лет, пока модель OpenAI o3 не достигла результата в 75,7%, сравнявшись с людьми. Однако на новом ARC-AGI-2 эта модель показала лишь 4%, расходуя $200 на каждую задачу, что показало сложность обновленного теста.
Источник изображения: Arc Prize
Томас Вольф (Thomas Wolf) из Hugging Face считает, что появление ARC-AGI-2 отвечает на потребность отрасли в новых инструментах для оценки прогресса ИИ, особенно в сфере творческих способностей. Одновременно фонд запустил конкурс Arc Prize 2025, где разработчикам предстоит добиться 85% точности на ARC-AGI-2, тратя не более $0,42 на задачу.
Появление ARC-AGI-2 отвечает на потребность отрасли в новых инструментах для оценки прогресса ИИ, особенно в сфере творческих способностей, как подчеркнул Томас Вольф (Thomas Wolf) из Hugging Face. Одновременно фонд Arc Prize запустил конкурс, в котором разработчикам предстоит добиться 85% точности на ARC-AGI-2, с условием затрат не более $0,42 на задачу.

