24 марта команда ARC Prize Foundation представила новый бенчмарк ARC-AGI-2, ориентированный на оценку способности ИИ-системы к решению нетипичных для неё задач, предполагающих быструю и эффективную адаптацию к контексту задачи и поиск корректного решения. По сравнению с предыдущей версией бенчмарка, эффективность существующих решений, включая o3 от OpenAI, существенно снизилась.
Первые ИИ-системы, полагающиеся исключительно на "запоминание", выраженное в обучении на огромных объёмах данных, испытывали существенные затруднения, как только задача требовала хотя бы минимального изменения подхода к решению задачи, однако более совершенные системы, способные к так называемому "рассуждению", оказались более эффективными и уже могли показать более-менее приемлемый результат, хоть и не были в состоянии в полной мере конкурировать с человеком.
Выход обновленного инструмента для тестирования и оценки эффективности ИИ предлагает задачи, ещё более устойчивые к обученным "грубой силой" нейросетям, требуя адаптации к каждому конкретному примеру, и "продвинутый" по нынешним меркам ИИ оказывается неспособен к подобной адаптации.
В то время, как часть результатов еще уточняется (для модели o3 с расширенными вычислительными ресурсами), общий результат от версии ARC-AGI-1 к ARC-AGI-2 выглядит примерно так:
- Для человека результат изменился с 98% до 100% при оценке затрат на решение в 17$
- Для o3 в режиме Low efficiency (доступно больше ресурсов, чуть лучше результат) предварительные итоги - падение эффективности с 75.7% до 4% при стоимости около 200$ (на интерактивном графике результат на момент написания новости вообще указан как 0.04%)
- Система o1 в режиме High efficiency демонстрирует падение с 32% до 3% при оценке затрат в 4.45$
- Результаты ARChitects от команды ARC Prize 2024 упали с 56% до 2.5%
Остальные ИИ-системы показали эффективность менее 2% в новой версии бенчмарка.
Особенность тестов ARC-AGI заключается в том, что для их решения не требуется никаких предварительных знаний, их может выполнить практически любой человек без предварительной подготовки, причем в большинстве случаев - с одной попытки. Сами задания опираются не несколько примеров (3 шт.), в которых требуется выявить закономерность в изменениях на графической сетке, а затем решить четвёртый пример. Для решения нужны небольшие навыки обобщения, чтобы выявить закономерность, а затем примерить её к решаемой задаче.

