24 марта команда ARC Prize Foundation представила новый бенчмарк ARC-AGI-2, ориентированный на оценку способности ИИ-системы к решению нетипичных для неё задач, предполагающих быструю и эффективную адаптацию к контексту задачи и поиск корректного решения. По сравнению с предыдущей версией бенчмарка, эффективность существующих решений, включая o3 от OpenAI, существенно снизилась.
Первые ИИ-системы, полагающиеся исключительно на "запоминание", выраженное в обучении на огромных объёмах данных, испытывали существенные затруднения, как только задача требовала хотя бы минимального изменения подхода к решению задачи, однако более совершенные системы, способные к так называемому "рассуждению", оказались более эффективными и уже могли показать более-менее приемлемый результат, хоть и не были в состоянии в полной мере конкурировать с человеком.
Выход обновленного инструмента для тестирования и оценки эффективности ИИ предлагает задачи, ещё более устойчивые к обученным "грубой силой" нейросетям, требуя адаптации к каждому конкретному примеру, и "продвинутый" по нынешним меркам ИИ оказывается неспособен к подобной адаптации.
В то время, как часть результатов еще уточняется (для модели o3 с расширенными вычислительными ресурсами), общий результат от версии ARC-AGI-1 к ARC-AGI-2 выглядит примерно так:
Остальные ИИ-системы показали эффективность менее 2% в новой версии бенчмарка.
Особенность тестов ARC-AGI заключается в том, что для их решения не требуется никаких предварительных знаний, их может выполнить практически любой человек без предварительной подготовки, причем в большинстве случаев - с одной попытки. Сами задания опираются не несколько примеров (3 шт.), в которых требуется выявить закономерность в изменениях на графической сетке, а затем решить четвёртый пример. Для решения нужны небольшие навыки обобщения, чтобы выявить закономерность, а затем примерить её к решаемой задаче.