На днях исследовательская организация Epoch AI представила новый тест для искусственного интеллекта под названием FrontierMath. Математический тест вызвал небывалый ажиотаж в научном сообществе, так как содержит сотни задач высочайшего уровня сложности, которые ведущие ИИ-модели смогли решить менее чем в 2% случаев, по данным Epoch AI. Авторы FrontierMath проверили ведущие ИИ-модели, такие как GPT-4o (лежащий в основе ChatGPT), на способность решать уникальные математические задачи, на которые у экспертов в этой области обычно уходит от нескольких часов до нескольких дней.
Предварительные результаты тестирования FrontierMath, опубликованные в научной статье, ясно показывают ограниченные возможности современных ИИ-моделей. Даже при наличии доступа к средам программирования, как Python, лучшие языковые модели, такие как Claude 3.5 Sonnet, GPT-4o, o1-preview и Gemini 1.5 Pro, продемонстрировали крайне низкие результаты. Это резко контрастирует с их успехами на более простых математических тестах, где многие из них набирают более 90% в тестах GSM8K и MATH.
Особенность теста FrontierMath в том, что его задачи остаются закрытыми для предотвращения их попадания в базы данных для обучения ИИ. Большинство текущих моделей обучены на других открытых тестах, что позволяет им легко решать задачи и казаться более способными, чем они есть на самом деле. Многие эксперты считают это доказательством того, что современные крупные языковые модели обладают ограниченными возможностями для универсального обучения.
Epoch AI сообщает, что над созданием FrontierMath трудились более 60 математиков из ведущих университетов. Задачи прошли рецензирование для подтверждения корректности и исключения неоднозначностей, и лишь 5% заданий нуждались в доработке, что сопоставимо с основными тестами в сфере машинного обучения.
Набор задач FrontierMath включает темы из различных разделов математики — от вычислительной теории чисел до абстрактной алгебраической геометрии. Они невероятно сложны даже для известных математиков.
Epoch AI предоставила доступ к части теста лауреатам Филдсовской премии Терренсу Тао и Тимоти Гауэрсу. «Эти задачи чрезвычайно трудные», — отметил Тао. «В ближайшее время единственный способ их решить — привлечь эксперта в данной области или студентов-аспирантов, возможно, работающих в связке с современным ИИ и специализированными алгебраическими программами».
Для обеспечения автоматической проверки ответов, задачи FrontierMath сформулированы таким образом, что их решения представляют собой либо целые числа, либо четко определенные математические объекты. Создатели исключили возможность случайного угадывания: правильный ответ требует сложных численных решений, вероятность случайного попадания которых меньше 1%.
Математик Эван Чен в своем блоге разъяснил, чем FrontierMath отличается от традиционных математических олимпиад, например Международной математической олимпиады (IMO). Задачи IMO требуют креативного мышления, избегая при этом узкой специализации и сложных вычислений. В случае с FrontierMath «сохраняется креативный компонент, но два других аспекта изменены на противоположные», объяснил Чен.
«Так как у ИИ в распоряжение невероятные вычислительные мощности, с помощью их можно создавать задачи, решения которых легко проверить. Это похоже на подход в IOI или Project Euler, где вместо “докажи теорему” задача сводится к “реализуй алгоритм в коде”», — пояснил Чен.
Epoch AI планирует регулярно проверять ИИ на задачах из FrontierMath и со временем расширять их количество. В ближайшие месяцы организация также обещает представить дополнительные примеры задач, чтобы исследовательские команды могли проводить тестирование своих моделей.