Источник изображения: Levart_Photographer / Unsplash
Новая модель OpenAI o3 продемонстрировала в независимых тестах значительно более низкие результаты, чем изначально заявляла компания. В декабре OpenAI сообщила, что их модель решает более 25% задач из сложного математического набора FrontierMath, однако свежие данные Epoch AI показывают лишь 10% успешных решений.
Разница в показателях вызвала вопросы к прозрачности тестирования моделей OpenAI. В компании же объяснили расхождение тем, что публичная версия o3 была оптимизирована для практического использования, тогда как высокие результаты в 25% были достигнуты на более мощной внутренней версии.
«Сейчас все доступные модели конкурентов показывают менее 2% на FrontierMath, — заявил директор по исследованиям OpenAI Марк Чен (Mark Chen). — Но во внутренних тестах с увеличенными вычислительными мощностями наша модель o3 демонстрирует свыше 25%». Однако, как выяснилось, эти цифры относятся к экспериментальной, а не к публичной версии.
Epoch AI, разработавшая бенчмарк FrontierMath, провела независимое тестирование и обнаружила, что o3 справляется лишь с 10% задач. Однако исследователи отметили, что разница могла возникнуть из-за разных условий тестирования, так как OpenAI использовала более мощную инфраструктуру и другую версию набора задач.
Фонд ARC Prize, тестировавший раннюю версию o3, подтвердил, что публичная модель отличается от тестовой и оптимизирована для чат-режима. «Все выпущенные версии o3 менее мощные, чем та, что мы тестировали», — уточнили в организации. При этом технический специалист OpenAI Вэньчжоу Чжоу (Wenda Zhou) пояснил, что публичная версия o3 лучше адаптирована для реальных задач и работает быстрее, что может приводить к различиям в тестах.
Эксперты предупреждают, что бенчмарки в сфере ИИ не всегда объективны, особенно когда их публикуют компании, заинтересованные в продвижении своих продуктов, и разница между лабораторными и реальными показателями остается серьезной проблемой отрасли. В OpenAI также отмечают, что уже выпущенные модели o3-mini-high и o4-mini действительно превосходят o3 в тестах FrontierMath, но обещают выпустить более мощную o3-pro в ближайшие месяцы.

