Недавнее исследование, проведенное группой ученых из Гарвардской медицинской школы и Стэнфорда, показало, что система искусственного интеллекта o1-preview от OpenAI может превзойти врачей в диагностике сложных медицинских случаев. В ходе тестирования система достигла точности 78,3% при общей диагностике и 88,6% в сравнении с 70 конкретными случаями. Эти результаты значительно выше, чем у предшественника GPT-4, который продемонстрировал лишь 72,9% точности.
o1-preview особенно выделилась в области медицинского обоснования. Используя шкалу R-IDEA, система достигла идеальных результатов в 78 из 80 случаев. В то время как опытные врачи достигли идеальных результатов только в 28 случаях, ординаторы справились с задачей всего в 16 случаях. Эти цифры подчеркивают, насколько o1-preview эффективна в сложных диагностических ситуациях.
Исследователи отметили, что некоторые случаи могли быть частью данных, на которых обучалась система. Однако, когда o1-preview тестировали на новых случаях, она показала лишь незначительное снижение производительности. Доктор Адам Родман, один из авторов исследования, подчеркнул, что результаты имеют важное значение для медицинской практики, но предостерег от переоценки их значимости.
В сложных управленческих задачах, специально разработанных для проверки системы, o1-preview продемонстрировала результат в 86%. Это более чем вдвое превышает показатели врачей, использующих GPT-4 (41%), и традиционных инструментов (34%). Несмотря на это, система не идеальна. Например, при оценке вероятности пневмонии она предложила 70%, что значительно выше научного диапазона в 25-42%.
Исследователи обнаружили, что o1-preview хорошо справляется с задачами критического мышления, такими как диагностика и рекомендации по лечению, но сталкивается с трудностями при оценке вероятностей. Кроме того, система склонна давать подробные ответы, что может улучшить ее оценки. Однако исследование сосредоточилось только на работе o1-preview в одиночку, не учитывая, как она может взаимодействовать с врачами.
Некоторые критики утверждают, что диагностические тесты, предлагаемые o1-preview, часто слишком дороги для практического использования. После этого исследования OpenAI выпустила более мощные модели, такие как o3, которые показывают улучшенные результаты в решении сложных задач на рассуждение. Тем не менее, проблемы практической реализации и стоимости остаются актуальными.
Доктор Родман предостерегает от замены врачей на систему ИИ: «Это сравнительное исследование, и хотя оно может служить «золотым стандартом» для оценки, это не замена настоящей медицинской помощи». Исследователи подчеркивают необходимость разработки лучших методов оценки медицинских систем ИИ и призывают к более практическим тестам и клиническим испытаниям.