Все более широкое развитие языковых моделей, также известных как LLM, заставляет задуматься об их потенциальной пользе для общества, особенно в таких важных областях, как медицина. Недавнее исследование, проведенное Школой клинической медицины Кембриджского университета, о котором сообщает Financial Times, раскрывает интригующие выводы относительно последней версии GPT-4 от OpenAI.
Результаты GPT-4 превзошли человеческие, обеспечив 60 правильных ответов из 87. Это достижение заметно превосходит средние показатели младших врачей и приближается к уровню стажеров-офтальмологов, хотя и немного отстает от экспертов-офтальмологов, которые в среднем дали 66 правильных ответов. В отличие от них, GPT-3.5 набрал 42 балла соответственно.
Хотя эти результаты подчеркивают потенциальную полезность LLM в медицинских оценках, они также указывают на соответствующие риски и проблемы. Ограниченный набор вопросов в исследовании, особенно в некоторых категориях, намекает на вариативность в реальных сценариях.