Компания Google опубликовала оценку того, насколько надёжны современные чат-боты на основе искусственного интеллекта. Результаты не дают повода безоговорочно доверять программному обеспечению подобного рода.

Используя недавно представленный Google набор инструментов FACTS Benchmark Suite, компания установила, что даже лучшие ИИ-модели едва преодолевают отметку точности фактов в 70%. Лидирует в рейтинге от Google принадлежащий Google чат-бот Gemini 3 Pro, у которого насчитали 69% общей точности. Другие популярные системы от OpenAI, Anthropic и xAI показали результаты ниже. Выходит, каждый третий ответ чат-ботов является неверным, причём выдают они их с чрезвычайно уверенным видом.
Большинство существующих к настоящему моменту тестов ИИ оценивают то, может ли модель выполнить задачу, а не достоверность выдаваемой ими информации. Для сфер деятельности вроде финансов, здравоохранения и юриспруденции недостоверность информации может дорого стоить или даже быть опасной для жизни.
Набор тестов FACTS Benchmark Suite разработала команда Google FACTS совместно с Kaggle с целью прямой проверки точности фактов в четырёх реальных условиях. Один тест измеряет параметрические знания, рассматривая возможность модели отвечать на основанные на фактах вопросы с применением только той информации, которую она узнала во время обучения. Другой тест рассматривает эффективность поиска, оценивая применение веб-инструментов для получения точной информации. Третий тест фокусируется на том, придерживается ли модель предоставленного документа, не добавляя ложных деталей. Четвёртый тест исследует мультимодальное понимание, включая правильное чтение диаграмм, графиков и изображений.

Вслед за лидером в рейтинге располагаются Gemini 2.5 Pro и ChatGPT-5 с результатом почти 62%. Claude 4.5 Opus набрал около 51%, а Grok 4 - около 54%. Требующие обработки нескольких изображений задачи оказались наиболее слабым звеном в общем анализе, так как точность нередко опускалась ниже 50%. Ошибки здесь легко пропустить, но трудно исправить.
Из этого анализа можно сделать и без того очевидный вывод о том, что нельзя слепо доверять получаемой от чат-ботов информации. Вопрос лишь в том, не уходит ли на проверку выдаваемых чат-ботами результатов больше времени, чем если делать работу вовсе без них.

