Платим блогерам
Блоги
Блогер
Каждый третий ответ чат-бота на вопрос является неправильным

Компания Google опубликовала оценку того, насколько надёжны современные чат-боты на основе искусственного интеллекта. Результаты не дают повода безоговорочно доверять программному обеспечению подобного рода.

Может быть интересно

Используя недавно представленный Google набор инструментов FACTS Benchmark Suite, компания установила, что даже лучшие ИИ-модели едва преодолевают отметку точности фактов в 70%. Лидирует в рейтинге от Google принадлежащий Google чат-бот Gemini 3 Pro, у которого насчитали 69% общей точности. Другие популярные системы от OpenAI, Anthropic и xAI показали результаты ниже. Выходит, каждый третий ответ чат-ботов является неверным, причём выдают они их с чрезвычайно уверенным видом.

Большинство существующих к настоящему моменту тестов ИИ оценивают то, может ли модель выполнить задачу, а не достоверность выдаваемой ими информации. Для сфер деятельности вроде финансов, здравоохранения и юриспруденции недостоверность информации может дорого стоить или даже быть опасной для жизни.

Набор тестов FACTS Benchmark Suite разработала команда Google FACTS совместно с Kaggle с целью прямой проверки точности фактов в четырёх реальных условиях. Один тест измеряет параметрические знания, рассматривая возможность модели отвечать на основанные на фактах вопросы с применением только той информации, которую она узнала во время обучения. Другой тест рассматривает эффективность поиска, оценивая применение веб-инструментов для получения точной информации. Третий тест фокусируется на том, придерживается ли модель предоставленного документа, не добавляя ложных деталей. Четвёртый тест исследует мультимодальное понимание, включая правильное чтение диаграмм, графиков и изображений.

Вслед за лидером в рейтинге располагаются Gemini 2.5 Pro и ChatGPT-5 с результатом почти 62%. Claude 4.5 Opus набрал около 51%, а Grok 4 - около 54%. Требующие обработки нескольких изображений задачи оказались наиболее слабым звеном в общем анализе, так как точность нередко опускалась ниже 50%. Ошибки здесь легко пропустить, но трудно исправить.

Из этого анализа можно сделать и без того очевидный вывод о том, что нельзя слепо доверять получаемой от чат-ботов информации. Вопрос лишь в том, не уходит ли на проверку выдаваемых чат-ботами результатов больше времени, чем если делать работу вовсе без них.

Источник: digitaltrends.com
+
Написать комментарий (0)
Теперь в новом формате

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Сейчас обсуждают