Американский стартап Patronus AI разработал инструмент для поиска ошибок и фейков в работе генеративного искусственного интеллекта (genAI). Разработка получила название SimpleSafetyTests и уже сегодня может использоваться для проверки ответов чат-ботов.
SimpleSafetyTests был разработан специально для выявления неточностей и ошибок, которые могут возникнуть в процессе ответов ИИ. Этот инструмент проверяет правильность ответов на заданные вопросы и сравнивает их с данными из авторитетных источников. Таким образом, SimpleSafetyTests может выявить неточности и ложные сведения.
Поскольку платформы генеративного искусственного интеллекта (genAI), такие как ChatGPT, Dall-E2, AlphaCode и другие, мчатся вперед с головокружительной скоростью, удержать инструменты от "галлюцинаций" и выдачи ошибочных и даже дурацких ответов практически невозможно.
На сегодняшний день существует мало методов, обеспечивающих получение точной информации от больших языковых моделей (LLM), которые собственно служат основой для genAI.
По мере того, как инструменты искусственного интеллекта развиваются и совершенствуются в имитировании естественного человеческого языка, вскоре станет невозможно отличить поддельные результаты от реальных, что побуждает компании устанавливать некие "ограждения" против наихудших результатов, будь то случайные или преднамеренные действия со стороны AI.
Разработчики Patronus AI утверждают, что SimpleSafetyTests способен выявлять ошибки в работе генеративного AI с высокой степенью точности. Он может распознавать неточности, которые возникают в результате неправильного понимания вопросов или неверного форматирования ответа. Кроме того, SimpleSafetyTests может обнаружить и другие типы ошибок, такие как логические противоречия и недопустимые предположения.
Стартап Patronus AI уже начал тестирование SimpleSafetyTests в сотрудничестве с несколькими крупными компаниями, занимающимися разработкой ИИ. Результаты тестирования показали, что SimpleSafetyTests может улучшить качество работы genAI и уменьшить риск возникновения ошибок в его ответах.
SimpleSafetyTests также можно будет использовать для проверки работы чат-ботов, которые становятся все более популярными в различных отраслях, включая обслуживание фирмами клиентов, продажи и маркетинг. Используя этот инструмент, компании смогут гарантировать, что их чат-боты предоставляют клиентам точную информацию, а не фейк, из-за которого авторитет компании может пострадать.
"Мы помогаем компаниям автоматически выявлять ошибки языковых моделей в больших масштабах", — поясняет представитель компании. Известно, что крупные компании тратят миллионы долларов на внутренние команды контроля качества и внешних консультантов, которые вручную выявляют ошибки в электронных таблицах. Некоторые из этих компаний, занимающихся обеспечением качества, тратят дорогостоящее инженерное время на создание тестовых примеров, чтобы предотвратить возникновение этих ошибок. Теперь ситуация может в корне измениться.
В целом, SimpleSafetyTests представляет собой серьёзный шаг вперёд в области тестирования и проверки генеративного ИИ. Этот инструмент может реально стать незаменимым средством для разработчиков и компаний, которые хотят улучшить качество своей работы и избежать ошибок в ответах ИИ. Разработка Patronus AI позволяет нам надеяться на более надёжные и точные системы сгенерированных ответов Искусственным интеллектом в будущем.