Платим блогерам
Блоги
Global_Chronicles
Anthropic проанализировала более 300 тысяч разговоров с Claude.ai, чтобы понять, какие ценности влияют на его ответы. Исследование показало, как ИИ балансирует между полезностью и этикой.

Компания Anthropic решила разобраться, что движет ее ИИ-ассистентом Claude при общении с людьми. Для этого исследователи проанализировали 308 тысяч диалогов, в которых пользователи обсуждали с Claude 3.5 Sonnet самые разные темы — от бытовых советов до философских вопросов.  

Может быть интересно

Анализ показал, что ответы ИИ можно разделить на пять категорий: практичность (эффективность, логичность), знания (точность информации), социальные нормы (вежливость), безопасность (избегание вреда) и личные предпочтения. Чаще всего Claude опирался на практические соображения — около половины ответов строились на принципах полезности и логической последовательности.  

Интересно, что ИИ часто подстраивался под ценности собеседника. В 43% случаев он поддерживал точку зрения пользователя, даже повторяя его формулировки. Напрямую возражать Claude решался редко — всего в 5% диалогов, обычно когда запрос нарушал правила или этические нормы.  

Исследователи также заметили, что стиль ответов менялся в зависимости от темы. Обсуждая отношения, Claude делал акцент на здоровых границах, а в исторических дискуссиях требовал точности фактов. Иногда в данных встречались странные паттерны — например, редкие упоминания "доминирования" или "аморальности", вероятно, связанные с попытками пользователей обойти ограничения.  

Методология исследования включала строгие меры защиты конфиденциальности. Все данные анонимизировали, а для анализа использовали специальный фреймворк CLIO, исключающий утечку личной информации.  

Результаты подтвердили, что Claude в целом следует принципам, заложенным разработчиками: помогать, но не вредить, быть честным и уважать выбор пользователя. Однако исследование также показало, что даже тщательно спроектированный ИИ не всегда предсказуем — его ответы сильно зависят от контекста и манеры общения собеседника.

1
Показать комментарии (1)
Теперь в новом формате

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Сейчас обсуждают