
Компания Anthropic решила разобраться, что движет ее ИИ-ассистентом Claude при общении с людьми. Для этого исследователи проанализировали 308 тысяч диалогов, в которых пользователи обсуждали с Claude 3.5 Sonnet самые разные темы — от бытовых советов до философских вопросов.
Анализ показал, что ответы ИИ можно разделить на пять категорий: практичность (эффективность, логичность), знания (точность информации), социальные нормы (вежливость), безопасность (избегание вреда) и личные предпочтения. Чаще всего Claude опирался на практические соображения — около половины ответов строились на принципах полезности и логической последовательности.
Интересно, что ИИ часто подстраивался под ценности собеседника. В 43% случаев он поддерживал точку зрения пользователя, даже повторяя его формулировки. Напрямую возражать Claude решался редко — всего в 5% диалогов, обычно когда запрос нарушал правила или этические нормы.
Исследователи также заметили, что стиль ответов менялся в зависимости от темы. Обсуждая отношения, Claude делал акцент на здоровых границах, а в исторических дискуссиях требовал точности фактов. Иногда в данных встречались странные паттерны — например, редкие упоминания "доминирования" или "аморальности", вероятно, связанные с попытками пользователей обойти ограничения.
Методология исследования включала строгие меры защиты конфиденциальности. Все данные анонимизировали, а для анализа использовали специальный фреймворк CLIO, исключающий утечку личной информации.
Результаты подтвердили, что Claude в целом следует принципам, заложенным разработчиками: помогать, но не вредить, быть честным и уважать выбор пользователя. Однако исследование также показало, что даже тщательно спроектированный ИИ не всегда предсказуем — его ответы сильно зависят от контекста и манеры общения собеседника.

