В официальном блоге компания сообщила, что каждая новая версия Claude вынуждала пересматривать процедуру оценки соискателей на инженерные позиции, поскольку модель начала уверенно проходить внутренний тест. Claude Opus 4 опережал большинство претендентов при том же лимите времени, а Claude Opus 4.5 вышел на уровень самых сильных кандидатов, из‑за чего стало сложно отличить работу людей от решений ИИ в рамках домашнего экзамена.

На этом фоне Anthropic сочла необходимым переработать испытание, чтобы сохранить отчетливый вклад человека и по‑прежнему видеть разницу в уровне подготовки кандидатов.
Компания опубликовала исходный вариант домашнего тестового задания и предложила всем желающим попробовать улучшить результат Claude. Тем, кто превзойдет показатели модели, обещают внимательно рассмотреть резюме при найме.

