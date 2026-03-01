Международная группа исследователей разработала тест Humanity‘s Last Exam из 2500 вопросов, чтобы проверить пределы возможностей современных нейросетей. Лучшие системы пока отвечают правильно лишь на 40-50 процентов заданий.

Привычные тесты для оценки искусственного интеллекта перестали работать. Нейросети решают их слишком хорошо. В связи с этим, почти тысяча исследователей со всего мира взялась за создание нового испытания. Они назвали его Humanity‘s Last Exam ("Последний экзамен человечества"). В тесте около 2500 вопросов. Там есть математика и физика, древние языки и биология, история и лингвистика. Каждый вопрос требовал глубоких знаний, - то есть ответ нельзя было найти простым поиском в интернете.

Все задания проверили на существующих нейросетях. Если модель отвечала сразу правильно, вопрос убирали. В итоге остались только те, с которыми ИИ пока не справляется.

Результаты первых тестов оказались скромными. GPT-4 набрал 2,7%,. Claude 3.5 Sonnet чуть больше 4,1%. Неплохой результат у OpenAI - целых 8%. Новые версии Gemini и Claude добрались до 40-50%. Но до полного успеха еще далеко.

Профессор Тунг Нгуен из Техасского университета объясняет смысл проекта. Люди часто думают, что если ИИ решает тесты, значит он понимает мир как человек. Но это не так. Машины хорошо ищут закономерности, но глубинного понимания у них нет. Новый экзамен был нужен, чтобы увидеть эту разницу.

Название пугающее, но ученые не хотят сказать, что человек проиграл. Они показывают, сколько знаний остаются исключительно человеческими. ИИ еще достаточно далеко до настоящего интеллекта. Отмечается, что часть вопросов была опубликована открыто, но основной массив держат в секрете. Это связано с тем, что нейросети могут просто заучить ответы, и тогда смысл разработки теряется.

Нгуен написал 73 вопроса для экзамена. Это второй результат среди всех участников. Больше всего он готовил заданий по математике и компьютерным наукам. Исследователь говорит, что проект объединил людей из разных областей. Историки работали рядом с физиками, лингвисты с медиками. Только так можно создать настоящую проверку для машин. Экзамен опубликовали в журнале Nature.