Весной 2025 года исследователи из норвежской ИИ-лаборатории Andon Labs продемонстрировали, что большие языковые модели (LLM), такие как Claude 3.5 Sonnet, с трудом справляются с управлением виртуальным торговым автоматом.
Для этого роботы-пылесосы должны были перейти в другую комнату и найти пачку масла среди различных предметов. Затем они должны были вернуться к инструкторам и доставить данный продукт. Особая сложность заключалась в том, что за это время человек мог переместиться в другое место в комнате.
Помимо способности перемещаться и прикрепляться к зарядной станции, робот с искусственным интеллектом также мог делать фотографии. Как показал эксперимент, ни один из использованных LLM, включая Gemini 2.5 Pro, Claude Opus 4.1, Grok 4, Llama 4 Maverick и GPT-5, не достиг точности более 40%.
Проблемы включали трудности с пространственным мышлением и недостаточную осведомлённость о собственных ограничениях. В некоторых случаях роботы падали с лестницы. Это происходило либо потому, что они «не знали», что у них есть колёса, либо потому, что они недостаточно хорошо воспринимали окружающее пространство, пишет TechCrunch.