Инновационные способности Alter3 основаны на интеграции GPT-4, позволяющей ему принимать разнообразные позы: от случайных селфи до игривых имитаций призрака. В отличие от традиционных роботов, требующих заранее запрограммированных действий, Alter3 автономно генерирует действия, динамически реагируя на разговорные сигналы. Команда Токийского университета описывает это как значительный прогресс, подробно описанный в их исследовательской статье, опубликованной в Arxiv.
Традиционно объединение моделей большого языка (LLM) с роботами было сосредоточено на совершенствовании коммуникации и имитации реалистичных ответов. Тем не менее, японская команда пошла еще дальше, позволив понимать и выполнять сложные инструкции, повышая автономность и функциональность роботов. Чтобы преодолеть проблемы, связанные с низкоуровневым управлением роботом и аппаратными ограничениями, команда разработала метод перевода выражений человеческих движений в исполняемый код для Android.
Во время взаимодействия Alter3 может получать человеческие команды, такие как «Сделай селфи на iPhone», и посредством запросов к GPT-4 автономно переводить их в код Python для выполнения. Этот новаторский подход освобождает разработчиков от ручного программирования каждой части тела, позволяя пользователям легко изменять позы или указывать различия.
В то время как нижняя часть тела Alter3 остается неподвижной, прикрепленной к подставке, что ограничивает его текущие возможности, инновации в движении верхней части тела заслуживают внимания. Робот, оснащенный 43 приводами для мимики и движений конечностей, имитирует человеческие позы и эмоции с беспрецедентной плавностью. Интеграция GPT-4 освободила робота от тщательного ручного управления, способствуя более тонкому и контекстно-зависимому взаимодействию.
Команда предполагает, что Alter3 будет эффективно проявлять контекстуально соответствующие выражения лица и жесты, демонстрируя потенциал эмоционально резонансных взаимодействий в гуманоидной робототехнике.