Google DeepMind запустил мощную версию своей модели искусственного интеллекта Gemini Robotics для мобильных устройств. Gemini Robotics On-Device — это новая модель искусственного интеллекта Google, которая позволяет делать локальные выводы, обобщать задачи и управлять мелкой моторикой реальных роботов. Новая система может управлять физическими роботами, не полагаясь на облачное подключение. Как указывается, это стало важным шагом в развертывании быстрой, адаптивной робототехники общего назначения в реальных условиях.

Согласно опубликованным данным, модель Gemini Robotics On-Device воплощает мультимодальное мышление Gemini 2.0 в роботах, не требующих подключения к интернету. Она создана для работы в условиях, критичных к задержкам, а также в местах с плохим или отсутствующим подключением. Благодаря высокой степени обобщения задач, пониманию естественного языка и управлению мелкой моторикой, эта модель позволяет роботам выполнять сложные задачи непосредственно на устройстве. Google также выпускает полный комплект для разработки программного обеспечения (SDK) для поддержки экспериментов и настройки.
В сообщении Google указывается, что, в отличие от своего предшественника, подключенного к облаку, Gemini Robotics On-Device работает полностью на самом роботе. Это обеспечивает более быструю реакцию и повышает надежность, особенно в автономном режиме или в условиях ограниченного доступа. Он уже способен выполнять стандартные задачи и может адаптироваться к новым с минимальными затратами данных, проведя всего от 50 до 100 демонстраций.
“Он достаточно мал и эффективен, чтобы работать непосредственно на роботе”, - рассказала Каролина Парада, глава отдела робототехники в Google DeepMind. Она добавила: “Я бы подумала об этом как о стартовой модели или как о модели для приложений, которые просто плохо подключаются”. В сообщении подчеркивается, что флагманская гибридная модель остается более мощной. “Мы на самом деле очень удивлены тем, насколько эффективна эта модель с встроенным устройством”, - сказал Парада.
Указывается, что модель была разработана на роботе Google ALOHA, но была адаптирована и для других устройств, включая Apollo humanoid от Apptronik и двурукую Franka FR3. Она выполняет подробные действия, такие как расстегивание молний на сумках и складывание одежды, с плавным выводом с низкой задержкой. Это также первая версия робототехнической модели DeepMind, которую разработчики могут точно настроить. Тонкая настройка включает в себя дистанционное управление роботом для выполнения задачи несколько раз. Это дает модели достаточный опыт для выполнения этой задачи автономно. Разработчики могут протестировать модель в симуляторе Google MuJoCo или в реальных условиях.
Сообщается, что система Gemini Robotics On-Device подходит для систем, требующих обеспечения безопасности. Она обрабатывает все данные локально, помогая защитить конфиденциальность пользователей в таких случаях, как здравоохранение. Ее автономные возможности обеспечивают непрерывную работу даже при нестабильном подключении. Парада отметила, что традиционное обучение с подкреплением делает обучение медленным и хрупким. Генеративный ИИ, напротив, позволяет роботам делать обобщения с минимальными затратами. “Он использует мультимодальное понимание мира Gemini для решения совершенно новой задачи”, - пояснила она. “С полноценной системой Gemini Robotics вы подключаетесь к модели, которая рассуждает о том, что делать безопасно, и точка”, - сказал Парада.

