Новая модель от Google DeepMind решает одну из главных проблем робототехники: выполнение задач не по жёсткой инструкции, а с учетом реальной обстановки. Gemini Robotics-ER 1.6 позволяет машинам интерпретировать визуальные данные, планировать последовательность действий и определять, выполнена ли задача. Это переход от простого следования командам к контекстно-зависимому поведению.
Изображение: interestingengineering.com
Модель улучшила пространственное мышление. Робот теперь может идентифицировать объекты, считать их, определять отношения между ними и даже указывать на них как часть процесса рассуждения. Это помогает разбивать сложные задачи на мелкие шаги.
Модель также научилась понимать, успешно ли выполнен этап работы, что критически важно для автоматизации: система сама решает, повторить действие или двигаться дальше. Кроме того, робот может обрабатывать изображения с нескольких камер (например, с потолочной и с руки), чтобы составить полную картину, даже если что-то загораживает обзор.
Одно из самых практичных нововведений — это способность считывать показания манометров, смотровых стекол и цифровых дисплеев. Эту функцию разрабатывали вместе с Boston Dynamics для их робота Spot, который используется для инспекций на промышленных объектах. Модель увеличивает нужный участок, находит стрелку и отметки и вычисляет значение с высокой точностью. Если в более ранних версиях точность считывания составляла 23 %, то теперь достигает 93 %.
Google называет эту модель своей самой безопасной робототехнической системой. Она лучше распознает опасности и соблюдает правила, описанные в текстовых и визуальных сценариях. Gemini Robotics-ER 1.6 уже доступна разработчикам через Gemini API и Google AI Studio.