Модель искусственного интеллекта DeepMind RT-2 от Google поможет роботам обслуживать людей как R2D2

Блоги

30 июл. 2023, 18:53 New_Intel_Raptor_ES

Новое исследование с участием модели видение-язык-действие (Vision-Language-Action - VLA) DeepMind Robotic Transformer 2 (RT-2) от Google показывает многообещающие результаты в создании физического робота общего назначения, который может рассуждать, решать проблемы и интерпретировать информацию для выполнения действий.

Поклонники научной фантастики давно симпатизируют футуристическим верным роботам-компаньонам, таким как R2-D2 из "Звездных войн". Поклонники оригинальной трилогии были очарованы роботом в форме пылесоса, который гудел и гудел, преодолевая трудности. Почти каждый ребенок в конце 70-х и начале 80-х годов мечтал о собственном напарнике R2-D2. Такие компании, как Google, добились успехов в области робототехники, и ее недавние результаты RT-2 обещают, что R2-D2 будет доступен всем.

Согласно недавнему пресс-релизу Google DeepMind, работа с RT-2 связана с работой над RT-1, "моделью, обученной демонстрациям многозадачности, которая может изучать комбинации задач и объектов в роботизированных данных". Это исследование включало демонстрационные данные, собранные с помощью 13 роботов в течение 17 месяцев в условиях офисной кухни.

RT-2, по сути, учится на данных RT-1, кульминацией чего является модель VLA, которая может управлять роботом. Результат показывает, что RT-2 обладает улучшенными возможностями обобщения, а также семантическим и визуальным пониманием, которое выходит за рамки роботизированных данных, с которыми он изначально работал. В новом документе указывается, что это также включает в себя способность RT-2 интерпретировать новые команды и реагировать на команды пользователя, выполняя элементарные рассуждения, например, способность рассуждать "о категориях объектов".

RT-2 способен к многоэтапному семантическому мышлению. Это включает в себя возможность выбирать между объектами и тем, какой объект будет лучше для текущей работы, например, выбрать камень вместо листа бумаги, чтобы забить гвоздь.

РТ-2 рассуждает над тем, что лучше использовать для забивания гвоздя.

Google DeepMind заявляет: "VLM могут быть преобразованы в мощные модели видение-язык-действие (VLA), которые могут напрямую управлять роботом, комбинируя предварительное обучение VLM с данными робототехники".

Хотя до роботизированного друга, такого как R2-D2, может быть еще далеко, Google DeepMind и другие компании стремятся в ближайшем будущем предоставить более компетентного и способного робота-помощника как RT-2.

#google #искусственный интелект #deepmind

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Популярные статьи