Ученые из МФТИ, AIRI и Федерального исследовательского центра «Информатика и управление» РАН совершили значительный прорыв в разработке интеллектуальных роботизированных систем. Их новейший алгоритм позволяет роботам выполнять сложные задачи, опираясь на текстовые указания и визуальные данные. Это открывает двери к созданию автономных помощников, способных справиться с бытовыми задачами без человеческого вмешательства.
Прототип, демонстрирующий возможности этой технологии, - роборука, которая успешно сортирует кубики по цветам, используя для этого инструкции и обратную связь через видеокамеры. Разработчики вдохновились моделью GPT для создания алгоритма, который переводит текстовые команды в конкретные действия, а затем адаптирует свои дальнейшие действия, основываясь на визуальном анализе ситуации.
Особенностью проекта является использование RozumFormer, мультимодальной модели, способной обрабатывать как текстовые, так и визуальные данные. Это обеспечивает роботам более глубокое понимание окружающего мира и повышает их адаптивность к различным задачам.
Алексей Ковалев, один из соавторов работы, подчеркивает, что ключевым достижением стало обучение модели восприятию цветов, расстояний и других параметров, что позволило роботу самостоятельно планировать действия на основе полученной информации. Такой подход значительно расширяет потенциал использования роботов в быту, от мытья посуды до уборки и сортировки предметов.
Теперь ученые ставят перед собой задачу научить модель запоминать и выполнять более длинные и сложные цепочки действий, что сделает роботов еще более автономными и функциональными помощниками в повседневной жизни.