Чтобы помочь ИИ понять мир, исследователи поместили его в робота

Вдохновение для нашей модели пришло из психологии развития. Мы пытались имитировать то, как младенцы изучают мир, развивают язык и свой опыт в этом мире - отметил руководитель проекта.
2 февраля 2025, воскресенье 05:10
Armagedon для раздела Блоги

Большие языковые модели вроде ChatGPT могут вести беседы, однако они не обладают настоящим пониманием слов, которые используют. Эти системы работают с данными из окружающего мира, но сами с этим миром не взаимодействуют. В отличие от них, человек воспринимает язык через личный опыт. Например, мы понимаем значение слова «горячий», потому что когда-то обожглись.

Исследовательская группа из Окинавского института науки и технологий создала модель искусственного интеллекта, основанную на работе мозга, состоящую из нескольких нейронных сетей. Хотя возможности этой модели ограничивались лишь пятью существительными и восемью глаголами, она смогла освоить не только сами слова, но и стоящие за ними понятия.

Прасанна Виджаярагхаван, руководитель проекта, отметил, что источником вдохновения послужило изучение процесса освоения языка у младенцев. Идея научить искусственный интеллект подобно тому, как учат маленьких детей, не новая, но ранее она использовалась преимущественно для стандартных нейронных сетей, которые связывали слова с изображениями. Команда также пыталась обучать ИИ при помощи видеоматериалов, снятых с помощью камеры GoPro, закреплённой на ребёнке. Однако выяснилось, что дети осваивают язык не только путём ассоциации предметов со словами, но и через активное взаимодействие с окружающим миром – они трогают предметы, манипулируют ими, бросают их, тем самым обучаясь мыслить и действовать на языке. Чтобы предоставить искусственному интеллекту аналогичный опыт, исследователи создали робота, способного взаимодействовать с окружающей средой.

Робот, разработанный командой Виджаярагхавана, представлял собой простую систему с манипулятором, который мог брать и перемещать объекты. Для обработки изображений использовалась обычная RGB-камера с разрешением 64x64 пикселя. Роботу предстояло выполнять задачи, такие как перемещение блоков разных цветов по командам вроде «перемести красный блок влево» или «положи красный блок на синий». Несмотря на кажущуюся простоту задач, сложность заключалась в создании искусственного интеллекта, который смог бы интерпретировать эти команды так же, как это делает человек. Виджаярагхаван подчеркнул, что цель состояла не в точной имитации работы мозга, а скорее в использовании принципов его функционирования.

Основной концепцией, лежащей в основе разработки, стала гипотеза о свободной энергии, согласно которой мозг строит прогнозы о внешнем мире на основе своих внутренних моделей и корректирует их на основании поступающей информации. Таким образом, прежде чем совершить какое-либо действие, человек мысленно представляет себе план, который впоследствии корректируется в процессе выполнения. Этот механизм лежит в основе всех наших действий, начиная от простых движений и заканчивая достижением долгосрочных целей.