NVIDIA представила систему Lyra 2.0. Она строит трехмерные сцены на основе одной фотографии и формирует видео с управляемым движением виртуальной камеры. Затем система преобразует эти ролики в 3D-представление, доступное для просмотра в реальном времени.

Скриншот - nvidia.com/labs
Разработчики отмечают две основные проблемы существующих моделей, связанных с тем, что ИИ забывает ранее увиденные области при выходе камеры за пределы кадра. Ошибки накапливаются, и результат постепенно ухудшается.
Lyra 2.0 решает это иначе. Система сохраняет геометрию каждого кадра и использует ее при возврате камеры в уже пройденные точки. Это помогает удерживать структуру сцены. Во время обучения модель также сталкивается с собственными ошибками и учится их исправлять.
Согласно исследовательской работе, сгенерированные сцены могут охватывать примерно 90 метров. В тестах модель превзошла несколько других решений по качеству изображения, согласованности и управлению камерой.
Результат можно использовать в симуляторах, включая Nvidia Isaac Sim. Сейчас система работает только со статичными сценами.

