NVIDIA представила Lyra 2.0 – ИИ-систему для создания 90-метровых 3D-сцен из одной фотографии

Создание стабильных 3D-сцен по одному изображению остается сложной задачей для моделей искусственного интеллекта. NVIDIA предложила новый подход, направленный на устранение накопления ошибок при построении виртуального пространства.
17 апреля 2026, пятница 16:18
Global_Chronicles для раздела Блоги

NVIDIA представила систему Lyra 2.0. Она строит трехмерные сцены на основе одной фотографии и формирует видео с управляемым движением виртуальной камеры. Затем система преобразует эти ролики в 3D-представление, доступное для просмотра в реальном времени.

<span class="fr-mk" style="display: none;"> </span><span class="fr-mk" style="display: none;"> </span><span class="fr-mk" style="display: none;"> </span><span class="fr-mk" style="display: none;"> </span>Скриншот - nvidia.com/labs

Разработчики отмечают две основные проблемы существующих моделей, связанных с тем, что ИИ забывает ранее увиденные области при выходе камеры за пределы кадра. Ошибки накапливаются, и результат постепенно ухудшается.

<span class="fr-mk" style="display: none;"> </span><span class="fr-mk" style="display: none;"> </span><span class="fr-mk" style="display: none;"> </span><span class="fr-mk" style="display: none;"> </span>

Lyra 2.0 решает это иначе. Система сохраняет геометрию каждого кадра и использует ее при возврате камеры в уже пройденные точки. Это помогает удерживать структуру сцены. Во время обучения модель также сталкивается с собственными ошибками и учится их исправлять.

Согласно исследовательской работе, сгенерированные сцены могут охватывать примерно 90 метров. В тестах модель превзошла несколько других решений по качеству изображения, согласованности и управлению камерой.

Результат можно использовать в симуляторах, включая Nvidia Isaac Sim. Сейчас система работает только со статичными сценами.