NVIDIA открыла код технологии Audio2Face для синхронизации анимации лиц и губ со звуком

Инструмент разработан на базе генеративного ИИ
25 сентября 2025, четверг 15:25
molexandr для раздела Блоги

Компания NVIDIA объявила, что её технология Audio2Face теперь доступна по лицензии MIT с открытым исходным кодом. Этот инструмент, входящий в портфолио генеративного ИИ компании, предназначен для синхронизации анимации лиц и губ со звуком в реальном времени. Анализируя фонемы, интонацию и эмоциональный тон, Audio2Face генерирует потоки данных, которые можно применять к 3D-моделям персонажей, делая их более выразительными и реалистичными.

Источник изображения: NVIDIA

Модель уже поддерживается плагинами для Autodesk Maya и Unreal Engine 5, кроме этого, NVIDIA выпускает SDK, фреймворк для обучения и примеры наборов данных. Разработчики смогут дорабатывать существующие модели или адаптировать их для своих проектов, расширяя возможности Audio2Face за пределы текущих интеграций. Доступные модели включают регрессионный и диффузионный варианты для синхронизации губ, а также сети Audio2Emotion, которые распознают эмоциональное состояние по голосу.

Разработчики игр уже применяют эту технологию. При необходимости система может заменить традиционные методы захвата движения, что делает её привлекательным вариантом для небольших студий и ускорения производственного процесса.

NVIDIA описывает Audio2Face как часть своего расширенного набора инструментов RTX для разработчиков на базе искусственного интеллекта, который также включает в себя SDK для нейронной компрессии текстур и глобального освещения. Выпуская Audio2Face с открытой лицензией, компания позволяет сообществу адаптировать и расширять возможности технологии для более широкого спектра приложений.