ByteDance представила ИИ OmniHuman, способный генерировать видео на основе фотографии

Компания ByteDance разработала OmniHuman - систему искусственного интеллекта, способную генерировать реалистичные видеоролики на основе одной фотографии. Технология анимирует все тело и способна синхронизировать движения и жесты с речью.
7 февраля 2025, пятница 01:30
ITznaniya для раздела Блоги

Компания ByteDance представила OmniHuman - модель искусственного интеллекта, способную преобразовать одно изображение в видео, в котором объект говорит, поет и двигается естественно. По сравнению с предыдущими решениями по созданию видео на основе искусственного интеллекта, OmniHuman способна воспроизводить все тело в движении и делать анимацию более правдоподобной.

Система использует стратегию обучения под названием «омни-условия», которая объединяет текстовый ввод, аудио и движения тела для повышения качества генерации видео. Эталонный набор данных включает в себя более 18 700 часов человеческих записей, что позволяет ИИ изучить широкий спектр выражений и жестов. Эта методика позволяет оптимизировать использование имеющейся информации и добиться более плавной и последовательной визуализации анимации.

По словам исследователей из ByteDance, OmniHuman превосходит существующие модели по реалистичности и согласованности движений, что подтверждают внутренние тесты качества. Помимо создания видео с разговаривающими людьми, система способна изображать субъектов во время игры на музыкальных инструментах или выполнения сложных движений.

Разработка OmniHuman происходит в условиях жесткой конкуренции между крупнейшими компаниями отрасли, включая Google, Meta* и Microsoft, которые вкладывают средства в создание передовых систем генерации видео. Внедрение этой технологии открывает новые возможности для создания цифрового контента, но также поднимает вопросы об этичности использования и возможности манипулирования изображением. ByteDance официально представит проект на предстоящей конференции по компьютерному видению, подробности которой пока не разглашаются.

ByteDance - китайская транснациональная технологическая компания, основанная в 2012 году и наиболее известная как создатель TikTok, глобально успешной платформы для обмена видео. Компания разрабатывает и управляет несколькими продуктами на основе искусственного интеллекта, включая новостной агрегатор Toutiao и другие цифровые развлекательные инструменты. Базируясь в Пекине, ByteDance инвестирует значительные средства в исследования в области искусственного интеллекта и уже разработала несколько передовых технологий для создания контента, распознавания лиц и автоматического создания видео.

*компания признана экстремистской организацией и запрещена в России.