ByteDance, материнская компания TikTok, представила новую систему искусственного интеллекта под названием OmniHuman-1. ИИ позволяет создавать реалистичные видеоролики с участием людей из одной фотографии.
Сообщается, что OmniHuman-1 был обучен с использованием более 18 700 часов видеоматериалов. Система способна заставить людей говорить, жестикулировать, петь и даже играть на музыкальных инструментах. Их можно отображать синхронно с предоставленной звуковой дорожкой.
Компания представила несколько примеров. Особенно часть с Альбертом Эйнштейном (с 1:27) ясно показывает, насколько сильна эта модель.
Также очень реалистичным получился клип, в котором Тейлор Свифт предположительно исполняет заглавную песню японского аниме-сериала «Наруто».
Модель основана на VASA-1 от Microsoft, представленной около года назад. Это также искусственный интеллект, который может создавать реалистичные говорящие аватары из одного изображения и аудиофайла. Однако OmniHuman-1 превосходит VASA-1 по нескольким параметрам.
OmniHuman-1 может анимировать не только лица, но и движения тела и жесты. ИИ поддерживает различные форматы входных данных, такие как портреты, снимки в полный рост, а также может обрабатывать как речь, так и пение.
В настоящее время подробности о модели все еще держатся в секрете. Неясно, будет ли вообще запущен этот инструмент. На странице проекта на Github указано, что в настоящее время разработчики не предлагают никаких загрузок или подписок.
Такая модель также открывает большие возможности для злоупотреблений — например, в сфере фейковых новостей. Возможно, именно поэтому ИИ не будет доступен всем сразу.