Платим блогерам
Блоги
devchidable
Недавно команда Google Research представила новую разработку в области искусственного интеллекта — VideoPoet.

Такие компании, как OpenAI, Microsoft и Adobe, запустили чат-ботов с искусственным интеллектом, которые работают на основе специальных типов больших языковых моделей (LLM), превращающих введенный текст в изображение. Компания Google также участвует в этой борьбе, и на декабрь 2023 года компания сделала шаг вперед, выпустив LLM под названием VideoPoet, которая может превращать текст в видео.

Может быть интересно

Для того чтобы продемонстрировать возможности VideoPoet, Google Research выпустила короткий фильм, состоящий из нескольких коротких роликов, сгенерированных этой моделью.

Например, разработчики объясняют, что для сценария она попросили чат-бот Bard написать серию подсказок, чтобы подробно описать короткую историю о путешествующем еноте. Затем VideoPoet сгенерировал видеоклипы для каждой подсказки, а когда модель сшила все получившиеся ролики, программа подготовила финальный ролик для YouTube.

Имеется предварительно обученный видео-токенизатор MAGVIT V2 и аудио-токенизатор SoundStream, которые преобразуют изображения, видео- и аудиоклипы различной длины в последовательность дискретных кодов в едином словаре. Эти коды совместимы с текстовыми языковыми моделями, что облегчает интеграцию с другими модальностями, такими как текст. На декабрь 2023 года в систему обучения VideoPoet внедрена смесь мультимодальных целей генеративного обучения, включая преобразование текста в видео, текста в изображение, изображения в видео, продолжение видеокадров, перекрашивание и перерисовывание видео, стилизацию видео и преобразование видео в аудио.

Проще говоря, VideoPoet - это несколько отдельно обученных компонентов для разных задач, объединенных в единый LLM.

Источник: aibusiness.com
+
Написать комментарий (0)
Теперь в новом формате

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Сейчас обсуждают