Исследовательская лаборатория ИИ Google «Google DeepMind» выпустила новый ИИ-инструмент для видеороликов: Veo 2, преемник Veo. Инструмент может превзойти модель Sora от OpenAI.
Инструмент создания видео Google VideoFX, в который был интегрирован Veo 2, в настоящее время создает только восьмисекундные видеоролики в формате 720p. Это означает, что Sora лучше работает, создавая клипы в формате 1080p длительностью 20 секунд.
VideoFX в настоящее время недоступен для широкой публики, но, по данным Google, находится в списке ожидания, из которого каждую неделю активируются новые пользователи. Veo 2 также будет доступен через платформу разработчиков Vertex AI, «как только модель будет готова к крупномасштабному развертыванию».
По словам Эли Коллинз, вице-президента по продуктам DeepMind, ИИ-инструмент должен быть готов в течение следующего года, но предстоит еще много работы. До тех пор дальнейшие улучшения будут вноситься на основе отзывов пользователей.
Как и его предшественник, Veo 2 создает видео из ввода текста или текста в сочетании с шаблонами изображений. Что нового, по мнению DeepMind, так это то, что Veo 2 генерирует клипы в разных стилях, предлагает лучшее понимание физики и элементов управления камерой, обеспечивая при этом более четкие текстуры — особенно в сценах с насыщенным движением, например, когда автомобиль мчится по шоссе.
Улучшенное управление камерой позволяет более точно изменять перспективу. Кроме того, движения, динамика, эффекты света и тени кажутся более реалистичными. Обновление также включает в себя более детальную мимику человека и улучшенные кинематографические эффекты.
Коллинз видит потенциал для улучшения прежде всего в «последовательности». Veo 2 может последовательно выполнять запрос в течение нескольких минут, но не работает в течение более длительных периодов времени. Представление сложных деталей, а также быстрых и динамичных движений также остается сложной задачей.
Google утверждает, что обучал Veo 2 с помощью различных видеороликов, не раскрывая источников. По данным TechCrunch, YouTube может быть возможным источником данных, поскольку платформа принадлежит Google. В основном используются «публичные данные», что, по мнению Google, представляет собой добросовестное использование. Согласия правообладателей не требуется.
Кроме того, DeepMind работает с художниками и продюсерами над дальнейшим улучшением моделей создания видео.
Чтобы предотвратить распространение фейковых видео, компания использует технологию водяных знаков SynthID, которая встраивает невидимые знаки в изображения, генерируемые Veo 2. Однако, как и все методы нанесения водяных знаков, SynthID не полностью защищен от подделки.