Google DeepMind представил новые ИИ-генераторы видео и изображений, способные конкурировать с OpenAI

Блоги

18 дек. 2024, 08:50 kosmos_news

DeepMind — ориентированное на ИИ подразделение Google — 16 декабря анонсировало новую модель для генерации видео Veo 2. Она призвана составить конкуренцию Sora от OpenAI.

Исследовательская лаборатория ИИ Google «Google DeepMind» выпустила новый ИИ-инструмент для видеороликов: Veo 2, преемник Veo. Инструмент может превзойти модель Sora от OpenAI.
По данным Google Deep Mind, Veo 2 превосходит другие ведущие генераторы видео: кадр из созданного ИИ видеоролика. Фото: Google DeepMind
На финальной стадии разработки инструмент сможет создавать видеоролики продолжительностью более двух минут в разрешении до 4K (4096 x 2160 пикселей) — это соответствует четырехкратному увеличению разрешения и более чем шестикратному увеличению продолжительности клипов, созданных с помощью Sora.

Инструмент создания видео Google VideoFX, в который был интегрирован Veo 2, в настоящее время создает только восьмисекундные видеоролики в формате 720p. Это означает, что Sora лучше работает, создавая клипы в формате 1080p длительностью 20 секунд.

VideoFX в настоящее время недоступен для широкой публики, но, по данным Google, находится в списке ожидания, из которого каждую неделю активируются новые пользователи. Veo 2 также будет доступен через платформу разработчиков Vertex AI, «как только модель будет готова к крупномасштабному развертыванию».

По словам Эли Коллинз, вице-президента по продуктам DeepMind, ИИ-инструмент должен быть готов в течение следующего года, но предстоит еще много работы. До тех пор дальнейшие улучшения будут вноситься на основе отзывов пользователей.

Как и его предшественник, Veo 2 создает видео из ввода текста или текста в сочетании с шаблонами изображений. Что нового, по мнению DeepMind, так это то, что Veo 2 генерирует клипы в разных стилях, предлагает лучшее понимание физики и элементов управления камерой, обеспечивая при этом более четкие текстуры — особенно в сценах с насыщенным движением, например, когда автомобиль мчится по шоссе.

Улучшенное управление камерой позволяет более точно изменять перспективу. Кроме того, движения, динамика, эффекты света и тени кажутся более реалистичными. Обновление также включает в себя более детальную мимику человека и улучшенные кинематографические эффекты.

Коллинз видит потенциал для улучшения прежде всего в «последовательности». Veo 2 может последовательно выполнять запрос в течение нескольких минут, но не работает в течение более длительных периодов времени. Представление сложных деталей, а также быстрых и динамичных движений также остается сложной задачей.

Google утверждает, что обучал Veo 2 с помощью различных видеороликов, не раскрывая источников. По данным TechCrunch, YouTube может быть возможным источником данных, поскольку платформа принадлежит Google. В основном используются «публичные данные», что, по мнению Google, представляет собой добросовестное использование. Согласия правообладателей не требуется.

Кроме того, DeepMind работает с художниками и продюсерами над дальнейшим улучшением моделей создания видео.

Чтобы предотвратить распространение фейковых видео, компания использует технологию водяных знаков SynthID, которая встраивает невидимые знаки в изображения, генерируемые Veo 2. Однако, как и все методы нанесения водяных знаков, SynthID не полностью защищен от подделки.

#технологии #искусственный интеллект #google deepmind

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Популярные статьи

Популярные новости

Популярные статьи

Блог

Авторы

Статистика разгона

Закладки