Google представила модель генерации видео Veo 3 и модель генерации изображений Imagen 4

По словам Google, видеомодель Veo 4 будет поддерживать встроенную генерацию звука для добавления фоновых звуков и диалогов.
21 мая 2025, среда 20:19
ITznaniya для раздела Блоги

Изображение: Google
Во вторник на мероприятии I/O 2025 компания Google представила следующее поколение своих моделей искусственного интеллекта (ИИ) для работы с изображениями и видео. Эти мультимодальные модели ИИ, получившие названия Imagen 4 и Veo 3, обладают новыми возможностями и более усовершенствованы по сравнению со своими предшественниками. В то время как Imagen 4 отличается более быстрым временем генерации и улучшенным рендерингом текста, Veo 3 получила встроенную функцию генерации звука и может интегрировать фоновый звук и диалоги в создаваемые видео. Вместе с новыми моделями технологический гигант также представил новое приложение для создания фильмов на основе искусственного интеллекта под названием Flow.

В своем блоге технологический гигант из Маунтин-Вью подробно описал новые модели ИИ для создания изображений и видео. Imagen 4 появился почти через год после выхода своего предшественника.

Теперь, в Imagen 4, компания сосредоточилась на скорости генерации и точности модели. Как и предыдущее поколение, последняя модель Imagen также поддерживает ввод текста и изображений. Генерируемые изображения демонстрируют улучшение в добавлении мелких деталей, таких как детализированные ткани, капли воды и мех животных на изображениях. Кроме того, она генерирует изображения гораздо быстрее, чем ее предшественница.

По словам Google, Imagen 4 также может генерировать более качественные изображения в стилях фотореализма и абстракции. Он генерирует изображение с широким диапазоном соотношений сторон и разрешением до 2K. Кроме того, компания улучшила рендеринг текста, уделив особое внимание написанию слов, а также типографике. Теперь модель лучше учитывает контекст при размещении текста, выборе размера шрифта, а также позволяет творчески подойти к выбору стиля шрифта.

В настоящее время Imagen 4 доступен в приложении Gemini, Whisk, Vertex AI (для предприятий), а также в приложениях Workspace, таких как Docs, Slides, Vids и других. Пока неясно, планирует ли Google распространить эту модель на всех пользователей Gemini или только на платных подписчиков. Позже в этом году компания также планирует запустить версию модели искусственного интеллекта, которая сможет генерировать изображения в 10 раз быстрее, чем Imagen 3.

Что касается Veo 3, то последняя модель генерации видео от Google теперь имеет встроенную функцию генерации звука и может включать в видео окружающие звуки, фоновый шум и диалоги. В демонстрационном ролике, показанном на мероприятии I/O 2025, два анимированных персонажа могли говорить друг с другом четким и естественным голосом.

Помимо этого, в Veo 3 также улучшено оперативное сопровождение, физика реального мира и точная синхронизация губ. В настоящее время она доступна подписчикам Google AI Ultra в США через приложение Gemini и недавно появившееся приложение Flow. Предприятия могут получить доступ к нему через платформу Vertex AI.