В своем блоге технологический гигант из Маунтин-Вью подробно описал новые модели ИИ для создания изображений и видео. Imagen 4 появился почти через год после выхода своего предшественника.
Теперь, в Imagen 4, компания сосредоточилась на скорости генерации и точности модели. Как и предыдущее поколение, последняя модель Imagen также поддерживает ввод текста и изображений. Генерируемые изображения демонстрируют улучшение в добавлении мелких деталей, таких как детализированные ткани, капли воды и мех животных на изображениях. Кроме того, она генерирует изображения гораздо быстрее, чем ее предшественница.
По словам Google, Imagen 4 также может генерировать более качественные изображения в стилях фотореализма и абстракции. Он генерирует изображение с широким диапазоном соотношений сторон и разрешением до 2K. Кроме того, компания улучшила рендеринг текста, уделив особое внимание написанию слов, а также типографике. Теперь модель лучше учитывает контекст при размещении текста, выборе размера шрифта, а также позволяет творчески подойти к выбору стиля шрифта.
В настоящее время Imagen 4 доступен в приложении Gemini, Whisk, Vertex AI (для предприятий), а также в приложениях Workspace, таких как Docs, Slides, Vids и других. Пока неясно, планирует ли Google распространить эту модель на всех пользователей Gemini или только на платных подписчиков. Позже в этом году компания также планирует запустить версию модели искусственного интеллекта, которая сможет генерировать изображения в 10 раз быстрее, чем Imagen 3.
Что касается Veo 3, то последняя модель генерации видео от Google теперь имеет встроенную функцию генерации звука и может включать в видео окружающие звуки, фоновый шум и диалоги. В демонстрационном ролике, показанном на мероприятии I/O 2025, два анимированных персонажа могли говорить друг с другом четким и естественным голосом.
Помимо этого, в Veo 3 также улучшено оперативное сопровождение, физика реального мира и точная синхронизация губ. В настоящее время она доступна подписчикам Google AI Ultra в США через приложение Gemini и недавно появившееся приложение Flow. Предприятия могут получить доступ к нему через платформу Vertex AI.