
Компания Google объявила, что обновила свою фирменную нейросеть для генерации изображений. Номер версии остался прежним, система всё ещё называется Imagen 3, однако её качество было заметно улучшено.
Среди изменений заявлены улучшенное создание изображений в различных стилях, более точное следование пользовательским инструкциям (промтам) и более яркие, композиционно сбалансированные эффекты. Также Google обещает заметно выросшую детализацию.
Вот некоторые примеры того, на что способна улучшенная версия Imagen 3:




Впрочем, самым интересным моментом стала публикация Google рейтинга генераторов изображений, в котором их система заняла первое место.
Если Imagen 2 была почти в конце рейтинга, а прежняя Imagen 3 уступала нескольким конкурентам, то обновлённая Imagen 3 (002) опередила буквально всех.
Позади остались прежние лидеры в лице Recraft V3, Ideogram V2 и Flux 1.1 Pro. Также новинке удалось обойти наиболее продвинутую версию Sable Diffusion 3.5 Large и актуальную Midjourney 6.

Последнее, впрочем, вызывает немало вопросов, т. к. в различных открытых рейтингах Midjourney занимает куда более высокие позиции (см., например, голосование на Artificial Analysis). Если же верить рейтингу Google, то Midjourney уступает даже давно не обновлявшейся системе Dall-E 3.
В технической документации к обновлению Imagen 3 помимо уже показанного выше общего рейтинга можно обнаружить две отдельные метрики, из которых он получился:

Первая – это визуальное качество, по которому Imagen 3 обходит ближайшего конкурента лишь чуть-чуть. Вторая метрика – точность следования запросу пользователя. По мнению Google, именно здесь превосходство Imagen 3 над конкурентами выражено наиболее сильно.
Увы, в отличие от большинства других систем, попробовать Imagen 3 из России пока весьма непросто. Генератор доступен лишь с официального сайта Google Labs, наотрез отказывается работать с пользователями из России и бонусом требует авторизации в аккаунте Google.
Напоследок заметим, что Imagen 3 не единственный подобный проект Google. Параллельно с обновлением Imagen 3 компания анонсировала свой новый видеогенератор Veo 2, утверждая, что он превосходит Sora от OpenAI. Впрочем, доступ к генератору, как и к его предшественнику, ограничен даже сильнее, чем у Imagen, т. к. реализован по системе списка ожиданий и приглашений.
Одновременно с улучшенной Imagen 3 вчера также был представлен работающий на её основе инструмент Whisk. Он предназначен для качественного смешивания стилей, сцен и персонажей между собой в единое изображение.
Наконец, большой сюрприз может преподнести анонсированный недавно умный чат-бот Gemini 2.0, который стал полностью мультимодальным. Ему теперь не нужен отдельный генератор изображений и он может создавать высококачественные иллюстрации собственными силами.
Причём модель демонстрирует крайне высокую степень «понимания» графики. Например, при виде картинки с газовой плитой и запросе «что будет, если повернуть вентиль» система перерисовывает картинку так, что над одной из конфорок загорается огонь. Несмотря на то, что сама Gemini 2.0 частично (самая простая версия Flash) уже доступна, функцию работы с графикой в ней обещают включить лишь в начале следующего года.

