Вышедшая около года назад модель искусственного интеллекта GPT-4o получила доработки и новые функции. Самая свежая из них — генерация изображений. Теперь ИИ способен создавать качественные и детализированные изображения, следуя инструкциям на естественном языке и изменяя их до тех пор, пока результат полностью не совпадёт с тем, что вы себе представляли.

Обычно генерация изображения начинается с текстового запроса, после чего результат приходится корректировать изменением запроса. GPT-4o работает по-другому — вы просите создать изображение, затем даёте инструкции, что изменить, потом добавляете новые уточнения и так до тех пор, пока не получите нужный результат. Вот несколько примеров:
OpenAI отбирала лучшие примеры — многие изображения отмечены как «лучшие из 2» или даже «лучшие из 8», так что модели потребовалось несколько попыток для выдачи идеального результата. Тем не менее итог неплох, а интерфейс предельно простой.
GPT-4o может начать с нуля или изменить готовое изображение. Например, пользователь загрузил фото кота и попросил добавить ему шляпу детектива и монокль. Затем уточнил детали, превратив картинку в кадр из РПГ-игры.
Можно использовать сразу несколько изображений и комбинировать элементы из каждого в финальной версии. OpenAI утверждает, что GPT-4o отлично справляется со сложными инструкциями — модель может работать с 10–20 объектами на сцене без ошибок (другие ИИ обычно «спотыкаются» уже на 5–8 объектах).
Конечно, GPT-4o не идеальна, и OpenAI это признаёт. Иногда изображение обрезается снизу, остаются проблемы с «галлюцинациями», работа с более чем 10–20 объектами становится сложной, а отрисовка текста не на латинице требует доработки.

