ChatGPT получил обновление - теперь он умеет генерировать изображения в процессе общения

Блоги

27 мар. 2025, 01:20 Fantoci

На данный момент встроенная генерация изображений в ChatGPT доступна всем пользователям планов Plus, Pro, Team, а также бесплатным пользователям.

Раньше, чтобы получить от ChatGPT картинку, нужно было разными хитрыми путями переключаться на DALL-E, словно звонить в другой отдел огромной корпорации. Забудьте! Теперь все гораздо проще и удобнее. Благодаря новой модели GPT-4o, нейросеть научилась рисовать прямо "на месте", внутри обычного окна чата. По словам разработчиков, теперь наш верный помощник ChatGPT стал еще и талантливым художником по совместительству. Просто опишите словами, что хотите увидеть, и вуаля! – нейросеть тут же сотворит цифровое чудо по вашему заказу. Представляете, какие возможности открываются? И самое приятное, что это волшебство доступно не только для "избранных" подписчиков Plus, Pro и Team, но и для нас, обычных пользователей бесплатной версии (хотя пока и с небольшими ограничениями, ну куда ж без них).

OpenAI не перестают нас удивлять. Они как фокусники, которые каждый раз достают из шляпы что-то еще более невероятное, чем предыдущее. Вот и сейчас – наделили ChatGPT способностью генерировать изображения прямо в процессе диалога. Помните эти неудобные танцы с бубном вокруг DALL-E? Слава богу, в прошлом! Теперь никаких лишних движений. Выбираете модель GPT-4o, пишете текстовый запрос – и получаете картинку, не выходя из привычного интерфейса. Раньше ChatGPT как бы "посылал запрос" на картинку в соседний отдел – DALL-E, а теперь все происходит внутри, как по волшебству, благодаря собственным мультимодальным способностям новой модели. В OpenAI не скромничают и обещают "точные, качественные и фотореалистичные результаты". Что это значит на практике? А то, что картинки должны получаться четкими, детализированными, похожими на настоящие фотографии, а не на галлюцинации нейросети. Меньше странных артефактов, больше соответствия запросу – звучит многообещающе.

Разработчики особо подчеркивают таланты GPT-4o в двух функциях: во-первых, она отлично справляется с текстом на изображениях (наконец-то нейросети научились рисовать буквы без ошибок!), а во-вторых, она понимает запросы как никто другой и активно использует свою огромную "память" – базу знаний и контекст вашей беседы. Более того, она не просто рисует с нуля, но и может трансформировать ваши загруженные изображения, дорисовывать их, улучшать или использовать как вдохновение для чего-то совершенно нового. Как они этого добились? Секрет, как всегда, в обучении. Модель кормили тоннами данных – миллионами изображений и текстовых описаний к ним. И она научилась понимать не просто связь между словом и картинкой, а гораздо больше – как изображения "общаются" друг с другом, какие у них есть общие черты и как они взаимодействуют.

Примеры изображений с текстом, сгенерированных GPT-4o (Источник: OpenAI)

И это еще не все! GPT-4o оказался настоящим мастером "многолюдных" изображений. Если раньше нейросети обычно спотыкались на картинках, где больше 8 объектов, то новая модель легко справится и с 20! Представьте себе – целую толпу людей или сложную городскую панораму. И вишенка на торте – нейросеть не только рисует с нуля, но и виртуозно редактирует уже готовые изображения. Хотите улучшить качество старой фотографии? Или превратить детский рисунок в полноценную иллюстрацию? Легко! В демонстрационном видео показали, как исследователь загрузил в чат обычный карандашный набросок комикса, и нейросеть мгновенно превратила его в яркую цифровую страницу.

Конечно, разработчики OpenAI не витают в облаках и смотрят на свое творение без розовых очков. Они честно признают: "Да, модель еще не идеальна. Мы знаем о некоторых ограничениях и будем работать над их устранением, постоянно улучшая модель". Ну а кто бы сомневался? Совершенству нет предела, особенно в мире нейросетей, где каждый день приносит что-то новое. Чтобы сделать генерацию изображений более прозрачной и защитить нас от подделок, OpenAI будет добавлять в каждую картинку специальные "водяные знаки" – метаданные C2PA. Это цифровая подпись, которая позволит любому желающему убедиться, что изображение создано искусственным интеллектом, а именно – GPT-4o. И, конечно, безопасность превыше всего. ChatGPT будет фильтровать запросы и отклонять все, что связано с незаконным контентом, вроде детской порнографии или дипфейков. "Когда речь идет о реальных людях, – говорят в OpenAI, – мы вводим особо жесткие ограничения на то, что можно генерировать. Особенно строго следим за изображениями наготы и насилия". В общем, стараются сделать все по-честному и безопасно. А еще важная деталь: нейросеть не будет блокировать генерацию изображений знаменитостей и публичных личностей, но если кто-то из них захочет "отказаться" от цифровых двойников, такая возможность будет предоставлена. Своеобразная защита от нежелательного внимания нейросетей, звучит разумно.

На момент релиза новый функционал доступен всем платным подписчикам, а также бесплатным пользователям ChatGPT. Корпоративным и образовательным клиентам придется немного подождать. Интересно, что возможности GPT-4o по генерации картинок уже встроены и в Sora – инструмент для создания видео. Лимиты для бесплатных пользователей пока не объявили, но, скорее всего, они будут примерно как у DALL-E – около трех картинок в день. Впрочем, в OpenAI говорят, что цифры могут поменяться в зависимости от спроса. Ну и для ценителей классики – DALL-E будет также работать отдельно от ChatGPT! "Если вы поклонник DALL-E, – успокаивают в OpenAI, – вы все еще сможете найти его в виде отдельного GPT". Так что выбор за вами.

В общем, кажется, нас ждет очень интересное время. ChatGPT научился рисовать, и это только начало. Кто знает, какие еще сюрпризы приготовили нам разработчики нейросетей в будущем? Будем наблюдать и удивляться дальше!

#искусственный интеллект #openai #chatgpt #генерация изображений #dall-e #gpt-4o

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Популярные статьи