OpenAI анонсировала улучшенный генератор изображений DALL-E 3 с интеграцией ChatGPT

Новая модель обладает более тонким пониманием человеческого языка.
22 сентября 2023, пятница 18:22
Fantoci для раздела Блоги

Компания OpenAI наиболее известна как изобретатель популярного текстового генератора ChatGPT, но у нее также есть мощный механизм превращения текста в изображения под названием DALL-E. Вторая версия DALL-E вышла в 2022 году, и за прошедший год генератор изображений получил серьезное обновление. OpenAI заявила, что DALL-E 3 намного лучше распознает тонкости человеческого языка, что позволяет создавать более качественные изображения. Он также интегрирован с ChatGPT, поэтому вам не придется придумывать всю подсказку (prompt) самостоятельно. Таким образом, мы еще на один шаг приблизились к тому, чтобы избавиться от человеческого фактора в искусстве.

Как и его предшественник, новый DALL-E берет блок текста и превращает его в оригинальное произведение искусства, созданное искусственным интеллектом. По крайней мере, так заявила OpenAI. Ранее поступали сообщения о том, что данные, используемые для обучения этих моделей искусственного интеллекта, могут привести к тому, что в конечные изображения будут добавлены элементы, на которые распространяется авторское право. Конкурирующие генераторы изображений, такие как Stable Diffusion, уже стали объектом судебных исков. OpenAI столкнулась с юридическими проблемами из-за использования личных данных как в ChatGPT, так и в DALL-E.

По данным компании, пользователи DALL-E 3 смогут предоставить ChatGPT краткое описание того, что они хотят, а затем искусственный интеллект создаст подробную подсказку для передачи в DALL-E. Вы также можете предоставить текст, который точно описывает то, что вы хотите. Какой бы путь вы ни выбрали, результаты могут быть гораздо более надежными, чем у других систем. «Нынешние системы трансформации текста в картинки имеют склонность пренебрегать инструкциям слова или описаниям, что вынуждает пользователей учиться работать с подсказками. DALL-E 3 демонстрирует большой скачок вперед в развитии способностей генерировать картинки, точно соответствующие предоставленному пользователем тексту», - говорится в сообщении OpenAI.

Примеры изображений DALL-E 2 и DALL-E 3. Источник: OpenAI

Даже при вводе одного и того же запроса DALL-E 3 генерирует более подробные и аутентичные изображения. См. выше пример того, что DALL-E 2 и DALL-E 3 могут сделать с «Выразительной картиной маслом, на которой баскетболист делает данк, изображенной как взрыв туманности». В DALL-E 3 произошли заметные улучшения. В обновленном движке предусмотрены новые меры безопасности, предотвращающие создание контента с насилием, для взрослых или незаконного контента. Он также откажется подражать стилю живого художника или воссоздавать известных личностей.

OpenAI предоставила несколько примеров того, на что способен DALL-E 3. Хотя они, вероятно, были выбраны специально потому, что оказались удачными, они весьма впечатляют. К сожалению, на данный момент это все, что нам рассказали о новом генераторе изображений. DALL-E 3 находится на стадии тестирования и будет выпущен для подписчиков ChatGPT Plus и Enterprise начиная со следующего месяца. Позднее осенью доступ будет расширен для исследователей и API OpenAI. О том, когда появится бесплатная публичная версия DALL-E 3, пока не сообщается.