Анонс Stable Diffusion 3: новые модели справляются с отрисовкой текста и нескольких объектов

В предыдущих версиях это было проблемой.
23 февраля 2024, пятница 15:18
molexandr для раздела Блоги

Вероятно, модели Stable Diffusion от Stability AI, являются самыми популярными из ИИ моделей для создания изображений по текстовому описанию, в частности, благодаря тому, что её можно запустить локально на своём ПК. В выпущенных на сегодняшний день моделях Stable Diffusion есть проблемы с генерацией разборчивого текста на изображениях, также сложно получить хорошие результаты, если попросить нейросеть нарисовать несколько персонажей или объектов одновременно. Stable Diffusion 3 решит эти проблемы.

Примеры изображений с текстом, сгенерированных с помощью Stable Diffusion 3.
Источник изображений: Stability AI

Stable Diffusion 3 будет доступен в виде набора моделей с разным количеством параметров: от 800 миллионов до 8 миллиардов. Компания Stability AI добилась улучшений, объединив диффузионный трансформер с новой парадигмой, известной как «Согласование потоков для генеративного моделирования» (Flow Matching for Generative Modeling), сообщает Hot Hardware со ссылкой на объявление Stability AI. Генеральный директор компании Эмад Мостак (Emad Mostaque) описывает архитектуру новой модели как аналогичную той, что используется в недавно представленной модели для генерации видео Sora от OpenAI.

Stable Diffusion 3 пока недоступна для широкой публики ни в какой форме, но Stability AI в своём анонсе приводит набор изображений, сгенерированных новой моделью, доказывая, что она отлично справляется с текстом и сложными изображениями с несколькими персонажами.

Источники: Hot Hardware, Stability AI.