Платим блогерам
Блоги
Alex040
Несмотря на длительный срок разработки, нейросеть Stable Diffusion 3 не оправдала ожиданий пользователей. Сравнительные тесты с популярными конкурентами продемонстрировали спорные результаты SD3, что привело к волне критики в сообществе.

В среду многие новостные сайты сообщили о крупной новинке среди генераторов изображений: свет увидела нейросеть Stable Diffusion 3 (SD3). Она приходит на смену Stable Diffusion XL, выпущенной около года назад. На сайте разработчика, Stability AI, есть много красочных примеров работы новинки, демонстрирующих весьма высокий уровень качества.

Может быть интересно

Интерес к Stable Diffusion огромен, так как нейросеть бесплатна, имеет открытый исходный код, крупнейшее пользовательское сообщество, а на её основе можно создавать собственные разработки.

Однако сообщество Stable Diffusion в социальной сети Reddit, где более 500 тысяч подписчиков, сейчас буквально «кипит» от негодования. Там можно найти немало собирающих лайки гневных постов, высмеивающих новинку мемов и т. д.

Дело в том, что в реальности, несмотря на прошедший год, качество генерации показывает весьма спорные результаты, особенно если пытаться создавать картинки с людьми. Пользователи ожидали прогресс в генерации лиц, рук, общего построения человеческого тела, однако на практике все эти проблемы сохранились и, кажется, даже усугубились.

Один из пользователей провёл любопытное сравнение, сравнив выпущенную в среду SD3 (опубликована была версия Medium), SD3 Large (доступна избранным тестерам, сроки релиза не определены), Pixart Sigma, а также две особо сильные нейросети – Dall-E 3 и платную Midjourney 6.

Сравнение нейросетей по пяти запросам, см. картинки в полном разрешении.

В итоге с первым запросом на танцующую женщину SD3 Medium исказила конечности, а лицо сделала таким, что испугаться могли бы даже любители фильмов ужасов. Остальные «нейронки» справились чуть лучше, но также, с многочисленными недоработками.

С девушкой, которая лежит на машине, результаты оказались ещё хуже. Хоть какое-то понимание замысла картинки показали Dall-E 3 и Midjourney 6, но нормальными результат и там не назовёшь.

В третьем примере корректно написать «Large SD3» на красной футболке мужчины смогла только недоступная большинству пользователей SD3 Large. SD3 Medium была близка, но написала много лишнего. А остальные «нейронки» и вовсе изобразили лишь непонятные символы. Также заметим, что 3 из 5 нейросетей по запросу «man» рисуют именно чернокожего человека.

Кадр из игры, SD3 определённо сделала хуже всех остальных.

Наконец, в последнем примере только Midjourney 6 не исказила пальцы и нарисовала нечто похожее на ножницы из запроса. SD3 Medium показала совсем удручающий результат, с висящими в воздухе тремя руками и странным предметом вместо ножниц, который словно целится женщине в кресле прямо в область глаз.

Ещё одно сравнение, где новая версия оказывается хуже прошлогодней XL.

В других сравнениях авторы также показывают весьма сомнительный прогресс Stable Diffusion 3 на фоне предшественников и конкурентов. Один из пользователей дополнительно продемонстрировал интересный эксперимент. 

Он задал запрос, который на русский переводится как «мишка Тедди, лежащий в постели рядом с окном с утренним солнцем, проникающее в пространство освещение придает ему уютную, утешительную атмосферу. У него есть руки за головой в расслабленной позе, а его шелковая пижама свободно свисает с тела, как будто он только что проснулся».

В ответ нейросеть выдала вполне подходящие картинки, полностью или почти соблюдая анатомию тела даже игрушечного существа:

Однако потом автор задаёт точно такой же запрос, меняя «мишка Тедди» на «женщина». Результат получается удручающим:

Подобные примеры сейчас заставляют пользователей задуматься о возможной цензуре в нейросети. Впрочем, показанные выше случаи с искажёнными руками и ножницами всё равно нельзя полностью списать на цензуру. Они показывают, что нейросеть за год попросту не совершила должного прогресса и страдает от прежних ошибок.

Сравнение Ideogram 1.0 (слева) и SD3 Medium. Первая из нейросетей вышла ещё в феврале. Подписи на картинках также сделаны нейросетями.

Впрочем, расстраиваться не стоит. Пользователи выражают надежду на будущую SD3 Large, которая уже сейчас выглядит лучше SD3 Medium и до сих пор дорабатывается. Ещё на подходе должны быть новые версии Midjourney, Dall-E, Playground, Ideogram, отечественной Kandinsky, а также новая Imagen 3, о которой мы недавно писали.

+
Написать комментарий (0)
Теперь в новом формате

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Сейчас обсуждают