Команда Qwen компании Alibaba на прошлой неделе представила новую модель искусственного интеллекта для генерации изображений. Модель под названием Qwen VLo стала преемницей версии Qwen 2.5 с поддержкой обработки изображений и текста и получила ряд улучшений по сравнению с предыдущими версиями.
Новая ИИ-модель понимает текстовые запросы на нескольких языках, включая английский и китайский. Помимо создания изображений, модель умеет вносить правки как в сгенерированные картинки, так и в загруженные пользователем.
Изображение: Qwen
Официальный аккаунт команды Qwen в X анонсировал выпуск модели, техническое название которой — Qwen3-235B-A22B. Модель доступна бесплатно в чат-интерфейсе компании, причём для её использования даже не требуется авторизация.
Тестирование модели сотрудниками Gadgets 360 показало, что по качеству генерации изображений она сопоставима с Google Imagen 2. Точность выполнения инструкций и детализация картинок немного уступают Imagen 3 и функции генерации изображений в OpenAI на базе GPT-4o. Однако Qwen VLo работает быстрее этих моделей и имеет более высокий лимит запросов.
На странице в GitHub разработчики отметили, что новая версия Qwen VLo обладает улучшенным пониманием изображений, что позволяет точнее вносить правки без искажения структуры исходной картинки. Это также повышает общее качество результата. Модель лучше справляется с расплывчатыми и неоднозначными запросами, создавая изображения, соответствующие ожиданиям пользователей.
Помимо генерации и редактирования изображений, Qwen VLo способна выполнять задачи, связанные с аннотацией: определять границы объектов, сегментировать изображения, создавать карты предсказаний и т. д. В будущих версиях модель научится обрабатывать несколько входных изображений и комбинировать их по запросу пользователя.
Текстовая визуализация также была улучшена: в ходе тестов модель корректно отображала текст с разными шрифтами. Кроме того, Qwen VLo поддерживает загрузку изображений с динамичным соотношением сторон, включая экстремальные пропорции вроде 4:1 и 1:3. Вскоре разработчики планируют добавить возможность генерации изображений с различными соотношениями сторон.

