После того, как выпуск DeepSeek R1 привел к резкому падению стоимости акций технологических компаний и вызвал переполох в Кремниевой долине, китайская компания, занимающаяся разработкой искусственного интеллекта, предлагает новый продукт. В понедельник вечером, 27 января, был выпущен инструмент Janus-Pro — снова по лицензиям, которые призваны гарантировать максимально возможную свободу доступа к ИИ-модели.
Janus-Pro — это генератор текста в изображения, который позволяет создавать изображения привычным теперь способом. Создатели, то есть команда разработчиков китайской компании, подчеркивают, что Janus-Pro превосходит в бенчмарках как своего предшественника «Jansu», так и — что немаловажно — многие другие модели. Упоминаются известные генераторы изображений Dall-E 3 от OpenAI и Stable Diffusion 3 Medium. При этом, разработчики не сравнивают новинку с FLUX от Black Forest Labs, который многие эксперты считают лучшим генератором изображений на сегодняшний день.
Новая модель должна уметь «видеть», т.е. описывать содержание изображений, которые ей подаются. Это важно, например, если нужно распознавать знакомые объекты на изображениях или читать текст на фотографиях (OCR).
Производительность с точки зрения ввода и вывода пока не идеальна. Входное разрешение ограничено 384×384 пикселями, что снижает производительность в таких задачах, как OCR (оптическое распознавание символов), а низкое выходное разрешение также ограничивает генерацию изображений. Сгенерированные изображения иногда имели недостатки в мелких деталях. Пример: небольшие области изображения, такие как лица, могут выглядеть недостаточно детализированными.
Имеются лишь небольшие сведения о данных обучения. Например, сообщается, что для понимания изображений было использовано 90 миллионов дополнительных наборов данных, а для генерации изображений — 72 миллиона синтетических изображений. Какие именно изображения это были, неизвестно.
Пока еще неизвестно, как Janus-Pro покажет себя на практике. Однако примечательно то, что теперь практически любой желающий может бесплатно получить модель ИИ от Github, Hugging Face и пр., которая может конкурировать с другими известными генераторами изображений на рынке.

