Платим блогерам
Блоги
Fantoci
Пока неизвестно, появится ли этот проект в продуктах Apple, но опробовать его можно уже сейчас на GitHub.
реклама

Компания Apple в сотрудничестве с научными сотрудниками из Калифорнийского университета в Санта-Барбаре разработала редактор изображений на основе искусственного интеллекта, который выполняет текстовые команды. Демо-версия редактора уже доступна на сайте Hugging Face, но пока неизвестно, будет ли этот проект интегрирован в какой-либо продукт Apple.

Модель Apple получила название MLLM-guided image editing или сокращённо MGIE, где MLLM расшифровывается как «мультимодальная языковая модель большого размера». Простым словами это означает, что MGIE использует большую языковую модель, способную смешивать обработку естественного языка с вводом изображений, что крайне важно для любого редактора изображений на основе искусственного интеллекта. Вместо того чтобы использовать ползунки, фильтры и другие ручные инструменты для редактирования изображений, пользователи MGIE могут просто набрать быструю текстовую подсказку, которая сообщит модели, как должен выглядеть результат.

реклама

В рамках подготовки к Международной конференции по машинному обучению (ICLR) в этом году, компания Apple и Калифорнийский университет в Санта-Барбаре опубликовали в arXiv статью с подробным описанием процесса работы MGIE. Пользователь начинает с входного изображения — скажем, изображения домика А-образной формы в пышной лесистой местности. Затем он вводит текстовую подсказку: «Хижина в пустыне окружена песчаными дюнами и некоторой растительностью, например кактусами или небольшими кустарниками». При обработке этого запроса MGIE находит в своём наборе данных IPr2Pr подходящие изображения, а затем использует диффузию для совместного обучения модели и редактирования фотографии пользователя. По крайней мере, в одном из экспериментов разработчиков результатом стало довольно реалистичное изображение оригинальной хижины в пустыне Сонора. 

Эксперимент из проекта Apple, в котором домик в зеленой лесистой местности превращается в домик в пустыне.

По всей видимости, MGIE способна выполнять любые действия - от простых правок вроде изменения контрастности, яркости и насыщенности до удаления фона или дефектов. MGIE также можно использовать для обрезки, изменения размера и поворота фотографий. В идеале MGIE будет редактировать изображения, не жертвуя их качеством или целостностью. В своей статье разработчики отмечают, что MGIE — не первый редактор изображений с искусственным интеллектом, использующий текстовые подсказки. Тем не менее, предыдущие модели, как правило, «ограничивались нереалистичным синтезом», что делало их бесполезными для многих пользователей. 

Apple еще не сообщила, является ли MGIE частью долгосрочного проекта или же будет внедрена в будущие обновления операционной системы MacOS. Тем не менее, компания выложила исходный код модели на GitHub, или вы можете протестировать ее в своем веб-браузере, посетив Hugging Face .

Источник: arxiv.org
Теперь в новом формате

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости