Microsoft представила Mu — новую модель искусственного интеллекта (ИИ), способную работать локально на устройстве. На прошлой неделе технологический гигант из Редмонда выпустил в бета-версии новые функции Windows 11, среди которых была и опция AI-агентов в настройках. Эта функция позволяет пользователям описывать желаемые действия в меню настроек, после чего ИИ-агенты либо перенаправляют к нужному пункту, либо самостоятельно выполняют задачу. Компания подтвердила, что в основе функции лежит малая языковая модель (SLM) Mu.
В своем блоге Microsoft подробно рассказала о новой модели. В настоящее время она полностью работает на устройствах, совместимых с Copilot+ ПК, используя нейропроцессор (NPU). Компания оптимизировала задержки и утверждает, что модель реагирует со скоростью более 100 токенов в секунду, что соответствует «строгим требованиям к пользовательскому опыту в сценариях работы с настройками».
Mu построена на архитектуре кодера-декодера с трансформером и содержит 330 миллионов параметров, что делает её идеальной для небольших развертываний. В такой архитектуре кодировщик сначала преобразует входные данные в фиксированное представление, которое затем анализируется декодером, генерирующим ответ. Microsoft выбрала этот подход из-за его высокой эффективности и оптимизации, необходимых при ограниченных вычислительных ресурсах. Чтобы соответствовать возможностям NPU, компания также оптимизировала распределение параметров между кодировщиком и декодером.
Модель Mu была обучена на базе GPU A100 в Azure Machine Learning и основана на доработанных версиях моделей Phi. Дистиллированные модели обычно эффективнее исходных, а Microsoft дополнительно улучшила Mu, используя данные для конкретных задач и тонкую настройку методами LoRA. Интересно, что, по заявлениям компании, Mu работает на уровне Phi-3.5-mini, будучи при этом в десять раз меньше.
Перед внедрением Mu в настройки Windows разработчикам пришлось решить ещё одну проблему: модель должна была научиться обрабатывать ввод и вывод для изменения сотен системных параметров. Для этого требовались не только обширные знания, но и минимальные задержки. Microsoft значительно расширила обучающую выборку, с 50 до сотен параметров, и применила синтетическую разметку и добавление шумов, чтобы научить ИИ понимать типичные формулировки пользователей. После обучения на 3,6 миллионах примеров модель стала достаточно быстрой и точной, чтобы отвечать менее чем за полсекунды.
Одной из сложностей стало то, что Mu лучше справлялась с развернутыми запросами, чем с краткими или неоднозначными. Например, фраза «уменьшить яркость экрана ночью» даёт больше контекста, чем просто «яркость». Чтобы решить эту проблему, Microsoft оставила традиционный поиск по ключевым словам для слишком расплывчатых запросов. Также обнаружился языковой нюанс: некоторые настройки могут относиться к разным функциям (например, «увеличить яркость» может касаться как экрана устройства, так и внешнего монитора). Пока модель фокусируется на наиболее распространённых вариантах, но компания продолжает дорабатывать этот аспект.