
Microsoft сообщила об оптимизации модели DeepSeek-R1, которая теперь доступна для пользователей Copilot+ PC, работающих на базе чипов Qualcomm Snapdragon X и Intel Core. Эта оптимизация направлена на улучшение производительности искусственного интеллекта в области периферийных вычислений и обеспечение более быстрого и локализованного вывода.

DeepSeek-R1-Distill-Qwen-1.5B уже доступна в AI Toolkit, а в ближайшее время появятся версии с увеличенной мощностью — 7B и 14B. Эти обновления позволят разработчикам использовать возможности NPU (нейронного процессорного устройства) для создания более эффективных приложений. Microsoft утверждает, что новая архитектура модели открывает возможность для генеративного ИИ не только реагировать на запросы, но и поддерживать полунепрерывные сервисы.
Компания акцентирует внимание на том, что оптимизация модели включает в себя множество ключевых методов, таких как разделение частей модели для повышения производительности и квантование с низким битрейтом. Эти изменения позволяют значительно улучшить время генерации токенов и пропускную способность без значительного увеличения потребления ресурсов.
Для использования DeepSeek-R1 пользователям достаточно загрузить расширение AI Toolkit для Visual Studio Code. Модели будут доступны в формате ONNX QDQ, что упростит их интеграцию в существующие приложения. Microsoft предлагает пользователям возможность загрузить модель локально и начать экспериментировать с ней через игровую площадку.
Кроме того, пользователи могут опробовать исходный код моделей, размещенных в облаке Azure Foundry. Как показано на рисунке ниже, Microsoft также показывает примеры исходной модели и квантовой модели, чтобы показать небольшие, но реальные различия между ними:


