Стало известно, что компании Google и NVIDIA совместно адаптировали семейство моделей Gemma 4 под потребительские видеокарты. Это связано с ростом интереса к локальным ИИ-решениям, где важны скорость отклика и доступ к данным пользователя без облака. 
Источник изображений: NVIDIA
Линейка Gemma 4 включает несколько вариантов — от компактных до более производительных. Модели E2B и E4B рассчитаны на работу с минимальной задержкой и подходят для периферийных устройств. Более крупные версии, такие как 26B и 31B, ориентированы на сложные задачи, включая логическое рассуждение и разработку.
Поддержка графических процессоров RTX позволяет запускать эти модели не только в дата-центрах, но и на обычных ПК и рабочих станциях. Здесь важна не только доступность, но и поведение системы: локальный запуск дает возможность работать с данными в реальном времени, без передачи в облако.
Отдельный акцент сделали на агентных сценариях. Инструменты вроде OpenClaw позволяют запускать постоянно работающих ИИ-агентов на ПК с RTX, рабочих станциях и системах DGX Spark. Такие агенты извлекают контекст из локальных файлов, приложений и пользовательских рабочих процессов и используют его для автоматизации задач. Иначе говоря, модель работает не изолированно, а опирается на данные устройства и текущую активность пользователя.
Для локального развертывания доступны несколько инструментов. Пользователи могут загрузить Ollama для запуска моделей или установить llama.cpp и подключить сборки формата GGUF. Дополнительно платформа Unsloth предоставляет оптимизированные и квантованные версии моделей для локальной настройки и запуска. При этом стек CUDA и ядра Tensor Core ускоряют вычисления и уменьшают задержки при работе моделей.

