Разработчик под ником anemll поделился в соцсети Х видеоинформацией о проекте Flash-MoE, который позволяет запускать на iPhone 17 Pro языковую модель колоссального размера – 400 миллиардов параметров. Для сравнения: чтобы загрузить такую модель целиком, потребовалось бы больше 200 ГБ оперативной памяти, тогда как в смартфоне Apple установлено всего 12 ГБ.

Изображение - ChatGPT
Секрет в том, что система не пытается загрузить всю модель сразу. Вместо этого она подтягивает из хранилища только те компоненты, которые нужны в конкретный момент. Дополнительно используется архитектура «Mixture of Experts», при которой в каждый момент времени активна лишь небольшая часть нейросети. Благодаря этому телефон физически способен выполнять вычисления.
Обратная сторона – скорость. Модель генерирует около 0,6 токена в секунду. На практике это означает, что пользователю приходится ждать несколько секунд, чтобы появилось одно слово. Даже простые запросы превращаются в испытание на терпение. Кроме того, такая нагрузка, скорее всего, быстро разряжает батарею.
С практической точки зрения использовать эту модель для повседневных задач сейчас невозможно. Но сам факт того, что смартфон способен локально запускать нейросеть такого масштаба без обращения к облачным серверам, показывает перспективность направление развития.

