AMD представила семейство открытых языковых моделей Instella с 3 миллиардами параметров. Модели были обучены с нуля на ускорителях AMD Instinct MI300X и превосходят существующие полностью открытые модели схожих размеров при конкурентоспособной производительности, утверждают в компании. Модели являются полностью открытыми, опубликован исходный код, веса, гиперпараметры, набор данных. Модели можно дообучать, используя программную платформу AMD ROCm и такие методики как FlashAttention-2, Torch Compile, Fully Sharded Data Parallelism (FSDP).
В семейство входят четыре модели:
Модели поддерживают контекст до 4096 токенов и имеют размер словаря около 50000 токенов с использованием токенизатора OLMo.
Выпуская семейство моделей Instella, компания AMD стремится к продвижению ИИ с открытым исходным кодом и демонстрации возможностей своего оборудования в обучении крупномасштабных языковых моделей, сотрудничеству с сообществом, а также содействует инновациям. Модели продолжат улучшать по ряду параметров, включая длину контекста, способность к рассуждению и мультимодальные возможности. Кроме этого, модели набор данных будут масштабироваться с применением различных архитектурных подходов.
Модели и исходный код опубликованы в репозиториях AMD на платформах HuggingFace и GitHub.