AMD представила семейство полностью открытых языковых моделей Instella с 3 млрд параметров

Опубликован исходный код, веса, гиперпараметры, набор данных.

6 марта 2025, четверг 12:54

AMD представила семейство открытых языковых моделей Instella с 3 миллиардами параметров. Модели были обучены с нуля на ускорителях AMD Instinct MI300X и превосходят существующие полностью открытые модели схожих размеров при конкурентоспособной производительности, утверждают в компании. Модели являются полностью открытыми, опубликован исходный код, веса, гиперпараметры, набор данных. Модели можно дообучать, используя программную платформу AMD ROCm и такие методики как FlashAttention-2, Torch Compile, Fully Sharded Data Parallelism (FSDP).

Источник изображения: bert b, Unsplash (отредактировано)

В семейство входят четыре модели:

Instella-3B-Stage1. Первый этап предварительного обучения для развития навыков владения естественным языком.
Instella-3B. Второй этап предварительной подготовки для дальнейшего расширения возможностей по решению поставленных задач.
Instella-3B-SFT. Supervised Fine-tuning (SFT) для обеспечения способностей следовать инструкциям.
Instella-3B-Instruct. Подстройка под человеческие предпочтения и усиление возможностей чата с помощью алгоритма оптимизации direct preference optimization (DPO).

Модели поддерживают контекст до 4096 токенов и имеют размер словаря около 50000 токенов с использованием токенизатора OLMo.

Выпуская семейство моделей Instella, компания AMD стремится к продвижению ИИ с открытым исходным кодом и демонстрации возможностей своего оборудования в обучении крупномасштабных языковых моделей, сотрудничеству с сообществом, а также содействует инновациям. Модели продолжат улучшать по ряду параметров, включая длину контекста, способность к рассуждению и мультимодальные возможности. Кроме этого, модели набор данных будут масштабироваться с применением различных архитектурных подходов.

Модели и исходный код опубликованы в репозиториях AMD на платформах HuggingFace и GitHub.

Перейти к полной версии Комментарии

amd искусственный интеллект

AMD представила семейство полностью открытых языковых моделей Instella с 3 млрд параметров

Теги

Лента материалов