Платим блогерам
Блоги
molexandr
Опубликован исходный код, веса, гиперпараметры, набор данных.

AMD представила семейство открытых языковых моделей Instella с 3 миллиардами параметров. Модели были обучены с нуля на ускорителях AMD Instinct MI300X и превосходят существующие полностью открытые модели схожих размеров при конкурентоспособной производительности, утверждают в компании. Модели являются полностью открытыми, опубликован исходный код, веса, гиперпараметры, набор данных. Модели можно дообучать, используя программную платформу AMD ROCm и такие методики как FlashAttention-2, Torch Compile, Fully Sharded Data Parallelism (FSDP).

Источник изображения: bert b, Unsplash (отредактировано)

Может быть интересно

В семейство входят четыре модели:

  • Instella-3B-Stage1. Первый этап предварительного обучения для развития навыков владения естественным языком.
  • Instella-3B. Второй этап предварительной подготовки для дальнейшего расширения возможностей по решению поставленных задач.
  • Instella-3B-SFT. Supervised Fine-tuning (SFT) для обеспечения способностей следовать инструкциям.
  • Instella-3B-Instruct. Подстройка под человеческие предпочтения и усиление возможностей чата с помощью алгоритма оптимизации direct preference optimization (DPO).

Модели поддерживают контекст до 4096 токенов и имеют размер словаря около 50000 токенов с использованием токенизатора OLMo.

Выпуская семейство моделей Instella, компания AMD стремится к продвижению ИИ с открытым исходным кодом и демонстрации возможностей своего оборудования в обучении крупномасштабных языковых моделей, сотрудничеству с сообществом, а также содействует инновациям. Модели продолжат улучшать по ряду параметров, включая длину контекста, способность к рассуждению и мультимодальные возможности. Кроме этого, модели набор данных будут масштабироваться с применением различных архитектурных подходов.

Модели и исходный код опубликованы в репозиториях AMD на платформах HuggingFace и GitHub.

Источник: rocm.blogs.amd.com
+
Написать комментарий (0)
Теперь в новом формате

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Сейчас обсуждают