Microsoft представила подробный обзор своего первого специализированного чипа искусственного интеллекта Maia 100 на выставке Hot Chips 2024. Эта новая система спроектирована так, чтобы работать бесперебойно, с целью повышения производительности и снижения затрат. Платформа включает в себя специально изготовленные серверные платы, уникальные стойки и систему программного обеспечения, ориентированную на повышение эффективности и надежности сложных служб искусственного интеллекта, таких как Azure OpenAI.
Microsoft впервые рассказала о Maia на Ignite 2023, сообщив, что компания создала собственный чип-ускоритель искусственного интеллекта. Дополнительная информация была предоставлена ранее в этом году на мероприятии для разработчиков Build. Maia 100 является одним из самых крупных процессоров, созданных с использованием 5-нм технологии производства TSMC и предназначен для решения обширных задач искусственного интеллекта на платформе Azure.
Особенности архитектуры Maia 100:
Высокоскоростной тензорный блок (16xRx16) обеспечивает быструю обработку данных для обучения и вывода, поддерживая при этом широкий спектр типов данных, включая типы данных низкой точности, такие как формат MX, впервые представленный Microsoft в 2023 году;
Векторный процессор представляет собой слабосвязанный суперскалярный механизм, созданный на основе специальной архитектуры набора команд (ISA) для поддержки широкого спектра типов данных, включая FP32 и BF16;
Механизм прямого доступа к памяти (DMA) поддерживает различные схемы сегментирования тензоров;
Асинхронное программирование в системе Maia.
Чип Maia 100 использует сетевое соединение на основе Ethernet со специальным протоколом, аналогичным RoCE, что обеспечивает очень быструю обработку данных. Он может развивать скорость до 4800 Гбит/с для определенных операций с данными и 1200 Гбит/с для связи компонентов системы.
Характеристики Maia 100:
Размер чипа: 820 мм²;
TDP: 700 Вт;
Упаковка: процесс TSMC N5 с технологией интерпозера COWOS-S;
Полоса пропускания/ограничение HBM: 1,8 ТБ/с при 64 ГБ HBM2E;
L1/L2: 500 МБ;
Пропускная способность внутренней сети: 600 ГБ/с;
Пропускная способность хоста (PCIe): PCIe Gen5X8 32 ГБ/с.
Комплект разработки программного обеспечения Maia (SDK) помогает программистам адаптировать свои модели PyTorch и Triton для использования с Maia. Пакет SDK включает в себя различные инструменты, упрощающие использование этих моделей со службами Azure OpenAI. Программисты могут писать код для системы Maia, используя либо Triton, предметно-ориентированный язык с открытым исходным кодом (DSL) для глубоких нейронных сетей, либо Maia API, специальную модель, обеспечивающую высокую производительность и детальный контроль. Maia напрямую поддерживает PyTorch, поэтому разработчики могут запускать модели PyTorch лишь с небольшими изменениями в своем коде.
Пока остаётся под вопросом возможность использования ускорителей Maia 100 другим организациям, аналогично тому, как Google и Amazon поступили со своими чипами искусственного интеллекта.