Компания Cerebras, производящая самый большой в мире чип Wafer Scale Engine 2 (WSE-2), сегодня представила свой суперкомпьютер Andromeda. Andromeda объединяет 16 чипов WSE-2 размером с пластину в один кластер с 13,5 миллионами оптимизированных для ИИ ядер, которые, по словам компании, обеспечивают до 1 эксафлопс вычислительной мощности ИИ или 120 петафлопс 16-битной половинной точности. 
Чипы размещены в шестнадцати системах CS-2. Каждый чип обеспечивает до 12,1 ТБ/с внутренней пропускной способности (96,8 терабит) для ядер AI, но данные передаются на процессоры CS-2 через сеть 100 GbE, распределенную по 124 серверным узлам в 16 стойках. В общей сложности эти серверы оснащены 284 процессорами EPYC Milan третьего поколения с 64 ядрами каждый, всего 18 176 ядер.

Вся система потребляет 500 кВт, что значительно меньше, чем у суперкомпьютеров с GPU-ускорением. Однако масштабирование рабочей нагрузки на таких массивно-параллельных суперкомпьютерах долгое время было одним из основных препятствий — в какой-то момент масштабирование имеет тенденцию к сбою, поэтому добавление большего количества оборудования приводит к быстрому снижению точки отдачи.
Однако Cerebras говорит, что ее реализация почти линейно масштабируется с моделями мультиязычного класса GPT, такими как GPT-3, GPT-J и GPT-NeoX. Andromeda также может обрабатывать модели с 2,5 миллиардами и 25 миллиардами параметров, которые стандартные кластеры графических процессоров просто не могут обработать из-за ограничений памяти.

Напомню, что Cerebras WSE-2 — самый большой в мире однокристальный процессор. Каждый 7-нм чип специально разработан для решения рабочих задач ИИ с 850 000 ядер, предназначенных для ИИ, распределенных по 46 225 мм2 кристалла, заполненного 2,6 триллионами транзисторов. Чип имеет 40 ГБ встроенной памяти SRAM, 20 петабайт пропускной способности памяти и 220 петабит совокупной пропускной способности структуры. Каждый WSE-2 потребляет 15 кВт электроэнергии.

Масштабирование рабочей нагрузки не соответствует норме в большинстве крупных систем, что приводит к уменьшению точки отдачи, часто из-за ограничений кода, памяти, структуры и/или сети. Однако Cerebras продемонстрировала, что ее системы CS-2 масштабируются почти линейно за счет параллелизма данных без каких-либо изменений в базовом коде — суперкомпьютер Andromeda компании начал справляться с рабочими нагрузками в течение десяти минут после полного подключения.

Шестнадцать CS-2 используют межсоединение MemoryX и Swarm-X компании, чтобы упростить и организовать разделение модели по системам. Этот подход сохраняет параметры модели вне микросхемы в шкафу MemoryX, сохраняя при этом модель внутри микросхемы, что позволяет одной системе вычислять более крупные модели ИИ, чем раньше, и устраняет типичные проблемы с задержкой и пропускной способностью памяти, которые часто ограничивают масштабируемость с группами процессоров. Cerebras заявляет, что это позволяет системе почти линейно масштабироваться до 192 систем CS-2.
Andromeda развернута в дата-центре Colovore в Санта-Кларе, Калифорния. Компания открыла Andromeda как для клиентов, так и для академических исследователей, включая Аргоннскую национальную лабораторию, которая заявляет, что уже поместила весь геном COVID-19 в окно последовательности и запустила рабочую нагрузку на 16 узлов с «почти идеальным линейным масштабированием». Этот проект стал финалистом престижной специальной премии ACM Gordon Bell. Другие пользователи включают JaperAI и Кембриджский университет. Подробнее о системе можно узнать здесь.

