Большинство современных ИИ-систем строятся вокруг связки процессоров и графических ускорителей. Китайские инженеры выбрали другую схему и сделали ставку только на центральные процессоры. 
Изображение - ChatGPT
Национальный суперкомпьютерный центр Китая в Шэньчжэне запустил вычислительный комплекс LineShine с производительностью 1,54 экзафлопса при обучении ИИ-моделей. Система работает без графических ускорителей и использует только процессоры LX2 на архитектуре Armv9.
По данным Джона Педди из Jon Peddie Research, чипы LX2 связаны с Huawei, хотя официально разработчика не раскрывают. Каждый процессор включает 304 вычислительных ядра, распределенных по восьми кластерам. Для ускорения вычислений ядра получили расширения Arm SVE и SME, которые предназначены для работы с матрицами и векторными операциями в задачах искусственного интеллекта.
В системе памяти используется комбинация HBM и DDR5. Один процессор оснащается 32 ГБ встроенной HBM-памяти с пропускной способностью до 4 ТБ/с, а также поддерживает до 256 ГБ DDR5. Разработчикам пришлось отдельно настраивать распределение данных между двумя типами памяти, чтобы поддерживать стабильную загрузку вычислительных блоков.
Весь комплекс состоит из 20 480 узлов. Каждый содержит два процессора LX2. В итоге система объединяет 40 960 чипов и более 2,45 миллиона ядер. Для связи между узлами используется сеть LQLink со скоростью 1,6 Тбит/с на узел.
LineShine достиг пиковой производительности 2,16 экзафлопса при обучении модели генеративного сжатия спутниковых изображений с 6,3 млрд параметров. При этом специалисты отмечают, что CPU-системы уступают GPU-кластерам по энергоэффективности, но позволяют Китаю снизить зависимость от американских ускорителей и экосистемы CUDA.

