Китайские ИИ-ускорители для компьютеров скоро и везде

Редакция

Новости Hardware 29 май 2018, 09:10 GreenCo

На старте все равны.

Китайские разработчики чипов год за годом совершенствуют мастерство, с успехом осваивая новые ниши — те, где они могут на равных соперничать с лидерами западного мира. Свежим примером может стать разработка компанией Cambricon Technologies цифрового процессора (NPU) для ускорения обработки чисел с плавающей запятой — основы современных платформ для работы над элементами искусственного интеллекта. Ранее Cambricon отметилась разработкой архитектуры/блоков Cambricon-1A, которые нашли применение в SoC Kirin 970 компании HiSilicon — проектной дочки Huawei. Так, в смартфонах Huawei Mate 10 есть блоки на архитектуре Cambricon-1A, которые отвечают за ИИ.

На днях стало известно, что Cambricon разработала ИИ-платформу в виде адаптеров с интерфейсом PCI. Это готовое решение для установки в ПК или серверы. Сердцем платформы стал процессор MLU-100, выпущенный на линиях TSMC с использованием техпроцесса 16 нм (16FF). При потреблении 80 Вт на частоте 1 ГГц процессор Cambricon MLU-100 выдаёт 64 терафлопс при обработке чисел с половинной точностью FP16 или 128 TOPS (триллион операций в секунду) для 8-битных целочисленных значений (INT8). Для ускорения работы, если энергоэффективность не важна, MLU-100 может работать на частоте 1.3 ГГц с TDP 110 Вт, что даёт скорость обработки FP16 на уровне 83,2 терафлопс или 166,7 TOPS INT8.

Источник данных: AnandTech

Наглядно о возможностях Cambricon MLU-100 можно судить, если сравнивать решение с похожим по назначению ускорителем NVIDIA Tesla V100 (что предлагает сделать сайт AnandTech). Правда, Tesla V100 способна на вычисления с двойной и одинарной точностью, что не по силам Cambricon MLU-100. Но для части задач с глубоким машинным обучением китайское решение примерно вдвое лучше, чем NVIDIA Tesla V100. В дальнейшем разработчик обещает выпустить чип с возможностью обучения и принятия решений. Иначе говоря, с поддержкой определённых моделей нейронных сетей. Процессор MLU-100 совместим с фреймворками TensorFlow, Caffe и MXNet, хотя та же NVIDIA Tesla V100 обладает много более широкой поддержкой программных инструментов.

Интерес к ускорителям Cambricon MLU-100, если верить источнику, проявила компания Lenovo. Адаптеры с MLU-100 якобы будут добавлены в систему Lenovo ThinkSystem SR650 на паре процессоров Intel Xeon. Возможно, что-то выпустит Huawei. В следующем году разработчик обещает улучшить архитектуру и выпустить 7-нм NPU. Новое решение повысит энергоэффективность вычислений до 5 TOPS/ватт, что обещает стать лучше предложения на архитектурах ARM, которые работают с эффективностью 3 TOPS/ватт.