Китайская компания Cambricon представила свой новый процессор MLU290 для ускорения операций машинного обучения и OAM-модуль MLU290-M5 на его основе. Чип произведен по 7-нм техпроцессу TSMC, объединяет в себе 46 миллиардов транзисторов и 64 ядра, обеспечивая вычислительную производительность до 1024 TOPS в целочисленных операциях INT4. Для сравнения, новейший ускоритель NVIDIA A100 в аналогичных задачах обладает производительностью 1248 TOPS, но может удвоить ее за счет технологи Structural Sparsity.
Процессор поддерживает ряд интересных технологий, например виртуализация vMLU позволяет разделять ресурсы между 4 независимыми процессами машинного обучения, а технология горячей миграции дает возможность перемещать рабочие операции между модулями и отдельными машинами.