Сегодня Oak Ridge Leadership Computing Facility (OLCF) объявил, что Crusher, компактная версия суперкомпьютера Frontier стоимостью 600 миллионов долларов, который станет первой экзафлопсной машиной в США, теперь находится в сети и дает впечатляющие результаты. 192 блейд-сервера Crusher HPE Cray EX втиснуты в 1,5 шкафа, которые потребляют 1/100 размера предыдущего суперкомпьютера Titan площадью 404 квадратных метра, однако новая система обеспечивает более высокую общую производительность.

Crusher имеет те же архитектурные компоненты, что и суперкомпьютер Frontier с производительностью 1,5 экзафлопса, каждый блейд HPE Cray EX содержит один 64-ядерный процессор AMD EPYC «Trento» 7A53 и четыре графических процессора AMD «Aldebaran» MI250X, но Frontier не будет доступен до 1 января 2023 года.
Однако сейчас исследователи используют Crusher для подготовки своего научного кода для Frontier. Основные моменты включают 15-кратное ускорение по сравнению с суперкомпьютером Summit на базе Nvidia и IBM с кодом Cholla, который был переписан для Frontier, при этом 3-кратное улучшение связано с аппаратными улучшениями, а еще одно пятикратное улучшение связано с оптимизацией программного обеспечения. Между тем, код NuCCOR показал 8-кратное ускорение с графическими процессорами MI250X по сравнению с графическими процессорами Nvidia V100, используемыми в Summit. Кроме того, OLCF объявил, что код материалов LSMS, который обрабатывает крупномасштабные симуляции до 100 000 атомов, также был успешно запущен на Crusher и будет масштабироваться для работы в полной системе Frontier. OLCF также рекламирует увеличение на 80% по сравнению с предыдущими неуказанными системами с рабочими нагрузками модели глубокого обучения Transformer.
Неудивительно, что новое аппаратное обеспечение Crusher превосходит по производительности суперкомпьютер Titan — этот старый разросшийся суперкомпьютер был введен в эксплуатацию в 2013 году с 200 шкафами, в которых размещались 18 688 16-ядерных процессоров AMD Opteron 6274, 18 688 графических процессоров Nvidia Tesla K20X и интерконнект Gemini и потреблял в общей сложности 8,2 МВт электроэнергии. Система была размещена на площади более 404 квадратных метра и обеспечивала стабильную производительность 17,6 петафлопс в Linpack и теоретическую пиковую производительность 27 петафлопс.

Напротив, Crusher состоит всего из 1,5 шкафа, один со 128 узлами, а другой с 64. Всего 192 узла, занимающих 4 квадратных метра площади. Каждый узел с водяным охлаждением поставляется с одним 64-ядерным специализированным чипом на архитектуре Zen 3, процессором «Trento» EPYC 7A53, о котором AMD не сообщает подробностей. Ходят слухи, что кристалл ввода-вывода чипа использует Infinity Fabric 3.0 для обеспечения согласованного интерфейса памяти с графическими процессорами.
Чип Trento работает в паре с 512 ГБ памяти DDR4 (205 ГБ/с) и четырьмя ускорителями AMD MI250X, каждый из которых оснащен двумя графическими вычислительными кристаллами (GCD) ~790 мм^2 на архитектуре CDNA2. По сути, эти четыре графических процессора мощностью 550 Вт служат эквивалентом восьми графических процессоров в каждом узле.
Каждый ЦП Trento разделен на четыре домена NUMA. Каждый домен (и связанные с ним два банка кэш-памяти L3) подключается к двум GCD (один графический процессор) с согласованным интерфейсом памяти на скорости 36+36 ГБ/с через Infinity Fabric, что дает 288 ГБ/с общей пропускной способности ЦП-ГП и распространяется среди восьми GCD в узле.
Между тем, каждый графический процессор MI250X содержит сетевой адаптер HPE Slingshot 200 Гбит/с (25 Гбит/с) Ethernet (через корневой комплекс PCIe), который подключается к сети HPE Slingshot с пропускной способностью сети 100 Гбит/с на узел. Все это — вычислительная мощность, подключенная к устройству хранения данных емкостью 250 ПБ, обеспечивающему пиковую пропускную способность 2,5 ТБ/с и использующему файловую систему IBM Spectrum Scale.

OLCF еще не опубликовала данные об энергопотреблении или пиковой производительности Linpack для системы Crusher. Однако известно, что каждый 768 MI250X обеспечивает пиковое значение 53 TFLOPS с двойной точностью, что означает теоретическое пиковое значение примерно 40 петафлопс (при линейном масштабировании).
Frontier станет первым суперкомпьютером экзафлопсного класса в США, но только потому, что долго откладывавшийся суперкомпьютер Aurora на базе процессоров Intel снова был отложен до 2023 года. Однако Intel изменила свой прогноз производительности для Sapphire Rapids и Ponte Vecchio. Aurora на два экзафлопса производительнее, что дало бы ему преимущество над Frontier. Кроме того, предполагается, что он превзойдет систему El Capitan с производительностью 1,5 ExaFLOPS на базе процессоров AMD, запуск которой запланирован на 2023 год.
Это означает, что все три системы экзафлопсного класса в США будут быстрее, чем две новые экзафлопсные системы Китая, суперкомпьютеры Sunway Ocealite и Tianhe-3, производительность которых предположительно достигла ~1 ExaFLOPS.
HPE и AMD поставили Frontier вовремя в 2021 году, но система все еще проходит интеграцию и тестирование. Это вызывает подозрения, что при развертывании столкнулись с техническими проблемами. Но в любом случае Министерство энергетики США заявляет, что Frontier будет доступен для исследователей в январе 2023 года.

