Nvidia опубликовала первые результаты теста MLPerf 4.1 для своего процессора Blackwell B200. Результаты показывают, что графический процессор Blackwell обеспечивает производительность в четыре раза выше, чем у его предшественника H100, основанного на архитектуре Hopper, подчеркивая позицию Nvidia как лидера в области аппаратного обеспечения для работы с искусственным интеллектом.
Согласно результатам Nvidia, графический процессор B200 на базе Blackwell обеспечивает скорость 10 755 токенов в секунду на одном графическом процессоре в серверном тесте вывода и 11 264 токенов в секунду в автономном эталонном тесте. Беглый взгляд на общедоступные результаты тестов MLPerf Llama 2 70B показывает, что 4-процессорная система на базе Hopper H100 дает аналогичные результаты, что подтверждает утверждение Nvidia о том, что один процессор Blackwell примерно в 3,7–4 раза быстрее, чем одиночный Hopper H100. Но нужно проанализировать результаты, чтобы лучше их понять.
Во-первых, процессор Nvidia Blackwell использует точность FP4, поскольку его тензорные ядра пятого поколения поддерживают этот формат, тогда как H100 на базе Hopper поддерживает и использует только FP8.
Далее, Nvidia несколько лукавит, используя один графический процессор B200 вместо четырех графических процессоров H100. Масштабирование никогда не бывает линейным. Для MLPerf 4.1 не указаны результаты H100 с одним графическим процессором, а только один результат B200. Однако один H200 достиг скорости 4488 токенов/с, означая, что B200 всего в 2,5 раза быстрее для этого конкретного сравнения.
Объем памяти и пропускная способность также являются критическими факторами, и существуют большие различия между поколениями. Тестируемый графический процессор B200 имеет 180 ГБ памяти HBM3E, H100 SXM — 80 ГБ HBM (до 96 ГБ в некоторых конфигурациях), а H200 — 96 ГБ HBM3 и до 144 ГБ HBM3E. Один H200 с 96 ГБ HBM3 обеспечивает скорость только 3114 токенов/с в автономном режиме.
Таким образом, существуют потенциальные различия в числовом формате, количестве графических процессоров, объеме и конфигурации памяти, которые влияют на производительность. Многие из этих отличий обусловлены просто тем, что Blackwell B200 — это новый чип с новой архитектурой, и все эти факторы влияют на его максимальную производительность.
Что касается H200 от Nvidia со 144 ГБ памяти HBM3E, то он также показал исключительно хорошие результаты не только в тесте генеративного искусственного интеллекта с использованием модели большого языка Llama 2 70B, но и в каждом отдельном тесте в категории центров обработки данных. По понятным причинам он оказался значительно быстрее H100 в тестах, использующих возможности памяти графического процессора.
На данный момент Nvidia поделилась производительностью своего B200 только в тесте генеративного искусственного интеллекта MLPerf 4.1 на модели Llama 2 70B. Нельзя сказать, связано ли это с тем, что компания все еще работает с настройками, или с другими факторами, но MLPerf 4.1 имеет девять основных дисциплин, и на данный момент можно только догадываться, как Blackwell B200 покажет себя в остальных тестах.