NVIDIA улучшила производительность Llama 3.1 (LLaMA — большая языковая модель (LLM), выпущенная в феврале 2023 года) в 1,9 раза, применив алгоритм декодирования Medusa. Этот алгоритм позволяет ускорить вычисления на ИИ-ускорителях NVIDIA HGX H200. Для обеспечения низкой задержки и высокой пропускной способности в реальном времени в приложениях генеративного ИИ, которые используют большие языковые модели (LLM), необходимо выполнять вычисления на нескольких GPU. Для этого объединенные GPU должны способны обрабатывать запросы как единый мощный GPU. Чтобы достичь этого, вычисления каждого слоя модели делятся между доступными GPU с помощью техники тензорного параллелизма. Также используются передовые алгоритмы, такие как спекулятивное декодирование, которое позволяет уменьшить задержку генерации токенов.
Для обслуживания Llama 3.1 с низкой задержкой облачные сервисы могут использовать серверы NVIDIA HGX H200. Каждый из этих серверов включает восемь графических процессоров H200 Tensor Core и четыре чипа NVLink Switch. Каждый GPU в сервере может передавать данные с полной пропускной способностью 900 ГБ/с любому другому GPU через NVLink Switch. Это необходимо для обеспечения высокой пропускной способности между несколькими GPU в интерактивных приложениях. Для оптимизации вычислений на системах NVIDIA H200 HGX используется библиотека TensorRT-LLM, которая обеспечивает современную производительность вычислений на больших языковых моделях с использованием техник, таких как тензорный параллелизм и спекулятивное декодирование. В рамках оптимизаций TensorRT-LLM был улучшен алгоритм спекулятивного декодирования Medusa, который значительно увеличил производительность и снизил задержку на Llama 3.1.
Medusa увеличивает генерацию токенов на NVIDIA HGX H200 в 1,9 раз на Llama 3.1 405B и в 1,5 раза на Llama 3.1 70B. Это достигается за счет применения спекулятивного декодирования, которое позволяет генерировать несколько маркеров за один шаг генерации токена. Medusa представляет собой алгоритм спекулятивного декодирования, который использует исходную модель в качестве черновой модели.