Компания NVIDIA представила новую мощную технологию параллелизма, которая обещает радикально улучшить работу моделей ИИ в больших объемах данных. Это нововведение, получившее название Helix Parallelism, позволяет ИИ-агентам обрабатывать миллионы слов одновременно, подобно энциклопедиям, и при этом выдавать молниеносные ответы. Указанное обновление было разработано совместно с Blackwell, новейшей графической системой NVIDIA, которая обеспечивает сверхвысокую пропускную способность памяти и вычислительную мощность FP4.

Как отмечается в презентационной информации NVIDIA к Helix Parallelism, по мере расширения масштабов и усложнения инструментов искусственного интеллекта, указанный прорыв компании в обработке информации позволяет быстрее обслуживать больше пользователей.
Согласно пояснениям NVIDIA к новой мощной технологии параллелизма, основная проблема с большими моделями ИИ заключается не только в их размере. Это происходит, когда они пытаются сгенерировать новый контент, используя огромное количество ранее введенных данных, называемых «контекстом». Каждое слово, которое выдает ИИ, требует проверки по предыдущим токенам, хранящимся в так называемом кэше KV. В то же время ИИ также должен загружать из памяти массивные данные сети прямой связи (FFN) для обработки каждого нового слова. Этот процесс замедляет работу, особенно в таких случаях использования в режиме реального времени, как чат.
Сообщается, что ранее разработчики использовали тензорный параллелизм (TP), чтобы распределить эту нагрузку по графическим процессорам. Но это помогает только в определенной степени. После достижения определенного размера графические процессоры начинают дублировать кэш-память KV, что приводит к еще большей нехватке памяти.
Helix Parallelism исправляет это, разделяя FFN на уровне преобразования модели и обрабатывая сведения отдельно. На этапе attention Helix распределяет массивный кэш KV по графическим процессорам, используя новый метод, называемый KV-параллелизмом (KVP). Это позволяет избежать дублирования и обеспечивает эффективный доступ к памяти, что позволяет распределять работу. Вместо того чтобы графический процессор считывал всю историю токенов, каждый из них обрабатывает только ее фрагмент. Затем те же графические процессоры переключаются в стандартный режим TP для запуска уровня FFN. Это позволяет рационально использовать ресурсы, сохраняя графические процессоры активными и сокращая время простоя.
NVIDIA указывает, что Helix Parallelism в полной мере использует возможности межсоединений NVLink и NVL72 от NVIDIA для быстрой передачи данных между графическими процессорами. В нем также используется технология HOP-B, которая совмещает взаимодействие с графическими процессорами и вычисления, что еще больше сокращает задержки.
Моделирование с использованием DeepSeek-R1 671B, масштабной модели с контекстом в миллион токенов, показывает, что Helix может обслуживать в 32 раза больше пользователей при той же задержке по сравнению со старыми методами. Это также сокращает время отклика (технически называемое задержкой обмена токенами) до 1,5 раз при загрузках с низким уровнем параллелизма. Даже когда контексты искусственного интеллекта масштабируются до миллионов слов, Helix обеспечивает сбалансированное использование памяти и постоянную пропускную способность.
В представленной компанией NVIDIA информации сообщается, что система поэтапно обновляет кэш-память KV, чтобы избежать скачков памяти и перегрузки графического процессора. Это позволяет моделям искусственного интеллекта масштабироваться как по размеру, так и по скорости, не жертвуя производительностью в реальном времени, а пользователям осуществлять работы с искусственным интеллектом с огромными рабочими нагрузками.

