Nvidia анонсирует TensorRT 8, сокращающий время вывода BERT до миллисекунды

Блоги

20 июл. 2021, 22:12 anykey911

TensorRT 8 обеспечивает более чем вдвое большую точность и скорость вывода по сравнению с предыдущим поколением

TensorRT - это SDK для глубокого обучения от Nvidia, который позволяет приложениям работать до 40 раз быстрее, чем платформы, использующие только ЦП, во время логического вывода. С помощью модели параллельного программирования CUDA TensorRT позволяет оптимизировать модели нейронных сетей, откалибровать для более низкой точности с высокой точностью и развернуть ваши модели для исследований и коммерческих вариантов использования.

Может быть интересно

Сегодня Nvidia запустила 8-е поколение TensorRT. Последняя версия SDK, получившая название TensorRT 8, содержит множество обновлений и усовершенствований, которые позволят разработчикам и компаниям оптимизировать и развертывать свои рабочие процессы и продукты глубокого обучения в Интернете. При развертывании и коммерческом использовании время вывода для моделей глубокого обучения может создавать узкие места, особенно для больших моделей преобразователей, таких как BERT и GPT-3. Чтобы смягчить такие проблемы, разработчики прибегают к уменьшению параметров. Но это приводит к потере точности и снижению качества.

Используя TensorRT 8, Nvidia впервые в отрасли показала время вывода 1,2 миллисекунды на BERT-Large, которая является одной из наиболее часто используемых сегодня языковых моделей. По сравнению с последним поколением TensorRT сократила время вывода в 2,5 раза. Рекордное время вывода TensorRT 8 должно позволить предприятиям использовать более крупные модели таких языковых моделей, не беспокоясь о вычислительной мощности и времени вывода.

В основе этой быстрой скорости вывода лежат два ключевых достижения. Во-первых, TensorRT 8 использует технику производительности, известную как Sparsity, которая ускоряет логический вывод нейронной сети за счет сокращения вычислительных операций. Второй метод, получивший название Quantization Aware Training (QAT), позволяет разработчикам использовать обученные модели для выполнения вывода с точностью INT8 без потери точности.

Разреженность, QAT и другие специфичные для модели оптимизации, встроенные в TensorRT 8, в совокупности приводят к двукратному увеличению производительности по сравнению с его предшественником TensorRT 7. И хотя использование INT8 для ускорения вывода не является новой концепцией, QAT повышает точность вычислений INT8 в 2 раза по сравнению с прошлым поколением.

«Модели ИИ становятся все более сложными, и во всем мире растет спрос на приложения реального времени, использующие ИИ. Это заставляет предприятия развертывать современные решения для логического вывода », - сказал Грег Эстес, вице-президент по программам для разработчиков в Nvidia. «Последняя версия TensorRT представляет новые возможности, которые позволяют компаниям предоставлять своим клиентам диалоговые приложения ИИ с уровнем качества и скорости отклика, которые раньше были невозможны».

Показать комментарии (7)

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Комментарии

Популярные новости

Популярные статьи

Сейчас обсуждают

Комментарии

Популярные новости

Популярные статьи

Сейчас обсуждают

Блог

Авторы

Статистика разгона

Закладки