Новые графические процессоры на архитектуре NVIDIA Pascal ускоряют глубокое обучение

Редакция

Новости IT-рынка 13 сент. 2016, 12:17 admin

Tesla P4, P40 ускоряют работу с искусственным интеллектом в 45 раз; ПО TensorRT и DeepStream ускоряют процессы инференса при анализе видео

ПЕКИН—Конференция по графическим технологиям в Китае— 13 сентября 2016—NVIDIA сегодня представила новейшие решения для платформы глубокого обучения на базе архитектуры Pascal™ - графические ускорители NVIDIA® Tesla® P4 и P40 и программное обеспечение, которое значительно ускоряет и оптимизирует анализ информации для сервисов, использующих искусственный интеллект (ИИ).

Современные сервисы ИИ, такие, как активируемая голосом помощь, почтовые фильтры спама и движки генерации рекомендуемых фильмов и продуктов, становятся все сложнее. Нейронным сетям, которые для них нужны, требуется в 10 раз больше вычислений по сравнению с нейронными сетями еще год назад. Современные центральные процессоры не способны оперативно реагировать на запросы сервисов ИИ, что не лучшим образом сказывается на возможностях пользователей.

Ускорители Tesla P4 и P40 специально созданы для ускорения операций инференса – применения обученных глубоких нейронных сетей для распознавания речи, изображений и текста в ответ на запрос пользователей или устройств. Основанные на архитектуре Pascal, новые графические процессоры использую специальные инструкции инференса на базе 8-битных (INT8) данных, обеспечивая ответную реакцию в 45 раз быстрее по сравнению с CPU⁽¹⁾ и в 4 раза быстрее по сравнению с GPU, представленными меньше года назад⁽²⁾.

Ускорители Tesla P4 отличаются высочайшей экономичностью и предназначены для гипермасштабируемых дата-центров. Благодаря малым размерам и низкому энергопотреблению (от 50Вт), они подходят для любых серверов, что делает их в 40 раз экономичнее центральных процессоров в задачах использования результатов обучения нейронных сетей при обработке данных⁽³⁾.

Сервер с одним Tesla P4 может заменить 13 серверов на базе CPU, предназначенных для анализа данных⁽⁴⁾, что сокращает общую стоимость владения в 8 раз, включая затраты на сервер и электричество.

Tesla P40 обеспечивает максимальную пропускную способность для задач глубокого обучения. С производительностью в 47 тера-операций в секунду (TOPS) с инструкциями INT8 сервер с восемью ускорителями Tesla P40 может заменить 140 серверов на базе CPU.⁽⁵⁾ С учетом средней стоимости одного сервера с CPU порядка $5000, общая экономия составит более $650 000.

“В лице Tesla P100, а теперь и Tesla P4 и P40, компания NVIDIA предлагает единственную комплексную платформу глубокого обучения для дата-центров, раскрывая огромные возможности искусственного интеллекта для решения самого широкого круга задач, - говорит Ян Бак (Ian Buck), директор по ускоренным вычислениям в NVIDIA. – Новые процессоры сокращают время обучения нейронных сетей с нескольких дней до нескольких часов. Они позволяют мгновенно извлечь данные из анализируемых материалов. И они выдают ответы в реальном времени пользователям сервисов ИИ”.

Программные инструменты для ускорения анализа данных

Решения Tesla P4 и P40 дополняют два новых программных продукта, предназначенных для ускорения работы ИИ-сервисов: NVIDIA TensorRT и NVIDIA DeepStream SDK.

TensorRT – это библиотека, созданная для оптимизации моделей глубокого обучения, которая обеспечивает мгновенную ответную реакцию для самых сложных сетей. Она увеличивает пропускную способность и эффективность приложений глубокого обучения путем оптимизации обученных нейронных сетей – обычно в форме 32-битных или 16-битных операций – для операций INT8 пониженной точности.

NVIDIA DeepStream SDK использует мощь сервера на базе решений на архитектуре Pascal для одновременного декодирования и анализа до 93 видеопотоков в разрешении HD в реальном времени, в отличие от семи потоков в случае с серверами на базе двух CPU⁽⁶⁾. Это позволяет решить одну из сложнейших задач в области применения искусственного интеллекта: восприятие масштабируемого видеоконтента – что является критически важным для таких областей применения ИИ, как самоуправляемые автомобили, интерактивные роботы, фильтрация и размещение рекламы. Интеграция глубокого обучения в видеоприложения позволит компаниям создавать умные инновационные сервисы, которые раньше были просто невозможны.

Шаг вперед для клиентов

Компании, использующие решения NVIDIA, создают все более инновационные сервисы искусственного интеллекта, для которых требуется высочайшая скорость вычислений.

“Нам очень важно, чтобы наши клиенты могли создавать простые приложения с мгновенной реакций , - говорит Грэг Диамос (Greg Diamos), старший исследователь в Baidu. – Мы используем графические процессоры NVIDIA для таких наших сервисов ИИ, как Deep Speech 2. Применение GPU позволяет добиться такой оперативности, которая попросту невозможна на других неускоренных решениях. Pascal, с поддержкой инструкций INT8, позволяет нам сделать еще один шаг вперед, и теперь мы можем делать пользовательские возможности еще лучше”.

Спецификации

Спецификации GPU Tesla P4 и P40:

Спецификации	Tesla P4	Tesla P40
FLOPS одинарной точности*	5.5	12
INT8 TOPS* (тера-операций в секунду)	22	47
Ядра CUDA	2560	3840
Память GPU GDDR5	8ГБ	24ГБ
Полоса пропускания памяти	192ГБ/с	346ГБ/с
Энергопотребление	50Вт (и выше)	250Вт

* С активированной частотой Boost

Наличие

NVIDIA Tesla P4 и P40 станут доступны по всему миру в ноябре и декабре соответственно в сертифицированных серверах от сборщиков систем и партнеров по каналу.

Дополнительные материалы

Следите за новостями NVIDIA:
Подпишитесь на блог NVIDIA, следите за новостями в Facebook, Google+, Twitter, LinkedIn и Instagram, а также смотрите нас на YouTube и Flickr.

О компании NVIDIA
NVIDIA (NASDAQ: NVDA) находится на вершине искусства и науки визуальных вычислений с 1993 года. Технологии компании превращают мир изображений в мир интерактивных открытий для самых разных пользователей — геймеров и ученых, пользователей мобильных устройств, офисных работников и не только. Подробнее смотрите на сайтах http://www.nvidia.ru, http://nvidianews.nvidia.com и http://blogs.nvidia.com.

⁽¹⁾Сравнение латентности с помощью нейронных сетей VGG-19, размер пакета =4. CPU: Xeon E5-2690v4 с Intel MKL 2017. GPU: Tesla P40 с TensorRT. VGG-19 с оптимизацией под Intel: https://github.com/intel/caffe/tree/master/models/mkl2017_vgg_19 .
⁽²⁾Сравнение изображений/сек с помощью нейронной сети Caffe GoogLeNet, размер пакета = 128. Сервер с 8 GPU P40 в сравнении с сервером с 8 GPU M40. В обоих случаях используется TensorRT.
⁽³⁾Сравнение изображений/сек/Вт с помощью нейронной сети Caffe AlexNet, размер пакета = 128. CPU: E5-2690v4 с Intel MKL 2017. Caffe и AlexNet с оптимизацией под Intel тут https://github.com/intel/caffe. GPU: Tesla P4 для изменения мощности GPU.
⁽⁴⁾GoogLeNet с оптимизацией под Intel, сервер с двумя CPU, Xeon E5-2650v4 с Intel MKL 2017. Сервер с 1 Tesla P4 GPU с DeepStream SDK. Видео стриминг 720p @ 30FPS.
⁽⁵⁾Сравнение изображений/сек с помощью нейронной сети GoogLeNet, размер пакета=128. Сервер с двумя CPU, Xeon E5-2690v4 с Intel MKL 2017, 358 изображений/сек. Сервер с 8 GPU Tesla P40 с TensorRT, 52K изображений/сек, в 145 раз больше, чем у CPU-сервера.
⁽⁶⁾Caffe с оптимизацией под Intel с серверами с 2 CPU E5-2650 v4, Intel MKL 2017, на базе GoogLeNet с оптимизацией под Intel: https://github.com/intel/caffe/tree/master/models/mkl2017_googlenet_v2 , транскодирование 720p, 30FPS. GPU: один Tesla P4 с сервером с двумя CPU E5-2650 v4.

Отдельные заявления данного пресс-релиза, включая преимущества, производительность, оказываемый эффект и наличие NVIDIA P4 and P40, приводятся с расчетом на будущее и могут изменяться в результате обстоятельств и рисков, приводящих к результатам, материально отличным от ожидаемых. Такие обстоятельства и риски включают разработку более быстрой или эффективной технологии, использование CPU для параллельных вычислений, конструкторские, производственные или программные ошибки, влияние технологического развития и конкуренции, изменения в предпочтениях и требованиях покупателей, выбор других стандартов или продуктов конкурентов покупателями, изменения в стандартах отрасли и интерфейсах, неожиданное снижение производительности наших продуктов или технологий при интеграции в системы, а также другие риски, указываемые время от времени в отчетах, которые NVIDIA отсылает в Комиссию по ценным бумагам и биржевым операциям, включая отчет по форме 10-Q за финансовый период, закончившийся 1 мая 2016 года. Копии отчетов для SEC опубликованы на нашем сайте и доступны у NVIDIA бесплатно. Данные, относящиеся к будущему заявлению, не относятся к будущей производительности, а только к текущему моменту, и, кроме случаев, установленных законом, NVIDIA не несет ответственность за обновление таких заявлений, чтобы отразить будущие события или обстоятельства.

© 2016 NVIDIA Corporation. Все права защищены. NVIDIA, логотип NVIDIA, Tesla и Pascal являются товарными знаками и/или зарегистрированными товарными знаками компании NVIDIA в США и/или других странах. Все другие названия компаний и/или продуктов могут являться товарными знаками и/или зарегистрированными товарными знаками соответствующих владельцев. Функции, цены, наличие и спецификации могут быть изменены без предупреждения.

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные статьи