Выпуск нового в оборудования, учет рыночных тенденций и внимательное отношение к потребностям пользователей помогают нам разрабатывать новые продукты для более эффективного решения задач корпоративных клиентов. На смену устаревшей серии GTX10 и дефицитной RTX30 пришли наследницы серии Quadro — GPU A4000 и А5000. Именно за счет серверов с новыми видеокартами
мы расширили свой серверный парк и предлагаем вам оценить производительность и экономичность нового решения.
Все новые GPU NVIDIA создаются на базе текущей архитектуры Ampere.
Ampere использует 8-нм техпроцесс от Samsung и поддерживает высокоскоростную память GDDR6, HBM2 и GDDR6X. Память GDDR6X является шестым поколением памяти DDR SDRAM и может достигать скорости до 21 Гбит/с. В А5000 и А4000 Nvidia использует ядра RT 2-го поколения и тензорные ядра 3-го поколения, позволяющие обеспечить двукратный прирост производительности по сравнению со старыми ядрами Turing. GPU карты используют стандарт PCIe Gen 4, что позволяет убрать узкие места при обмене данными с GPU.
В Ampere используется новая версия CUDA 8+. На чипе теперь есть два потоковых мультипроцессора FP32, что обеспечивает рост производительности FP32 по сравнению с картами на базе Turing. Старшие GPU A5000 и выше поддерживают NVLink 3.0 для объединения карт парами - это приводит к кратному увеличению производительности.
Видеокарты NVIDIA RTX A4000 и RTX A5000 были анонсированы в апреле 2021 года.
Технические характеристики видеокарт NVIDIA RTX A4000 и RTX A5000, RTX 3090, Quadro RTX 4000
| |
Quadro RTX 4000 |
GTX 1080 ti |
NVIDIA RTX A4000 |
NVIDIA RTX A5000 |
RTX 3090 |
| Архитектура |
Turing |
Pascal |
Ampere |
Ampere |
Ampere |
| Техпроцесс |
12 nm FinFET |
16 нм FinFET |
8 нм |
8 нм |
8 нм |
| Графический процессор |
TU104 |
GP102 |
GA102 |
GA104 |
GA102 |
| Количество транзисторов |
11,800 млн |
13,600 млн |
17,400 млн |
28,300 млн |
28,300 млн |
| Пропускная способность памяти |
416.0 Гб/с |
484 Гб/с |
448 GB/s |
768 GB/s |
936.2 Гб/с |
| Разрядность шины видеопамяти |
256 бит |
352 бит |
256 бит |
384 бит |
384 бит |
| Память GPU |
8 Гб GDDR6 |
11 ГБ GDDR5X |
16 ГБ GDDR6 |
24 ГБ GDDR6 |
24 ГБ GDDR6X |
| Память ECC |
нет |
нет |
да |
да |
нет |
| Ядра CUDA |
2304 |
3584 |
6 144 |
8192 |
10496 |
| Тензорные ядра |
288 |
|
192 |
256 |
328 |
| Ядра RT |
36 |
|
48 |
64 |
82 |
| SP perf |
7.1 терафлопс |
|
19,2 терафлопс |
27,8 терафлопс |
35,6 терафлопс |
| RT Core performance |
нет |
нет |
37,4 терафлопс |
54,2 терафлопс |
69,5 терафлопс |
| Tensor performance |
57.0 терафлопс |
|
153,4 терафлопс |
222,2 терафлопс |
285 терафлопс |
| Максимальная мощность |
160 Вт |
250 Вт |
140 Вт |
230 Вт |
350 Вт |
| Интерфейс |
PCIe 3.0 x16 |
PCI Express 3.0 x16 |
PCI-E 4.0 x16 |
PCI-E 4.0 x16 |
PCIe 4.0 x16 |
| Разъемы |
ДП 1.4 (3) |
|
ДП 1.4 (4) |
ДП 1.4 (4) |
ДП 1.4 (4) |
| Форм-фактор |
1 слот |
2 слота |
1 слот |
2 слота |
2-3 слота |
| Программное обеспечение vGPU |
нет |
нет |
нет |
есть неограниченно |
есть с ограничениями |
| Nvlink |
нет |
нет |
нет |
2x RTX A5000 |
есть |
| Поддержка CUDA |
7.5 |
6.1 |
8.6 |
8.6 |
8.6 |
| Поддержка VULKAN |
есть, 1.2.131 |
есть, 1.2.131 |
есть |
есть |
есть, 1.2 |
| Цена (руб.) |
115 000 |
66 000 |
125 000 |
190 000 |
215 000 |
На новых картах куда больше памяти, это позволяет эффективно работать с нейросетями и изображениями.
Другим существенным отличием RTX A4000 и RTX A5000 является аппаратное ускорение размытия движения, позволяющее значительно сократить время и затраты на при рендеринге.
В старших картах от RTX A5000 есть поддержка vGPU - NVIDIA RTX vWS что позволяет обеспечить совместное использование вычислительных ресурсов и виртуальных GPU несколькими пользователями.
В среднем новые видеокарты NVIDIA обгоняют по производительности старую линейку Quadro в 1,5-2 раза и потребляют меньше электричества.
Тестирование
HOSTKEY Мы провели собственное тестирование профессиональных видеокарт NVIDIA RTX A5000 и A4000 и сравнили их с RTX 3090 и Quadro RTX 4000 – представителем предыдущего поколения профессиональных видеокарт компании NVIDIA.
Описание тестовой среды:
- Процессор OctaCore Intel Xeon E-2288G, 3,5 GHz
- 32 GB DDR4-3200 ECC DDR4 SDRAM 1600 МГц
- Samsung SSD 980 PRO 1TB (1000 GB, PCI-E 4.0 x4)
- Серверная материнская плата Asus P11C-I Series (1 PCI-E x16, 1 M.2, 2 DDR4 DIMM, 2x Gigabit LAN + IPMI)
- Microsoft Windows 10 Professional 64-разрядная.
Tест V-Ray GPU RTX
Tест V-Ray GPU CUDA
Тесты V-Ray GPU CUDA и RTX позволяют измерить относительную производительность GPU при рендеринге. GPU RTX A4000 и RTX A5000 значительно превосходят по производительности Quadro RTX 4000 и GeForce GTX 1080 Ti (тест V-Ray GPU RTX на этой карте провести невозможно, т.к. она не поддерживает технологию RTX), но уступают RTX 3090, что объясняется высокой пропускной способностью памяти (936.2 Гб/с против 768.0 Гб/с у RTX A5000) и количеством потоковых процессоров (10496 против 8192 у RTX A5000).
«Собаки против кошек» Для сравнения производительности GPU для нейросетей мы используем набор данных «Собаки против кошек» - тест анализирует содержимое фотографии и различает изображена на фото кошка или собака. Все необходимые исходные данные находятся здесь. Мы запускали этот тест на разных GPU и в различных облачных сервисах, получили следующие результаты:
Полный цикл обучения
Полный цикл обучения тесовой нейросети занял от 5 до 30 минут. Результат NVIDIA RTX A5000 и A4000 составил 07:30 и 9:10 минут соответственно. Быстрее единичных NVIDIA RTX A5000 и A4000 работал только GPU сервер с 8 картами GeForce RTX 2080Ti и потреблением электричества около 2 кВт/час . Видеокарты Tesla V100 прошлого поколения доступны в сервисах Google Cloud Compute Engine, Microsoft Azure и Amazon Web Services и показали наилучший результат из протестированных там карт.
Сколько стоит обучить нейросеть в разных местах?
На графике представлена стоимость обучения модели с использованием различных сервисов для следующих конфигураций:
- AWS - AWS p3.2xlarge
- Google Cloud - GCP Compute Engine
- Microsoft Azure - Tesla V100
- HOSTKEY - RTX А4000, RTX A5000
Мы пока предоставляем GPU сервера на помесячной оплате, но в ближайшее время все эти машины будут доступны и на почасовой оплате с полной автоматизацией их предоставления клиенту при заказе через API.
Заключение Новые профессиональные видеокарты NVIDIA RTX A5000 и A4000 являются оптимальным решением для использования в GPU-серверах и позволяют выполнять сложные вычисления, производить быструю обработку больших массивов данных.
Переход на новую архитектуру Ampere позволил значительно увеличить производительность новых профессиональных видеокарт компании NVIDIA. Улучшенные тензорные ядра и ядра RT значительно улучшают качество и возможности трассировки лучей в реальном времени. Объем памяти в 16 Гб у NVIDIA RTX A4000 и 24 Гб у RTX A5000 позволяет обрабатывать большие массивы данных. Мостик NVLink для A5000 объединяет две карты в одну, что позволяет работать с 48Гб высокопроизводительной памяти.
Лицензия на драйверы NVIDIA для профессиональных GPU никак не ограничивает их использование в центрах обработки данных, в отличие от их игровых версий.
HOSTKEY рекомендует использовать современные выделенные и виртуальные GPU сервера для рендеринга сцен, транскодинга видео, обучения нейросетей и обработки данных уже обученными сетями. Если есть стабильный большой объем данных для обработки - аренда выделенных GPU серверов может на порядок повысить скорость обработки за те же деньги или сэкономить на инфраструктуре существенные финансовые ресурсы.