NVIDIA A100 - технологические сложности производства
реклама
NVIDIA A100, технологические сложности производства.
Во время выступления 14 мая на Nvidia GTC 2020 основатель и генеральный директор NVIDIA Дженсен Хуанг представил ускоритель вычислений NVIDIA A100, основанный на новой графической архитектуре NVIDIA Ampere. На кристалле площадью 826 мм2 "зелёные" разместили умопомрачительные 54,2 миллиарда транзисторов.
реклама
В этой заметке я хочу поговорить о сложностях производства этого ускорителя вычислений.
Ускоритель вычислений NVIDIA A100 на новом модуле SXM4.
реклама
В своих материалах NVIDIA показала фотографию кристалла GA100. Немного развернув в графическом редакторе фотографию и выставив правильные пропорции я получил картинку кристалла. В правой части видны некоторые искажения возникшие при исправлении перспективы, но это не принципиально.
NVIDIA A100.
Здесь хорошо видна структура чипа GА100, который включает в себя следующие блоки:
- 8 GPC, 8 TPC на GPC, 2 SM на TPC, 16 SM на GPC, 128 SM на полный GPU;
- 64 ядра FP32 CUDA на SM, 8192 ядра FP32 CUDA на полный графический процессор;
- 4 тензорных ядра третьего поколения на SM, 512 тензорных ядер третьего поколения на один графический процессор;
- 6 стеков HBM2, 12 512-битных контроллеров памяти, 48 МB L2 кэша.
реклама
Графический процессор GA100 со 128 SM.
В своих материалах NVIDIA показала ещё одну фотографию кристалла GA100. И вновь я развернул фотографию и выставил пропорции. На получившейся картинке показано расположение основных блоков.
Расположение основных блоков на кристалле GA100.
реклама
Но для увеличения выхода годных кристаллов и, возможно, для снижения энергопотребления, часть блоков в поставляемых изделиях NVIDIA отключила.
Поставляемый A100 Tensor Core GPU включает в себя следующие блоки:
- 7 GPC, 7 или 8 TPC на GPC, 2 SM на TPC, до 16 SM на GPC, 108 SM;
- 64 ядра FP32 CUDA на SM, 6912 ядер FP32 CUDA на графический процессор;
- 4 тензорных ядра третьего поколения на SM, 432 тензорных ядра третьего поколения на графический процессор;
- 5 стеков HBM2, 10 512-битных контроллеров памяти, 40 МB L2 кэша.
Поставляемый NVIDIA процессор GA100 со 108 SM. Часть блоков отключена.
Наверное, мало кто обратил внимание на то по какому технологическому процессу произведены эти кристаллы. Все мы неоднократно читали о том, что TSMC будет выпускать их по 7-нм техпроцессу, использующему многослойную литографию в жёстком ультрафиолете (EUV). Но вышло иначе. GA100 произведён по "старому" и не оптимизированному техпроцессу TSMC 7N (7-нм DUV), он по-прежнему использует литографию в глубоком ультрафиолете. Старый техпроцесс проигрывает более новому техпроцессу TSMC 7N+ (EUV) 18% по плотности размещения транзисторов, 7% по частоте, увеличивает энергопотребление на 15% при равных тактовых частотах.
Напомню, Nvidia в своих договорах на поставку ускорителей вычислений на базе архитектуры Ampere руководствовалось отчётами TSMC об этапах освоения техпроцесса 7N+. В середине апреля 2019 года стало известно, что в мае компания TSMC начнёт по новой 7-нм EUV технологии производство следующего поколения флагманских SoC. Поэтому на октябрь 2019 года в NVIDIA планировали начало производства А100, а на начало лета 2020 года поставку продукции потребителям. Но что-то пошло не так. Чип A100 запустили в производство по старому техпроцессу. Площадь кристалла (согласно расчётам) увеличилась с 694 мм2 ( 23,5*30 мм, техпроцесс TSMC 7N+) до 826 мм2 (25*33 мм, техпроцесс TSMC 7N). Тепловыделение выросло ориентировочно на 55-60 Ватт.
Процессор GA100 выполненный по техпроцессу TSMC 7N.
Более года тому назад в интернет утекли основные параметры кристаллов на архитектуре Ampere. В этом году эта информация несколько раз подтверждалась.
Хочу обратить ваше внимание на кристалл GA101. На сегодняшний день GA101 отменён, хотя NVIDIA освоила технологию многокристальной компоновки GPU.
Многокристальная компоновка GPU NVIDIA.
Такая упаковка позволяет повысить выход годных кристаллов, существенно снизить издержки на производство и выпускать кристаллы с большей площадью. Кристалл GA101, наверное, тоже можно разделить пополам, если коммутатор NVLink (3 поколения) находящийся у левого края по центру можно будет разделить на две части. Каждый NVlink теперь состоит из пары сигнальных линков. Расчётная площадь кристалла GA101- около 348 мм2 ( 23,5*15 мм, техпроцесс TSMC 7N+).
Так мог выглядеть кристалл процессора GA101.
Буквально на днях стало известно, до конца этого года TSMC начнёт массовое производство по техпроцессу 5N+, использующему многослойную литографию в жёстком ультрафиолете (EUV). При таком раскладе, не проще ли оставить пока GA100 на старом техпроцессе?
реклама
Теги
Лента материалов
Соблюдение Правил конференции строго обязательно!
Флуд, флейм и оффтоп преследуются по всей строгости закона!
Комментарии, содержащие оскорбления, нецензурные выражения (в т.ч. замаскированный мат), экстремистские высказывания, рекламу и спам, удаляются независимо от содержимого, а к их авторам могут применяться меры вплоть до запрета написания комментариев и, в случае написания комментария через социальные сети, жалобы в администрацию данной сети.
Комментарии Правила