Дженсен Хуанг признал вину в сбоях GPU Blackwell и заявил об устранении проблем инженерами NVIDIA

В ноябре первые клиенты начнут получать графические ускорители Blackwell с новым степпингом
24 октября 2024, четверг 08:55
cool-gadgets для раздела Блоги

Продажи графических ускорителей NVIDIA бьют все рекорды, превосходя самые смелые прогнозы. Отличные квартальные показатели демонстрируют партнёры компании, собирающие подобные устройства в своих цехах, а также выпускающие видеопамять и другие компоненты. Дженсен Хуанг рассказывает о приближении эры ИИ, но в этом году планы американской компании оказались под угрозой срыва. Поставки графических ускорителей нового поколения должны были начаться ещё летом, но в результате неназванной ошибки релиз пришлось перенести. По данным инсайдеров, очередь за Blackwell растянулась на целый год, а перед инженерами NVIDIA была поставлена задача решить все проблемы в кратчайшие сроки. 

Что примечательно, первые клиенты получили графические чипы B100 и B200 ещё летом, но сразу же заметили, что производительность в определённых сценариях не соответствует заявленным показателям. Ходили слухи, что в задержке виноваты специалисты TSMC. Якобы, Дженсен Хуанг очень недоволен, поскольку из-за производственной ошибки компания потеряла миллиарды долларов. Вчера глава NVIDIA выступил с заявлением, опровергнув подобные домыслы. По его словам, партнёры здесь не причём, ну а инженеры компании уже устранили все допущенными ранее недочёты. В сообщении сказано, что речь шла о незначительном конструктивном недостатке, существование которого приводило к падению быстродействия во время работы готовой системы. Дженсен Хуанг опроверг слухи о конфликте с руководством TSMC, заверив инвесторов и прессу в том, что сотрудничество продолжается. 

По мнению экспертов, проблема заключалась в особенностях конструкции графических ускорителей. Так, устройства на базе архитектуры Blackwell используют технологию упаковки CoWoS-L от TSMC, которая включает интерпозер RDL с локальными кремниевыми мостами (LSI). Именно этот компонент обеспечивает скорость передачи данных до 10 ТБ/с. Выяснилось, что инженеры допустили ошибки в правильном размещении мостов, а последующие проблемы возникли из-за несовместимости коэффициентов теплового расширения между различными компонентами. В результате полностью рабочий продукт начинал деформироваться, а исправить ситуацию можно было только путём отзыва всех графических ускорителей нового поколения. Уже полностью готовые B100 и B200 разобрали и устранили дефект, а изменения также были применены к ещё не выпущенной продукции. 

Оказывается, инженерам NVIDIA потребовалось изменить верхние металлические слои и конструкцию кремниевых чиплетов для улучшения производственного процесса. Точной информации на этот счёт нет, но инсайдеры полагают, что использовались новые маски и другие детали конструкции. Эксперты отмечают, что подобные проблемы часто встречаются в полупроводниковой отрасли. Обычно они решаются путём выпуска нового степпинга чипа. Чаще всего на это уходит не меньше трёх месяцев, а иногда приходится устранять досадные неполадки несколько раз. Например, архитектура Sapphire Rapids получила от разработчиков Intel 12 степпингов. Эксперты обращают внимание на скорость, с которой инженеры NVIDIA решили проблему, а значит Дженсен Хуанг задействовал все доступные ресурсы. По данным инсайдеров, массовое производство графических ускорителей на архитектуре Blackwell стартует в конце октября, а первые клиенты получат заказы уже в ноябре. Как уже отмечалось выше, очередь растянулась на год, поэтому в 2025 у NVIDIA точно не будет финансовых проблем. 

Добавим, что вчера у многих жителей России возникла проблема с доступом к официальному сайту NVIDIA. Некоторые владельцы видеокарт не могли скачать новые обновления при помощи приложения GeForce Experience, тогда как другие опровергали подобные заявления. Пошли слухи о полной блокировке российского сегмента, поскольку ранее американская компания заявила об уходе из РФ. При попытке скачать драйверы с официального сайта появлялась ошибка о блокировке при помощи файервола Edgecast WAF, что только увеличивало общую нервозность. К счастью, утром 24 октября проблема с доступом и скачиванием драйверов была решена. Представители NVIDIA ситуацию не комментируют, поскольку официально эта компания на российском рынке не работает. Скорее всего, ошибка возникла в сервисах рассылки программного обеспечения, ну а всем нашим читателям мы советуем не беспокоиться. Даже если производитель заблокирует свой сайт для геймеров из РФ, всегда можно скачать обновление при помощи средств обхода блокировок.