Судя по всему, новейшие видеокарты NVIDIA, а именно GeForce RTX 5090 и RTX PRO 6000, подвержены досадной ошибке, вызывающей зависания при использовании в задачах виртуализации.
Компания CloudRift, специализирующаяся на облачных решениях для разработчиков, работающих с GPU, одной из первых заявила о возникновении проблем со стабильностью этих видеокарт. По их данным, после нескольких дней работы внутри виртуальных машин эти модели полностью теряют работоспособность. Причем, доступ к GPU восстанавливается только после перезагрузки всего хост-компьютера. Утверждается, что данная проблема относится исключительно RTX 5090 и RTX PRO 6000, в то время как другие модели, такие как RTX 4090, Hopper H100 и новейшие B200 на архитектуре Blackwell, остаются незатронутыми.
Проблема проявляется, когда графический адаптер назначается виртуальной машине через драйвер VFIO, и после выполнения сброса функционального уровня (FLR) GPU полностью перестает реагировать на команды. Такое состояние приводит к «мягкой блокировке» ядра, провоцируя ситуацию взаимоблокировки между хостовой и гостевой системами.
CloudRift – не единственная компания, столкнувшаяся с этой проблемой. Пользователь Proxmox сообщил о похожей ситуации, когда наблюдался полный отказ хост-системы после завершения работы виртуальной машины Windows. По его словам, NVIDIA уже отреагировала на сообщение об ошибке, заявив, что им удалось воспроизвести проблему и в настоящее время ведется работа над ее устранением. Ожидается официальное подтверждение от NVIDIA.