處理方(fang)法:強制重啟服務器,可通過 BMC(IPMI)遠程重啟,如使用ipmitool - I lanplus - H <BMC_IP> - U <user> - P <password> power reset命令;查看日志確認崩潰原因,如使用journalctl - k - b - 1查看上次崩潰的內核日志;升級 NVIDIA 驅動或嘗試禁用 NVIDIA 模塊;檢查 Ceph 存儲是否有異常,如使用ceph - s命令查看狀態(tai);限制 nvidia - smi 監控頻(pin)率,避(bi)免頻(pin)繁鎖爭用(yong),可通過修改(gai)配(pei)置文件實(shi)現。
驅動安(an)裝與版本兼(jian)容問(wen)題
癥狀:購買 GPU 實例后,執行nvidia - smi命令找不(bu)到(dao) GPU 顯(xian)卡;創建 GPU 實例時選擇的 CUDA 版(ban)本與安裝完成后(hou)查看到(dao)的 CUDA 版(ban)本不(bu)一(yi)致。
可能原因:GPU 實例未(wei)安裝或(huo)者未(wei)成功安裝 Tesla 或(huo) GRID 驅(qu)動;驅(qu)動版本與系(xi)統或(huo)應用程序(xu)不(bu)兼(jian)容,導致(zhi)功能異常或(huo)無法正常識(shi)別 GPU。