CentOS 7 安裝 Cuda 的經歷

07-26

來自專欄時間的玩具4 人贊了文章

第一次安裝 Cuda，趟了好幾個坑，總結了幾點經驗。

拿到的伺服器，配了 P2000 的卡，IT 人員預先轉了 CentOS 7，是最小化安裝。官方文檔提示，需要安裝 Kernal，於是運行了：

yum install -y kernel-devel

當然，gcc 也轉好了。看了一些人的分享，一般事先運行

yum update

不過公司網路不好，太耗時，就沒有執行。

早先的步驟大概是：

sudo yum install epel-releaseyum install --enablerepo=epel dkms

安裝過程中，accept 之後，在是否安裝 Nvidia Driver 選項時，選了 No。為這個錯誤付了幾個小時的代價。

安裝完畢後，就是驗證是否成功：

# 驗證 Nvidia 驅動dkms statusnvidia-smi# 驗證 cuda./usr/local/cuda-9.1/extras/demo_suite/deviveQuery

最開始，驗證驅動這一步就卡住了，0_0，因為壓根沒有裝......

於是去官網下載最新版本驅動，把 cuda 卸載，先裝驅動。執行 dkms ，成功，執行 nvidia-smi，一直報「NVIDIA-SMI has failed because it couldnt communicate with the NVIDIA driver ...... 」

在網上轉了一圈後，執行了一行命令

yum install kernel*

解決了第一個問題，總算心情好一點了。

重現安裝 cuda，運行 deviceQuery，報「CUDA driver version is insufficient for CUDA runtime version」。

Google 之，好多人遇到同樣的問題。

重新安裝驅動和 cuda，重啟 .......，折騰了兩遍，還是一樣。蠻幹解決不了問題，還是坐下來仔細分析了日誌，應該是 cuda 版本和顯卡驅動版本不符合導致的。想起在安裝 cuda 時，每次在 "Install Nvidia Driver" 項都選了 "No"，心裡忽然有了不好的預感。

於是下載顯卡驅動和 cuda，直接安裝 cuda，這回毫不猶豫選了「Yes」，然後一切就完美了。

折騰了大半天，得到的一個教訓是：要認真閱讀程序員給的錯誤提示，不管它是多麼糟糕的錯誤提示。