Last Updated on 2021-06-07 by Clay
發生問題
在安裝 Nvidia 顯示卡驅動程式的時候,我曾經二度遇到這個問題。在第一次遇到的時候,由於只有我一個人在使用有 GPU 的伺服器,故上網查查很快地找到了解決方法;第二次遇到,也就是今天,伺服器上已經有著許多一同做事的夥伴了,環境也變得有些複雜,查找了好一陣子才終於解決了問題。
事情是這樣的,今天使用
nvidia-smi
檢查 GPU 時發現驅動程式又消失了 (偶爾會發生這種事情),所以又打算再次裝一次 GPU 的驅動程式。
我所使用安裝驅動的指令如下:
sudo sh NVIDIA-Linux-x86_64-440.64.run
但就在這次,我發生了以下報錯:
An NVIDIA kernel module 'nvidia-drm' appears to already be loaded in your kernel...
這個報錯之所以出現,據網路上查到的資料所述,應當是在使用 GPU 驅動 X-Window 時同時安裝 CUDA 的驅動程式,要解決這個問題,比較簡潔的方法便是停止使用 GPU。
解決方法 1: 清除 Nvidia 驅動
使用以下指令刪除 Nvidia 的驅動程式,並使用 autoremove 移除所有不必要的相關套件。
sudo apt-get purge nvidia*
sudo apt-get autoremove
sudo reboot
重新開機之後,可以試著重新裝裝看驅動。
解決方法 2: 停止使用到 GPU 的所有顯示
首先,需要透過指令取得 Super User 的權限:
sudo -i
然後關閉所有裝置、並停止載入 Nvidia 驅動程式:
systemctl isolate multi-user.target
modprobe -r nvidia-drm
然後重新安裝驅動程式。