TIL/Error

[Ubuntu] couldn't communicate with the NVIDIA driver

oraange 2022. 8. 16. 10:53


연휴가 끝난 후 졸린 눈을 비비고 출근하여 서버를 확인해 보니 couldn't communicate with the NVIDIA driver 라는 에러가 발생했다.

건든 것도 없고 무엇이 문제인지 감이 안잡혀서 먼저 커널 로그를 살펴보았다. 그 결과 관련해서는 아무 것도 나오지 않았다.

그래서 구글에 검색해 본 결과 꽤 많은 포스트가 검색되었다. 아마 자주 일어나는 에러인 것 같다. 그렇기에 나도 따로 정리를 해보려고 한다.

에러 발생 원인

nvidia GPU 드라이버에 문제가 생기는 경우에 에러가 발생한다. NVIDIA 드라이버를 사용 중에 서버를 종료하거나 시스템을 종료하면 에러가 난다고 한다.

에러 해결 방법

기존 서버에 설치되어 있는 NVIDIA 드라이버를 전부 삭제하고 재설치하면 된다.

  1. NVIDIA driver 삭제
$ sudo apt remove --autoremove nvidia-*
$ sudo apt remove --autoremove nvidia-cuda-toolkit
  1. 새로 설치
$ apt-get update
$ sudo add-apt-repository ppa:graphics-drivers/ppa
$ sudo apt update
$ sudo apt-get install nvidia-driver-[버전] # sudo apt-get install nvidia-driver-515

PPA란, 개발자가 소스코드를 업로드하면 자동으로 패키지화 되어 사용자가 직접 다운로드 받아 설치를 해볼 수 있게 해주는 소프트웨어 저장소이다.

확인

$ nvidia-smi -l

도커 다시 실행하기

$ docker restart [컨테이너 이름]

그러나 여기서 또 에러가 발생했다.

반응형