# 세줄 요약 #
1. Server Setting: 고정 IP 설정, ssh 포트 변경 및 포트 포워딩 설정, ssh 연결 자동화
2. GPU 설정: Nvidia Driver 설치 (* CUDA & Anaconda는 "Docker" 사용할 것이므로 제외!)
3. 추가 설정: Docker 설치(+Nvidia container toolkit 설치), NFS 설치 및 세팅
# 상세 리뷰 #
* GPU 서버 환경: Linux(Ubuntu) base, Nvidia GPU
* 로컬 컴퓨터 환경: Linux or MAC
1. GPU Setting
1-1. 그래픽 카드 드라이버 설치
- 그래픽 카드 정보 및 드라이버 확인
- 설치 가능한 드라이버 확인
ubuntu-drivers devices
- 현재 설치된 그래픽카드 확인
# 아래 두개의 command 중 아무거나 사용해도 된다.
lspci | grep -i nvidia
lshw -numeric -C display
- 드라이버 설치
- (옵션 1) 권장 드라이버 설치
sudo ubuntu-drivers autoinstall
- (옵션 2) 원하는 버전 수동 설치
sudo apt install nvidia-driver-450
# 앞서 확인한 드라이버 버전을 체크하고 원하는 드라이버 설치할 것.
# ubuntu-drivers devices에서 나오지 않은 드라이버 설치 시에는 에러!
- 재부팅
- 설치 후에는 재부팅이 필수다!
sudo reboot
- 재부팅 후에 [>>> nvidia-smi] 입력 시에는 그래픽카드 정보를 확인 가능하다.
nvidia-smi
(* 원래는 CUDA Toolkit과 CUDNN 등을 설치해야하나, 필자는 도커를 사용할 것이므로 굳이 설치하지 않는다.)
1-2. 그래픽 카드 문제 시!
- [>>> nvidia-smi] 입력 시 에러가 나오는데, [>>> lspci | grep -i nvidia]로 그래픽카드가 설치되었음은 확인되는 경우!
- 보통 드라이버 버전이 맞지 않아서 나타나는 문제이다!
- 따라서 드라이버를 삭제 후 그래픽카드와 일치하는 버전의 드라이버를 재설치 해야한다.
- 현재 설치된 드라이버의 프로세스 조회
lsmod | grep nvidia
- 조회된 nvidia 프로세스 강제 종료
sudo rmmod nvidia_drm # 삭제 안될 시(`systemctl isolate multi-user.target`)
sudo rmmod nvidia_modeset
sudo rmmod nvidia_uvm
sudo rmmod nvidia # 반드시 가장 마지막으로 종료할 것!
- 설치된 nvidia driver 삭제
sudo apt purge nvidia*
sudo apt autoremove
sudo apt autoclean
* 잘 삭제 되었다면, 드라이버 프로세스 조회 시 아무것도 나타나지 않는다. 이후 1-1 번으로 돌아가서 그래픽카드에 맞는 드라이버를 재설치 하면 된다!
# Reference
https://pstudio411.tistory.com/entry/Ubuntu-2004-Nvidia드라이버-설치하기
https://dfso2222.tistory.com/69
# 딥러닝을 위한 리눅스(Ubuntu) GPU 서버 구축하기
2023.04.01 - [지식 리뷰/프로그래밍] - 딥러닝을 위한 리눅스(Ubuntu) GPU 서버 구축하기 - 1. Server setting
2023.04.02 - [지식 리뷰/프로그래밍] - 딥러닝을 위한 리눅스(Ubuntu) GPU 서버 구축하기 - 3. 추가 설정(도커, NFS)
'AI프로그래밍 리뷰 > 프로그래밍' 카테고리의 다른 글
딥러닝을 위한 리눅스(Ubuntu) GPU 서버 구축하기 - 3. 추가 설정(도커, NFS) (0) | 2023.04.02 |
---|---|
딥러닝을 위한 리눅스(Ubuntu) GPU 서버 구축하기 - 1. Server setting (0) | 2023.04.01 |
리눅스 터미널에서 텐서플로가 GPU를 잡고 있는지 확인하는 방법 (0) | 2021.08.19 |
리눅스 터미널 백그라운드에서 프로세스 돌리기 (tmux or nohup) (0) | 2020.04.29 |
리눅스 터미널에서 딥러닝 학습 강제 중단했을때 GPU에 남은 메모리 정리하는 방법 (4) | 2020.04.02 |
댓글