이 페이지에서는 Google Kubernetes Engine(GKE)에서 GPU와 관련된 문제를 해결하는 방법을 설명합니다.
추가 지원이 필요하면 Cloud Customer Care에 문의하세요.
GPU 드라이버 설치
이 섹션에서는 GKE의 자동 NVIDIA 기기 드라이버 설치에 대한 문제 해결 정보를 제공합니다.
GPU 기기 플러그인이 CrashLoopBackOff 오류와 함께 실패
2023년 1월 25일 이전에 노드 풀에서 수동 드라이버 설치 메서드를 사용한 후 노드 풀을 자동 드라이버를 지원하는 GKE 버전으로 업그레이드한 경우 다음과 같은 문제가 발생합니다. 두 설치 워크로드가 동시에 존재하며 충돌하는 드라이버 버전을 노드에 설치하려고 시도합니다.
GPU 기기 플러그인 초기화 컨테이너가 Init:CrashLoopBackOff
상태로 실패합니다. 컨테이너의 로그는 다음과 비슷합니다.
failed to verify installation: failed to verify GPU driver installation: exit status 18
이 문제를 해결하려면 다음을 메서드를 시도해 보세요.
클러스터에서 수동 드라이버 설치 DaemonSet를 삭제합니다. 이렇게 하면 충돌하는 설치 워크로드가 삭제되고 GKE가 노드에 드라이버를 자동으로 설치할 수 있습니다.
kubectl delete -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded.yaml
수동 드라이버 설치 DaemonSet 매니페스트를 클러스터에 다시 적용합니다. 2023년 1월 25일, 자동 드라이버 설치를 사용하는 노드를 무시하도록 매니페스트를 업데이트했습니다.
kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded.yaml
노드 풀의 자동 드라이버 설치를 사용 중지합니다. 기존 드라이버 설치 DaemonSet는 업데이트 작업이 완료된 후 예상한 대로 작동합니다.
gcloud container node-pools update POOL_NAME \ --accelerator=type=GPU_TYPE,count=GPU_COUNT,gpu-driver-version=disabled \ --cluster=CLUSTER_NAME \ --location=LOCATION
다음을 바꿉니다.
POOL_NAME
: 노드 풀의 이름입니다.GPU_TYPE
: 노드 풀에서 이미 사용 중인 GPU 유형입니다.GPU_COUNT
: 이미 노드 풀에 연결된 GPU 수입니다.CLUSTER_NAME
: 노드 풀이 포함된 GKE 클러스터의 이름입니다.LOCATION
: 클러스터의 Compute Engine 위치입니다.
다음 단계
추가 지원이 필요하면 Cloud Customer Care에 문의하세요.