GKE의 GPU 문제 해결


이 페이지에서는 Google Kubernetes Engine(GKE)에서 GPU와 관련된 문제를 해결하는 방법을 설명합니다.

추가 지원이 필요하면 Cloud Customer Care에 문의하세요.

GPU 드라이버 설치

이 섹션에서는 GKE의 자동 NVIDIA 기기 드라이버 설치에 대한 문제 해결 정보를 제공합니다.

GPU 기기 플러그인이 CrashLoopBackOff 오류와 함께 실패

2023년 1월 25일 이전에 노드 풀에서 수동 드라이버 설치 메서드를 사용한 후 노드 풀을 자동 드라이버를 지원하는 GKE 버전으로 업그레이드한 경우 다음과 같은 문제가 발생합니다. 두 설치 워크로드가 동시에 존재하며 충돌하는 드라이버 버전을 노드에 설치하려고 시도합니다.

GPU 기기 플러그인 초기화 컨테이너가 Init:CrashLoopBackOff 상태로 실패합니다. 컨테이너의 로그는 다음과 비슷합니다.

failed to verify installation: failed to verify GPU driver installation: exit status 18

이 문제를 해결하려면 다음을 메서드를 시도해 보세요.

  • 클러스터에서 수동 드라이버 설치 DaemonSet를 삭제합니다. 이렇게 하면 충돌하는 설치 워크로드가 삭제되고 GKE가 노드에 드라이버를 자동으로 설치할 수 있습니다.

    kubectl delete -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded.yaml
    
  • 수동 드라이버 설치 DaemonSet 매니페스트를 클러스터에 다시 적용합니다. 2023년 1월 25일, 자동 드라이버 설치를 사용하는 노드를 무시하도록 매니페스트를 업데이트했습니다.

    kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded.yaml
    
  • 노드 풀의 자동 드라이버 설치를 사용 중지합니다. 기존 드라이버 설치 DaemonSet는 업데이트 작업이 완료된 후 예상한 대로 작동합니다.

    gcloud container node-pools update POOL_NAME \
        --accelerator=type=GPU_TYPE,count=GPU_COUNT,gpu-driver-version=disabled \
        --cluster=CLUSTER_NAME \
        --location=LOCATION
    

    다음을 바꿉니다.

    • POOL_NAME: 노드 풀의 이름입니다.
    • GPU_TYPE: 노드 풀에서 이미 사용 중인 GPU 유형입니다.
    • GPU_COUNT: 이미 노드 풀에 연결된 GPU 수입니다.
    • CLUSTER_NAME: 노드 풀이 포함된 GKE 클러스터의 이름입니다.
    • LOCATION: 클러스터의 Compute Engine 위치입니다.

다음 단계

추가 지원이 필요하면 Cloud Customer Care에 문의하세요.