GKE Standard 노드 풀에서 GPU 실행


이 페이지에서는 Google Kubernetes Engine(GKE) Standard 클러스터 노드에서 NVIDIA® 그래픽 처리 장치(GPU) 하드웨어 가속기를 사용하는 방법을 보여줍니다. GKE의 GPU에 대한 자세한 내용은 GKE의 GPU 정보를 참조하세요.

Autopilot 포드에서 직접 GPU를 사용할 수도 있습니다. 자세한 내용은 Autopilot에서 GPU 워크로드 배포를 참조하세요.

개요

GKE에서는 NVIDIA Tesla® K80, P100, P4, V100, T4, L4, A100 GPU가 탑재된 노드 풀을 만들 수 있습니다. GPU는 영상 인식 및 자연어 처리와 같은 딥 러닝 작업은 물론 동영상 트랜스코딩 및 이미지 처리와 같은 다른 컴퓨팅 집약적인 작업을 수행할 수 있는 컴퓨팅 성능을 제공합니다.

빈번한 노드 중단에도 워크로드를 처리할 수 있는 경우에는 Spot VM으로 GPU를 사용할 수도 있습니다. Spot VM을 사용하면 GPU 실행 비용이 줄어듭니다. 자세한 내용은 GPU 노드 풀에 Spot VM 사용을 참조하세요.

이제 버전 1.29.2-gke.1108000부터 GKE Sandbox에 GPU 노드 풀을 만들 수 있습니다. 자세한 내용은 GKE SandboxGKE Sandbox 구성을 참조하세요.

시작하기 전에

시작하기 전에 다음 태스크를 수행했는지 확인합니다.

  • Google Kubernetes Engine API를 사용 설정합니다.
  • Google Kubernetes Engine API 사용 설정
  • 이 태스크에 Google Cloud CLI를 사용하려면 gcloud CLI를 설치한 후 초기화합니다. 이전에 gcloud CLI를 설치한 경우 gcloud components update를 실행하여 최신 버전을 가져옵니다.

요구사항

GKE에서 GPU를 사용하기 위한 요구사항은 다음과 같습니다.

  • Kubernetes 버전: Container-Optimized OS 노드 이미지를 사용하는 노드 풀의 경우 GKE 버전 1.9 이상에서 GPU 노드를 사용할 수 있습니다. Ubuntu 노드 이미지를 사용하는 노드 풀의 경우 GKE 버전 1.11.3 이상에서 GPU 노드를 사용할 수 있습니다.
  • GPU 할당량: GPU 노드를 만들려면 먼저 선택한 영역에 Compute Engine GPU 할당량이 있어야 합니다. 프로젝트에 GPU 할당량이 충분한지 확인하려면 Google Cloud 콘솔에서 할당량을 참조하세요.

    추가 GPU 할당량이 필요하면 Google Cloud 콘솔에서 GPU 할당량을 요청해야 합니다. 결제 계정을 설정한 경우에는 할당량 요청을 제출한 후 프로젝트에 할당량이 자동으로 배정됩니다.

  • NVIDIA GPU 드라이버: 클러스터 또는 노드 풀을 만들 때 GKE에 GKE 버전을 기준으로 드라이버 버전을 자동 설치하도록 지시할 수 있습니다. GKE에서 GPU 드라이버를 자동 설치하도록 지시하지 않은 경우 드라이버를 수동으로 설치해야 합니다.

  • A100 GPU: A100 GPU는 a2 머신 유형에서만 지원되며 GKE 버전 1.18.6-gke.3504 이상이 필요합니다. 기본 A2 머신 유형에 A100 GPU를 사용하기에 충분한 할당량이 있는지 확인해야 합니다.

  • L4 GPU:

    • GKE 버전 1.22.17-gke.5400 이상을 사용해야 합니다.
    • 선택한 GKE 버전에는 Container-Optimized OS에 NVIDIA 드라이버 버전 525 이상이 포함되어야 합니다. 드라이버 버전 525 이상이 GKE 버전의 기본 또는 최신 버전이 아닌 경우 노드에 지원되는 드라이버를 수동으로 설치해야 합니다.

제한사항

GKE에서 GPU를 사용하기 전에 다음 제한사항에 유의해야 합니다.

  • 기존 노드 풀에 GPU를 추가할 수 없습니다.
  • GPU 노드는 유지관리 이벤트 중 실시간 이전할 수 없습니다.
  • 사용할 수 있는 GPU 유형은 다음과 같이 머신 계열에 따라 다릅니다.

    선택한 GPU 유형 및 수량에 해당하는 머신 계열에 충분한 할당량이 프로젝트에 있어야 합니다.

  • Windows Server 노드 풀에서는 GPU가 지원되지 않습니다.

  • GKE 버전 1.22~1.25에서 클러스터 자동 확장 처리는 L4 GPU가 포함된 노드의 기본 확장 및 축소만 지원합니다. 이 제한사항은 GKE 버전 1.26 이상에 적용되지 않습니다.

  • H100 GPU에 대해 포드 스토리지에 로컬 SSD를 사용하려면 임시 스토리지를 위한 --ephemeral-storage-local-ssd=count=SSD_COUNT 플래그 또는 블록 액세스를 위한 --local-nvme-ssd-block=count=SSD_COUNT 플래그를 사용해서 기본 A3 VM에 연결할 로컬 SSD의 정확한 개수를 명시적으로 지정해야 합니다. 이 플래그를 생략하면 포드에서 로컬 SSD를 사용하지 못할 수 있습니다. 이러한 플래그는 데이터 액세스를 위해 로컬 SSD를 사용하려는 경우에만 필요합니다.

    GKE에서 지원되는 머신 크기는 a3-highgpu-8g이고 해당 로컬 SSD 수는 16개입니다.

사용 가능 여부

GPU는 특정 지역 및 영역에서 제공됩니다. GPU 할당량을 요청할 때는 클러스터를 실행할 리전을 고려합니다.

적용 가능한 리전 및 영역의 전체 목록은 Compute Engine의 GPU를 참조하세요.

또한 Google Cloud CLI를 사용하여 영역에서 사용할 수 있는 GPU를 확인할 수 있습니다. 각 영역에서 지원되는 모든 GPU 가속기 유형의 목록을 보려면 다음 명령어를 실행하세요.

gcloud compute accelerator-types list

가격 책정

GPU 가격 책정 정보는 Google Cloud GPU 페이지의 가격표를 참조하세요.

GPU 할당량

GPU 할당량은 Google Cloud 프로젝트에서 실행할 수 있는 총 GPU 수입니다. GPU가 포함된 클러스터를 만들려면 프로젝트에 있는 GPU 할당량이 충분해야 합니다.

GPU 할당량은 클러스터에서 실행하려는 전체 GPU 수와 동일해야 합니다. 클러스터 자동 확장을 사용 설정할 경우, 노드당 GPU 수만큼 곱해진 최대 클러스터 노드 수와 최소한 동일 개수 이상의 GPU 할당량을 요청해야 합니다.

예를 들어 노드당 2개의 GPU를 실행하는 노드가 3개 포함된 클러스터를 만들 경우, 프로젝트에는 최소한 6개의 GPU 할당량이 필요합니다.

GPU 할당량 요청

GPU 할당량을 요청하려면 Google Cloud 콘솔을 사용합니다. 할당량 요청에 대한 자세한 내용은 Compute Engine 문서에서 GPU 할당량을 참조하세요.

GPU 할당량을 검색하고 할당량 요청을 제출하려면 Google Cloud 콘솔을 사용하세요.

  1. Google Cloud 콘솔에서 IAM 및 관리자 할당량 페이지로 이동합니다.

    할당량으로 이동

  2. 필터 상자에서 다음을 수행합니다.

    1. 할당량 속성을 선택하고 GPU 모델의 이름을 입력한 다음 Enter 키를 누릅니다.
    2. (선택사항) 고급 필터를 적용하여 결과의 범위를 좁히려면 측정기준(예: 위치) 속성을 선택하고 사용 중인 리전 또는 영역의 이름을 추가한 다음 Enter 키를 누릅니다.
  3. GPU 할당량 목록에서 변경하려는 할당량을 선택합니다.

  4. 할당량 수정을 클릭합니다. 요청 양식이 열립니다.

  5. 각 할당량 요청의 새 할당량 한도 필드를 채웁니다.

  6. 요청 세부정보를 요청 설명 필드에 입력합니다.

  7. 다음을 클릭합니다.

  8. 재정의 확인 대화상자에서 확인을 클릭합니다.

  9. 연락처 세부정보 화면에서 승인 담당자가 할당량 변경 요청을 완료하는 데 사용할 수 있는 이름과 전화번호를 입력합니다.

  10. 요청 제출을 클릭합니다.

  11. 할당량 변경을 추적하는 확인 이메일이 전송됩니다.

GPU 실행

GKE Standard 클러스터에서 GPU를 실행하려면 연결된 GPU가 있는 노드 풀을 만듭니다. 이미 GPU가 아닌 노드 풀을 실행하는 기존 클러스터에 GPU 노드 풀을 추가하면 GKE가 다음 노드 taint를 사용해서 GPU 노드를 자동으로 taint합니다.

  • 키: nvidia.com/gpu
  • 효과: NoSchedule

또한 GKE는 ExtendedResourceToleration 수락 컨트롤러를 실행하여 GPU를 요청하는 포드에 해당하는 내결함성을 자동으로 적용합니다.

그러면 GPU를 요청하는 포드만 GPU 노드에 예약되고, 더 효율적인 자동 확장이 가능해집니다. GPU를 요청하는 포드가 충분하지 않으면 GPU 노드가 빠르게 축소될 수 있습니다.

GKE에서 GPU의 비용 효율성, 안정성, 가용성을 개선하려면 다음 작업을 수행하는 것이 좋습니다.

  • 별도의 GPU 노드 풀을 만듭니다. 각 노드 풀에 대해 노드 위치를 원하는 GPU를 사용할 수 있는 영역으로 제한합니다.
  • 각 노드 풀에서 자동 확장을 사용 설정합니다.
  • 리전 클러스터를 사용하여 리전의 영역에 걸쳐 Kubernetes 제어 영역을 복제하여 가용성을 향상시킵니다.
  • 드라이버 버전을 수동으로 설치하고 관리할 필요가 없도록 GKE에서 노드 풀에 기본 또는 최신 GPU 드라이버를 자동 설치하도록 지시합니다.

GPU 노드 풀 만들기

기존 클러스터에 별도의 GPU 노드 풀을 만들려면 Google Cloud 콘솔 또는 Google Cloud CLI를 사용하면 됩니다. Terraform을 사용하여 GKE 클러스터 및 GPU 노드 풀을 프로비저닝할 수도 있습니다.

Container-Optimized OS 버전에 해당하는 기본 또는 최신 NVIDIA 드라이버 버전을 GKE에 자동 설치하도록 지시할 수 있습니다.

gcloud

클러스터에서 GPU가 포함된 노드 풀을 만들려면 다음 명령어를 실행하세요.

gcloud container node-pools create POOL_NAME \
  --accelerator type=GPU_TYPE,count=AMOUNT,gpu-driver-version=DRIVER_VERSION \
  [--machine-type MACHINE_TYPE] \
  --region COMPUTE_REGION --cluster CLUSTER_NAME \
  --node-locations COMPUTE_ZONE1[,COMPUTE_ZONE2] \
  [--enable-autoscaling \
   --min-nodes MIN_NODES \
   --max-nodes MAX_NODES] \
  [--ephemeral-storage-local-ssd=count=SSD_COUNT]

다음을 바꿉니다.

  • POOL_NAME: 선택한 노드 풀의 이름입니다.
  • GPU_TYPE: GPU 유형입니다. 다음 중 하나일 수 있습니다.
    • nvidia-tesla-k80
    • nvidia-tesla-p100
    • nvidia-tesla-p4
    • nvidia-tesla-v100
    • nvidia-tesla-t4
    • nvidia-tesla-a100
    • nvidia-a100-80gb
    • nvidia-l4
    • nvidia-h100-80gb
  • DRIVER_VERSION: 설치할 NVIDIA 드라이버 버전입니다. 다음 중 하나일 수 있습니다.

    • default: GKE 버전의 기본 드라이버 버전을 설치합니다.
    • latest: GKE 버전에 사용 가능한 최신 드라이버 버전을 설치합니다. Container-Optimized OS를 사용하는 노드에서만 사용할 수 있습니다.
    • disabled: 자동 드라이버 설치를 건너뜁니다. 노드 풀을 만든 후에는 수동으로 드라이버를 설치해야 합니다. gpu-driver-version을 생략한 경우 기본 옵션입니다.
  • AMOUNT: 노드 풀의 노드에 연결할 GPU 수입니다.

  • MACHINE_TYPE: 노드의 Compute Engine 머신 유형입니다. 다음 GPU 유형에 필요합니다.

    다른 모든 GPU의 경우 이 플래그는 선택사항입니다.

  • COMPUTE_REGION: 클러스터의 Compute Engine 리전입니다(예: us-central1). 요청된 GPU를 사용할 수 있는 영역이 하나 이상 있는 리전을 선택합니다.

  • CLUSTER_NAME: 노드 풀을 만들 클러스터의 이름입니다.

  • COMPUTE_ZONE1,COMPUTE_ZONE2,[...]: GKE가 GPU 노드를 만드는 특정 영역입니다. 영역은 --region 플래그로 지정된 클러스터와 동일한 리전에 있어야 합니다. 정의한 GPU 유형은 선택된 각 영역에서 사용 가능해야 합니다. 요청된 GPU를 포함하는 영역을 지정하기 위해 노드 풀을 만들 때는 항상 --node-locations 플래그를 사용하는 것이 좋습니다.

  • MIN_NODES: 노드 풀의 각 영역에 대한 최소 노드 수입니다. 이 값은 --enable-autoscaling 플래그가 사용되는 경우에만 관련이 있습니다.

  • MAX_NODES: 노드 풀의 각 영역에 대한 최대 노드 수입니다. 이 값은 --enable-autoscaling 플래그가 사용되는 경우에만 관련이 있습니다.

  • SSD_COUNT: 임시 스토리지에 연결할 로컬 SSD 수입니다. 이 플래그는 H100 GPU의 A3 머신 유형에서 로컬 SSD를 사용하기 위해 필요합니다.

예를 들어 다음 명령어는 리전 클러스터 p100-cluster의 노드마다 P100 GPU 2개가 있는 고가용성 자동 확장 노드 풀 p100을 만듭니다. GKE는 이러한 노드에 기본 드라이버를 자동으로 설치합니다.

gcloud container node-pools create p100 \
  --accelerator type=nvidia-tesla-p100,count=2,gpu-driver-version=default \
  --region us-central1 --cluster p100-cluster \
  --node-locations us-central1-c \
  --min-nodes 0 --max-nodes 5 --enable-autoscaling

콘솔

GPU가 포함된 노드 풀을 만들려면 다음 안내를 따르세요.

  1. Google Cloud 콘솔에서 Google Kubernetes Engine 페이지로 이동합니다.

    Google Kubernetes Engine으로 이동

  2. 클러스터 목록에서 수정하려는 클러스터 이름을 클릭합니다.

  3. 노드 풀 추가를 클릭합니다.

  4. 필요한 경우 노드 풀 세부정보 페이지에서 자동 확장 사용 설정 체크박스를 선택합니다.

  5. 노드 풀을 원하는 대로 구성합니다.

  6. 탐색창에서 노드를 선택합니다.

  7. 머신 구성에서 GPU를 클릭합니다.

  8. 각 노드에서 실행할 GPU 유형GPU 수를 선택합니다.

  9. 경고를 읽고 제한사항을 이해합니다를 선택합니다.

  10. GPU 드라이버 설치 섹션에서 다음 방법 중 하나를 선택합니다.

    • Google 관리형: GKE가 드라이버를 자동으로 설치합니다. 이 옵션을 선택할 경우 버전 드롭다운에서 다음 중 하나를 선택합니다.
      • 기본값: 기본 드라이버 버전을 설치합니다.
      • 최신: 사용 가능한 최신 드라이버 버전을 설치합니다.
    • 고객 관리형: GKE에서 드라이버를 설치하지 않습니다. NVIDIA GPU 기기 드라이버 설치의 안내에 따라 호환되는 드라이버를 수동으로 설치해야 합니다.
  11. 만들기를 클릭합니다.

Terraform

Terraform 모듈을 사용하여 GPU가 있는 Terraform으로 리전 클러스터를 만들 수 있습니다.

  1. variables.tf 파일에 다음 블록을 포함하여 Terraform 변수를 설정합니다.

    variable "project_id" {
      default     = PROJECT_ID
      description = "the gcp_name_short project where GKE creates the cluster"
    }
    
    variable "region" {
      default     = CLUSTER_REGION
      description = "the gcp_name_short region where GKE creates the cluster"
    }
    
    variable "zone" {
      default     = "COMPUTE_ZONE1,COMPUTE_ZONE2"
      description = "the GPU nodes zone"
    }
    
    variable "cluster_name" {
      default     = "CLUSTER_NAME"
      description = "the name of the cluster"
    }
    
    variable "gpu_type" {
      default     = "GPU_TYPE"
      description = "the GPU accelerator type"
    }
    
    variable "gpu_driver_version" {
      default = "DRIVER_VERSION"
      description = "the NVIDIA driver version to install"
    }
    
    variable "machine_type" {
      default = "MACHINE_TYPE"
      description = "The Compute Engine machine type for the VM"
    }
    

    다음을 바꿉니다.

    • PROJECT_ID: 프로젝트 ID입니다.
    • CLUSTER_NAME: GKE 클러스터의 이름입니다.
    • CLUSTER_REGION: 클러스터의 컴퓨팅 리전입니다.
    • COMPUTE_ZONE1,COMPUTE_ZONE2,[...]: GKE가 GPU 노드를 만드는 특정 영역입니다. 영역은 region 변수로 지정된 동일한 리전에 있어야 합니다. 이러한 영역에는 사용자가 정의한 GPU 유형이 있어야 합니다. GPU가 포함되는 영역에 대해 알아보려면 가용성을 참조하세요. GPU 노드 풀을 만들 때 node_locations 변수를 사용하여 요청된 GPU가 포함된 영역을 지정해야 합니다.
    • GPU_TYPE: GPU 유형입니다. 다음 중 하나일 수 있습니다.

      • nvidia-tesla-k80
      • nvidia-tesla-p100
      • nvidia-tesla-p4
      • nvidia-tesla-v100
      • nvidia-tesla-t4
      • nvidia-tesla-a100
      • nvidia-a100-80gb
      • nvidia-l4
      • nvidia-h100-80gb
    • DRIVER_VERSION: GKE에서 자동으로 설치할 GPU 드라이버 버전. 이 필드는 선택사항입니다. 다음과 같은 값이 지원됩니다.

      • INSTALLATION_DISABLED: 자동 GPU 드라이버 설치를 사용 중지합니다. GPU를 실행하려면 드라이버를 수동으로 설치해야 합니다.
      • DEFAULT: 노드 운영체제 버전의 기본 드라이버 버전을 자동으로 설치합니다.
      • LATEST: 노드 OS 버전에 사용 가능한 최신 드라이버 버전을 자동으로 설치합니다.

    이 필드를 생략하면 GKE가 드라이버를 자동으로 설치하지 않습니다. 이 필드는 노드 자동 프로비저닝을 사용하는 노드 풀에서 지원되지 않습니다. 드라이버를 수동으로 설치하려면 이 문서의 NVIDIA GPU 드라이버 수동 설치를 참조하세요. MACHINE_TYPE: 노드의 Compute Engine 머신 유형입니다. 다음 GPU 유형에 필요합니다.

    다른 모든 GPU의 경우 이 플래그는 선택사항입니다.

  2. Terraform 구성에 다음 블록을 추가합니다.

    provider "google" {
      project = var.project_id
      region  = var.region
    }
    
    resource "google_container_cluster" "ml_cluster" {
      name     = var.cluster_name
      location = var.region
      node_locations = [var.zone]
    }
    
    resource "google_container_node_pool" "gpu_pool" {
      name       = google_container_cluster.ml_cluster.name
      location   = var.region
      cluster    = google_container_cluster.ml_cluster.name
      node_count = 3
    
      autoscaling {
        total_min_node_count = "1"
        total_max_node_count = "5"
      }
    
      management {
        auto_repair  = "true"
        auto_upgrade = "true"
      }
    
      node_config {
        oauth_scopes = [
          "https://www.googleapis.com/auth/logging.write",
          "https://www.googleapis.com/auth/monitoring",
          "https://www.googleapis.com/auth/devstorage.read_only",
          "https://www.googleapis.com/auth/trace.append",
          "https://www.googleapis.com/auth/service.management.readonly",
          "https://www.googleapis.com/auth/servicecontrol",
        ]
    
        labels = {
          env = var.project_id
        }
    
        guest_accelerator {
          type  = var.gpu_type
          count = 1
          gpu_driver_installation_config {
            gpu_driver_version = var.gpu_driver_version
          }
        }
    
        image_type   = "cos_containerd"
        machine_type = var.machine_type
        tags         = ["gke-node", "${var.project_id}-gke"]
    
        disk_size_gb = "30"
        disk_type    = "pd-standard"
    
        metadata = {
          disable-legacy-endpoints = "true"
        }
      }
    }
    

Terraform은 Google Cloud API를 호출하여 GPU를 사용하는 노드 풀로 새 클러스터를 만듭니다. 처음에 노드 풀에는 노드가 3개 있고 자동 확장이 사용 설정되어 있습니다. Terraform에 대한 자세한 내용은 google_container_node_pool 리소스 사양을 참조하세요.

또한 --node-locations 플래그를 사용하여 GPU가 있는 새 클러스터를 만들고 영역을 지정할 수 있습니다. 하지만 이 섹션에 표시된 것처럼 기존 클러스터에 별도의 GPU 노드 풀을 만드는 것이 좋습니다.

NVIDIA GPU 드라이버 수동 설치

GPU 노드 풀을 만들 때 자동 기기 드라이버 설치를 사용 중지했거나 자동 설치에 지원되는 최소 버전보다 이전 버전의 GKE를 사용하는 경우 노드에서 호환되는 NVIDIA GPU 드라이버를 수동으로 설치해야 합니다. Google에서는 드라이버를 설치하는 데 적용할 수 있는 DaemonSet를 제공합니다. Container-Optimized OS를 사용하는 GPU 노드에는 기본 GPU 드라이버 버전 또는 최신 버전 중에서 선택할 수도 있습니다.

가능한 경우 Standard 클러스터를 만들 때 --accelerator 플래그에 gpu-driver-version 옵션을 지정하여 자동 드라이버 설치를 사용하는 것이 좋습니다. 2023년 1월 25일 또는 그 이전에 설치 DaemonSet를 사용하여 GPU 드라이버를 수동으로 설치한 경우, 자동 드라이버 설치를 사용하는 노드를 무시하는 버전을 가져오기 위해 DaemonSet를 다시 적용해야 할 수 있습니다.

다음 안내에서는 Container-Optimized OS(COS) 및 Ubuntu 노드에 드라이버를 설치하고 Terraform을 사용하는 방법을 보여줍니다.

COS

설치 DaemonSet를 배포하고 기본 GPU 드라이버 버전을 설치하려면 다음 명령어를 실행하세요.

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded.yaml

또는 최신 GPU 드라이버 버전을 설치하려면(아래 표 참조) 다음 명령어를 실행합니다.

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded-latest.yaml

설치를 완료하는 데 몇 분 정도 걸립니다. 설치되면 NVIDIA GPU 기기 플러그인이 Kubernetes API를 통해 NVIDIA GPU 용량을 표시합니다.

Container-Optimized OS 이미지의 각 버전에는 기본적으로 지원되는 NVIDIA GPU 드라이버 버전이 하나 이상 있습니다. 지원되는 기본 버전은 주요 Container-Optimized OS LTS 마일스톤의 출시 메모를 참조하세요.

다음 표에는 각 GKE 버전에서 사용 가능한 드라이버 버전이 나와 있습니다.

GKE 버전 NVIDIA 드라이버
1.26 R470(기본값), R510 또는 R525
1.25 R470(기본값), R510 또는 R525
1.24 R470(기본값), R510 또는 R525
1.23 R450(기본값), R470, R510, R525
1.22 R450(기본값), R470, R510, R525
1.21 R450(기본값), R470 또는 R510
1.20 R450(기본값), R470

Ubuntu

NVIDIA L4 GPU를 제외한 모든 GPU에 설치 DaemonSet를 배포하려면 다음 명령어를 실행합니다.

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/ubuntu/daemonset-preloaded.yaml

설치를 완료하는 데 몇 분 정도 걸립니다. 설치되면 NVIDIA GPU 기기 플러그인이 Kubernetes API를 통해 NVIDIA GPU 용량을 표시합니다.

NVIDIA L4 GPU의 경우 다음 명령어를 사용하여 R525 드라이버를 설치합니다.

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/ubuntu/daemonset-preloaded-R525.yaml

다음 표에는 각 GKE 버전에서 사용 가능한 드라이버 버전이 나와 있습니다.

GKE 버전 NVIDIA 드라이버
1.27 R470
1.26 R470
1.25 R470
1.24 R470
1.23 R470
1.22 R450
1.21 R450
1.20 R450

Terraform

Terraform을 사용하여 노드 유형에 따라 기본 GPU 드라이버 버전을 설치할 수 있습니다. 두 경우 모두 kubectl_manifest Terraform 리소스 유형을 구성해야 합니다.

  • COS에 DaemonSet를 설치하려면 Terraform 구성에 다음 블록을 추가합니다.

      data "http" "nvidia_driver_installer_manifest" {
        url = "https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded.yaml"
      }
    
      resource "kubectl_manifest" "nvidia_driver_installer" {
        yaml_body = data.http.nvidia_driver_installer_manifest.body
      }
    
  • Ubuntu에 DaemonSet를 설치하려면 Terraform 구성에 다음 블록을 추가합니다.

      data "http" "nvidia_driver_installer_manifest" {
        url = "https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/ubuntu/daemonset-preloaded.yaml"
      }
    
      resource "kubectl_manifest" "nvidia_driver_installer" {
        yaml_body = data.http.nvidia_driver_installer_manifest.body
      }
    

GPU에서 노드 자동 프로비저닝 사용

GPU와 함께 노드 자동 프로비저닝을 사용하는 경우 기본적으로 자동 프로비저닝된 노드 풀에 드라이버를 설치할 수 있는 충분한 범위가 없습니다. 필요한 범위를 부여하려면 다음 예시와 같이 logging.write, monitoring, devstorage.read_only, compute를 추가하도록 노드 자동 프로비저닝의 기본 범위를 수정합니다.

gcloud container clusters update CLUSTER_NAME --enable-autoprovisioning \
    --min-cpu=1 --max-cpu=10 --min-memory=1 --max-memory=32 \
    --autoprovisioning-scopes=https://www.googleapis.com/auth/logging.write,https://www.googleapis.com/auth/monitoring,https://www.googleapis.com/auth/devstorage.read_only,https://www.googleapis.com/auth/compute

자동 프로비저닝에 대한 자세한 내용은 노드 자동 프로비저닝 사용을 참조하세요.

GPU를 사용하도록 포드 구성

리소스 제한을 사용하여 GPU를 사용하도록 포드를 구성합니다. 다음 키-값 쌍을 사용해서 포드 사양에 리소스 제한을 지정합니다.

  • 키: nvidia.com/gpu
  • 값: 사용할 GPU 수

아래는 GPU를 사용하는 포드 사양의 예시입니다.

apiVersion: v1
kind: Pod
metadata:
  name: my-gpu-pod
spec:
  containers:
  - name: my-gpu-container
    image: nvidia/cuda:11.0.3-runtime-ubuntu20.04
    command: ["/bin/bash", "-c", "--"]
    args: ["while true; do sleep 600; done;"]
    resources:
      limits:
       nvidia.com/gpu: 2

여러 GPU 유형 사용

클러스터별로 여러 GPU 가속기 유형을 사용하려면 각각 고유한 가속기 유형을 사용해서 여러 노드 풀을 만들어야 합니다. GKE는 특정 GPU 유형의 노드에서 GPU 워크로드 배치를 돕기 위해 GPU 노드에 고유한 노드 선택기를 연결합니다.

  • 키: cloud.google.com/gke-accelerator
  • 값: nvidia-tesla-k80, nvidia-tesla-p100, nvidia-tesla-p4, nvidia-tesla-v100, nvidia-tesla-t4, nvidia-tesla-a100, nvidia-a100-80gb, nvidia-h100-80gb, nvidia-l4

이 노드 선택자를 워크로드의 포드 사양에 추가하여 특정 GPU 유형을 대상으로 지정할 수 있습니다. 예를 들면 다음과 같습니다.

apiVersion: v1
kind: Pod
metadata:
  name: my-gpu-pod
spec:
  containers:
  - name: my-gpu-container
    image: nvidia/cuda:11.0.3-runtime-ubuntu20.04
    command: ["/bin/bash", "-c", "--"]
    args: ["while true; do sleep 600; done;"]
    resources:
      limits:
       nvidia.com/gpu: 2
  nodeSelector:
    cloud.google.com/gke-accelerator: nvidia-tesla-k80

가속기를 사용하여 노드 풀 업그레이드(GPU 및 TPU)

GKE는 노드 풀을 포함하여 Standard 클러스터를 자동으로 업그레이드합니다. 또한 노드 버전을 곧 새로운 버전으로 업그레이드하려는 경우 노드 풀을 수동으로 업그레이드할 수 있습니다. 클러스터의 업그레이드 방식을 제어하려면 출시 채널, 유지보수 기간 및 제외항목, 출시 시퀀싱을 사용합니다.

또한 일시 급증 업그레이드 또는 블루-그린 업그레이드와 같이 노드 풀에 대해 노드 업그레이드 전략을 구성할 수 있습니다. 이러한 전략을 구성하여 환경에서 속도와 중단 사이의 최적 균형을 이루는 방식으로 노드 풀이 업그레이드되도록 할 수 있습니다. 멀티 호스트 TPU 슬라이스 노드 풀의 경우 구성된 노드 업그레이드 전략을 사용하는 대신 GKE가 단일 단계로 전체 노드 풀을 원자적으로 다시 만듭니다. 자세한 내용은 GKE의 TPU 관련 용어에서 원자성 정의를 참조하세요.

노드 업그레이드 전략을 사용하려면 구성에 따라 GKE에서 일시적으로 추가 리소스를 프로비저닝해야 합니다. GPU 또는 TPU가 있는 노드를 더 만들려고 시도할 때 리소스 가용성 오류가 표시될 때와 같이 Google Cloud에서 노드 풀 리소스 용량이 제한적이면 리소스 제한 환경에서 업그레이드를 참조하세요.

NVIDIA CUDA-X 라이브러리 정보

CUDA는 GPU를 위한 NVIDIA의 병렬 컴퓨팅 플랫폼이자 프로그래밍 모델입니다. CUDA 애플리케이션을 사용하려면 사용하는 이미지에 라이브러리가 있어야 합니다. NVIDIA CUDA-X 라이브러리를 추가하려면 다음 방법 중 하나를 사용합니다.

  • 권장: NVIDIA CUDA-X 라이브러리가 사전 설치된 이미지를 사용합니다. 예를 들어 Deep Learning Containers를 사용할 수 있습니다. 이 컨테이너는 주요 데이터 과학 프레임워크, NVIDIA CUDA-X 라이브러리, 도구를 사전 설치합니다. 또는 NVIDIA CUDA 이미지에는 NVIDIA CUDA-X 라이브러리만 포함됩니다.
  • 자체 이미지를 빌드하고 사용 이 경우 컨테이너 사양의 LD_LIBRARY_PATH 환경 변수에 다음 값을 포함합니다.
    1. /usr/local/cuda-CUDA_VERSION/lib64: 노드의 NVIDIA CUDA-X 라이브러리 위치입니다. CUDA_VERSION을 사용한 CUDA-X 이미지 버전으로 바꾸세요. 일부 버전에는 /usr/local/nvidia/bin의 디버그 유틸리티도 포함됩니다. 자세한 내용은 DockerHub의 NVIDIA CUDA 이미지를 참조하세요.
    2. /usr/local/nvidia/lib64: NVIDIA 기기 드라이버의 위치입니다.

CUDA 버전에 필요한 최소 GPU 드라이버 버전을 확인하려면 CUDA Toolkit and Compatible Driver Versions를 참조하세요. 노드에서 실행 중인 GKE 패치 버전에 선택한 CUDA 버전과 호환되는 GPU 드라이버 버전이 포함되어 있는지 확인합니다. GKE 버전과 연결된 GPU 드라이버 버전 목록은 GKE 현재 버전 표에 연결된 해당 Container-Optimized OS 페이지를 참조하세요.

GPU 노드 모니터링

GKE 클러스터에 시스템 측정항목이 사용 설정된 경우 GPU 워크로드 성능을 모니터링하도록 Cloud Monitoring에서 다음 측정항목을 제공합니다.

  • 가동 주기(container/accelerator/duty_cycle): 이전 샘플 기간(10초) 중에 가속기가 실제로 처리를 수행한 시간의 백분율입니다. 1~100 사이입니다.
  • 메모리 사용량(container/accelerator/memory_used): 할당된 가속기 메모리 양(바이트)입니다.
  • 메모리 용량(container/accelerator/memory_total): 총 가속기 메모리 용량(바이트)입니다.

사전 정의된 대시보드를 사용해서 GPU 노드가 있는 클러스터를 모니터링할 수 있습니다. 자세한 내용은 관측 가능성 측정항목 보기를 참조하세요. 클러스터 및 리소스 모니터링에 대한 일반적인 내용은 GKE의 관측 가능성을 참조하세요.

워크로드의 사용량 측정항목 보기

Google Cloud 콘솔의 워크로드 대시보드에서 워크로드 GPU 사용량 측정항목을 봅니다.

워크로드 GPU 사용량을 보려면 다음 단계를 수행합니다.

  1. Google Cloud 콘솔에서 워크로드 페이지로 이동합니다.

    워크로드로 이동
  2. 워크로드를 선택합니다.

워크로드 대시보드에는 GPU 메모리 사용량 및 용량, GPU 사용 주기에 대한 차트가 표시됩니다.

NVIDIA Data Center GPU Manager(DCGM) 측정항목 보기

Google Cloud Managed Service for Prometheus를 사용하여 Standard 클러스터에서 NVIDIA DCGM 측정항목을 수집하고 시각화할 수 있습니다.

Standard 클러스터에 대해 DCGM 및 Prometheus DCGM 내보내기 도구를 배포하는 방법에 대한 안내는 Google Cloud Observability 문서의 NVIDIA Data Center GPU Manager(DCGM)를 참조하세요.

GPU 노드 단계적 종료 구성

제어 영역이 1.29.1-gke.1425000 이상을 실행하는 GKE 클러스터에서 GPU 노드는 노드에 임박한 종료를 알리는 SIGTERM 신호를 지원합니다. 임박한 종료 알림은 GPU 노드에서 최대 60분까지 구성할 수 있습니다.

이 알림 기간 내에 워크로드를 정상적으로 종료하도록 GKE를 구성할 수 있습니다. 포드 매니페스트에서 spec.terminationGracePeriodSeconds 필드를 최대 60분(3600초)의 값으로 설정합니다. 예를 들어 10분의 알림 시간을 가져오려면 포드 매니페스트에서 다음과 같이 spec.terminationGracePeriodSeconds 필드를 다음과 같이 600초로 설정합니다.

  spec:
    terminationGracePeriodSeconds: 600

GKE는 이러한 포드를 정상적으로 종료하고 학습 상태 저장 등 사용자가 정의한 종료 작업을 실행하기 위해 최선을 다합니다.

다음 단계