GKE Standard 노드 풀에서 GPU 실행

Standard

이 페이지에서는 Google Kubernetes Engine(GKE) Standard 클러스터의 노드에 NVIDIA® 그래픽 처리 장치(GPU) 하드웨어 가속기를 연결하고 사용하여 인공지능(AI) 및 그래픽 처리와 같은 컴퓨팅 집약적인 워크로드를 실행하고 최적화하는 방법을 보여줍니다.

대신 Autopilot 포드를 사용하는 경우 Autopilot에서 GPU 워크로드 배포를 참조하세요.

개요

GKE를 사용하면 GPU가 장착된 노드 풀을 만들 수 있습니다. GPU는 영상 인식 및 자연어 처리와 같은 딥 러닝 작업은 물론 동영상 트랜스코딩 및 이미지 처리와 같은 다른 컴퓨팅 집약적인 작업을 수행할 수 있는 컴퓨팅 성능을 제공합니다. GKE Standard 모드에서는 클러스터의 노드에 GPU 하드웨어를 연결한 후 해당 노드에서 실행 중인 컨테이너화된 워크로드에 GPU 리소스를 할당할 수 있습니다.

GPU 사용 사례에 대한 자세한 내용은 Google Cloud GPU 페이지를 참조하세요. GKE의 GPU 및 Standard 모드와 Autopilot 모드의 차이점에 대한 자세한 내용은 GKE의 GPU 정보를 참조하세요.

빈번한 노드 중단에도 워크로드를 처리할 수 있는 경우에는 Spot VM으로 GPU를 사용할 수도 있습니다. Spot VM을 사용하면 GPU 실행 비용이 줄어듭니다. 자세한 내용은 GPU 노드 풀에 Spot VM 사용을 참조하세요.

버전 1.29.2-gke.1108000부터 GKE Sandbox에서 GPU 노드 풀을 만들 수 있습니다. 자세한 내용은 GKE Sandbox 및 GKE Sandbox 구성을 참조하세요.

시작하기 전에

시작하기 전에 다음 태스크를 수행했는지 확인합니다.

Google Kubernetes Engine API를 사용 설정합니다.

Google Kubernetes Engine API 사용 설정

이 태스크에 Google Cloud CLI를 사용하려면 gcloud CLI를 설치한 후 초기화합니다. 이전에 gcloud CLI를 설치한 경우 gcloud components update를 실행하여 최신 버전을 가져옵니다.
참고: 기존 gcloud CLI 설치의 경우 compute/region 및 compute/zone 속성을 설정해야 합니다. 기본 위치를 설정하면 gcloud CLI에서 One of [--zone, --region] must be supplied: Please specify location과 같은 오류를 방지할 수 있습니다.

GKE의 GPU 요구사항

GKE에서 GPU를 사용하기 위한 요구사항은 다음과 같습니다.

Kubernetes 버전: 사용 가능한 버전은 GPU에서 사용하는 노드 이미지에 따라 다릅니다.
- Container-Optimized OS: GKE 버전 1.9 이상
- Ubuntu: GKE 버전 1.11.3 이상
GPU 할당량: GPU 노드를 만들려면 먼저 선택한 영역에 Compute Engine GPU 할당량이 있어야 합니다. 프로젝트에 GPU 할당량이 충분한지 확인하려면 Google Cloud 콘솔에서 할당량을 참조하세요.

추가 GPU 할당량이 필요하면 Google Cloud 콘솔에서 GPU 할당량을 요청해야 합니다. 결정 계정을 설정한 경우에는 할당량 요청을 제출하면 프로젝트에 할당량이 자동으로 수신됩니다.

기본적으로 무료 체험판 계정에는 GPU 할당량이 제공되지 않습니다.
NVIDIA GPU 드라이버: 클러스터 또는 노드 풀을 만들 때 GKE에 GKE 버전을 기준으로 드라이버 버전을 자동 설치하도록 지시할 수 있습니다. GKE에서 GPU 드라이버를 자동 설치하도록 지시하지 않은 경우 드라이버를 수동으로 설치해야 합니다.
A100 GPU: A100 GPU는 a2 머신 유형에서만 지원됩니다. 기본 A2 머신 유형에 A100 GPU를 사용하기에 충분한 할당량이 있는지 확인해야 합니다.
Ubuntu 노드의 GPU: Ubuntu 노드에서 GPU를 사용하는 경우 다음 드라이버 요구사항이 적용됩니다.
L4 GPU 및 H100 GPU: NVIDIA 드라이버 버전 535 이상

필요한 드라이버 버전이나 이후 버전이 GKE 버전의 기본 버전이 아니면 노드에 지원되는 드라이버를 수동으로 설치해야 합니다.

권장사항:

GPU 노드에 Container-Optimized OS를 사용합니다. Container-Optimized OS에는 GPU 노드의 특정 GKE 버전을 지원하는 데 필요한 드라이버가 포함되어 있습니다.

GKE에서 GPU를 사용할 때의 제한사항

GKE에서 GPU를 사용하기 전에 다음 제한사항에 유의하세요.

기존 노드 풀에 GPU를 추가할 수 없습니다.
GPU 노드는 유지보수 이벤트 중 실시간 이전할 수 없습니다.
사용할 수 있는 GPU 유형은 다음과 같이 머신 시리즈에 따라 다릅니다.
- A3 머신 시리즈: H100 GPU
- A2 머신 시리즈: A100 GPU
- G2 머신 시리즈: L4 GPU
- N1 머신 시리즈: A100 및 L4를 제외한 모든 GPU
선택한 GPU 유형 및 수량에 해당하는 머신 시리즈에 충분한 할당량이 프로젝트에 있어야 합니다.
Windows Server 노드 풀에서는 GPU가 지원되지 않습니다.
버전 1.28.2-gke.1098000 이하를 실행하는 GKE Standard 클러스터에서는 L4 GPU로 노드 풀을 만드는 노드 자동 프로비저닝을 지원하지 않습니다. 하지만 이전 버전을 실행하는 클러스터는 기존 노드 풀을 확장하는 클러스터 자동 확장 처리를 지원합니다.
H100 GPU를 사용 중이고 포드에서 로컬 SSD를 사용하려면 기본 A3 VM에 연결할 로컬 SSD 수를 정확하게 명시적으로 지정해야 합니다. 임시 스토리지를 위한 --ephemeral-storage-local-ssd=count=SSD_COUNT 플래그 또는 블록 액세스를 위한 --local-nvme-ssd-block=count=SSD_COUNT 플래그를 사용하여 숫자를 지정합니다. 이러한 플래그 중 하나를 추가하지 않으면 포드에서 로컬 SSD를 사용할 수 없습니다.

GKE에서 지원되는 머신 크기는 a3-highgpu-8g이고 해당 로컬 SSD 수는 16개입니다.

리전 및 영역별 GPU 가용성

GPU는 특정 리전 및 영역에서 제공됩니다. GPU 할당량을 요청할 때는 클러스터를 실행할 리전을 고려합니다.

적용 가능한 리전 및 영역의 전체 목록은 Compute Engine의 GPU를 참조하세요.

또한 Google Cloud CLI를 사용하여 영역에서 사용할 수 있는 GPU를 확인할 수 있습니다. 각 영역에서 지원되는 모든 GPU 가속기 유형의 목록을 보려면 다음 명령어를 실행하세요.

gcloud compute accelerator-types list

가격 책정

GPU 가격 책정 정보는 Google Cloud GPU 페이지의 가격표를 참조하세요.

GPU 할당량이 충분한지 확인

GPU 할당량은 Google Cloud 프로젝트에서 실행할 수 있는 총 GPU 수입니다. GPU가 포함된 클러스터를 만들려면 프로젝트에 있는 GPU 할당량이 충분해야 합니다.

GPU 할당량은 클러스터에서 실행하려는 전체 GPU 수와 동일해야 합니다. 클러스터 자동 확장을 사용 설정하면 노드당 GPU 수에 클러스터의 최대 노드 수를 곱한 수와 최소한 동일하게 GPU 할당량을 요청해야 합니다.

예를 들어 노드당 2개의 GPU를 실행하는 노드가 3개 포함된 클러스터를 만들 경우, 프로젝트에는 최소한 6개의 GPU 할당량이 필요합니다.

GPU 할당량 요청

GPU 할당량을 요청하려면 Google Cloud 콘솔을 사용합니다. 할당량 요청 방법에 대한 자세한 내용은 Compute Engine 문서에서 GPU 할당량을 참조하세요.

GPU 할당량을 검색하고 할당량 요청을 제출하려면 Google Cloud 콘솔을 사용합니다.

Google Cloud 콘솔에서 IAM 및 관리자 할당량 페이지로 이동합니다.

할당량으로 이동
필터 상자에서 다음을 수행합니다.
1. 할당량 속성을 선택하고 GPU 모델 이름을 입력한 후 Enter 키를 누릅니다.
2. (선택사항) 고급 필터를 적용하여 결과의 범위를 좁히려면 측정기준(예: 위치) 속성을 선택하고 사용 중인 리전 또는 영역의 이름을 추가한 다음 Enter 키를 누릅니다.
GPU 할당량 목록에서 변경할 할당량을 선택합니다.
할당량 수정을 클릭합니다. 요청 양식이 열립니다.
각 할당량 요청의 새 할당량 한도 필드를 채웁니다.
요청 세부정보를 요청 설명 필드에 입력합니다.
다음을 클릭합니다.
재정의 확인 대화상자에서 확인을 클릭합니다.
연락처 세부정보 화면에서 이름과 승인자가 할당량 변경 요청을 완료하는 데 사용할 수 있는 전화번호를 입력합니다.
요청 제출을 클릭합니다.
할당량 변경을 추적할 수 있는 확인 이메일이 전송됩니다.

GKE Standard 클러스터에서 GPU 실행

GKE Standard 클러스터에서 GPU를 실행하려면 연결된 GPU가 있는 노드 풀을 만듭니다.

권장사항:

GKE에서 GPU의 경제성, 신뢰성, 가용성을 개선하려면 다음 작업을 수행합니다.

별도의 GPU 노드 풀을 만듭니다. 노드 풀마다 노드 위치를 사용할 수 있는 GPU가 있는 영역으로 제한합니다.
노드 풀마다 자동 확장을 사용 설정합니다.
리전 클러스터를 사용하여 리전의 영역에 걸쳐 Kubernetes 컨트롤 플레인을 복제하여 가용성을 향상시킵니다.
드라이버 버전을 수동으로 설치하고 관리할 필요가 없도록 GKE에서 노드 풀에 기본 또는 최신 GPU 드라이버를 자동으로 설치하도록 구성합니다.

다음 섹션의 설명대로 GKE는 노드 taint 및 톨러레이션(toleration)을 사용하여 포드가 부적절한 노드에 예약되지 않도록 합니다.

GPU 노드 풀을 부적절하게 예약하지 않도록 taint로 자동 표시

노드 taint를 사용하면 스케줄러가 특정 포드에 대한 노드 사용을 방지하도록 노드에 표시할 수 있습니다. 이미 GPU가 아닌 노드 풀을 실행하는 기존 클러스터에 GPU 노드 풀을 추가하면 GKE가 다음 노드 taint를 사용해서 GPU 노드를 자동으로 taint합니다.

키: nvidia.com/gpu
효과: NoSchedule

GKE는 클러스터에 GPU가 아닌 노드 풀이 있는 경우에만 이 taint를 추가합니다. 모든 기존 노드 풀이 GPU 노드 풀인 클러스터에 GPU 노드 풀을 추가하거나 기본 노드 풀에 GPU가 연결된 새 클러스터를 만드는 경우 앞선 taint는 GPU 노드에 추가되지 않습니다.

향후에 GPU가 아닌 노드 풀을 클러스터에 추가하면 GKE는 이 taint를 기존 GPU 노드에 소급 적용하지 않습니다.

톨러레이션(toleration)을 사용하여 예약 자동 제한

톨러레이션(toleration)을 사용하면 'taint로 표시된' 노드에서 사용할 수 있는 포드를 지정할 수 있습니다. GKE는 GPU를 요청하는 포드만 GPU 노드에 예약되도록 톨러레이션(toleration)을 자동으로 적용합니다. GPU를 요청하는 포드가 부족하면 GPU 노드가 빠르게 축소될 수 있으므로 더 효율적인 자동 확장이 가능해집니다. 이를 위해 GKE에서 ExtendedResourceToleration 수락 컨트롤러를 실행합니다.

GPU 노드 풀 만들기

기존 클러스터에 별도의 GPU 노드 풀을 만들려면 Google Cloud 콘솔 또는 Google Cloud CLI를 사용하면 됩니다. Terraform을 사용하여 GKE 클러스터 및 GPU 노드 풀을 프로비저닝할 수도 있습니다.

GKE 컨트롤 플레인 버전 1.30.1-gke.1156000 이상에서는 GKE가 GKE 노드 버전의 기본 NVIDIA 드라이버 버전을 자동으로 설치합니다. 원하는 경우 사용 가능한 최신 드라이버 버전을 선택하거나 자동 드라이버 설치를 명시적으로 중지할 수 있습니다. 1.30.1-gke.1156000 이전 버전에서는 노드 풀을 만들거나 업데이트할 때 드라이버 버전을 지정하지 않으면 GKE에서 기본적으로 드라이버를 설치하지 않습니다.

gcloud

클러스터에 GPU가 포함된 노드 풀을 만들려면 다음 명령어를 실행합니다.

gcloud container node-pools create POOL_NAME \
  --accelerator type=GPU_TYPE,count=AMOUNT,gpu-driver-version=DRIVER_VERSION \
  --machine-type MACHINE_TYPE \
  --region COMPUTE_REGION --cluster CLUSTER_NAME \
  --node-locations COMPUTE_ZONE1[,COMPUTE_ZONE2] \
  [--enable-autoscaling \
   --min-nodes MIN_NODES \
   --max-nodes MAX_NODES] \
  [--ephemeral-storage-local-ssd=count=SSD_COUNT]

다음을 바꿉니다.

POOL_NAME: 선택한 노드 풀의 이름입니다.
GPU_TYPE: 사용하는 GPU 가속기의 유형입니다. 예를 들면 nvidia-tesla-t4입니다.
DRIVER_VERSION: 설치할 NVIDIA 드라이버 버전입니다. 다음 중 하나일 수 있습니다.
- default: 노드 GKE 버전의 기본 드라이버 버전을 설치합니다. GKE 버전 1.30.1-gke.1156000 이상에서 gpu-driver-version 플래그를 생략하면 이 옵션이 기본 옵션이 됩니다. 이전 버전에서는 이 플래그를 생략하면 GKE가 드라이버를 설치하지 않습니다.
- latest: GKE 버전에 사용 가능한 최신 드라이버 버전을 설치합니다. Container-Optimized OS를 사용하는 노드에서만 사용할 수 있습니다.
- disabled: 자동 드라이버 설치를 건너뜁니다. 노드 풀을 만든 후에는 수동으로 드라이버를 설치해야 합니다. 1.30.1-gke.1156000 이전 버전의 GKE에서는 이 옵션이 기본 옵션입니다.
gpu-driver-version 옵션은 GKE 버전 1.27.2-gke.1200 이상에서만 사용 가능합니다. 이전 버전에서는 이 플래그를 생략하고 노드 풀을 만든 후에 수동으로 드라이버를 설치합니다. 기존 클러스터나 노드 풀을 이 버전 이상으로 업그레이드하는 경우 업그레이드를 시작할 때 다르게 지정하지 않는 한 GKE가 GKE 버전에 해당하는 기본 드라이버 버전을 자동으로 설치합니다.

참고: Ubuntu 노드와 NVIDIA L4 GPU 또는 NVIDIA H100 GPU로 노드 풀을 만들고 기본 NVIDIA 드라이버 버전을 자동으로 설치하려면 최소 GKE 패치 버전 이상을 사용해야 합니다. 이전 버전의 경우 gpu-driver-version=disabled를 지정하고 NVIDIA 드라이버를 수동으로 설치해야 합니다.
AMOUNT: 노드 풀의 노드에 연결할 GPU 수입니다.
MACHINE_TYPE: 노드의 Compute Engine 머신 유형입니다. 다음 GPU 유형에 필요합니다.
- NVIDIA H100 80GB GPU(nvidia-h100-80gb 가속기 유형 및 A3 High 머신 유형에 해당) 또는 NVIDIA H100 80GB Mega GPU(nvidia-h100-mega-80gb 가속기 유형 및 A3 Mega 머신 유형에 해당) 자세한 내용은 Compute Engine 문서의 A3 머신 시리즈를 참조하세요.
- NVIDIA A100 40GB GPU(nvidia-tesla-a100 가속기 유형 및 A2 Standard 머신 유형에 해당) 또는 NVIDIA A100 80GB GPU(nvidia-a100-80gb 가속기 유형 및 A2 Ultra 머신 유형에 해당) 자세한 내용은 Compute Engine 문서의 A2 머신 시리즈를 참조하세요.
- NVIDIA L4 GPU(nvidia-l4 가속기 유형 및 G2 머신 시리즈에 해당)
다른 모든 GPU의 경우 이 플래그는 선택사항입니다.
COMPUTE_REGION: 클러스터의 Compute Engine 리전입니다(예: us-central1). 요청된 GPU를 사용할 수 있는 영역이 최소 하나 이상 있는 리전을 선택합니다.
CLUSTER_NAME: 노드 풀을 만들 클러스터의 이름입니다.
COMPUTE_ZONE1,COMPUTE_ZONE2,[...]: GKE에서 GPU 노드를 만드는 특정 영역입니다. 영역은 --region 플래그로 지정된 클러스터와 동일한 리전에 있어야 합니다. 정의한 GPU 유형이 선택한 각 영역에서 사용 가능해야 합니다. 요청된 GPU를 포함하는 영역을 지정하기 위해 노드 풀을 만들 때는 항상 --node-locations 플래그를 사용하는 것이 좋습니다.
MIN_NODES: 노드 풀의 각 영역에 대한 최소 노드 수입니다. 이 값은 --enable-autoscaling 플래그가 사용되는 경우에만 관련이 있습니다.
MAX_NODES: 노드 풀의 각 영역에 대한 최대 노드 수입니다. 이 값은 --enable-autoscaling 플래그가 사용되는 경우에만 관련이 있습니다.
SSD_COUNT: 임시 스토리지에 연결할 로컬 SSD 수입니다. 이 플래그는 H100 GPU의 A3 머신 유형에서 로컬 SSD를 사용하기 위해 필요합니다.

예를 들어 다음 명령어는 리전 클러스터 p100-cluster의 노드마다 P100 GPU 2개가 있는 고가용성 자동 확장 노드 풀 p100을 만듭니다. GKE는 이러한 노드에 기본 드라이버를 자동으로 설치합니다.

gcloud container node-pools create p100 \
  --accelerator type=nvidia-tesla-p100,count=2,gpu-driver-version=default \
  --region us-central1 --cluster p100-cluster \
  --node-locations us-central1-c \
  --min-nodes 0 --max-nodes 5 --enable-autoscaling

콘솔

GPU가 포함된 노드 풀을 만들려면 다음 안내를 따르세요.

Google Cloud 콘솔에서 Google Kubernetes Engine 페이지로 이동합니다.

Google Kubernetes Engine으로 이동
클러스터 목록에서 수정하려는 클러스터 이름을 클릭합니다.
노드 풀 추가를 클릭합니다.
필요한 경우 노드 풀 세부정보 페이지에서 자동 확장 사용 설정 체크박스를 선택합니다.
노드 풀을 원하는 대로 구성합니다.
탐색창에서 노드를 선택합니다.
머신 구성에서 GPU를 클릭합니다.
각 노드에서 실행할 GPU 유형과 GPU 수를 선택합니다.
경고를 읽고 제한사항을 이해합니다를 선택합니다.
GPU 드라이버 설치 섹션에서 다음 방법 중 하나를 선택합니다.
- Google 관리형: GKE가 드라이버를 자동으로 설치합니다. 이 옵션을 선택할 경우 버전 드롭다운에서 다음 중 하나를 선택합니다.
  - 기본값: 기본 드라이버 버전을 설치합니다.
  - 최신: 사용 가능한 최신 드라이버 버전을 설치합니다.
- 고객 관리형: GKE에서 드라이버를 설치하지 않습니다. NVIDIA GPU 기기 드라이버 설치의 안내에 따라 호환되는 드라이버를 수동으로 설치해야 합니다.
만들기를 클릭합니다.

Terraform

Terraform 모듈을 사용하여 GPU가 있는 Terraform으로 리전별 클러스터를 만들 수 있습니다.

variables.tf 파일에 다음 블록을 포함하여 Terraform 변수를 설정합니다.
```
variable "project_id" {
  default     = PROJECT_ID
  description = "the gcp_name_short project where GKE creates the cluster"
}

variable "region" {
  default     = CLUSTER_REGION
  description = "the gcp_name_short region where GKE creates the cluster"
}

variable "zone" {
  default     = "COMPUTE_ZONE1,COMPUTE_ZONE2"
  description = "the GPU nodes zone"
}

variable "cluster_name" {
  default     = "CLUSTER_NAME"
  description = "the name of the cluster"
}

variable "gpu_type" {
  default     = "GPU_TYPE"
  description = "the GPU accelerator type"
}

variable "gpu_driver_version" {
  default = "DRIVER_VERSION"
  description = "the NVIDIA driver version to install"
}

variable "machine_type" {
  default = "MACHINE_TYPE"
  description = "The Compute Engine machine type for the VM"
}
```
다음을 바꿉니다.
- PROJECT_ID: 프로젝트 ID입니다.
- CLUSTER_NAME: GKE 클러스터의 이름입니다.
- CLUSTER_REGION: 클러스터의 컴퓨팅 리전입니다.
- COMPUTE_ZONE1,COMPUTE_ZONE2,[...]: GKE에서 GPU 노드를 만드는 특정 영역입니다. 영역은 region 변수에서 지정된 리전과 동일한 리전에 있어야 합니다. 이러한 영역에는 개발자가 사용 가능한 것으로 정의한 GPU 유형이 있어야 합니다. GPU가 포함되는 영역에 대해 알아보려면 가용성을 참조하세요. GPU 노드 풀을 만들 때 node_locations 변수를 사용하여 요청된 GPU가 포함된 영역을 지정해야 합니다.
- GPU_TYPE: 사용하는 GPU 가속기의 유형입니다. 예를 들면 nvidia-tesla-t4입니다.
- DRIVER_VERSION: GKE에서 자동으로 설치할 GPU 드라이버 버전입니다. 이 필드는 선택사항입니다. 다음과 같은 값이 지원됩니다.
  - INSTALLATION_DISABLED: 자동 GPU 드라이버 설치를 중지합니다. GPU를 실행하려면 드라이버를 수동으로 설치해야 합니다. 1.30.1-gke.1156000 이전 버전의 GKE에서는 이 필드를 생략하면 이 옵션이 기본 옵션이 됩니다.
  - DEFAULT: 노드 운영체제 버전의 기본 드라이버 버전을 자동으로 설치합니다. GKE 버전 1.30.1-gke.1156000 이상에서 이 필드를 생략하면 이 옵션이 기본 옵션이 됩니다. 이전 버전에서는 이 필드를 생략하면 GKE가 드라이버를 설치하지 않습니다.
  - LATEST: 노드 OS 버전에 사용 가능한 최신 드라이버 버전을 자동으로 설치합니다. Container-Optimized OS를 사용하는 노드에서만 사용할 수 있습니다.
  이 필드를 생략하면 GKE는 드라이버를 자동으로 설치하지 않습니다. 노드 자동 프로비저닝을 사용하는 노드 풀에서는 이 필드가 지원되지 않습니다. 드라이버를 수동으로 설치하려면 이 문서의 NVIDIA GPU 드라이버 수동 설치를 참조하세요.
- MACHINE_TYPE: 노드의 Compute Engine 머신 유형입니다. 다음 GPU 유형에 필요합니다.
  - NVIDIA H100 80GB GPU(nvidia-h100-80gb 가속기 유형 및 A3 High 머신 유형에 해당) 또는 NVIDIA H100 80GB Mega GPU(nvidia-h100-mega-80gb 가속기 유형 및 A3 Mega 머신 유형에 해당) 자세한 내용은 Compute Engine 문서의 A3 머신 시리즈를 참조하세요.
  - NVIDIA A100 40GB GPU(nvidia-tesla-a100 가속기 유형 및 A2 Standard 머신 유형에 해당) 또는 NVIDIA A100 80GB GPU(nvidia-a100-80gb 가속기 유형 및 A2 Ultra 머신 유형에 해당) 자세한 내용은 Compute Engine 문서의 A2 머신 시리즈를 참조하세요.
  - NVIDIA L4 GPU(nvidia-l4 가속기 유형 및 G2 머신 시리즈에 해당)
  다른 모든 GPU의 경우 이 플래그는 선택사항입니다.

Terraform 구성에 다음 블록을 추가합니다.

provider "google" {
  project = var.project_id
  region  = var.region
}

resource "google_container_cluster" "ml_cluster" {
  name     = var.cluster_name
  location = var.region
  node_locations = [var.zone]
}

resource "google_container_node_pool" "gpu_pool" {
  name       = google_container_cluster.ml_cluster.name
  location   = var.region
  cluster    = google_container_cluster.ml_cluster.name
  node_count = 3

  autoscaling {
    total_min_node_count = "1"
    total_max_node_count = "5"
  }

  management {
    auto_repair  = "true"
    auto_upgrade = "true"
  }

  node_config {
    oauth_scopes = [
      "https://www.googleapis.com/auth/logging.write",
      "https://www.googleapis.com/auth/monitoring",
      "https://www.googleapis.com/auth/devstorage.read_only",
      "https://www.googleapis.com/auth/trace.append",
      "https://www.googleapis.com/auth/service.management.readonly",
      "https://www.googleapis.com/auth/servicecontrol",
    ]

    labels = {
      env = var.project_id
    }

    guest_accelerator {
      type  = var.gpu_type
      count = 1
      gpu_driver_installation_config {
        gpu_driver_version = var.gpu_driver_version
      }
    }

    image_type   = "cos_containerd"
    machine_type = var.machine_type
    tags         = ["gke-node", "${var.project_id}-gke"]

    disk_size_gb = "30"
    disk_type    = "pd-standard"

    metadata = {
      disable-legacy-endpoints = "true"
    }
  }
}

Terraform에서 Google Cloud API를 호출하여 GPU를 사용하는 노드 풀이 있는 새 클러스터를 만듭니다. 노드 풀에는 처음에 노드가 3개 있고 자동 확장이 사용 설정되어 있습니다. Terraform에 대해 자세히 알아보려면 terraform.io의 google_container_node_pool 리소스 사양을 참조하세요.

권장사항:

추가 비용이 발생하지 않도록 terraform destroy 명령어를 사용하여 구성 파일에 정의된 모든 리소스를 삭제합니다.

권장사항: GPU가 포함된 새 클러스터를 만들고 --node-locations 플래그를 사용하여 영역을 지정할 수도 있습니다. 하지만 이 섹션에 표시된 것처럼 기존 클러스터에 별도의 GPU 노드 풀을 만드는 것이 좋습니다.

NVIDIA GPU 드라이버 수동 설치

노드에 설치 DaemonSet을 배포하여 해당 노드에 NVIDIA GPU 드라이버를 수동으로 설치할 수 있습니다. 다음과 같은 상황에서 수동 설치를 사용합니다.

GPU 노드 풀을 만들 때 자동 기기 드라이버 설치를 중지했습니다.
자동 설치에 지원되는 최소 버전보다 이전 버전의 GKE를 사용합니다.
워크로드에 자동 설치 시 기본 또는 최신 드라이버로 사용할 수 없는 특정 NVIDIA 드라이버 버전이 필요합니다.

권장사항:

가능하면 자동 드라이버 설치를 사용합니다. 이렇게 하려면 Standard 클러스터를 만들 때 --accelerator 플래그에서 gpu-driver-version 옵션을 지정합니다. 2023년 1월 25일 또는 그 이전에 설치 DaemonSet를 사용하여 GPU 드라이버를 수동으로 설치한 경우, 자동 드라이버 설치를 사용하는 노드를 무시하는 버전을 가져오기 위해 DaemonSet를 다시 적용해야 할 수 있습니다.

설치 DaemonSet를 실행하려면 GPU 노드 풀에 Cloud Storage와 통신하는 데 사용되는 https://www.googleapis.com/auth/devstorage.read_only 범위가 필요합니다. 이 범위가 없으면 설치 DaemonSet 매니페스트를 다운로드할 수 없습니다. 이 범위는 일반적으로 클러스터를 만들 때 추가되는 기본 범위 중 하나입니다.

다음 안내에서는 Container-Optimized OS(COS) 및 Ubuntu 노드에 드라이버를 설치하고 Terraform을 사용하는 방법을 보여줍니다.

COS

설치 DaemonSet를 배포하고 기본 GPU 드라이버 버전을 설치하려면 다음 명령어를 실행하세요.

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded.yaml

또는 최신 GPU 드라이버 버전을 설치하려면(아래 표 참조) 다음 명령어를 실행합니다.

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded-latest.yaml

설치를 완료하는 데 몇 분 정도 걸립니다. 설치되면 NVIDIA GPU 기기 플러그인에서 Kubernetes API를 사용하여 NVIDIA GPU 용량을 사용할 수 있게 합니다.

Container-Optimized OS 이미지의 각 버전에는 기본적으로 지원되는 NVIDIA GPU 드라이버 버전이 하나 이상 있습니다. 지원되는 기본 버전은 주요 Container-Optimized OS LTS 마일스톤의 출시 노트를 참조하세요.

다음 표에는 각 GKE 버전에서 사용 가능한 드라이버 버전이 나와 있습니다.

GKE NVIDIA 드라이버 버전
1.30	R535(기본값) 또는 R550
1.29	R535(기본값) 또는 R550
1.28	R535(기본값) 또는 R550
1.27	R470(기본값), R525, R535, or R550
1.26	R470(기본값), R525, R535, or R550

Ubuntu

배포하는 설치 DaemonSet은 다음과 같이 GPU 유형과 GKE 노드 버전에 따라 다릅니다.

NVIDIA L4 GPU 및 NVIDIA H100 GPU를 제외한 모든 GPU의 경우 다음 명령어를 실행합니다.

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/ubuntu/daemonset-preloaded.yaml

2024-R05 출시 버전 이상의 노드 버전을 실행하는 NVIDIA L4 GPU 또는 H100 GPU의 경우 R535 드라이버를 설치합니다.

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/ubuntu/daemonset-preloaded-R535.yaml

2024-R05 출시 버전 이전의 노드 버전을 실행하는 NVIDIA L4 GPU 또는 H100 GPU의 경우 R525 드라이버를 설치합니다.

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/ubuntu/daemonset-preloaded-R525.yaml

설치를 완료하는 데 몇 분 정도 걸립니다. 설치되면 NVIDIA GPU 기기 플러그인에서 Kubernetes API를 사용하여 NVIDIA GPU 용량을 사용할 수 있게 합니다.

다음 표에는 각 GKE 버전에서 사용 가능한 드라이버 버전이 나와 있습니다.

Ubuntu GPU 드라이버 및 GKE 버전
1.30	R470 또는 R535
1.29	R470 또는 R535
1.28	R470 또는 R535
1.27	R470 또는 R535
1.26	R470 또는 R535

Terraform

Terraform을 사용하여 노드 유형에 따라 기본 GPU 드라이버 버전을 설치할 수 있습니다. 두 경우 모두 kubectl_manifest Terraform 리소스 유형을 구성해야 합니다.

COS에 DaemonSet를 설치하려면 Terraform 구성에 다음 블록을 추가합니다.

  data "http" "nvidia_driver_installer_manifest" {
    url = "https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded.yaml"
  }

  resource "kubectl_manifest" "nvidia_driver_installer" {
    yaml_body = data.http.nvidia_driver_installer_manifest.body
  }

Ubuntu에 DaemonSet를 설치하려면 Terraform 구성에 다음 블록을 추가합니다.

  data "http" "nvidia_driver_installer_manifest" {
    url = "https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/ubuntu/daemonset-preloaded.yaml"
  }

  resource "kubectl_manifest" "nvidia_driver_installer" {
    yaml_body = data.http.nvidia_driver_installer_manifest.body
  }

GPU를 사용한 노드 자동 프로비저닝을 사용하여 드라이버 설치

GPU와 함께 노드 자동 프로비저닝을 사용하는 경우 기본적으로 자동 프로비저닝된 노드 풀에는 드라이버를 설치할 수 있는 충분한 범위가 없습니다. 필요한 범위를 부여하려면 다음 예시와 같이 logging.write, monitoring, devstorage.read_only, compute를 추가하도록 노드 자동 프로비저닝의 기본 범위를 수정합니다.

gcloud container clusters update CLUSTER_NAME --enable-autoprovisioning \
    --min-cpu=1 --max-cpu=10 --min-memory=1 --max-memory=32 \
    --autoprovisioning-scopes=https://www.googleapis.com/auth/logging.write,https://www.googleapis.com/auth/monitoring,https://www.googleapis.com/auth/devstorage.read_only,https://www.googleapis.com/auth/compute

GKE 버전 1.29.2-gke.1108000 이상에서는 자동 프로비저닝된 GPU 노드에 자동으로 설치할 GKE용 GPU 드라이버 버전을 선택할 수 있습니다. 매니페스트에 다음 필드를 추가합니다.

spec:
  nodeSelector:
    cloud.google.com/gke-gpu-driver-version: "DRIVER_VERSION"

DRIVER_VERSION을 다음 값 중 하나로 바꿉니다.

default - 노드 GKE 버전의 기본 정식 드라이버입니다. 매니페스트에서 nodeSelector를 생략하는 경우 기본 옵션입니다.
latest - 노드 GKE 버전에 사용 가능한 최신 드라이버 버전입니다.

자동 프로비저닝에 대한 자세한 내용은 노드 자동 프로비저닝 사용을 참조하세요.

GPU를 사용하도록 포드 구성

리소스 제한을 사용하여 GPU를 사용하도록 포드를 구성합니다. 다음 키-값 쌍을 사용해서 포드 사양에 리소스 제한을 지정합니다.

키: nvidia.com/gpu
값: 사용할 GPU 수

alpha.kubernetes.io/nvidia-gpu는 GKE에서 리소스 이름으로 지원되지 않습니다. 대신 nvidia.com/gpu를 리소스 이름으로 사용합니다.

다음 매니페스트는 GPU를 사용하는 포드 사양의 예시입니다.

apiVersion: v1
kind: Pod
metadata:
  name: my-gpu-pod
spec:
  containers:
  - name: my-gpu-container
    image: nvidia/cuda:11.0.3-runtime-ubuntu20.04
    command: ["/bin/bash", "-c", "--"]
    args: ["while true; do sleep 600; done;"]
    resources:
      limits:
       nvidia.com/gpu: 2

여러 GPU 유형 사용

클러스터별로 여러 GPU 가속기 유형을 사용하려면 각각 고유한 가속기 유형을 사용해서 여러 노드 풀을 만들어야 합니다. GKE는 특정 GPU 유형의 노드에서 GPU 워크로드 배치를 돕기 위해 GPU 노드에 고유한 노드 선택기를 연결합니다.

키: cloud.google.com/gke-accelerator
값: 사용하는 GPU 가속기의 유형입니다. 예를 들면 nvidia-tesla-t4입니다.

이 노드 선택기를 워크로드 포드 사양에 추가하여 특정 GPU 유형을 타겟팅할 수 있습니다. 예를 들면 다음과 같습니다.

apiVersion: v1
kind: Pod
metadata:
  name: my-gpu-pod
spec:
  containers:
  - name: my-gpu-container
    image: nvidia/cuda:11.0.3-runtime-ubuntu20.04
    command: ["/bin/bash", "-c", "--"]
    args: ["while true; do sleep 600; done;"]
    resources:
      limits:
       nvidia.com/gpu: 2
  nodeSelector:
    cloud.google.com/gke-accelerator: nvidia-tesla-t4

가속기를 사용하여 노드 풀 업그레이드(GPU 및 TPU)

GKE는 노드 풀을 포함하여 Standard 클러스터를 자동으로 업그레이드합니다. 또한 노드 버전을 곧 새로운 버전으로 업그레이드하려는 경우 노드 풀을 수동으로 업그레이드할 수 있습니다. 클러스터의 업그레이드 방식을 제어하려면 출시 채널, 유지보수 기간 및 제외항목, 출시 시퀀싱을 사용합니다.

또한 일시 급증 업그레이드 또는 블루-그린 업그레이드와 같이 노드 풀에 대해 노드 업그레이드 전략을 구성할 수 있습니다. 이러한 전략을 구성하여 환경에서 속도와 중단 사이의 최적 균형을 이루는 방식으로 노드 풀이 업그레이드되도록 할 수 있습니다. 멀티 호스트 TPU 슬라이스 노드 풀의 경우 구성된 노드 업그레이드 전략을 사용하는 대신 GKE가 단일 단계로 전체 노드 풀을 원자적으로 다시 만듭니다. 자세한 내용은 GKE의 TPU 관련 용어에서 원자성 정의를 참조하세요.

노드 업그레이드 전략을 사용하려면 구성에 따라 GKE에서 일시적으로 추가 리소스를 프로비저닝해야 합니다. GPU 또는 TPU가 있는 노드를 더 만들려고 시도할 때 리소스 가용성 오류가 표시될 때와 같이 Google Cloud에서 노드 풀 리소스 용량이 제한적이면 리소스 제한 환경에서 업그레이드를 참조하세요.

NVIDIA CUDA-X 라이브러리 정보

CUDA는 GPU를 위한 NVIDIA의 병렬 컴퓨팅 플랫폼이자 프로그래밍 모델입니다. CUDA 애플리케이션을 사용하려면 사용하는 이미지에 라이브러리가 있어야 합니다. NVIDIA CUDA-X 라이브러리를 추가하려면 컨테이너 사양의 LD_LIBRARY_PATH 환경 변수에 다음 값을 포함하여 자체 이미지를 빌드하고 사용하면 됩니다.

/usr/local/cuda-CUDA_VERSION/lib64: 노드에서 NVIDIA CUDA-X 라이브러리의 위치
CUDA_VERSION을 사용한 CUDA-X 이미지 버전으로 바꾸세요. 일부 버전은 /usr/local/nvidia/bin에 디버그 유틸리티도 포함하고 있습니다. 자세한 내용은 DockerHub의 NVIDIA CUDA 이미지를 참조하세요.

CUDA 버전에 필요한 최소 GPU 드라이버 버전을 확인하려면 CUDA Toolkit and Compatible Driver Versions를 참조하세요.
/usr/local/nvidia/lib64: NVIDIA 기기 드라이버의 위치

노드에서 실행 중인 GKE 패치 버전에 선택한 CUDA 버전과 호환되는 GPU 드라이버 버전이 포함되어 있는지 확인합니다. GKE 버전과 연결된 GPU 드라이버 버전 목록은 GKE 현재 버전 표에 연결된 해당 Container-Optimized OS 페이지를 참조하세요.

GPU 노드 워크로드 성능 모니터링

GKE 클러스터에 시스템 측정항목이 사용 설정된 경우 GPU 워크로드 성능을 모니터링하도록 Cloud Monitoring에서 다음 측정항목을 제공합니다.

가동 주기(container/accelerator/duty_cycle): 이전 샘플 기간(10초) 중에 가속기가 실제로 처리를 수행한 시간의 백분율입니다. 1~100 사이입니다.
메모리 사용량(container/accelerator/memory_used): 할당된 가속기 메모리 양(바이트)입니다.
메모리 용량(container/accelerator/memory_total): 총 가속기 메모리 용량(바이트)입니다.

사전 정의된 대시보드를 사용해서 GPU 노드가 있는 클러스터를 모니터링할 수 있습니다. 자세한 내용은 관측 가능성 측정항목 보기를 참조하세요. 클러스터 및 리소스 모니터링에 대한 일반적인 내용은 GKE의 관측 가능성을 참조하세요.

워크로드의 사용량 측정항목 보기

Google Cloud 콘솔의 워크로드 대시보드에서 워크로드 GPU 사용량 측정항목을 봅니다.

워크로드 GPU 사용량을 보려면 다음 단계를 수행합니다.

Google Cloud 콘솔에서 워크로드 페이지로 이동합니다.
워크로드로 이동
워크로드를 선택합니다.

워크로드 대시보드에는 GPU 메모리 사용량 및 용량, GPU 사용 주기에 대한 차트가 표시됩니다.

NVIDIA Data Center GPU Manager(DCGM) 측정항목 보기

Google Cloud Managed Service for Prometheus를 사용하여 NVIDIA DCGM 측정항목을 수집하고 시각화할 수 있습니다. Autopilot 클러스터의 경우 GKE가 드라이버를 설치합니다. Standard 클러스터의 경우 NVIDIA 드라이버를 설치해야 합니다.

GKE 관리 DCGM 패키지를 배포하는 방법에 대한 안내는 NVIDIA Data Center GPU Manager(DCGM) 측정항목 수집 및 보기를 참조하세요.

GPU 노드의 단계적 종료 구성

1.29.1-gke.1425000 이상을 실행하는 컨트롤 플레인이 있는 GKE 클러스터에서 GPU 노드는 종료가 임박했음을 노드에 알려주는 SIGTERM 신호를 지원합니다. GPU 노드에서 종료 임박 알림을 최대 60분까지 구성할 수 있습니다.

이 알림 기간 내에 워크로드를 단계적으로 종료하도록 GKE를 구성하려면 GPU 및 TPU에 대한 GKE 노드 중단 관리 안내를 따르세요.