Halaman ini diterjemahkan oleh Cloud Translation API.

Menjalankan GPU di node pool GKE Standard

Standard

Halaman ini menunjukkan cara menjalankan dan mengoptimalkan workload intensif komputasi, seperti pemrosesan grafis dan kecerdasan buatan (AI), dengan melampirkan dan menggunakan akselerator hardware unit pemrosesan grafis (GPU) NVIDIA® di node cluster Standard Google Kubernetes Engine (GKE). Jika Anda menggunakan Pod Autopilot, lihat Men-deploy workload GPU di Autopilot.

Jika Anda ingin men-deploy cluster dengan GPU NVIDIA B200 atau NVIDIA H200 141 GB, lihat referensi berikut:

Untuk membuat cluster GKE, lihat Membuat cluster Google Kubernetes Engine yang dioptimalkan untuk AI dengan konfigurasi default.
Untuk membuat cluster Slurm, lihat Membuat cluster Slurm yang dioptimalkan untuk AI.

Ringkasan

Dengan GKE, Anda dapat membuat node pool yang dilengkapi dengan GPU. GPU memberikan daya komputasi untuk mendorong tugas deep learning seperti pengenalan citra, natural language processing, serta tugas intensif komputasi lainnya seperti transcoding video dan pemrosesan gambar. Dalam mode GKE Standard, Anda dapat melampirkan hardware GPU ke node dalam cluster, lalu mengalokasikan resource GPU ke workload dalam container yang berjalan pada node tersebut.

Untuk mempelajari kasus penggunaan GPU lebih lanjut, lihat halaman GPU Google Cloud. Untuk mengetahui informasi selengkapnya tentang GPU di GKE dan perbedaan antara mode Standard dan mode Autopilot, lihat Tentang GPU di GKE.

Anda juga dapat menggunakan GPU dengan Spot VM jika workload Anda dapat menoleransi seringnya gangguan node. Penggunaan Spot VM akan mengurangi harga GPU yang dijalankan. Untuk mempelajari lebih lanjut, silakan membaca artikel Menggunakan Spot VM dengan node pool GPU.

Mulai versi 1.29.2-gke.1108000, Anda kini dapat membuat node pool GPU di GKE Sandbox. Untuk mengetahui informasi selengkapnya, lihat GKE Sandbox dan Konfigurasi GKE Sandbox.

Sebelum memulai

Sebelum memulai, pastikan Anda telah melakukan tugas berikut:

Aktifkan Google Kubernetes Engine API.

Aktifkan Google Kubernetes Engine API

Jika ingin menggunakan Google Cloud CLI untuk tugas ini, instal lalu lakukan inisialisasi gcloud CLI. Jika sebelumnya Anda telah menginstal gcloud CLI, dapatkan versi terbaru dengan menjalankan perintah gcloud components update. Versi gcloud CLI yang lebih lama mungkin tidak mendukung menjalankan perintah dalam dokumen ini.
Catatan: Untuk penginstalan gcloud CLI yang ada, pastikan untuk menyetel properti compute/region. Jika Anda terutama menggunakan cluster zona, tetapkan compute/zone. Dengan menyetel lokasi default, Anda dapat menghindari error di gcloud CLI yang seperti ini: One of [--zone, --region] must be supplied: Please specify location. Anda mungkin perlu menentukan lokasi dalam perintah tertentu jika lokasi cluster Anda berbeda dengan lokasi default yang Anda tetapkan.

Persyaratan untuk GPU di GKE

GPU di GKE memiliki persyaratan berikut:

Versi Kubernetes: Versi yang tersedia bergantung pada image node yang digunakan GPU:
- Container-Optimized OS: GKE versi 1.9 atau yang lebih baru
- Ubuntu: GKE versi 1.11.3 atau yang lebih baru
Kuota GPU: Anda harus memiliki kuota GPU Compute Engine di zona yang dipilih sebelum dapat membuat node GPU. Untuk memastikan Anda memiliki kuota GPU yang cukup dalam project, lihat Kuota di konsol Google Cloud .

Jika Anda memerlukan kuota GPU tambahan, Anda harus meminta kuota GPU di konsol Google Cloud . Jika Anda memiliki akun penagihan yang telah ditetapkan, project Anda akan otomatis menerima kuota setelah Anda mengirimkan permintaan kuota.

Secara default, akun Uji Coba Gratis tidak menerima kuota GPU.
Driver GPU NVIDIA: Saat membuat cluster atau node pool, Anda dapat memberi tahu GKE agar otomatis menginstal versi driver berdasarkan versi GKE Anda. Jika Anda tidak memberi tahu GKE untuk menginstal driver GPU secara otomatis, Anda harus menginstal driver secara manual.
Seri mesin: Jenis GPU yang dapat Anda gunakan bergantung pada seri mesin, sebagai berikut:
- Seri mesin A4X: GPU GB200.
- Seri mesin A4: GPU B200.
- Seri mesin A3: GPU H200 (A3 Ultra), dan GPU H100 (A3 Mega, High, Edge).
- Seri mesin A2: GPU A100.
- Seri mesin G4: GPU RTX PRO 6000 (GKE versi 1.34.0-gke.1662000 atau yang lebih baru).
- Seri mesin G2: GPU L4.
- Seri mesin N1: GPU NVIDIA T4, GPU NVIDIA V100, GPU NVIDIA P100, atau GPU NVIDIA P4.
Anda harus memastikan bahwa Anda memiliki kuota yang cukup dalam project untuk seri mesin yang sesuai dengan jenis dan kuantitas GPU yang dipilih.
GPU di node Ubuntu: Jika Anda menggunakan GPU dengan node Ubuntu, persyaratan berikut berlaku:
- Kompatibilitas driver:
  - GPU L4 dan GPU H100: Driver NVIDIA versi 535 atau yang lebih baru
  - GPU H200: Driver NVIDIA versi 550 atau yang lebih baru
  - GPU B200: Driver NVIDIA versi 570 atau yang lebih baru
  - GPU RTX PRO 6000: Driver NVIDIA versi 580 atau yang lebih baru
  Jika versi driver yang diperlukan atau versi yang lebih baru bukan versi default di versi GKE Anda, Anda harus menginstal secara manual driver yang didukung di node Anda.
- Kompatibilitas versi:
  
  Saat menggunakan seri mesin A4 di node pool Ubuntu, Anda harus menggunakan versi GKE yang menyertakan image ubuntu-gke-2404-1-32-amd64-v20250730 atau versi image node yang lebih baru. Versi GKE minimum adalah sebagai berikut:
  - 1.32.7-gke.1067000 atau yang lebih baru untuk GKE versi 1.32
  - 1.33.3-gke.1247000 atau yang lebih baru untuk GKE versi 1.33

Praktik terbaik:

Gunakan Container-Optimized OS untuk node GPU. Container-Optimized OS mencakup driver yang diperlukan untuk mendukung versi GKE tertentu untuk node GPU.

Batasan penggunaan GPU di GKE

Sebelum menggunakan GPU di GKE, perhatikan batasan berikut:

Anda tidak dapat menambahkan GPU ke node pool yang sudah ada.
Node GPU tidak dapat dimigrasikan langsung selama peristiwa pemeliharaan.
Seri mesin: Jenis GPU yang dapat Anda gunakan bergantung pada seri mesin, sebagai berikut:
- Seri mesin A4X: GPU GB200.
- Seri mesin A4: GPU B200.
- Seri mesin A3: GPU H200 (A3 Ultra), dan GPU H100 (A3 Mega, High, Edge).
- Seri mesin A2: GPU A100.
- Seri mesin G4: GPU RTX PRO 6000.
- Seri mesin G2: GPU L4.
- Seri mesin N1: GPU NVIDIA T4, GPU NVIDIA V100, GPU NVIDIA P100, atau GPU NVIDIA P4.
Anda harus memastikan bahwa Anda memiliki kuota yang cukup dalam project untuk seri mesin yang sesuai dengan jenis dan kuantitas GPU yang dipilih.
GPU tidak didukung dalam node pool Windows Server.
Cluster GKE Standard yang menjalankan versi sebelum 1.34.1-gke.1279000 tidak mendukung penyediaan otomatis node yang membuat node pool dengan GPU RTX PRO 6000. Namun, cluster yang menjalankan versi sebelumnya mendukung penskalaan autoscaler cluster untuk node pool yang ada.
Cluster GKE Standard yang menjalankan versi 1.28.2-gke.1098000 atau yang lebih lama tidak mendukung penyediaan otomatis node yang membuat node pool dengan GPU L4. Namun, cluster yang menjalankan versi sebelumnya mendukung penskalaan autoscaler cluster pada node pool yang ada.

Ketersediaan GPU menurut region dan zona

GPU tersedia di region dan zona tertentu. Saat Anda meminta kuota GPU, pertimbangkan region tempat Anda ingin menjalankan cluster.

Untuk mengetahui daftar lengkap region dan zona yang berlaku, silakan melihat GPU di Compute Engine.

Anda juga dapat melihat GPU yang tersedia di zona Anda menggunakan Google Cloud CLI. Untuk melihat daftar semua jenis akselerator GPU yang didukung di setiap zona, jalankan perintah berikut:

gcloud compute accelerator-types list

Harga

Untuk mengetahui informasi harga GPU, lihat tabel harga di halaman Google Cloud GPU.

Memastikan kuota GPU yang memadai

Kuota GPU Anda adalah jumlah total GPU yang dapat berjalan di Google Cloud project Anda. Untuk membuat cluster dengan GPU, project Anda harus memiliki kuota GPU yang memadai.

Kuota GPU Anda setidaknya harus setara dengan total jumlah GPU yang ingin Anda jalankan di cluster. Jika mengaktifkan penskalaan otomatis cluster, Anda harus meminta kuota GPU setidaknya setara dengan jumlah GPU per node dikalikan dengan jumlah maksimum node cluster Anda.

Misalnya, jika Anda membuat cluster dengan tiga node yang menjalankan dua GPU per node, project Anda memerlukan setidaknya enam kuota GPU.

Meminta kuota GPU

Untuk meminta kuota GPU, gunakan konsol Google Cloud . Untuk mengetahui informasi selengkapnya tentang permintaan kuota, lihat kuota GPU dalam dokumentasi Compute Engine.

Untuk menelusuri kuota GPU dan mengirimkan permintaan kuota, gunakan Google Cloud konsol:

Buka halaman Kuota IAM & Admin di konsol Google Cloud .

Buka Kuota
Dalam kotak Filter lakukan tindakan berikut:
1. Pilih properti Kuota, masukkan nama model GPU, lalu tekan Enter.
2. (Opsional) Untuk menerapkan filter lanjutan guna mempersempit hasil, pilih properti Dimensi (misalnya, lokasi), tambahkan nama region atau zona yang Anda gunakan, lalu tekan Enter.
Dari daftar kuota GPU, pilih kuota yang ingin Anda ubah.
Klik Edit Kuota. Formulir permintaan akan terbuka.
Isi kolom New quota limit untuk setiap permintaan kuota.
Isi kolom Deskripsi permintaan dengan detail tentang permintaan Anda.
Klik Next.
Pada dialog Konfirmasi penggantian, klik Konfirmasi.
Di layar Detail kontak, masukkan nama Anda dan nomor telepon yang mungkin digunakan oleh pemberi persetujuan untuk menyelesaikan permintaan perubahan kuota Anda.
Klik Submit request.
Anda akan menerima email konfirmasi untuk melacak perubahan kuota.

Menjalankan GPU di cluster GKE Standard

Untuk menjalankan GPU di cluster GKE Standard, buat node pool dengan GPU yang terpasang.

Praktik terbaik:

Untuk meningkatkan efisiensi biaya, keandalan, dan ketersediaan GPU di GKE, lakukan tindakan berikut:

Buat node pool GPU yang terpisah. Untuk setiap node pool, batasi lokasi node ke zona tempat GPU yang Anda inginkan tersedia.
Aktifkan penskalaan otomatis di setiap node pool.
Gunakan cluster regional untuk meningkatkan ketersediaan dengan mereplikasi bidang kontrol Kubernetes di seluruh zona dalam region.
Konfigurasi GKE untuk otomatis menginstal driver GPU default atau terbaru di node pool, sehingga Anda tidak perlu menginstal dan mengelola versi driver secara manual.

Seperti yang dijelaskan di bagian berikut, GKE menggunakan taint dan toleransi node untuk memastikan Pod tidak dijadwalkan ke node yang tidak sesuai.

Memberi taint pada node pool GPU untuk menghindari penjadwalan yang tidak tepat

Taint node memungkinkan Anda menandai node sehingga scheduler menghindari atau mencegah penggunaannya untuk Pod tertentu. Berdasarkan skenario berikut, GKE akan otomatis menambahkan taint, atau Anda dapat menambahkannya secara manual:

Saat Anda menambahkan node pool GPU ke cluster yang ada yang sudah menjalankan node pool non-GPU, GKE secara otomatis melakukan taint pada node GPU dengan taint node berikut:
- Kunci: nvidia.com/gpu
- Efek: NoSchedule
GKE hanya menambahkan taint ini jika ada minimal satu node pool non-GPU di cluster.
Saat menambahkan node pool GPU ke cluster yang hanya memiliki node pool GPU, atau jika Anda membuat cluster baru dengan node pool default yang memiliki GPU yang terpasang, Anda dapat menetapkan taint ke node pool baru secara manual dengan nilai berikut:
- Kunci: nvidia.com/gpu
- Efek: NoSchedule
Saat Anda menambahkan node pool non-GPU ke cluster di masa mendatang, GKE tidak akan menerapkan taint ini pada node GPU yang sudah ada. Anda perlu menetapkan taint secara manual ke node pool baru.

Membatasi penjadwalan secara otomatis dengan toleransi

Toleransi memungkinkan Anda menetapkan Pod yang dapat digunakan pada node "taint". GKE secara otomatis menerapkan toleransi sehingga hanya Pod yang meminta GPU yang dijadwalkan pada node GPU. Hal ini memungkinkan penskalaan otomatis yang lebih efisien karena node GPU Anda dapat dengan cepat memperkecil skala jika jumlah Pod yang meminta GPU tidak cukup. Untuk melakukannya, GKE menjalankan pengontrol penerimaan ExtendedResourceToleration.

Membuat node pool GPU

Untuk membuat node pool GPU terpisah di cluster yang ada, Anda dapat menggunakanGoogle Cloud konsol atau Google Cloud CLI. Anda juga dapat menggunakan Terraform untuk menyediakan cluster GKE dan node pool GPU.

GKE mendukung penginstalan otomatis driver NVIDIA dalam skenario berikut:

Untuk cluster GKE dengan versi bidang kontrol 1.32.2-gke.1297000 dan yang lebih baru, GKE secara otomatis menginstal versi driver NVIDIA default untuk semua node GPU, termasuk yang dibuat dengan penyediaan otomatis node.
Untuk cluster GKE dengan versi bidang kontrol 1.30.1-gke.1156000 hingga 1.32.2-gke.1297000, GKE otomatis menginstal versi driver NVIDIA default untuk node yang tidak dibuat dengan penyediaan otomatis node.
Anda dapat memilih versi driver terbaru yang tersedia atau secara eksplisit menonaktifkan penginstalan driver otomatis. Pada versi yang lebih lama dari 1.30.1-gke.1156000, GKE tidak menginstal driver secara default jika Anda tidak menentukan versi driver saat membuat atau mengupdate node pool.

gcloud

Untuk membuat node pool dengan GPU di cluster, jalankan perintah berikut:

gcloud container node-pools create POOL_NAME \
  --accelerator type=GPU_TYPE,count=AMOUNT,gpu-driver-version=DRIVER_VERSION \
  --machine-type MACHINE_TYPE \
  --cluster CLUSTER_NAME \
  --location CONTROL_PLANE_LOCATION \
  --node-locations COMPUTE_ZONE1[,COMPUTE_ZONE2] \
  [--sandbox=type=gvisor]
  [--enable-autoscaling \
   --min-nodes MIN_NODES \
   --max-nodes MAX_NODES] \
  [--scopes=SCOPES] \
  [--service-account=SERVICE_ACCOUNT] \
  [--reservation-affinity=specific --reservation=RESERVATION_NAME]

Ganti kode berikut:

POOL_NAME: nama yang Anda pilih untuk node pool.
GPU_TYPE: Jenis akselerator GPU yang Anda gunakan. Misalnya, nvidia-tesla-t4.
AMOUNT: jumlah GPU yang akan dipasang ke node di node pool.
DRIVER_VERSION: versi driver NVIDIA yang akan diinstal. Dapat berupa salah satu dari hal berikut:
- default: Menginstal versi driver default untuk versi GKE node Anda. Di GKE versi 1.30.1-gke.1156000 dan yang lebih baru, jika Anda menghapus tanda gpu-driver-version, ini adalah opsi defaultnya. Pada versi sebelumnya, GKE tidak akan menginstal driver jika Anda menghapus tanda ini.
- latest: Instal versi driver terbaru yang tersedia untuk versi GKE Anda. Hanya tersedia untuk node yang menggunakan Container-Optimized OS.
- disabled: Melewati penginstalan driver otomatis. Anda harus menginstal driver secara manual setelah membuat node pool. Pada GKE versi yang lebih lama dari 1.30.1-gke.1156000, opsi ini adalah opsi default.
Opsi gpu-driver-version hanya tersedia untuk GKE versi 1.27.2-gke.1200 dan yang lebih baru. Pada versi sebelumnya, hapus flag ini dan instal driver secara manual setelah Anda membuat node pool. Jika Anda mengupgrade cluster atau node pool yang ada ke versi ini atau ke versi yang lebih baru, GKE akan otomatis menginstal versi driver default yang sesuai dengan versi GKE, kecuali jika Anda menetapkan setelan yang berbeda saat memulai upgrade.

Catatan: Untuk membuat node pool dengan node Ubuntu dan GPU NVIDIA L4 atau GPU NVIDIA H100 serta menginstal versi driver NVIDIA default secara otomatis, Anda harus menggunakan versi patch GKE minimum atau yang lebih baru. Untuk versi sebelumnya, Anda harus menentukan gpu-driver-version=disabled dan menginstal driver NVIDIA secara manual.
MACHINE_TYPE: jenis mesin Compute Engine untuk node. Diperlukan untuk jenis GPU berikut:
- GPU NVIDIA B200 (sesuai dengan jenis akselerator nvidia-b200 dan seri mesin A4)
- GPU NVIDIA H200 141 GB (sesuai dengan jenis akselerator nvidia-h200-141gb dan jenis mesin A3 Ultra), atau GPU NVIDIA H100 80 GB (sesuai dengan jenis akselerator nvidia-h100-80gb dan jenis mesin A3 High), atau GPU Mega NVIDIA H100 80 GB (sesuai dengan jenis akselerator nvidia-h100-mega-80gb dan jenis mesin A3 Mega). Untuk mengetahui informasi selengkapnya, lihat seri mesin A3 dalam dokumentasi Compute Engine.
- GPU NVIDIA A100 40 GB (sesuai dengan jenis akselerator nvidia-tesla-a100 dan jenis mesin A2 Standard), atau GPU NVIDIA A100 80 GB (sesuai dengan jenis akselerator nvidia-a100-80gb dan jenis mesin A2 Ultra). Untuk mengetahui informasi selengkapnya, lihat seri mesin A2 dalam dokumentasi Compute Engine.
- GPU NVIDIA L4 (sesuai dengan nvidia-l4 jenis akselerator dan seri mesin G2).
- GPU NVIDIA RTX PRO 6000 (sesuai dengan nvidia-rtx-pro-6000 jenis akselerator dan seri mesin G4).
Untuk semua GPU lainnya, flag ini bersifat opsional.
CLUSTER_NAME: nama cluster tempat node pool akan dibuat.
CONTROL_PLANE_LOCATION: lokasi Compute Engine bidang kontrol cluster Anda. Berikan region untuk cluster regional, atau zona untuk cluster zona.
COMPUTE_ZONE1,COMPUTE_ZONE2,[...]: zona tertentu tempat GKE membuat node GPU. Zona harus berada di region yang sama dengan cluster, yang ditentukan oleh flag --location. Jenis GPU yang Anda tentukan harus tersedia di setiap zona yang dipilih. Jika menggunakan reservasi, Anda harus menentukan zona tempat reservasi memiliki kapasitas. Sebaiknya selalu gunakan flag --node-locations saat membuat node pool untuk menentukan zona atau zona-zona yang berisi GPU yang diminta.
Secara opsional, Anda dapat membuat node pool untuk menjalankan workload yang di-sandbox dengan gVisor. Untuk mempelajari lebih lanjut, lihat GKE Sandbox untuk mengetahui detailnya.
MIN_NODES: jumlah minimum node untuk setiap zona dalam node pool untuk setiap waktu. Nilai ini hanya relevan jika tanda --enable-autoscaling digunakan.
MAX_NODES: jumlah node maksimum untuk setiap zona dalam node pool untuk setiap waktu. Nilai ini hanya relevan jika tanda --enable-autoscaling digunakan.
Secara opsional, Anda dapat membuat node pool GPU menggunakan akun layanan kustom dengan menambahkan flag berikut. Jika dihilangkan, node pool akan menggunakan akun layanan default Compute Engine:
- SERVICE_ACCOUNT: nama akun layanan IAM yang digunakan oleh node Anda.
- SCOPES: daftar cakupan akses yang dipisahkan koma untuk diberikan. Pastikan salah satu cakupannya adalah storage-ro atau https://www.googleapis.com/auth/devstorage.read_only. Untuk mempelajari cakupan lebih lanjut, lihat Menetapkan cakupan akses. Jika Anda menghilangkan tanda scope, pembuatan node pool GPU akan gagal dengan error AccessDenied failed to download gpu_driver_versions.bin from GCS bucket.
Catatan: Jika Anda tidak menggunakan akun layanan IAM kustom untuk membuat cluster atau kumpulan node GKE, pastikan akun layanan Compute Engine default di project Anda memiliki izin yang diperlukan untuk GKE. Di organisasi yang menerapkan batasan kebijakan organisasi iam.automaticIamGrantsForDefaultServiceAccounts, akun layanan Compute Engine default tidak akan otomatis mendapatkan izin yang diperlukan untuk GKE. Batasan ini diterapkan secara default untuk organisasi yang dibuat pada atau setelah 3 Mei 2024. Untuk mengetahui detailnya, lihat Akun layanan node GKE default.
RESERVATION_NAME: nama reservasi GPU yang akan digunakan. Tentukan flag --reservation dengan --reservation-affinity=specific untuk menggunakan kapasitas GPU dari reservasi tertentu. Untuk mengetahui informasi selengkapnya, lihat Menggunakan reservasi satu project tertentu.

Misalnya, perintah berikut membuat node pool penskalaan otomatis yang sangat tersedia, p100, dengan dua GPU P100 untuk setiap node, di cluster regional p100-cluster. GKE secara otomatis menginstal driver default di node tersebut.

gcloud container node-pools create p100 \
  --accelerator type=nvidia-tesla-p100,count=2,gpu-driver-version=default \
  --cluster p100-cluster \
  --location us-central1 \
  --node-locations us-central1-c \
  --min-nodes 0 --max-nodes 5 --enable-autoscaling

Konsol

Untuk membuat node pool dengan GPU:

Buka halaman Google Kubernetes Engine di konsol Google Cloud .

Buka Google Kubernetes Engine
Di daftar cluster, klik nama cluster yang ingin diubah.
Klik Tambahkan Node Pool.
Secara opsional, di halaman Detail node pool, pilih kotak centang Aktifkan penskalaan otomatis.
Konfigurasikan node pool sesuai keinginan Anda.
Dari panel navigasi, pilih Node.
Di bagian Konfigurasi mesin, klik GPU.
Pilih Jenis GPU dan Jumlah GPU yang akan dijalankan di setiap node.
Baca peringatan dan pilih Saya memahami keterbatasannya.
Di bagian Penginstalan Driver GPU, pilih salah satu metode berikut:
- Dikelola Google: GKE menginstal driver secara otomatis. Jika Anda memilih opsi ini, pilih salah satu opsi berikut dari drop-down Versi:
  - Default: Instal versi driver default.
  - Terbaru: Instal driver versi terbaru yang tersedia.
- Dikelola pelanggan: GKE tidak menginstal driver. Anda harus menginstal driver yang kompatibel secara manual menggunakan petunjuk di Menginstal driver perangkat GPU NVIDIA.
Klik Buat.

Terraform

Anda dapat membuat cluster regional dengan Terraform dengan GPU menggunakan Modul Terraform.

Tetapkan variabel Terraform dengan menyertakan blok berikut dalam file variables.tf:
```
variable "project_id" {
  default     = PROJECT_ID
  description = "the gcp_name_short project where GKE creates the cluster"
}

variable "region" {
  default     = CLUSTER_REGION
  description = "the gcp_name_short region where GKE creates the cluster"
}

variable "zone" {
  default     = "COMPUTE_ZONE"
  description = "the GPU nodes zone"
}

variable "cluster_name" {
  default     = "CLUSTER_NAME"
  description = "the name of the cluster"
}

variable "gpu_type" {
  default     = "GPU_TYPE"
  description = "the GPU accelerator type"
}

variable "gpu_driver_version" {
  default = "DRIVER_VERSION"
  description = "the NVIDIA driver version to install"
}

variable "machine_type" {
  default = "MACHINE_TYPE"
  description = "The Compute Engine machine type for the VM"
}
```
Ganti kode berikut:
- PROJECT_ID: project ID Anda.
- CLUSTER_NAME: nama cluster GKE.
- CLUSTER_REGION: region komputasi untuk cluster.
- COMPUTE_ZONE: zona tertentu tempat GKE membuat node GPU. Zona harus berada di region yang sama yang ditentukan oleh variabel region. Zona ini harus memiliki jenis GPU yang Anda tentukan. Untuk informasi selengkapnya, lihat Ketersediaan GPU menurut region dan zona.
- GPU_TYPE: Jenis akselerator GPU yang Anda gunakan. Misalnya, nvidia-tesla-t4.
- DRIVER_VERSION: versi driver GPU yang akan diinstal secara otomatis oleh GKE. Kolom ini bersifat opsional. Nilai-nilai berikut didukung:
  - INSTALLATION_DISABLED: Menonaktifkan penginstalan driver GPU otomatis. Anda harus menginstal driver secara manual untuk menjalankan GPU. Pada GKE versi yang lebih lama dari 1.30.1-gke.1156000, ini adalah opsi default jika Anda menghapus kolom ini.
  - DEFAULT: Menginstal versi driver default secara otomatis untuk versi sistem operasi node Anda. Di GKE versi 1.30.1-gke.1156000 dan yang lebih baru, jika Anda tidak menyertakan kolom ini, opsi ini adalah opsi default. Pada versi sebelumnya, GKE tidak akan menginstal driver jika Anda menghapus kolom ini.
  - LATEST: Menginstal versi driver terbaru yang tersedia secara otomatis untuk versi OS node Anda. Hanya tersedia untuk node yang menggunakan Container-Optimized OS.
  Jika Anda menghapus kolom ini, GKE tidak akan secara otomatis menginstal driver. Kolom ini tidak didukung di node pool yang menggunakan penyediaan otomatis node. Untuk menginstal driver secara manual, silakan melihat Menginstal driver GPU NVIDIA secara manual dalam dokumen ini.
- MACHINE_TYPE: jenis mesin Compute Engine untuk node. Diperlukan untuk jenis GPU berikut:
  - GPU NVIDIA B200 (sesuai dengan jenis akselerator nvidia-b200 dan seri mesin A4)
  - GPU NVIDIA H200 141 GB (sesuai dengan jenis akselerator nvidia-h200-141gb dan jenis mesin A3 Ultra), atau GPU NVIDIA H100 80 GB (sesuai dengan jenis akselerator nvidia-h100-80gb dan jenis mesin A3 High), atau GPU Mega NVIDIA H100 80 GB (sesuai dengan jenis akselerator nvidia-h100-mega-80gb dan jenis mesin A3 Mega). Untuk mengetahui informasi selengkapnya, lihat seri mesin A3 dalam dokumentasi Compute Engine.
  - GPU NVIDIA A100 40 GB (sesuai dengan jenis akselerator nvidia-tesla-a100 dan jenis mesin A2 Standard), atau GPU NVIDIA A100 80 GB (sesuai dengan jenis akselerator nvidia-a100-80gb dan jenis mesin A2 Ultra). Untuk mengetahui informasi selengkapnya, lihat seri mesin A2 dalam dokumentasi Compute Engine.
  - GPU NVIDIA L4 (sesuai dengan nvidia-l4 jenis akselerator dan seri mesin G2).
  - GPU NVIDIA RTX PRO 6000 (sesuai dengan nvidia-rtx-pro-6000 jenis akselerator dan seri mesin G4).
  Untuk semua GPU lainnya, flag ini bersifat opsional.

Tambahkan blok berikut ke konfigurasi Terraform Anda:

provider "google" {
  project = var.project_id
  region  = var.region
}

resource "google_container_cluster" "ml_cluster" {
  name               = var.cluster_name
  location           = var.region
  initial_node_count = 1
}

resource "google_container_node_pool" "gpu_pool" {
  name           = google_container_cluster.ml_cluster.name
  location       = var.region
  node_locations = [var.zones]
  cluster        = google_container_cluster.ml_cluster.name
  node_count     = 3

  autoscaling {
    total_min_node_count = "1"
    total_max_node_count = "5"
  }

  management {
    auto_repair  = "true"
    auto_upgrade = "true"
  }

  node_config {
    oauth_scopes = [
      "https://www.googleapis.com/auth/logging.write",
      "https://www.googleapis.com/auth/monitoring",
      "https://www.googleapis.com/auth/devstorage.read_only",
      "https://www.googleapis.com/auth/trace.append",
      "https://www.googleapis.com/auth/service.management.readonly",
      "https://www.googleapis.com/auth/servicecontrol",
    ]

    labels = {
      env = var.project_id
    }

    guest_accelerator {
      type  = var.gpu_type
      count = 1
      gpu_driver_installation_config {
        gpu_driver_version = var.gpu_driver_version
      }
    }

    image_type   = "cos_containerd"
    machine_type = var.machine_type
    tags         = ["gke-node", "${var.project_id}-gke"]

    disk_size_gb = "30"
    disk_type    = "pd-standard"

    metadata = {
      disable-legacy-endpoints = "true"
    }
  }
}

Terraform memanggil API Google Cloud untuk membuat cluster baru dengan node pool yang menggunakan GPU. Node pool awalnya memiliki tiga node dan penskalaan otomatis diaktifkan. Untuk mempelajari Terraform lebih lanjut, lihat spesifikasi resource google_container_node_pool di terraform.io.

Praktik terbaik:

Untuk menghindari biaya lebih lanjut, hapus semua resource yang ditentukan dalam file konfigurasi menggunakan perintah terraform destroy.

Praktik terbaik: Anda juga dapat membuat cluster baru dengan GPU dan menentukan zona menggunakan flag --node-locations. Namun, sebaiknya Anda membuat node pool GPU yang terpisah di cluster yang ada, seperti yang ditunjukkan di bagian ini.

Menginstal driver GPU NVIDIA secara manual

Anda dapat menginstal driver GPU NVIDIA secara manual di node dengan men-deploy DaemonSet penginstalan ke node tersebut. Gunakan penginstalan manual dalam situasi berikut:

Anda memilih untuk menonaktifkan penginstalan driver perangkat otomatis saat membuat node pool GPU.
Anda menggunakan versi GKE yang lebih lama dari versi minimum yang didukung untuk penginstalan otomatis.
Workload Anda memerlukan versi driver NVIDIA tertentu yang tidak tersedia sebagai driver default atau driver terbaru dengan penginstalan otomatis. Misalnya, menggunakan GPU dengan Confidential GKE Node.

Praktik terbaik:

Gunakan penginstalan driver otomatis jika memungkinkan. Untuk melakukannya, tentukan opsi gpu-driver-version dalam flag --accelerator saat membuat cluster Standard. Jika Anda menggunakan DaemonSet penginstalan untuk menginstal driver GPU secara manual pada atau sebelum 25 Januari 2023, Anda mungkin perlu menerapkan ulang DaemonSet untuk mendapatkan versi yang mengabaikan node yang menggunakan penginstalan driver otomatis.

Untuk menjalankan penginstalan DaemonSet, node pool GPU memerlukan cakupan https://www.googleapis.com/auth/devstorage.read_only untuk berkomunikasi dengan Cloud Storage. Tanpa cakupan ini, proses download manifes DaemonSet penginstalan akan gagal. Cakupan ini adalah salah satu cakupan default, yang biasanya ditambahkan saat Anda membuat cluster.

Petunjuk berikut menunjukkan cara menginstal driver di node Container-Optimized OS (COS) dan Ubuntu, serta menggunakan Terraform.

COS

Untuk men-deploy DaemonSet penginstalan dan menginstal versi driver GPU default, jalankan perintah berikut:

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded.yaml

Untuk menginstal versi driver GPU yang lebih baru dari tabel versi driver di bagian ini, jalankan perintah berikut:

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded-latest.yaml

Untuk menginstal versi driver GPU yang mendukung menjalankan beban kerja GPU di Confidential GKE Nodes, jalankan perintah berikut:

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/refs/heads/master/nvidia-driver-installer/cos/daemonset-confidential.yaml

Penginstalan memerlukan waktu beberapa detik hingga selesai. Setelah penginstalan selesai, plugin perangkat GPU NVIDIA menggunakan Kubernetes API untuk menyediakan kapasitas GPU NVIDIA.

Setiap versi Container-Optimized OS memiliki setidaknya satu versi driver GPU NVIDIA yang didukung. Untuk mengetahui informasi selengkapnya tentang pemetaan versi driver GPU ke versi GKE, Anda dapat melakukan salah satu hal berikut:

Petakan versi GKE dan versi image node Container-Optimized OS ke versi driver GPU.
Gunakan tabel berikut yang mencantumkan versi driver GPU yang tersedia di setiap versi GKE:

Versi driver NVIDIA GKE
1.33	R535 (default), R570, R575, atau R580
1,32	R535 (default), R570, R575, atau R580
1.31	R535 (default), R570, R575, atau R580
1,30	R535 (default) atau R550
1,29	R535 (default) atau R550
1,28	R535 (default) atau R550
1.27	R470 (default), R525, R535, atau R550
1,26	R470 (default), R525, R535, atau R550

Ubuntu

DaemonSet penginstalan yang Anda deploy bergantung pada jenis GPU dan versi node GKE sebagai berikut:

Untuk semua GPU kecuali GPU NVIDIA H200, jalankan perintah berikut:

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/ubuntu/daemonset-preloaded.yaml

Untuk GPU NVIDIA H200, instal driver R550:

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/refs/heads/master/nvidia-driver-installer/ubuntu/daemonset-preloaded-R550.yaml

Penginstalan memerlukan waktu beberapa detik hingga selesai. Setelah diinstal, plugin perangkat GPU NVIDIA menggunakan Kubernetes API untuk menyediakan kapasitas GPU NVIDIA.

Tabel berikut mencantumkan versi driver yang tersedia di setiap versi GKE:

Driver GPU Ubuntu dan versi GKE
1.33	R535 (default)
1,32	R535 (default)
1.31	R535 (default)
1,30	R470 atau R535
1,29	R470 atau R535
1,28	R470 atau R535
1.27	R470 atau R535
1,26	R470 atau R535

Terraform

Anda dapat menggunakan Terraform untuk menginstal versi driver GPU default berdasarkan jenis node. Dalam kedua kasus tersebut, Anda harus mengonfigurasi jenis resource Terraform kubectl_manifest.

Untuk menginstal DaemonSet di COS, tambahkan blok berikut dalam konfigurasi Terraform Anda:

  data "http" "nvidia_driver_installer_manifest" {
    url = "https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded.yaml"
  }

  resource "kubectl_manifest" "nvidia_driver_installer" {
    yaml_body = data.http.nvidia_driver_installer_manifest.body
  }

Untuk menginstal DaemonSet di Ubuntu, tambahkan blok berikut dalam konfigurasi Terraform Anda:

  data "http" "nvidia_driver_installer_manifest" {
    url = "https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/ubuntu/daemonset-preloaded.yaml"
  }

  resource "kubectl_manifest" "nvidia_driver_installer" {
    yaml_body = data.http.nvidia_driver_installer_manifest.body
  }

Memetakan versi GKE dan versi image node Container-Optimized OS ke versi driver GPU

Untuk menemukan versi driver GPU yang dipetakan dengan versi GKE dan versi image node Container-Optimized OS, lakukan langkah-langkah berikut:

Petakan versi image node Container-Optimized OS ke versi patch GKE untuk versi GKE tertentu tempat Anda ingin menemukan versi driver GPU. Misalnya, 1.33.0-gke.1552000 menggunakan cos-121-18867-90-4.
Pilih tonggak pencapaian versi image node Container-Optimized OS di catatan rilis Container-Optimized OS. Misalnya, pilih Milestone 121 untuk cos-121-18867-90-4.
Di halaman catatan rilis untuk tonggak pencapaian tertentu, temukan catatan rilis yang sesuai dengan versi image node Container-Optimized OS tertentu. Misalnya, di Catatan Rilis Container-Optimized OS: Tonggak Pencapaian 121, lihat cos-121-18867-90-4. Di tabel pada kolom GPU Drivers, klik See List untuk melihat informasi versi driver GPU.

Menginstal driver menggunakan penyediaan otomatis node dengan GPU

Saat Anda menggunakan penyediaan otomatis node dengan GPU, secara default node pool yang disediakan secara otomatis tidak memiliki cakupan yang memadai untuk menginstal driver. Untuk memberikan cakupan yang diperlukan, ubah cakupan default untuk penyediaan otomatis node guna menambahkan logging.write, monitoring, devstorage.read_only, dan compute, seperti dalam contoh berikut.

gcloud container clusters update CLUSTER_NAME --enable-autoprovisioning \
    --min-cpu=1 --max-cpu=10 --min-memory=1 --max-memory=32 \
    --autoprovisioning-scopes=https://www.googleapis.com/auth/logging.write,https://www.googleapis.com/auth/monitoring,https://www.googleapis.com/auth/devstorage.read_only,https://www.googleapis.com/auth/compute

Untuk cluster yang menjalankan GKE versi 1.32.2-gke.1297000 dan yang lebih baru, GKE otomatis menginstal versi driver NVIDIA default untuk semua node GPU, termasuk yang dibuat dengan penyediaan otomatis node. Anda dapat melewati petunjuk berikut untuk cluster yang menjalankan GKE versi 1.32.2-gke.1297000 dan yang lebih baru.

Di GKE versi 1.29.2-gke.1108000 dan yang lebih baru, Anda dapat memilih versi driver GPU yang akan diinstal GKE secara otomatis di node GPU yang disediakan otomatis. Tambahkan kolom berikut ke manifes Anda:

spec:
  nodeSelector:
    cloud.google.com/gke-gpu-driver-version: "DRIVER_VERSION"

Ganti DRIVER_VERSION dengan salah satu nilai berikut:

default: driver default yang stabil untuk versi GKE node Anda.
latest: versi driver terbaru yang tersedia untuk versi GKE node Anda.
disabled: menonaktifkan penginstalan driver GPU otomatis. Dengan nilai ini dipilih, Anda harus menginstal driver secara manual untuk menjalankan GPU. Pada GKE versi yang lebih lama dari 1.32.2-gke.1297000, ini adalah opsi default jika Anda tidak menyertakan pemilih node.

Untuk mempelajari penyediaan otomatis lebih lanjut, silakan melihat Menggunakan penyediaan otomatis node.

Mengonfigurasi Pod agar memakai GPU

Anda menggunakan batas resource untuk mengonfigurasi Pod agar memakai GPU. Anda menentukan batas resource di spesifikasi Pod menggunakan pasangan nilai kunci berikut

Kunci: nvidia.com/gpu
Nilai: Jumlah GPU yang akan dipakai

alpha.kubernetes.io/nvidia-gpu tidak didukung sebagai nama resource di GKE. Gunakan nvidia.com/gpu sebagai nama resource.

Manifes berikut adalah contoh spesifikasi Pod yang menggunakan GPU:

apiVersion: v1
kind: Pod
metadata:
  name: my-gpu-pod
spec:
  # Optional: Use GKE Sandbox
  # runtimeClassName: gvisor
  containers:
  - name: my-gpu-container
    image: nvidia/cuda:11.0.3-runtime-ubuntu20.04
    command: ["/bin/bash", "-c", "--"]
    args: ["while true; do sleep 600; done;"]
    resources:
      limits:
       nvidia.com/gpu: 2

Menggunakan beberapa jenis GPU

Jika ingin menggunakan beberapa jenis akselerator GPU per cluster, Anda harus membuat beberapa node pool, masing-masing dengan jenis akseleratornya sendiri. GKE memasang pemilih node unik ke node GPU untuk membantu menempatkan workload GPU pada node dengan jenis GPU tertentu:

Kunci: cloud.google.com/gke-accelerator
Nilai: Jenis akselerator GPU yang Anda gunakan. Misalnya, nvidia-tesla-t4.

Anda dapat menargetkan jenis GPU tertentu dengan menambahkan pemilih node ini ke spesifikasi Pod workload Anda. Contoh:

apiVersion: v1
kind: Pod
metadata:
  name: my-gpu-pod
spec:
  containers:
  - name: my-gpu-container
    image: nvidia/cuda:11.0.3-runtime-ubuntu20.04
    command: ["/bin/bash", "-c", "--"]
    args: ["while true; do sleep 600; done;"]
    resources:
      limits:
       nvidia.com/gpu: 2
  nodeSelector:
    cloud.google.com/gke-accelerator: nvidia-tesla-t4

Mengupgrade node pool menggunakan akselerator (GPU dan TPU)

GKE mengupgrade secara otomatis cluster Standar, termasuk kumpulan node. Anda juga dapat mengupgrade node pool secara manual jika ingin node Anda menggunakan versi yang lebih baru lebih cepat. Untuk mengontrol cara kerja upgrade untuk cluster Anda, gunakan saluran rilis, masa pemeliharaan dan pengecualian, serta urutan peluncuran.

Anda juga dapat mengonfigurasi strategi upgrade node untuk node pool, seperti upgrade lonjakan, upgrade biru-hijau, atau upgrade singkat. Dengan mengonfigurasi strategi ini, Anda dapat memastikan bahwa node pool diupgrade dengan cara yang mencapai keseimbangan optimal antara kecepatan dan gangguan untuk lingkungan Anda. Untuk node pool slice TPU multi-host, alih-alih menggunakan strategi upgrade node yang dikonfigurasi, GKE akan membuat ulang seluruh node pool secara atomik dalam satu langkah. Untuk mempelajari lebih lanjut, lihat definisi atomisitas dalam Terminologi terkait TPU di GKE.

Penggunaan strategi upgrade node untuk sementara mengharuskan GKE menyediakan resource tambahan, bergantung pada konfigurasi. Jika Google Cloud memiliki kapasitas terbatas untuk resource node pool Anda—misalnya, Anda melihat error ketersediaan resource saat mencoba membuat lebih banyak node dengan GPU atau TPU—lihat Mengupgrade di lingkungan dengan keterbatasan resource.

Tentang library NVIDIA CUDA-X

CUDA adalah model pemrograman dan platform komputasi paralel NVIDIA untuk GPU. Untuk menggunakan aplikasi CUDA, gambar yang Anda gunakan harus memiliki library. Untuk menambahkan library NVIDIA CUDA-X, Anda dapat membuat dan menggunakan image Anda sendiri dengan menyertakan nilai berikut dalam variabel lingkungan LD_LIBRARY_PATH di spesifikasi container Anda:

/usr/local/nvidia/lib64: lokasi driver perangkat NVIDIA.
/usr/local/cuda-CUDA_VERSION/lib64: lokasi library NVIDIA CUDA-X pada node.
Ganti CUDA_VERSION dengan versi image CUDA-X yang Anda gunakan. Beberapa versi juga berisi utilitas debug di /usr/local/nvidia/bin. Untuk mengetahui detailnya, lihat image NVIDIA CUDA di DockerHub.

Untuk memeriksa versi driver GPU minimum yang diperlukan pada versi CUDA Anda, lihat Toolkit CUDA dan Versi Driver yang Kompatibel.

Pastikan versi patch GKE yang berjalan di node Anda menyertakan versi driver GPU yang kompatibel dengan versi CUDA yang Anda pilih. Untuk mengetahui informasi selengkapnya tentang pemetaan versi driver GPU ke versi GKE, lihat Memetakan versi GKE dan versi image node Container-Optimized OS ke versi driver GPU.

Memantau performa workload node GPU

Jika cluster GKE Anda telah mengaktifkan metrik sistem, metrik berikut akan tersedia di Cloud Monitoring untuk memantau performa workload GPU Anda:

Siklus Tugas (container/accelerator/duty_cycle): Persentase waktu selama periode sampel terakhir (10 detik) di mana akselerator secara aktif berproses. Antara 1 dan 100.
Penggunaan Memori (container/accelerator/memory_used): Jumlah memori akselerator yang dialokasikan dalam byte.
Kapasitas Memori (container/accelerator/memory_total): Total memori akselerator dalam byte.

Metrik ini berlaku di tingkat container (container/accelerator) dan tidak dikumpulkan untuk container yang dijadwalkan di GPU yang menggunakan berbagi waktu GPU atau NVIDIA MPS.

Anda dapat menggunakan dasbor standar untuk memantau cluster dengan node GPU. Untuk mengetahui informasi selengkapnya, lihat Melihat metrik kemampuan observasi. Untuk informasi umum tentang pemantauan cluster dan resource-nya, lihat Kemampuan observasi untuk GKE.

Melihat metrik penggunaan untuk beban kerja

Anda dapat melihat metrik penggunaan GPU workload dari dasbor Workloads di konsol Google Cloud .

Untuk melihat penggunaan GPU workload Anda, lakukan langkah-langkah berikut:

Buka halaman Workloads di konsol Google Cloud .
Buka Workloads
Pilih beban kerja

Dasbor Workload menampilkan diagram untuk penggunaan dan kapasitas memori GPU, serta siklus tugas GPU.

Melihat metrik NVIDIA Data Center GPU Manager (DCGM)

Anda dapat mengumpulkan dan memvisualisasikan metrik NVIDIA DCGM menggunakan Google Cloud Managed Service for Prometheus. Untuk cluster Autopilot, GKE menginstal driver. Untuk cluster Standard, Anda harus menginstal driver NVIDIA.

Untuk mengetahui petunjuk cara men-deploy paket DCGM yang dikelola GKE, lihat Mengumpulkan dan melihat metrik NVIDIA Data Center GPU Manager (DCGM).

Mengonfigurasi penghentian tuntas node GPU

Di cluster GKE dengan bidang kontrol yang menjalankan 1.29.1-gke.1425000 atau yang lebih baru, node GPU mendukung sinyal SIGTERM yang memberi tahu node tentang penonaktifan yang akan segera terjadi. Notifikasi penonaktifan yang akan segera terjadi dapat dikonfigurasi hingga 60 menit di node GPU.

Untuk mengonfigurasi GKE agar menghentikan workload Anda dengan benar dalam jangka waktu notifikasi ini, ikuti langkah-langkah di Mengelola gangguan node GKE untuk GPU dan TPU.

Menjalankan GPU di node pool GKE Standard

Ringkasan

Sebelum memulai

Persyaratan untuk GPU di GKE

Batasan penggunaan GPU di GKE

Ketersediaan GPU menurut region dan zona

Harga

Memastikan kuota GPU yang memadai

Meminta kuota GPU

Menjalankan GPU di cluster GKE Standard

Memberi taint pada node pool GPU untuk menghindari penjadwalan yang tidak tepat

Membatasi penjadwalan secara otomatis dengan toleransi

Membuat node pool GPU

gcloud

Konsol

Terraform

Menginstal driver GPU NVIDIA secara manual

COS

Ubuntu

Terraform

Memetakan versi GKE dan versi image node Container-Optimized OS ke versi driver GPU

Menginstal driver menggunakan penyediaan otomatis node dengan GPU

Mengonfigurasi Pod agar memakai GPU

Menggunakan beberapa jenis GPU

Mengupgrade node pool menggunakan akselerator (GPU dan TPU)

Tentang library NVIDIA CUDA-X

Memantau performa workload node GPU

Melihat metrik penggunaan untuk beban kerja

Melihat metrik NVIDIA Data Center GPU Manager (DCGM)

Mengonfigurasi penghentian tuntas node GPU

Langkah berikutnya