Anda dapat memantau pemakaian, performa, dan kondisi GPU dengan mengonfigurasi GKE untuk dikirim Metrik Pengelola GPU NVIDIA Data Center (DCGM) Anda untuk dan konfigurasi di Cloud Monitoring.
Saat Anda mengaktifkan metrik DCGM, GKE akan menginstal Penginstalan, alat DCGM-Exporter Driver GPU yang dikelola Google, dan men-deploy resource ClusterPodMonitoring untuk mengirim Google Cloud Managed Service for Prometheus.
Anda juga dapat mengonfigurasi DCGM yang dikelola sendiri jika Anda ingin menyesuaikan kumpulan metrik DCGM atau jika Anda memiliki cluster yang tidak memenuhi persyaratan layanan Metrik DCGM.
Apa itu DCGM
NVIDIA Data Center GPU Manager (DCGM) adalah serangkaian alat dari NVIDIA yang memungkinkan Anda mengelola dan memantau GPU NVIDIA. DCGM memberikan tampilan GPU yang komprehensif pemanfaatan, performa, dan respons.
- Metrik penggunaan GPU menunjukkan seberapa sibuk GPU yang dipantau dan apakah digunakan secara efektif untuk memproses tugas. Hal ini mencakup metrik untuk pemrosesan inti, memori, I/O, dan pemanfaatan daya.
- Metrik performa GPU mengacu pada seberapa efektif dan efisiennya GPU melakukan tugas komputasi. Termasuk metrik untuk kecepatan clock dan temperatur harian.
- Metrik I/O GPU seperti NVlink dan PCIe mengukur bandwidth transfer data.
Sebelum memulai
Sebelum memulai, pastikan Anda telah menjalankan tugas berikut:
- Aktifkan Google Kubernetes Engine API. Mengaktifkan Google Kubernetes Engine API
- Jika ingin menggunakan Google Cloud CLI untuk tugas ini,
instal lalu
lakukan inisialisasi
gcloud CLI. Jika sebelumnya Anda telah menginstal gcloud CLI, dapatkan versi terbaru dengan menjalankan
gcloud components update
.
Persyaratan untuk metrik NVIDIA Data Center GPU Manager (DCGM)
Untuk mengumpulkan metrik NVIDIA Data Center GPU Manager (DCGM), cluster GKE Anda harus memenuhi persyaratan berikut:
- GKE versi 1.30.1-gke.1204000 atau yang lebih baru
- Metrik sistem koleksi harus diaktifkan
- Koleksi terkelola Google Cloud Managed Service for Prometheus harus diaktifkan
- Kumpulan node harus menjalankan driver GPU yang dikelola GKE. Ini
berarti Anda harus membuat kumpulan node menggunakan
default
ataulatest
untuk--gpu-driver-version
. - Metrik pembuatan profil hanya dikumpulkan untuk GPU NVIDIA H100 80 GB.
Mengonfigurasi kumpulan metrik DCGM
Anda dapat mengaktifkan GKE untuk mengumpulkan metrik DCGM untuk cluster yang ada menggunakan Konsol Google Cloud, gcloud CLI, atau Terraform.
Konsol
-
Anda harus menggunakan Default atau Terbaru untuk Penginstalan Driver GPU.
Buka halaman Google Kubernetes Engine di konsol Google Cloud.
Klik nama cluster Anda.
Di samping Cloud Monitoring, klik edit.
Pilih
SYSTEM
danDCGM
.Klik Simpan.
gcloud
Buat kumpulan node GPU.
Anda harus menggunakan
default
ataulatest
untuk--gpu-driver-version
.Update cluster Anda:
gcloud container clusters update CLUSTER_NAME \ --location=COMPUTE_LOCATION \ --enable-managed-prometheus \ --monitoring=SYSTEM,DCGM
Ganti kode berikut:
CLUSTER_NAME
: nama yang ada .COMPUTE_LOCATION
: Lokasi Compute Engine dari cluster tersebut.
Terraform
Untuk mengonfigurasi pengumpulan metrik DCGM menggunakan
Terraform, lihat blok monitoring_config
di
Registry Terraform untuk google_container_cluster
.
Untuk mengetahui informasi umum tentang penggunaan Google Cloud dengan Terraform, lihat
Terraform dengan Google Cloud.
Menggunakan metrik DCGM
Anda dapat melihat metrik DCGM menggunakan dasbor di Konsol Google Cloud atau langsung di halaman ringkasan dan detail cluster. Untuk informasi, lihat Melihat metrik kemampuan observasi.
Anda dapat melihat metrik menggunakan Dasbor metrik Grafana DCGM. Untuk informasi selengkapnya, lihat Buat kueri menggunakan Grafana. Jika Anda mengalami error, lihat Kompatibilitas API.
Harga
Metrik DCGM menggunakan Google Cloud Managed Service for Prometheus untuk dimuat metrik kustom ke dalam Cloud Monitoring. Biaya Cloud Monitoring untuk penyerapan metrik ini didasarkan pada jumlah sampel yang diserap. Namun, metrik ini tanpa biaya untuk terdaftar cluster yang termasuk dalam project yang Edisi GKE Enterprise diaktifkan.
Untuk informasi selengkapnya, lihat Harga Cloud Monitoring.
Kuota
Metrik DCGM menggunakan Kuota Permintaan penyerapan deret waktu per menit dari Cloud Monitoring Compute Engine API. Sebelum mengaktifkan paket metrik, memeriksa puncak penggunaan baru-baru ini dari kuota tersebut. Jika Anda memiliki banyak klaster dalam project yang sama atau sudah mendekati batas kuota tersebut, Anda dapat meminta penambahan batas kuota sebelum mengaktifkan salah satu paket kemampuan observasi.
Metrik DCGM
Nama metrik Cloud Monitoring dalam tabel ini harus diawali dengan
prometheus.googleapis.com/
. Awalan tersebut telah dihilangkan dari
entri dalam tabel.
Bersama dengan label pada resource yang dimonitor prometheus_target
, semua dikumpulkan
Metrik DCGM di GKE memiliki label berikut yang dilampirkan pada
mereka:
Label GPU:
UUID
: UUID perangkat GPUdevice
: nama perangkat GPU.-
gpu
: nomor indeks sebagai bilangan bulat perangkat GPU pada node. Misalnya, jika ada 8 GPU yang terpasang, nilai ini dapat berkisar dari0
hingga7
. modelName
: nama model perangkat GPU, sepertiNVIDIA L4
.
Label Kubernetes:
container
: nama container Kubernetes yang menggunakan perangkat GPU.-
namespace
: namespace Kubernetes Pod dan container yang menggunakan perangkat GPU. pod
: Pod Kubernetes menggunakan perangkat GPU.
Nama metrik PromQL Nama metrik Cloud Monitoring |
|
---|---|
Jenis, Jenis, Satu
Resource yang dipantau Versi GKE yang diperlukan |
Deskripsi |
DCGM_FI_DEV_FB_FREE DCGM_FI_DEV_FB_FREE/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Buffering Bingkai Gratis dalam MB. |
DCGM_FI_DEV_FB_TOTAL DCGM_FI_DEV_FB_TOTAL/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Total Frame Buffer GPU dalam MB. |
DCGM_FI_DEV_FB_USED DCGM_FI_DEV_FB_USED/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Frame Buffer yang digunakan dalam MB. |
DCGM_FI_DEV_GPU_TEMP DCGM_FI_DEV_GPU_TEMP/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Pemeriksaan suhu saat ini untuk perangkat (dalam °C). |
DCGM_FI_DEV_GPU_UTIL DCGM_FI_DEV_GPU_UTIL/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Pemakaian GPU (dalam %). |
DCGM_FI_DEV_MEM_COPY_UTIL DCGM_FI_DEV_MEM_COPY_UTIL/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Pemakaian memori (dalam %). |
DCGM_FI_DEV_MEMORY_TEMP DCGM_FI_DEV_MEMORY_TEMP/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Suhu memori untuk perangkat (dalam °C). |
DCGM_FI_DEV_POWER_USAGE DCGM_FI_DEV_POWER_USAGE/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Penggunaan daya untuk perangkat (dalam Watt). |
DCGM_FI_DEV_SM_CLOCK DCGM_FI_DEV_SM_CLOCK/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Frekuensi clock SM (dalam MHz). |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION/counter |
|
CUMULATIVE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Total konsumsi energi untuk GPU dalam mJ sejak driver terakhir kali dimuat ulang. |
DCGM_FI_PROF_DRAM_ACTIVE DCGM_FI_PROF_DRAM_ACTIVE/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Rasio siklus antarmuka memori perangkat saat aktif mengirim atau menerima data. |
DCGM_FI_PROF_GR_ENGINE_ACTIVE DCGM_FI_PROF_GR_ENGINE_ACTIVE/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Rasio waktu saat mesin grafis aktif. |
DCGM_FI_PROF_NVLINK_RX_BYTES DCGM_FI_PROF_NVLINK_RX_BYTES/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Tingkat data NvLink rx (baca) yang aktif dalam byte termasuk header dan payload. |
DCGM_FI_PROF_NVLINK_TX_BYTES DCGM_FI_PROF_NVLINK_TX_BYTES/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Tingkat data NvLink tx (mengirimkan) yang aktif dalam byte termasuk header dan payload. |
DCGM_FI_PROF_PCIE_RX_BYTES DCGM_FI_PROF_PCIE_RX_BYTES/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Kecepatan data PCIe rx (baca) yang aktif dalam byte termasuk header dan payload. |
DCGM_FI_PROF_PCIE_TX_BYTES DCGM_FI_PROF_PCIE_TX_BYTES/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Tingkat data PCIe tx (mengirimkan) yang aktif dalam byte termasuk header dan payload. |
DCGM_FI_PROF_PIPE_FP16_ACTIVE DCGM_FI_PROF_PIPE_FP16_ACTIVE/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Rasio siklus di mana pipa fp16 aktif. |
DCGM_FI_PROF_PIPE_FP32_ACTIVE DCGM_FI_PROF_PIPE_FP32_ACTIVE/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Rasio siklus di mana pipa fp32 aktif. |
DCGM_FI_PROF_PIPE_FP64_ACTIVE DCGM_FI_PROF_PIPE_FP64_ACTIVE/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Rasio siklus di mana pipa fp64 aktif. |
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE DCGM_FI_PROF_PIPE_TENSOR_ACTIVE/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Rasio siklus yang aktif dengan pipa tensor. |
DCGM_FI_PROF_SM_ACTIVE DCGM_FI_PROF_SM_ACTIVE/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
1.30.1-gke.1204000 |
Rasio siklus yang dimiliki SM minimal 1 warp. |
Langkah selanjutnya
- Pelajari cara Melihat metrik kemampuan observasi.