Mengumpulkan dan melihat metrik DCGM


Anda dapat memantau pemanfaatan, performa, dan kondisi GPU dengan mengonfigurasi GKE untuk mengirim metrik NVIDIA Data Center GPU Manager (DCGM) ke Cloud Monitoring.

Saat Anda mengaktifkan metrik DCGM, GKE akan menginstal alat DCGM-Exporter, menginstal driver GPU yang dikelola Google, dan men-deploy resource ClusterPodMonitoring untuk mengirim metrik ke Google Cloud Managed Service for Prometheus.

Anda juga dapat mengonfigurasi DCGM yang dikelola sendiri jika ingin menyesuaikan kumpulan metrik DCGM atau jika Anda memiliki cluster yang tidak memenuhi persyaratan untuk metrik DCGM terkelola.

Apa itu DCGM

NVIDIA Data Center GPU Manager (DCGM) adalah serangkaian alat dari NVIDIA yang memungkinkan Anda mengelola dan memantau GPU NVIDIA. DCGM memberikan gambaran menyeluruh tentang penggunaan, performa, dan kondisi GPU.

  • Metrik penggunaan GPU menunjukkan seberapa sibuk GPU yang dipantau dan apakah GPU tersebut digunakan secara efektif untuk memproses tugas. Hal ini mencakup metrik untuk pemrosesan inti, memori, I/O, dan penggunaan daya.
  • Metrik performa GPU mengacu pada seberapa efektif dan efisien GPU dalam melakukan tugas komputasi. Ini mencakup metrik untuk kecepatan clock dan temperatur.
  • Metrik GPU I/0 seperti NVlink dan PCIe mengukur bandwidth transfer data.

Sebelum memulai

Sebelum memulai, pastikan Anda telah menjalankan tugas berikut:

  • Aktifkan Google Kubernetes Engine API.
  • Mengaktifkan Google Kubernetes Engine API
  • Jika ingin menggunakan Google Cloud CLI untuk tugas ini, instal lalu initialize gcloud CLI. Jika sebelumnya Anda telah menginstal gcloud CLI, dapatkan versi terbaru dengan menjalankan gcloud components update.

Persyaratan untuk metrik NVIDIA Data Center GPU Manager (DCGM)

Untuk mengumpulkan metrik NVIDIA Data Center GPU Manager (DCGM), cluster GKE Anda harus memenuhi persyaratan berikut:

Mengonfigurasi kumpulan metrik DCGM

Anda dapat mengaktifkan GKE untuk mengumpulkan metrik DCGM untuk cluster yang ada menggunakan Konsol Google Cloud, gcloud CLI, atau Terraform.

Konsol

  1. Membuat kumpulan node GPU.

    Anda harus menggunakan Default atau Terbaru untuk Penginstalan Driver GPU.

  2. Buka halaman Google Kubernetes Engine di konsol Google Cloud.

    Buka Google Kubernetes Engine

  3. Klik nama cluster Anda.

  4. Di samping Cloud Monitoring, klik .

  5. Pilih SYSTEM dan DCGM.

  6. Klik Simpan.

gcloud

  1. Buat kumpulan node GPU.

    Anda harus menggunakan default atau latest untuk --gpu-driver-version.

  2. Update cluster Anda:

    gcloud container clusters update CLUSTER_NAME \
        --location=COMPUTE_LOCATION \
        --enable-managed-prometheus \
        --monitoring=SYSTEM,DCGM
    

    Ganti kode berikut:

Terraform

Untuk mengonfigurasi pengumpulan metrik DCGM menggunakan Terraform, lihat blok monitoring_config di registry Terraform untuk google_container_cluster. Untuk mengetahui informasi umum tentang penggunaan Google Cloud dengan Terraform, lihat Terraform dengan Google Cloud.

Menggunakan metrik DCGM

Anda dapat melihat metrik DCGM menggunakan dasbor di Google Cloud Console atau langsung di halaman ringkasan dan detail cluster. Untuk mengetahui informasi selengkapnya, baca artikel Melihat metrik kemampuan observasi.

Anda dapat melihat metrik menggunakan dasbor metrik Grafana DCGM. Untuk mengetahui informasi selengkapnya, lihat Membuat kueri menggunakan Grafana. Jika Anda mengalami error, lihat Kompatibilitas API.

Harga

Metrik DCGM menggunakan Google Cloud Managed Service for Prometheus untuk memuat metrik ke Cloud Monitoring. Biaya Cloud Monitoring untuk penyerapan metrik ini didasarkan pada jumlah sampel yang diserap. Namun, metrik ini tidak dikenai biaya untuk cluster terdaftar yang termasuk dalam project yang mengaktifkan edisi GKE Enterprise.

Untuk mengetahui informasi lebih lanjut, lihat harga Cloud Monitoring.

Kuota

Metrik DCGM menggunakan kuota Permintaan penyerapan deret waktu per menit dari Cloud Monitoring API. Sebelum mengaktifkan paket metrik, periksa puncak penggunaan kuota tersebut baru-baru ini. Jika memiliki banyak cluster dalam project yang sama atau sudah mendekati batas kuota tersebut, Anda dapat meminta penambahan batas kuota sebelum mengaktifkan paket kemampuan observasi.

Metrik DCGM

Nama metrik Cloud Monitoring dalam tabel ini harus diawali dengan prometheus.googleapis.com/. Awalan itu telah dihilangkan dari entri dalam tabel.

Bersama dengan label pada resource yang dipantau prometheus_target, semua metrik DCGM yang dikumpulkan di GKE memiliki label berikut yang dilampirkan:

Label GPU:

  • UUID: UUID perangkat GPU
  • device: nama perangkat GPU.
  • gpu: nomor indeks sebagai bilangan bulat perangkat GPU pada node. Misalnya, jika ada 8 GPU yang terpasang, nilai ini dapat berkisar dari 0 hingga 7.
  • modelName: nama model perangkat GPU, seperti NVIDIA L4.

Label Kubernetes:

  • container: nama container Kubernetes yang menggunakan perangkat GPU.
  • namespace: namespace Kubernetes Pod dan container yang menggunakan perangkat GPU.
  • pod: Pod Kubernetes menggunakan perangkat GPU.
Nama metrik PromQL
Nama metrik Cloud Monitoring
Jenis, Jenis, Unit
Resource yang dipantau
Versi GKE yang diperlukan
Deskripsi
DCGM_FI_DEV_FB_FREE
DCGM_FI_DEV_FB_FREE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Buffering Bingkai Gratis dalam MB.
DCGM_FI_DEV_FB_TOTAL
DCGM_FI_DEV_FB_TOTAL/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Total Frame Buffer GPU dalam MB.
DCGM_FI_DEV_FB_USED
DCGM_FI_DEV_FB_USED/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Frame Buffer yang digunakan dalam MB.
DCGM_FI_DEV_GPU_TEMP
DCGM_FI_DEV_GPU_TEMP/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Pemeriksaan suhu saat ini untuk perangkat (dalam °C).
DCGM_FI_DEV_GPU_UTIL
DCGM_FI_DEV_GPU_UTIL/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Pemakaian GPU (dalam %).
DCGM_FI_DEV_MEM_COPY_UTIL
DCGM_FI_DEV_MEM_COPY_UTIL/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Pemakaian memori (dalam %).
DCGM_FI_DEV_MEMORY_TEMP
DCGM_FI_DEV_MEMORY_TEMP/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Suhu memori untuk perangkat (dalam °C).
DCGM_FI_DEV_POWER_USAGE
DCGM_FI_DEV_POWER_USAGE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Penggunaan daya untuk perangkat (dalam Watt).
DCGM_FI_DEV_SM_CLOCK
DCGM_FI_DEV_SM_CLOCK/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Frekuensi clock SM (dalam MHz).
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION/counter

CUMULATIVEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Total konsumsi energi untuk GPU dalam mJ sejak driver terakhir kali dimuat ulang.
DCGM_FI_PROF_DRAM_ACTIVE
DCGM_FI_PROF_DRAM_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Rasio siklus antarmuka memori perangkat saat aktif mengirim atau menerima data.
DCGM_FI_PROF_GR_ENGINE_ACTIVE
DCGM_FI_PROF_GR_ENGINE_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Rasio waktu saat mesin grafis aktif.
DCGM_FI_PROF_NVLINK_RX_BYTES
DCGM_FI_PROF_NVLINK_RX_BYTES/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Tingkat data NvLink rx (baca) yang aktif dalam byte termasuk header dan payload.
DCGM_FI_PROF_NVLINK_TX_BYTES
DCGM_FI_PROF_NVLINK_TX_BYTES/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Tingkat data NvLink tx (mengirimkan) yang aktif dalam byte termasuk header dan payload.
DCGM_FI_PROF_PCIE_RX_BYTES
DCGM_FI_PROF_PCIE_RX_BYTES/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Kecepatan data PCIe rx (baca) yang aktif dalam byte termasuk header dan payload.
DCGM_FI_PROF_PCIE_TX_BYTES
DCGM_FI_PROF_PCIE_TX_BYTES/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Tingkat data PCIe tx (mengirimkan) yang aktif dalam byte termasuk header dan payload.
DCGM_FI_PROF_PIPE_FP16_ACTIVE
DCGM_FI_PROF_PIPE_FP16_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Rasio siklus di mana pipa fp16 aktif.
DCGM_FI_PROF_PIPE_FP32_ACTIVE
DCGM_FI_PROF_PIPE_FP32_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Rasio siklus di mana pipa fp32 aktif.
DCGM_FI_PROF_PIPE_FP64_ACTIVE
DCGM_FI_PROF_PIPE_FP64_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Rasio siklus di mana pipa fp64 aktif.
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Rasio siklus yang aktif dengan pipa tensor.
DCGM_FI_PROF_SM_ACTIVE
DCGM_FI_PROF_SM_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Rasio siklus yang dimiliki SM minimal 1 warp.

Langkah selanjutnya