Melihat metrik DCGM Inferensi Vertex AI

Halaman ini membahas cara menjelajahi metrik NVIDIA Data Center GPU Manager (DCGM) yang terkait dengan endpoint Inferensi Vertex AI Anda.

Apa itu DCGM

NVIDIA Data Center GPU Manager (DCGM) adalah serangkaian alat dari NVIDIA yang memungkinkan Anda mengelola dan memantau GPU NVIDIA. Inferensi Vertex AI secara otomatis mengekspor metrik DCGM Vertex AI ke Cloud Monitoring jika endpoint Anda menggunakan GPU yang didukung. Metrik tersebut memberikan tampilan komprehensif tentang pemakaian, performa, dan kondisi GPU.

Prasyarat

Sebelum memulai, pastikan project Anda telah mengaktifkan Cloud Monitoring. Lihat Mengaktifkan Monitoring API untuk mengetahui informasi selengkapnya.

Menggunakan metrik DCGM

Untuk melihat metrik DCGM di Metrics Explorer, lakukan hal berikut:

  1. Buka halaman Metrics Explorer di konsol Google Cloud .

    Buka Metrics Explorer

  2. Di bagian Pilih metrik, pilih Target Prometheus.

  3. Di bagian Active metric categories, pilih Vertex.

  4. Di bagian Metrik aktif, pilih metrik yang diinginkan.

  5. Klik Terapkan.

Anda juga dapat membuat kueri metrik menggunakan Grafana, atau Prometheus API atau UI.

Kuota

Metrik DCGM menggunakan kuota Permintaan penyerapan deret waktu per menit dari Cloud Monitoring API. Sebelum mengaktifkan paket metrik, periksa penggunaan puncak terbaru kuota tersebut. Jika sudah mendekati batas kuota tersebut, Anda dapat meminta peningkatan batas kuota.

Metrik DCGM Vertex AI

Nama metrik Cloud Monitoring dalam tabel ini harus diawali dengan prometheus.googleapis.com/. Awalan tersebut telah dihilangkan dari entri dalam tabel.

Selain label pada prometheus_target resource yang dimonitor, semua metrik DCGM yang dikumpulkan di Vertex AI memiliki label berikut yang dilampirkan padanya:

Label GPU:

  • gpu_model: model perangkat GPU, seperti NVIDIA L4.
  • gpu_uuid: UUID perangkat GPU.
  • gpu_i_id: ID instance GPU Multi-Instance (MIG) NVIDIA.

Label Vertex AI:

  • deployed_model_id: ID model yang di-deploy yang melayani permintaan inferensi.
  • model_display_name: nama tampilan model yang di-deploy.
  • replica_id: ID unik yang sesuai dengan replika model yang di-deploy (nama pod).
  • endpoint_id: ID endpoint model.
  • endpoint_display_name: nama tampilan endpoint model.
  • product: nama fitur di Vertex AI. Nilai ini selalu Online Inference.
Nama metrik PromQL
Nama metrik Cloud Monitoring
Jenis, Tipe, Unit
Resource yang dimonitor
Deskripsi
vertex_dcgm_fi_dev_fb_free
vertex_dcgm_fi_dev_fb_free/gauge

GAUGEDOUBLE1 prometheus_target Penyangga Frame Kosong dalam MB.
vertex_dcgm_fi_dev_fb_total
vertex_dcgm_fi_dev_fb_total/gauge

GAUGEDOUBLE1 prometheus_target Total Frame Buffer GPU dalam MB.
vertex_dcgm_fi_dev_fb_used
vertex_dcgm_fi_dev_fb_used/gauge

GAUGEDOUBLE1 prometheus_target Penyangga Frame yang Digunakan dalam MB.
vertex_dcgm_fi_dev_gpu_temp
vertex_dcgm_fi_dev_gpu_temp/gauge

GAUGEDOUBLE1 prometheus_target Pembacaan suhu saat ini untuk perangkat (dalam °C).
vertex_dcgm_fi_dev_gpu_util
vertex_dcgm_fi_dev_gpu_util/gauge

GAUGEDOUBLE1 prometheus_target Penggunaan GPU (dalam %).
vertex_dcgm_fi_dev_mem_copy_util
vertex_dcgm_fi_dev_mem_copy_util/gauge

GAUGEDOUBLE1 prometheus_target Penggunaan memori (dalam %).
vertex_dcgm_fi_dev_memory_temp
vertex_dcgm_fi_dev_memory_temp/gauge

GAUGEDOUBLE1 prometheus_target Suhu memori untuk perangkat (dalam °C).
vertex_dcgm_fi_dev_power_usage
vertex_dcgm_fi_dev_power_usage/gauge

GAUGEDOUBLE1 prometheus_target Penggunaan daya untuk perangkat (dalam Watt).
vertex_dcgm_fi_dev_sm_clock
vertex_dcgm_fi_dev_sm_clock/gauge

GAUGEDOUBLE1 prometheus_target Frekuensi clock SM (dalam MHz).
vertex_dcgm_fi_dev_total_energy_consumption
vertex_dcgm_fi_dev_total_energy_consumption/counter

CUMULATIVEDOUBLE1 prometheus_target Total konsumsi energi untuk GPU dalam mJ sejak driver terakhir dimuat ulang.
vertex_dcgm_fi_prof_dram_active
vertex_dcgm_fi_prof_dram_active/gauge

GAUGEDOUBLE1 prometheus_target Rasio siklus antarmuka memori perangkat aktif mengirim atau menerima data.
vertex_dcgm_fi_prof_gr_engine_active
vertex_dcgm_fi_prof_gr_engine_active/gauge

GAUGEDOUBLE1 prometheus_target Rasio waktu saat mesin grafis aktif.
vertex_dcgm_fi_prof_nvlink_rx_bytes
vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Kecepatan data rx (baca) NvLink aktif dalam byte, termasuk header dan payload.
vertex_dcgm_fi_prof_nvlink_tx_bytes
vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Kecepatan data tx (transmit) NvLink aktif dalam byte, termasuk header dan payload.
vertex_dcgm_fi_prof_pcie_rx_bytes
vertex_dcgm_fi_prof_pcie_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Kecepatan data rx (baca) PCIe aktif dalam byte, termasuk header dan payload.
vertex_dcgm_fi_prof_pcie_tx_bytes
vertex_dcgm_fi_prof_pcie_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Kecepatan data tx (transmit) PCIe aktif dalam byte, termasuk header dan payload.
vertex_dcgm_fi_prof_pipe_fp16_active
vertex_dcgm_fi_prof_pipe_fp16_active/gauge

GAUGEDOUBLE1 prometheus_target Rasio siklus saat saluran fp16 aktif.
vertex_dcgm_fi_prof_pipe_fp32_active
vertex_dcgm_fi_prof_pipe_fp32_active/gauge

GAUGEDOUBLE1 prometheus_target Rasio siklus saat pipeline fp32 aktif.
vertex_dcgm_fi_prof_pipe_fp64_active
vertex_dcgm_fi_prof_pipe_fp64_active/gauge

GAUGEDOUBLE1 prometheus_target Rasio siklus saat saluran fp64 aktif.
vertex_dcgm_fi_prof_pipe_tensor_active
vertex_dcgm_fi_prof_pipe_tensor_active/gauge

GAUGEDOUBLE1 prometheus_target Rasio siklus saat saluran tensor aktif.
vertex_dcgm_fi_prof_sm_active
vertex_dcgm_fi_prof_sm_active/gauge

GAUGEDOUBLE1 prometheus_target Rasio siklus yang memiliki minimal 1 warp yang ditetapkan oleh SM.

GPU yang didukung

Semua GPU NVIDIA didukung, kecuali yang berikut, karena batasan resource:

  1. NVIDIA P100
  2. NVIDIA V100
  3. NVIDIA P4
  4. NVIDIA T4

Langkah berikutnya