Halaman ini membahas cara menjelajahi metrik NVIDIA Data Center GPU Manager (DCGM) yang terkait dengan endpoint Inferensi Vertex AI Anda.
Apa itu DCGM
NVIDIA Data Center GPU Manager (DCGM) adalah serangkaian alat dari NVIDIA yang memungkinkan Anda mengelola dan memantau GPU NVIDIA. Inferensi Vertex AI secara otomatis mengekspor metrik DCGM Vertex AI ke Cloud Monitoring jika endpoint Anda menggunakan GPU yang didukung. Metrik tersebut memberikan tampilan komprehensif tentang pemakaian, performa, dan kondisi GPU.
Prasyarat
Sebelum memulai, pastikan project Anda telah mengaktifkan Cloud Monitoring. Lihat Mengaktifkan Monitoring API untuk mengetahui informasi selengkapnya.
Menggunakan metrik DCGM
Untuk melihat metrik DCGM di Metrics Explorer, lakukan hal berikut:
Buka halaman Metrics Explorer di konsol Google Cloud .
Di bagian Pilih metrik, pilih Target Prometheus.
Di bagian Active metric categories, pilih Vertex.
Di bagian Metrik aktif, pilih metrik yang diinginkan.
Klik Terapkan.
Anda juga dapat membuat kueri metrik menggunakan Grafana, atau Prometheus API atau UI.
Kuota
Metrik DCGM menggunakan kuota Permintaan penyerapan deret waktu per menit dari Cloud Monitoring API. Sebelum mengaktifkan paket metrik, periksa penggunaan puncak terbaru kuota tersebut. Jika sudah mendekati batas kuota tersebut, Anda dapat meminta peningkatan batas kuota.
Metrik DCGM Vertex AI
Nama metrik Cloud Monitoring dalam tabel ini harus diawali dengan
prometheus.googleapis.com/
. Awalan tersebut telah dihilangkan dari
entri dalam tabel.
Selain label pada prometheus_target
resource yang dimonitor, semua metrik DCGM yang dikumpulkan di Vertex AI memiliki label berikut yang dilampirkan padanya:
Label GPU:
gpu_model
: model perangkat GPU, sepertiNVIDIA L4
.gpu_uuid
: UUID perangkat GPU.gpu_i_id
: ID instance GPU Multi-Instance (MIG) NVIDIA.
Label Vertex AI:
-
deployed_model_id
: ID model yang di-deploy yang melayani permintaan inferensi. model_display_name
: nama tampilan model yang di-deploy.-
replica_id
: ID unik yang sesuai dengan replika model yang di-deploy (nama pod). endpoint_id
: ID endpoint model.endpoint_display_name
: nama tampilan endpoint model.-
product
: nama fitur di Vertex AI. Nilai ini selaluOnline Inference
.
Nama metrik PromQL Nama metrik Cloud Monitoring |
|
---|---|
Jenis, Tipe, Unit
Resource yang dimonitor | Deskripsi |
vertex_dcgm_fi_dev_fb_free vertex_dcgm_fi_dev_fb_free/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Penyangga Frame Kosong dalam MB. |
vertex_dcgm_fi_dev_fb_total vertex_dcgm_fi_dev_fb_total/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Total Frame Buffer GPU dalam MB. |
vertex_dcgm_fi_dev_fb_used vertex_dcgm_fi_dev_fb_used/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Penyangga Frame yang Digunakan dalam MB. |
vertex_dcgm_fi_dev_gpu_temp vertex_dcgm_fi_dev_gpu_temp/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Pembacaan suhu saat ini untuk perangkat (dalam °C). |
vertex_dcgm_fi_dev_gpu_util vertex_dcgm_fi_dev_gpu_util/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Penggunaan GPU (dalam %). |
vertex_dcgm_fi_dev_mem_copy_util vertex_dcgm_fi_dev_mem_copy_util/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Penggunaan memori (dalam %). |
vertex_dcgm_fi_dev_memory_temp vertex_dcgm_fi_dev_memory_temp/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Suhu memori untuk perangkat (dalam °C). |
vertex_dcgm_fi_dev_power_usage vertex_dcgm_fi_dev_power_usage/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Penggunaan daya untuk perangkat (dalam Watt). |
vertex_dcgm_fi_dev_sm_clock vertex_dcgm_fi_dev_sm_clock/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Frekuensi clock SM (dalam MHz). |
vertex_dcgm_fi_dev_total_energy_consumption vertex_dcgm_fi_dev_total_energy_consumption/counter |
|
CUMULATIVE , DOUBLE , 1
prometheus_target
|
Total konsumsi energi untuk GPU dalam mJ sejak driver terakhir dimuat ulang. |
vertex_dcgm_fi_prof_dram_active vertex_dcgm_fi_prof_dram_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Rasio siklus antarmuka memori perangkat aktif mengirim atau menerima data. |
vertex_dcgm_fi_prof_gr_engine_active vertex_dcgm_fi_prof_gr_engine_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Rasio waktu saat mesin grafis aktif. |
vertex_dcgm_fi_prof_nvlink_rx_bytes vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Kecepatan data rx (baca) NvLink aktif dalam byte, termasuk header dan payload. |
vertex_dcgm_fi_prof_nvlink_tx_bytes vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Kecepatan data tx (transmit) NvLink aktif dalam byte, termasuk header dan payload. |
vertex_dcgm_fi_prof_pcie_rx_bytes vertex_dcgm_fi_prof_pcie_rx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Kecepatan data rx (baca) PCIe aktif dalam byte, termasuk header dan payload. |
vertex_dcgm_fi_prof_pcie_tx_bytes vertex_dcgm_fi_prof_pcie_tx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Kecepatan data tx (transmit) PCIe aktif dalam byte, termasuk header dan payload. |
vertex_dcgm_fi_prof_pipe_fp16_active vertex_dcgm_fi_prof_pipe_fp16_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Rasio siklus saat saluran fp16 aktif. |
vertex_dcgm_fi_prof_pipe_fp32_active vertex_dcgm_fi_prof_pipe_fp32_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Rasio siklus saat pipeline fp32 aktif. |
vertex_dcgm_fi_prof_pipe_fp64_active vertex_dcgm_fi_prof_pipe_fp64_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Rasio siklus saat saluran fp64 aktif. |
vertex_dcgm_fi_prof_pipe_tensor_active vertex_dcgm_fi_prof_pipe_tensor_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Rasio siklus saat saluran tensor aktif. |
vertex_dcgm_fi_prof_sm_active vertex_dcgm_fi_prof_sm_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Rasio siklus yang memiliki minimal 1 warp yang ditetapkan oleh SM. |
GPU yang didukung
Semua GPU NVIDIA didukung, kecuali yang berikut, karena batasan resource:
Langkah berikutnya
- Pelajari lebih lanjut Metric Explorer.