Halaman ini diterjemahkan oleh Cloud Translation API.

NVIDIA Data Center GPU Manager (DCGM)

Integrasi NVIDIA Data Center GPU Manager mengumpulkan metrik GPU lanjutan utama dari DCGM. Ops Agent dapat dikonfigurasi untuk mengumpulkan salah satu dari dua kumpulan metrik yang berbeda dengan memilih versi penerima dcgm:

Penerima dcgm versi 2 menyediakan kumpulan metrik yang diseleksi untuk memantau performa dan status GPU yang terpasang ke instance VM tertentu.
Penerima dcgm versi 1 menyediakan kumpulan metrik pembuatan profil yang dimaksudkan untuk digunakan bersama dengan metrik GPU default. Untuk informasi tentang tujuan dan interpretasi metrik ini, lihat Metrik Profil dalam ringkasan fitur DCGM.

Untuk mengetahui informasi selengkapnya tentang NVIDIA Data Center GPU Manager, lihat dokumentasi DCGM. Integrasi ini kompatibel dengan DCGM versi 3.1 dan yang lebih baru.

Metrik ini hanya tersedia untuk sistem Linux. Metrik pembuatan profil tidak dikumpulkan dari model GPU NVIDIA P100 dan P4.

Prasyarat

Untuk mengumpulkan metrik NVIDIA DCGM, Anda harus melakukan hal berikut:

Instal DCGM.
Instal Agen Operasional.
- Metrik versi 1: Ops Agent versi 2.38.0 atau yang lebih baru. Hanya Agen Operasi versi 2.38.0 atau versi 2.41.0 atau yang lebih tinggi yang kompatibel dengan pemantauan GPU. Jangan menginstal Ops Agent versi 2.39.0 dan 2.40.0 di VM dengan GPU yang terpasang. Untuk informasi selengkapnya, lihat Error agen dan laporan menyebutkan NVIDIA.
- Metrik versi 2: Ops Agent versi 2.51.0 atau yang lebih baru.

Menginstal DCGM dan memverifikasi penginstalan

Anda harus menginstal DCGM versi 3.1 dan yang lebih baru serta memastikannya berjalan sebagai layanan dengan hak istimewa. Untuk menginstal DCGM, lihat Penginstalan. dalam dokumentasi DCGM.

Untuk memverifikasi bahwa DCGM berjalan dengan benar, lakukan hal berikut:

Periksa status layanan DCGM dengan menjalankan perintah berikut:

sudo service nvidia-dcgm status

Jika layanan berjalan, layanan nvidia-dcgm akan tercantum sebagai active (running). Outputnya akan terlihat seperti berikut:

● nvidia-dcgm.service - NVIDIA DCGM service
Loaded: loaded (/usr/lib/systemd/system/nvidia-dcgm.service; disabled; vendor preset: enabled)
Active: active (running) since Sat 2023-01-07 15:24:29 UTC; 3s ago
Main PID: 24388 (nv-hostengine)
Tasks: 7 (limit: 14745)
CGroup: /system.slice/nvidia-dcgm.service
       └─24388 /usr/bin/nv-hostengine -n --service-account nvidia-dcgm

Pastikan perangkat GPU ditemukan dengan menjalankan perintah berikut:

dcgmi discovery --list

Jika perangkat ditemukan, outputnya akan terlihat seperti berikut:

1 GPU found.
+--------+----------------------------------------------------------------------+
| GPU ID | Device Information                                                   |
+--------+----------------------------------------------------------------------+
| 0      | Name: NVIDIA A100-SXM4-40GB                                          |
|        | PCI Bus ID: 00000000:00:04.0                                         |
|        | Device UUID: GPU-a2d9f5c7-87d3-7d57-3277-e091ad1ba957                |
+--------+----------------------------------------------------------------------+

Mengonfigurasi Agen Operasional untuk DCGM

Dengan mengikuti panduan untuk Mengonfigurasi Ops Agent, tambahkan elemen yang diperlukan untuk mengumpulkan telemetri dari layanan DCGM Anda, dan mulai ulang agen.

Contoh konfigurasi

Perintah berikut membuat konfigurasi untuk mengumpulkan dan menyerap metrik penerima versi 2 untuk NVIDIA DCGM dan memulai ulang Ops Agent:

# Configures Ops Agent to collect telemetry from the app and restart Ops Agent.
set -e

# Create a back up of the existing file so existing configurations are not lost.
sudo cp /etc/google-cloud-ops-agent/config.yaml /etc/google-cloud-ops-agent/config.yaml.bak

# Configure the Ops Agent.
sudo tee /etc/google-cloud-ops-agent/config.yaml > /dev/null << EOF
metrics:
  receivers:
    dcgm:
      type: dcgm
      receiver_version: 2
  service:
    pipelines:
      dcgm:
        receivers:
          - dcgm
EOF

sudo service google-cloud-ops-agent restart
sleep 20

Jika Anda hanya ingin mengumpulkan metrik pembuatan profil DCGM, ganti nilai kolom receiver_version dengan 1. Anda juga dapat menghapus entri receiver_version sepenuhnya; versi default-nya adalah 1. Anda tidak dapat menggunakan kedua versi secara bersamaan.

Setelah menjalankan perintah ini, Anda dapat memeriksa apakah agen dimulai ulang. Jalankan perintah berikut dan pastikan komponen sub-agen "Metrics Agent" dan "Logging Agent" tercantum sebagai "active (running)":

sudo systemctl status google-cloud-ops-agent"*"

Jika Anda menggunakan akun layanan kustom, bukan akun layanan Compute Engine default, atau jika Anda memiliki VM Compute Engine yang sangat lama, Anda mungkin perlu memberi otorisasi Ops Agent.

Mengonfigurasi pengumpulan metrik

Untuk menyerap metrik dari NVIDIA DCGM, Anda harus membuat penerima untuk metrik yang dihasilkan NVIDIA DCGM, lalu membuat pipeline untuk penerima baru.

Penerima ini tidak mendukung penggunaan beberapa instance dalam konfigurasi, misalnya, untuk memantau beberapa endpoint. Semua instance tersebut menulis ke deret waktu yang sama, dan Cloud Monitoring tidak dapat membedakannya.

Untuk mengonfigurasi penerima metrik dcgm, tentukan kolom berikut:

Kolom	Default	Deskripsi
`collection_interval`	`60s`	Durasi waktu, seperti `30s` atau `5m`.
`endpoint`	`localhost:5555`	Alamat layanan DCGM, diformat sebagai `host:port`.
`receiver_version`	`1`	1 atau 2. Versi 2 memiliki lebih banyak metrik yang tersedia.
`type`		Nilai ini harus `dcgm`.

Yang dipantau

Tabel berikut memberikan daftar metrik yang dikumpulkan Ops Agent dari instance DGCM NVIDIA. Tidak semua metrik tersedia untuk semua model GPU. Metrik pembuatan profil tidak dikumpulkan dari model GPU NVIDIA P100 dan P4.

Metrik versi 1

Metrik berikut dikumpulkan menggunakan penerima dcgm versi 1.

Jenis metrik
Jenis, Tipe Resource yang dimonitor	Label
`workload.googleapis.com/dcgm.gpu.profiling.dram_utilization` ^†
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.nvlink_traffic_rate` ^†
`GAUGE`, `INT64` gce_instance	`direction` `gpu_number` `model` `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.pcie_traffic_rate` ^†
`GAUGE`, `INT64` gce_instance	`direction` `gpu_number` `model` `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.pipe_utilization` ^†
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `pipe` ^‡ `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.sm_occupancy` ^†
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.sm_utilization` ^†
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`

^† Tidak tersedia pada model GPU P100 dan P4.

^‡ Untuk L4, nilai pipe fp64 tidak didukung.

Metrik versi 2

Metrik berikut dikumpulkan menggunakan penerima dcgm versi 2.

Jenis metrik
Jenis, Tipe Resource yang dimonitor	Label
`workload.googleapis.com/gpu.dcgm.clock.frequency`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.clock.throttle_duration.time`
`CUMULATIVE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid` `violation` ^†
`workload.googleapis.com/gpu.dcgm.codec.decoder.utilization`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.codec.encoder.utilization`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.ecc_errors`
`CUMULATIVE`, `INT64` gce_instance	`error_type` `gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.energy_consumption`
`CUMULATIVE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.memory.bandwidth_utilization`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.memory.bytes_used`
`GAUGE`, `INT64` gce_instance	`gpu_number` `model` `state` `uuid`
`workload.googleapis.com/gpu.dcgm.nvlink.io` ^‡
`CUMULATIVE`, `INT64` gce_instance	`direction` `gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.pcie.io` ^‡
`CUMULATIVE`, `INT64` gce_instance	`direction` `gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.pipe.utilization` ^‡
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `pipe` ^§ `uuid`
`workload.googleapis.com/gpu.dcgm.sm.utilization` ^‡
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.temperature`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.utilization`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`

^† Untuk P100 dan P4, hanya nilai violation power, thermal, dan sync_boost yang didukung.

^‡ Tidak tersedia pada model GPU P100 dan P4.

^§ Untuk L4, nilai pipe fp64 tidak didukung.

Metrik GPU

Selain itu, konfigurasi bawaan untuk Agen Operasi juga mengumpulkan metrik agent.googleapis.com/gpu, yang dilaporkan oleh Library Pengelolaan (NVML) NVIDIA. Anda tidak memerlukan konfigurasi tambahan di Agen Operasi untuk mengumpulkan metrik ini, tetapi Anda harus membuat VM dengan GPU yang terpasang dan menginstal driver GPU. Untuk informasi selengkapnya, lihat Tentang metrik gpu. Metrik penerima dcgm versi 1 dirancang untuk melengkapi metrik default ini, sedangkan metrik penerima dcgm versi 2 dimaksudkan untuk berdiri sendiri.

Memverifikasi konfigurasi

Bagian ini menjelaskan cara memverifikasi bahwa Anda telah mengonfigurasi penerima NVIDIA DCGM dengan benar. Mungkin perlu waktu satu atau dua menit agar Ops Agent mulai mengumpulkan telemetri.

Untuk memverifikasi bahwa metrik NVIDIA DCGM dikirim ke Cloud Monitoring, lakukan tindakan berikut:

Di konsol Google Cloud, buka halaman Metrics explorer:
Buka Metrics explorer

Jika Anda menggunakan kotak penelusuran untuk menemukan halaman ini, pilih hasil yang subjudulnya adalah Monitoring.
Di toolbar panel pembuat kueri, pilih tombol yang namanya adalah MQL atau PromQL.
Pastikan MQL dipilih di tombol Language. Tombol bahasa berada di toolbar yang sama yang memungkinkan Anda memformat kueri.

Untuk metrik v1, masukkan kueri berikut di editor, lalu klik Run query:

fetch gce_instance
| metric 'workload.googleapis.com/dcgm.gpu.profiling.sm_utilization'
| every 1m

Untuk metrik v2, masukkan kueri berikut di editor, lalu klik Run:

fetch gce_instance
| metric 'workload.googleapis.com/gpu.dcgm.sm.utilization'
| every 1m

Lihat dasbor

Untuk melihat metrik NVIDIA DCGM, Anda harus mengonfigurasi diagram atau dasbor. Integrasi NVIDIA DCGM menyertakan satu atau beberapa dasbor untuk Anda. Dasbor apa pun akan otomatis diinstal setelah Anda mengonfigurasi integrasi dan Agen Operasional telah mulai mengumpulkan data metrik.

Anda juga dapat melihat pratinjau statis dasbor tanpa menginstal integrasi.

Untuk melihat dasbor yang terinstal, lakukan tindakan berikut:

Di konsol Google Cloud, buka halaman Dasbor:
Buka Dasbor

Jika Anda menggunakan kotak penelusuran untuk menemukan halaman ini, pilih hasil yang subjudulnya adalah Monitoring.
Pilih tab Daftar Dasbor, lalu pilih kategori Integrasi.
Klik nama dasbor yang ingin Anda lihat.

Jika Anda telah mengonfigurasi integrasi, tetapi dasbor belum diinstal, pastikan Agen Operasional berjalan. Jika tidak ada data metrik untuk diagram di dasbor, penginstalan dasbor akan gagal. Setelah Ops Agent mulai mengumpulkan metrik, dasbor akan diinstal untuk Anda.

Untuk melihat pratinjau statis dasbor, lakukan tindakan berikut:

Di konsol Google Cloud, buka halaman Integrations:
Buka Integrations

Jika Anda menggunakan kotak penelusuran untuk menemukan halaman ini, pilih hasil yang subjudulnya adalah Monitoring.
Klik filter platform deployment Compute Engine.
Temukan entri untuk NVIDIA DCGM dan klik Lihat Detail.
Pilih tab Dasbor untuk melihat pratinjau statis. Jika dasbor telah diinstal, Anda dapat membukanya dengan mengklik Lihat dasbor.

Untuk mengetahui informasi selengkapnya tentang dasbor di Cloud Monitoring, lihat Dasbor dan diagram.

Untuk informasi selengkapnya tentang cara menggunakan halaman Integrasi, lihat Mengelola integrasi.

Batasan DCGM, dan menjeda pembuatan profil

Penggunaan DCGM secara serentak dapat bertentangan dengan penggunaan beberapa alat developer NVIDIA lainnya, seperti Nsight Systems atau Nsight Compute. Batasan ini berlaku untuk GPU NVIDIA A100 dan yang lebih lama. Untuk mengetahui informasi selengkapnya, lihat Profiling Sampling Rate dalam ringkasan fitur DCGM.

Jika perlu menggunakan alat seperti Nsight Systems tanpa gangguan yang signifikan, Anda dapat menjeda atau melanjutkan pengumpulan metrik untuk sementara menggunakan perintah berikut:

dcgmi profile --pause
dcgmi profile --resume

Saat pembuatan profil dijeda, tidak ada metrik DCGM yang dikumpulkan Ops Agent yang dikeluarkan dari VM.

Langkah selanjutnya

Untuk panduan tentang cara menggunakan Ansible untuk menginstal Agen Operasional, mengonfigurasi aplikasi pihak ketiga, dan menginstal contoh dasbor, lihat video Menginstal Agen Operasional untuk memecahkan masalah aplikasi pihak ketiga.