Integrasi Pengelola GPU Pusat Data NVIDIA mengumpulkan metrik GPU lanjutan utama dari DCGM, termasuk penggunaan blok Streaming Multiprocessor (SM), jumlah tamu SM, penggunaan pipa SM, kecepatan traffic PCIe, dan kecepatan traffic NVLink. Untuk mengetahui informasi tentang tujuan dan interpretasi metrik ini, lihat Metrik Pembuatan Profil di ringkasan fitur DCGM.
Untuk mengetahui informasi selengkapnya tentang Pengelola GPU Pusat Data NVIDIA, lihat dokumentasi DCGM. Integrasi ini kompatibel dengan DCGM versi 3.1 dan yang lebih baru.
Agen Operasional mengumpulkan metrik DCGM menggunakan library klien NVIDIA,
go-dcgm
.
Metrik ini hanya tersedia untuk sistem Linux. Metrik tidak dikumpulkan dari model GPU NVIDIA K80, P100, dan P4.
Prasyarat
Untuk mengumpulkan metrik DCGM, Anda harus melakukan hal berikut:
Instal Agen Operasional. Hanya Agen Operasional versi 2.38.0 atau versi 2.41.0 atau yang lebih baru yang kompatibel dengan pemantauan GPU. Jangan instal Agen Operasional versi 2.39.0 dan 2.40.0 pada VM dengan GPU yang terpasang. Untuk mengetahui informasi selengkapnya, lihat Laporan dan error agen menyebutkan NVIDIA.
Menginstal DCGM dan memverifikasi penginstalan
Anda harus menginstal DCGM versi 3.1 dan yang lebih baru, serta memastikan DCGM berjalan sebagai layanan dengan hak istimewa. Untuk menginstal DCGM, lihat Penginstalan dalam dokumentasi DCGM.
Untuk memastikan DCGM berjalan dengan benar, lakukan hal berikut:
Periksa status layanan DCGM dengan menjalankan perintah berikut:
sudo service nvidia-dcgm status
Jika layanan berjalan, layanan
nvidia-dcgm
akan tercantum sebagaiactive (running)
. Outputnya akan terlihat seperti berikut:● nvidia-dcgm.service - NVIDIA DCGM service Loaded: loaded (/usr/lib/systemd/system/nvidia-dcgm.service; disabled; vendor preset: enabled) Active: active (running) since Sat 2023-01-07 15:24:29 UTC; 3s ago Main PID: 24388 (nv-hostengine) Tasks: 7 (limit: 14745) CGroup: /system.slice/nvidia-dcgm.service └─24388 /usr/bin/nv-hostengine -n --service-account nvidia-dcgm
Pastikan perangkat GPU ditemukan dengan menjalankan perintah berikut:
dcgmi discovery --list
Jika perangkat ditemukan, output-nya akan terlihat seperti berikut:
1 GPU found. +--------+----------------------------------------------------------------------+ | GPU ID | Device Information | +--------+----------------------------------------------------------------------+ | 0 | Name: NVIDIA A100-SXM4-40GB | | | PCI Bus ID: 00000000:00:04.0 | | | Device UUID: GPU-a2d9f5c7-87d3-7d57-3277-e091ad1ba957 | +--------+----------------------------------------------------------------------+
Mengonfigurasi Agen Operasional untuk DCGM
Dengan mengikuti panduan untuk Mengonfigurasi Agen Operasi, tambahkan elemen yang diperlukan untuk mengumpulkan telemetri dari layanan DCGM, dan mulai ulang agen.
Contoh konfigurasi
Perintah berikut membuat konfigurasi untuk mengumpulkan dan menyerap telemetri untuk DCGM dan memulai ulang Agen Operasional:
# Configures Ops Agent to collect telemetry from the app and restart Ops Agent. set -e # Create a back up of the existing file so existing configurations are not lost. sudo cp /etc/google-cloud-ops-agent/config.yaml /etc/google-cloud-ops-agent/config.yaml.bak # Configure the Ops Agent. sudo tee /etc/google-cloud-ops-agent/config.yaml > /dev/null << EOF metrics: receivers: dcgm: type: dcgm service: pipelines: dcgm: receivers: - dcgm EOF sudo systemctl restart google-cloud-ops-agent
Setelah menjalankan perintah ini, Anda dapat memeriksa apakah agen telah dimulai ulang. Jalankan perintah berikut dan pastikan komponen sub-agen "Metrics Agent" dan "Logging Agent" tercantum sebagai "active (running)":
sudo systemctl status google-cloud-ops-agent"*"
Jika Anda menggunakan akun layanan kustom, bukan akun layanan Compute Engine default, atau jika Anda memiliki VM Compute Engine yang sangat lama, Anda mungkin perlu memberikan otorisasi kepada Agen Operasional.
Mengonfigurasi pengumpulan metrik
Untuk menyerap metrik dari DCGM, Anda harus membuat penerima untuk metrik yang dihasilkan DCGM, lalu membuat pipeline untuk penerima baru tersebut.
Penerima ini tidak mendukung penggunaan beberapa instance dalam konfigurasi, misalnya, untuk memantau beberapa endpoint. Semua instance tersebut menulis ke deret waktu yang sama, dan Cloud Monitoring tidak memiliki cara untuk membedakannya.
Untuk mengonfigurasi penerima metrik dcgm
, tentukan kolom berikut:
Kolom | Default | Deskripsi |
---|---|---|
collection_interval |
60s |
Durasi waktu, seperti 30s atau 5m . |
endpoint |
localhost:5555 |
Alamat layanan DCGM, dalam format host:port . |
type |
Nilai ini harus dcgm . |
Hal yang dipantau
Tabel berikut menyediakan daftar metrik yang dikumpulkan Agen Operasional dari layanan DCGM. Tidak semua metrik tersedia untuk semua model GPU. Metrik tidak dikumpulkan dari model GPU NVIDIA K80, P100, dan P4.
Jenis metrik | ||
---|---|---|
Jenis, Jenis Resource yang dipantau |
Label |
Model GPU
yang didukung |
workload.googleapis.com/dcgm.gpu.profiling.dram_utilization
|
||
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
Semua kecuali K80, P100, dan P4 |
workload.googleapis.com/dcgm.gpu.profiling.nvlink_traffic_rate
|
||
GAUGE , INT64 gce_instance |
direction gpu_number model uuid
|
Semua kecuali K80, P100, dan P4 |
workload.googleapis.com/dcgm.gpu.profiling.pcie_traffic_rate
|
||
GAUGE , INT64 gce_instance |
direction gpu_number model uuid
|
Semua kecuali K80, P100, dan P4 |
workload.googleapis.com/dcgm.gpu.profiling.pipe_utilization
|
||
GAUGE , DOUBLE gce_instance |
gpu_number model pipe uuid
|
Semua kecuali K80, P100, dan P4. Untuk L4, nilai pipe fp64
tidak didukung.
|
workload.googleapis.com/dcgm.gpu.profiling.sm_occupancy
|
||
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
Semua kecuali K80, P100, dan P4 |
workload.googleapis.com/dcgm.gpu.profiling.sm_utilization
|
||
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
Semua kecuali K80, P100, dan P4 |
Selain itu, konfigurasi bawaan untuk Agen Operasional
juga mengumpulkan metrik
agent.googleapis.com/gpu
, yang
dilaporkan oleh
Management Library (NVML) NVIDIA.
Anda tidak memerlukan konfigurasi tambahan di Agen Operasional untuk mengumpulkan metrik ini, tetapi Anda harus
membuat VM dengan GPU yang terpasang dan
menginstal driver GPU. Untuk informasi selengkapnya, lihat Tentang metrik gpu
.
Memverifikasi konfigurasi
Bagian ini menjelaskan cara memverifikasi bahwa Anda mengonfigurasi penerima NVIDIA DCGM dengan benar. Mungkin perlu waktu satu atau dua menit bagi Agen Operasional untuk mulai mengumpulkan telemetri.
Untuk memverifikasi bahwa metrik NVIDIA DCGM dikirim ke Cloud Monitoring, lakukan hal berikut:
-
Pada panel navigasi Konsol Google Cloud, pilih Monitoring, lalu pilih leaderboard Metrics Explorer:
- Di toolbar panel pembuat kueri, pilih tombol yang namanya adalah code MQL atau code PromQL.
- Pastikan MQL dipilih pada tombol Language. Tombol bahasa berada di toolbar yang sama dengan yang memungkinkan Anda memformat kueri.
- Masukkan kueri berikut di editor, lalu klik Run query:
fetch gce_instance | metric 'workload.googleapis.com/dcgm.gpu.profiling.sm_utilization' | every 1m
Lihat dasbor
Untuk melihat metrik NVIDIA DCGM, Anda harus mengonfigurasi diagram atau dasbor. Integrasi NVIDIA DCGM menyertakan satu atau beberapa dasbor untuk Anda. Setiap dasbor akan otomatis diinstal setelah Anda mengonfigurasi integrasi dan Agen Operasional mulai mengumpulkan data metrik.
Anda juga dapat melihat pratinjau statis dasbor tanpa menginstal integrasi.
Untuk melihat dasbor yang terinstal, lakukan hal berikut:
-
Pada panel navigasi Konsol Google Cloud, pilih Monitoring, lalu pilih Dashboards:
- Pilih tab Dashboard List, lalu pilih kategori Integrations.
- Klik nama dasbor yang ingin Anda lihat.
Jika Anda telah mengonfigurasi integrasi, tetapi dasbor belum diinstal, periksa apakah Agen Operasional sedang berjalan. Jika tidak ada data metrik untuk diagram di dasbor, penginstalan dasbor akan gagal. Setelah Agen Operasional mulai mengumpulkan metrik, dasbor akan diinstal untuk Anda.
Untuk melihat pratinjau statis dasbor, lakukan langkah berikut:
-
Pada panel navigasi Konsol Google Cloud, pilih Monitoring, lalu pilih Integrations:
- Klik filter platform deployment Compute Engine.
- Temukan entri untuk NVIDIA DCGM dan klik View Details.
- Pilih tab Dashboards untuk melihat pratinjau statis. Jika dasbor sudah terinstal, Anda dapat membukanya dengan mengklik View dashboard.
Untuk informasi selengkapnya tentang dasbor di Cloud Monitoring, lihat Dasbor dan diagram.
Untuk mengetahui informasi selengkapnya tentang penggunaan halaman Integrasi, lihat Mengelola integrasi.
Batasan DCGM, dan menjeda pembuatan profil
Penggunaan DCGM secara serentak dapat bertentangan dengan penggunaan beberapa alat developer NVIDIA lainnya, seperti Nsight Systems atau Nsight Compute. Batasan ini berlaku untuk NVIDIA A100 dan GPU yang lebih lama. Untuk informasi selengkapnya, lihat Frekuensi Sampling Profil dalam fitur DCGM yang diganti.
Jika perlu menggunakan alat seperti Nsight Systems tanpa gangguan yang signifikan, Anda dapat menjeda atau melanjutkan pengumpulan metrik untuk sementara menggunakan perintah berikut:
dcgmi profile --pause dcgmi profile --resume
Saat pembuatan profil dijeda, tidak satu pun metrik DCGM yang dikumpulkan Agen Operasional akan dikeluarkan dari VM.
Langkah selanjutnya
Untuk panduan cara menggunakan Ansible untuk menginstal Agen Operasional, mengonfigurasi aplikasi pihak ketiga, dan menginstal contoh dasbor, lihat video Menginstal Agen Operasional untuk memecahkan masalah aplikasi pihak ketiga.