NVIDIA Data Center GPU Manager (DCGM)

Integrasi Pengelola GPU Pusat Data NVIDIA mengumpulkan metrik GPU lanjutan utama dari DCGM, termasuk penggunaan blok Streaming Multiprocessor (SM), jumlah tamu SM, penggunaan pipa SM, kecepatan traffic PCIe, dan kecepatan traffic NVLink. Untuk mengetahui informasi tentang tujuan dan interpretasi metrik ini, lihat Metrik Pembuatan Profil di ringkasan fitur DCGM.

Untuk mengetahui informasi selengkapnya tentang Pengelola GPU Pusat Data NVIDIA, lihat dokumentasi DCGM. Integrasi ini kompatibel dengan DCGM versi 3.1 dan yang lebih baru.

Agen Operasional mengumpulkan metrik DCGM menggunakan library klien NVIDIA, go-dcgm.

Metrik ini hanya tersedia untuk sistem Linux. Metrik tidak dikumpulkan dari model GPU NVIDIA K80, P100, dan P4.

Prasyarat

Untuk mengumpulkan metrik DCGM, Anda harus melakukan hal berikut:

Menginstal DCGM dan memverifikasi penginstalan

Anda harus menginstal DCGM versi 3.1 dan yang lebih baru, serta memastikan DCGM berjalan sebagai layanan dengan hak istimewa. Untuk menginstal DCGM, lihat Penginstalan dalam dokumentasi DCGM.

Untuk memastikan DCGM berjalan dengan benar, lakukan hal berikut:

  1. Periksa status layanan DCGM dengan menjalankan perintah berikut:

    sudo service nvidia-dcgm status
    

    Jika layanan berjalan, layanan nvidia-dcgm akan tercantum sebagai active (running). Outputnya akan terlihat seperti berikut:

    ● nvidia-dcgm.service - NVIDIA DCGM service
    Loaded: loaded (/usr/lib/systemd/system/nvidia-dcgm.service; disabled; vendor preset: enabled)
    Active: active (running) since Sat 2023-01-07 15:24:29 UTC; 3s ago
    Main PID: 24388 (nv-hostengine)
    Tasks: 7 (limit: 14745)
    CGroup: /system.slice/nvidia-dcgm.service
           └─24388 /usr/bin/nv-hostengine -n --service-account nvidia-dcgm
    
  2. Pastikan perangkat GPU ditemukan dengan menjalankan perintah berikut:

    dcgmi discovery --list
    

    Jika perangkat ditemukan, output-nya akan terlihat seperti berikut:

    1 GPU found.
    +--------+----------------------------------------------------------------------+
    | GPU ID | Device Information                                                   |
    +--------+----------------------------------------------------------------------+
    | 0      | Name: NVIDIA A100-SXM4-40GB                                          |
    |        | PCI Bus ID: 00000000:00:04.0                                         |
    |        | Device UUID: GPU-a2d9f5c7-87d3-7d57-3277-e091ad1ba957                |
    +--------+----------------------------------------------------------------------+
    

Mengonfigurasi Agen Operasional untuk DCGM

Dengan mengikuti panduan untuk Mengonfigurasi Agen Operasi, tambahkan elemen yang diperlukan untuk mengumpulkan telemetri dari layanan DCGM, dan mulai ulang agen.

Contoh konfigurasi

Perintah berikut membuat konfigurasi untuk mengumpulkan dan menyerap telemetri untuk DCGM dan memulai ulang Agen Operasional:

# Configures Ops Agent to collect telemetry from the app and restart Ops Agent.
set -e

# Create a back up of the existing file so existing configurations are not lost.
sudo cp /etc/google-cloud-ops-agent/config.yaml /etc/google-cloud-ops-agent/config.yaml.bak

# Configure the Ops Agent.
sudo tee /etc/google-cloud-ops-agent/config.yaml > /dev/null << EOF
metrics:
  receivers:
    dcgm:
      type: dcgm
  service:
    pipelines:
      dcgm:
        receivers:
          - dcgm
EOF

sudo systemctl restart google-cloud-ops-agent

Setelah menjalankan perintah ini, Anda dapat memeriksa apakah agen telah dimulai ulang. Jalankan perintah berikut dan pastikan komponen sub-agen "Metrics Agent" dan "Logging Agent" tercantum sebagai "active (running)":

sudo systemctl status google-cloud-ops-agent"*"

Jika Anda menggunakan akun layanan kustom, bukan akun layanan Compute Engine default, atau jika Anda memiliki VM Compute Engine yang sangat lama, Anda mungkin perlu memberikan otorisasi kepada Agen Operasional.

Mengonfigurasi pengumpulan metrik

Untuk menyerap metrik dari DCGM, Anda harus membuat penerima untuk metrik yang dihasilkan DCGM, lalu membuat pipeline untuk penerima baru tersebut.

Penerima ini tidak mendukung penggunaan beberapa instance dalam konfigurasi, misalnya, untuk memantau beberapa endpoint. Semua instance tersebut menulis ke deret waktu yang sama, dan Cloud Monitoring tidak memiliki cara untuk membedakannya.

Untuk mengonfigurasi penerima metrik dcgm, tentukan kolom berikut:

Kolom Default Deskripsi
collection_interval 60s Durasi waktu, seperti 30s atau 5m.
endpoint localhost:5555 Alamat layanan DCGM, dalam format host:port.
type Nilai ini harus dcgm.

Hal yang dipantau

Tabel berikut menyediakan daftar metrik yang dikumpulkan Agen Operasional dari layanan DCGM. Tidak semua metrik tersedia untuk semua model GPU. Metrik tidak dikumpulkan dari model GPU NVIDIA K80, P100, dan P4.

Jenis metrik
Jenis, Jenis
Resource yang dipantau
Label
Model GPU yang didukung
workload.googleapis.com/dcgm.gpu.profiling.dram_utilization
GAUGEDOUBLE
gce_instance
gpu_number
model
uuid
Semua kecuali K80, P100, dan P4
GAUGEINT64
gce_instance
direction
gpu_number
model
uuid
Semua kecuali K80, P100, dan P4
workload.googleapis.com/dcgm.gpu.profiling.pcie_traffic_rate
GAUGEINT64
gce_instance
direction
gpu_number
model
uuid
Semua kecuali K80, P100, dan P4
workload.googleapis.com/dcgm.gpu.profiling.pipe_utilization
GAUGEDOUBLE
gce_instance
gpu_number
model
pipe
uuid
Semua kecuali K80, P100, dan P4. Untuk L4, nilai pipe fp64 tidak didukung.
workload.googleapis.com/dcgm.gpu.profiling.sm_occupancy
GAUGEDOUBLE
gce_instance
gpu_number
model
uuid
Semua kecuali K80, P100, dan P4
workload.googleapis.com/dcgm.gpu.profiling.sm_utilization
GAUGEDOUBLE
gce_instance
gpu_number
model
uuid
Semua kecuali K80, P100, dan P4

Selain itu, konfigurasi bawaan untuk Agen Operasional juga mengumpulkan metrik agent.googleapis.com/gpu, yang dilaporkan oleh Management Library (NVML) NVIDIA. Anda tidak memerlukan konfigurasi tambahan di Agen Operasional untuk mengumpulkan metrik ini, tetapi Anda harus membuat VM dengan GPU yang terpasang dan menginstal driver GPU. Untuk informasi selengkapnya, lihat Tentang metrik gpu.

Memverifikasi konfigurasi

Bagian ini menjelaskan cara memverifikasi bahwa Anda mengonfigurasi penerima NVIDIA DCGM dengan benar. Mungkin perlu waktu satu atau dua menit bagi Agen Operasional untuk mulai mengumpulkan telemetri.

Untuk memverifikasi bahwa metrik NVIDIA DCGM dikirim ke Cloud Monitoring, lakukan hal berikut:

  1. Pada panel navigasi Konsol Google Cloud, pilih Monitoring, lalu pilih  Metrics Explorer:

    Buka Metrics Explorer

  2. Di toolbar panel pembuat kueri, pilih tombol yang namanya adalah  MQL atau  PromQL.
  3. Pastikan MQL dipilih pada tombol Language. Tombol bahasa berada di toolbar yang sama dengan yang memungkinkan Anda memformat kueri.
  4. Masukkan kueri berikut di editor, lalu klik Run query:
    fetch gce_instance
    | metric 'workload.googleapis.com/dcgm.gpu.profiling.sm_utilization'
    | every 1m
    

Lihat dasbor

Untuk melihat metrik NVIDIA DCGM, Anda harus mengonfigurasi diagram atau dasbor. Integrasi NVIDIA DCGM menyertakan satu atau beberapa dasbor untuk Anda. Setiap dasbor akan otomatis diinstal setelah Anda mengonfigurasi integrasi dan Agen Operasional mulai mengumpulkan data metrik.

Anda juga dapat melihat pratinjau statis dasbor tanpa menginstal integrasi.

Untuk melihat dasbor yang terinstal, lakukan hal berikut:

  1. Pada panel navigasi Konsol Google Cloud, pilih Monitoring, lalu pilih  Dashboards:

    Buka Dasbor

  2. Pilih tab Dashboard List, lalu pilih kategori Integrations.
  3. Klik nama dasbor yang ingin Anda lihat.

Jika Anda telah mengonfigurasi integrasi, tetapi dasbor belum diinstal, periksa apakah Agen Operasional sedang berjalan. Jika tidak ada data metrik untuk diagram di dasbor, penginstalan dasbor akan gagal. Setelah Agen Operasional mulai mengumpulkan metrik, dasbor akan diinstal untuk Anda.

Untuk melihat pratinjau statis dasbor, lakukan langkah berikut:

  1. Pada panel navigasi Konsol Google Cloud, pilih Monitoring, lalu pilih  Integrations:

    Buka Integrations

  2. Klik filter platform deployment Compute Engine.
  3. Temukan entri untuk NVIDIA DCGM dan klik View Details.
  4. Pilih tab Dashboards untuk melihat pratinjau statis. Jika dasbor sudah terinstal, Anda dapat membukanya dengan mengklik View dashboard.

Untuk informasi selengkapnya tentang dasbor di Cloud Monitoring, lihat Dasbor dan diagram.

Untuk mengetahui informasi selengkapnya tentang penggunaan halaman Integrasi, lihat Mengelola integrasi.

Batasan DCGM, dan menjeda pembuatan profil

Penggunaan DCGM secara serentak dapat bertentangan dengan penggunaan beberapa alat developer NVIDIA lainnya, seperti Nsight Systems atau Nsight Compute. Batasan ini berlaku untuk NVIDIA A100 dan GPU yang lebih lama. Untuk informasi selengkapnya, lihat Frekuensi Sampling Profil dalam fitur DCGM yang diganti.

Jika perlu menggunakan alat seperti Nsight Systems tanpa gangguan yang signifikan, Anda dapat menjeda atau melanjutkan pengumpulan metrik untuk sementara menggunakan perintah berikut:

dcgmi profile --pause
dcgmi profile --resume

Saat pembuatan profil dijeda, tidak satu pun metrik DCGM yang dikumpulkan Agen Operasional akan dikeluarkan dari VM.

Langkah selanjutnya

Untuk panduan cara menggunakan Ansible untuk menginstal Agen Operasional, mengonfigurasi aplikasi pihak ketiga, dan menginstal contoh dasbor, lihat video Menginstal Agen Operasional untuk memecahkan masalah aplikasi pihak ketiga.