このページでは、Vertex AI Inference エンドポイントに関連付けられた NVIDIA Data Center GPU Manager(DCGM)の指標を調べる方法について説明します。
DCGM とは
NVIDIA Data Center GPU Manager(DCGM)は、NVIDIA GPU の管理とモニタリングを行うための NVIDIA のツールセットです。エンドポイントでサポートされている GPU を使用している場合、Vertex AI Inference は Vertex AI DCGM 指標を Cloud Monitoring に自動的にエクスポートします。これらの指標を使用すると、GPU の使用率、パフォーマンス、健全性を包括的に把握できます。
前提条件
始める前に、プロジェクトで Cloud Monitoring が有効になっていることを確認してください。詳細については、Monitoring API を有効にするをご覧ください。
DCGM 指標を使用する
Metrics Explorer で DCGM 指標を表示する手順は次のとおりです。
Google Cloud コンソールの [Metrics Explorer] ページに移動します。
[指標を選択] で、[Prometheus Target] を選択します。
[有効な指標カテゴリ] で、[Vertex] を選択します。
[有効な指標] で、目的の指標を選択します。
[適用] をクリックします。
Grafana、または Prometheus API または UI を使用して指標をクエリすることもできます。
割り当て
DCGM 指標は、Cloud Monitoring API の1 分あたりの時系列取り込みリクエストの割り当てを消費します。指標パッケージを有効にする前に、その割り当ての直近のピーク使用量を確認してください。すでに割り当ての上限に近づいている場合は、割り当ての上限の引き上げをリクエストできます。
Vertex AI DCGM 指標
この表の Cloud Monitoring の指標名には、prometheus.googleapis.com/
という接頭辞を付ける必要があります。この接頭辞は、表中の項目では省略されています。
Vertex AI で収集されたすべての DCGM 指標には、モニタリング対象リソースの prometheus_target
ラベルだけでなく、次のラベルが付加されます。
GPU ラベル:
gpu_model
: GPU デバイスモデル(NVIDIA L4
など)。gpu_uuid
: GPU デバイスの UUID。gpu_i_id
: NVIDIA マルチインスタンス GPU(MIG)インスタンス ID。
Vertex AI ラベル:
-
deployed_model_id
: 推論リクエストを処理するデプロイ済みモデルの ID。 model_display_name
: デプロイされたモデルの表示名。-
replica_id
: デプロイされたモデル レプリカ(Pod 名)に対応する一意の ID。 endpoint_id
: モデル エンドポイントの ID。endpoint_display_name
: モデル エンドポイントの表示名。-
product
: Vertex AI の機能の名前。これは常にOnline Inference
です。
PromQL の指標名 Cloud Monitoring の指標名 |
|
---|---|
種類、タイプ、単位
モニタリング対象リソース | 説明 |
vertex_dcgm_fi_dev_fb_free vertex_dcgm_fi_dev_fb_free/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
空きフレーム バッファ(MB)。 |
vertex_dcgm_fi_dev_fb_total vertex_dcgm_fi_dev_fb_total/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
GPU の合計フレーム バッファ(MB)。 |
vertex_dcgm_fi_dev_fb_used vertex_dcgm_fi_dev_fb_used/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
使用済みのフレーム バッファ(MB)。 |
vertex_dcgm_fi_dev_gpu_temp vertex_dcgm_fi_dev_gpu_temp/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
デバイスの現在の温度(摂氏)。 |
vertex_dcgm_fi_dev_gpu_util vertex_dcgm_fi_dev_gpu_util/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
GPU 使用率(%)。 |
vertex_dcgm_fi_dev_mem_copy_util vertex_dcgm_fi_dev_mem_copy_util/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
メモリ使用率(%) |
vertex_dcgm_fi_dev_memory_temp vertex_dcgm_fi_dev_memory_temp/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
デバイスのメモリの温度(°C)。 |
vertex_dcgm_fi_dev_power_usage vertex_dcgm_fi_dev_power_usage/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
デバイスの消費電力(ワット単位)。 |
vertex_dcgm_fi_dev_sm_clock vertex_dcgm_fi_dev_sm_clock/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
SM クロック周波数(MHz)。 |
vertex_dcgm_fi_dev_total_energy_consumption vertex_dcgm_fi_dev_total_energy_consumption/counter |
|
CUMULATIVE 、DOUBLE 、1
prometheus_target
|
ドライバが最後に再読み込されて GPU の合計エネルギー消費量(mJ)。 |
vertex_dcgm_fi_prof_dram_active vertex_dcgm_fi_prof_dram_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
デバイスのメモリ インターフェースがデータを送受信しているアクティブなサイクルの割合。 |
vertex_dcgm_fi_prof_gr_engine_active vertex_dcgm_fi_prof_gr_engine_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
グラフィック エンジンがアクティブな時間の割合。 |
vertex_dcgm_fi_prof_nvlink_rx_bytes vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
アクティブな NvLink rx(読み取り)データのレート(ヘッダーとペイロードの両方を含むバイト単位)。 |
vertex_dcgm_fi_prof_nvlink_tx_bytes vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
アクティブな NvLink 送信(送信)データのレート(ヘッダーとペイロードの両方を含むバイト単位)。 |
vertex_dcgm_fi_prof_pcie_rx_bytes vertex_dcgm_fi_prof_pcie_rx_bytes/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
アクティブな PCIe rx(読み取り)データのレート(ヘッダーとペイロードの両方を含むバイト単位)。 |
vertex_dcgm_fi_prof_pcie_tx_bytes vertex_dcgm_fi_prof_pcie_tx_bytes/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
アクティブな PCIe tx(送信)データのレート(ヘッダーとペイロードの両方を含むバイト単位)。 |
vertex_dcgm_fi_prof_pipe_fp16_active vertex_dcgm_fi_prof_pipe_fp16_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
fp16 パイプがアクティブなサイクルの比率。 |
vertex_dcgm_fi_prof_pipe_fp32_active vertex_dcgm_fi_prof_pipe_fp32_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
fp32 パイプがアクティブなサイクルの比率。 |
vertex_dcgm_fi_prof_pipe_fp64_active vertex_dcgm_fi_prof_pipe_fp64_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
fp64 パイプがアクティブなサイクルの比率。 |
vertex_dcgm_fi_prof_pipe_tensor_active vertex_dcgm_fi_prof_pipe_tensor_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
任意のテンソルパイプがアクティブなサイクルの比率。 |
vertex_dcgm_fi_prof_sm_active vertex_dcgm_fi_prof_sm_active/gauge |
|
GAUGE 、DOUBLE 、1
prometheus_target
|
SM に 1 つ以上のワープが割り当てられているサイクルの割合。 |
サポートされている GPU
リソースの制約により、次の GPU を除くすべての NVIDIA GPU がサポートされています。
次のステップ
- Metrics Explorer の詳細を確認する。