このページは Cloud Translation API によって翻訳されました。

Vertex AI Inference DCGM 指標を表示する

このページでは、Vertex AI Inference エンドポイントに関連付けられた NVIDIA Data Center GPU Manager（DCGM）の指標を調べる方法について説明します。

DCGM とは

NVIDIA Data Center GPU Manager（DCGM）は、NVIDIA GPU の管理とモニタリングを行うための NVIDIA のツールセットです。エンドポイントでサポートされている GPU を使用している場合、Vertex AI Inference は Vertex AI DCGM 指標を Cloud Monitoring に自動的にエクスポートします。これらの指標を使用すると、GPU の使用率、パフォーマンス、健全性を包括的に把握できます。

前提条件

始める前に、プロジェクトで Cloud Monitoring が有効になっていることを確認してください。詳細については、Monitoring API を有効にするをご覧ください。

DCGM 指標を使用する

Metrics Explorer で DCGM 指標を表示する手順は次のとおりです。

Google Cloud コンソールの [Metrics Explorer] ページに移動します。

Metrics Explorer に移動
[指標を選択] で、[Prometheus Target] を選択します。
[有効な指標カテゴリ] で、[Vertex] を選択します。
[有効な指標] で、目的の指標を選択します。
[適用] をクリックします。

Grafana、または Prometheus API または UI を使用して指標をクエリすることもできます。

割り当て

DCGM 指標は、Cloud Monitoring API の1 分あたりの時系列取り込みリクエストの割り当てを消費します。指標パッケージを有効にする前に、その割り当ての直近のピーク使用量を確認してください。すでに割り当ての上限に近づいている場合は、割り当ての上限の引き上げをリクエストできます。

Vertex AI DCGM 指標

この表の Cloud Monitoring の指標名には、prometheus.googleapis.com/ という接頭辞を付ける必要があります。この接頭辞は、表中の項目では省略されています。

Vertex AI で収集されたすべての DCGM 指標には、モニタリング対象リソースの prometheus_target ラベルだけでなく、次のラベルが付加されます。

GPU ラベル:

gpu_model: GPU デバイスモデル（NVIDIA L4 など）。
gpu_uuid: GPU デバイスの UUID。
gpu_i_id: NVIDIA マルチインスタンス GPU（MIG）インスタンス ID。

Vertex AI ラベル:

deployed_model_id: 推論リクエストを処理するデプロイ済みモデルの ID。
model_display_name: デプロイされたモデルの表示名。
replica_id: デプロイされたモデルレプリカ（Pod 名）に対応する一意の ID。
endpoint_id: モデルエンドポイントの ID。
endpoint_display_name: モデルエンドポイントの表示名。
product: Vertex AI の機能の名前。これは常に Online Inference です。

PromQL の指標名 Cloud Monitoring の指標名
種類、タイプ、単位モニタリング対象リソース	説明
`vertex_dcgm_fi_dev_fb_free` `vertex_dcgm_fi_dev_fb_free/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	空きフレームバッファ（MB）。
`vertex_dcgm_fi_dev_fb_total` `vertex_dcgm_fi_dev_fb_total/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	GPU の合計フレームバッファ（MB）。
`vertex_dcgm_fi_dev_fb_used` `vertex_dcgm_fi_dev_fb_used/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	使用済みのフレームバッファ（MB）。
`vertex_dcgm_fi_dev_gpu_temp` `vertex_dcgm_fi_dev_gpu_temp/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	デバイスの現在の温度（摂氏）。
`vertex_dcgm_fi_dev_gpu_util` `vertex_dcgm_fi_dev_gpu_util/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	GPU 使用率（%）。
`vertex_dcgm_fi_dev_mem_copy_util` `vertex_dcgm_fi_dev_mem_copy_util/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	メモリ使用率（%）
`vertex_dcgm_fi_dev_memory_temp` `vertex_dcgm_fi_dev_memory_temp/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	デバイスのメモリの温度（°C）。
`vertex_dcgm_fi_dev_power_usage` `vertex_dcgm_fi_dev_power_usage/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	デバイスの消費電力（ワット単位）。
`vertex_dcgm_fi_dev_sm_clock` `vertex_dcgm_fi_dev_sm_clock/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	SM クロック周波数（MHz）。
`vertex_dcgm_fi_dev_total_energy_consumption` `vertex_dcgm_fi_dev_total_energy_consumption/counter`
`CUMULATIVE`、`DOUBLE`、`1` prometheus_target	ドライバが最後に再読み込されて GPU の合計エネルギー消費量（mJ）。
`vertex_dcgm_fi_prof_dram_active` `vertex_dcgm_fi_prof_dram_active/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	デバイスのメモリインターフェースがデータを送受信しているアクティブなサイクルの割合。
`vertex_dcgm_fi_prof_gr_engine_active` `vertex_dcgm_fi_prof_gr_engine_active/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	グラフィックエンジンがアクティブな時間の割合。
`vertex_dcgm_fi_prof_nvlink_rx_bytes` `vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	アクティブな NvLink rx（読み取り）データのレート（ヘッダーとペイロードの両方を含むバイト単位）。
`vertex_dcgm_fi_prof_nvlink_tx_bytes` `vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	アクティブな NvLink 送信（送信）データのレート（ヘッダーとペイロードの両方を含むバイト単位）。
`vertex_dcgm_fi_prof_pcie_rx_bytes` `vertex_dcgm_fi_prof_pcie_rx_bytes/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	アクティブな PCIe rx（読み取り）データのレート（ヘッダーとペイロードの両方を含むバイト単位）。
`vertex_dcgm_fi_prof_pcie_tx_bytes` `vertex_dcgm_fi_prof_pcie_tx_bytes/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	アクティブな PCIe tx（送信）データのレート（ヘッダーとペイロードの両方を含むバイト単位）。
`vertex_dcgm_fi_prof_pipe_fp16_active` `vertex_dcgm_fi_prof_pipe_fp16_active/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	fp16 パイプがアクティブなサイクルの比率。
`vertex_dcgm_fi_prof_pipe_fp32_active` `vertex_dcgm_fi_prof_pipe_fp32_active/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	fp32 パイプがアクティブなサイクルの比率。
`vertex_dcgm_fi_prof_pipe_fp64_active` `vertex_dcgm_fi_prof_pipe_fp64_active/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	fp64 パイプがアクティブなサイクルの比率。
`vertex_dcgm_fi_prof_pipe_tensor_active` `vertex_dcgm_fi_prof_pipe_tensor_active/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	任意のテンソルパイプがアクティブなサイクルの比率。
`vertex_dcgm_fi_prof_sm_active` `vertex_dcgm_fi_prof_sm_active/gauge`
`GAUGE`、`DOUBLE`、`1` prometheus_target	SM に 1 つ以上のワープが割り当てられているサイクルの割合。

サポートされている GPU

リソースの制約により、次の GPU を除くすべての NVIDIA GPU がサポートされています。

次のステップ

Metrics Explorer の詳細を確認する。

Vertex AI Inference DCGM 指標を表示する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。