Vertex AI Inference DCGM 指標を表示する

このページでは、Vertex AI Inference エンドポイントに関連付けられた NVIDIA Data Center GPU Manager(DCGM)の指標を調べる方法について説明します。

DCGM とは

NVIDIA Data Center GPU Manager(DCGM)は、NVIDIA GPU の管理とモニタリングを行うための NVIDIA のツールセットです。エンドポイントでサポートされている GPU を使用している場合、Vertex AI Inference は Vertex AI DCGM 指標を Cloud Monitoring に自動的にエクスポートします。これらの指標を使用すると、GPU の使用率、パフォーマンス、健全性を包括的に把握できます。

前提条件

始める前に、プロジェクトで Cloud Monitoring が有効になっていることを確認してください。詳細については、Monitoring API を有効にするをご覧ください。

DCGM 指標を使用する

Metrics Explorer で DCGM 指標を表示する手順は次のとおりです。

  1. Google Cloud コンソールの [Metrics Explorer] ページに移動します。

    Metrics Explorer に移動

  2. [指標を選択] で、[Prometheus Target] を選択します。

  3. [有効な指標カテゴリ] で、[Vertex] を選択します。

  4. [有効な指標] で、目的の指標を選択します。

  5. [適用] をクリックします。

Grafana、または Prometheus API または UI を使用して指標をクエリすることもできます。

割り当て

DCGM 指標は、Cloud Monitoring API の1 分あたりの時系列取り込みリクエストの割り当てを消費します。指標パッケージを有効にする前に、その割り当ての直近のピーク使用量を確認してください。すでに割り当ての上限に近づいている場合は、割り当ての上限の引き上げをリクエストできます。

Vertex AI DCGM 指標

この表の Cloud Monitoring の指標名には、prometheus.googleapis.com/ という接頭辞を付ける必要があります。この接頭辞は、表中の項目では省略されています。

Vertex AI で収集されたすべての DCGM 指標には、モニタリング対象リソースの prometheus_target ラベルだけでなく、次のラベルが付加されます。

GPU ラベル:

  • gpu_model: GPU デバイスモデル(NVIDIA L4 など)。
  • gpu_uuid: GPU デバイスの UUID。
  • gpu_i_id: NVIDIA マルチインスタンス GPU(MIG)インスタンス ID。

Vertex AI ラベル:

  • deployed_model_id: 推論リクエストを処理するデプロイ済みモデルの ID。
  • model_display_name: デプロイされたモデルの表示名。
  • replica_id: デプロイされたモデル レプリカ(Pod 名)に対応する一意の ID。
  • endpoint_id: モデル エンドポイントの ID。
  • endpoint_display_name: モデル エンドポイントの表示名。
  • product: Vertex AI の機能の名前。これは常に Online Inference です。
PromQL の指標名
Cloud Monitoring の指標名
種類、タイプ、単位
モニタリング対象リソース
説明
vertex_dcgm_fi_dev_fb_free
vertex_dcgm_fi_dev_fb_free/gauge

GAUGEDOUBLE1 prometheus_target 空きフレーム バッファ(MB)。
vertex_dcgm_fi_dev_fb_total
vertex_dcgm_fi_dev_fb_total/gauge

GAUGEDOUBLE1 prometheus_target GPU の合計フレーム バッファ(MB)。
vertex_dcgm_fi_dev_fb_used
vertex_dcgm_fi_dev_fb_used/gauge

GAUGEDOUBLE1 prometheus_target 使用済みのフレーム バッファ(MB)。
vertex_dcgm_fi_dev_gpu_temp
vertex_dcgm_fi_dev_gpu_temp/gauge

GAUGEDOUBLE1 prometheus_target デバイスの現在の温度(摂氏)。
vertex_dcgm_fi_dev_gpu_util
vertex_dcgm_fi_dev_gpu_util/gauge

GAUGEDOUBLE1 prometheus_target GPU 使用率(%)。
vertex_dcgm_fi_dev_mem_copy_util
vertex_dcgm_fi_dev_mem_copy_util/gauge

GAUGEDOUBLE1 prometheus_target メモリ使用率(%)
vertex_dcgm_fi_dev_memory_temp
vertex_dcgm_fi_dev_memory_temp/gauge

GAUGEDOUBLE1 prometheus_target デバイスのメモリの温度(°C)。
vertex_dcgm_fi_dev_power_usage
vertex_dcgm_fi_dev_power_usage/gauge

GAUGEDOUBLE1 prometheus_target デバイスの消費電力(ワット単位)。
vertex_dcgm_fi_dev_sm_clock
vertex_dcgm_fi_dev_sm_clock/gauge

GAUGEDOUBLE1 prometheus_target SM クロック周波数(MHz)。
vertex_dcgm_fi_dev_total_energy_consumption
vertex_dcgm_fi_dev_total_energy_consumption/counter

CUMULATIVEDOUBLE1 prometheus_target ドライバが最後に再読み込されて GPU の合計エネルギー消費量(mJ)。
vertex_dcgm_fi_prof_dram_active
vertex_dcgm_fi_prof_dram_active/gauge

GAUGEDOUBLE1 prometheus_target デバイスのメモリ インターフェースがデータを送受信しているアクティブなサイクルの割合。
vertex_dcgm_fi_prof_gr_engine_active
vertex_dcgm_fi_prof_gr_engine_active/gauge

GAUGEDOUBLE1 prometheus_target グラフィック エンジンがアクティブな時間の割合。
vertex_dcgm_fi_prof_nvlink_rx_bytes
vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target アクティブな NvLink rx(読み取り)データのレート(ヘッダーとペイロードの両方を含むバイト単位)。
vertex_dcgm_fi_prof_nvlink_tx_bytes
vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target アクティブな NvLink 送信(送信)データのレート(ヘッダーとペイロードの両方を含むバイト単位)。
vertex_dcgm_fi_prof_pcie_rx_bytes
vertex_dcgm_fi_prof_pcie_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target アクティブな PCIe rx(読み取り)データのレート(ヘッダーとペイロードの両方を含むバイト単位)。
vertex_dcgm_fi_prof_pcie_tx_bytes
vertex_dcgm_fi_prof_pcie_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target アクティブな PCIe tx(送信)データのレート(ヘッダーとペイロードの両方を含むバイト単位)。
vertex_dcgm_fi_prof_pipe_fp16_active
vertex_dcgm_fi_prof_pipe_fp16_active/gauge

GAUGEDOUBLE1 prometheus_target fp16 パイプがアクティブなサイクルの比率。
vertex_dcgm_fi_prof_pipe_fp32_active
vertex_dcgm_fi_prof_pipe_fp32_active/gauge

GAUGEDOUBLE1 prometheus_target fp32 パイプがアクティブなサイクルの比率。
vertex_dcgm_fi_prof_pipe_fp64_active
vertex_dcgm_fi_prof_pipe_fp64_active/gauge

GAUGEDOUBLE1 prometheus_target fp64 パイプがアクティブなサイクルの比率。
vertex_dcgm_fi_prof_pipe_tensor_active
vertex_dcgm_fi_prof_pipe_tensor_active/gauge

GAUGEDOUBLE1 prometheus_target 任意のテンソルパイプがアクティブなサイクルの比率。
vertex_dcgm_fi_prof_sm_active
vertex_dcgm_fi_prof_sm_active/gauge

GAUGEDOUBLE1 prometheus_target SM に 1 つ以上のワープが割り当てられているサイクルの割合。

サポートされている GPU

リソースの制約により、次の GPU を除くすべての NVIDIA GPU がサポートされています。

  1. NVIDIA P100
  2. NVIDIA V100
  3. NVIDIA P4
  4. NVIDIA T4

次のステップ