Linux VM での GPU パフォーマンスのモニタリング


Google が推奨する Compute Engine 用のテレメトリー収集ソリューションである Ops エージェントを使用して、仮想マシン(VM)インスタンスから GPU の使用率や GPU メモリなどの指標を追跡できます。Ops エージェントを使用すると、次のように GPU VM を管理できます。

  • 事前構成済みのダッシュボードで NVIDIA GPU フリートの状態を可視化する。
  • 使用率が低い GPU を特定してワークロードを統合し、費用を最適化する。
  • 傾向を見極めてスケーリングを計画し、GPU 容量の拡張や、既存 GPU のアップグレードを行うタイミングを判断する。
  • NVIDIA Data Center GPU Manager(DCGM)プロファイリング指標を使用して、GPU 内のボトルネックとパフォーマンスの問題を特定する。
  • リソースを自動スケーリングするようにマネージド インスタンス グループ(MIG)を設定する。
  • NVIDIA GPU から指標に関するアラートを受け取る。

このドキュメントでは、Ops エージェントを使用して Linux VM で GPU をモニタリングする手順について説明します。また、Linux VM で GPU の使用状況をモニタリングする設定も可能なレポート スクリプトを、GitHub で入手することもできます。compute-gpu-monitoring モニタリング スクリプトをご覧ください。このスクリプトは積極的にはメンテナンスされません。

Windows VM での GPU のモニタリングについては、GPU パフォーマンスのモニタリング(Windows)をご覧ください。

概要

Ops エージェント(バージョン 2.38.0 以降)は、エージェントがインストールされた Linux VM の GPU 使用率と GPU メモリ使用率を自動的に追跡できます。これらの指標は、NVIDIA Management Library(NVML)から取得され、GPU を使用する任意のプロセスの GPU ごとおよびプロセスごとに追跡されます。Ops エージェントによってモニタリングされる指標を表示するには、エージェントの指標: gpu をご覧ください。

NVIDIA Data Center GPU Manager(DCGM)と Ops エージェントのインテグレーションを設定することもできます。このインテグレーションにより、Ops エージェントは GPU のハードウェア カウンタを使用して指標を追跡できます。DCGM を使用すると、GPU のデバイスレベルの指標にアクセスできます。これには、ストリーミング マルチプロセッサ(SM)のブロック使用率、SM 占有率、SM パイプ使用率、PCIe トラフィック レート、NVLink トラフィック レートが含まれます。Ops エージェントによってモニタリングされる指標を表示するには、サードパーティ アプリケーションの指標: NVIDIA の Data Center GPU Manager(DCGM)をご覧ください。

Ops エージェントを使用して GPU 指標を確認するには、次の手順に沿って操作します。

  1. VM ごとに、要件を満たしていることを確認します。
  2. VM ごとに、Ops エージェントをインストールします。
  3. 省略可: VM ごとに、NVIDIA の Data Center GPU Manager(DCGM)インテグレーションを設定します。
  4. Cloud Monitoring の指標を確認します。

制限事項

  • Ops エージェントは、Container-Optimized OS を使用する VM の GPU 使用率は追跡しません。

要件

各 VM で次の要件を満たしていることを確認します。

Ops エージェントをインストールする

Ops エージェントのインストール手順は次のとおりです。

  1. 以前に compute-gpu-monitoring モニタリング スクリプトを使用して GPU 使用率を追跡している場合は、Ops エージェントをインストールする前にサービスを無効にします。モニタリング スクリプトを無効にするには、次のコマンドを実行します。

    sudo systemctl --no-reload --now disable google_gpu_monitoring_agent
  2. 最新バージョンの Ops エージェントをインストールします。詳しい手順については、Ops エージェントのインストールをご覧ください。

  3. Ops エージェントをインストールした後、Compute Engine が提供するインストール スクリプトを使用して GPU ドライバをインストールまたはアップグレードする必要がある場合は、制限事項セクションを確認します。

省略可: NVIDIA の Data Center GPU Manager(DCGM)インテグレーションを設定する

また、Ops エージェントは、NVIDIA Data Center GPU Manager(DCGM)をインテグレーションを行い、ストリーミング マルチプロセッサ(SM)のブロック使用率、SM 占有率、SM パイプ使用率、PCIe トラフィック レート、NVLink トラフィック レートなどの高度な GPU 指標を収集します。

これらの高度な GPU 指標は、NVIDIA の K80 モデル、P100 モデル、P4 モデルからは収集されません。

各 VM でこのインテグレーションを設定して使用する方法の詳細な手順については、NVIDIA データセンター GPU Manager(DCGM)をご覧ください。

Cloud Monitoring で指標を確認する

  1. Google Cloud コンソールで、[Monitoring] > [ダッシュボード] ページに移動します。

    [Monitoring] に移動

  2. [サンプル ライブラリ] タブを選択します。

  3. [フィルタ] フィールドに [NVIDIA] と入力します。[NVIDIA GPU Monitoring Overview (GCE & GKE)] ダッシュボードが表示されます。

    NVIDIA の Data Center GPU Manager(DCGM)インテグレーションを設定している場合は、[NVIDIA の GPU Monitoring Advanced DCGM Metrics (GCE Only)] ダッシュボードも表示されます。

    Cloud Monitoring ダッシュボード

  4. 必要なダッシュボードで、[プレビュー] をクリックします。[サンプル ダッシュボードのプレビュー] ページが表示されます。

  5. [サンプル ダッシュボードのプレビュー] ページで、[サンプル ダッシュボードをインポート] をクリックします。

    • [NVIDIA GPU Monitoring Overview(GCE & GKE)] ダッシュボードには、GPU 使用率、NIC トラフィック レート、GPU メモリ使用量などの GPU 指標が表示されます。

      GPU 使用率の表示は次のようになります。

      Cloud Monitoring(NVML)

    • [NVIDIA GPU Monitoring Advanced DCGM Metrics (GCE Only)] ダッシュボードには、SM 使用率、SM 占有率、SM パイプ使用率、PCIe トラフィック レート、NVLink トラフィック レートなどの主要で高度な指標が表示されます。

      Advanced DCGM Metric の表示は、次の出力のようになります。

      Cloud Monitoring(DCGM)

次のステップ