Vertex AI のログと指標を表示する

ログと指標を使用すると、サービスをモニタリングし、サービスのパフォーマンスに関する問題のトラブルシューティングを行うことができます。Google Distributed Cloud(GDC)エアギャップのモニタリング リソースとロギング リソースを使用して、Vertex AI サービスのログと指標を表示できます。特定の Vertex AI 指標をモニタリングするクエリを作成することもできます。

このページでは、 Distributed Cloud のモニタリング インスタンス。

このページには、光学式文字認識(OCR)、Speech-to-Text、Vertex AI Translation などの Vertex AI プラットフォームとサービスをモニタリングするために使用できるサンプルクエリも含まれています。Distributed Cloud のロギングとモニタリング ソリューションの詳細については、指標とログをモニタリングするをご覧ください。

始める前に

Vertex AI のログと指標を表示するために必要な権限を取得するには、プロジェクトの IAM 管理者に、プロジェクトの Namespace でプロジェクト Grafana 閲覧者(project-grafana-viewer)ロールを付与するよう依頼してください。

このロールの詳細については、IAM 権限を準備するをご覧ください。

ダッシュボードでログと指標を可視化する

Vertex AI の指標とログはダッシュボードで確認できます。たとえば、Vertex AI が CPU 使用率にどのように影響するかを確認するクエリを作成できます。

ダッシュボードで Vertex AI のログと指標を表示する手順は次のとおりです。

  1. GDC コンソールにログインして、プロジェクトを選択します

  2. ナビゲーション メニューで、[Vertex AI] > [事前トレーニング済み API] をクリックします。

  3. [事前トレーニング済み API] ページで、モニタリングするサービスの Vertex AI API が有効になっていることを確認します。

  4. [Grafana でサービスをモニタリングする] をクリックして、Grafana のホームページを開きます。

  5. ホームページのナビゲーション メニューで、[探索] 探索 をクリックして、[探索] ページを開きます。

  6. [Explore] ページのメニューから、次のいずれかのデータソースを選択します。

    • オペレーション ログ: オペレーション ログを取得します。
    • 監査ログ: 監査ログを取得します。
    • Prometheus: 指標を取得します。
  7. 指標を表示する場合は、PromQL(Prometheus Query Language)式を使用してクエリを入力します。

  8. ログを表示する場合は、LogQL(ログクエリ言語)式を使用してクエリを入力します。

クエリに一致する指標またはログがページに表示されます。

[Explore] ページで Prometheus オプションが選択され、指標が取得されます。

図 1: Grafana で指標をクエリするためのメニュー オプション。

図 1 の Prometheus オプションを選択すると、指標を取得するクエリを作成できるインターフェースが表示されます。

サンプルクエリ

次の表に、環境内の Vertex AI プラットフォームをモニタリングするためのクエリの例を示します。

Vertex AI プラットフォーム
データソース 説明 コンポーネント クエリ
指標 コンテナの CPU 使用率 レベル 1 オペレーター rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l1operator"}[30s]) * 100
レベル 2 オペレーター rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l2operator"}[30s]) * 100
コンテナのメモリ使用量(MB) レベル 1 オペレーター container_memory_usage_bytes{namespace="ai-system",container="l1operator"} * 1e-6
レベル 2 オペレーター container_memory_usage_bytes{namespace="ai-system",container="l2operator"} * 1e-6
オペレーション ログ L1 オペレーター ログ レベル 1 オペレーター {service_name="vai-l1operator"}
L2 オペレーター ログ レベル 2 オペレーター {service_name="vai-l2operator"}
監査ログ プラットフォーム フロントエンドの監査ログ Vertex AI ウェブ プラグインのフロントエンド {service_name="istio"} |~ upstream_cluster:.*(vai-web-plugin-frontend)
プラットフォーム バックエンドの監査ログ Vertex AI ウェブ プラグインのバックエンド {service_name="istio"} |~ upstream_cluster:.*(vai-web-plugin-backend)

次の表に、環境内の Vertex AI API サービス(OCR、Speech-to-Text、Vertex AI Translation など)をモニタリングするためのクエリの例を示します。

Vertex AI サービス
データソース 説明 サービス クエリ
指標 事前トレーニング済み API が
CPU 使用率に与える影響。
OCR rate(container_cpu_usage_seconds_total{namespace="g-vai-ocr-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: vision-extractor | vision-frontend | vision-vms-ocr
Speech-to-Text rate(container_cpu_usage_seconds_total{namespace="g-vai-speech-sie",container="CONTAINER_NAME"}[30s]) * 100
Vertex AI Translation rate(container_cpu_usage_seconds_total{namespace="g-vai-translation-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: translation-aligner | translation-frontend | translation-prediction
destination_service フィルタ ラベルを使用して、過去 60 分間のエラー率を取得します。 OCR rate(istio_requests_total{destination_service=~".*g-vai-ocr-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])
Speech-to-Text rate(istio_requests_total{destination_service=~".*g-vai-speech-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])
Vertex AI Translation rate(istio_requests_total{destination_service=~".*g-vai-translation-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])
オペレーション ログ Vertex AI サービスのオペレーション ログ
OCR {namespace="g-vai-ocr-sie"}
Speech-to-Text {namespace="g-vai-speech-sie"}
Vertex AI Translation {namespace="g-vai-translation-sie"}
監査ログ Vertex AI サービスの監査ログ OCR {service_name="istio"} |= "vision-frontend-server"
Speech-to-Text {service_name="istio"} |= "speech-frontend-server"
Vertex AI Translation {service_name="istio"} |= "translation-frontend-server"