このページは Cloud Translation API によって翻訳されました。

Vertex AI のログと指標を表示する

ログと指標を使用すると、サービスをモニタリングし、サービスのパフォーマンスに関する問題のトラブルシューティングを行うことができます。Vertex AI サービスのログと指標は、Google Distributed Cloud（GDC）エアギャップアプライアンスのモニタリングリソースとロギングリソースを使用して表示できます。特定の Vertex AI 指標をモニタリングするクエリを作成することもできます。

このページでは、Grafana で Vertex AI サービスのログと指標をクエリして表示する方法について説明します。

このページには、光学式文字認識（OCR）、Speech-to-Text、Vertex AI Translation などの Vertex AI プラットフォームとサービスをモニタリングするために使用できるサンプルクエリも含まれています。

始める前に

Vertex AI のログと指標を表示するために必要な権限を取得するには、プロジェクトの IAM 管理者に、プロジェクトの Namespace でプロジェクト Grafana 閲覧者（project-grafana-viewer）ロールを付与するよう依頼してください。

ダッシュボードでログと指標を可視化する

Vertex AI の指標とログはダッシュボードで確認できます。たとえば、Vertex AI が CPU 使用率にどのように影響するかを確認するクエリを作成できます。

ダッシュボードで Vertex AI のログと指標を表示する手順は次のとおりです。

GDC コンソールにログインして、プロジェクトを選択します。
ナビゲーションメニューで、[Vertex AI] > [事前トレーニング済み API] をクリックします。
[事前トレーニング済み API] ページで、モニタリングするサービスの Vertex AI API が有効になっていることを確認します。
[Grafana でサービスをモニタリングする] をクリックして、Grafana のホームページを開きます。
ホームページのナビゲーションメニューで、[探索] 探索をクリックして、[探索] ページを開きます。
[Explore] ページのメニューから、次のいずれかのデータソースを選択します。
- オペレーションログ: オペレーションログを取得します。
- 監査ログ: 監査ログを取得します。
- Prometheus: 指標を取得します。
指標を表示する場合は、PromQL（Prometheus Query Language）式を使用してクエリを入力します。
ログを表示する場合は、LogQL（ログクエリ言語）式を使用してクエリを入力します。

クエリに一致する指標またはログがページに表示されます。

サンプルクエリ

次の表に、環境内の Vertex AI プラットフォームをモニタリングするためのクエリの例を示します。

Vertex AI プラットフォーム
データソース	説明	コンポーネント	クエリ
指標	コンテナの CPU 使用率	レベル 1 オペレーター	`rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l1operator"}[30s]) * 100`
	コンテナの CPU 使用率	レベル 2 オペレーター	`rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l2operator"}[30s]) * 100`
	コンテナのメモリ使用量（MB）	レベル 1 オペレーター	`container_memory_usage_bytes{namespace="ai-system",container="l1operator"} * 1e-6`
	コンテナのメモリ使用量（MB）	レベル 2 オペレーター	`container_memory_usage_bytes{namespace="ai-system",container="l2operator"} * 1e-6`
オペレーションログ	L1 オペレーターログ	レベル 1 オペレーター	`{service_name="vai-l1operator"}`
オペレーションログ	L2 オペレーターログ	レベル 2 オペレーター	`{service_name="vai-l2operator"}`
監査ログ重要: Vertex AI プラットフォームとサービスの監査ログは、インフラストラクチャオペレーター（IO）のみが利用できます。	プラットフォームフロントエンドの監査ログ	Vertex AI ウェブプラグインのフロントエンド	`{service_name="istio"} \|~ upstream_cluster:.*(vai-web-plugin-frontend.ai-system)`
	プラットフォームバックエンドの監査ログ	Vertex AI ウェブプラグインのバックエンド	`{service_name="istio"} \|~ upstream_cluster:.*(vai-web-plugin-backend.ai-system)`

次の表に、環境内の Vertex AI API サービス（OCR、Speech-to-Text、Vertex AI Translation など）をモニタリングするためのクエリの例を示します。

Vertex AI サービス
データソース	説明	サービス	クエリ
指標	事前トレーニング済み API が CPU 使用率に与える影響。	OCR	`rate(container_cpu_usage_seconds_total{namespace="g-vai-ocr-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: vision-extractor \| vision-frontend \| vision-vms-ocr`
		Speech-to-Text	`rate(container_cpu_usage_seconds_total{namespace="g-vai-speech-sie",container="CONTAINER_NAME"}[30s]) * 100`
		Vertex AI Translation	`rate(container_cpu_usage_seconds_total{namespace="g-vai-translation-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: translation-aligner \| translation-frontend \| translation-prediction`
	`destination_service` フィルタラベルを使用して、過去 60 分間のエラー率を取得します。	OCR	`rate(istio_requests_total{destination_service=~".*g-vai-ocr-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])`
		Speech-to-Text	`rate(istio_requests_total{destination_service=~".*g-vai-speech-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])`
		Vertex AI Translation	`rate(istio_requests_total{destination_service=~".*g-vai-translation-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])`
オペレーションログ	Vertex AI サービスのオペレーションログ注: サービスの Namespace を使用して、メインフィルタを指定します。クエリに `service_name` や `pod` などのラベルを追加すると、より詳細な結果を作成できます。	OCR	`{namespace="g-vai-ocr-sie"}`
		Speech-to-Text	`{namespace="g-vai-speech-sie"}`
		Vertex AI Translation	`{namespace="g-vai-translation-sie"}`
監査ログ	Vertex AI サービスの監査ログ重要: Vertex AI プラットフォームとサービスの監査ログは、インフラストラクチャオペレーター（IO）のみが利用できます。	OCR	`{service_name="istio"} \|= "vision-frontend-server"`
		Speech-to-Text	`{service_name="istio"} \|= "speech-frontend-server"`
		Vertex AI Translation	`{service_name="istio"} \|= "translation-frontend-server"`