查看 Vertex AI 記錄和指標

您可以透過記錄和指標監控服務,並排解服務效能問題。您可以使用 Google Distributed Cloud (GDC) 氣隙式裝置的監控和記錄資源,查看 Vertex AI 服務的記錄和指標。您也可以建立查詢,監控特定的 Vertex AI 指標。

本頁說明如何在 Grafana 中查詢及查看 Vertex AI 服務的記錄和指標。

本頁面也提供範例查詢,可用於監控 Vertex AI 平台和服務,例如光學字元辨識 (OCR)、語音轉文字和 Vertex AI Translation。

事前準備

如要取得權限,以便查看 Vertex AI 的記錄和指標,請要求專案 IAM 管理員在專案命名空間中,授予您專案 Grafana 檢視者 (project-grafana-viewer) 角色。

在資訊主頁中以視覺化方式呈現記錄和指標

您可以在資訊主頁中查看 Vertex AI 指標和記錄。舉例來說,您可以建立查詢,查看 Vertex AI 對 CPU 使用率的影響。

請按照下列步驟在資訊主頁中查看 Vertex AI 記錄和指標:

  1. 登入 GDC 控制台並選取專案

  2. 在導覽選單中,依序點按「Vertex AI」>「預先訓練的 API」

  3. 在「預先訓練的 API」頁面中,確認要監控的服務已啟用 Vertex AI API

  4. 按一下「Monitor services in Grafana」(在 Grafana 中監控服務),開啟 Grafana 首頁。

  5. 在首頁的導覽選單中,按一下「探索」,開啟「探索」頁面。

  6. 在「探索」頁面的選單中,選取下列其中一個資料來源:

    • 作業記錄:擷取作業記錄。
    • 稽核記錄:擷取稽核記錄。
    • Prometheus:擷取指標。
  7. 如要顯示指標,請使用 PromQL (Prometheus 查詢語言) 運算式輸入查詢。

  8. 如要顯示記錄,請使用 LogQL (記錄查詢語言) 運算式輸入查詢。

頁面會顯示與查詢相符的指標或記錄。

查詢範例

下表包含範例查詢,可監控您環境中的 Vertex AI 平台:

Vertex AI 平台
資料來源 說明 元件 查詢
指標 容器的 CPU 使用率百分比 第 1 級接線人員 rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l1operator"}[30s]) * 100
第 2 級接線人員 rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l2operator"}[30s]) * 100
容器的記憶體用量 (以 MB 為單位) 第 1 級接線人員 container_memory_usage_bytes{namespace="ai-system",container="l1operator"} * 1e-6
第 2 級接線人員 container_memory_usage_bytes{namespace="ai-system",container="l2operator"} * 1e-6
作業記錄 L1 服務專員記錄 第 1 級接線人員 {service_name="vai-l1operator"}
L2 服務人員記錄 第 2 級接線人員 {service_name="vai-l2operator"}
稽核記錄
平台前端稽核記錄 Vertex AI 網頁外掛程式前端 {service_name="istio"} |~ upstream_cluster:.*(vai-web-plugin-frontend.ai-system)
平台後端稽核記錄 Vertex AI 網頁外掛程式後端 {service_name="istio"} |~ upstream_cluster:.*(vai-web-plugin-backend.ai-system)

下表包含範例查詢,可監控環境中的 Vertex AI API 服務,例如 OCR、Speech-to-Text 和 Vertex AI Translation:

Vertex AI 服務
資料來源 說明 服務 查詢
指標 預先訓練的 API 對 CPU 使用量的影響。
OCR rate(container_cpu_usage_seconds_total{namespace="g-vai-ocr-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: vision-extractor | vision-frontend | vision-vms-ocr
Speech-to-Text rate(container_cpu_usage_seconds_total{namespace="g-vai-speech-sie",container="CONTAINER_NAME"}[30s]) * 100
Vertex AI Translation rate(container_cpu_usage_seconds_total{namespace="g-vai-translation-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: translation-aligner | translation-frontend | translation-prediction
使用 destination_service 篩選器標籤,取得過去 60 分鐘的錯誤率。 OCR rate(istio_requests_total{destination_service=~".*g-vai-ocr-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])
Speech-to-Text rate(istio_requests_total{destination_service=~".*g-vai-speech-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])
Vertex AI Translation rate(istio_requests_total{destination_service=~".*g-vai-translation-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])
作業記錄 Vertex AI 服務的作業記錄
OCR {namespace="g-vai-ocr-sie"}
Speech-to-Text {namespace="g-vai-speech-sie"}
Vertex AI Translation {namespace="g-vai-translation-sie"}
稽核記錄 Vertex AI 服務的稽核記錄
OCR {service_name="istio"} |= "vision-frontend-server"
Speech-to-Text {service_name="istio"} |= "speech-frontend-server"
Vertex AI Translation {service_name="istio"} |= "translation-frontend-server"