監控模型

本文說明如何在 Vertex AI 中監控全代管模型的行為、健康狀態和效能。本文說明如何使用預先建構的模型觀測資訊主頁,深入瞭解模型用量、找出延遲問題,以及排解錯誤。

您將瞭解如何執行下列操作:

  • 存取及解讀模型可觀測性資訊主頁。
  • 查看可用的監控指標。
  • 使用 Metrics Explorer 監控模型端點流量。

存取及解讀模型觀測能力資訊主頁

Vertex AI 上的生成式 AI 提供預先建構的模型可觀測性資訊主頁,可查看全代管模型的行為、健康狀態和效能。全代管模型也稱為「模型即服務」(MaaS),由 Google 提供,包括 Google 的 Gemini 模型和合作夥伴模型 (附有代管端點)。資訊主頁不會顯示自架主機模型的指標。

Vertex AI 上的生成式 AI 會自動收集及回報 MaaS 模型中的活動,協助您快速排解延遲問題並監控容量。

Cloud Console 中的範例模型可觀測性資訊主頁
模型可觀測性資訊主頁範例

用途

應用程式開發人員可以查看使用者與您公開的模型互動的情形。舉例來說,您可以查看模型用量 (每秒模型要求數) 和使用者提示的運算強度 (模型呼叫延遲) 的長期趨勢。因此,由於這些指標與模型用量相關,您也可以估算執行各模型的費用。

如果發生問題,您可以從資訊主頁快速排解。您可以查看 API 錯誤率、第一個權杖延遲時間和權杖輸送量,確認模型是否能及時提供可靠的回應。

可用的監控指標

模型可觀測性資訊主頁會顯示 Cloud Monitoring 收集的部分指標,例如每秒模型要求數 (QPS)、權杖輸送量和第一個權杖延遲時間。查看資訊主頁,瞭解所有可用指標。

限制

Vertex AI 只會擷取模型端點的 API 呼叫資訊主頁指標。 Google Cloud 系統不會將控制台用量 (例如 Vertex AI Studio 的指標) 新增至資訊主頁。

查看資訊主頁

  1. 在 Google Cloud 控制台的 Vertex AI 專區中,前往「Dashboard」頁面。

    前往 Vertex AI

  2. 在「模型可觀測性」部分,按一下「顯示所有指標」,即可在 Google Cloud Observability 控制台中查看模型可觀測性資訊主頁。

  3. 如要查看特定機型或特定地點的指標,請在資訊主頁頂端設定一或多個篩選器。

    如需各項指標的說明,請參閱「aiplatform」部分中的Google Cloud 指標頁面。

監控模型端點流量

請按照下列操作說明,在 Metrics Explorer 中監控端點的流量。

  1. 前往 Google Cloud 控制台的「Metrics Explorer」頁面。

    前往 Metrics Explorer

  2. 選取要查看指標的專案。

  3. 在「指標」下拉式選單中,按一下「選取指標」

  4. 在「依據資源或指標名稱篩選」搜尋列中,輸入 Vertex AI Endpoint

  5. 選取「Vertex AI 端點 > 預測」指標類別。在「有效指標」下方,選取下列任一指標:

    • prediction/online/error_count
    • prediction/online/prediction_count
    • prediction/online/prediction_latencies
    • prediction/online/response_count

    按一下 [套用]。如要新增多個指標,請按一下「新增查詢」

    您可以使用下列下拉式選單篩選或匯總指標:

    • 如要根據指定條件選取及查看部分資料,請使用「篩選器」下拉式選單。舉例來說,如要篩選模型 gemini-2.0-flash-001,請使用 endpoint_id = gemini-2p0-flash-001 (請注意,模型版本中的 . 會替換為 p)。

    • 如要將多個資料點合併為單一值,並查看指標的摘要檢視畫面,請使用「匯總」下拉式選單。舉例來說,您可以彙整 response_codeSum

  6. 您也可以選擇為端點設定快訊。詳情請參閱「管理快訊政策」。

如要透過資訊主頁查看新增至專案的指標,請參閱「資訊主頁總覽」。

後續步驟