Vertex AI 會將指標匯出至 Cloud Monitoring。 Vertex AI Google Cloud 控制台也會顯示部分指標。您可以使用 Cloud Monitoring 建立資訊主頁,或根據指標設定快訊。舉例來說,如果 Vertex AI 中模型的預測延遲時間過長,您就會收到快訊。
以下各節說明 Vertex AI Google Cloud 控制台提供的指標,這些指標可能是 Vertex AI 傳送至 Cloud Monitoring 的直接或計算指標。
如要查看 Vertex AI 匯出至 Cloud Monitoring 的大部分指標清單,請參閱 aiplatform
。如要瞭解自訂訓練指標,請參閱「ml
」部分中以 training
開頭的指標類型。
自訂訓練監控指標
執行自訂訓練時,您可以監控每個訓練節點的下列資源用量類型:
- 每個訓練節點的 CPU 或 GPU 使用率
- 每個訓練節點的記憶體使用率
- 網路用量 (每秒傳送的位元組數和每秒接收的位元組數)
如果您使用超參數調整,可以查看每次試驗的指標。
如要在啟動自訂訓練後查看這些指標,請按照下列步驟操作:
在 Google Cloud 控制台中,根據您是否使用超參數調整功能,前往下列任一頁面:
如果未使用超參數調整功能,請前往「自訂工作」頁面。
如果您使用超參數調整,請前往「超參數調整工作」頁面。
按一下自訂訓練資源的名稱。
如果您建立自訂
TrainingPipeline
資源,請按一下TrainingPipeline
建立的工作名稱,例如TRAINING_PIPELINE_NAME-custom-job
或TRAINING_PIPELINE_NAME-hyperparameter-tuning-job
。按一下「CPU」、「GPU」或「網路」分頁標籤,即可查看您感興趣指標的利用率圖表。
如果您使用超參數調整功能,可以點選「Hyperparamater tuning trials」(超參數調整試驗) 表格中的資料列,查看特定試驗的指標。
如要查看舊版指標或自訂指標的顯示方式,請使用 Monitoring。Vertex AI 會將自訂訓練指標匯出至監控服務,做為前置字元為 ml.googleapis.com/training
的指標類型。受監控的資源類型為 cloudml_job
。
請注意,AI Platform Training 會將指標匯出至 Monitoring,且指標類型和資源類型相同。
端點監控指標
將模型部署至端點後,即可監控端點,瞭解模型效能和資源用量。您可以追蹤流量模式、錯誤率、延遲時間和資源使用率等指標,確保模型能持續穩定地回應要求。舉例來說,您可以重新部署模型並使用其他機器類型,以達到成本最佳化。變更完成後,您可以監控模型,檢查變更是否對模型成效造成負面影響。
在 Cloud Monitoring 中,已部署模型的受監控資源類型為 aiplatform.googleapis.com/Endpoint
。
效能指標
您可以透過效能指標,瞭解模型的流量模式、錯誤和延遲時間。您可以在控制台中查看下列成效指標: Google Cloud
- 每秒預測次數:線上和批次預測每秒的預測次數。如果每個要求有多個執行個體,這張圖表會列出每個執行個體。
- 預測錯誤百分比:模型產生的錯誤率。如果錯誤率偏高,可能表示模型或對模型的請求有問題。查看回應代碼圖表,判斷發生哪些錯誤。
- 模型延遲時間 (僅適用於表格型和自訂模型):執行運算所花費的時間。
- 額外延遲時間 (僅適用於表格和自訂模型):處理要求所花費的總時間,不包括運算時間。
- 總延遲時間:要求在服務中花費的總時間,也就是模型延遲時間加上額外負荷延遲時間。
資源使用情況
資源用量指標可協助您追蹤模型的 CPU 用量、記憶體用量和網路用量。您可以在Google Cloud 控制台中查看下列使用量指標。
- 副本數:已部署模型使用的有效副本數。
- 副本目標:部署模型所需的有效副本數量。
- CPU 用量:已部署模型副本目前的 CPU 核心用量率。 100% 代表一個完全使用的 CPU 核心,因此如果副本的機器類型有多個核心,使用率可能會超過 100%。
- 記憶體用量:已部署模型副本分配的記憶體量,以及目前使用的記憶體量。
- 網路傳送的位元組數:已部署模型副本透過網路傳送的位元組數。
- 收到的網路位元組數:已部署模型副本透過網路接收的位元組數。
- 加速器平均任務週期:在過去取樣期間,一或多個加速器主動處理作業的平均時間比例。
- 加速器記憶體用量:已部署模型副本分配的記憶體量。
查看端點監控指標圖表
前往Google Cloud 控制台的 Vertex AI「Endpoints」(端點) 頁面。
按一下端點名稱即可查看指標。
在圖表間隔下方,按一下「效能」或「資源用量」,即可查看效能或資源用量指標。
您可以選取不同的圖表間隔,查看特定時間範圍內的指標值,例如 1 小時、12 小時或 14 天。
如果端點部署了多個模型,您可以選取或取消選取模型,查看或隱藏特定模型的指標。如果選取多個模型,控制台會將部分模型指標歸入單一圖表。舉例來說,如果指標只提供每個模型一個值,控制台會將模型指標分組到單一圖表中,例如 CPU 使用率。如果指標可為每個模型提供多個值,控制台會為每個模型提供圖表。舉例來說,控制台會提供每個模型的回應代碼圖表。
Vertex AI 特徵儲存庫 (舊版) 監控指標
使用 Vertex AI 特徵儲存庫 (舊版) 建構特徵儲存庫後,即可監控其效能和資源用量,例如線上儲存空間服務延遲時間或線上儲存空間節點數量。舉例來說,更新特徵儲存庫的線上儲存空間節點數後,您可能想監控線上儲存空間服務指標的變化。
在 Cloud Monitoring 中,特徵商店的受控資源類型為 aiplatform.googleapis.com/Featurestore
。
指標
- 要求大小:特徵儲存庫中各實體類型的要求大小。
- 離線儲存空間寫入串流寫入:為離線儲存空間處理的串流寫入要求數。
- 串流寫入離線儲存空間的延遲時間:呼叫寫入 API 與寫入離線儲存空間之間經過的時間 (以秒為單位)。
- 節點數:特徵儲存庫的線上供應節點數量。
- 延遲時間:線上放送或串流擷取要求在服務中花費的總時間。
- 每秒查詢次數:特徵商店處理的線上服務或串流擷取查詢次數。
- 錯誤百分比:處理線上服務或串流擷取要求時,功能商店產生的錯誤百分比。
- CPU 使用率:線上儲存空間使用的 CPU 比例 (由特徵商店分配)。如果線上服務儲存空間超載,這個數字可能會超過 100%。請考慮增加特徵商店的線上服務節點數量,以降低 CPU 使用率。
- CPU 使用率 - 最繁忙的節點:特徵商店線上儲存空間中最繁忙節點的 CPU 負載。
- 離線儲存空間總計:儲存在特徵商店離線儲存空間的資料量。
- 線上儲存空間總量:儲存在特徵商店線上儲存空間的資料量。
- 線上服務處理量:以 MBps 為單位,線上服務要求的處理量。
查看 Feature Store 監控指標圖表
前往Google Cloud 控制台的 Vertex AI「Features」(功能) 頁面。
在「Featurestore」欄中,按一下特徵存放區的名稱,即可查看指標。
您可以選取不同的圖表間隔,查看特定時間範圍內的指標值,例如 1 小時、1 天或 1 週。
對於部分線上放送指標,您可以選擇查看特定方法的指標,進一步依實體類型細分指標。舉例來說,您可以查看
ReadFeatureValues
方法或StreamingReadFeatureValues
方法的延遲時間。
Vertex AI 特徵儲存庫監控指標
使用 Vertex AI 特徵儲存庫設定線上服務後,即可監控其效能和資源使用率。舉例來說,您可以監控 CPU 負載、最佳化線上服務的節點數量,以及服務要求數量。
在 Cloud Monitoring 中,網路商店執行個體的受監控資源類型為 aiplatform.googleapis.com/FeatureOnlineStore
。
指標
儲存的位元組數:線上商店執行個體中的資料量 (以位元組為單位)。
CPU 負載:線上商店執行個體中節點的平均 CPU 負載。
CPU 負載 (最繁忙的節點):線上商店執行個體中最繁忙節點的 CPU 負載。
節點數量:為 Bigtable 線上服務設定的線上商店執行個體線上服務節點數量。
最佳化節點數量:為最佳化線上供應設定的線上商店執行個體,其線上供應節點數量。
要求數:線上商店執行個體收到的要求數。
要求延遲時間:網路商店執行個體伺服器端的要求延遲時間。
回應位元組數:在線上服務回應中傳送的資料量 (以位元組為單位)。
提供資料存在時間:以秒為單位計算的提供資料存在時間,測量方式為目前時間與上次同步時間的差異。
執行中的同步處理作業數量:特定時間點正在執行的同步處理作業數量。
提供資料 (按照同步處理時間區分):按照同步處理時間戳記,細分線上商店執行個體中的資料。