本頁內容適用於 Apigee 和 Apigee Hybrid。
查看
Apigee Edge 說明文件。
作業異常狀況總覽
「作業異常」會根據近期資料模式,找出 API 中異常或出乎意料的 API 資料模式。舉例來說,在 API 錯誤率的這張圖表中,錯誤率在早上 7 點左右突然大幅上升。與該時間之前的資料相比,這項增幅異常,因此可歸類為異常狀況。

API 資料中的變異不一定都是異常狀況,大多數是隨機波動。舉例來說,您可能會發現錯誤率在異常狀況發生前有些微變化,但這些變化不夠顯著,因此不會歸類為異常狀況。

作業異常情況會持續監控 API 資料並執行統計分析,從資料中的隨機波動中區分出真正的異常情況。
作業異常狀況會自動偵測下列異常類型:
- 機構、環境和區域層級的 HTTP 503 錯誤增加
- 機構、環境和區域層級的 HTTP 504 錯誤增加
- 機構、環境和區域層級的所有 HTTP 4xx 或 5xx 錯誤增加
- 機構、環境和區域層級的第 90 百分位數 (p90) 回應延遲總時間增加
偵測到的異常狀況會包含下列資訊:
- 導致異常的指標,例如 Proxy 延遲或 HTTP 錯誤代碼。
- 異常狀況的嚴重程度。嚴重程度可能為輕微、中等或嚴重,具體情況取決於模型的可信度。如果信心水準較低,代表嚴重程度較輕微;如果信心水準較高,代表嚴重程度較嚴重。
使用作業異常狀況的先決條件
如何使用作業異常狀況:
- 貴機構必須啟用 AAPI Ops 外掛程式。請參閱「在機構中啟用 AAPI Ops」。
- 如要使用「營運異常」,使用者必須具備 AAPI Ops 的必要角色。
- 在資訊主頁中調查異常狀況的使用者也需要
roles/logging.viewer
角色。
查看偵測到的作業異常狀況
「作業異常狀況」偵測到異常狀況時,會在「作業異常狀況」資訊主頁中顯示異常狀況詳細資料。您可以在 API 監控資訊主頁中調查異常狀況,並在必要時採取適當行動。您也可以建立快訊,在日後發生類似事件時收到通知。
Apigee 使用者介面中的「Operations Anomalies」資訊主頁,是您取得偵測到的作業異常狀況資訊的主要來源。資訊主頁會顯示最近的異常狀況清單。
如要開啟「營運異常」資訊主頁,請按照下列步驟操作:
- 登入 Cloud 控制台中的 Apigee UI。
- 切換至要監控的機構。
- 在左選單中,依序選取「Analytics」>「Operations Anomalies」。
系統會顯示「營運異常狀況」資訊主頁。

根據預設,資訊主頁會顯示前一小時發生的異常狀況。 如果該時間範圍內未偵測到任何異常狀況,資訊主頁就不會顯示任何資料列。您可以從資訊主頁右上角的時間範圍選單中,選取較大的時間範圍。

表格中的每一列都對應到偵測到的異常狀況,並顯示下列資訊:
- 異常狀況的日期和時間。
- 異常狀況的簡短摘要,包括發生異常的 Proxy 和觸發異常的錯誤代碼。
- 發生異常狀況的環境。
- 發生異常的區域。
- 異常事件的嚴重程度:輕微、中等或嚴重。嚴重程度是根據統計測量值 (P 值) 判斷,也就是事件偶然發生的機率 (事件越不可能發生,嚴重程度就越高)。
您也可以在 API 監控資訊主頁中調查異常狀況,該資訊主頁會顯示近期 API 流量資料的各種圖表。
異常偵測功能的運作方式
異常偵測包含下列階段:
訓練模型
作業異常偵測功能會根據歷來時間序列資料,訓練 API Proxy 行為模型。您無須採取任何行動來訓練模型。Apigee 會自動根據前六小時的 API 資料建立及訓練模型。因此,Apigee 必須先取得 API Proxy 至少六小時的資料,才能訓練模型並記錄異常狀況。
訓練的目的是提高模型準確度,然後以歷來資料測試模型。如要測試模型準確率,最簡單的方法是計算錯誤率,也就是將正向誤判和負向誤判加總,然後除以預測事件總數。
記錄異常事件
在執行階段,Operations Anomalies 會比較 API Proxy 的目前行為與模型預測的行為。然後,作業異常狀況就能以特定信賴度,判斷作業指標何時會超出預測值。舉例來說,當 5xx 錯誤率超過模型預測的錯誤率時。
Apigee 偵測到異常狀況時,會自動將事件記錄在「Operations Anomalies」資訊主頁中。資訊主頁顯示的事件清單包含所有偵測到的異常狀況,以及觸發的快訊。