如要監控服務,您至少要有一個服務等級目標 (SLO)。服務等級目標涵蓋了您對該項服務設定的效能目標。每個服務等級目標都以效能指標為依據,這類指標稱為服務水準指標 (SLI)。如需有關 SLI 和 SLO 的背景資訊,請參閱服務監控的概念。
您最多可以為一項服務建立 500 個 SLO。
事前準備
如要取得查看及建立服務等級目標所需的權限,請要求管理員授予您專案的 Monitoring 編輯者 (roles/monitoring.editor
) IAM 角色。如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。
開始使用
如要定義 SLO,請前往「建立服務等級目標 (SLO)」窗格。
-
前往 Google Cloud 控制台的
「SLOs」(服務等級目標) 頁面:
如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果。
開啟「建立服務等級目標 (SLO)」窗格:
如果是新服務:
- 按一下「定義服務」,然後定義服務。
- 在「定義服務」窗格中按一下「提交」後,請按一下「建立 SLO」。
如果是現有服務:
- 在「Services」(服務) 清單中,按一下服務名稱。
- 在「Service details」(服務詳細資料) 頁面上,按一下「Create SLO」(建立 SLO)。
服務等級目標建立窗格會引導您完成建立服務等級目標的步驟。本文的其餘部分將說明建立 SLO 程序的每個步驟:
- 設定 SLI。
- 定義 SLI 詳細資料。
- 設定服務水準目標。
- 檢查並儲存服務等級目標。
如要前往下一個步驟,請按一下「繼續」。您可以按一下上一個步驟,在儲存 SLO 前進行變更。如要結束 SLO 建立程序,請按一下「取消」。
設定 SLI
「設定 SLI」窗格包含下列子窗格:
服務詳細資料:這份報告會提供服務的識別資訊。這與服務資訊主頁上的「服務詳細資料」窗格相同。
選擇指標:選擇要監控成效的指標。
以要求為準或以時間為準?:選擇指標的評估方式。
下列螢幕截圖顯示 SLI 窗格:
如要進一步瞭解服務水準指標 (SLI) 中使用的指標和評估方法,請參閱「服務水準指標」概念主題。
選擇指標
SLI 指標會指定您想測量的成效類型。在 SLI 中,您會根據指標建立比率,以測量一段時間內的良好成效。您可以選擇下列 SLI:
- 可用性:評估使用者是否能輕鬆存取您的服務。
- 延遲時間,用於評估服務對使用者的回應速度。
- 其他:表示您要使用特定指標。您可以在「設定 SLI 詳細資料」窗格中指定指標,並說明如何建構 SLI。
有效選項取決於您要設定的服務類型。
如果是 Cloud Service Mesh、Google Kubernetes Engine 上的 Istio 和 App Engine 服務,您可以選擇任一選項。 這些服務的可用性和延遲時間指標已為人所知, 或者您選擇「其他」來使用自訂 SLI。
如果是以 GKE 為基礎的服務和自訂服務,則只能選擇「其他」。預設的可用性和延遲時間 SLO 不會納入 Prometheus 指標,且這些服務的其他重要可用性或延遲時間指標事先未知。
如果您使用 Google Cloud Managed Service for Prometheus 設定 Prometheus 指標的收集作業,可以將收集到的 Prometheus 指標設為自訂 SLI。
選擇評估方法
選取 SLI 的指標後,請指定指標的評估方式。
以要求為準的評估方式,是計算在特定期間內,符合評估條件的要求數量,並與要求總數進行比較。
以時間範圍為依據的評估方式,是將符合良好條件的評估週期數量與評估週期的總數量進行比較。
無論使用哪種評估方法,您都可以在「設定 SLI 詳細資料」頁面指定評估條件。
如要進一步瞭解這些評估類型,請參閱「以要求和時間範圍為準的服務等級目標的合規性」。
設定 SLI 詳細資料
「定義 SLI 詳細資料」窗格的內容取決於您在上一個步驟中選擇的指標和評估方法。
如果您選擇可用性指標和以要求為準的評估,則無需提供其他詳細資料。
以時間為準的評估
如果您選取以時間範圍為準的評估方式,請在這個窗格中設定時間範圍的其他條件:良好條件和時間長度。
良好條件是指在評估期間內,必須評估為「良好」的時間範圍百分比。時間長度會指定時間範圍的長度。
延遲指標
如果您選擇延遲指標,請在這個窗格中指定門檻值,決定可接受的效能:
評估 SLI 時,如果延遲時間超過門檻,就會視為「不良」成效。
自訂 SLI
如果選取「其他」做為 SLI 指標,請在這個窗格中指定要使用的指標。您可以在「成效指標」欄位中輸入指標,或從清單中選取。
清單中的指標分為兩種類型:
- 分配比例指標
- 時間序列比例指標
如果您使用 Google Cloud Managed Service for Prometheus 收集 Prometheus 指標,指標名稱會以 prometheus.googleapis.com/
開頭。
以下螢幕截圖顯示部分清單:
如果選取分配比例指標,請提供範圍 (高於、低於或介於) 和篩選器,指定要監控的資源和要納入的任何標籤,藉此設定服務水準指標。設定窗格如下所示:
如果選取時間序列比率指標,請建立分子和分母篩選器來分類指標資料,通常是選取指標或資源類型中的標籤值,藉此設定比率。設定窗格如下所示:
如要進一步瞭解這些 SLI 類型,請參閱 Monitoring API 參考頁面的 DistributionCut
和 TimeSeriesRatio
。
GKE 控制層指標
GKE 控制層指標是實用的系統健康狀態指標,可用於自訂 SLI。您必須先啟用這些指標的收集功能,才能使用這些指標。這些指標是由 Google Cloud Managed Service for Prometheus 收集。
- 使用 [API 伺服器指標][gke-api-metrics] 追蹤 API 伺服器負載、傳回錯誤的 API 伺服器要求比例,以及 API 伺服器接收到的要求回應延遲時間。
- 如果待處理 Pod 的資源不足,請使用排程器指標主動解決排程問題。
如要進一步瞭解控制層指標,以及如何使用這些指標監控系統健康狀態,請參閱「使用控制層指標」一文。
預覽圖表
設定 SLI 後,「定義 SLI 詳細資料」窗格會顯示預覽圖表,說明 SLI 如何評估這項服務的歷來成效。例如:
如果您剛建立或部署服務,可能還沒有任何資料。您還是可以建立 SLI,但無法取得歷史觀點。
設定服務水準目標
「設定服務水準目標」窗格包含下列區域:
達標週期:設定要評估 SLI 的時間範圍。
成效目標:指定合規期間的成效門檻。
「預覽」:顯示圖表,說明成效目標門檻,以及評估服務等級指標在法規遵循期間的結果。
評估時間範圍
您可以從選單中選取兩種合規週期:
- 日曆週期
- 滾動週期
日曆週期會評估固定時間範圍 (即週期長度) 內的合規情形。週期結束時,錯誤預算會重設,並開始新的法規遵循週期。
回溯期是滑動的時間範圍。這項指標也有長度,但合規程度是根據過去 n 天計算得出。新的一天開始時,系統會根據前 n 天重新計算法規遵循狀態和剩餘錯誤預算。
如要進一步瞭解日曆和滾動式回溯期,請參閱「法規遵循期」。
預覽圖表
設定服務水準目標後,「設定服務水準目標」窗格會顯示預覽圖表,說明服務水準目標如何評估這項服務的歷來成效。例如:
如果您剛建立或部署服務,可能還沒有任何資料。您還是可以建立 SLO,但無法取得歷史觀點。
正在儲存服務等級目標
「查看並儲存」窗格只有一個欄位,也就是服務等級目標的顯示名稱。這個欄位會根據您定義 SLO 時所做的選取項目提供預設值,但您可以變更這個值,讓顯示名稱更具敘述性。
窗格也會以 JSON 格式預先發布服務水準目標。JSON 區塊會匯總您的 SLO,並可複製以搭配 serviceLevelObjectives.create
方法使用。變更任何服務等級目標值時,JSON 預覽畫面會自動更新。
下方的螢幕截圖顯示含有預設名稱的欄位:
確認顯示名稱正確無誤後,按一下「建立服務水準目標」。
後續步驟
建立 SLO 後,您可以執行下列操作:
在 Cloud Monitoring 中建立自訂資訊主頁,顯示服務等級目標圖表,即可查看一組服務的所有服務等級目標狀態。詳情請參閱「建立自訂資訊主頁」和「在資訊主頁上顯示 SLO」。