如要監控服務,您至少要有一個服務等級目標 (SLO)。服務等級目標涵蓋了您對該項服務設定的效能目標。每個服務等級目標都以效能指標為依據,這類指標稱為服務水準指標 (SLI)。如需有關 SLI 和 SLO 的背景資訊,請參閱服務監控的概念。
您最多可以為一項服務建立 500 個 SLO。
事前準備
    
      如要取得查看及建立服務等級目標所需的權限,請要求管理員授予您專案的 Monitoring 編輯者 (roles/monitoring.editor) IAM 角色。如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。
  
  
開始使用
如要定義 SLO,請前往「建立服務等級目標 (SLO)」窗格。
- 
前往 Google Cloud 控制台的  「SLOs」(服務等級目標) 頁面: 「SLOs」(服務等級目標) 頁面:如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果。 
- 開啟「建立服務等級目標 (SLO)」窗格: - 如果是新服務: - 按一下「定義服務」,然後定義服務。
- 在「定義服務」窗格中按一下「提交」後,請按一下「建立 SLO」。
 - 如果是現有服務: - 在「Services」(服務) 清單中,按一下服務名稱。
- 在「Service details」(服務詳細資料) 頁面上,按一下「Create SLO」(建立 SLO)。
 
服務等級目標建立窗格會引導您完成建立服務等級目標的步驟。本文的其餘部分將說明建立 SLO 程序的每個步驟:
- 設定 SLI。
- 定義 SLI 詳細資料。
- 設定 SLO。
- 檢查並儲存服務等級目標。
如要前往下一個步驟,請按一下「繼續」。您可以按一下上一個步驟,在儲存 SLO 前進行變更。如要結束 SLO 建立程序,請按一下「取消」。
設定 SLI
「設定 SLI」窗格包含下列子窗格:
- 服務詳細資料:這份報告會提供服務的識別資訊。這與服務資訊主頁上的「服務詳細資料」窗格相同。 
- 選擇指標:選擇要監控成效的指標。 
- 以要求為準或以時間為準?,選擇指標的評估方式。 
下列螢幕截圖顯示 SLI 窗格:
 
 
如要進一步瞭解服務水準指標 (SLI) 中使用的指標和評估方法,請參閱「服務水準指標」概念主題。
選擇指標
SLI 指標會指定您想測量的成效類型。在 SLI 中,您會根據指標建立比率,以測量一段時間內的良好成效。您可以選擇下列 SLI:
- 可用性:評估使用者是否能輕鬆存取您的服務。
- 延遲時間,用於評估服務對使用者的回應速度。
- 其他:表示您要使用特定指標。您可以在「設定 SLI 詳細資料」窗格中指定指標,並說明如何建構 SLI。
有效選項取決於您要設定的服務類型。
- 如果是 Cloud Service Mesh、Google Kubernetes Engine 上的 Istio 和 App Engine 服務,您可以選擇任一選項。 這些服務的可用性和延遲時間指標已為人所知, 或者您選擇「其他」來使用自訂 SLI。 
- 如果是以 GKE 為基礎的服務和自訂服務,則只能選擇「其他」。預設的可用性和延遲時間 SLO 不會納入 Prometheus 指標,且這些服務的其他重要可用性或延遲時間指標事先未知。 - 如果您使用 Google Cloud Managed Service for Prometheus 設定 Prometheus 指標的收集作業,可以將收集到的 Prometheus 指標設為自訂 SLI。 
選擇評估方法
選取 SLI 的指標後,請指定指標的評估方式。
- 以要求為準的評估方式,是計算在特定期間內,符合評估條件的要求數量,並與要求總數進行比較。 
- 以時間範圍為依據的評估方式,是將符合良好條件的評估週期數量與評估週期的總數量進行比較。 
無論採用哪種評估方法,您都可以在「設定 SLI 詳細資料」頁面指定評估條件。
如要進一步瞭解這些評估類型,請參閱「以要求和時間範圍為準的服務等級目標的合規性」。
設定 SLI 詳細資料
「定義 SLI 詳細資料」窗格的內容取決於您在上一個步驟中選擇的指標和評估方法。
如果您選擇可用性指標和以要求為準的評估,則無需提供其他詳細資料。
以時間範圍為依據
如果您選取以時間範圍為準的評估方式,請在這個窗格中設定時間範圍的其他條件:良好條件和時間長度。
 
 
良好條件是指在評估期間內,必須評估為「良好」的時間範圍百分比。時間長度會指定時間範圍的長度。
延遲指標
如果您選擇延遲指標,請在這個窗格中指定門檻值,決定可接受的效能:
 
 
評估 SLI 時,如果延遲時間超過門檻,就會視為「不良」成效。
自訂 SLI
如果選取「其他」做為 SLI 指標,請在這個窗格中指定要使用的指標。您可以在「成效指標」欄位中輸入指標,或從清單中選取。
清單中的指標分為兩種類型:
- 分配比例指標
- 時間序列比率指標
如果您使用 Google Cloud Managed Service for Prometheus 收集 Prometheus 指標,指標名稱會以 prometheus.googleapis.com/ 開頭。
以下螢幕截圖顯示部分清單:
 
 
如果選取分配比例指標,請提供範圍 (高於、低於或介於) 和篩選器,指定要監控的資源和要納入的任何標籤,藉此設定服務水準指標。設定窗格如下所示:
 
 
如果選取時間序列比率指標,請建立分子和分母篩選器來分類指標資料,通常是選取指標或資源類型中的標籤值,藉此設定比率。設定窗格如下所示:
 
 
如要進一步瞭解這些 SLI 類型,請參閱 Monitoring API 參考頁面的 DistributionCut 和 TimeSeriesRatio。
GKE 控制層指標
GKE 控制層指標是實用的系統健康狀態指標,可用於自訂 SLI。您必須先啟用這些指標的收集功能,才能使用這些指標。這些指標是由 Google Cloud Managed Service for Prometheus 收集。
- 使用 [API 伺服器指標][gke-api-metrics] 追蹤 API 伺服器負載、傳回錯誤的 API 伺服器要求比例,以及 API 伺服器接收到的要求回應延遲時間。
- 如果待處理 Pod 的資源不足,請使用排程器指標主動解決排程問題。
如要進一步瞭解控制層指標,以及如何使用這些指標監控系統健康狀態,請參閱「使用控制層指標」一文。
預覽圖表
設定 SLI 後,「定義 SLI 詳細資料」窗格會顯示預覽圖表,說明 SLI 如何評估這項服務的歷來成效。例如:
 
 
如果您剛建立或部署服務,可能還沒有任何資料。您還是可以建立 SLI,但無法取得歷史觀點。
設定服務水準目標
「設定 SLO」窗格包含下列區域:
- 達標週期:設定要評估 SLI 的時間範圍。 
- 成效目標:指定合規期間的成效門檻。 
- 「預覽」:顯示圖表,說明成效目標門檻,以及評估服務等級指標在法規遵循期間的結果。 
 
 
評估時間範圍
您可以從選單中選取兩種合規週期:
- 日曆週期
- 滾動週期
日曆週期會評估固定時間範圍 (即週期長度) 內的合規情形。週期結束時,錯誤預算會重設,並開始新的法規遵循週期。
回溯期是滑動的時間範圍。這項指標也有長度,但合規程度是根據過去 n 天計算得出。新的一天開始時,系統會根據前 n 天重新計算法規遵循狀態和剩餘錯誤預算。
如要進一步瞭解日曆和滾動式回溯期,請參閱「法規遵循期」。
預覽圖表
設定服務水準目標後,「設定服務水準目標」窗格會顯示預覽圖表,說明服務水準目標如何評估這項服務的歷來成效。例如:
 
 
如果您剛建立或部署服務,可能還沒有任何資料。您還是可以建立 SLO,但無法取得歷史觀點。
正在儲存服務等級目標
「查看並儲存」窗格只有一個欄位,也就是服務等級目標的顯示名稱。這個欄位會根據您定義 SLO 時所做的選取項目提供預設值,但您可以變更這個值,讓顯示名稱更具敘述性。
窗格也會以 JSON 格式預覽 SLO。JSON 區塊會匯總您的 SLO,並可複製以搭配 serviceLevelObjectives.create 方法使用。變更任何服務等級目標值時,JSON 預覽畫面會自動更新。
下方的螢幕截圖顯示含有預設名稱的欄位:
 
 
確認顯示名稱正確無誤後,按一下「建立服務水準目標」。
後續步驟
建立 SLO 後,您可以執行下列操作:
- 在 Cloud Monitoring 中建立自訂資訊主頁,顯示服務等級目標圖表,即可查看一組服務的所有服務等級目標狀態。詳情請參閱「建立自訂資訊主頁」和「在資訊主頁上顯示 SLO」。