建立服務等級目標

如要監控服務,您至少要有一個服務等級目標 (SLO)。服務等級目標涵蓋了您對該項服務設定的效能目標。每個服務等級目標都以效能指標為依據,這類指標稱為服務水準指標 (SLI)。如需有關 SLI 和 SLO 的背景資訊,請參閱服務監控的概念

您最多可以為一項服務建立 500 個 SLO。

事前準備

如要取得查看及建立服務等級目標所需的權限,請要求管理員授予您專案的 Monitoring 編輯者 (roles/monitoring.editor) IAM 角色。如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。

您或許還可透過自訂角色或其他預先定義的角色取得必要權限。

開始使用

如要定義 SLO,請前往「建立服務等級目標 (SLO)」窗格。

  1. 前往 Google Cloud 控制台的 「SLOs」(服務等級目標) 頁面

    前往「SLOs」(服務等級目標)

    如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果

  2. 開啟「建立服務等級目標 (SLO)」窗格:

    如果是新服務:

    1. 按一下「定義服務」,然後定義服務
    2. 在「定義服務」窗格中按一下「提交」後,請按一下「建立 SLO」

    如果是現有服務:

    1. 在「Services」(服務) 清單中,按一下服務名稱。
    2. 在「Service details」(服務詳細資料) 頁面上,按一下「Create SLO」(建立 SLO)

服務等級目標建立窗格會引導您完成建立服務等級目標的步驟。本文的其餘部分將說明建立 SLO 程序的每個步驟:

  1. 設定 SLI。
  2. 定義 SLI 詳細資料。
  3. 設定服務水準目標。
  4. 檢查並儲存服務等級目標。

如要前往下一個步驟,請按一下「繼續」。您可以按一下上一個步驟,在儲存 SLO 前進行變更。如要結束 SLO 建立程序,請按一下「取消」

設定 SLI

「設定 SLI」窗格包含下列子窗格:

  • 服務詳細資料:這份報告會提供服務的識別資訊。這與服務資訊主頁上的「服務詳細資料」窗格相同。

  • 選擇指標:選擇要監控成效的指標。

  • 以要求為準或以時間為準?:選擇指標的評估方式。

下列螢幕截圖顯示 SLI 窗格:

使用「設定 SLI」窗格選擇成效指標

如要進一步瞭解服務水準指標 (SLI) 中使用的指標和評估方法,請參閱「服務水準指標」概念主題。

選擇指標

SLI 指標會指定您想測量的成效類型。在 SLI 中,您會根據指標建立比率,以測量一段時間內的良好成效。您可以選擇下列 SLI:

  • 可用性:評估使用者是否能輕鬆存取您的服務。
  • 延遲時間,用於評估服務對使用者的回應速度。
  • 其他:表示您要使用特定指標。您可以在「設定 SLI 詳細資料」窗格中指定指標,並說明如何建構 SLI。

有效選項取決於您要設定的服務類型。

  • 如果是 Cloud Service Mesh、Google Kubernetes Engine 上的 Istio 和 App Engine 服務,您可以選擇任一選項。 這些服務的可用性和延遲時間指標已為人所知, 或者您選擇「其他」來使用自訂 SLI。

  • 如果是以 GKE 為基礎的服務和自訂服務,則只能選擇「其他」。預設的可用性和延遲時間 SLO 不會納入 Prometheus 指標,且這些服務的其他重要可用性或延遲時間指標事先未知。

    如果您使用 Google Cloud Managed Service for Prometheus 設定 Prometheus 指標的收集作業,可以將收集到的 Prometheus 指標設為自訂 SLI。

選擇評估方法

選取 SLI 的指標後,請指定指標的評估方式。

  • 以要求為準的評估方式,是計算在特定期間內,符合評估條件的要求數量,並與要求總數進行比較。

  • 以時間範圍為依據的評估方式,是將符合良好條件的評估週期數量與評估週期的總數量進行比較。

無論使用哪種評估方法,您都可以在「設定 SLI 詳細資料」頁面指定評估條件。

如要進一步瞭解這些評估類型,請參閱「以要求和時間範圍為準的服務等級目標的合規性」。

設定 SLI 詳細資料

「定義 SLI 詳細資料」窗格的內容取決於您在上一個步驟中選擇的指標和評估方法。

如果您選擇可用性指標和以要求為準的評估,則無需提供其他詳細資料。

以時間為準的評估

如果您選取以時間範圍為準的評估方式,請在這個窗格中設定時間範圍的其他條件:良好條件和時間長度。

選擇良好條件和評估週期,設定 SLI 時間範圍。

良好條件是指在評估期間內,必須評估為「良好」的時間範圍百分比。時間長度會指定時間範圍的長度。

延遲指標

如果您選擇延遲指標,請在這個窗格中指定門檻值,決定可接受的效能:

為 SLI 設定延遲門檻。

評估 SLI 時,如果延遲時間超過門檻,就會視為「不良」成效。

自訂 SLI

如果選取「其他」做為 SLI 指標,請在這個窗格中指定要使用的指標。您可以在「成效指標」欄位中輸入指標,或從清單中選取。

清單中的指標分為兩種類型:

  • 分配比例指標
  • 時間序列比例指標

如果您使用 Google Cloud Managed Service for Prometheus 收集 Prometheus 指標,指標名稱會以 prometheus.googleapis.com/ 開頭。

以下螢幕截圖顯示部分清單:

選單中的指標會依指標類型分類。

如果選取分配比例指標,請提供範圍 (高於、低於或介於) 和篩選器,指定要監控的資源和要納入的任何標籤,藉此設定服務水準指標。設定窗格如下所示:

設定發行剪輯指標的範圍和篩選條件。

如果選取時間序列比率指標,請建立分子和分母篩選器來分類指標資料,通常是選取指標或資源類型中的標籤值,藉此設定比率。設定窗格如下所示:

為時間序列比率設定分子和分母篩選器。

如要進一步瞭解這些 SLI 類型,請參閱 Monitoring API 參考頁面的 DistributionCutTimeSeriesRatio

GKE 控制層指標

GKE 控制層指標是實用的系統健康狀態指標,可用於自訂 SLI。您必須先啟用這些指標的收集功能,才能使用這些指標。這些指標是由 Google Cloud Managed Service for Prometheus 收集。

  • 使用 [API 伺服器指標][gke-api-metrics] 追蹤 API 伺服器負載、傳回錯誤的 API 伺服器要求比例,以及 API 伺服器接收到的要求回應延遲時間。
  • 如果待處理 Pod 的資源不足,請使用排程器指標主動解決排程問題。

如要進一步瞭解控制層指標,以及如何使用這些指標監控系統健康狀態,請參閱「使用控制層指標」一文。

預覽圖表

設定 SLI 後,「定義 SLI 詳細資料」窗格會顯示預覽圖表,說明 SLI 如何評估這項服務的歷來成效。例如:

完成的 SLI 會顯示根據歷來資料繪製的圖表。

如果您剛建立或部署服務,可能還沒有任何資料。您還是可以建立 SLI,但無法取得歷史觀點。

設定服務水準目標

「設定服務水準目標」窗格包含下列區域:

  • 達標週期:設定要評估 SLI 的時間範圍。

  • 成效目標:指定合規期間的成效門檻。

  • 「預覽」:顯示圖表,說明成效目標門檻,以及評估服務等級指標在法規遵循期間的結果。

選擇評估時間範圍和效能目標,設定 SLO。

評估時間範圍

您可以從選單中選取兩種合規週期:

  • 日曆週期
  • 滾動週期

日曆週期會評估固定時間範圍 (即週期長度) 內的合規情形。週期結束時,錯誤預算會重設,並開始新的法規遵循週期。

回溯期是滑動的時間範圍。這項指標也有長度,但合規程度是根據過去 n 天計算得出。新的一天開始時,系統會根據前 n 天重新計算法規遵循狀態和剩餘錯誤預算。

如要進一步瞭解日曆和滾動式回溯期,請參閱「法規遵循期」。

預覽圖表

設定服務水準目標後,「設定服務水準目標」窗格會顯示預覽圖表,說明服務水準目標如何評估這項服務的歷來成效。例如:

完成的服務水準目標會根據歷來資料顯示圖表。

如果您剛建立或部署服務,可能還沒有任何資料。您還是可以建立 SLO,但無法取得歷史觀點。

正在儲存服務等級目標

「查看並儲存」窗格只有一個欄位,也就是服務等級目標的顯示名稱。這個欄位會根據您定義 SLO 時所做的選取項目提供預設值,但您可以變更這個值,讓顯示名稱更具敘述性。

窗格也會以 JSON 格式預先發布服務水準目標。JSON 區塊會匯總您的 SLO,並可複製以搭配 serviceLevelObjectives.create 方法使用。變更任何服務等級目標值時,JSON 預覽畫面會自動更新。

下方的螢幕截圖顯示含有預設名稱的欄位:

Monitoring 會為服務等級目標產生預設名稱。

確認顯示名稱正確無誤後,按一下「建立服務水準目標」

後續步驟

建立 SLO 後,您可以執行下列操作: