本文說明如何設定通知,在應用程式失敗或效能未達到既定條件時收到通知。
警報的運作方式
Cloud Monitoring 快訊程序包含三個部分:
快訊政策:說明您希望在哪些情況下收到快訊,以及事件通知方式。快訊政策可以監控 Monitoring 儲存的時間序列資料,或 Cloud Logging 儲存的記錄。當資料符合快訊政策條件時,Monitoring 會建立事件並傳送通知。
每項事件都是記錄,說明監控的資料類型和符合條件的時間。這項資訊有助於排解導致事件發生的問題。
通知管道會定義 Monitoring 建立事件時,您接收通知的方式。舉例來說,您可以設定快訊政策,透過電子郵件傳送快訊
my-support-team@example.com
,並將快訊發布至 Slack 管道#my-support-team
。快訊政策可包含一或多個通知管道。
快訊政策可以評估三種資料:
時間序列資料 (也稱為指標資料),由 Monitoring 儲存。這類政策稱為「以指標為準」的快訊政策。
如要瞭解如何設定以指標為準的快訊政策,請參閱 Compute Engine 快速入門導覽課程。
Cloud Logging 儲存的記錄項目資料。評估個別記錄項目的快訊政策稱為「記錄檔快訊政策」。記錄式快訊政策會在記錄中出現特定訊息時通知您。詳情請參閱「監控記錄」。
在記錄檔分析中對儲存在 Cloud Logging 中的記錄項目資料執行 SQL 查詢,監控 SQL 查詢結果的快訊政策稱為以 SQL 為準的快訊政策。詳情請參閱「使用快訊政策監控 SQL 查詢結果」。
以 SQL 為基礎的警告政策目前為公開預先發布版。
當應用程式的效能未達到可接受的值時,警報程序可協助您回應問題。舉例來說,您將網頁應用程式部署到 Compute Engine 虛擬機器 (VM) 執行個體。您預期 HTTP 回應延遲會波動,但希望支援團隊在應用程式長時間出現高延遲時做出回應。您可以建立以指標為準的快訊政策,監控應用程式的 HTTP 回應延遲指標。如果回應延遲時間至少五分鐘都超過兩秒,Monitoring 會建立事件,並傳送電子郵件通知給支援團隊。
如何建立快訊政策
建立快訊政策的方法有很多種。舉例來說,您可以從整合服務或控制台的特定頁面啟用建議快訊,使用預先設定的快訊政策。 Google Cloud 您也可以使用Google Cloud 控制台、Cloud Monitoring API、Google Cloud CLI 和 Terraform 設定新的警報政策。
使用整合功能和建議的快訊政策
Monitoring 提供預先建構的套件,方便您為Google Cloud 服務和第三方整合項目建立快訊政策。這些套件包含建議的快訊政策、範例資訊主頁,以及服務的重要指標。這些套件適用於 Google Kubernetes Engine、Compute Engine 和 Cloud SQL 等Google Cloud 服務,以及 MongoDB、Kafka 和 Elasticsearch 等常見的第三方整合服務。
安裝套件時,您可以啟用套件的建議快訊政策。啟用建議的快訊政策時,請設定通知管道,並視需要修改其他值。設定完成後,系統會立即開始監控目標,不需要使用者進一步輸入任何設定值。
部署新服務並想針對重要指標發出快訊時,建議使用快訊政策。舉例來說,Cloud SQL 整合套件隨附建議的快訊政策,可針對執行個體失敗和交易緩慢的情況發出快訊:
如要進一步瞭解快訊整合,請參閱「監控第三方應用程式」。
建立新的快訊政策
您可以根據快訊需求建立快訊政策,監控不同類型的資料。以下各節列出可透過快訊政策監控的各種資料類型。
監控時間序列資料
條件類型 | 說明 | 範例 |
---|---|---|
指標門檻值條件 | 當指標值在特定重測時間範圍內高於或低於門檻時,即符合指標門檻條件。 詳情請參閱建立指標閾值快訊政策和使用 API 建立快訊政策。 |
您希望建立快訊政策,在連續五次運作時間檢查中,回應延遲時間超過 10 分鐘且達到 500 毫秒以上時,傳送通知。 |
缺少指標條件 | 如果受監控的時間序列在特定重試時間範圍內沒有任何資料,就會符合缺少指標條件。最長重新測試時間為 23.5 小時。 詳情請參閱建立指標缺席快訊政策和使用 API 建立快訊政策。 | 您希望在資源五分鐘內未回應任何 HTTP 要求時,警報政策會開啟事件,並通知支援團隊。 |
預測指標值條件 | 當快訊政策預測在即將到來的預測時間範圍內,會違反臨界值時,即符合預測指標值條件。預測時間範圍可從 1 小時到 7 天。 詳情請參閱建立預測指標值快訊政策和使用 API 建立快訊政策。 |
您希望建立快訊政策,在資源可能於 24 小時內達到 80% 的磁碟空間用量時,向支援團隊開啟事件。 |
監控記錄項目資料
如要監控個別記錄項目,請使用記錄檔型快訊政策。
當快訊政策偵測到記錄檔項目中的片語符合快訊政策條件時,就會滿足記錄檔快訊政策的條件。舉例來說,您希望在記錄項目包含 message
時,警告政策會向支援團隊回報事件。product_ids=['tier_1_support', 'tier_2_support']
詳情請參閱記錄記錄說明文件中的「設定以記錄為準的快訊政策」。
監控 SQL 查詢結果
如要監控 SQL 查詢結果,請使用以 SQL 為基礎的警報政策。
以 SQL 為基礎的警告政策條件會定期分析記錄檔項目資料,並在查詢結果表格符合特定條件時建立事件。如果您需要監控多個記錄項目中資料匯總或複雜模式的快訊政策,這類快訊政策就相當實用。舉例來說,您希望在過去 60 分鐘內,有超過 50 個記錄項目的嚴重程度為 WARNING
時收到通知。
詳情請參閱記錄檔說明文件中的「使用警報政策監控 SQL 查詢結果」。
快訊政策元件
每項警報政策都包含下列元件:
條件,說明資源或資源群組何時處於需要您回應的狀態。條件包括資料來源、靜態或動態門檻,以及資料匯總方法,例如篩選器和 groupby。條件可以監控單一指標、多個指標或指標比率。您也可以使用 Prometheus 查詢語言 (PromQL),納入動態門檻和條件邏輯等複雜運算式。
如果您使用整合功能啟用建議的快訊政策,系統會預先填入快訊政策條件。
通知管道清單,說明需要採取行動時要通知哪些人。詳情請參閱「建立及管理通知管道」。
通知和事件頁面中顯示的說明文件。您可以設定通知的主旨行,並在通知內文中加入實用資訊。舉例來說,您可以設定通知,顯示內部手冊或自訂資訊主頁等 Google Cloud 頁面的連結。如要進一步瞭解說明文件 (包括範例),請參閱「使用使用者定義的說明文件為事件加上註解」。
查詢語言
在警告政策中使用查詢語言和篩選器,進一步控管指標評估作業。監控功能支援下列查詢類型:
Prometheus 查詢語言 (PromQL) 是一種函式查詢語言,用於即時評估時間序列資料。您可以設定快訊政策,在條件中加入 PromQL 查詢。PromQL 查詢可以使用任何有效運算式,例如指標組合、比率和縮放比例門檻。在 Google Cloud中設定以 PromQL 為基礎的快訊政策,即可減少對外部快訊基礎架構的依附元件。詳情請參閱「在 Cloud Monitoring 中使用 PromQL」和「PromQL 警報總覽」。
監控篩選器可讓您設定快訊政策,以使用篩選器式指標比率。您無法在 Google Cloud 控制台中查看或修改以篩選條件為準的快訊政策。如需使用 Monitoring 篩選器的政策範例,請參閱「指標比率」。
監控查詢語言 (MQL) 是一種文字型運算介面,可讓您擷取、篩選及操控時間序列資料。您可以建立警告政策,並在條件中加入 Monitoring Query Language 警告作業。詳情請參閱「Monitoring Query Language 總覽」和「使用 MQL 的快訊政策」。
管理快訊政策和事件
啟用警告政策後,監控功能會持續監控該政策的條件。您無法設定警報政策,只監控特定時間範圍內的狀況。如要暫時停用快訊政策,請建立暫緩。
如果事件處於開啟狀態,且 Monitoring 判定不再符合以指標為準的政策條件,Monitoring 就會自動關閉事件,並傳送事件關閉通知。
定價
一般來說,Cloud Monitoring 系統指標是免費的,但外部系統、代理程式或應用程式的指標則否。系統會根據擷取的位元組數或樣本數,對可計費指標收費。
詳情請參閱 Google Cloud 可觀測性定價頁面的 Cloud Monitoring 部分。
如要瞭解如何監控擷取的追蹤跨度或記錄數量,或在記錄項目中包含特定內容時收到通知,請參閱下列文件:
後續步驟
如要瞭解通知延遲,以及快訊政策參數的選擇如何影響通知傳送時間,請參閱「以指標為基礎的快訊政策行為」。
如需以指標為基礎的政策範例清單,請參閱範例快訊政策摘要。