本頁面由 Cloud Translation API 翻譯而成。

叢集監控指南

總覽

本指南提供 Apigee Hybrid 部署作業的監控指南，說明要監控的項目和監控方式。適用於混合式叢集管理員和機構管理員。

如果您是 Google Cloud 監控服務的新手，請參閱 Google Cloud Monitoring 說明文件，瞭解如何使用指標探索器建立圖表，以及快訊的運作方式。

Apigee Hybrid 叢集提供服務水準指標 (SLI) 指標，協助您瞭解應用程式和系統服務在任何時間的效能。如要查看完整清單，請參閱「可用指標」。

Google Cloud Monitoring 會使用資源類型來識別每個 SLI 指標。所有 Apigee Hybrid 指標都使用三種常見的資源類型。

k8s_container 適用於系統層級指標。
Proxy 適用於 Apigee API Proxy 指標。
Target 適用於 Apigee API 目標指標

資源類型具有適用於所有相關聯指標的通用標籤。舉例來說，除了指標標籤外，所有 k8s_container 資源類型指標都有 cluster_name、pod_name 和 container_name 標籤可供使用。您應結合使用資源類型標籤和指標標籤，有效監控叢集的健康狀態和效能。

快訊門檻：在理想情況下，快訊門檻應該很明顯，且提供的文件會列出應觸發快訊的值。但實際上，Apigee 較難定義可接受的效能，以及服務和基礎架構的危險資源用量。警示門檻值會因特定流量模式和 SLO/SLA 協議而異。

警報閾值最佳化和判斷是持續進行的程序，因為閾值可能會隨著服務和基礎架構的使用情形而變動。使用「警告」和「重大」門檻來傳送通知和警示。

正常：值低於警告門檻。
令人擔憂：值大於警告門檻，但小於嚴重門檻。
嚴重：值 > 嚴重臨界值。

客戶應使用提供的工具 (例如可透過下列 PromQL 建立的 Cloud Monitoring 資訊主頁，或是 Apigee 的 Analytics) 判斷最佳門檻，找出「正常」狀態，然後據此調整快訊門檻。

混合式叢集監控可分為四個一般群組，例如流量、資料庫、Apigee 控制層和基礎架構監控。以下各節將詳細說明這些群組：

流量

Apigee Proxy 和 Target SLI 指標會提供 API Proxy 和目標的要求/回應計數和延遲時間。Apigee 政策延遲 SLI 指標會提供政策回應延遲。這些 SLI 指標涵蓋 Apigee API 流量監控範圍。

要求比率

Proxy 要求計數

用途：使用 proxy/request_count 監控 Proxy 要求數。「proxy/request_count」圖表會顯示 Proxy 的要求率。這張圖表有助於找出接收較高要求率的 Proxy、要求率模式，以及特定 Proxy 的要求呼叫是否有任何異常尖峰。API 流量若出現異常尖峰，可能表示 API Proxy 遭到機器人攻擊，因此有安全疑慮。同樣地，整體流量大幅下降可能表示用戶端或 Apigee 上游元件的連線有問題。

資源類型	Proxy
指標	proxy/request_count
分組依據	方法和所有 Proxy 資源類型標籤
集結網站	sum
快訊注意事項	例如「異常 request_count 尖峰/下降」快訊
警告門檻	無
Cloud Monitoring 資訊主頁 PromQL 查詢： sum by (method) ( rate({"apigee.googleapis.com/proxy/request_count", monitored_resource="apigee.googleapis.com/Proxy"}[1m]) )

目標要求計數

應用實例：使用 target/request_count 監控 Apigee 執行階段目標要求數。「目標/要求計數」圖表會顯示 Apigee 目標收到的要求比率。這張圖表有助於瞭解哪個目標的請求率較高、請求率模式，以及特定目標的請求呼叫是否有任何異常尖峰。

資源類型	目標
指標	target/request_count
分組依據	方法和所有目標資源類型標籤
集結網站	sum
快訊注意事項	例如「異常 request_count 尖峰/下降」快訊
警告門檻	無
Cloud Monitoring 資訊主頁 PromQL 查詢： sum by (method, type, endpoint) ( rate({"apigee.googleapis.com/target/request_count", monitored_resource="apigee.googleapis.com/Target"}[1m]) )

錯誤率

Proxy 錯誤回應計數

用途：使用 proxy/response_count 監控 Proxy 錯誤回應率。proxy/response_count 圖表會顯示 API Proxy 的要求率。這張圖表有助於瞭解哪個 Proxy 的要求錯誤率較高，或是特定 Proxy 的要求呼叫次數是否出現任何異常尖峰。

資源類型	Proxy
指標	proxy/response_count
篩選依據	`response_code != 200`
分組依據	方法、`response_code`、`fault_code`、`fault_source`、`apigee_fault`，以及所有 Proxy 資源類型標籤
集結網站	sum
快訊注意事項	Proxy 回應錯誤率：回應錯誤總數 / 回應總數。回應錯誤總數 = proxy/response_count 總和，並篩選 response_code != 200 回覆總數 = proxy/response_count 的總和
警告門檻	取決於安裝作業的服務水準目標。正式版和非正式版安裝的門檻可能不同。舉例來說，在正式環境中，如果 Proxy 回應 500 錯誤率在 5 分鐘內達到 5%，則觸發事件通知。
Cloud Monitoring 資訊主頁 PromQL 查詢： sum by (method, response_code, fault_code, fault_source, apigee_fault) ( rate({"apigee.googleapis.com/proxy/response_count", monitored_resource="apigee.googleapis.com/Proxy", response_code!="200"}[1m]) )
Google Cloud 運算作業的警報政策 PromQL 範例： 100 * ( sum by (method, org, apigee_fault, location, resource_container, env, proxy_name, fault_code, fault_source) ({"apigee.googleapis.com/proxy/response_count", monitored_resource="apigee.googleapis.com/Proxy", response_code="500"}) / sum by (method, org, apigee_fault, location, resource_container, env, proxy_name, fault_code, fault_source) ({"apigee.googleapis.com/proxy/response_count", monitored_resource="apigee.googleapis.com/Proxy"}) ) > 5

目標錯誤回應數量

用途：使用 target/response_count 監控 API 目標錯誤回應率。「目標/回應計數」圖表會顯示 API 目標的要求率。這張圖表有助於找出要求率較高的目標，或要求呼叫中任何異常的錯誤高峰。

資源類型	目標
指標	target/response_count
篩選依據	`response_code != 200`
分組依據	方法和所有目標資源類型標籤
集結網站	sum
快訊注意事項	Proxy 回應錯誤率，例如：回應錯誤總數 / 回應總數。回應錯誤總數 = target/response_count 總和 (篩選條件為 response_code != 200) 回應總數 = target/response_count 的總和
警告門檻	取決於安裝作業的服務水準目標。舉例來說：在正式環境中，如果目標回應錯誤率在 3 分鐘內達到 5%，則觸發事件通知。
Cloud Monitoring 資訊主頁 PromQL 查詢： sum by (method, type, endpoint, response_code) ( rate({"apigee.googleapis.com/target/response_count", monitored_resource="apigee.googleapis.com/Target", response_code!="200"}[1m]) )

延遲

Proxy 延遲

用途：使用 proxy/latencies 監控所有 API Proxy 對要求的回應延遲時間。您可透過 Proxy/延遲時間圖表，找出 Apigee API Proxy 的延遲時間，進而瞭解整體 API Proxy 要求延遲時間。

資源類型	Proxy
指標	proxy/latencies
分組依據	方法和所有 Proxy 資源類型標籤
集結網站	p99 (第 99 個百分位數)
快訊注意事項	第 99 個百分位數的延遲時間值偏高。
警告門檻	取決於安裝作業的服務水準目標。舉例來說：在正式環境中，如果 Proxy p99 延遲百分位數的值在 5 分鐘內為 5 秒，則觸發事件通知。
Cloud Monitoring 資訊主頁 PromQL 查詢： histogram_quantile( 0.99, sum by (le, method) ( rate({"apigee.googleapis.com/proxy/latencies/bucket", monitored_resource="apigee.googleapis.com/Proxy"}[1m]) ) )

目標延遲

用途：使用 target/latencies 監控所有 API Proxy 對要求的目標回應延遲時間。目標/延遲時間圖表會顯示 Apigee API Proxy 目標回應要求所花費的總時間。這個值不含 Apigee API 代理伺服器負荷。

資源類型	目標
指標	target/latencies
分組依據	方法、百分位數和所有目標資源類型標籤
集結網站	p99 (第 99 個百分位數)
快訊注意事項	第 99 個百分位數的延遲時間值偏高。
警告門檻	取決於安裝作業的服務水準目標。舉例來說，如果目標 p99 延遲百分位數在 5 分鐘內為 5 秒，則觸發事件通知以供生產。
Cloud Monitoring 資訊主頁 PromQL 查詢： histogram_quantile( 0.99, sum by (le, method) ( rate({"apigee.googleapis.com/target/latencies/bucket", monitored_resource="apigee.googleapis.com/Target"}[1m]) ) )

資料庫

Cassandra

Apigee Cassandra 資料庫服務有多項 Cassandra SLI 指標。這些 SLI 指標可提供 Apigee Cassandra 服務的全面監控。至少應監控用戶端的讀取和寫入要求延遲時間，以及 Cassandra 資源用量 (CPU、記憶體和磁碟區)，確保 Cassandra 服務運作正常。

Cassandra 讀取要求率

用途：cassandra/clientrequest_rate (範圍為 Read) SLI 指標可深入瞭解 Cassandra 服務在任何特定時間的讀取要求平均速率。這項指標有助於瞭解客戶讀取要求活動層級的趨勢。

資源類型	k8s_container
指標	cassandra/clientrequest_rate
篩選依據	`scope = Read` 和 `unit = OneMinuteRate`
分組依據	範圍、單位和所有 k8s_container 資源類型標籤
集結網站	sum
快訊注意事項	如果用戶端查詢模式有任何潛在問題或重大變化，例如讀取要求率突然大幅上升或下降。
警告門檻	無
Cloud Monitoring 資訊主頁 PromQL 查詢： sum by (scope, unit) ( avg_over_time({"apigee.googleapis.com/cassandra/clientrequest_latency", monitored_resource="k8s_container", scope="Read", unit="OneMinuteRate" }[1m]) )

Cassandra 寫入要求率

用途：cassandra/clientrequest_rate (scope=Write) SLI 指標可提供 Cassandra 服務在任何特定時間的寫入要求平均速率深入分析。這項指標有助於瞭解用戶寫入要求活動層級的趨勢。

資源類型	k8s_container
指標	cassandra/clientrequest_rate
篩選依據	`scope = Read` 和 `unit = OneMinuteRate`
分組依據	範圍、單位和所有 k8s_container 資源類型標籤
集結網站	sum
快訊注意事項	用戶查詢模式可能出現問題或重大變化，例如寫入要求突然意外暴增或暴跌，需要進一步調查。
警告門檻	無
Cloud Monitoring 資訊主頁 PromQL 查詢： sum by (scope, unit) ( avg_over_time({"apigee.googleapis.com/cassandra/clientrequest_latency", monitored_resource="k8s_container", scope="Write", unit="OneMinuteRate" }[1m]) )

Cassandra 讀取要求延遲

用途：cassandra/clientrequest_latency (範圍為 Read) SLI 指標會提供 Cassandra 服務的讀取要求延遲時間 (第 99 個、第 95 個或第 75 個百分位數)。這些指標有助於全面瞭解 Cassandra 效能，並指出使用模式的任何變化，或隨著時間推移而顯現的問題。

資源類型	k8s_container
指標	cassandra/clientrequest_latency
篩選依據	`scope = Read` 和 `unit = 99thPercentile`
分組依據	範圍、單位和所有 k8s_container 資源類型標籤
集結網站	sum
快訊注意事項	如果讀取要求延遲時間 SLI 持續顯示第 99 個百分位數的延遲時間趨勢向上。
警告門檻	視 Cassandra 服務的 SLO 而定。舉例來說：在正式環境中，如果第 99 個百分位數的讀取 clientrequest_latency 值在 3 分鐘內達到 5 秒，則觸發事件通知
Cloud Monitoring 資訊主頁 PromQL 查詢： sum by (scope, unit) ( avg_over_time({"apigee.googleapis.com/cassandra/clientrequest_latency", monitored_resource="k8s_container", scope="Read", unit="99thPercentile" }[1m]) )

Cassandra 寫入要求延遲

用途：cassandra/clientrequest_latency (範圍為 Write) SLI 指標會提供 Cassandra 服務寫入要求延遲時間 (第 99 個百分位數、第 95 個百分位數或第 75 個百分位數)。這些指標有助於全面瞭解 Cassandra 效能，並指出使用模式的任何變化，或一段時間後顯現的問題。

資源類型	k8s_container
指標	cassandra/clientrequest_latency
篩選依據	`scope = Write` 和 `unit = 99thPercentile`
分組依據	範圍、單位和所有 k8s_container 資源類型標籤
集結網站	sum
快訊注意事項	如果寫入要求延遲時間 SLI 持續顯示第 99 個百分位數的延遲時間趨勢向上。
警告門檻	視 Cassandra 服務的 SLO 而定。舉例來說，在正式環境中，如果第 99 個百分位數的寫入 clientrequest_latency 值在 3 分鐘內達到 5 秒，則觸發事件通知
Cloud Monitoring 資訊主頁 PromQL 查詢： sum by (scope, unit) ( avg_over_time({"apigee.googleapis.com/cassandra/clientrequest_latency", monitored_resource="k8s_container", scope="Write", unit="99thPercentile" }[1m]) )

Apigee 控制層

Apigee Synchronizer 服務 SLI 指標會提供 Apigee 控制層和 Hybrid 執行階段層之間的要求和回應計數，以及延遲時間。在執行階段平面執行的同步器執行個體，應定期輪詢控制平面、下載合約，並提供給本機執行階段執行個體。

要求比率

上游要求計數

用途：upstream/request_count 指標會指出 Synchronizer 服務向 Apigee 控制平面發出的要求數量。

資源類型	k8s_container
指標	upstream/request_count
篩選依據	`container_name = apigee-synchronizer` 和 `type = CONTRACT`
分組依據	method、type、container_name，以及所有 k8s_container 資源類型標籤
集結網站	sum
快訊注意事項	用於流量異常情形，例如 request_count* 異常暴增或下降警示。*
警告門檻	無
Cloud Monitoring 資訊主頁 PromQL 查詢： sum by (method, type, container_name) ( rate({"apigee.googleapis.com/upstream/request_count", monitored_resource="k8s_container", container_name="apigee-synchronizer", type="CONTRACT" }[1m]) )

錯誤率

上游回應數

用途：upstream/response_count SLI 指標會提供 Synchronizer 服務從 Apigee 控制層收到的回應數量。這張圖表有助於找出 Apigee Hybrid 執行階段平面與控制平面之間的連線或設定問題。

資源類型	k8s_container
指標	upstream/request_count
篩選依據	method、response_type、container_name，以及所有 k8s_container 資源類型標籤
分組依據
集結網站	sum
快訊注意事項	如果上游/response_count 指標發生錯誤，且 Apigee 控制平面傳回的不是 200 狀態碼，則需要進一步調查這些錯誤。
警告門檻	視 Cassandra 服務的 SLO 而定。舉例來說，在正式環境中，如果 Synchronizer 每三分鐘發生超過一個 response_code 錯誤，請觸發事件通知。
Cloud Monitoring 資訊主頁 PromQL 查詢： sum by (method, response_code, type, container_name) ( rate({"apigee.googleapis.com/upstream/response_count", monitored_resource="k8s_container", container_name="apigee-synchronizer", response_code!="200" type="CONTRACT" }[1m]) )

基礎架構

GKE 和其他 Kubernetes 平台提供系統層級的 SLI 指標。您可以篩選及分組 SLI 指標標籤，監控特定容器及其資源用量。如要監控 Apigee Runtime 叢集基礎架構的健康狀態和可用性，叢集管理員可以監控容器和 Pod 的常見資源用量，例如 CPU、記憶體、磁碟和容器重新啟動次數。如要進一步瞭解可用的指標和標籤，請參閱 GKE 說明文件。

下表列出部分服務，以及您可以監控的每個服務容器。

服務名稱	容器名稱
Cassandra	`apigee-cassandra`
訊息處理器(MP)	`apigee-runtime`
Synchronizer	`apigee-synchronizer`
遙測	`apigee-prometheus-app` `apigee-prometheus-proxy` `apigee-prometheus-agg` `apigee-stackdriver-exporter`

容器 / Pod

重新啟動次數

用途：kubernetes.io/container/restart_count 系統 SLI 指標會提供容器的重新啟動次數。這張圖表有助於判斷容器是否經常當機/重新啟動。您可以透過特定服務容器的指標標籤，篩除特定服務容器，進行監控。

以下顯示如何使用 Cassandra 容器的 kubernetes.io/container/restart_count 指標。您可以在上表中的任何容器使用這項指標。

資源類型	k8s_container
指標	kubernetes.io/container/restart_count
篩選依據	`namespace_name = apigee` 和 `container_name =~ .cassandra.`
分組依據	cluster_name、namespace_name、pod_name、container_name，以及所有 k8s_container 資源類型標籤
集結網站	sum
快訊注意事項	如果容器經常重新啟動，則需要進一步調查根本原因。容器可能因多種原因重新啟動，例如 `OOMKilled`、資料磁碟已滿和設定問題等。
警告門檻	取決於安裝作業的服務水準目標。舉例來說，在正式版中，如果容器在 30 分鐘內重新啟動超過 5 次，請觸發事件通知。
Cloud Monitoring 資訊主頁 PromQL 查詢： sum by (cluster_name, namespace_name, pod_name, container_name) ( rate({"kubernetes.io/container/restart_count", monitored_resource="k8s_container", container_name=~".cassandra.", namespace_name="apigee" }[1m]) )

叢集監控指南 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

總覽

流量

要求比率

錯誤率

延遲

資料庫

Cassandra

Apigee 控制層

要求比率

錯誤率

基礎架構

容器 / Pod

叢集監控指南