Stackdriver Service MonitoringAlpha 版

Istio 和 Google App Engine 服務適用的 Stackdriver Service Monitoring。

Stackdriver Istio Hero Isometric

Stackdriver Service Monitoring

現今的應用程式通常由多種服務組成,由數十個到上百個不同的獨立功能支援著特定的應用程式或使用案例。 當某個功能出現錯誤時,通常其他功能可能立刻崩解。為了管控這樣的複雜性,Stackdriver 透過 Cloud Services Platform 和 Istio 服務網格技術,增加監控服務的支援。Stackdriver 服務監控亦能監控 Google App Engine 服務。

服務觀察能力

服務觀察能力

瞭解內部服務的相依性有其難度,服務之間的關聯與連線模式可能很複雜並且隨時變動。Stackdriver 服務監控提供服務圖表,顯示應用程式中的所有服務和服務間的關聯,讓您可以輕易綜觀服務的相依關係。服務圖表也會顯示服務之間的流量、錯誤和延遲,讓您瞭解哪些服務可能會影響其他服務的效能或可用性。另外,服務圖表亦可讓您查看依期間顯示的變化,更容易區隔問題所在。Stackdriver Service Monitoring 的服務圖表可讓您檢視即時服務資料與歷史服務資料以及其相依性,藉此視覺化應用程式並減少根本原因分析與復原所需的時間。

設定服務等級目標

設定服務等級目標

有了服務監控功能,您可以依據「服務等級目標」來設定、監控並警示團隊,讓團隊更能著眼於企業的關鍵事項。由於 Istio (和 App Engine) 的檢測是專斷的,我們可知道服務之間確切的交易次數、錯誤次數和延遲的分布情形。您只需設定可用性與效能目標,我們將為您自動產生服務水準指標 (SLI)、依時間顯示的目標達成度以及剩餘的「錯誤預算」等圖表。當背離這些目標時,便會發出快訊,通知您採取行動來修正服務。

可觀察性人因工程

可觀察性人因工程

Stackdriver 服務監控包含互動式的資訊主頁,您可以透過所有訊號深入瞭解服務的行為,無需在指標、記錄和追蹤記錄中來回切換。您可以查看特定服務專屬的資訊主頁,然後將時間範圍限縮在一定的期間內。在診斷可用性的問題時,您可以細查指標熱視圖和追蹤記錄、探索記錄和錯誤報告、取得堆疊追蹤,並且開啟即時實際工作環境偵錯工具 (如果您有這項工具的話)。服務資訊主頁提供了一個連貫的介面來協助您縮小檢驗的範圍:您可以先觀察特定服務的警示訊息,然後限縮到特定的時間範圍,再篩選出某一部分的流量,最後找出造成問題的可能原因。這是可能找出服務問題最快的方式。

Istio 服務監控使用實務

  • 當應用程式發生問題時,使用 Stackdriver Service Monitoring SLO 進行監控與偵測
  • 使用 Stackdriver 服務圖表找出服務的相依性,以及最可能導致問題發生的服務
  • 使用服務資訊主頁瀏覽發生問題的服務的各種信號,並找出根本原因

這個產品目前仍在 Alpha 版測試階段。如要進一步瞭解各個產品的推出階段,請參閱這個網頁