Stackdriver 透明化服務水準指標 (SLI)

監控 Google Cloud 服務以及這些服務對您工作負載的影響。

stackdriver 網站穩定性工程英雄橫幅

一切以數字為依歸的現代 IT

指標驅動的全方位方法如今已成為大多數 IT 營運團隊的基準目標。現今仍有許多企業把服務可用性和效能做為衡量 IT 的方法。但對於倚賴雲端服務的 IT 團隊而言,要取得自家雲端供應商以外業者提供服務的確切資料並不是一件容易的事。當系統出現狀況時,究竟是哪個環節有問題?是您的堆疊發生了問題,還是服務供應商出現了狀況?透明化服務水準指標 (SLI) 可協助您監控 Google Cloud 服務和這些服務對您的工作負載造成的影響,使您得以掌握問題的全貌。

衡量一切事物

衡量一切事物

為了讓 IT 瞭解您所有服務元件的效能,Google 針對超過 130 種 Google Cloud 服務提供詳細的 API 服務水準指標。這些指標將清楚呈現您的應用程式對每項 Google 服務發送之要求的錯誤計數和延遲時間,讓您能從中發現您應用程式與其依賴的服務之間的相關性及副作用,藉此提高根本原因分析的效率並縮短問題的解決時間。

真正的透明化

真正的透明化

服務水準指標遠遠超越了傳統的「服務健康狀態」概念,您可以看見服務間的具體互動情況,並分析這些情況與環境資料的關聯性。這讓您能夠透過各種屬性 (如服務位置、呼叫服務的應用程式憑證、版本和回應碼) 建立跨分頁的服務指標,藉此探索關係並判斷原因和影響。

透明化服務水準指標使用實務

  • 如果在所有服務呼叫中,只有一位使用者的呼叫失敗了 (其他使用者的呼叫都成功了),那麼可能表示該帳戶發生了某些您能夠輕鬆自行解決的問題。
  • 如果您在排解應用程式問題的過程中,發現應用程式的效能下降,與某項重要 GCP 服務的延遲時間持續增加有關,這時您就應該來電請求我們的協助。
  • 如果某項 GCP 服務報表中的延遲時間看起來很正常,與之前無兩樣,但應用程式內指標顯示服務呼叫的延遲時間異常地高,這表示可能是網路出現了問題。請與您的網路供應商 (在某些情況下是 Google) 聯絡,以進行偵錯程序。




我們對透明化的承諾

Google Cloud 致力於分享與我們的服務有關的詳細效能資訊。這些資訊與 Google SRE 用來維持服務運作的資料類似。透過這些共用資料,您可以輕鬆監控我們的工作方式,方便我們在相關的合作場合統一步調,達成共識。我們認為透明化服務水準指標將能夠提升您的技術支援體驗,並提高您對於雲端運算服務的信心。

Google Cloud

開始使用

要開始收集並查看透明化服務水準指標,請前往 Stackdriver Metrics Explorer,然後選取 [Consumed API] 做為資源類型。您將會看見一系列的指標,您可以利用這些指標按照 (您在應用程式中使用的) 產品和服務來繪製圖表。然後您可以挑選對您的環境最具意義的指標。您還可以透過指定您要監控的服務、方法、位置、憑證或錯誤代碼,來縮小顯示的資料範圍。

在確定哪些指標對您的應用程式最重要之後,您應該建立一個顯示您與我們的關鍵指標圖表的自訂資訊主頁,使您能夠對於問題的成因一目了然。最後,一旦您掌握了 Google服務對流量效能所造成之影響的長期基準和您應用程式的容錯能力,您便可以考慮設定相關的提醒,使您能夠在出現偏離長期行為的狀況時得到通知。

開始使用