下載 SRE 的最新白皮書,瞭解重要概念,以及 Google Cloud 如何協助您啟動 SRE 流程

跳至

網站穩定性工程 (SRE)

SRE 是一種工作職務、觀念模式和一套工程做法,可用於執行可靠的實際工作環境系統。Google Cloud 透過工具、專業服務和其他資源協助您實作 SRE 原則。
Sabre
Lowe’s
adeo
Zebra
Optiva
Proctor & Gamble
TELUS
Ulta

優點

在速度與可靠性之間取得平衡

享受速度所帶來的優勢

無論是從編寫程式碼到在實際工作環境中執行服務,都能自動執行端對端。依據共同的目標調整開發和運作流程,加快執行速度。連結您喜愛的工具,包括事件管理,大幅減少作業量。

透過深受肯定的 SRE 原則提升可靠性

運用 Google 開發且深受肯定的 SRE 原則,以大規模的方式工作。透過 Google Cloud 作業套件輕鬆導入 SRE 最佳做法,加快問題解決速度並改善穩定性。

為您量身打造的 SRE 流程

無論公司規模和產業為何,或是否使用 VM、Kubernetes 或無伺服器技術,都能有效提高軟體推送速度。您可以選擇免費工具或付費服務快速啟動 SRE 流程。

主要功能與特色

SRE 工具和資源,可協助您改善營運和 SRE 團隊

依據 SRE 原則監控服務健康狀態

使用內建的服務監控支援功能,來監控服務的健康狀態並與開發人員合作,加快變更速度。選取 SLI 指標,並設定服務等級目標,然後追蹤錯誤預算來降低服務風險。使用功能強大的資訊主頁匯總指標和記錄檔,包括黃金信號,以降低 MTTR 並快速解答服務健康狀態相關問題。

立即可用的整合工具,您不必調整任何設定,即可提高自動化處理效率

將內建的整合工具與慣用工具搭配使用,快速排解事件問題。實作漸進式發布及安全復原變更。Cloud Build 預先建構整合功能,可讓您建構、測試及部署成果至 Google Kubernetes EngineApp EngineCloud FunctionsFirebase 以及Cloud Run,做為持續整合/持續推送軟體更新的管道。

透過整合式檢視畫面加快解析速度

整合式資料檢視畫面會集中顯示記錄檔、事件、指標和服務等級目標。您可以直接透過 Google Kubernetes EngineCloud RunCompute Engine Anthos 和其他執行時間的服務主控台,取得相關資訊的觀測資料。無須進行任何設定即可收集指標、追蹤記錄和記錄檔。低於一秒的擷取延遲時間和每秒擷取 TB 單位的資料量,確保您能夠即時執行大規模的記錄檔管理及分析作業。

向 Google Cloud SRE 專家尋求額外協助

如果在過程中需要更詳細的實作協助,歡迎多加利用我們額外提供的 Google 諮詢服務。 請洽詢銷售人員,瞭解哪個選項最適合您的機構。詢問 CRE 團隊和從客戶成功案例經驗中瞭解 Google Cloud 工具和做法如何協助其他公司在機構中導入 SRE。

推動 SRE/開發人員的協同合作,「提前測試」觀測能力

透過 OpenTelemetry (OT) 套件和 Google 匯出工具,開發人員可檢測及匯出追蹤記錄資料到 Cloud Trace。我們全新的整合式作業套件代理程式 (預先發布版) 會收集指標和記錄檔,而且支援 OpenTelemetry 擷取及傳輸指標。我們正設法將 OT 程式庫實作為許多雲端產品的立即可用的功能。Cloud SQL Insights 就是其中之一。


客戶

運用 SRE 做法滿足客戶需求

相關服務

說明文件

瞭解如何使用這些資源在機構中實作 SRE

最佳做法
Google 網站穩定性工程

閱讀 SRE 書籍、聽聽 SRE 的心得,以及瞭解 Google 如何進行 SRE。

Google Cloud 基本資訊
建立服務等級目標

如要監控服務,您至少需要一個服務等級目標 (SLO)。逐步學習如何在 Cloud Monitoring 中建立第一個服務等級目標。

教學課程
穩定性工程

瞭解如何在 Google Cloud 作業套件中定義及保護服務等級目標,並改善應用程式在 Google Cloud 中運作的觀測能力。

教學課程
SRE:評估及管理穩定性

本課程說明服務等級目標 (SLO) 理論,是一種描述及評估服務所需穩定性的合理做法。

教學課程
培養 Google SRE 文化

本課程介紹了 Google SRE 的重要做法,以及 IT 和業務領導人,在成功推動機構採用 SRE 的過程中所扮演的重要角色。

最新資訊

Google Cloud SRE 新功能

訂閱 Google Cloud 電子報,掌握產品動態、活動資訊和特價優惠等消息。