網站穩定性工程 (SRE)
優點
在速度與可靠性之間取得平衡
享受速度所帶來的優勢
從編寫程式碼到在實際生產環境中執行服務,您都可以自動化處理端對端作業。依共同目標配合開發和運作作業,加快執行速度。您可以視需求使用慣用的工具 (包括事件管理),藉此減輕作業負擔。
透過經驗證的 SRE 原則提升可靠性
運用 Google 開發且深受肯定的 SRE 原則,以大規模的方式工作。透過 Google Cloud 作業套件輕鬆導入 SRE 最佳做法,加快問題解決速度並改善穩定性。
主要功能與特色
SRE 工具和資源,可協助您改善營運和 SRE 團隊
使用 SRE 原則監控服務的健康狀態
使用內建的服務監控支援功能,來監控服務的健康狀態並與開發人員合作,加快變更速度。選取 SLI 指標,並設定服務等級目標,然後追蹤錯誤預算來降低服務風險。使用功能強大的資訊主頁匯總指標和記錄檔,包括黃金信號,以降低 MTTR 並快速解答服務健康狀態相關問題。
立即可用的整合工具,您不必調整任何設定,即可提高自動化處理效率
將內建的整合工具與慣用工具搭配使用,快速排解事件問題。實作漸進式發布及安全復原變更。Cloud Build 預先建構整合功能,可讓您建構、測試及部署成果至 Google Kubernetes Engine、App Engine、Cloud Functions、Firebase 以及Cloud Run,做為持續整合/持續推送軟體更新的管道。
透過整合式檢視畫面加快解析速度
透過整合式資料檢視查看記錄檔、事件、指標和服務等級目標。在 Google Kubernetes Engine、Cloud Run、Compute Engine、Anthos 的服務控制台以及其他執行時間中,直接取得內容相關的觀測能力資料。無須設定就能收集指標、追蹤記錄和記錄檔。低於 1 秒的擷取延遲時間與每秒能擷取以 TB 為單位的資料量,可確保您能夠大規模執行即時記錄檔管理和分析。
取得 Google Cloud SRE 專家的其他協助
如果您需要更多實作方面的協助,可以考慮使用 Google 諮詢服務等其他服務。請與銷售人員聯絡,以瞭解哪種做法最適合貴機構。透過我們的 CRE 團隊和客戶成功案例,瞭解 Google Cloud 工具和做法如何協助其他公司落實 SRE。
推動 SRE/開發人員的協同合作,「提前測試」觀測能力
透過 OpenTelemetry (OT) 套件和 Google 匯出工具,開發人員可以檢測追蹤記錄資料並匯出至 Cloud Trace。我們全新的整合式作業套件代理程式 (預先發布版) 會收集指標和記錄檔,而且支援 OpenTelemetry 擷取及傳輸指標。我們正設法將 OT 資料庫導入許多雲端產品中的立即可用功能,而 Cloud SQL Insights 就是其中之一。
相關服務
SRE 整合功能和產品
在 Google Cloud 中建構及部署新的雲端應用程式、儲存構件,並監控應用程式的安全性和可靠性。
說明文件
瞭解如何使用這些資源在機構中實作 SRE
Google 網站穩定性工程
閱讀 SRE 書籍、聽聽 SRE 的心得,以及瞭解 Google 如何進行 SRE。
建立服務等級目標
如要監控服務,您至少要有一個服務等級目標 (SLO)。透過逐步操作說明,瞭解如何在 Cloud Monitoring 建立第一個服務。
實作研究室:排解 SRE 適用的 GKE 工作負載問題
瞭解如何瀏覽 GKE 的資源頁面、使用 GKE 資訊主頁、建立記錄指標、建立服務等級目標,以及定義用來通知 SRE 員工的事件快訊。
穩定性工程
瞭解如何在 Google Cloud 作業套件中定義及保護服務等級目標,並改善應用程式在 Google Cloud 中運作的觀測能力。
SRE:評估及管理穩定性
本課程說明服務等級目標 (SLO) 理論,是一種描述及評估服務所需穩定性的合理做法。
發展 Google SRE 文化
本課程介紹了 Google SRE 的重要做法,以及 IT 和業務領導人,在成功推動機構採用 SRE 的過程中所扮演的重要角色。