網站穩定性工程 (SRE)
優點
在速度與可靠性之間取得平衡
享受速度所帶來的優勢
從編寫程式碼到在實際生產環境中執行服務,您都可以自動化處理端對端作業。依共同目標配合開發和運作作業,加快執行速度。您可以視需求使用慣用的工具 (包括事件管理),藉此減輕作業負擔。
透過經驗證的 SRE 原則提升可靠性
運用 Google 開發且深受肯定的 SRE 原則,以大規模的方式工作。透過 Google Cloud 作業套件輕鬆導入 SRE 最佳做法,加快問題解決速度並改善穩定性。
為您量身打造的 SRE 流程
無論公司規模和產業為何,或是否使用 VM、Kubernetes 或無伺服器技術,都能有效提高軟體推送速度。您可以選擇免費工具或付費服務快速啟動 SRE 流程。
主要功能與特色
SRE 工具和資源,可協助您改善營運和 SRE 團隊
立即可用的整合工具,您不必調整任何設定,即可提高自動化處理效率
將內建的整合工具與慣用工具搭配使用,快速排解事件問題。實作漸進式發布及安全復原變更。Cloud Build 預先建構整合功能,可讓您建構、測試及部署成果至 Google Kubernetes Engine、App Engine、Cloud Functions、Firebase 以及Cloud Run,做為持續整合/持續推送軟體更新的管道。
透過整合式檢視畫面加快解析速度
透過整合式資料檢視查看記錄檔、事件、指標和服務等級目標。在 Google Kubernetes Engine、Cloud Run、Compute Engine、Anthos 的服務控制台以及其他執行時間中,直接取得內容相關的觀測能力資料。無須設定就能收集指標、追蹤記錄和記錄檔。低於 1 秒的擷取延遲時間與每秒能擷取以 TB 為單位的資料量,可確保您能夠大規模執行即時記錄檔管理和分析。
取得 Google Cloud SRE 專家的其他協助
如果您需要更多實作方面的協助,可以考慮使用 Google 諮詢服務等其他服務。請與銷售人員聯絡,以瞭解哪種做法最適合貴機構。透過我們的 CRE 團隊和客戶成功案例,瞭解 Google Cloud 工具和做法如何協助其他公司落實 SRE。
推動 SRE/開發人員的協同合作,「提前測試」觀測能力
透過 OpenTelemetry (OT) 套件和 Google 匯出工具,開發人員可以檢測追蹤記錄資料並匯出至 Cloud Trace。我們全新的整合式作業套件代理程式 (預先發布版) 會收集指標和記錄檔,而且支援 OpenTelemetry 擷取及傳輸指標。我們正設法將 OT 資料庫導入許多雲端產品中的立即可用功能,而 Cloud SQL Insights 就是其中之一。
相關服務
SRE 整合功能和產品
在 Google Cloud 中建構及部署新的雲端應用程式、儲存構件,並監控應用程式的安全性和可靠性。
說明文件
瞭解如何使用這些資源在機構中實作 SRE
Google 網站穩定性工程
閱讀 SRE 書籍、聽聽 SRE 的心得,以及瞭解 Google 如何進行 SRE。
建立服務等級目標
如要監控服務,您至少要有一個服務等級目標 (SLO)。透過逐步操作說明,瞭解如何在 Cloud Monitoring 建立第一個服務。
實作研究室:排解 SRE 適用的 GKE 工作負載問題
瞭解如何瀏覽 GKE 的資源頁面、使用 GKE 資訊主頁、建立記錄指標、建立服務等級目標,以及定義用來通知 SRE 員工的事件快訊。
穩定性工程
瞭解如何在 Google Cloud 作業套件中定義及保護服務等級目標,並改善應用程式在 Google Cloud 中運作的觀測能力。
SRE:評估及管理穩定性
本課程說明服務等級目標 (SLO) 理論,是一種描述及評估服務所需穩定性的合理做法。
發展 Google SRE 文化
本課程介紹了 Google SRE 的重要做法,以及 IT 和業務領導人,在成功推動機構採用 SRE 的過程中所扮演的重要角色。
Google Cloud SRE 新功能
訂閱 Google Cloud 電子報,即時掌握產品動態、活動資訊和特價優惠等最新消息。