服務中斷無可避免,但及早公開說明情況至關重要,有助於評估事件、隨時向利害關係人通報最新消息,並採取行動將對業務的影響降到最低。
運作可靠的雲端應用程式是Google Cloud 和應用程式開發人員的共同責任。發生服務中斷時,Google Cloud 會盡快通報事件並提供影響評估。您必須評估如何接收通知、處理新發生的事件,以及管理對應用程式的影響。
您可以透過 Personalized Service Health 執行這項程序。您可以透過各種方式與其整合,瞭解新興事件、評估對應用程式的影響,以及接收 Google Cloud的最新消息。本文將概略說明如何從Google Cloud接收服務中斷信號,包括整合建議。
決定要整合的平台
Personalized Service Health 會根據專案或整個機構使用的 Google Cloud 產品,提供個人化檢視畫面。建議您與 Personalized Service Health 整合,以獲得最廣泛的整合選項。
整合點 | 用途 | 優點 | 依附元件 |
主控台資訊主頁 (Personalized Service Health) | 查看有效中斷 | 根據專案量身打造,預設提供 | 身分與存取權管理 (IAM) Google Cloud 控制台 |
快訊 (Personalized Service Health) | 主動通知 | 根據專案量身打造、方便好用且主動提供建議 | IAM Cloud Logging Cloud Monitoring |
API (個人化服務健康狀態) | 與其他系統或工具整合 | 根據專案或機構需求量身打造 | IAM |
選擇與 Personalized Service Health 互動的方式
您必須根據預期作業、監控和事件回應模型,考量 Personalized Service Health。評估團隊在事件發生期間和發生前如何使用信號,即可決定要如何使用 Personalized Service Health。
下表說明您與個人化服務健康狀態的互動方式,取決於服務的設定方式。
貴機構的範例情境 | 與 Personalized Service Health 整合 | 您可能整合的工具範例 |
負責幾項應用程式的待命開發人員 | 個別專案快訊
控制台資訊主頁 |
Google Cloud Observability、PagerDuty |
集中管理整個機構的事件應變措施 | 使用 OrganizationEvents API (v1、v1beta) 與現有系統整合 API | PagerDuty、自訂資訊主頁 |
管理雲端資源和作業的內部平台 | Service Health API 個別專案快訊 Service Health API 與內部開發人員平台整合 |
Backstage、Terraform |
透過程式輔助設定及管理多個專案 (例如 1,000 個以上) | Service Health API 自動化 API 型通知 |
Backstage、Terraform、PagerDuty |
在事件期間使用 Personalized Service Health
整合 Personalized Service Health 並開始接收快訊通知後,您就能透過 Personalized Service Health 取得中斷情形的相關資訊,協助您管理影響。 Google Cloud
偵測及評估事件
您可能會在這個階段詢問的問題包括:
- 這是真的問題嗎?
- 你能驗證影響嗎?
- 有哪些症狀?
- 哪些使用者、產品或業務部分會受到影響?哪些地理區域?
Personalized Service Health 可協助您瞭解問題是源自專案還是 Google,方便您採取適當的事件處理措施。您可以藉此尋找及查看事件資訊,監控影響專案的事件、受影響的產品和位置。
你可以採取下列步驟:
- 如果已設定快訊,請查看快訊內容。
- 是什麼原因觸發這則快訊?
- 這些快訊與所有其他可能與產品相關的快訊有何不同?
- 存取專案或機構的 Service Health 資訊主頁。你可以一目瞭然地查看活動、受影響的產品和地點,並回答下列問題:
- 哪些專案會受到影響?
- 您的專案依附哪些產品?
- 活動是否會影響這些地點的特定資源?
- 查看事件,瞭解事件的範圍、影響和與專案的關聯性。
- 找出與您遇到的問題相關的事件。
- 查看事件的驗證步驟、緩解措施 (如有) 和預期解決時間。
Personalized Service Health 可協助您查看影響專案或機構的事件現況和影響,方便您有效管理這些事件並採取因應措施。舉例來說,您可以準確找出優先順序最高的事件,有效排定優先順序。
減輕、解決或提報事件
您可能會在這個階段詢問的問題包括:
- 如何解決這起事件?
- 你可以直接修正嗎?
- 您應該立即啟動容錯移轉,還是再等一段時間?
- 應通知誰來修正問題?
Personalized Service Health 可協助您瞭解事件對專案和資源的影響、掌握可用的解決方法,以及接收預估解決時間的最新資訊。
監控事件解決進度
服務健康狀態資訊主頁中的事件總覽會顯示重要資訊,例如症狀和解決方法,這些資訊有助於減輕影響,並顯示狀態變更時間。這些詳細資料可讓您:
- 隨著情況演變,持續監控潛在影響的摘要。
- 隨時掌握最新進展,以及下次通訊或更新的預計時間。
- 查看發布症狀的時間。
- 查看何時找出解決方法。
- 查看狀態何時變更為「已解決」。
監控進度時,你可以採取下列動作:
- 查看是否有替代方案。
- 為專案或機構實作適當的事件應變措施。
- 持續監控事件,直到問題緩解或解決為止。
與支援團隊聯絡的時機
Google 已掌握 Service Health 資訊主頁中顯示的事件。如要瞭解 Google 對事件的處理方式,請選取事件來查看詳細資料。
如果資訊主頁上的任何事件都無法代表問題,請與支援團隊聯絡。
搭配其他事件資訊來源使用 Personalized Service Health
無論公司設定為何,評估事件影響時,請將 Personalized Service Health 做為額外信號。請務必查看多個事件資訊來源,根據資料和證據決定後續步驟。
使用多個事件資訊來源的原因包括:
- Google Cloud 產品可能在某些位置發生事件,但您的專案位於不同位置,因此可能不會受到影響。
- 如果服務系統在不同區域有兩個完整的副本,且其中一個區域的 Google Cloud 重要 Google Cloud 產品發生故障,Personalized Service Health 會通知您該故障情形。不過,您的使用者可能不會受到影響,因此您可能不需要立即採取行動。
- 如果專案依附於某個位置的多項 Google Cloud 產品,Personalized Service Health 就無法判斷:
- 如果專案需要所有產品都能正常運作。
- 如果某項產品發生故障,專案仍可繼續運作。
- 如果一或多項產品發生故障,整個應用程式都會受到影響。
- Personalized Service Health 本身也可能發生服務品質下降或故障情形。如要確認,請查看狀態。
您需要根據設定適當解讀 Personalized Service Health 的信號。