與 Personalized Service Health 整合

服務中斷無可避免,但及早公開說明情況至關重要,有助於評估事件、隨時向利害關係人通報最新消息,並採取行動將對業務的影響降到最低。

運作可靠的雲端應用程式是Google Cloud 和應用程式開發人員的共同責任。發生服務中斷時,Google Cloud 會盡快通報事件並提供影響評估。您必須評估如何接收通知、處理新發生的事件,以及管理對應用程式的影響。

您可以透過 Personalized Service Health 執行這項程序。您可以透過各種方式與其整合,瞭解新興事件、評估對應用程式的影響,以及接收 Google Cloud的最新消息。本文將概略說明如何從Google Cloud接收服務中斷信號,包括整合建議。

決定要整合的平台

Personalized Service Health 會根據專案或整個機構使用的 Google Cloud 產品,提供個人化檢視畫面。建議您與 Personalized Service Health 整合,以獲得最廣泛的整合選項。

整合點 用途 優點 依附元件
主控台資訊主頁 (Personalized Service Health) 查看有效中斷 根據專案量身打造,預設提供 身分與存取權管理 (IAM)
Google Cloud 控制台
快訊 (Personalized Service Health) 主動通知 根據專案量身打造、方便好用且主動提供建議 IAM
Cloud Logging
Cloud Monitoring
API (個人化服務健康狀態) 與其他系統或工具整合 根據專案或機構需求量身打造 IAM

選擇與 Personalized Service Health 互動的方式

您必須根據預期作業、監控和事件回應模型,考量 Personalized Service Health。評估團隊在事件發生期間和發生前如何使用信號,即可決定要如何使用 Personalized Service Health。

下表說明您與個人化服務健康狀態的互動方式,取決於服務的設定方式。

貴機構的範例情境 與 Personalized Service Health 整合 您可能整合的工具範例
負責幾項應用程式的待命開發人員 個別專案快訊

控制台資訊主頁

Google Cloud Observability、PagerDuty
集中管理整個機構的事件應變措施 使用 OrganizationEvents API (v1v1beta) 與現有系統整合 API PagerDuty、自訂資訊主頁
管理雲端資源和作業的內部平台 Service Health API
個別專案快訊
Service Health API 與內部開發人員平台整合
Backstage、Terraform
透過程式輔助設定及管理多個專案 (例如 1,000 個以上) Service Health API
自動化 API 型通知
Backstage、Terraform、PagerDuty

在事件期間使用 Personalized Service Health

整合 Personalized Service Health 並開始接收快訊通知後,您就能透過 Personalized Service Health 取得中斷情形的相關資訊,協助您管理影響。 Google Cloud

偵測及評估事件

您可能會在這個階段詢問的問題包括:

  • 這是真的問題嗎?
  • 你能驗證影響嗎?
  • 有哪些症狀?
  • 哪些使用者、產品或業務部分會受到影響?哪些地理區域?

Personalized Service Health 可協助您瞭解問題是源自專案還是 Google,方便您採取適當的事件處理措施。您可以藉此尋找及查看事件資訊,監控影響專案的事件、受影響的產品和位置。

你可以採取下列步驟:

  1. 如果已設定快訊,請查看快訊內容。
    • 是什麼原因觸發這則快訊?
    • 這些快訊與所有其他可能與產品相關的快訊有何不同?
  2. 存取專案或機構的 Service Health 資訊主頁。你可以一目瞭然地查看活動、受影響的產品和地點,並回答下列問題:
    • 哪些專案會受到影響?
    • 您的專案依附哪些產品?
    • 活動是否會影響這些地點的特定資源?
  3. 查看事件,瞭解事件的範圍、影響和與專案的關聯性。
  4. 找出與您遇到的問題相關的事件。
  5. 查看事件的驗證步驟、緩解措施 (如有) 和預期解決時間。

Personalized Service Health 可協助您查看影響專案或機構的事件現況和影響,方便您有效管理這些事件並採取因應措施。舉例來說,您可以準確找出優先順序最高的事件,有效排定優先順序。

減輕、解決或提報事件

您可能會在這個階段詢問的問題包括:

  • 如何解決這起事件?
  • 你可以直接修正嗎?
  • 您應該立即啟動容錯移轉,還是再等一段時間?
  • 應通知誰來修正問題?

Personalized Service Health 可協助您瞭解事件對專案和資源的影響、掌握可用的解決方法,以及接收預估解決時間的最新資訊。

監控事件解決進度

服務健康狀態資訊主頁中的事件總覽會顯示重要資訊,例如症狀和解決方法,這些資訊有助於減輕影響,並顯示狀態變更時間。這些詳細資料可讓您:

  • 隨著情況演變,持續監控潛在影響的摘要。
  • 隨時掌握最新進展,以及下次通訊或更新的預計時間。
  • 查看發布症狀的時間。
  • 查看何時找出解決方法。
  • 查看狀態何時變更為「已解決」

監控進度時,你可以採取下列動作:

  • 查看是否有替代方案。
  • 為專案或機構實作適當的事件應變措施。
  • 持續監控事件,直到問題緩解或解決為止。

與支援團隊聯絡的時機

Google 已掌握 Service Health 資訊主頁中顯示的事件。如要瞭解 Google 對事件的處理方式,請選取事件來查看詳細資料。

如果資訊主頁上的任何事件都無法代表問題,請與支援團隊聯絡。

搭配其他事件資訊來源使用 Personalized Service Health

無論公司設定為何,評估事件影響時,請將 Personalized Service Health 做為額外信號。請務必查看多個事件資訊來源,根據資料和證據決定後續步驟。

使用多個事件資訊來源的原因包括:

  • Google Cloud 產品可能在某些位置發生事件,但您的專案位於不同位置,因此可能不會受到影響。
  • 如果服務系統在不同區域有兩個完整的副本,且其中一個區域的 Google Cloud 重要 Google Cloud 產品發生故障,Personalized Service Health 會通知您該故障情形。不過,您的使用者可能不會受到影響,因此您可能不需要立即採取行動。
  • 如果專案依附於某個位置的多項 Google Cloud 產品,Personalized Service Health 就無法判斷:
    • 如果專案需要所有產品都能正常運作。
    • 如果某項產品發生故障,專案仍可繼續運作。
    • 如果一或多項產品發生故障,整個應用程式都會受到影響。
  • Personalized Service Health 本身也可能發生服務品質下降或故障情形。如要確認,請查看狀態

您需要根據設定適當解讀 Personalized Service Health 的信號。