存取軟體通知
請查看下列工具,瞭解平台軟體元件出現問題時的通知:
- 常見的軟體資訊主頁:用於接收系統健康狀態資訊的通知,例如 GKE Enterprise 元件、叢集、服務和 VM。
- 您的信箱:接收內含問題基本資訊 (例如錯誤代碼) 的電子郵件通知。
按一下通知即可查看有問題的元件頁面,並存取相關記錄。
設定通知收件者
設定下列通訊管道來接收快訊,即使管道與資訊主頁中斷連線也沒問題:
- 簡訊
- 電子郵件通知
- PagerDuty
依通知類型和收件者角色分類,例如帳單、軟體和硬體。
瞭解軟體錯誤
請遵循下列做法,存取軟體元件錯誤的相關資訊、解決問題,並有效與支援團隊互動:
- 找出每個錯誤的錯誤代碼。
- 使用錯誤碼搜尋本機和線上說明文件。
- 使用者介面會提供特定錯誤的資訊片段。將指標懸停在錯誤代碼上,即可查看程式碼片段。
從軟體疑難排解資訊中清除機密資料
清除軟體元件的疑難排解資訊,包括所有敏感資料的設定、記錄、狀態和指標,並遵守主權要求。
Google Distributed Cloud (GDC) 氣隙隔離功能提供預設機密關鍵字清單,可供模糊處理及移除。請按照下列步驟清除疑難排解資訊:
- 新增及移除自訂關鍵字,自訂預設清單。
- 接收所有經過模糊處理的事件報告。
- 接收可能含有機密資訊的警告。
需要遮蓋的重要項目包括:
- 完整網域名稱 (FQDN)
- IP 位址
- 使用者名稱
- 主機名稱
- 工作負載名稱
- 雜湊
- 憑證
- 顧客姓名
建立軟體系統快照
建立軟體元件的快照,將排解問題所需的所有資訊打包,並有效與支援團隊互動:
- 選取要納入的元件。
- 產生包含所有必要設定、記錄、狀態和指標的 tar 檔案。
- 指定要偵錯的元件。
- 指定資料清除方式。
將資訊分享給支援團隊
Google 會為 GDC 提供第 1 級 (L1) 和第 2 級 (L2) 支援。
強制執行快照共用政策
請遵循下列做法,確保您與支援團隊分享的快照資料安全無虞,並受到您控管的資料保留政策保護:
- 定義並強制執行快照的存取控管政策。
- 定義及強制執行快照的資料保留政策。
- 設定安全管道,將快照上傳至支援入口網站。
存取硬體通知
如果平台硬體元件發生問題,您會收到通知。通知會顯示在系統管理員中,並提供機架、伺服器、交換器和儲存空間等硬體元件的系統健康資訊。
你也可以接收電子郵件通知。例如錯誤代碼等問題基本資訊。按一下通知即可查看有問題的元件頁面,並存取相關記錄。
要求升級容量
監控、預測及要求額外的硬體容量,確保工作負載的健康狀態和可擴充性。
處理系統快照
處理系統快照前,請確認您符合下列需求:
- 快照工具已連線至正在執行的叢集。
- 您必須具備下列權限,才能讀取叢集上的設定和記錄:
- 應用程式運算子具有管理功能。
- 平台管理員的存取權限僅限於指派的資訊。
如要處理系統快照,請選取要建立快照的系統元件。這項工具會連線至叢集,擷取所選元件的資訊。資料擷取完成後,系統會進行後續處理,篩除機密資料。然後工具會將資訊打包成 ZIP 檔案。
(選用) 您可以檢查 ZIP 檔案及其內容,確保在與支援團隊分享前,不會擷取任何敏感資料。
存取支援說明文件
請參閱下列說明文件和劇本,協助排解客戶目前的問題:
- 支援應對手冊
- 公開說明文件、最佳做法、常見問題和知識庫
- 使用者社群
合作夥伴可能會提供第 1 層和第 2 層支援,因此這些構件必須公開提供。
將軟體問題提報給第 3 層
請按照下列步驟,將軟體問題呈報給 Google,由第 3 級 (L3) 或進階支援團隊處理:
- 要求授權 Google 分享快照資料。
- 向 Google 建立支援票證。
- 授予 Google 快照存取權。
- 監控 Google 對快照執行的作業,並提供相關資訊。
將硬體問題提報給第 3 層支援團隊
如要將硬體故障導致的問題提報給 Google,請按照下列步驟操作:
- 擷取並清除最少的資訊,以便排解硬體元件問題:
- 記錄
- 狀態和設定
- 指標
- 實體資訊,例如機架編號、元件類型、序號和實體位置。
- 要求授權 Google 分享快照資料。
- 向 Google 建立支援票證。
- 授予 Google 快照存取權。
- 監控 Google 對快照執行的作業,並提供相關資訊。
建立硬體支援案件
Google 可以使用相同的疑難排解工具,診斷顧客的快照。向硬體即服務 (HWaaS) 合作夥伴建立支援案件,透過共用支援單系統取得硬體支援。
支援單的優先順序等級如下,並附上相應的服務水準協議 (SLA):
- 重大
- 高
- 中
與 HWaaS 合作夥伴共用客戶資料
請按照下列步驟與硬體合作夥伴分享系統硬體資料,並啟用硬體疑難排解功能:
- 要求授權與 HWaaS 合作夥伴共用快照資料。
- 請務必遵守主權要求:支援服務專員的國籍和所在地。
- 授予 HWaaS 合作夥伴安全存取權,查看客戶硬體快照,包括序號、實體位置、記錄、指標和設定檔。
- 通知你授予存取權的使用者。
- 強制自動停用存取權。
- 記錄所有活動,並與所有相關人員分享。
將疑難排解結果通知 Google,並修正時間軸
向 Google 回報問題的根本原因,並提供逐步修正方法,以便 Google 通知終端消費者和合作夥伴。使用票證系統提供必要修正工作的詳細資料,並預估完成時間。
協調資料中心存取權
協調資料中心的安全存取物流和權限,並執行必要的硬體修正。
HWaaS 合作夥伴會確保符合主權規定,例如支援服務專員的國籍。他們需要下列資訊:
- 資料中心和位置的聯絡窗口詳細資料。
- 資料中心內問題機架和元件的確切位置。
- 取得許可和授權,在約定時間進入資料中心的程序。
- 在資料中心安排現場介入程序的流程。
取得 SLO 和 SLA 的硬體支援
Google 會透過硬體原始設備製造商 (OEM) 合作夥伴提供支援。程序如下:
- Google 會與 HWaaS 合作夥伴協商服務等級目標 (SLO) 和服務水準協議 (SLA) 的硬體支援。
- 服務等級目標和服務等級協議會因事件嚴重程度而異,嚴重程度可分為重大、高或中。
- HWaaS 合作夥伴會更新票證,提供狀態和預估維修時間。
- HWaaS 合作夥伴會確認問題是否已解決。
升級容量
如要回應提高容量的要求,請使用內建的額外容量 (如有)。如果機架上沒有額外容量,請前往現場升級實體容量。
排定週期性 Google 評論
與 HWaaS 合作夥伴定期進行審查,瞭解目前的部署狀態,並規劃排定的介入措施。
在定期審查期間,請執行下列動作:
- 檢查作業系統、硬體和韌體是否需要定期更新。
- 查看現有部署作業的狀態。
- 規劃新的部署作業。
通知定期維護和升級作業
向現有客戶說明即將進行的排定維護計畫,並與他們一起完成下列動作:
- 選取要升級的資源。
- 具體說明升級後為何能維持目前狀態。
- 決定升級作業的執行人員、時間、地點和方式。
- 規劃可能造成的影響和停機時間。
設定定期維護
定期安排預防性維護,確保系統為最新版本且運作良好。HWaaS 會回報維護作業是否完成。需要下列程序:
- 取得資料中心存取許可的程序。
- 在資料中心安排現場介入程序的流程。