访问软件通知
请查看以下工具,了解平台软件组件中出现问题时的通知:
- 通用软件信息中心:用于接收有关系统健康状况信息(例如 GKE Enterprise 组件、集群、服务和虚拟机)的通知。
- 您的邮箱:用于接收包含问题基本信息(例如错误代码)的电子邮件通知。
点击通知可查看存在问题的组件页面并访问相关日志。
配置通知收件人
配置以下通信渠道以接收提醒,即使它们与信息中心断开连接也是如此:
- 短信
- 电子邮件通知
- PagerDuty
整理通知类型和收件人角色,例如结算、软件和硬件。
了解软件错误
请遵循以下做法,以便访问有关软件组件错误的相应信息、解决问题并有效地与支持团队互动:
- 查找每个错误的错误代码。
- 使用错误代码搜索本地和在线文档。
- 界面会提供有关特定错误的简短信息。将指针悬停在错误代码上,即可查看代码段。
清理软件问题排查信息中的敏感数据
对软件组件的问题排查信息进行清理,包括所有敏感数据的配置、日志、状态和指标,并遵守主权要求。
经过网闸隔离的 Google Distributed Cloud (GDC) 提供了一份默认的敏感关键字列表,用于模糊处理和移除。请按照以下步骤清理问题排查信息:
- 通过添加和移除自定义关键字来自定义默认列表。
- 接收所有混淆处理的出现情况的报告。
- 接收有关可能剩余的敏感信息的警告。
需要混淆的关键项包括:
- 完全限定域名 (FQDN)
- IP 地址
- 用户名
- 主机名
- 工作负载名称
- 哈希值
- 证书
- 客户名称
创建软件系统快照
创建软件组件的快照,以打包排查问题所需的所有信息,并与支持团队有效互动:
- 选择要包含的组件。
- 生成包含所有必需配置、日志、状态和指标的 tar 文件。
- 指定要调试的组件。
- 指定如何清理数据。
与支持人员分享信息
Google 为 GDC 提供 1 级 (L1) 和 2 级 (L2) 支持。
强制执行快照共享政策
请遵循以下做法,以确保您与支持团队分享的快照数据安全可靠,受到保护,并且受您控制的数据保留政策的约束:
- 定义并强制执行针对快照的访问权限控制政策。
- 为快照定义和强制执行数据保留政策。
- 设置安全渠道,以便将快照上传到支持门户。
访问硬件通知
查看有关平台硬件组件中出现问题的通知。通知会显示在系统管理器中,其中包含机架、服务器、交换机和存储等硬件组件的系统健康状况信息。
您还可以接收电子邮件通知。它们包含有关问题的基本信息,例如错误代码。点击通知可查看存在问题的组件页面并访问相关日志。
申请升级容量
监控、预测和申请额外的硬件容量,以确保工作负载的健康状况和可伸缩性。
处理系统快照
在处理系统快照之前,请确保您满足以下要求:
- 快照工具已连接到正在运行的集群。
- 您拥有以下必要权限,可在集群上读取配置和日志:
- 应用操作员具有管理功能。
- 平台管理员的访问权限仅限于分配的信息。
如需处理系统快照,请选择要拍摄快照的系统组件。该工具会连接到您的集群,以提取每个所选组件的信息。检索到数据后,系统会对数据进行后处理,以过滤敏感数据。然后,该工具会将信息打包到一个 zip 文件中。
(可选)在与支持团队分享 ZIP 文件之前,您可以检查该文件及其内容,以确保您不会捕获任何敏感数据。
查看支持文档
请访问以下文档和剧本,以帮助排查当前客户遇到的问题:
- 支持 playbook
- 公开文档、最佳实践、常见问题解答和知识库
- 用户社区
合作伙伴可能会提供 L1 和 L2 支持,因此这些制品必须公开提供。
将软件问题上报给 L3
如需将软件问题上报给 Google 以获取 3 级 (L3) 或高级支持,请按以下步骤操作:
- 请求与 Google 分享快照数据的权限。
- 向 Google 提交支持服务工单。
- 向 Google 提供对您的快照的访问权限。
- 监控 Google 对快照执行的操作并提供相关信息。
将硬件问题上报给 L3
请按照以下步骤将硬件故障导致的问题上报给 Google:
- 提取并清理最少的信息,以便对硬件组件进行问题排查:
- 日志
- 状态和配置
- 指标
- 物理信息,例如机架号、组件类型、序列号和物理位置。
- 请求与 Google 分享快照数据的权限。
- 向 Google 提交支持服务工单。
- 向 Google 提供对您的快照的访问权限。
- 监控 Google 对快照执行的操作并提供相关信息。
创建硬件支持请求
Google 可以访问相同的问题排查工具来诊断客户的快照。向硬件即服务 (HWaaS) 合作伙伴提交支持请求,通过共享的服务工单系统获取硬件支持。
支持服务工单具有以下优先级,并对应于以下服务等级协议 (SLA):
- 严重
- 高
- 中
与 HWaaS 合作伙伴共享客户数据
按照以下步骤与硬件合作伙伴共享系统硬件数据,并启用硬件问题排查功能:
- 请求与 HWaaS 合作伙伴分享快照数据的权限。
- 确保您遵守主权要求:支持代理的国籍和位置。
- 授予 HWaaS 合作伙伴对客户硬件快照(包括序列号、物理位置、日志、指标和配置文件)的安全访问权限。
- 通知您已授予访问权限的用户。
- 强制执行访问权限自动过期。
- 记录所有活动并与所有相关方分享。
将问题排查结果通知 Google 并修正时间轴
向 Google 报告问题的根本原因,并提供逐步修复方案,以便 Google 通知最终客户和合作伙伴。使用工单系统详细说明所需的修复任务,并提供完成该任务的预计时间表。
协调数据中心访问权限
协调物流和权限,以便安全访问数据中心并执行必要的硬件修复。
HWaaS 合作伙伴可确保符合主权要求,例如支持代理的国籍。他们需要以下信息:
- 数据中心和位置的联系点详细信息。
- 数据中心内出现问题的机架和组件的确切位置。
- 一种流程,用于在约定的时间获得数据中心访问权限和授权。
- 在数据中心安排现场干预的流程。
获取 SLO 和 SLA 的硬件支持
Google 通过硬件原始设备制造商 (OEM) 合作伙伴提供支持。具体过程如下:
- Google 与 HWaaS 合作伙伴协商硬件支持,以实现服务等级目标 (SLO) 和服务等级协议 (SLA)。
- SLO 和 SLA 会因突发事件的严重程度(严重、高或中)而异。
- HWaaS 合作伙伴会更新支持请求,提供状态和预计修复时间。
- HWaaS 合作伙伴会在问题解决后进行确认。
升级容量
为了响应容量增加请求,请使用内置的额外容量(如有)。如果机架上没有额外的容量,请前往现场升级物理容量。
安排与 Google 定期进行审核
与 HWaaS 合作伙伴定期进行审核,以检查部署的当前状态并规划预定的干预措施。
在定期审核期间,请执行以下操作:
- 检查操作系统、硬件和固件所需的预定更新。
- 查看现有部署的状态。
- 规划新部署。
传达计划内维护和升级信息
与现有客户沟通即将进行的预定维护计划。与他们一起完成以下操作:
- 选择要升级的资源。
- 指定升级将在当前状态下执行的原因。
- 确定谁将执行升级,以及何时、何地、如何执行升级。
- 规划可能的影响和停机时间。
设置计划性维护
安排定期预防性维护,并确保系统保持最新状态且运行良好。HWaaS 会报告维护完成情况。它需要以下流程:
- 获得数据中心访问权限的流程。
- 用于安排数据中心现场干预的流程。