可支持性

访问软件通知

请查看以下工具,了解平台软件组件中出现问题时的通知:

  • 通用软件信息中心:用于接收有关系统健康状况信息(例如 GKE Enterprise 组件、集群、服务和虚拟机)的通知。
  • 您的邮箱:用于接收包含问题基本信息(例如错误代码)的电子邮件通知。

点击通知可查看存在问题的组件页面并访问相关日志。

配置通知收件人

配置以下通信渠道以接收提醒,即使它们与信息中心断开连接也是如此:

  • 短信
  • 电子邮件通知
  • PagerDuty

整理通知类型和收件人角色,例如结算、软件和硬件。

了解软件错误

请遵循以下做法,以便访问有关软件组件错误的相应信息、解决问题并有效地与支持团队互动:

  • 查找每个错误的错误代码。
  • 使用错误代码搜索本地和在线文档。
  • 界面会提供有关特定错误的简短信息。将指针悬停在错误代码上,即可查看代码段。

清理软件问题排查信息中的敏感数据

对软件组件的问题排查信息进行清理,包括所有敏感数据的配置、日志、状态和指标,并遵守主权要求。

经过网闸隔离的 Google Distributed Cloud (GDC) 提供了一份默认的敏感关键字列表,用于模糊处理和移除。请按照以下步骤清理问题排查信息:

  1. 通过添加和移除自定义关键字来自定义默认列表。
  2. 接收所有混淆处理的出现情况的报告。
  3. 接收有关可能剩余的敏感信息的警告。

需要混淆的关键项包括:

  • 完全限定域名 (FQDN)
  • IP 地址
  • 用户名
  • 主机名
  • 工作负载名称
  • 哈希值
  • 证书
  • 客户名称

创建软件系统快照

创建软件组件的快照,以打包排查问题所需的所有信息,并与支持团队有效互动:

  1. 选择要包含的组件。
  2. 生成包含所有必需配置、日志、状态和指标的 tar 文件。
  3. 指定要调试的组件。
  4. 指定如何清理数据。

与支持人员分享信息

Google 为 GDC 提供 1 级 (L1) 和 2 级 (L2) 支持。

强制执行快照共享政策

请遵循以下做法,以确保您与支持团队分享的快照数据安全可靠,受到保护,并且受您控制的数据保留政策的约束:

  • 定义并强制执行针对快照的访问权限控制政策。
  • 为快照定义和强制执行数据保留政策。
  • 设置安全渠道,以便将快照上传到支持门户。

访问硬件通知

查看有关平台硬件组件中出现问题的通知。通知会显示在系统管理器中,其中包含机架、服务器、交换机和存储等硬件组件的系统健康状况信息。

您还可以接收电子邮件通知。它们包含有关问题的基本信息,例如错误代码。点击通知可查看存在问题的组件页面并访问相关日志。

申请升级容量

监控、预测和申请额外的硬件容量,以确保工作负载的健康状况和可伸缩性。

处理系统快照

在处理系统快照之前,请确保您满足以下要求:

  • 快照工具已连接到正在运行的集群。
  • 您拥有以下必要权限,可在集群上读取配置和日志:
    • 应用操作员具有管理功能。
    • 平台管理员的访问权限仅限于分配的信息。

如需处理系统快照,请选择要拍摄快照的系统组件。该工具会连接到您的集群,以提取每个所选组件的信息。检索到数据后,系统会对数据进行后处理,以过滤敏感数据。然后,该工具会将信息打包到一个 zip 文件中。

(可选)在与支持团队分享 ZIP 文件之前,您可以检查该文件及其内容,以确保您不会捕获任何敏感数据。

查看支持文档

请访问以下文档和剧本,以帮助排查当前客户遇到的问题:

  • 支持 playbook
  • 公开文档、最佳实践、常见问题解答和知识库
  • 用户社区

合作伙伴可能会提供 L1 和 L2 支持,因此这些制品必须公开提供。

将软件问题上报给 L3

如需将软件问题上报给 Google 以获取 3 级 (L3) 或高级支持,请按以下步骤操作:

  1. 请求与 Google 分享快照数据的权限。
  2. 向 Google 提交支持服务工单。
  3. 向 Google 提供对您的快照的访问权限。
  4. 监控 Google 对快照执行的操作并提供相关信息。

将硬件问题上报给 L3

请按照以下步骤将硬件故障导致的问题上报给 Google:

  1. 提取并清理最少的信息,以便对硬件组件进行问题排查:
    • 日志
    • 状态和配置
    • 指标
    • 物理信息,例如机架号、组件类型、序列号和物理位置。
  2. 请求与 Google 分享快照数据的权限。
  3. 向 Google 提交支持服务工单。
  4. 向 Google 提供对您的快照的访问权限。
  5. 监控 Google 对快照执行的操作并提供相关信息。

创建硬件支持请求

Google 可以访问相同的问题排查工具来诊断客户的快照。向硬件即服务 (HWaaS) 合作伙伴提交支持请求,通过共享的服务工单系统获取硬件支持。

支持服务工单具有以下优先级,并对应于以下服务等级协议 (SLA):

  • 严重

与 HWaaS 合作伙伴共享客户数据

按照以下步骤与硬件合作伙伴共享系统硬件数据,并启用硬件问题排查功能:

  1. 请求与 HWaaS 合作伙伴分享快照数据的权限。
  2. 确保您遵守主权要求:支持代理的国籍和位置。
  3. 授予 HWaaS 合作伙伴对客户硬件快照(包括序列号、物理位置、日志、指标和配置文件)的安全访问权限。
  4. 通知您已授予访问权限的用户。
  5. 强制执行访问权限自动过期。
  6. 记录所有活动并与所有相关方分享。

将问题排查结果通知 Google 并修正时间轴

向 Google 报告问题的根本原因,并提供逐步修复方案,以便 Google 通知最终客户和合作伙伴。使用工单系统详细说明所需的修复任务,并提供完成该任务的预计时间表。

协调数据中心访问权限

协调物流和权限,以便安全访问数据中心并执行必要的硬件修复。

HWaaS 合作伙伴可确保符合主权要求,例如支持代理的国籍。他们需要以下信息:

  • 数据中心和位置的联系点详细信息。
  • 数据中心内出现问题的机架和组件的确切位置。
  • 一种流程,用于在约定的时间获得数据中心访问权限和授权。
  • 在数据中心安排现场干预的流程。

获取 SLO 和 SLA 的硬件支持

Google 通过硬件原始设备制造商 (OEM) 合作伙伴提供支持。具体过程如下:

  1. Google 与 HWaaS 合作伙伴协商硬件支持,以实现服务等级目标 (SLO) 和服务等级协议 (SLA)。
  2. SLO 和 SLA 会因突发事件的严重程度(严重、高或中)而异。
  3. HWaaS 合作伙伴会更新支持请求,提供状态和预计修复时间。
  4. HWaaS 合作伙伴会在问题解决后进行确认。

升级容量

为了响应容量增加请求,请使用内置的额外容量(如有)。如果机架上没有额外的容量,请前往现场升级物理容量。

安排与 Google 定期进行审核

与 HWaaS 合作伙伴定期进行审核,以检查部署的当前状态并规划预定的干预措施。

在定期审核期间,请执行以下操作:

  • 检查操作系统、硬件和固件所需的预定更新。
  • 查看现有部署的状态。
  • 规划新部署。

传达计划内维护和升级信息

与现有客户沟通即将进行的预定维护计划。与他们一起完成以下操作:

  • 选择要升级的资源。
  • 指定升级将在当前状态下执行的原因。
  • 确定谁将执行升级,以及何时、何地、如何执行升级。
  • 规划可能的影响和停机时间。

设置计划性维护

安排定期预防性维护,并确保系统保持最新状态且运行良好。HWaaS 会报告维护完成情况。它需要以下流程:

  • 获得数据中心访问权限的流程。
  • 用于安排数据中心现场干预的流程。