Google 的主要支持目标是尽快解决生产突发事件。我们通过了解您的配置、分析日志和指标以及与合作伙伴协作来快速解决突发事件。
Google Cloud 提供各种支持套餐,以满足您的支持需求。所有 Google Cloud 支持套餐都支持 Anthos 和 GKE On-Prem。如果您已有 Google Cloud 支持套餐,则表示您已获得对 Anthos 和 GKE On-Prem 的支持。
如需了解详情,请参阅 Google Cloud 支持文档。
GKE On-Prem 支持的要求
如需有效地排查关键业务突发事件,您必须:
- 使用已发布的支持结束时间范围检查环境是否为最新环境(请参阅下面的版本支持政策)。
- 为系统组件启用 Cloud Logging 和 Cloud Monitoring(如需了解详情,请参阅支持工具部分)。
- 创建支持案例时,请使用
gkectl diagnose snapshot
命令提供配置快照。
支持工具
Google Cloud 支持团队依据以下三项信息来排查 GKE On-Prem 突发事件:
- 您的环境的配置
- 来自您的管理员集群和用户集群的日志
- 来自您的管理员集群和用户集群的指标
配置
创建支持案例时,系统会要求您运行 gkectl diagnose snapshot
命令并将生成的 tar 压缩文件附加到支持案例。gkectl diagnose
snapshot
会执行许多不同的命令来捕获关于 Kubernetes 和节点的信息。
该工具可灵活地进行配置,并包含若干预定义方案。您还可以传递 YAML 文件,其中包含要收集的自定义信息集。如需了解详情,请参阅诊断集群。
您可以在配置文件中添加 excludeWords
字段,以忽略敏感或机密信息。请务必仔细查看该工具捕获的信息。不要在支持案例中附加高度机密或敏感信息。
日志
创建新的 GKE On-Prem 集群时,系统会默认启用 Cloud Logging 代理,并将其范围限定于系统级组件。这会将系统级日志复制到与集群关联的 Google Cloud 项目中。系统级日志来自在以下五个命名空间之一中运行的 Kubernetes pod:
- kube-system
- gke-system
- gke-connect
- istio-system
- config-management-system
您可以通过 Cloud Logging 控制台查询日志。
如需了解详情,请参阅日志记录和监控。
指标
除了日志之外,Cloud Monitoring 代理还会捕获指标。这会将系统级指标复制到与集群关联的 Google Cloud 项目中。系统级指标来自在日志中列出的同一命名空间中运行的 Kubernetes pod。
如需了解详情,请参阅日志记录和监控。
我们如何对您的环境进行问题排查
以下是典型支持突发事件的一个示例:
- 有人(例如集群管理员)通过 Google Cloud 控制台或 Google Cloud 支持中心创建了一个支持案例,然后分别选择 Anthos 和 GKE On-Prem 作为类别和组件。他们输入所需信息,并将
gkectl diagnose snapshot
的输出附加到案例。 - 支持案例转交至专门负责 GKE On-Prem 的技术支持工程师。
- 支持工程师检查快照的内容,以获取环境的上下文。
- 支持工程师检查 Google Cloud 项目中的日志和指标,输入支持支持请求 ID 作为正当的业务理由,并在内部记录。
- 支持工程师会以评估和建议的形式回应案例。支持工程师和用户继续排查问题,直到找到解决方案。
协作支持合作伙伴
Google 与经过挑选的合作伙伴保持协作支持关系,以便为 GKE On-Prem 提供更顺畅的支持体验。通过这些合作关系,Google 能够代表共同客户与该合作伙伴密切合作。
如需获得协作支持的好处,您必须与 Google 和相关合作伙伴签署支持协议。
Google 目前与协作支持合作伙伴页面上指定的合作伙伴建立了协作支持关系。
如 Google 的技术支持服务准则所述,Google 可能会与协作支持合作伙伴共享支持问题的相关数据。
Google 支持哪些内容?
一般情况下,Cloud 支持团队支持作为 GKE On-Prem 的一部分提供的所有软件组件以及开源 Istio。下表对此进行了详细说明:
GCP 支持 | 协作支持 | 不支持 |
---|---|---|
Kubernetes 和容器运行时环境 |
VMware vSphere(vCenter Server 和 ESXi) |
vSphere 以外的 VMware 产品 |
用于访客/节点操作系统的 Canonical Ubuntu |
F5 BIG-IP 负载平衡器 |
客户代码(请参阅下面的开发者支持) |
vCenter 控制器 |
协作支持合作伙伴页面中列出的硬件和超融合基础架构解决方案 |
客户选择的主机操作系统 |
F5 控制器 |
物理服务器、存储和网络 |
|
Calico 及相关网络政策 |
外部 DNS、DHCP 和身份系统 |
|
Ingress 控制器 |
Calico Enterprise Edition |
|
Prometheus 和 Grafana |
||
Stackdriver Monitoring、Stackdriver Logging、Stackdriver 代理 |
||
与 OIDC 合规提供方联合的身份验证 |
||
Hub、Connect、Connect Agent |
||
开源 Istio |
版本支持政策
对 Anthos clusters on VMware 的支持遵循 Anthos 版本支持政策。Google 支持 GKE On-Prem 的当前版本和前两个 (n-2) 次要版本。
下表显示了此产品支持和不支持的版本。
发布版本 | 发布日期 | 最早服务终止日期 |
---|---|---|
1.15(最新) | 2023 年 5 月 2 日 | 2024 年 5 月 2 日 |
1.14 | 2022 年 12 月 21 日 | 2023 年 12 月 21 日 |
1.13 | 2022 年 9 月 29 日 | 2023 年 8 月 17 日 |
1.12(不支持) | 2022 年 7 月 7 日 | 2023 年 3 月 29 日 |
1.11(不支持) | 2022 年 4 月 27 日 | 2022 年 12 月 21 日 |
1.10(不支持) | 2021 年 12 月 22 日 | 2022 年 9 月 22 日 |
1.9(不支持) | 2021 年 9 月 29 日 | 2022 年 6 月 29 日 |
1.8(不支持) | 2021 年 6 月 28 日 | 2022 年 3 月 28 日 |
1.7(不支持) | 2021 年 3 月 25 日 | 2021 年 12 月 25 日 |
1.6(不支持) | 2020 年 12 月 10 日 | 2021 年 9 月 10 日 |
1.5(不支持) | 2020 年 9 月 24 日 | 2021 年 6 月 24 日 |
1.4(不支持) | 2020 年 6 月 25 日 | 2021 年 3 月 25 日 |
1.3(不支持) | 2020 年 3 月 23 日 | 2020 年 12 月 23 日 |
1.2(不支持) | 2019 年 12 月 20 日 | 2020 年 9 月 20 日 |
1.1(不支持) | 2019 年 9 月 26 日 | 2020 年 6 月 26 日 |
1.0(不支持) | 2019 年 7 月 25 日 | 2020 年 4 月 25 日 |
责任共担模型
在 GKE On-Prem 上运行关键业务生产应用需要多方承担不同的责任。以下部分列出了角色和相应的责任(未详尽列出)。
Google 的责任
- 维护和分发 GKE On-Prem 软件包,包括 Kubernetes、vCenter 和 F5 控制器、Ingress 控制器、Connect 和 Stackdriver 代理,以及
gkectl
命令行工具。 - 维护和分发 Ubuntu 管理员工作站和节点机器映像,包括定期修补和安全修复。
- 通知用户 GKE On-Prem 的可用升级,并为之前的版本生成升级脚本;GKE On-Prem 仅支持依序升级(仅支持 1.2 → 1.3 → 1.4,不支持 1.2 → 1.4)。
- 运行 Connect 和 Stackdriver 服务。
- 针对与 Google 提供的组件相关的任何问题,进行问题排查、提供解决办法以及纠正根本原因
用户的责任
- 本地集群的整体系统管理。
- 维护部署在集群上的所有应用工作负载。
- 运行、维护和修补数据中心基础架构,包括网络、服务器、存储以及与 Google Cloud 的连接。
- 运行、维护及修补 vSphere 和网络负载平衡器。
- 维护与 VMware 和 F5(如果已部署)签署的支持合同。
- 定期升级 GKE On-Prem 版本。
- 使用 Ubuntu 补丁程序测试和部署更新的节点机器映像。
- 监控集群和应用,并响应任何突发事件。
- 确保 Cloud Logging 和 Stackdriver 代理已部署到集群。
- 向 Google 提供环境详细信息,以便进行问题排查。
开发者支持
Google 不为在 GKE On-Prem 上运行的应用工作负载提供支持。但是,我们会尽最大努力为开发者提供支持,以确保开发者可以轻松地在 GKE On-Prem 上运行应用。我们认为,在开发过程中尽早采取行动有助于避免部署时发生重大突发事件。
此开发者支持可供使用付费支持套餐的客户使用,而且会被视为 P3(表示阻止发布的问题)或 P4(一般咨询)。