获取支持

Google 的主要支持目标是尽快解决生产突发事件。了解您的配置、分析日志和指标以及与合作伙伴协作有助于我们快速解决突发事件。

Google Cloud 提供各种支持套餐,以满足您的支持需求。所有 Google Cloud 支持套餐都支持 Google Kubernetes Engine (GKE) Enterprise 版本和 GKE on Bare Metal。如果您已有 Google Cloud 支持套餐,则表示您已获得对 GKE Enterprise 和 GKE on Bare Metal 的支持。

如需了解详情,请参阅 Google Cloud 支持文档。

针对 GKE on Bare Metal 支持的要求

如需有效地对关键业务突发事件进行问题排查,您必须:

支持工具

Google Cloud 支持团队依据以下三项信息来排查 GKE on Bare Metal 突发事件:

您的环境配置

创建支持案例时,运行以下命令可提供有关集群设置的关键信息:

  • 对于所有集群类型,请运行 bmctl check cluster --snapshot 命令以捕获有关 Kubernetes 和节点的信息。将生成的 tar 文件附加到支持请求中。

  • 对于管理员集群、混合集群和独立集群,请运行 bmctl check cluster 命令来检查集群和节点的运行状况。将生成的日志附加到支持请求中。它们应位于 bmctl-workspace/[CLUSTER_NAME]/log/check-cluster-[TIMESTAMP] 目录下。

  • 对于用户集群,请先使用集群名称和命名空间创建健康检查 YAML 文件,然后将该文件应用于相应的管理员集群:

    1. 创建一个包含以下 healthcheck 属性的 YAML 文件。以下是 cluster-user1 命名空间中名为 user1 的集群的示例内容:

      apiVersion: baremetal.cluster.gke.io/v1
      kind: HealthCheck
      metadata:
        generateName: healthcheck-
        namespace: cluster-user1
      spec:
        clusterName: user1
      
    2. 创建 YAML 文件后,使用 kubectl 命令在管理用户集群的管理员集群中应用自定义资源。下面是一个使用上一步中创建的 YAML 文件的示例命令。在该示例中,ADMIN_KUBECONFIG 变量指定管理员集群的 kubeconfig 文件的路径:

      kubectl --kubeconfig ADMIN_KUBECONFIG create -f healthcheck-user1.yaml
      

      该命令会返回以下响应:

      healthcheck.baremetal.cluster.gke.io/healthcheck-7c4qf created
      
    3. 通过测试健康检查作业是否已完成调整,等待健康检查作业完成。在上一个示例示例中,健康检查作业名称为 healthcheck.baremetal.cluster.gke.io/healthcheck-7c4qf。下面是一个使用 kubectl 命令的示例测试,该测试等待健康检查作业完成 30 分钟:

      kubectl --kubeconfig ADMIN_KUBECONFIG wait healthcheck healthcheck-7c4qf \
          -n cluster-user1 --for=condition=Reconciling=False --timeout=30m
      

      完成后,此命令会返回以下内容:

      healthcheck.baremetal.cluster.gke.io/healthcheck-7c4qf condition met
      

      您可以使用以下命令查看健康检查作业结果:

      kubectl --kubeconfig ADMIN_KUBECONFIG get healthcheck healthcheck-7c4qf \
          -n cluster-user1
      

      该命令会返回以下结果:

      NAME                PASS   AGE
      healthcheck-7c4qf   true   17m
      
    4. 使用 kubectl 命令将所有健康检查作业 pod 的日志收集到本地文件中。下面是一个使用上一个示例健康检查作业的示例:

      kubectl --kubeconfig ADMIN_KUBECONFIG logs -n cluster-user1 \
          -l baremetal.cluster.gke.io/check-name=healthcheck-7c4qf --tail=-1 > \
          healthcheck-7c4qf.log
      

集群日志

创建新的 GKE on Bare Metal 集群时,Cloud Logging 代理默认处于启用状态,并且范围仅限于系统级组件。这会将系统级日志复制到与集群关联的 Google Cloud 项目中。系统级日志来自以下命名空间中的 Kubernetes pod:

  • kube-system
  • gke-system
  • gke-connect
  • istio-system
  • config-management-system
  • gatekeeper-system
  • cnrm-system
  • knative-serving

您可以通过 Cloud Logging 控制台查询日志。

如需了解详情,请参阅 Logging 和 Monitoring

Google Cloud CLI 和远程集群访问

如果您创建了支持请求,Cloud Customer Care 可能会要求您对集群进行远程只读访问,以帮助更有效地诊断和解决问题。为了使支持团队具有足够的访问权限来远程排查集群问题,请确保您已安装并更新为 Google Cloud CLI 的最新版本。Google Cloud CLI 的版本必须为 401.0.0 或更高,才能为 Cloud Customer Care 提供所需的权限。我们建议您定期更新 Google Cloud CLI,以获取额外的权限和其他增强功能。

如需安装最新的 gcloud CLI 组件,请使用 gcloud components update 命令。如需详细了解如何向 Cloud Customer Care 授予对集群的远程只读权限,请参阅针对已注册集群的 Google Cloud 支持

集群指标

除了日志之外,Cloud Monitoring 代理还会捕获指标。这会将系统级指标复制到与集群关联的 Google Cloud 项目中。系统级指标来自在日志中列出的同一命名空间中运行的 Kubernetes pod。

如需了解详情,请参阅 Logging 和 Monitoring

我们如何对您的环境进行问题排查

以下是典型支持突发事件的一个示例:

  1. 集群管理员在 Google Cloud 控制台或 Google Cloud 支持中心内打开支持请求,并分别选择 Google Kubernetes Engine (GKE) Enterprise 版本和 GKE on Bare Metal 作为类别和组件。他们输入所需信息,并将相关 bmctl 命令的输出附加到该案例。

  2. 支持请求转给专门负责 GKE on Bare Metal 的技术支持工程师。

  3. 支持工程师检查快照的内容,以获取环境的上下文。

  4. 支持工程师检查 Google Cloud 项目中的日志和指标,输入支持支持请求 ID 作为正当的业务理由,并在内部记录。

  5. 支持工程师会以评估和建议的形式回应案例。支持工程师和用户继续排查问题,直到找到解决方案。

Google 提供什么支持?

通常,Cloud 支持团队支持作为 GKE on Bare Metal 和 Anthos Service Mesh、Policy Controller、Config Sync 和 Config Controller 的一部分随附的所有软件组件。请参阅下表,详细了解哪些是不受支持的,哪些是不受支持的:

支持 Google Cloud 不支持
Kubernetes 和容器运行时环境 客户对负载均衡器的选择(手动负载均衡)
Connect 和 Connect Agent 客户代码(请参阅开发者支持
Google Cloud 操作、监控、日志记录和代理 客户选择的操作系统
捆绑的负载均衡器 物理或虚拟服务器、存储和网络
Ingress 控制器 外部 DNS、DHCP 和身份系统
GKE Identity Service
Anthos Service Mesh
Policy Controller
Config Sync
Config Controller

版本支持政策

对 GKE on Bare Metal 的支持遵循 Google Kubernetes Engine (GKE) 企业版版本支持政策。从 Google Kubernetes Engine (GKE) Enterprise 版本 1.14 开始,Google 为每个 GKE on Bare Metal 次要版本提供 12 个月的支持,从次要版本初始版本发布后或后续第三个次要版本发布(以时间较长者为准)。

下表显示了此产品支持和不支持的版本。

次要版本 发布日期 最早服务终止日期 可用的补丁程序 Kubernetes 版本
1.28(最新) 2023 年 12 月 15 日 2024 年 12 月 15 日 1.28.400-gke.77 v1.28.7-gke.1700
1.28.300-gke.131 v1.28.7-gke.1700
1.28.200-gke.118 v1.28.5-gke.1200
1.28.100-gke.146 v1.28.5-gke.1200
1.28.0-gke.435 v1.28.3-gke.700
1.16 2023 年 8 月 25 日 2024 年 8 月 25 日 1.16.8 v1.27.12-gke.800
1.16.7 v1.27.10-gke.500
1.16.6 v1.27.9-gke.1200
1.16.5 v1.27.8-gke.1500
1.16.4 v1.27.7-gke.1400
1.16.3 v1.27.6-gke.2500
1.16.2 v1.27.4-gke.1600
1.16.1 v1.27.4-gke.1600
1.16.0 v1.27.4-gke.1600
1.15 2023 年 4 月 27 日 2024 年 4 月 27 日 1.15.11 v1.26.13-gke.1100
1.15.10 v1.26.13-gke.400
1.15.9 v1.26.12-gke.1200
1.15.8 v1.26.10-gke.1400
1.15.7 v1.26.9-gke.2400
1.15.6 v1.26.8-gke.200
1.15.5 v1.26.8-gke.200
1.15.4 v1.26.5-gke.2100
1.15.3 v1.26.5-gke.2100
1.15.2 v1.26.5-gke.1200
1.15.1 v1.26.2-gke.1001
1.15.0 v1.26.2-gke.1001
1.14(不支持) 2022 年 12 月 8 日 2023 年 12 月 8 日 1.14.11 v1.25.14-gke.2400
1.14.10 v1.25.14-gke.2400
1.14.9 v1.25.13-gke.200
1.14.8 v1.25.10-gke.2100
1.14.7 v1.25.10-gke.2100
1.14.6 v1.25.10-gke.1200
1.14.5 v1.25.7-gke.1000
1.14.4 v1.25.7-gke.1000
1.14.3 v1.25.6-gke.1000
1.14.2 v1.25.5-gke.1001
1.14.1 v1.25.5-gke.1001
1.14.0 v1.25.3-gke.1400
1.13(不支持) 2022 年 9 月 29 日 2023 年 8 月 17 日 1.13.10 v1.24.14-gke.2100
1.13.9 v1.24.14-gke.1200
1.13.8 v1.24.11-gke.1000
1.13.7 v1.24.11-gke.1000
1.13.6 v1.24.9-gke.2500
1.13.5 v1.24.9-gke.2500
1.13.4 v1.24.9-gke.2500
1.13.3 v1.24.7-gke.1700
1.13.2 v1.24.7-gke.300
1.13.1 v1.24.5-gke.400
1.13.0 v1.24.2-gke.1900
1.12(不支持) 2022 年 6 月 29 日 2023 年 3 月 29 日 1.12.9 v1.23.17-gke.300
1.12.8 v1.23.16-gke.100
1.12.7 v1.23.15-gke.2400
1.12.6 v1.23.13-gke.1700
1.12.5 v1.23.13-gke.1700
1.12.4 v1.23.11-gke.500
1.12.3 v1.23.10-gke.1000
1.12.2 v1.23.5-gke.1505
1.12.1 v1.23.5-gke.1505
1.12.0 v1.23.5-gke.1504
1.11(不支持) 2022 年 3 月 21 日 2022 年 12 月 21 日 1.11.8 v1.22.15-gke.3300
1.11.7 v1.22.14-gke.500
1.11.6 v1.22.8-gke.204
1.11.5 v1.22.8-gke.204
1.11.4 v1.22.8-gke.204
1.11.3 v1.22.8-gke.203
1.11.2 v1.22.8-gke.200
1.11.1 v1.22.8-gke.200
1.11.0 v1.22.8-gke.200
1.10(不支持) 2021 年 12 月 10 日 2022 年 9 月 10 日 1.10.8 v1.21.13-gke.202
1.10.7 v1.21.13-gke.202
1.10.6 v1.21.13-gke.201
1.10.5 v1.21.6-gke.1503
1.10.4 v1.21.6-gke.1503
1.10.3 v1.21.5-gke.1300
1.10.2 v1.21.5-gke.1300
1.10.1 v1.21.5-gke.1200
1.10.0 v1.21.5-gke.1200
1.9(不受支持) 2021 年 9 月 23 日 2022 年 6 月 23 日 1.9.8 v1.21.13-gke.200
1.9.7 v1.21.6-gke.1503
1.9.6 v1.21.5-gke.1300
1.9.5 v1.21.5-gke.1300
1.9.4 v1.21.5-gke.1200
1.9.3 v1.21.5-gke.1200
1.9.2 v1.21.4-gke.201
1.9.1 v1.21.4-gke.201
1.9.0 v1.21.4-gke.200
1.8(不支持) 2021 年 6 月 21 日 2022 年 3 月 21 日 1.8.9 v1.20.9-gke.102
1.8.8 v1.20.9-gke.102
1.8.7 v1.20.9-gke.102
1.8.6 v1.20.9-gke.102
1.8.5 v1.20.9-gke.102
1.8.4 v1.20.9-gke.101
1.8.3 v1.20.9-gke.101
1.8.2 v1.20.8-gke.1500
1.8.1 v1.20.5-gke.1301
1.8.0 v1.20.5-gke.1301
1.7(不支持) 2021 年 3 月 25 日 2021 年 12 月 25 日 1.7.7 v1.19.14-gke.2201
1.7.6 v1.19.14-gke.2201
1.7.5 v1.19.14-gke.2201
1.7.4 v1.19.14-gke.400
1.7.3 v1.19.13-gke.100
1.7.2 v1.19.10-gke.1602
1.7.1 v1.19.7-gke.1200
1.7.0 v1.19.7-gke.1200
1.6(不支持) 2020 年 11 月 30 日 2021 年 8 月 30 日 1.6.4 v1.18.20-gke.3000
1.6.3 v1.18.18-gke.100
1.6.2 v1.18.6-gke.6600
1.6.1 v1.18.6-gke.6600
1.6.0 v1.18.6-gke.6600

支持的功能

本文档列出了 GKE on Bare Metal 针对受支持版本提供的特性和功能。此表并不是详尽的列表,而是重点介绍将集群升级到受支持的最新版本的一些优势。

列为预览版的功能受 Google Cloud 服务条款的非正式版产品条款的约束。正式发布前的产品和功能获得的支持可能较为有限,并且对正式发布前产品和功能的更改可能不兼容其他正式发布前版本。如需了解详情,请参阅发布阶段说明。预览版产品仅适用于测试环境。

正式版 (GA) 中列出的功能完全受支持,面向所有客户开放,并可直接用于生产环境。

功能/能力 1.15(不支持) 1.16 1.28 1.29(最新)
针对多个用户集群版本的管理员集群支持 - - - 预览
提醒政策 预览 预览 预览 预览
Google Distributed Cloud 上的虚拟机运行时 GA GA GA GA
Azure Active Directory (AD) 群组 GA GA GA GA
基于 BGP 的负载均衡器对 IPv6 的支持 GA GA GA GA
Binary Authorization 预览 GA GA GA
使用 BGP 进行捆绑式负载均衡 GA GA GA GA
Cloud Audit Logs GA GA GA GA
集群备份和恢复 CLI 支持 GA GA GA GA
集群证书授权机构 (CA) 轮替 GA GA GA GA
集群节点重置 CLI 支持 GA GA GA GA
暂停和继续集群升级 - - 预览 预览
containerd 容器运行时 GA GA GA GA
对照组 v2 GA GA GA GA
自定义证书授权机构 - 预览 GA GA
Dataplane V2 直接服务器返回 (DSR) 负载均衡转发模式 - 预览 GA GA
使用边界网关协议 (BGP) 的动态平面 IP GA GA GA GA
出站流量 NAT 网关 GA GA GA GA
平面 IPv4 模式(静态) GA GA GA GA
平面 IPv6 支持(BGP 模式) GA GA GA GA
GKE Identity Service v2 - - 预览 GA
IPv4/IPv6 双栈 GA GA GA GA
KSA 支持 GA GA GA GA
Google Cloud Managed Service for Prometheus 的代管式收集器 GA GA GA GA
多集群连接 预览 预览 预览 预览
Pod 的多 NIC GA GA GA GA
适用于 GDC 的网络网关 预览 预览 预览 预览
节点问题检测器 GA GA GA GA
并行节点升级 GA GA GA GA
并行节点池升级 预览 GA GA GA
性能调整运算符 - 预览 预览 预览
为节点提供私有注册表支持 - - - 预览
注册表镜像支持 GA GA GA GA
安全计算模式 (seccomp) GA GA GA GA
跳过节点池版本升级 - - 预览 GA
SR-IOV 网络 GA GA GA GA
摘要 API 指标 GA GA GA GA
VPC Service Controls 预览 GA GA GA
工作器节点池升级回滚 - - - 预览
Workload Identity GA GA GA GA

责任共担模型

在 GKE on Bare Metal 上运行关键业务生产应用需要多方承担不同的责任。以下部分(并非详尽无遗)列出了角色和责任。

Google 的责任

  • 维护和分发 GKE on Bare Metal 软件包。
  • 通知用户 GKE on Bare Metal 的可用升级,并为之前的版本生成升级脚本;GKE on Bare Metal 仅支持依序升级(例如:1.2 → 1.3 → 1.4,而不是 1.2 → 1.4)。
  • 运行 Connect 和 Cloud Operations 服务。
  • 针对与 Google 提供的组件相关的任何问题,进行问题排查、提供解决办法以及纠正根本原因

用户的责任

  • 本地集群的整体系统管理。
  • 维护部署在集群上的所有应用工作负载。
  • 运行、维护和修补数据中心基础架构,包括网络、服务器、操作系统、存储空间以及与 Google Cloud 的连接。
  • 如果选择了手动负载均衡器选项,则需要运行、维护和修补网络负载均衡器。
  • 定期升级 GKE on Bare Metal 版本。
  • 监控集群和应用,并响应任何突发事件。
  • 确保 Cloud Operations 代理已部署到集群。
  • 向 Google 提供环境详细信息,以便进行问题排查。

开发者支持

Google 不会专门针对您的应用工作负载提供支持。但是,我们会尽最大努力确保您的开发者能够在 GKE on Bare Metal 上运行应用。我们认为,在开发过程中尽早采取行动可以防止部署后期出现严重突发事件。

这个尽最大努力的开发者支持可供使用付费支持套餐的客户使用,并且会被视为 P3 优先级(阻止发布的问题)或 P4 优先级(一般咨询)。在此分类中,优先级 0 是最高优先级。