1.7 版。如 Anthos 版本支持政策中所述,此版本是受支持的版本,提供影响 Anthos clusters on Bare Metal 的安全漏洞、威胁和问题的最新补丁程序和更新。如需了解详情,请参阅版本说明 1.7。如需按时间顺序查看每个次要版本和补丁程序版本的完整列表,请参阅组合版本说明

可用版本:1.9 | 1.8 | 1.7

获取支持

Google 的主要支持目标是尽快解决生产突发事件。我们通过了解您的配置、分析日志和指标以及与合作伙伴协作来快速解决突发事件。

Google Cloud 提供各种支持套餐,以满足您的支持需求。所有 Google Cloud 支持套餐都包含对 Anthos 和 Anthos clusters on Bare Metal 的支持。如果您已有 Google Cloud 支持套餐,则表示您已获得对 Anthos 和 Anthos clusters on Bare Metal 的支持。

如需了解详情,请参阅 Google Cloud 支持文档。

针对 Anthos clusters on Bare Metal 支持的要求

如需有效地对关键业务突发事件进行问题排查,您必须:

支持工具

Google Cloud 支持团队依据以下三项信息对 Anthos clusters on Bare Metal 突发事件进行问题排查:

您的环境配置

创建支持案例时,运行以下命令可提供有关集群设置的关键信息:

  • 对于所有集群类型,运行 bmctl check cluster --snapshot 命令来捕获 Kubernetes 和节点的相关信息。将生成的 tar 压缩文件附加到支持案例。

  • 对于管理员集群、混合集群和独立集群,运行 bmctl check cluster 命令来检查集群和节点的运行状况。将生成的日志附加到支持案例。这些日志应位于 bmctl-workspace/[CLUSTER_NAME]/log/check-cluster-[TIMESTAMP] 目录下。

  • 对于用户集群,首先创建包含集群名称和命名空间的运行状况检查 YAML 文件,然后在适当的管理员集群中应用该文件:

    1. 使用以下 healthcheck 属性创建 YAML 文件。以下是 cluster-user1 命名空间中名为 user1 的集群的示例内容:
      apiVersion: baremetal.cluster.gke.io/v1
      kind: HealthCheck
      metadata:
      generateName: healthcheck-
      namespace: cluster-user1
      spec:
      clusterName: user1
      
    2. 创建 YAML 文件后,请使用 kubectl 命令在管理用户集群的管理员集群中应用自定义资源。下面是一个在上一步中创建的使用 YAML 文件的示例命令。在此示例中,ADMIN_KUBECONFIG 变量指定了管理员集群的 kubeconfig 文件的路径:
      kubectl --kubeconfig ADMIN_KUBECONFIG create -f healthcheck-user1.yaml
      
      该命令会返回以下响应:
      healthcheck.baremetal.cluster.gke.io/healthcheck-7c4qf created
      
    3. 通过测试运行状况检查作业是否已完成调整,等待运行状况检查作业完成。在前面的示例案例中,运行状况检查作业名称为 healthcheck.baremetal.cluster.gke.io/healthcheck-7c4qf。下面是一个使用 kubectl 命令的示例测试,该命令将等待 30 分钟,直到运行状况检查作业完成为止:
      kubectl --kubeconfig ADMIN_KUBECONFIG wait healthcheck healthcheck-7c4qf -n cluster-user1 \
      --for=condition=Reconciling=False --timeout=30m
      
      完成后,此命令会返回以下内容:
      healthcheck.baremetal.cluster.gke.io/healthcheck-7c4qf condition met
      
      您可以使用以下命令查看运行状况检查作业结果:
      kubectl --kubeconfig ADMIN_KUBECONFIG get healthcheck healthcheck-7c4qf -n cluster-user1
      
      该命令会返回以下结果:
      NAME                PASS   AGE
      healthcheck-7c4qf   true   17m
      
    4. 使用 kubectl 命令将所有运行状况检查作业 pod 的日志收集到本地文件中。下面是一个使用上一个示例运行状况检查作业的示例:
      kubectl --kubeconfig ADMIN_KUBECONFIG logs -n cluster-user1 -l baremetal.cluster.gke.io/check-name=healthcheck-7c4qf --tail=-1 > healthcheck-7c4qf.log
      

集群日志

当您创建新的 Anthos clusters on Bare Metal 集群时,系统会默认启用 Cloud Logging 代理,并将其范围限定于系统级组件。这会将系统级日志复制到与集群关联的 Google Cloud 项目中。系统级日志来自以下命名空间中的 Kubernetes pod:

kube-system
gke-system
gke-connect
istio-system
config-management-system
gatekeeper-system
cnrm-system
knative-serving

您可以通过 Cloud Logging 控制台查询日志。

注意:如果您停用 Cloud Logging,我们只能尽最大努力提供支持,而且您的现场工程团队可能需要执行大量额外工作。

如需了解详情,请参阅日志记录和监控

集群指标

除了日志之外,Cloud Monitoring 代理还会捕获指标。这会将系统级指标复制到与集群关联的 Google Cloud 项目中。系统级指标来自在日志中列出的同一命名空间中运行的 Kubernetes pod。

注意:如果您停用 Cloud Monitoring,我们只能尽最大努力提供支持,而且您的现场工程团队可能需要执行大量额外工作。

如需了解详情,请参阅日志记录和监控

我们如何对您的环境进行问题排查

以下是典型支持突发事件的一个示例:

  1. 有人(例如集群管理员)通过 Google Cloud Console 或 Google Cloud 支持中心创建了一个支持案例,然后分别选择 Anthos 和 Anthos clusters on Bare Metal 作为类别和组件。他们输入所需信息,并将相关 bmctl 命令的输出附加到该案例。
  2. 支持案例转交至专门负责 Anthos clusters on Bare Metal 的技术支持工程师。
  3. 支持工程师检查快照的内容,以获取环境的上下文。
  4. 支持工程师检查 Google Cloud 项目中的日志和指标,输入支持案例 ID 作为正当的业务理由,并在内部记录。
  5. 支持工程师会以评估和建议的形式回应案例。支持工程师和用户继续排查问题,直到找到解决方案。

Google 提供什么支持?

一般情况下,Cloud 支持团队支持作为 Anthos clusters on Bare Metal 以及 Anthos Service Mesh 和 Anthos Config Management 一部分提供的所有软件组件。下表对此进行了详细说明:

支持 Google Cloud 不支持
Kubernetes 和容器运行时环境 客户对负载平衡器的选择(手动负载平衡)
Connect 和 Connect Agent 客户代码(请参阅下面的开发者支持
Google Cloud 操作、监控、日志记录和代理 客户选择的操作系统
捆绑的负载平衡器 物理或虚拟服务器、存储和网络
Ingress 控制器 外部 DNS、DHCP 和身份系统
Anthos Identity Service
Anthos Service Mesh
Anthos Config Management

版本支持政策

对 Anthos clusters on Bare Metal 的支持遵循 Anthos 版本支持政策。Google 支持 Anthos clusters on Bare Metal 的当前版本和前两个 (n-2) 次要版本。

下表显示了此产品支持和不支持的版本。

发布版本 发布日期 预计的支持终止日期
1.9(当前版本) 2021 年 9 月 23 日 2022 年 6 月 23 日
1.8 2021 年 6 月 21 日 2022 年 3 月 21 日
1.7 2021 年 3 月 25日 2021 年 12 月 25 日
1.6(不支持) 2020 年 11 月 30 日 2021 年 8 月 30 日

如需获取新增功能和性能,请升级到 Anthos clusters on Bare Metal 1.8 版。如需了解如何升级,请参阅升级 Anthos on Bare Metal

责任共担模型

在 Anthos clusters on Bare Metal 上运行关键业务生产应用需要多方承担不同的责任。以下部分列出了角色和相应的责任(未详尽列出)。

Google 的责任

  • 维护和分发 Anthos clusters on Bare Metal 软件包
  • 通知用户 Anthos clusters on Bare Metal 的可用升级,并为之前的版本生成升级脚本;Anthos clusters on Bare Metal 仅支持依序升级(示例:1.2 → 1.3 → 1.4,不支持 1.2 → 1.4)。
  • 运行 Connect 和 Cloud Operations 服务。
  • 针对与 Google 提供的组件相关的任何问题,进行问题排查、提供解决办法以及纠正根本原因

用户的责任

  • 本地集群的整体系统管理。
  • 维护部署在集群上的所有应用工作负载。
  • 运行、维护和修补数据中心基础架构,包括网络、服务器、操作系统、存储以及与 Google Cloud 的连接。
  • 如果选择了手动负载平衡器选项,则需要运行、维护和修补网络负载平衡器。
  • 定期升级 Anthos clusters on Bare Metal 版本。
  • 监控集群和应用,并响应任何突发事件。
  • 确保 Cloud Operations 代理已部署到集群。
  • 向 Google 提供环境详细信息,以便进行问题排查。

开发者支持

Google 不为 Anthos clusters on Bare Metal 上运行的应用工作负载提供支持。但是,我们会尽最大努力为开发者提供支持,以确保开发者可以轻松地在 Anthos clusters on Bare Metal 上运行应用。我们认为,在开发过程中尽早采取行动有助于避免部署时发生重大突发事件。

此开发者支持可供使用付费支持套餐的客户使用,而且会被视为 P3 优先级(表示阻止发布的问题)或 P4 优先级(一般咨询)。