Google Distributed Cloud air-gapped 版本说明

2024 年 3 月 5 日 [GDC 1.12.1]


  • 经过网闸隔离的 Google Distributed Cloud 1.12.1 现已发布。
    请参阅产品概览,了解 Google Distributed Cloud 网闸隔离配置的功能。


将 Rocky Linux 映像版本更新为 20240131,以应用最新的安全补丁和重要更新。如需利用 bug 和安全漏洞修复,您必须在每个版本发布后升级所有节点。修复了以下安全漏洞:


以下容器映像安全漏洞已修复:


备份和恢复

  • 存在一个问题,导致无法将卷备份到组织存储分区。
  • 组织的备份路由失败。

集群管理

  • 如果用户集群的 Kubernetes 版本为 1.27.x,则可能会出现节点池无法初始化的情况。

Istio

  • 处于 ImagePullBackOff 状态且具有 Back-off pulling image "auto" 事件的 pod。

文件存储和块存储

  • 从 1.11.1 升级到 1.12.1 时,file-netapp-trident 子组件的推出可能会失败。

硬件安全模块

  • 硬件安全模块的可轮替 Secret 处于未知状态。

日志记录

  • 从 1.11.1 升级到 1.12.1 时,由日志组件部署的 ValidatingWebhookConfigurationsMutatingWebhookConfigurationsMonitoringRules 可能无法升级。
  • cortex-ingester pod 显示 OOMKilled 状态。
  • 启用日志导出到外部 SIEM 目标位置后,转发的日志不包含任何 Kubernetes API 服务器日志。

监控

  • 配置 ServiceNow webhook 会导致生命周期管理 (LCM) 重新协调并还原对 mon-system 命名空间中的 ConfigMap 对象 mon-alertmanager-servicenow-webhook-backendSecret 对象 mon-alertmanager-servicenow-webhook-backend 所做的更改。
  • 从 1.11.x 升级到 1.12.1 时,Cortex 存储桶删除可能会失败。
  • 不收集审核日志和操作日志。
  • 配置中定义的指标存储类不正确。
  • mon-prober-backend-prometheus-config ConfigMap 会重置为不包含任何探测作业,并触发提醒 MON-A0001

网络

  • GDC 在虚拟机和容器更新、终止和调度方面遇到问题。
  • 预安装脚本在多个交换机上失败。
  • 从 1.11 升级到 1.12.1 失败,原因是 hairpinlink 自定义资源生成失败。

节点平台

  • 从 1.11.x 升级到 1.12.1 时,交换映像下载 pod 可能会卡在 ErrImagePull 状态。
  • 从 1.11.x 升级到 1.12.1 时,主机防火墙会阻止交换机映像下载。

NTP 服务器

  • NTP 中继服务器 pod 在重启后崩溃。
  • NTP 中继作业 pod 在重启后崩溃。

物理服务器

  • 从 1.11.x 升级到 1.12.1 时,NodeUpgrade 包含同一硬件型号的多个版本,从而阻止固件升级验证。
  • 手动安装服务器时,服务器安装可能会卡住。
  • 服务器卡在预配状态。
  • NodePool 在创建期间服务器处于未知状态。

系统制品注册表

  • 在 ABM 升级后,Harbor 崩溃循环。

升级

  • 从 1.11.x 升级到 1.12.1 时,节点升级会卡在 MaintenanceModeHealthCheckReady undrain 错误上。
  • 从 1.11.x 升级到 1.12.1 时,集群节点可能因 registy_mirror 的健康检查失败而无法退出维护模式。
  • 操作系统就地节点升级可能会停止响应。
  • 从 HW2.0 和 Ubuntu 升级时,节点升级错误地显示为 RockyLinux。

Vertex AI

  • 在创建用户集群时,MonitoringTarget 会显示 Not Ready 状态,导致预训练的 API 在界面中持续显示 Enabling 状态。

虚拟机管理器

  • 从 1.11.x 升级到 1.12.x 时,虚拟机可能因 Pod 过多而无法就绪。
  • 由于 network-controller-manager 安装失败,VMRuntime 可能尚未就绪。


结算

  • 修复了导致补丁升级在升级检查中失败的问题。
  • 修复了导致创建多个 billing-storage-init-job 对象的问题。

防火墙

  • 修复了因在端口 8082 上配置了 deny 政策而导致从引导加载程序到对象存储的流量被阻止的问题。

监控

  • 修复了不从用户集群收集指标的问题,该问题会影响用户虚拟机集群,但不会影响系统集群。
  • 修复了主 Prometheus 将指标发送到 Cortex 租户时跨越集群边界的问题。

运维套件基础架构核心服务 (OIC)

  • 修复了以下问题:所需状态配置 (DSC) 返回错误结果,并且无法更新资源。
  • 修复了 Microsoft 系统中心配置管理器 (SCCM) 部署无法成功完成并需要手动干预才能修复的问题。

虚拟机备份和恢复

  • 修复了以下问题:虚拟机管理器中的基于角色的访问权限控制 (RBAC) 和架构设置导致用户无法启动虚拟机备份和恢复进程。

插件管理器

  • Google Distributed Cloud 版本已更新为 1.28.100-gke.150,以应用最新的安全补丁和重要更新。

运维套件基础架构核心服务 (OIC)

  • Google Distributed Cloud air-gapped 1.12.1 新增了有关合作伙伴准备从版本中排除的 OIC 制品的说明。

安全信息和事件管理 (SIEM)

  • Splunk Enterprise 和 Splunk 通用转发器已升级到 9.1.3 版。

版本更新

  • 基于 Debian 的映像版本已更新为 bookworm-v1.0.1-gke.1。