Google Distributed Cloud air-gapped 1.14.3 版本说明

2025 年 2 月 28 日


Google Distributed Cloud (GDC) 经过网闸隔离的 1.14.3 版现已推出。
如需了解 Distributed Cloud 的功能,请参阅产品概览

以下新功能现已推出:

备份和恢复

  • 新增了创建范围限定的虚拟机备份和恢复的功能,以针对特定的虚拟机工作负载。您可以手动创建这些虚拟机备份,也可以创建备份方案,以便系统自动按照您定义的时间表执行备份。如需了解详情,请参阅概览
  • 新增了虚拟机精细恢复功能,可让您恢复特定的虚拟机和虚拟机磁盘资源。如需了解详情,请参阅创建精细恢复
  • 新增了集群精细恢复功能,可让您从集群备份中恢复部分资源。此功能可灵活地细化恢复方案中定义的恢复范围。如需了解详情,请参阅创建精细恢复

结算

  • 增加了将每月结算费用上传到 Argentum 控制台的功能。

DNS

  • 您现在可以创建和管理自己的公开和专用 DNS 区域,以满足应用和服务的需求。您可以在 DNS 区域内创建 DNS 记录。不同类型的 DNS 记录有不同的用途,例如引导流量、定义邮件服务器和验证所有权。如需了解详情,请参阅关于 DNS 区域和记录

防火墙

  • 添加了使用对称密钥在 GDC 防火墙上配置 NTP PANW 身份验证的功能。

IAM

  • 控制身份提供方、服务账号和角色绑定的 IAM API 默认是全球性的,涵盖 GDC 宇宙中的所有可用区。如需了解详情,请参阅多区域宇宙的权限控制

Marketplace

  • Neo4j 在 GDC 网闸隔离配置的 Marketplace 中提供。 Neo4j 是一款开源的内置 NoSQL 图数据库,可为您的应用提供符合 ACID 标准的事务性后端。
  • MariaDB Operator 可在 GDC 网闸隔离的市场中使用。MariaDB Operator 使用受支持的 Docker 映像为 MariaDB Enterprise Server 和 MaxScale 提供舰队管理和 HA/DR 解决方案。
  • HashiCorp Vault (BYOL) 可在 Google Distributed Cloud 网闸隔离配置的 Marketplace 中使用。 HashiCorp Vault 是基于身份的密钥和加密管理系统。
  • Apache Kafka on Confluent Platform (BYOL) 可在 GDC 气隙式 Marketplace 中使用。Confluent Platform 是一种解决方案,可用于实时访问、存储和管理连续的数据流。
  • Redis Software for Kubernetes (BYOL) 可在 GDC 气隙式 Marketplace 中使用。Redis 是全球速度最快的内存中数据库,可用于构建和伸缩快速应用。

MHS

  • 受管理的 Harbor 服务 (MHS) 现在包含 Harbor 备份和恢复功能。 为 Harbor 实例配置备份和创建恢复。如需了解详情,请参阅概览
  • 添加了 MHS 凭据帮助程序,可让您使用 GDC 身份登录 Docker 或 Helm CLI。 如需了解详情,请参阅登录 Docker 和 Helm
  • 添加了扫描 Harbor 实例中所有制品的功能。如需了解详情,请参阅扫描漏洞

日志记录

  • Loki pod 在 WAL 重放期间崩溃或因内存不足而终止。

监控

  • 在可视化信息中心内添加了对跨区域查询和监控的支持。如需了解详情,请参阅查询和查看指标以及查询和查看日志

  • 可以忽略 OCLCM 噪声警报。

  • 系统指标流水线已停止运行。

网络

  • 使用多可用区内部和外部负载平衡器来分配虚拟机和 Pod 工作负载的流量。如需了解详情,请参阅概览

  • 配置互联资源,以建立与外部专用网络的物理专用连接。如需了解详情,请参阅互连概览

  • 使用 Networking KRM API 或 gcloud CLI 为 Pod 和虚拟机工作负载配置内部或外部负载均衡器。如需了解详情,请参阅管理负载平衡器

  • 使用可用区级和全局项目网络政策在项目和组织之间建立连接。

  • 创建工作负载级层网络政策,以针对项目中的各个虚拟机和 pod 定义具体的访问规则。

Resource Manager

  • 默认情况下,项目是全球资源,涵盖 GDC 领域中的所有可用区。如需了解详情,请参阅多地区概览

虚拟机


将 Rocky 操作系统映像版本更新为 20250124,以应用最新的安全补丁和重要更新。

修复了以下安全漏洞:


发现了以下问题:

备份和恢复

  • 从 GDC 控制台修改 RestorePlan 时出现问题。

  • 如果代理和控制平面 Pod 内存不足,可能会重新启动,从而影响系统稳定性。

  • 由于缺少自定义资源定义,默认情况下不会启用备份和恢复的 GDC 服务等级目标 (SLO) 指标和提醒。

  • 保留政策不适用于导入的备份。

  • 部分虚拟机备份失败。

  • 在用户或服务集群删除后清理孤立的备份资源。

  • 不支持通过 CLI 或界面删除 VirtualMachineRestore

集群管理

  • kub-gpu-controller 子组件未针对 gdchservices 组织进行协调。

  • 从标准集群中移除过时的节点池失败。标准集群目前处于非公开预览版阶段,可能不适用于所有客户。

防火墙

  • 无法通过全局界面控制台 DNS 访问组织。

  • 部署 OCITTopology 自定义资源后,OIR 与 GDC 管理平面和数据平面之间的连接会中断。

  • 默认情况下,GDC 防火墙会阻止跨可用区和跨组织的流量。

资产清单

  • 资源审核无法进行对账。

硬件安全模块

  • 在 CipherTrust Manager 中,仍可检测到已停用的试用许可,从而触发错误的过期警告。

  • 出现了一个问题,即 HSM 在启动后失败并显示 ValidateNetworkConfig 错误。此错误会阻止 HSM 自定义资源进入 Ready 状态。

  • 文件描述符泄漏会导致 ServicesNotStarted 错误。

健康

  • 由于 SLO API 标签存在问题,系统可能会在多个组件中触发 30 多次有关 SLO 提醒的误报。

身份和访问权限管理

  • 如果生成的 IAM 角色绑定名称超过 63 个字符,角色绑定会失败。

  • 项目服务账号 (PSA) 无法为自身或其他具有 organization-iam-admin 角色的 PSA 分配 IAM 角色绑定。

  • 新项目在创建预定义角色时遇到延迟问题。

  • 应用运维人员无法自行授予对基础架构集群中角色的访问权限。

  • 现有服务账号令牌失效。

基础设施即代码 (IAC)

  • 由于缺少命名空间,子组件无法进行协调。
  • IAC ConfigSync 指标收集失败。
  • IAC 根同步失败。

密钥管理系统

  • 如果 HSM 不可用,配置为使用 CTM 根密钥的 KMS 不会进行故障切换。

负载平衡器

  • 由于全球子网中的 IP 地址不足,全球负载均衡器创建失败。
  • 负载均衡器对象未进入 Ready 状态。
  • 目前尚不支持在配置负载平衡器后对其进行修改。

  • 全局 BackendService 资源不会拒绝错误的可用区名称。

  • 可用区级和全球负载平衡器都可能会出现 Webhook 错误。

MHS

  • 在执行受管理的 Harbor 服务 (MHS) 备份和恢复操作后,CLI 密钥对恢复的 Harbor 实例失效,需要重新创建。
  • 当不同的用户项目中有多个 Harbor 实例时,备份和恢复操作会争夺基于角色的访问控制,并且失败率很高。
  • 尚未针对 Harbor 备份和恢复实现备份大小。在 GDC 控制台中,“SizeBytes”字段显示的值为 0,“Size”列显示的值为 0 MB。
  • 在 GDC 控制台中查看 Harbor Container Registry 页面时,没有必需的 Harbor 实例管理员权限的用户在检索备份资源时会看到错误消息。

监控

  • AlertManager webhook 无法针对某些集群发送提醒和突发事件通知。
  • 创建后,事件偶尔会重复。
  • 根管理员集群中存在两个监控假提醒。
  • 可以忽略对账错误提醒。
  • 根管理员控制器管理器显示较高的错误率。
  • KUB 监控信息中心不显示任何数据。
  • 可观测性调试器角色的权限配置错误。
  • 缺少 Grafana 调试器角色。
  • 由于信息中心和数据源的最终确定器处于待处理状态,项目删除操作卡住了。
  • PA 无法查看 KSM 中的指标。

多可用区

  • 当某个可用区无法访问时,GDC 控制台会显示身份验证错误。

  • 默认情况下,无法使用 gdcloud CLI 列出可用区。

  • 访问全球 GDC 控制台网址时,可能会出现间歇性登录错误。

网络

  • 在网络交换机上配置具有 4 字节自治系统编号 (ASN) 的边界网关协议 (BGP) 会导致配置失败。

  • 节点在数据网络上不可访问。

  • 网络中节点之间的跨地区流量减少了约 50%。

  • StatefulSet pod 推出可能会导致连接问题。

  • 过于严格的访问控制列表 (ACL) 会阻止全局任播流量。

  • allow-all-egress 项目网络政策 (PNP) 不允许流量流向系统端点。

  • pnet-cross-zone-availability SLO 信息中心在 Grafana 中未显示任何指标。

  • 数据平面和管理入站网关无法协调一致。

  • GDC 控制台中的项目网络政策页面不支持 ProjectNetworkPolicy API 中的 projectSelector 字段。

  • 网络交换机配置更改未提交。

运维套件基础架构核心服务 (OIC)

  • 跳转主机性能不佳。

操作系统

  • OS NodeUpgrade 可能会卡在 NodeOSInPlaceUpgradePostProcessingCompleted 步骤中。
  • OS NodeUpgrade 可能会卡在软件包服务器创建阶段。

Resource Manager

  • 无法从 GDC 控制台中删除项目。

  • 创建客户组织时,用于创建必需的 Ansible playbook 的作业 create-ansible-playbooks 失败。

存储

  • 由于 Trident mkfs.ext4 错误,Pod 无法挂载。

  • 节点升级被阻止。

系统制品注册表

  • Harbor 制品复制作业卡住。

  • 在协调 HarborRobotAccount 资源时,如果出现暂时性错误,可能会触发误报。

升级

  • 支持报告失败。

Vertex AI

  • Vertex AI 预训练模型和工作簿在版本 1.14.3 中未启用,但将在 1.14.4 中提供。

修复了以下问题:

Harbor

  • 修复了节点池卡在 Provisioning 状态的问题。如需了解详情,请参阅已知问题

系统检测到以下更改:

核心

  • 移除了在多个服务工作流中与组织管理员集群和系统集群互动的要求。管理 API 服务器可用于管理所有非容器工作负载和服务,是所有受影响的服务工作流的替代方案。

  • 对于旨在跨 GDC 宇宙进行全局部署的客户管理型资源,系统默认提供全局 API 服务器。如需了解详情,请参阅全球和可用区级 API 服务器

Marketplace

  • Marketplace Viewer 角色的权限仅限于查看可用服务,无法访问已安装的实例或其配置。如需查看正在运行的实例的配置,用户需要具有 Marketplace 编辑者 (marketplace-editor) 角色。

  • 系统会显示 Marketplace 服务映像的列表。

Resource Manager

  • 移除了在 GDC 控制台中创建项目时附加 Kubernetes 集群的功能。您必须从 Kubernetes Engine > 集群页面将 Kubernetes 集群附加到项目。如需了解详情,请参阅创建项目

版本更新

虚拟机

  • 更新了“性能测试即服务 (PTaaS)”文档,添加了 PTaaS 中可用基准的新名称和说明。