Google Distributed Cloud air-gapped 1.13.3 版本说明

2024 年 8 月 30 日


Google Distributed Cloud (GDC) 网闸隔离配置 1.13.3 已发布。
如需了解 Distributed Cloud 的功能,请参阅产品概览

集群管理

  • 引入了更广泛的多实例 GPU (MIG) 配置文件(统一模式和混合模式)。您可以在 GPU 虚拟机(A3 虚拟机)上创建 Google Kubernetes Engine 集群,并采用各种 GPU 切分方案,动态满足托管人工智能 (AI) 工作负载的服务的 GPU 资源需求。

硬件

  • 我们推出了配备最新 NVIDIA Hopper H100 GPU (2x2 NVL) 的全新 DL380a 服务器,并搭配了最新的第 5 代 Intel 处理器。

虚拟机

  • 我们推出了新的 GPU 优化型 A3 虚拟机。A3 虚拟机类型挂接了 4 个 NVIDIA H100 80GB GPU,可运行需要高达 1, 000 亿形参的大型语言模型的 AI 工作负载。
  • 推出了较小的 A3 虚拟机规格,每个虚拟机挂接了 1 个 H100 80GB GPU 和 2 个 H100 80GB GPU。此功能处于预览阶段。

Vertex AI



将 Rocky OS 映像版本更新为 20240731,以应用最新的安全补丁和重要更新。


结算

  • 由于验证 webhook 错误,用户无法创建 BillingAccountBinding

块存储

  • 由于卷装载错误,Grafana pod 卡在 Init 状态。
  • 存在 Trident 多重附加错误。

数据库服务

  • 升级时,dbs-fleet 子组件存在协调错误。
  • 升级后,DBCluster 创建失败。

身份和访问权限管理

  • opa-system 命名空间中的 gatekeeper-audit Pod 频繁重启。

监控

  • Cortex 存储网关 pod 在启动时可能会在与存储后端同步时进入崩溃循环。Pod 超出了其内存限制,导致 Kubernetes 终止了这些 Pod。
  • Kube 控制平面指标代理 pod 可能会因映像拉取退避错误而陷入崩溃循环。
  • WAL(预写日志)的增长会导致 Prometheus 使用大量内存。由于此问题,系统控制平面虚拟机节点会报告 NodeHasInsufficientMemoryEvictionThresholdMet 事件。

网络

  • 交换机映像未能提取或拉取映像。

对象存储

  • 您可以忽略一些对象存储升级警告。

操作系统

  • Pod 卡在单个节点上的 ContainerCreating 状态。

物理服务器

  • DL380a 服务器无法配置。

升级

  • 升级期间的 Helm 故障会导致一系列回滚。
  • 从 HW2.0 和 Ubuntu 升级时,节点升级错误地显示为 RockyLinux。
  • dhcp-tftp-core-server pod 未被清空。
  • OrganizationUpgrade卡在节点升级阶段。
  • 与外部集群 VIP 的连接间歇性失败。
  • 内核未能创建容器。
  • 升级期间出现 Incorrect version of Trident 错误。
  • 在用户集群配置期间,某些 pod 无法被调度。
  • 租户组织升级在预检检查阶段失败,并显示 ErrImagePull
  • 根组织的升级卡在签名作业失败的状态。
  • 在升级期间,根组织的任务因缺少服务账号而失败。
  • 升级在 shared-service-cluster upgrade 上失败
  • 节点在用户集群升级期间发生故障。
  • 根组织的升级因预检检查失败而失败。
  • 初始根 organizationupgrade 期间出现持续性超时。
  • obj-syslog-server 子组件在根组织中无法完成协调。

虚拟机

  • 在具有 GPU 的集群节点上,NVIDIA 设备插件 DaemonSet 失败,并显示 driver rpc error 消息。此问题会导致 GPU 无法用于虚拟机和 pod。
  • 系统集群虚拟机尚未准备就绪。
  • 数据卷报告找不到临时空间。
  • obj-syslog-server 子组件在根组织中无法完成协调。

Vertex AI

  • Speech-to-Text 的 streaming_recognize 预训练 API 函数因客户端库存在问题而失败。
  • batchTranslateDocument API 不支持作业状态轮询。
  • batchTranslateDocument 个请求可能会导致性能问题。
  • 首次启用预训练 API 时,GDC 控制台可能会在几分钟后显示不一致的状态。
  • 如果翻译请求超过 250 个字符,可能会导致 translation-prediction-server pod 崩溃。
  • 共享服务集群的 GPUAllocation 未正确配置。
  • 从 1.9.x 版升级到 1.13.3 版时,Vertex AI 子组件的可操作组件生命周期管理 (OCLCM) 控制器可能会显示错误。
  • 当系统频率限制被超出时,翻译请求可能会生成 RESOURCE_EXHAUSTED 错误代码。
  • 如果集群中可操作的 enableRAG 参数未设置为 true,则 batchTranslateDocument 请求会返回错误 503 "Batch Document translation is not implemented

监控

  • 修复了 Prober ConfigMap 重置为不包含任何探测作业的问题。

网络

  • 修复了以下问题:即使创建了 ClusterCIDRConfigPodCIDR 也未分配给节点。

操作系统

  • 修复了以下问题:裸金属或虚拟机节点的 bm-system-machine-preflight-check Ansible 作业因 Either ip_tables or nf_tables kernel module must be loaded 而失败。

物理服务器

  • 修复了 HPE 服务器上因 POST 问题而导致服务器引导失败的问题。

升级

  • 修复了 iac-zoneselection-global 子组件中的升级失败问题。

Vertex AI

  • 修复了以下问题:在创建用户集群时,MonitoringTarget 显示 Not Ready 状态,导致预训练的 API 在界面中持续显示 Enabling 状态。

插件管理器

升级

  • 升级文档提供了升级流程各个阶段的预计时长。