Google Distributed Cloud air-gapped 1.13.3 版本说明

2024 年 8 月 30 日

Google Distributed Cloud (GDC) 网闸隔离配置 1.13.3 已发布。
如需了解 Distributed Cloud 的功能，请参阅产品概览。

集群管理：

引入了更广泛的多实例 GPU (MIG) 配置文件（统一模式和混合模式）。您可以在 GPU 虚拟机（A3 虚拟机）上创建 Google Kubernetes Engine 集群，并采用各种 GPU 切分方案，动态满足托管人工智能 (AI) 工作负载的服务的 GPU 资源需求。

硬件：

我们推出了配备最新 NVIDIA Hopper H100 GPU (2x2 NVL) 的全新 DL380a 服务器，并搭配了最新的第 5 代 Intel 处理器。

虚拟机：

我们推出了新的 GPU 优化型 A3 虚拟机。A3 虚拟机类型挂接了 4 个 NVIDIA H100 80GB GPU，可运行需要高达 1, 000 亿形参的大型语言模型的 AI 工作负载。
推出了较小的 A3 虚拟机规格，每个虚拟机挂接了 1 个 H100 80GB GPU 和 2 个 H100 80GB GPU。此功能处于预览阶段。

Vertex AI：

新增了对文档翻译的新文件格式（DOC、PPT、TXT、XLS）的支持。
添加了 API 并支持批量文档翻译。
支持了资源池中用于在线预测的 MIG GPU 加速器类型的新格式。
支持内嵌翻译和存储在存储分区中的文档的语言自动检测功能。
API 平台处于生产阶段。

将 Canonical Ubuntu 操作系统映像版本更新为 20240811，以应用最新的安全补丁和重要更新。如需利用 bug 和安全漏洞修复，您必须在每个版本中升级所有节点。修复了以下安全漏洞：

CVE-2021-20230
CVE-2022-48655
CVE-2022-4968
CVE-2022-48674
CVE-2023-6270
CVE-2023-6597
CVE-2023-52752
CVE-2024-0397
CVE-2024-0450
CVE-2024-0760
CVE-2024-1724
CVE-2024-1737
CVE-2024-1975
CVE-2024-2201
CVE-2024-4032
CVE-2024-4076
CVE-2024-5569
CVE-2024-6655
CVE-2024-7264
CVE-2024-23307
CVE-2024-24861
CVE-2024-26583
CVE-2024-26584
CVE-2024-26585
CVE-2024-26586
CVE-2024-26642
CVE-2024-26643
CVE-2024-26828
CVE-2024-26886
CVE-2024-26889
CVE-2024-26907
CVE-2024-26922
CVE-2024-26923
CVE-2024-26925
CVE-2024-26926
CVE-2024-27019
CVE-2024-29068
CVE-2024-29069
CVE-2024-35235
CVE-2024-36016
CVE-2024-37370
CVE-2024-37371
CVE-2024-38428

将 Rocky OS 映像版本更新为 20240731，以应用最新的安全补丁和重要更新。

结算：

由于验证 webhook 错误，用户无法创建 BillingAccountBinding。
如需了解详情，请参阅已知问题。

块存储：

由于卷装载错误，Grafana pod 卡在 Init 状态。
如需了解详情，请参阅已知问题。
存在 Trident 多重附加错误。
如需了解详情，请参阅已知问题。

数据库服务：

升级时，dbs-fleet 子组件存在协调错误。
如需了解详情，请参阅已知问题。
升级后，DBCluster 创建失败。
如需了解详情，请参阅已知问题。

身份和访问权限管理：

opa-system 命名空间中的 gatekeeper-audit Pod 频繁重启。
如需了解详情，请参阅已知问题。

监控：

Cortex 存储网关 pod 在启动时可能会在与存储后端同步时进入崩溃循环。Pod 超出了其内存限制，导致 Kubernetes 终止了这些 Pod。
如需了解详情，请参阅已知问题。
Kube 控制平面指标代理 pod 可能会因映像拉取退避错误而陷入崩溃循环。
如需了解详情，请参阅已知问题。
WAL（预写日志）的增长会导致 Prometheus 使用大量内存。由于此问题，系统控制平面虚拟机节点会报告 NodeHasInsufficientMemory 和 EvictionThresholdMet 事件。
如需了解详情，请参阅已知问题。

网络：

交换机映像未能提取或拉取映像。
如需了解详情，请参阅已知问题。

对象存储：

您可以忽略一些对象存储升级警告。
如需了解详情，请参阅已知问题。

操作系统：

Pod 卡在单个节点上的 ContainerCreating 状态。
如需了解详情，请参阅已知问题。

物理服务器：

DL380a 服务器无法配置。
如需了解详情，请参阅已知问题。

升级：

升级期间的 Helm 故障会导致一系列回滚。
如需了解详情，请参阅已知问题。
从 HW2.0 和 Ubuntu 升级时，节点升级错误地显示为 RockyLinux。
如需了解详情，请参阅已知问题。
dhcp-tftp-core-server pod 未被清空。
如需了解详情，请参阅已知问题。
OrganizationUpgrade卡在节点升级阶段。
如需了解详情，请参阅已知问题。
与外部集群 VIP 的连接间歇性失败。
如需了解详情，请参阅已知问题。
内核未能创建容器。
如需了解详情，请参阅已知问题。
升级期间出现 Incorrect version of Trident 错误。
如需了解详情，请参阅已知问题。
在用户集群配置期间，某些 pod 无法被调度。
如需了解详情，请参阅已知问题。
租户组织升级在预检检查阶段失败，并显示 ErrImagePull。
如需了解详情，请参阅已知问题。
根组织的升级卡在签名作业失败的状态。
如需了解详情，请参阅已知问题。
在升级期间，根组织的任务因缺少服务账号而失败。
如需了解详情，请参阅已知问题。
升级在 shared-service-cluster upgrade 上失败
如需了解详情，请参阅已知问题。
节点在用户集群升级期间发生故障。
如需了解详情，请参阅已知问题。
根组织的升级因预检检查失败而失败。
如需了解详情，请参阅已知问题。
初始根 organizationupgrade 期间出现持续性超时。
如需了解详情，请参阅已知问题。
obj-syslog-server 子组件在根组织中无法完成协调。
如需了解详情，请参阅已知问题。

虚拟机：

在具有 GPU 的集群节点上，NVIDIA 设备插件 DaemonSet 失败，并显示 driver rpc error 消息。此问题会导致 GPU 无法用于虚拟机和 pod。
如需了解详情，请参阅已知问题。
系统集群虚拟机尚未准备就绪。
如需了解详情，请参阅已知问题。
数据卷报告找不到临时空间。
如需了解详情，请参阅已知问题。
obj-syslog-server 子组件在根组织中无法完成协调。
如需了解详情，请参阅已知问题。

Vertex AI：

Speech-to-Text 的 streaming_recognize 预训练 API 函数因客户端库存在问题而失败。
如需了解详情，请参阅已知问题。
batchTranslateDocument API 不支持作业状态轮询。
如需了解详情，请参阅已知问题。
batchTranslateDocument 个请求可能会导致性能问题。
如需了解详情，请参阅已知问题。
首次启用预训练 API 时，GDC 控制台可能会在几分钟后显示不一致的状态。
如需了解详情，请参阅已知问题。
如果翻译请求超过 250 个字符，可能会导致 translation-prediction-server pod 崩溃。
如需了解详情，请参阅已知问题。
共享服务集群的 GPUAllocation 未正确配置。
如需了解详情，请参阅已知问题。
从 1.9.x 版升级到 1.13.3 版时，Vertex AI 子组件的可操作组件生命周期管理 (OCLCM) 控制器可能会显示错误。
如需了解详情，请参阅已知问题。
当系统频率限制被超出时，翻译请求可能会生成 RESOURCE_EXHAUSTED 错误代码。
如需了解详情，请参阅已知问题。
如果集群中可操作的 enableRAG 参数未设置为 true，则 batchTranslateDocument 请求会返回错误 503 "Batch Document translation is not implemented。
如需了解详情，请参阅已知问题。

监控：

修复了 Prober ConfigMap 重置为不包含任何探测作业的问题。

网络：

修复了以下问题：即使创建了 ClusterCIDRConfig，PodCIDR 也未分配给节点。
如需了解详情，请参阅已知问题。

操作系统：

修复了以下问题：裸金属或虚拟机节点的 bm-system-machine-preflight-check Ansible 作业因 Either ip_tables or nf_tables kernel module must be loaded 而失败。
如需了解详情，请参阅已知问题。

物理服务器：

修复了 HPE 服务器上因 POST 问题而导致服务器引导失败的问题。
如需了解详情，请参阅已知问题。

升级：

修复了 iac-zoneselection-global 子组件中的升级失败问题。
如需了解详情，请参阅已知问题。

Vertex AI：

修复了以下问题：在创建用户集群时，MonitoringTarget 显示 Not Ready 状态，导致预训练的 API 在界面中持续显示 Enabling 状态。

插件管理器：

Google Distributed Cloud for Bare Metal 版本已更新至 1.29.300-gke.185，以应用最新的安全补丁和重要更新。

如需了解详情，请参阅 Google Distributed Cloud for Bare Metal 1.29.300-gke.185 版本说明。

升级：

升级文档提供了升级过程各个阶段的预计时长。

Google Distributed Cloud air-gapped 1.13.3 版本说明 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

2024 年 8 月 30 日

Google Distributed Cloud air-gapped 1.13.3 版本说明