2024 年 8 月 30 日
Google Distributed Cloud (GDC) 网闸隔离配置 1.13.3 已发布。
如需了解 Distributed Cloud 的功能,请参阅产品概览。
如需了解 Distributed Cloud 的功能,请参阅产品概览。
集群管理:
- 引入了更广泛的多实例 GPU (MIG) 配置文件(统一模式和混合模式)。您可以在 GPU 虚拟机(A3 虚拟机)上创建 Google Kubernetes Engine 集群,并采用各种 GPU 切分方案,动态满足托管人工智能 (AI) 工作负载的服务的 GPU 资源需求。
硬件:
- 我们推出了配备最新 NVIDIA Hopper H100 GPU (2x2 NVL) 的全新 DL380a 服务器,并搭配了最新的第 5 代 Intel 处理器。
虚拟机:
- 我们推出了新的 GPU 优化型 A3 虚拟机。A3 虚拟机类型挂接了 4 个 NVIDIA H100 80GB GPU,可运行需要高达 1, 000 亿形参的大型语言模型的 AI 工作负载。
- 推出了较小的 A3 虚拟机规格,每个虚拟机挂接了 1 个 H100 80GB GPU 和 2 个 H100 80GB GPU。此功能处于预览阶段。
Vertex AI:
- 新增了对文档翻译的新文件格式(DOC、PPT、TXT、XLS)的支持。
- 添加了 API 并支持批量文档翻译。
- 支持了资源池中用于在线预测的 MIG GPU 加速器类型的新格式。
- 支持内嵌翻译和存储在存储分区中的文档的语言自动检测功能。
- API 平台处于生产阶段。
将 Canonical Ubuntu 操作系统映像版本更新为 20240811,以应用最新的安全补丁和重要更新。
如需利用 bug 和安全漏洞修复,您必须在每个版本发布后升级所有节点。
修复了以下安全漏洞:
- CVE-2021-20230
- CVE-2022-48655
- CVE-2022-4968
- CVE-2022-48674
- CVE-2023-6270
- CVE-2023-6597
- CVE-2023-52752
- CVE-2024-0397
- CVE-2024-0450
- CVE-2024-0760
- CVE-2024-1724
- CVE-2024-1737
- CVE-2024-1975
- CVE-2024-2201
- CVE-2024-4032
- CVE-2024-4076
- CVE-2024-5569
- CVE-2024-6655
- CVE-2024-7264
- CVE-2024-23307
- CVE-2024-24861
- CVE-2024-26583
- CVE-2024-26584
- CVE-2024-26585
- CVE-2024-26586
- CVE-2024-26642
- CVE-2024-26643
- CVE-2024-26828
- CVE-2024-26886
- CVE-2024-26889
- CVE-2024-26907
- CVE-2024-26922
- CVE-2024-26923
- CVE-2024-26925
- CVE-2024-26926
- CVE-2024-27019
- CVE-2024-29068
- CVE-2024-29069
- CVE-2024-35235
- CVE-2024-36016
- CVE-2024-37370
- CVE-2024-37371
- CVE-2024-38428
将 Rocky OS 映像版本更新为 20240731,以应用最新的安全补丁和重要更新。
结算:
-
由于验证 webhook 错误,用户无法创建
BillingAccountBinding
。
块存储:
-
由于卷装载错误,Grafana pod 卡在
Init
状态。 - 存在 Trident 多重附加错误。
数据库服务:
-
升级时,
dbs-fleet
子组件存在协调错误。 -
升级后,
DBCluster
创建失败。
身份和访问权限管理:
-
opa-system
命名空间中的gatekeeper-audit
Pod 频繁重启。
监控:
- Cortex 存储网关 pod 在启动时可能会在与存储后端同步时进入崩溃循环。Pod 超出了其内存限制,导致 Kubernetes 终止了这些 Pod。
- Kube 控制平面指标代理 pod 可能会因映像拉取退避错误而陷入崩溃循环。
-
WAL(预写日志)的增长会导致 Prometheus 使用大量内存。由于此问题,系统控制平面虚拟机节点会报告
NodeHasInsufficientMemory
和EvictionThresholdMet
事件。
网络:
- 交换机映像未能提取或拉取映像。
对象存储:
- 您可以忽略一些对象存储升级警告。
操作系统:
-
Pod 卡在单个节点上的
ContainerCreating
状态。
物理服务器:
- DL380a 服务器无法配置。
升级:
- 升级期间的 Helm 故障会导致一系列回滚。
- 从 HW2.0 和 Ubuntu 升级时,节点升级错误地显示为 RockyLinux。
-
dhcp-tftp-core-server
pod 未被清空。 -
OrganizationUpgrade
卡在节点升级阶段。 - 与外部集群 VIP 的连接间歇性失败。
- 内核未能创建容器。
-
升级期间出现
Incorrect version of Trident
错误。 - 在用户集群配置期间,某些 pod 无法被调度。
-
租户组织升级在预检检查阶段失败,并显示
ErrImagePull
。 - 根组织的升级卡在签名作业失败的状态。
- 在升级期间,根组织的任务因缺少服务账号而失败。
-
升级在
shared-service-cluster upgrade
上失败 - 节点在用户集群升级期间发生故障。
- 根组织的升级因预检检查失败而失败。
-
初始根
organizationupgrade
期间出现持续性超时。 -
obj-syslog-server
子组件在根组织中无法完成协调。
虚拟机:
-
在具有 GPU 的集群节点上,NVIDIA 设备插件
DaemonSet
失败,并显示driver rpc error
消息。此问题会导致 GPU 无法用于虚拟机和 pod。 - 系统集群虚拟机尚未准备就绪。
- 数据卷报告找不到临时空间。
-
obj-syslog-server
子组件在根组织中无法完成协调。
Vertex AI:
-
Speech-to-Text 的
streaming_recognize
预训练 API 函数因客户端库存在问题而失败。 -
batchTranslateDocument
API 不支持作业状态轮询。 -
batchTranslateDocument
个请求可能会导致性能问题。 - 首次启用预训练 API 时,GDC 控制台可能会在几分钟后显示不一致的状态。
-
如果翻译请求超过 250 个字符,可能会导致
translation-prediction-server
pod 崩溃。 -
共享服务集群的
GPUAllocation
未正确配置。 - 从 1.9.x 版升级到 1.13.3 版时,Vertex AI 子组件的可操作组件生命周期管理 (OCLCM) 控制器可能会显示错误。
-
当系统频率限制被超出时,翻译请求可能会生成
RESOURCE_EXHAUSTED
错误代码。 -
如果集群中可操作的
enableRAG
参数未设置为true
,则batchTranslateDocument
请求会返回错误503 "Batch Document translation is not implemented
。
监控:
- 修复了 Prober ConfigMap 重置为不包含任何探测作业的问题。
网络:
-
修复了以下问题:即使创建了
ClusterCIDRConfig
,PodCIDR
也未分配给节点。
操作系统:
- 修复了以下问题:裸金属或虚拟机节点的
bm-system-machine-preflight-check
Ansible 作业因Either ip_tables or nf_tables kernel module must be loaded
而失败。
物理服务器:
- 修复了 HPE 服务器上因 POST 问题而导致服务器引导失败的问题。
升级:
- 修复了
iac-zoneselection-global
子组件中的升级失败问题。
Vertex AI:
-
修复了以下问题:在创建用户集群时,
MonitoringTarget
显示Not Ready
状态,导致预训练的 API 在界面中持续显示Enabling
状态。
插件管理器:
Google Distributed Cloud for Bare Metal 版本已更新至 1.29.300-gke.185,以应用最新的安全补丁和重要更新。
如需了解详情,请参阅 Google Distributed Cloud for Bare Metal 1.29.300-gke.185 版本说明。
升级:
- 升级文档提供了升级流程各个阶段的预计时长。