2024 年 8 月 30 日
Google Distributed Cloud (GDC) 氣隙隔離 1.13.3 版現已推出。
請參閱產品總覽,瞭解 Distributed Cloud 的功能。
請參閱產品總覽,瞭解 Distributed Cloud 的功能。
叢集管理:
- 推出更廣泛的多執行個體 GPU (MIG) 設定檔 (一致和混合模式)。您可以在 GPU VM (A3 VM) 上建立 Google Kubernetes Engine 叢集,並採用各種 GPU 切片配置,動態滿足代管人工智慧 (AI) 工作負載服務的 GPU 資源需求。
硬體:
- 搭載最新 NVIDIA Hopper H100 GPU (2x2 NVL) 的全新 DL380a 伺服器,搭配最新第 5 代 Intel 處理器,現已推出。
虛擬機器:
- 我們推出了新的 GPU 最佳化 A3 VM 類型。A3 VM 類型連接 4 個 NVIDIA H100 80GB GPU,可執行需要大型語言模型 (最多 1000 億個參數) 的 AI 工作負載。
- 推出較小的 A3 VM 規格,每個 VM 連接 1 個 H100 80GB GPU 和 2 個 H100 80GB GPU。這項功能目前為預先發布版。
Vertex AI:
- 支援新的文件翻譯檔案格式 (DOC、PPT、TXT、XLS)。
- 新增 API,支援批次翻譯文件。
- 支援 線上預測資源集區中 MIG GPU 的加速器類型新格式。
- 支援內嵌翻譯和儲存在值區中的文件的語言自動偵測功能。
- API 平台處於正式版階段。
將 Canonical Ubuntu OS 映像檔版本更新至 20240811,以套用最新的安全修補程式和重要更新。
如要修正錯誤和安全漏洞,您必須在每次發布新版本時,升級所有節點。
修正下列安全性漏洞:
- CVE-2021-20230
- CVE-2022-48655
- CVE-2022-4968
- CVE-2022-48674
- CVE-2023-6270
- CVE-2023-6597
- CVE-2023-52752
- CVE-2024-0397
- CVE-2024-0450
- CVE-2024-0760
- CVE-2024-1724
- CVE-2024-1737
- CVE-2024-1975
- CVE-2024-2201
- CVE-2024-4032
- CVE-2024-4076
- CVE-2024-5569
- CVE-2024-6655
- CVE-2024-7264
- CVE-2024-23307
- CVE-2024-24861
- CVE-2024-26583
- CVE-2024-26584
- CVE-2024-26585
- CVE-2024-26586
- CVE-2024-26642
- CVE-2024-26643
- CVE-2024-26828
- CVE-2024-26886
- CVE-2024-26889
- CVE-2024-26907
- CVE-2024-26922
- CVE-2024-26923
- CVE-2024-26925
- CVE-2024-26926
- CVE-2024-27019
- CVE-2024-29068
- CVE-2024-29069
- CVE-2024-35235
- CVE-2024-36016
- CVE-2024-37370
- CVE-2024-37371
- CVE-2024-38428
將 Rocky OS 映像檔版本更新至 20240731,以套用最新的安全修補程式和重要更新。
帳單:
-
使用者因驗證 Webhook 錯誤而無法建立
BillingAccountBinding
。
區塊儲存空間:
-
由於磁碟區掛接錯誤,Grafana Pod 卡在
Init
狀態。 - 發生 Trident 多重附加錯誤。
資料庫服務:
-
升級時,
dbs-fleet
子元件發生協調錯誤。 -
升級後,
DBCluster
建立作業失敗。
身分與存取權管理:
-
opa-system
命名空間中的gatekeeper-audit
Pod 經常重新啟動。
監控:
- 在與儲存空間後端同步處理時,Cortex 商店閘道 Pod 可能會在啟動時進入當機迴圈。Pod 超出記憶體限制,導致 Kubernetes 終止 Pod。
- Kube 控制平面指標 Proxy Pod 可能會因映像檔提取退避錯誤而進入當機迴圈。
-
WAL (預先寫入記錄) 成長會導致 Prometheus 耗用大量記憶體。因此,系統控制平面 VM 節點會回報
NodeHasInsufficientMemory
和EvictionThresholdMet
事件。
網路:
- 無法擷取或提取切換圖片。
物件儲存空間:
- 部分物件儲存空間升級警告可以忽略。
作業系統:
-
Pod 在單一節點上處於
ContainerCreating
狀態。
實體伺服器:
- DL380a 伺服器無法佈建。
升級:
- 升級期間發生 Helm 失敗,導致一系列的回復。
- 從 HW2.0 和 Ubuntu 升級時,節點升級會錯誤顯示 RockyLinux。
-
dhcp-tftp-core-server
Pod 未排空。 -
OrganizationUpgrade
停滯在節點升級階段。 - 間歇性無法連線至外部叢集 VIP。
- 核心無法建立容器。
-
升級時出現
Incorrect version of Trident
錯誤。 - 在使用者叢集佈建期間,部分 Pod 無法排程。
-
在預檢階段,租戶機構升級作業會失敗,並顯示
ErrImagePull
。 - 根機構升級作業停滯,因為簽章工作失敗。
- 升級期間,由於缺少服務帳戶,根機構的作業會失敗。
-
「
shared-service-cluster upgrade
」升級失敗 - 使用者叢集升級期間,節點發生故障。
- 預檢檢查失敗,無法升級根機構。
-
初始根
organizationupgrade
期間發生持續性逾時。 -
根機構中的「
obj-syslog-server
」子元件無法完成對帳。
虛擬機器:
-
在搭載 GPU 的叢集節點上,NVIDIA 裝置外掛程式
DaemonSet
會失敗,並顯示driver rpc error
訊息。這個問題會導致虛擬機器和 Pod 無法使用 GPU。 - 系統叢集 VM 尚未準備就緒。
- 資料磁碟區回報找不到暫存空間。
-
根機構中的「
obj-syslog-server
」子元件無法完成對帳。
Vertex AI:
-
由於用戶端程式庫發生問題,Speech-to-Text 的
streaming_recognize
預先訓練 API 函式失敗。 -
batchTranslateDocument
API 不支援輪詢工作狀態。 -
batchTranslateDocument
要求可能會導致效能問題。 - 首次啟用預先訓練的 API 時,GDC 控制台可能會在幾分鐘後顯示不一致的狀態。
-
如果翻譯要求超過 250 個字元,可能會導致
translation-prediction-server
Pod 損毀。 -
共用服務叢集的
GPUAllocation
設定有誤。 - 從 1.9.x 版升級至 1.13.3 版時,Vertex AI 子元件的 Operable Component Lifecycle Management (OCLCM) 控制器可能會顯示錯誤。
-
如果超過系統頻率限制,翻譯要求可能會產生
RESOURCE_EXHAUSTED
錯誤代碼。 -
如果叢集中的
enableRAG
可操作參數未設為true
,batchTranslateDocument
要求會傳回503 "Batch Document translation is not implemented
錯誤。
監控:
- 修正 Prober ConfigMap 重設後不含任何探查工作的問題。
網路:
-
修正問題:即使已建立
ClusterCIDRConfig
,系統仍未將PodCIDR
指派給節點。
作業系統:
- 修正問題:裸機或 VM 節點的
bm-system-machine-preflight-check
Ansible 工作失敗,並顯示Either ip_tables or nf_tables kernel module must be loaded
。
實體伺服器:
- 修正 HPE 伺服器上的 POST 問題,導致伺服器啟動失敗的問題。
升級:
- 修正
iac-zoneselection-global
子元件升級失敗的問題。
Vertex AI:
-
修正問題:建立使用者叢集時,
MonitoringTarget
會顯示Not Ready
狀態,導致預先訓練的 API 持續在使用者介面中顯示Enabling
狀態。
外掛程式管理員:
Google Distributed Cloud for Bare Metal 版本已更新至 1.29.300-gke.185,以套用最新的安全性修補程式和重要更新。
詳情請參閱「Google Distributed Cloud for Bare Metal 1.29.300-gke.185 版本資訊」。
升級:
- 升級說明文件提供升級程序各階段的預估時間。