Google Distributed Cloud 氣隙隔離 1.13.3 版本資訊

2024 年 8 月 30 日


Google Distributed Cloud (GDC) 氣隙隔離 1.13.3 版現已推出。
請參閱產品總覽,瞭解 Distributed Cloud 的功能。

叢集管理

  • 推出更廣泛的多執行個體 GPU (MIG) 設定檔 (一致和混合模式)。您可以在 GPU VM (A3 VM) 上建立 Google Kubernetes Engine 叢集,並採用各種 GPU 切片配置,動態滿足代管人工智慧 (AI) 工作負載服務的 GPU 資源需求。

硬體

  • 搭載最新 NVIDIA Hopper H100 GPU (2x2 NVL) 的全新 DL380a 伺服器,搭配最新第 5 代 Intel 處理器,現已推出。

虛擬機器

  • 我們推出了新的 GPU 最佳化 A3 VM 類型。A3 VM 類型連接 4 個 NVIDIA H100 80GB GPU,可執行需要大型語言模型 (最多 1000 億個參數) 的 AI 工作負載。
  • 推出較小的 A3 VM 規格,每個 VM 連接 1 個 H100 80GB GPU 和 2 個 H100 80GB GPU。這項功能目前為預先發布版。

Vertex AI



將 Rocky OS 映像檔版本更新至 20240731,以套用最新的安全修補程式和重要更新。


帳單

  • 使用者因驗證 Webhook 錯誤而無法建立 BillingAccountBinding

區塊儲存空間

  • 由於磁碟區掛接錯誤,Grafana Pod 卡在 Init 狀態。
  • 發生 Trident 多重附加錯誤。

資料庫服務

  • 升級時,dbs-fleet 子元件發生協調錯誤。
  • 升級後,DBCluster建立作業失敗。

身分與存取權管理

  • opa-system 命名空間中的 gatekeeper-audit Pod 經常重新啟動。

監控

  • 在與儲存空間後端同步處理時,Cortex 商店閘道 Pod 可能會在啟動時進入當機迴圈。Pod 超出記憶體限制,導致 Kubernetes 終止 Pod。
  • Kube 控制平面指標 Proxy Pod 可能會因映像檔提取退避錯誤而進入當機迴圈。
  • WAL (預先寫入記錄) 成長會導致 Prometheus 耗用大量記憶體。因此,系統控制平面 VM 節點會回報 NodeHasInsufficientMemoryEvictionThresholdMet 事件。

網路

  • 無法擷取或提取切換圖片。

物件儲存空間

  • 部分物件儲存空間升級警告可以忽略。

作業系統

  • Pod 在單一節點上處於 ContainerCreating 狀態。

實體伺服器

  • DL380a 伺服器無法佈建。

升級

  • 升級期間發生 Helm 失敗,導致一系列的回復。
  • 從 HW2.0 和 Ubuntu 升級時,節點升級會錯誤顯示 RockyLinux。
  • dhcp-tftp-core-server Pod 未排空。
  • OrganizationUpgrade停滯在節點升級階段。
  • 間歇性無法連線至外部叢集 VIP。
  • 核心無法建立容器。
  • 升級時出現 Incorrect version of Trident 錯誤。
  • 在使用者叢集佈建期間,部分 Pod 無法排程。
  • 在預檢階段,租戶機構升級作業會失敗,並顯示 ErrImagePull
  • 根機構升級作業停滯,因為簽章工作失敗。
  • 升級期間,由於缺少服務帳戶,根機構的作業會失敗。
  • shared-service-cluster upgrade」升級失敗
  • 使用者叢集升級期間,節點發生故障。
  • 預檢檢查失敗,無法升級根機構。
  • 初始根 organizationupgrade 期間發生持續性逾時。
  • 根機構中的「obj-syslog-server」子元件無法完成對帳。

虛擬機器

  • 在搭載 GPU 的叢集節點上,NVIDIA 裝置外掛程式 DaemonSet 會失敗,並顯示 driver rpc error 訊息。這個問題會導致虛擬機器和 Pod 無法使用 GPU。
  • 系統叢集 VM 尚未準備就緒。
  • 資料磁碟區回報找不到暫存空間。
  • 根機構中的「obj-syslog-server」子元件無法完成對帳。

Vertex AI

  • 由於用戶端程式庫發生問題,Speech-to-Text 的 streaming_recognize 預先訓練 API 函式失敗。
  • batchTranslateDocument API 不支援輪詢工作狀態。
  • batchTranslateDocument 要求可能會導致效能問題。
  • 首次啟用預先訓練的 API 時,GDC 控制台可能會在幾分鐘後顯示不一致的狀態。
  • 如果翻譯要求超過 250 個字元,可能會導致 translation-prediction-server Pod 損毀。
  • 共用服務叢集的 GPUAllocation 設定有誤。
  • 從 1.9.x 版升級至 1.13.3 版時,Vertex AI 子元件的 Operable Component Lifecycle Management (OCLCM) 控制器可能會顯示錯誤。
  • 如果超過系統頻率限制,翻譯要求可能會產生 RESOURCE_EXHAUSTED 錯誤代碼。
  • 如果叢集中的 enableRAG 可操作參數未設為 truebatchTranslateDocument 要求會傳回 503 "Batch Document translation is not implemented 錯誤。

監控

  • 修正 Prober ConfigMap 重設後不含任何探查工作的問題。

網路

  • 修正問題:即使已建立 ClusterCIDRConfig,系統仍未將 PodCIDR 指派給節點。

作業系統

  • 修正問題:裸機或 VM 節點的 bm-system-machine-preflight-check Ansible 工作失敗,並顯示 Either ip_tables or nf_tables kernel module must be loaded

實體伺服器

  • 修正 HPE 伺服器上的 POST 問題,導致伺服器啟動失敗的問題。

升級

  • 修正 iac-zoneselection-global 子元件升級失敗的問題。

Vertex AI

  • 修正問題:建立使用者叢集時,MonitoringTarget 會顯示 Not Ready 狀態,導致預先訓練的 API 持續在使用者介面中顯示 Enabling 狀態。

外掛程式管理員

升級

  • 升級說明文件提供升級程序各階段的預估時間。