30 Agustus 2024
Lihat ringkasan produk untuk mempelajari fitur Distributed Cloud.
Pengelolaan cluster:
- Memperkenalkan serangkaian profil Multi-Instance GPU (MIG) yang lebih luas (mode seragam & campuran). Anda dapat membuat cluster Google Kubernetes Engine di VM GPU (VM A3) dengan berbagai skema pengirisan GPU dan secara dinamis memenuhi kebutuhan resource GPU layanan yang menghosting workload kecerdasan buatan (AI).
 
Hardware:
- Server DL380a baru dengan GPU NVIDIA Hopper H100 terbaru (2x2 NVL), yang dipasangkan dengan prosesor Intel Generasi ke-5 terbaru sudah tersedia.
 
Virtual machine:
- Jenis VM A3 baru yang dioptimalkan untuk GPU telah tersedia. Jenis VM A3 memiliki 4x GPU NVIDIA H100 80 GB yang terpasang, yang dapat menjalankan workload AI Anda yang memerlukan model bahasa besar hingga 100 miliar parameter.
 - Diperkenalkan bentuk VM A3 yang lebih kecil, dengan 1x GPU H100 80 GB dan 2x GPU H100 80 GB yang terpasang per VM. Fitur ini berada dalam Pratinjau.
 
Vertex AI:
- Menyertakan dukungan untuk format file baru terjemahan dokumen (DOC, PPT, TXT, XLS).
 - Menambahkan API dan dukungan untuk terjemahan dokumen batch.
 - Mendukung format baru untuk jenis akselerator GPU MIG di kumpulan resource untuk prediksi online.
 - Mendukung fitur deteksi otomatis bahasa untuk terjemahan inline dan dokumen yang disimpan dalam bucket.
 - Platform API berada dalam tahap produksi.
 
- CVE-2021-20230
 - CVE-2022-48655
 - CVE-2022-4968
 - CVE-2022-48674
 - CVE-2023-6270
 - CVE-2023-6597
 - CVE-2023-52752
 - CVE-2024-0397
 - CVE-2024-0450
 - CVE-2024-0760
 - CVE-2024-1724
 - CVE-2024-1737
 - CVE-2024-1975
 - CVE-2024-2201
 - CVE-2024-4032
 - CVE-2024-4076
 - CVE-2024-5569
 - CVE-2024-6655
 - CVE-2024-7264
 - CVE-2024-23307
 - CVE-2024-24861
 - CVE-2024-26583
 - CVE-2024-26584
 - CVE-2024-26585
 - CVE-2024-26586
 - CVE-2024-26642
 - CVE-2024-26643
 - CVE-2024-26828
 - CVE-2024-26886
 - CVE-2024-26889
 - CVE-2024-26907
 - CVE-2024-26922
 - CVE-2024-26923
 - CVE-2024-26925
 - CVE-2024-26926
 - CVE-2024-27019
 - CVE-2024-29068
 - CVE-2024-29069
 - CVE-2024-35235
 - CVE-2024-36016
 - CVE-2024-37370
 - CVE-2024-37371
 - CVE-2024-38428
 
Memperbarui versi image Rocky OS ke 20240731 untuk menerapkan patch keamanan terbaru dan update penting.
Penagihan:
-   
Pengguna gagal membuat 
BillingAccountBindingkarena error webhook validasi. 
Block storage:
-   
Pod Grafana macet dalam status 
Initkarena error pemasangan volume. - Terjadi error multi-lampiran Trident.
 
Database Service:
-   
Subkomponen 
dbs-fleetmengalami error rekonsiliasi saat melakukan upgrade. -   
Pembuatan 
DBClustergagal setelah upgrade. 
Pengelolaan akses dan identitas:
-   
Pod 
gatekeeper-auditdi namespaceopa-systemsering dimulai ulang. 
Monitoring:
- Pod gateway penyimpanan Cortex dapat mengalami loop error saat startup saat menyinkronkan dengan backend penyimpanan. Pod melebihi batas memorinya, sehingga Kubernetes akan menghentikannya.
 - Pod proxy metrik bidang kontrol Kube dapat mengalami crashloop dengan error backoff penarikan image.
 -   
Pertumbuhan WAL (write-ahead log) menyebabkan Prometheus menggunakan banyak memori. Node VM bidang kontrol sistem melaporkan peristiwa 
NodeHasInsufficientMemorydanEvictionThresholdMetkarena masalah ini. 
Jaringan:
- Penggantian gambar gagal mengekstrak atau menarik gambar.
 
Penyimpanan objek:
- Beberapa peringatan upgrade penyimpanan objek dapat diabaikan.
 
Sistem operasi:
-   
Pod macet dalam status 
ContainerCreatingdi satu node. 
Server fisik:
- Server DL380a gagal melakukan penyediaan.
 
Upgrade:
- Kegagalan Helm selama upgrade menyebabkan serangkaian rollback.
 - Saat mengupgrade dari HW2.0 dan Ubuntu, upgrade node salah menampilkan RockyLinux.
 -   
Pod 
dhcp-tftp-core-servertidak dikuras. -   
OrganizationUpgrademacet di tahap upgrade node. - Kegagalan konektivitas sesekali ke VIP cluster eksternal.
 - Kernel gagal membuat penampung.
 -   
Error 
Incorrect version of Tridentmuncul selama upgrade. - Selama penyediaan cluster pengguna, beberapa pod gagal dijadwalkan.
 -   
Upgrade organisasi tenant gagal pada tahap pemeriksaan awal dengan 
ErrImagePull. - Upgrade org root macet karena tugas tanda tangan gagal.
 - Selama upgrade, tugas untuk organisasi root gagal karena akun layanan tidak ada.
 -   
Upgrade gagal di 
shared-service-cluster upgrade - Node gagal selama upgrade cluster pengguna.
 - Upgrade organisasi root gagal karena pemeriksaan pra-peluncuran.
 -   
Ada waktu tunggu yang persisten selama 
organizationupgraderoot awal. -  
Subkomponen 
obj-syslog-servergagal melakukan rekonsiliasi di organisasi root. 
Virtual machine:
-  
Plugin perangkat NVIDIA 
DaemonSetgagal dengan pesandriver rpc errordi node cluster dengan GPU. Masalah ini menyebabkan GPU tidak tersedia untuk mesin virtual dan pod. - VM cluster sistem belum siap.
 - Volume data melaporkan bahwa ruang sementara tidak ditemukan.
 -  
Subkomponen 
obj-syslog-servergagal melakukan rekonsiliasi di organisasi root. 
Vertex AI:
-  
Fungsi API yang telah dilatih sebelumnya 
streaming_recognizedari Speech-to-Text gagal karena masalah pada library klien. -  
Polling status tugas tidak didukung untuk 
batchTranslateDocumentAPI. -  
Permintaan 
batchTranslateDocumentdapat menyebabkan masalah performa. - Saat Anda mengaktifkan API terlatih sebelumnya untuk pertama kalinya, konsol GDC mungkin menampilkan status yang tidak konsisten setelah beberapa menit.
 -  
Permintaan terjemahan dengan lebih dari 250 karakter dapat menyebabkan error pada pod 
translation-prediction-server. -   
GPUAllocationuntuk cluster layanan bersama tidak dikonfigurasi dengan benar. - Saat mengupgrade dari versi 1.9.x ke 1.13.3, pengontrol Operable Component Lifecycle Management (OCLCM) untuk subkomponen Vertex AI mungkin menampilkan error.
 -  
Permintaan terjemahan dapat menghasilkan kode error 
RESOURCE_EXHAUSTEDjika batas frekuensi sistem telah terlampaui. -  
Permintaan 
batchTranslateDocumentmenampilkan error503 "Batch Document translation is not implementedjika parameter yang dapat dioperasikanenableRAGtidak ditetapkan ketruedi cluster. 
Monitoring:
- Memperbaiki masalah saat Prober ConfigMap direset untuk tidak menyertakan tugas probe.
 
Jaringan:
-  
Memperbaiki masalah terkait 
PodCIDRyang tidak ditetapkan ke node meskipunClusterCIDRConfigdibuat. 
Sistem operasi:
- Masalah terkait tugas Ansible 
bm-system-machine-preflight-checkuntuk node bare metal atau VM yang gagal denganEither ip_tables or nf_tables kernel module must be loadedtelah diperbaiki. 
Server fisik:
- Memperbaiki masalah bootstrap server yang gagal karena masalah POST di server HPE.
 
Upgrade:
- Memperbaiki masalah kegagalan upgrade di subkomponen 
iac-zoneselection-global. 
Vertex AI:
-  
Memperbaiki masalah saat 
MonitoringTargetmenampilkan statusNot Readysaat cluster pengguna sedang dibuat, sehingga menyebabkan API yang telah dilatih sebelumnya terus menampilkan statusEnablingdi antarmuka pengguna. 
Pengelola Add-on:
Google Distributed Cloud untuk versi bare metal diupdate ke 1.29.300-gke.185 untuk menerapkan patch keamanan terbaru dan update penting.
Lihat Catatan rilis Google Distributed Cloud untuk bare metal 1.29.300-gke.185 untuk mengetahui detailnya.
Upgrade:
- Dokumentasi upgrade memberikan perkiraan durasi untuk berbagai tahap proses upgrade.