Halaman ini diterjemahkan oleh Cloud Translation API.

Catatan rilis Google Distributed Cloud dengan air gap 1.13.3

30 Agustus 2024

Google Distributed Cloud (GDC) dengan air gap 1.13.3 sudah tersedia.
Lihat ringkasan produk untuk mempelajari fitur Distributed Cloud.

Pengelolaan cluster:

Memperkenalkan serangkaian profil Multi-Instance GPU (MIG) yang lebih luas (mode seragam & campuran). Anda dapat membuat cluster Google Kubernetes Engine di VM GPU (VM A3) dengan berbagai skema pengirisan GPU dan secara dinamis memenuhi kebutuhan resource GPU layanan yang menghosting workload kecerdasan buatan (AI).

Hardware:

Server DL380a baru dengan GPU NVIDIA Hopper H100 terbaru (2x2 NVL), yang dipasangkan dengan prosesor Intel Generasi ke-5 terbaru sudah tersedia.

Virtual machine:

Jenis VM A3 baru yang dioptimalkan untuk GPU telah tersedia. Jenis VM A3 memiliki 4x GPU NVIDIA H100 80 GB yang terpasang, yang dapat menjalankan workload AI Anda yang memerlukan model bahasa besar hingga 100 miliar parameter.
Diperkenalkan bentuk VM A3 yang lebih kecil, dengan 1x GPU H100 80 GB dan 2x GPU H100 80 GB yang terpasang per VM. Fitur ini berada dalam Pratinjau.

Vertex AI:

Menyertakan dukungan untuk format file baru terjemahan dokumen (DOC, PPT, TXT, XLS).
Menambahkan API dan dukungan untuk terjemahan dokumen batch.
Mendukung format baru untuk jenis akselerator GPU MIG di kumpulan resource untuk prediksi online.
Mendukung fitur deteksi otomatis bahasa untuk terjemahan inline dan dokumen yang disimpan dalam bucket.
Platform API berada dalam tahap produksi.

Memperbarui versi image OS Canonical Ubuntu ke 20240811 untuk menerapkan patch keamanan terbaru dan update penting. Untuk memanfaatkan perbaikan bug dan kerentanan keamanan, Anda harus mengupgrade semua node dengan setiap rilis. Kerentanan keamanan berikut telah diperbaiki:

CVE-2021-20230
CVE-2022-48655
CVE-2022-4968
CVE-2022-48674
CVE-2023-6270
CVE-2023-6597
CVE-2023-52752
CVE-2024-0397
CVE-2024-0450
CVE-2024-0760
CVE-2024-1724
CVE-2024-1737
CVE-2024-1975
CVE-2024-2201
CVE-2024-4032
CVE-2024-4076
CVE-2024-5569
CVE-2024-6655
CVE-2024-7264
CVE-2024-23307
CVE-2024-24861
CVE-2024-26583
CVE-2024-26584
CVE-2024-26585
CVE-2024-26586
CVE-2024-26642
CVE-2024-26643
CVE-2024-26828
CVE-2024-26886
CVE-2024-26889
CVE-2024-26907
CVE-2024-26922
CVE-2024-26923
CVE-2024-26925
CVE-2024-26926
CVE-2024-27019
CVE-2024-29068
CVE-2024-29069
CVE-2024-35235
CVE-2024-36016
CVE-2024-37370
CVE-2024-37371
CVE-2024-38428

Memperbarui versi image Rocky OS ke 20240731 untuk menerapkan patch keamanan terbaru dan update penting.

Penagihan:

Pengguna gagal membuat BillingAccountBinding karena error webhook validasi.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.

Block storage:

Pod Grafana macet dalam status Init karena error pemasangan volume.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Terjadi error multi-lampiran Trident.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.

Database Service:

Subkomponen dbs-fleet mengalami error rekonsiliasi saat melakukan upgrade.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Pembuatan DBCluster gagal setelah upgrade.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.

Pengelolaan akses dan identitas:

Pod gatekeeper-audit di namespace opa-system sering dimulai ulang.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.

Monitoring:

Pod gateway penyimpanan Cortex dapat mengalami loop error saat startup saat menyinkronkan dengan backend penyimpanan. Pod melebihi batas memorinya, sehingga Kubernetes akan menghentikannya.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Pod proxy metrik bidang kontrol Kube dapat mengalami crashloop dengan error backoff penarikan image.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Pertumbuhan WAL (write-ahead log) menyebabkan Prometheus menggunakan banyak memori. Node VM bidang kontrol sistem melaporkan peristiwa NodeHasInsufficientMemory dan EvictionThresholdMet karena masalah ini.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.

Jaringan:

Penggantian gambar gagal mengekstrak atau menarik gambar.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.

Penyimpanan objek:

Beberapa peringatan upgrade penyimpanan objek dapat diabaikan.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.

Sistem operasi:

Pod macet dalam status ContainerCreating di satu node.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.

Server fisik:

Server DL380a gagal melakukan penyediaan.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.

Upgrade:

Kegagalan Helm selama upgrade menyebabkan serangkaian rollback.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Saat mengupgrade dari HW2.0 dan Ubuntu, upgrade node salah menampilkan RockyLinux.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Pod dhcp-tftp-core-server tidak dikuras.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
OrganizationUpgrademacet di tahap upgrade node.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Kegagalan konektivitas sesekali ke VIP cluster eksternal.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Kernel gagal membuat penampung.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Error Incorrect version of Trident muncul selama upgrade.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Selama penyediaan cluster pengguna, beberapa pod gagal dijadwalkan.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Upgrade organisasi tenant gagal pada tahap pemeriksaan awal dengan ErrImagePull.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Upgrade org root macet karena tugas tanda tangan gagal.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Selama upgrade, tugas untuk organisasi root gagal karena akun layanan tidak ada.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Upgrade gagal di shared-service-cluster upgrade
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Node gagal selama upgrade cluster pengguna.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Upgrade organisasi root gagal karena pemeriksaan pra-peluncuran.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Ada waktu tunggu yang persisten selama organizationupgrade root awal.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Subkomponen obj-syslog-server gagal melakukan rekonsiliasi di organisasi root.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.

Virtual machine:

Plugin perangkat NVIDIA DaemonSet gagal dengan pesan driver rpc error di node cluster dengan GPU. Masalah ini menyebabkan GPU tidak tersedia untuk mesin virtual dan pod.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
VM cluster sistem belum siap.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Volume data melaporkan bahwa ruang sementara tidak ditemukan.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Subkomponen obj-syslog-server gagal melakukan rekonsiliasi di organisasi root.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.

Vertex AI:

Fungsi API yang telah dilatih sebelumnya streaming_recognize dari Speech-to-Text gagal karena masalah pada library klien.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Polling status tugas tidak didukung untuk batchTranslateDocument API.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Permintaan batchTranslateDocument dapat menyebabkan masalah performa.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Saat Anda mengaktifkan API terlatih sebelumnya untuk pertama kalinya, konsol GDC mungkin menampilkan status yang tidak konsisten setelah beberapa menit.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Permintaan terjemahan dengan lebih dari 250 karakter dapat menyebabkan error pada pod translation-prediction-server.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
GPUAllocation untuk cluster layanan bersama tidak dikonfigurasi dengan benar.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Saat mengupgrade dari versi 1.9.x ke 1.13.3, pengontrol Operable Component Lifecycle Management (OCLCM) untuk subkomponen Vertex AI mungkin menampilkan error.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Permintaan terjemahan dapat menghasilkan kode error RESOURCE_EXHAUSTED jika batas frekuensi sistem telah terlampaui.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.
Permintaan batchTranslateDocument menampilkan error 503 "Batch Document translation is not implemented jika parameter yang dapat dioperasikan enableRAG tidak ditetapkan ke true di cluster.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.

Monitoring:

Memperbaiki masalah saat Prober ConfigMap direset untuk tidak menyertakan tugas probe.

Jaringan:

Memperbaiki masalah terkait PodCIDR yang tidak ditetapkan ke node meskipun ClusterCIDRConfig dibuat.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.

Sistem operasi:

Masalah terkait tugas Ansible bm-system-machine-preflight-check untuk node bare metal atau VM yang gagal dengan Either ip_tables or nf_tables kernel module must be loaded telah diperbaiki.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.

Server fisik:

Memperbaiki masalah bootstrap server yang gagal karena masalah POST di server HPE.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.

Upgrade:

Memperbaiki masalah kegagalan upgrade di subkomponen iac-zoneselection-global.
Untuk mengetahui informasi selengkapnya, lihat Masalah umum.

Vertex AI:

Memperbaiki masalah saat MonitoringTarget menampilkan status Not Ready saat cluster pengguna sedang dibuat, sehingga menyebabkan API yang telah dilatih sebelumnya terus menampilkan status Enabling di antarmuka pengguna.

Pengelola Add-on:

Google Distributed Cloud untuk versi bare metal diupdate ke 1.29.300-gke.185 untuk menerapkan patch keamanan terbaru dan update penting.

Lihat Catatan rilis Google Distributed Cloud untuk bare metal 1.29.300-gke.185 untuk mengetahui detailnya.

Upgrade:

Dokumentasi upgrade memberikan perkiraan durasi untuk berbagai tahap proses upgrade.

Catatan rilis Google Distributed Cloud dengan air gap 1.13.3 Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

30 Agustus 2024

Catatan rilis Google Distributed Cloud dengan air gap 1.13.3