30 agosto 2024
Consulta la panoramica del prodotto per scoprire le funzionalità di Distributed Cloud.
Gestione dei cluster:
- È stato introdotto un insieme più ampio di profili GPU multi-istanza (MIG) (modalità uniforme e mista). Puoi creare cluster Google Kubernetes Engine su VM GPU (VM A3) con una serie di schemi di suddivisione delle GPU e soddisfare dinamicamente le esigenze di risorse GPU dei servizi che ospitano carichi di lavoro di intelligenza artificiale (AI).
Hardware:
- Sono disponibili nuovi server DL380a con le più recenti GPU NVIDIA Hopper H100 (2x2 NVL), abbinate ai più recenti processori Intel di quinta generazione.
Macchine virtuali:
- È disponibile un nuovo tipo di VM A3 ottimizzato per la GPU. Il tipo di VM A3 ha 4 GPU NVIDIA H100 da 80 GB collegate, che possono eseguire i tuoi workload AI che richiedono modelli linguistici di grandi dimensioni fino a 100 miliardi di parametri.
- Vengono introdotte forme di VM A3 più piccole, con 1 GPU H100 da 80 GB e 2 GPU H100 da 80 GB collegate per VM. Questa funzionalità è in anteprima.
Vertex AI:
- È stato incluso il supporto per nuovi formati di file per la traduzione di documenti (DOC, PPT, TXT, XLS).
- Sono state aggiunte l'API e il supporto per la traduzione di documenti in batch.
- È stato supportato un nuovo formato per il tipo di acceleratore delle GPU MIG nel pool di risorse per le previsioni online.
- È stata aggiunta la funzionalità di rilevamento automatico della lingua per le traduzioni in linea e i documenti archiviati nei bucket.
- La piattaforma API è in fase di produzione.
- CVE-2021-20230
- CVE-2022-48655
- CVE-2022-4968
- CVE-2022-48674
- CVE-2023-6270
- CVE-2023-6597
- CVE-2023-52752
- CVE-2024-0397
- CVE-2024-0450
- CVE-2024-0760
- CVE-2024-1724
- CVE-2024-1737
- CVE-2024-1975
- CVE-2024-2201
- CVE-2024-4032
- CVE-2024-4076
- CVE-2024-5569
- CVE-2024-6655
- CVE-2024-7264
- CVE-2024-23307
- CVE-2024-24861
- CVE-2024-26583
- CVE-2024-26584
- CVE-2024-26585
- CVE-2024-26586
- CVE-2024-26642
- CVE-2024-26643
- CVE-2024-26828
- CVE-2024-26886
- CVE-2024-26889
- CVE-2024-26907
- CVE-2024-26922
- CVE-2024-26923
- CVE-2024-26925
- CVE-2024-26926
- CVE-2024-27019
- CVE-2024-29068
- CVE-2024-29069
- CVE-2024-35235
- CVE-2024-36016
- CVE-2024-37370
- CVE-2024-37371
- CVE-2024-38428
È stata aggiornata la versione dell'immagine di Rocky OS alla versione 20240731 per applicare le patch di sicurezza e gli aggiornamenti importanti più recenti.
Fatturazione:
-
L'utente non riesce a creare
BillingAccountBinding
a causa di un errore del webhook di convalida.
Archiviazione a blocchi:
-
I pod Grafana bloccati nello stato
Init
a causa di errori di montaggio del volume. - Si è verificato un errore di allegato multiplo di Trident.
Database Service:
-
Il sottocomponente
dbs-fleet
presenta un errore di riconciliazione durante l'upgrade. -
La creazione di
DBCluster
non riesce dopo l'upgrade.
Gestione di identità e accessi:
-
I pod
gatekeeper-audit
nello spazio dei nomiopa-system
vengono riavviati di frequente.
Monitoraggio:
- I pod del gateway dello store Cortex possono andare in crash all'avvio durante la sincronizzazione con il backend di archiviazione. I pod superano i limiti di memoria, causando l'arresto da parte di Kubernetes.
- I pod proxy delle metriche del control plane di Kube possono andare in crashloop con errore di backoff del pull delle immagini.
-
Un aumento del WAL (write-ahead log) fa sì che Prometheus utilizzi molta memoria. A causa di questo problema, il nodo VM del control plane di sistema segnala eventi
NodeHasInsufficientMemory
eEvictionThresholdMet
.
Networking:
- L'immagine dell'opzione non è stata estratta o recuperata.
Archiviazione di oggetti:
- Alcuni avvisi di upgrade dell'archiviazione oggetti possono essere ignorati.
Sistema operativo:
-
I pod sono bloccati nello stato
ContainerCreating
su un singolo nodo.
Server fisici:
- Il provisioning del server DL380a non va a buon fine.
Esegui l'upgrade:
- Un errore di Helm durante l'upgrade causa una serie di rollback.
- Quando esegui l'upgrade da HW2.0 e Ubuntu, l'upgrade del nodo mostra in modo errato RockyLinux.
-
Il pod
dhcp-tftp-core-server
non è stato svuotato. -
OrganizationUpgrade
è bloccato nella fase di upgrade dei nodi. - Errore di connettività intermittente al VIP del cluster esterno.
- Il kernel non riesce a creare il contenitore.
-
Durante l'upgrade viene visualizzato un errore
Incorrect version of Trident
. - Durante il provisioning del cluster utente, la pianificazione di alcuni pod non riesce.
-
L'upgrade dell'organizzazione tenant non riesce nella fase di controllo preflight con
ErrImagePull
. - L'upgrade dell'organizzazione principale è bloccato su un job di firma non riuscito.
- Durante l'upgrade, l'attività per un'organizzazione principale non riesce a causa della mancanza di service account.
-
L'upgrade non riesce su
shared-service-cluster upgrade
- Il nodo non funziona durante l'upgrade del cluster utente.
- L'upgrade dell'organizzazione principale non riesce per il controllo preflight.
-
Si verifica un timeout persistente durante la
organizationupgrade
iniziale della radice. -
La riconciliazione del sottocomponente
obj-syslog-server
non riesce nell'organizzazione principale.
Macchine virtuali:
-
Il plug-in del dispositivo NVIDIA
DaemonSet
non funziona e viene visualizzato il messaggiodriver rpc error
sui nodi del cluster con GPU. Questo problema causa l'indisponibilità delle GPU per le macchine virtuali e i pod. - VM del cluster di sistema non pronta.
- Un volume di dati segnala che lo spazio di lavoro non è stato trovato.
-
La riconciliazione del sottocomponente
obj-syslog-server
non riesce nell'organizzazione principale.
Vertex AI:
-
La funzione API preaddestrata
streaming_recognize
di Speech-to-Text non funziona a causa di un problema con la libreria client. -
Il polling dello stato del job non è supportato per l'API
batchTranslateDocument
. -
Le richieste
batchTranslateDocument
potrebbero causare problemi di prestazioni. - La prima volta che abiliti le API preaddestrate, la console GDC potrebbe mostrare uno stato incoerente dopo alcuni minuti.
-
Le richieste di traduzione con più di 250 caratteri possono causare l'arresto anomalo dei pod
translation-prediction-server
. -
GPUAllocation
per il cluster di servizi condivisi non è configurato correttamente. - Quando esegui l'upgrade dalla versione 1.9.x alla 1.13.3, il controller Operable Component Lifecycle Management (OCLCM) per i sottocomponenti di Vertex AI potrebbe mostrare errori.
-
Le richieste di traduzione potrebbero generare il codice di errore
RESOURCE_EXHAUSTED
quando è stato superato il limite di frequenza del sistema. -
Le richieste
batchTranslateDocument
restituiscono l'errore503 "Batch Document translation is not implemented
se il parametro operabileenableRAG
non è impostato sutrue
nel cluster.
Monitoraggio:
- Risolto un problema per cui ConfigMap di Prober viene reimpostato in modo da non includere job di probe.
Networking:
-
Risolto un problema relativo a un
PodCIDR
non assegnato ai nodi anche se è stato creato unClusterCIDRConfig
.
Sistema operativo:
- È stato risolto un problema relativo al job Ansible
bm-system-machine-preflight-check
per un nodo bare metal o VM che non riusciva a essere eseguito conEither ip_tables or nf_tables kernel module must be loaded
.
Server fisici:
- È stato risolto un problema di bootstrap del server non riuscito a causa di problemi POST sul server HPE.
Esegui l'upgrade:
- È stato risolto un problema relativo all'aggiornamento non riuscito nel sottocomponente
iac-zoneselection-global
.
Vertex AI:
-
Risolto un problema per cui
MonitoringTarget
mostra lo statoNot Ready
durante la creazione dei cluster di utenti, facendo sì che le API preaddestrate mostrino continuamente lo statoEnabling
nell'interfaccia utente.
Gestione componenti aggiuntivi:
Google Distributed Cloud per la versione bare metal viene aggiornato alla versione 1.29.300-gke.185 per applicare le patch di sicurezza più recenti e gli aggiornamenti importanti.
Per maggiori dettagli, consulta le note di rilascio di Google Distributed Cloud per bare metal 1.29.300-gke.185.
Esegui l'upgrade:
- La documentazione sull'upgrade fornisce le durate stimate per le diverse fasi del processo di upgrade.