Questa pagina è stata tradotta dall'API Cloud Translation.

Note di rilascio di Google Distributed Cloud con air gap 1.13.3

30 agosto 2024

Google Distributed Cloud (GDC) con air gap 1.13.3 è disponibile.
Consulta la panoramica del prodotto per scoprire le funzionalità di Distributed Cloud.

Gestione dei cluster:

È stato introdotto un insieme più ampio di profili GPU multi-istanza (MIG) (modalità uniforme e mista). Puoi creare cluster Google Kubernetes Engine su VM GPU (VM A3) con una serie di schemi di suddivisione delle GPU e soddisfare dinamicamente le esigenze di risorse GPU dei servizi che ospitano carichi di lavoro di intelligenza artificiale (AI).

Hardware:

Sono disponibili nuovi server DL380a con le più recenti GPU NVIDIA Hopper H100 (2x2 NVL), abbinate ai più recenti processori Intel di quinta generazione.

Macchine virtuali:

È disponibile un nuovo tipo di VM A3 ottimizzato per la GPU. Il tipo di VM A3 ha 4 GPU NVIDIA H100 da 80 GB collegate, che possono eseguire i tuoi workload AI che richiedono modelli linguistici di grandi dimensioni fino a 100 miliardi di parametri.
Vengono introdotte forme di VM A3 più piccole, con 1 GPU H100 da 80 GB e 2 GPU H100 da 80 GB collegate per VM. Questa funzionalità è in anteprima.

Vertex AI:

È stato incluso il supporto per nuovi formati di file per la traduzione di documenti (DOC, PPT, TXT, XLS).
Sono state aggiunte l'API e il supporto per la traduzione di documenti in batch.
È stato supportato un nuovo formato per il tipo di acceleratore delle GPU MIG nel pool di risorse per le previsioni online.
È stata aggiunta la funzionalità di rilevamento automatico della lingua per le traduzioni in linea e i documenti archiviati nei bucket.
La piattaforma API è in fase di produzione.

È stata aggiornata la versione dell'immagine del sistema operativo Canonical Ubuntu alla versione 20240811 per applicare le patch di sicurezza e gli aggiornamenti importanti più recenti. Per usufruire delle correzioni di bug e vulnerabilità della sicurezza, devi eseguire l'upgrade di tutti i nodi con ogni release. Sono state corrette le seguenti vulnerabilità di sicurezza:

CVE-2021-20230
CVE-2022-48655
CVE-2022-4968
CVE-2022-48674
CVE-2023-6270
CVE-2023-6597
CVE-2023-52752
CVE-2024-0397
CVE-2024-0450
CVE-2024-0760
CVE-2024-1724
CVE-2024-1737
CVE-2024-1975
CVE-2024-2201
CVE-2024-4032
CVE-2024-4076
CVE-2024-5569
CVE-2024-6655
CVE-2024-7264
CVE-2024-23307
CVE-2024-24861
CVE-2024-26583
CVE-2024-26584
CVE-2024-26585
CVE-2024-26586
CVE-2024-26642
CVE-2024-26643
CVE-2024-26828
CVE-2024-26886
CVE-2024-26889
CVE-2024-26907
CVE-2024-26922
CVE-2024-26923
CVE-2024-26925
CVE-2024-26926
CVE-2024-27019
CVE-2024-29068
CVE-2024-29069
CVE-2024-35235
CVE-2024-36016
CVE-2024-37370
CVE-2024-37371
CVE-2024-38428

È stata aggiornata la versione dell'immagine di Rocky OS alla versione 20240731 per applicare le patch di sicurezza e gli aggiornamenti importanti più recenti.

Fatturazione:

L'utente non riesce a creare BillingAccountBinding a causa di un errore del webhook di convalida.
Per ulteriori informazioni, vedi Problemi noti.

Archiviazione a blocchi:

I pod Grafana bloccati nello stato Init a causa di errori di montaggio del volume.
Per ulteriori informazioni, vedi Problemi noti.
Si è verificato un errore di allegato multiplo di Trident.
Per ulteriori informazioni, vedi Problemi noti.

Database Service:

Il sottocomponente dbs-fleet presenta un errore di riconciliazione durante l'upgrade.
Per ulteriori informazioni, vedi Problemi noti.
La creazione di DBCluster non riesce dopo l'upgrade.
Per ulteriori informazioni, vedi Problemi noti.

Gestione di identità e accessi:

I pod gatekeeper-audit nello spazio dei nomi opa-system vengono riavviati di frequente.
Per ulteriori informazioni, vedi Problemi noti.

Monitoraggio:

I pod del gateway dello store Cortex possono andare in crash all'avvio durante la sincronizzazione con il backend di archiviazione. I pod superano i limiti di memoria, causando l'arresto da parte di Kubernetes.
Per ulteriori informazioni, vedi Problemi noti.
I pod proxy delle metriche del control plane di Kube possono andare in crashloop con errore di backoff del pull delle immagini.
Per ulteriori informazioni, vedi Problemi noti.
Un aumento del WAL (write-ahead log) fa sì che Prometheus utilizzi molta memoria. A causa di questo problema, il nodo VM del control plane di sistema segnala eventi NodeHasInsufficientMemory e EvictionThresholdMet.
Per ulteriori informazioni, vedi Problemi noti.

Networking:

L'immagine dell'opzione non è stata estratta o recuperata.
Per ulteriori informazioni, vedi Problemi noti.

Archiviazione di oggetti:

Alcuni avvisi di upgrade dell'archiviazione oggetti possono essere ignorati.
Per ulteriori informazioni, vedi Problemi noti.

Sistema operativo:

I pod sono bloccati nello stato ContainerCreating su un singolo nodo.
Per ulteriori informazioni, vedi Problemi noti.

Server fisici:

Il provisioning del server DL380a non va a buon fine.
Per ulteriori informazioni, vedi Problemi noti.

Esegui l'upgrade:

Un errore di Helm durante l'upgrade causa una serie di rollback.
Per ulteriori informazioni, vedi Problemi noti.
Quando esegui l'upgrade da HW2.0 e Ubuntu, l'upgrade del nodo mostra in modo errato RockyLinux.
Per ulteriori informazioni, vedi Problemi noti.
Il pod dhcp-tftp-core-server non è stato svuotato.
Per ulteriori informazioni, vedi Problemi noti.
OrganizationUpgrade è bloccato nella fase di upgrade dei nodi.
Per ulteriori informazioni, vedi Problemi noti.
Errore di connettività intermittente al VIP del cluster esterno.
Per ulteriori informazioni, vedi Problemi noti.
Il kernel non riesce a creare il contenitore.
Per ulteriori informazioni, vedi Problemi noti.
Durante l'upgrade viene visualizzato un errore Incorrect version of Trident.
Per ulteriori informazioni, vedi Problemi noti.
Durante il provisioning del cluster utente, la pianificazione di alcuni pod non riesce.
Per ulteriori informazioni, vedi Problemi noti.
L'upgrade dell'organizzazione tenant non riesce nella fase di controllo preflight con ErrImagePull.
Per ulteriori informazioni, vedi Problemi noti.
L'upgrade dell'organizzazione principale è bloccato su un job di firma non riuscito.
Per ulteriori informazioni, vedi Problemi noti.
Durante l'upgrade, l'attività per un'organizzazione principale non riesce a causa della mancanza di service account.
Per ulteriori informazioni, vedi Problemi noti.
L'upgrade non riesce su shared-service-cluster upgrade
Per ulteriori informazioni, vedi Problemi noti.
Il nodo non funziona durante l'upgrade del cluster utente.
Per ulteriori informazioni, vedi Problemi noti.
L'upgrade dell'organizzazione principale non riesce per il controllo preflight.
Per ulteriori informazioni, vedi Problemi noti.
Si verifica un timeout persistente durante la organizationupgrade iniziale della radice.
Per ulteriori informazioni, vedi Problemi noti.
La riconciliazione del sottocomponente obj-syslog-server non riesce nell'organizzazione principale.
Per ulteriori informazioni, vedi Problemi noti.

Macchine virtuali:

Il plug-in del dispositivo NVIDIA DaemonSet non funziona e viene visualizzato il messaggio driver rpc error sui nodi del cluster con GPU. Questo problema causa l'indisponibilità delle GPU per le macchine virtuali e i pod.
Per ulteriori informazioni, vedi Problemi noti.
VM del cluster di sistema non pronta.
Per ulteriori informazioni, vedi Problemi noti.
Un volume di dati segnala che lo spazio di lavoro non è stato trovato.
Per ulteriori informazioni, vedi Problemi noti.
La riconciliazione del sottocomponente obj-syslog-server non riesce nell'organizzazione principale.
Per ulteriori informazioni, vedi Problemi noti.

Vertex AI:

La funzione API preaddestrata streaming_recognize di Speech-to-Text non funziona a causa di un problema con la libreria client.
Per ulteriori informazioni, vedi Problemi noti.
Il polling dello stato del job non è supportato per l'API batchTranslateDocument.
Per ulteriori informazioni, vedi Problemi noti.
Le richieste batchTranslateDocument potrebbero causare problemi di prestazioni.
Per ulteriori informazioni, vedi Problemi noti.
La prima volta che abiliti le API preaddestrate, la console GDC potrebbe mostrare uno stato incoerente dopo alcuni minuti.
Per ulteriori informazioni, vedi Problemi noti.
Le richieste di traduzione con più di 250 caratteri possono causare l'arresto anomalo dei pod translation-prediction-server.
Per ulteriori informazioni, vedi Problemi noti.
GPUAllocation per il cluster di servizi condivisi non è configurato correttamente.
Per ulteriori informazioni, vedi Problemi noti.
Quando esegui l'upgrade dalla versione 1.9.x alla 1.13.3, il controller Operable Component Lifecycle Management (OCLCM) per i sottocomponenti di Vertex AI potrebbe mostrare errori.
Per ulteriori informazioni, vedi Problemi noti.
Le richieste di traduzione potrebbero generare il codice di errore RESOURCE_EXHAUSTED quando è stato superato il limite di frequenza del sistema.
Per ulteriori informazioni, vedi Problemi noti.
Le richieste batchTranslateDocument restituiscono l'errore 503 "Batch Document translation is not implemented se il parametro operabile enableRAG non è impostato su true nel cluster.
Per ulteriori informazioni, vedi Problemi noti.

Monitoraggio:

Risolto un problema per cui ConfigMap di Prober viene reimpostato in modo da non includere job di probe.

Networking:

Risolto un problema relativo a un PodCIDR non assegnato ai nodi anche se è stato creato un ClusterCIDRConfig.
Per ulteriori informazioni, vedi Problemi noti.

Sistema operativo:

È stato risolto un problema relativo al job Ansible bm-system-machine-preflight-check per un nodo bare metal o VM che non riusciva a essere eseguito con Either ip_tables or nf_tables kernel module must be loaded.
Per ulteriori informazioni, vedi Problemi noti.

Server fisici:

È stato risolto un problema di bootstrap del server non riuscito a causa di problemi POST sul server HPE.
Per ulteriori informazioni, vedi Problemi noti.

Esegui l'upgrade:

È stato risolto un problema relativo all'aggiornamento non riuscito nel sottocomponente iac-zoneselection-global.
Per ulteriori informazioni, vedi Problemi noti.

Vertex AI:

Risolto un problema per cui MonitoringTarget mostra lo stato Not Ready durante la creazione dei cluster di utenti, facendo sì che le API preaddestrate mostrino continuamente lo stato Enabling nell'interfaccia utente.

Gestione componenti aggiuntivi:

Google Distributed Cloud per la versione bare metal viene aggiornato alla versione 1.29.300-gke.185 per applicare le patch di sicurezza più recenti e gli aggiornamenti importanti.

Per maggiori dettagli, consulta le note di rilascio di Google Distributed Cloud per bare metal 1.29.300-gke.185.

Esegui l'upgrade:

La documentazione sull'upgrade fornisce le durate stimate per le diverse fasi della procedura di upgrade.

Note di rilascio di Google Distributed Cloud con air gap 1.13.3 Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

30 agosto 2024

Note di rilascio di Google Distributed Cloud con air gap 1.13.3