Note di rilascio di Google Distributed Cloud con air gap 1.13.3

30 agosto 2024


Google Distributed Cloud (GDC) con air gap 1.13.3 è disponibile.
Consulta la panoramica del prodotto per scoprire le funzionalità di Distributed Cloud.

Gestione dei cluster:

  • È stato introdotto un insieme più ampio di profili GPU multi-istanza (MIG) (modalità uniforme e mista). Puoi creare cluster Google Kubernetes Engine su VM GPU (VM A3) con una serie di schemi di suddivisione delle GPU e soddisfare dinamicamente le esigenze di risorse GPU dei servizi che ospitano carichi di lavoro di intelligenza artificiale (AI).

Hardware:

  • Sono disponibili nuovi server DL380a con le più recenti GPU NVIDIA Hopper H100 (2x2 NVL), abbinate ai più recenti processori Intel di quinta generazione.

Macchine virtuali:

  • È disponibile un nuovo tipo di VM A3 ottimizzato per la GPU. Il tipo di VM A3 ha 4 GPU NVIDIA H100 da 80 GB collegate, che possono eseguire i tuoi workload AI che richiedono modelli linguistici di grandi dimensioni fino a 100 miliardi di parametri.
  • Vengono introdotte forme di VM A3 più piccole, con 1 GPU H100 da 80 GB e 2 GPU H100 da 80 GB collegate per VM. Questa funzionalità è in anteprima.

Vertex AI:


È stata aggiornata la versione dell'immagine del sistema operativo Canonical Ubuntu alla versione 20240811 per applicare le patch di sicurezza e gli aggiornamenti importanti più recenti. Per usufruire delle correzioni di bug e vulnerabilità della sicurezza, devi eseguire l'upgrade di tutti i nodi a ogni release. Sono state corrette le seguenti vulnerabilità di sicurezza:

È stata aggiornata la versione dell'immagine di Rocky OS alla versione 20240731 per applicare le patch di sicurezza e gli aggiornamenti importanti più recenti.


Fatturazione:

  • L'utente non riesce a creare BillingAccountBinding a causa di un errore del webhook di convalida.

Archiviazione a blocchi:

  • I pod Grafana bloccati nello stato Init a causa di errori di montaggio del volume.
  • Si è verificato un errore di allegato multiplo di Trident.

Database Service:

  • Il sottocomponente dbs-fleet presenta un errore di riconciliazione durante l'upgrade.
  • La creazione di DBCluster non riesce dopo l'upgrade.

Gestione di identità e accessi:

  • I pod gatekeeper-audit nello spazio dei nomi opa-system vengono riavviati di frequente.

Monitoraggio:

  • I pod del gateway dello store Cortex possono andare in crash all'avvio durante la sincronizzazione con il backend di archiviazione. I pod superano i limiti di memoria, causando l'arresto da parte di Kubernetes.
  • I pod proxy delle metriche del control plane di Kube possono andare in crashloop con errore di backoff del pull delle immagini.
  • Un aumento del WAL (write-ahead log) fa sì che Prometheus utilizzi molta memoria. A causa di questo problema, il nodo VM del control plane di sistema segnala eventi NodeHasInsufficientMemory e EvictionThresholdMet.

Networking:

  • L'immagine dell'opzione non è stata estratta o recuperata.

Archiviazione di oggetti:

  • Alcuni avvisi di upgrade dell'archiviazione oggetti possono essere ignorati.

Sistema operativo:

  • I pod sono bloccati nello stato ContainerCreating su un singolo nodo.

Server fisici:

  • Il provisioning del server DL380a non va a buon fine.

Esegui l'upgrade:

  • Un errore di Helm durante l'upgrade causa una serie di rollback.
  • Quando esegui l'upgrade da HW2.0 e Ubuntu, l'upgrade del nodo mostra in modo errato RockyLinux.
  • Il pod dhcp-tftp-core-server non è stato svuotato.
  • OrganizationUpgrade è bloccato nella fase di upgrade dei nodi.
  • Errore di connettività intermittente al VIP del cluster esterno.
  • Il kernel non riesce a creare il contenitore.
  • Durante l'upgrade viene visualizzato un errore Incorrect version of Trident.
  • Durante il provisioning del cluster utente, la pianificazione di alcuni pod non riesce.
  • L'upgrade dell'organizzazione tenant non riesce nella fase di controllo preflight con ErrImagePull.
  • L'upgrade dell'organizzazione principale è bloccato su un job di firma non riuscito.
  • Durante l'upgrade, l'attività per un'organizzazione principale non riesce a causa della mancanza di service account.
  • L'upgrade non riesce su shared-service-cluster upgrade
  • Il nodo non funziona durante l'upgrade del cluster utente.
  • L'upgrade dell'organizzazione principale non riesce per il controllo preflight.
  • Si verifica un timeout persistente durante la organizationupgrade iniziale della radice.
  • La riconciliazione del sottocomponente obj-syslog-server non riesce nell'organizzazione principale.

Macchine virtuali:

  • Il plug-in del dispositivo NVIDIA DaemonSet non funziona e viene visualizzato il messaggio driver rpc error sui nodi del cluster con GPU. Questo problema causa l'indisponibilità delle GPU per le macchine virtuali e i pod.
  • VM del cluster di sistema non pronta.
  • Un volume di dati segnala che lo spazio di lavoro non è stato trovato.
  • La riconciliazione del sottocomponente obj-syslog-server non riesce nell'organizzazione principale.

Vertex AI:

  • La funzione API preaddestrata streaming_recognize di Speech-to-Text non funziona a causa di un problema con la libreria client.
  • Il polling dello stato del job non è supportato per l'API batchTranslateDocument.
  • Le richieste batchTranslateDocument potrebbero causare problemi di prestazioni.
  • La prima volta che abiliti le API preaddestrate, la console GDC potrebbe mostrare uno stato incoerente dopo alcuni minuti.
  • Le richieste di traduzione con più di 250 caratteri possono causare l'arresto anomalo dei pod translation-prediction-server.
  • GPUAllocation per il cluster di servizi condivisi non è configurato correttamente.
  • Quando esegui l'upgrade dalla versione 1.9.x alla 1.13.3, il controller Operable Component Lifecycle Management (OCLCM) per i sottocomponenti di Vertex AI potrebbe mostrare errori.
  • Le richieste di traduzione potrebbero generare il codice di errore RESOURCE_EXHAUSTED quando è stato superato il limite di frequenza del sistema.
  • Le richieste batchTranslateDocument restituiscono l'errore 503 "Batch Document translation is not implemented se il parametro operabile enableRAG non è impostato su true nel cluster.

Monitoraggio:

  • Risolto un problema per cui ConfigMap di Prober viene reimpostato in modo da non includere job di probe.

Networking:

  • Risolto un problema relativo a un PodCIDR non assegnato ai nodi anche se è stato creato un ClusterCIDRConfig.

Sistema operativo:

  • È stato risolto un problema relativo al job Ansible bm-system-machine-preflight-check per un nodo bare metal o VM che non riusciva a essere eseguito con Either ip_tables or nf_tables kernel module must be loaded.

Server fisici:

  • È stato risolto un problema di bootstrap del server non riuscito a causa di problemi POST sul server HPE.

Esegui l'upgrade:

  • È stato risolto un problema relativo all'aggiornamento non riuscito nel sottocomponente iac-zoneselection-global.

Vertex AI:

  • Risolto un problema per cui MonitoringTarget mostra lo stato Not Ready durante la creazione dei cluster di utenti, facendo sì che le API preaddestrate mostrino continuamente lo stato Enabling nell'interfaccia utente.

Gestione componenti aggiuntivi:

Esegui l'upgrade:

  • La documentazione sull'upgrade fornisce le durate stimate per le diverse fasi del processo di upgrade.