Note di rilascio di Google Distributed Cloud con air gap 1.13.3

30 agosto 2024


Google Distributed Cloud (GDC) con air gap 1.13.3 è disponibile.
Consulta la panoramica del prodotto per scoprire le funzionalità di Distributed Cloud.

Gestione dei cluster:

  • È stato introdotto un insieme più ampio di profili GPU multi-istanza (MIG) (modalità uniforme e mista). Puoi creare cluster Google Kubernetes Engine su VM GPU (VM A3) con una serie di schemi di suddivisione delle GPU e soddisfare dinamicamente le esigenze di risorse GPU dei servizi che ospitano carichi di lavoro di intelligenza artificiale (AI).

Hardware:

  • Sono disponibili nuovi server DL380a con le più recenti GPU NVIDIA Hopper H100 (2x2 NVL), abbinate ai più recenti processori Intel di quinta generazione.

Macchine virtuali:

  • È disponibile un nuovo tipo di VM A3 ottimizzato per la GPU. Il tipo di VM A3 ha 4 GPU NVIDIA H100 da 80 GB collegate, che possono eseguire i tuoi workload AI che richiedono modelli linguistici di grandi dimensioni fino a 100 miliardi di parametri.
  • Vengono introdotte forme di VM A3 più piccole, con 1 GPU H100 da 80 GB e 2 GPU H100 da 80 GB collegate per VM. Questa funzionalità è in anteprima.

Vertex AI:



È stata aggiornata la versione dell'immagine di Rocky OS alla versione 20240731 per applicare le patch di sicurezza e gli aggiornamenti importanti più recenti.


Fatturazione:

  • L'utente non riesce a creare BillingAccountBinding a causa di un errore del webhook di convalida.

    Per ulteriori informazioni, vedi Problemi noti.

Archiviazione a blocchi:

  • I pod Grafana bloccati nello stato Init a causa di errori di montaggio del volume.

    Per ulteriori informazioni, vedi Problemi noti.

  • Si è verificato un errore di allegato multiplo di Trident.

    Per ulteriori informazioni, vedi Problemi noti.

Database Service:

  • Il sottocomponente dbs-fleet presenta un errore di riconciliazione durante l'upgrade.

    Per ulteriori informazioni, vedi Problemi noti.

  • La creazione di DBCluster non riesce dopo l'upgrade.

    Per ulteriori informazioni, vedi Problemi noti.

Gestione di identità e accessi:

  • I pod gatekeeper-audit nello spazio dei nomi opa-system vengono riavviati di frequente.

    Per ulteriori informazioni, vedi Problemi noti.

Monitoraggio:

  • I pod del gateway dello store Cortex possono andare in crash all'avvio durante la sincronizzazione con il backend di archiviazione. I pod superano i limiti di memoria, causando l'arresto da parte di Kubernetes.

    Per ulteriori informazioni, vedi Problemi noti.

  • I pod proxy delle metriche del control plane di Kube possono andare in crashloop con errore di backoff del pull delle immagini.

    Per ulteriori informazioni, vedi Problemi noti.

  • Un aumento del WAL (write-ahead log) fa sì che Prometheus utilizzi molta memoria. A causa di questo problema, il nodo VM del control plane di sistema segnala eventi NodeHasInsufficientMemory e EvictionThresholdMet.

    Per ulteriori informazioni, vedi Problemi noti.

Networking:

  • L'immagine dell'opzione non è stata estratta o recuperata.

    Per ulteriori informazioni, vedi Problemi noti.

Archiviazione di oggetti:

  • Alcuni avvisi di upgrade dell'archiviazione oggetti possono essere ignorati.

    Per ulteriori informazioni, vedi Problemi noti.

Sistema operativo:

  • I pod sono bloccati nello stato ContainerCreating su un singolo nodo.

    Per ulteriori informazioni, vedi Problemi noti.

Server fisici:

  • Il provisioning del server DL380a non va a buon fine.

    Per ulteriori informazioni, vedi Problemi noti.

Esegui l'upgrade:

  • Un errore di Helm durante l'upgrade causa una serie di rollback.

    Per ulteriori informazioni, vedi Problemi noti.

  • Quando esegui l'upgrade da HW2.0 e Ubuntu, l'upgrade del nodo mostra in modo errato RockyLinux.

    Per ulteriori informazioni, vedi Problemi noti.

  • Il pod dhcp-tftp-core-server non è stato svuotato.

    Per ulteriori informazioni, vedi Problemi noti.

  • OrganizationUpgrade è bloccato nella fase di upgrade dei nodi.

    Per ulteriori informazioni, vedi Problemi noti.

  • Errore di connettività intermittente al VIP del cluster esterno.

    Per ulteriori informazioni, vedi Problemi noti.

  • Il kernel non riesce a creare il contenitore.

    Per ulteriori informazioni, vedi Problemi noti.

  • Durante l'upgrade viene visualizzato un errore Incorrect version of Trident.

    Per ulteriori informazioni, vedi Problemi noti.

  • Durante il provisioning del cluster utente, la pianificazione di alcuni pod non riesce.

    Per ulteriori informazioni, vedi Problemi noti.

  • L'upgrade dell'organizzazione tenant non riesce nella fase di controllo preflight con ErrImagePull.

    Per ulteriori informazioni, vedi Problemi noti.

  • L'upgrade dell'organizzazione principale è bloccato su un job di firma non riuscito.

    Per ulteriori informazioni, vedi Problemi noti.

  • Durante l'upgrade, l'attività per un'organizzazione principale non riesce a causa della mancanza di service account.

    Per ulteriori informazioni, vedi Problemi noti.

  • L'upgrade non riesce su shared-service-cluster upgrade

    Per ulteriori informazioni, vedi Problemi noti.

  • Il nodo non funziona durante l'upgrade del cluster utente.

    Per ulteriori informazioni, vedi Problemi noti.

  • L'upgrade dell'organizzazione principale non riesce per il controllo preflight.

    Per ulteriori informazioni, vedi Problemi noti.

  • Si verifica un timeout persistente durante la organizationupgrade iniziale della radice.

    Per ulteriori informazioni, vedi Problemi noti.

  • La riconciliazione del sottocomponente obj-syslog-server non riesce nell'organizzazione principale.

    Per ulteriori informazioni, vedi Problemi noti.

Macchine virtuali:

  • Il plug-in del dispositivo NVIDIA DaemonSet non funziona e viene visualizzato il messaggio driver rpc error sui nodi del cluster con GPU. Questo problema causa l'indisponibilità delle GPU per le macchine virtuali e i pod.

    Per ulteriori informazioni, vedi Problemi noti.

  • VM del cluster di sistema non pronta.

    Per ulteriori informazioni, vedi Problemi noti.

  • Un volume di dati segnala che lo spazio di lavoro non è stato trovato.

    Per ulteriori informazioni, vedi Problemi noti.

  • La riconciliazione del sottocomponente obj-syslog-server non riesce nell'organizzazione principale.

    Per ulteriori informazioni, vedi Problemi noti.

Vertex AI:

  • La funzione API preaddestrata streaming_recognize di Speech-to-Text non funziona a causa di un problema con la libreria client.

    Per ulteriori informazioni, vedi Problemi noti.

  • Il polling dello stato del job non è supportato per l'API batchTranslateDocument.

    Per ulteriori informazioni, vedi Problemi noti.

  • Le richieste batchTranslateDocument potrebbero causare problemi di prestazioni.

    Per ulteriori informazioni, vedi Problemi noti.

  • La prima volta che abiliti le API preaddestrate, la console GDC potrebbe mostrare uno stato incoerente dopo alcuni minuti.

    Per ulteriori informazioni, vedi Problemi noti.

  • Le richieste di traduzione con più di 250 caratteri possono causare l'arresto anomalo dei pod translation-prediction-server.

    Per ulteriori informazioni, vedi Problemi noti.

  • GPUAllocation per il cluster di servizi condivisi non è configurato correttamente.

    Per ulteriori informazioni, vedi Problemi noti.

  • Quando esegui l'upgrade dalla versione 1.9.x alla 1.13.3, il controller Operable Component Lifecycle Management (OCLCM) per i sottocomponenti di Vertex AI potrebbe mostrare errori.

    Per ulteriori informazioni, vedi Problemi noti.

  • Le richieste di traduzione potrebbero generare il codice di errore RESOURCE_EXHAUSTED quando è stato superato il limite di frequenza del sistema.

    Per ulteriori informazioni, vedi Problemi noti.

  • Le richieste batchTranslateDocument restituiscono l'errore 503 "Batch Document translation is not implemented se il parametro operabile enableRAG non è impostato su true nel cluster.

    Per ulteriori informazioni, vedi Problemi noti.


Monitoraggio:

  • Risolto un problema per cui ConfigMap di Prober viene reimpostato in modo da non includere job di probe.

Networking:

  • Risolto un problema relativo a un PodCIDR non assegnato ai nodi anche se è stato creato un ClusterCIDRConfig.

    Per ulteriori informazioni, vedi Problemi noti.

Sistema operativo:

  • È stato risolto un problema relativo al job Ansible bm-system-machine-preflight-check per un nodo bare metal o VM che non riusciva a essere eseguito con Either ip_tables or nf_tables kernel module must be loaded.

    Per ulteriori informazioni, vedi Problemi noti.

Server fisici:

  • È stato risolto un problema di bootstrap del server non riuscito a causa di problemi POST sul server HPE.

    Per ulteriori informazioni, vedi Problemi noti.

Esegui l'upgrade:

  • È stato risolto un problema relativo all'aggiornamento non riuscito nel sottocomponente iac-zoneselection-global.

    Per ulteriori informazioni, vedi Problemi noti.

Vertex AI:

  • Risolto un problema per cui MonitoringTarget mostra lo stato Not Ready durante la creazione dei cluster di utenti, facendo sì che le API preaddestrate mostrino continuamente lo stato Enabling nell'interfaccia utente.

Gestione componenti aggiuntivi:

Esegui l'upgrade:

  • La documentazione sull'upgrade fornisce le durate stimate per le diverse fasi della procedura di upgrade.