Google Distributed Cloud mit Air Gap 1.13.3 – Versionshinweise

30. August 2024


Google Distributed Cloud (GDC) mit Air Gap 1.13.3 ist verfügbar.
Weitere Informationen zu den Funktionen von Distributed Cloud finden Sie in der Produktübersicht.

Clusterverwaltung:

  • Es wurde eine größere Auswahl an GPU-Profilen mit mehreren Instanzen (MIG) (einheitlicher und gemischter Modus) eingeführt. Sie können Google Kubernetes Engine-Cluster auf GPU-VMs (A3-VMs) mit verschiedenen GPU-Slicing-Schemata erstellen und die GPU-Ressourcenanforderungen von Diensten, die KI-Arbeitslasten (künstliche Intelligenz) hosten, dynamisch anpassen.

Hardware:

  • Es sind neue DL380a-Server mit den neuesten NVIDIA Hopper H100-GPUs (2x2 NVL) in Kombination mit den neuesten Intel-Prozessoren der 5. Generation verfügbar.

Virtuelle Maschinen:

  • Ein neuer GPU-optimierter A3-VM-Typ ist verfügbar. An den A3-VM-Typ sind 4 NVIDIA H100-GPUs mit 80 GB angehängt, auf denen KI-Arbeitslasten mit großen Sprachmodellen mit bis zu 100 Milliarden Parametern ausgeführt werden können.
  • Es werden kleinere A3-VM-Formen mit 1 H100-GPU mit 80 GB und 2 H100-GPUs mit 80 GB pro VM eingeführt. Diese Feature befindet sich im Vorschaumodus.

Vertex AI:



Die Rocky OS-Imageversion wurde auf 20240731 aktualisiert, um die neuesten Sicherheitspatches und wichtigen Updates anzuwenden.


Abrechnung:

  • Nutzer können BillingAccountBinding aufgrund eines Validierungs-Webhook-Fehlers nicht erstellen.

    Weitere Informationen finden Sie unter Bekannte Probleme.

Blockspeicher:

  • Grafana-Pods bleiben aufgrund von Fehlern beim Einbinden von Volumes im Status Init hängen.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Es ist ein Trident-Fehler beim Anhängen mehrerer Dateien aufgetreten.

    Weitere Informationen finden Sie unter Bekannte Probleme.

Database Service (Datenbankdienst):

  • Bei der Aktualisierung der Unterkomponente dbs-fleet ist ein Abgleichsfehler aufgetreten.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Die Erstellung von DBCluster schlägt nach dem Upgrade fehl.

    Weitere Informationen finden Sie unter Bekannte Probleme.

Identitäts- und Zugriffsverwaltung:

  • Die gatekeeper-audit-Pods im Namespace opa-system werden häufig neu gestartet.

    Weitere Informationen finden Sie unter Bekannte Probleme.

Monitoring:

  • Die Cortex-Store-Gateway-Pods können beim Start in eine Crash-Schleife geraten, während sie mit dem Speicher-Backend synchronisiert werden. Die Pods überschreiten ihre Arbeitsspeicherlimits, sodass sie von Kubernetes beendet werden.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Die Proxy-Pods für Kube-Steuerungsebenenmesswerte können mit einem Backoff-Fehler beim Abrufen von Images in eine Crashloop geraten.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Ein Anstieg des WAL (Write-Ahead-Log) führt dazu, dass Prometheus viel Arbeitsspeicher verwendet. Der VM-Knoten der Systemsteuerungsebene meldet aufgrund dieses Problems NodeHasInsufficientMemory- und EvictionThresholdMet-Ereignisse.

    Weitere Informationen finden Sie unter Bekannte Probleme.

Netzwerk:

  • Beim Extrahieren oder Abrufen eines Bildes durch den Switch ist ein Fehler aufgetreten.

    Weitere Informationen finden Sie unter Bekannte Probleme.

Objektspeicher:

  • Einige Warnungen zur Aktualisierung des Objektspeichers können ignoriert werden.

    Weitere Informationen finden Sie unter Bekannte Probleme.

Betriebssystem:

  • Pods bleiben auf einem einzelnen Knoten im Status ContainerCreating hängen.

    Weitere Informationen finden Sie unter Bekannte Probleme.

Physische Server:

  • Der DL380a-Server kann nicht bereitgestellt werden.

    Weitere Informationen finden Sie unter Bekannte Probleme.

Upgrade:

  • Ein Helm-Fehler während des Upgrades führt zu einer Reihe von Rollbacks.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Beim Upgrade von HW2.0 und Ubuntu wird fälschlicherweise RockyLinux angezeigt.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Der dhcp-tftp-core-server-Pod wird nicht entleert.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • OrganizationUpgrade hängt beim Knotenupgrade fest.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Zeitweise Verbindungsfehler zur externen VIP des Clusters.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Der Kernel kann keinen Container erstellen.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Während des Upgrades wird ein Incorrect version of Trident-Fehler angezeigt.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Während der Bereitstellung des Nutzerclusters können einige Pods nicht geplant werden.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Das Upgrade der Mandantenorganisation schlägt in der Preflight-Prüfungsphase mit ErrImagePull fehl.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Das Upgrade der Stammorganisation bleibt bei einem fehlgeschlagenen Signaturjob hängen.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Während des Upgrades schlägt die Aufgabe für eine Stammorganisation aufgrund fehlender Dienstkonten fehl.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Upgrade schlägt bei shared-service-cluster upgrade fehl

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Der Knoten schlägt während des Nutzercluster-Upgrades fehl.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Das Upgrade der Stammorganisation schlägt bei der Preflight-Prüfung fehl.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Bei der ersten Root-organizationupgrade tritt ein dauerhaftes Zeitlimit auf.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Der Abgleich der Unterkomponente obj-syslog-server schlägt in der Stammorganisation fehl.

    Weitere Informationen finden Sie unter Bekannte Probleme.

Virtuelle Maschinen:

  • Das NVIDIA-Geräte-Plug-in DaemonSet schlägt mit der Meldung driver rpc error auf Clusternknoten mit GPUs fehl. Dieses Problem führt dazu, dass GPUs für virtuelle Maschinen und Pods nicht verfügbar sind.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Die VM des Systemclusters ist nicht bereit.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Ein Daten-Volume meldet, dass der Scratch-Speicher nicht gefunden wurde.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Der Abgleich der Unterkomponente obj-syslog-server schlägt in der Stammorganisation fehl.

    Weitere Informationen finden Sie unter Bekannte Probleme.

Vertex AI:

  • Die vortrainierte streaming_recognize-API-Funktion von Speech-to-Text schlägt aufgrund eines Problems mit der Clientbibliothek fehl.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Das Abrufen des Jobstatus wird für die batchTranslateDocument API nicht unterstützt.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • batchTranslateDocument-Anfragen können zu Leistungsproblemen führen.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Wenn Sie vortrainierte APIs zum ersten Mal aktivieren, wird in der GDC-Konsole nach einigen Minuten möglicherweise ein inkonsistenter Status angezeigt.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Übersetzungsanfragen mit mehr als 250 Zeichen können zum Absturz von translation-prediction-server-Pods führen.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Die GPUAllocation für den freigegebenen Dienstcluster ist nicht richtig konfiguriert.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Beim Upgrade von Version 1.9.x auf Version 1.13.3 werden möglicherweise Fehler für den OCLCM-Controller (Operable Component Lifecycle Management) für Vertex AI-Unterkomponenten angezeigt.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • Bei Übersetzungsanfragen kann der Fehlercode RESOURCE_EXHAUSTED generiert werden, wenn das Systemfrequenzlimit überschritten wurde.

    Weitere Informationen finden Sie unter Bekannte Probleme.

  • batchTranslateDocument-Anfragen geben den Fehler 503 "Batch Document translation is not implemented zurück, wenn der operable-Parameter enableRAG im Cluster nicht auf true gesetzt ist.

    Weitere Informationen finden Sie unter Bekannte Probleme.


Monitoring:

  • Ein Problem wurde behoben, bei dem die Prober-ConfigMap zurückgesetzt wurde und keine Probe-Jobs mehr enthielt.

Netzwerk:

  • Ein Problem wurde behoben, bei dem Knoten keine PodCIDR zugewiesen wurde, obwohl eine ClusterCIDRConfig erstellt wurde.

    Weitere Informationen finden Sie unter Bekannte Probleme.

Betriebssystem:

  • Ein Problem wurde behoben, bei dem der bm-system-machine-preflight-check-Ansible-Job für einen Bare-Metal- oder VM-Knoten mit Either ip_tables or nf_tables kernel module must be loaded fehlgeschlagen ist.

    Weitere Informationen finden Sie unter Bekannte Probleme.

Physische Server:

  • Ein Problem wurde behoben, bei dem der Server-Bootstrap aufgrund von POST-Problemen auf dem HPE-Server fehlgeschlagen ist.

    Weitere Informationen finden Sie unter Bekannte Probleme.

Upgrade:

  • Ein Problem wurde behoben, durch das das Upgrade in der Unterkomponente iac-zoneselection-global fehlgeschlagen ist.

    Weitere Informationen finden Sie unter Bekannte Probleme.

Vertex AI:

  • Ein Problem wurde behoben, bei dem in MonitoringTarget der Status Not Ready angezeigt wurde, wenn Nutzercluster erstellt wurden. Dadurch wurde in der Benutzeroberfläche für vortrainierte APIs fortlaufend der Status Enabling angezeigt.

Add-on Manager:

Upgrade:

  • Die Upgrade-Dokumentation enthält geschätzte Zeiträume für die verschiedenen Phasen des Upgrade-Prozesses.