Google Distributed Cloud mit Air Gap 1.13.3 – Versionshinweise

30. August 2024


Google Distributed Cloud (GDC) mit Air Gap 1.13.3 ist verfügbar.
Weitere Informationen zu den Funktionen von Distributed Cloud finden Sie in der Produktübersicht.

Clusterverwaltung:

  • Es wurde eine größere Auswahl an GPU-Profilen mit mehreren Instanzen (MIG) (einheitlicher und gemischter Modus) eingeführt. Sie können Google Kubernetes Engine-Cluster auf GPU-VMs (A3-VMs) mit verschiedenen GPU-Slicing-Schemata erstellen und die GPU-Ressourcenanforderungen von Diensten, die KI-Arbeitslasten (künstliche Intelligenz) hosten, dynamisch anpassen.

Hardware:

  • Es sind neue DL380a-Server mit den neuesten NVIDIA Hopper H100-GPUs (2x2 NVL) in Kombination mit den neuesten Intel-Prozessoren der 5. Generation verfügbar.

Virtuelle Maschinen:

  • Ein neuer GPU-optimierter A3-VM-Typ ist verfügbar. An den A3-VM-Typ sind 4 NVIDIA H100-GPUs mit 80 GB angehängt, auf denen KI-Arbeitslasten mit großen Sprachmodellen mit bis zu 100 Milliarden Parametern ausgeführt werden können.
  • Es werden kleinere A3-VM-Formen mit 1 H100-GPU mit 80 GB und 2 H100-GPUs mit 80 GB pro VM eingeführt. Diese Feature befindet sich im Vorschaumodus.

Vertex AI:



Die Rocky OS-Imageversion wurde auf 20240731 aktualisiert, um die neuesten Sicherheitspatches und wichtigen Updates anzuwenden.


Abrechnung:

  • Nutzer können BillingAccountBinding aufgrund eines Validierungs-Webhook-Fehlers nicht erstellen.

Blockspeicher:

  • Grafana-Pods bleiben aufgrund von Fehlern beim Einbinden von Volumes im Status Init hängen.
  • Es ist ein Trident-Fehler beim Anhängen mehrerer Dateien aufgetreten.

Database Service (Datenbankdienst):

  • Bei der Aktualisierung der Unterkomponente dbs-fleet ist ein Abgleichsfehler aufgetreten.
  • Die Erstellung von DBCluster schlägt nach dem Upgrade fehl.

Identitäts- und Zugriffsverwaltung:

  • Die gatekeeper-audit-Pods im Namespace opa-system werden häufig neu gestartet.

Monitoring:

  • Die Cortex-Store-Gateway-Pods können beim Start in eine Crash-Schleife geraten, während sie mit dem Speicher-Backend synchronisiert werden. Die Pods überschreiten ihre Arbeitsspeicherlimits, sodass sie von Kubernetes beendet werden.
  • Die Proxy-Pods für Kube-Steuerungsebenenmesswerte können mit einem Backoff-Fehler beim Abrufen von Images in eine Crashloop geraten.
  • Ein Anstieg des WAL (Write-Ahead-Log) führt dazu, dass Prometheus viel Arbeitsspeicher verwendet. Der VM-Knoten der Systemsteuerungsebene meldet aufgrund dieses Problems NodeHasInsufficientMemory- und EvictionThresholdMet-Ereignisse.

Netzwerk:

  • Beim Extrahieren oder Abrufen eines Bildes durch den Switch ist ein Fehler aufgetreten.

Objektspeicher:

  • Einige Warnungen zur Aktualisierung des Objektspeichers können ignoriert werden.

Betriebssystem:

  • Pods bleiben auf einem einzelnen Knoten im Status ContainerCreating hängen.

Physische Server:

  • Der DL380a-Server kann nicht bereitgestellt werden.

Upgrade:

  • Ein Helm-Fehler während des Upgrades führt zu einer Reihe von Rollbacks.
  • Beim Upgrade von HW2.0 und Ubuntu wird fälschlicherweise RockyLinux angezeigt.
  • Der dhcp-tftp-core-server-Pod wird nicht entleert.
  • OrganizationUpgrade hängt beim Knotenupgrade fest.
  • Zeitweise Verbindungsfehler zur externen VIP des Clusters.
  • Der Kernel kann keinen Container erstellen.
  • Während des Upgrades wird ein Incorrect version of Trident-Fehler angezeigt.
  • Während der Bereitstellung des Nutzerclusters können einige Pods nicht geplant werden.
  • Das Upgrade der Mandantenorganisation schlägt in der Preflight-Prüfungsphase mit ErrImagePull fehl.
  • Das Upgrade der Stammorganisation bleibt bei einem fehlgeschlagenen Signaturjob hängen.
  • Während des Upgrades schlägt die Aufgabe für eine Stammorganisation aufgrund fehlender Dienstkonten fehl.
  • Upgrade schlägt bei shared-service-cluster upgrade fehl
  • Der Knoten schlägt während des Nutzercluster-Upgrades fehl.
  • Das Upgrade der Stammorganisation schlägt bei der Preflight-Prüfung fehl.
  • Bei der ersten Root-organizationupgrade tritt ein dauerhaftes Zeitlimit auf.
  • Der Abgleich der Unterkomponente obj-syslog-server schlägt in der Stammorganisation fehl.

Virtuelle Maschinen:

  • Das NVIDIA-Geräte-Plug-in DaemonSet schlägt mit der Meldung driver rpc error auf Clusternknoten mit GPUs fehl. Dieses Problem führt dazu, dass GPUs für virtuelle Maschinen und Pods nicht verfügbar sind.
  • Die VM des Systemclusters ist nicht bereit.
  • Ein Daten-Volume meldet, dass der Scratch-Speicher nicht gefunden wurde.
  • Der Abgleich der Unterkomponente obj-syslog-server schlägt in der Stammorganisation fehl.

Vertex AI:

  • Die vortrainierte streaming_recognize-API-Funktion von Speech-to-Text schlägt aufgrund eines Problems mit der Clientbibliothek fehl.
  • Das Abrufen des Jobstatus wird für die batchTranslateDocument API nicht unterstützt.
  • batchTranslateDocument-Anfragen können zu Leistungsproblemen führen.
  • Wenn Sie vortrainierte APIs zum ersten Mal aktivieren, wird in der GDC-Konsole nach einigen Minuten möglicherweise ein inkonsistenter Status angezeigt.
  • Übersetzungsanfragen mit mehr als 250 Zeichen können zum Absturz von translation-prediction-server-Pods führen.
  • Die GPUAllocation für den freigegebenen Dienstcluster ist nicht richtig konfiguriert.
  • Beim Upgrade von Version 1.9.x auf Version 1.13.3 werden möglicherweise Fehler für den OCLCM-Controller (Operable Component Lifecycle Management) für Vertex AI-Unterkomponenten angezeigt.
  • Bei Übersetzungsanfragen kann der Fehlercode RESOURCE_EXHAUSTED generiert werden, wenn das Systemfrequenzlimit überschritten wurde.
  • batchTranslateDocument-Anfragen geben den Fehler 503 "Batch Document translation is not implemented zurück, wenn der operable-Parameter enableRAG im Cluster nicht auf true gesetzt ist.

Monitoring:

  • Ein Problem wurde behoben, bei dem die Prober-ConfigMap zurückgesetzt wurde und keine Probe-Jobs mehr enthielt.

Netzwerk:

  • Ein Problem wurde behoben, bei dem Knoten keine PodCIDR zugewiesen wurde, obwohl eine ClusterCIDRConfig erstellt wurde.

Betriebssystem:

  • Ein Problem wurde behoben, bei dem der bm-system-machine-preflight-check-Ansible-Job für einen Bare-Metal- oder VM-Knoten mit Either ip_tables or nf_tables kernel module must be loaded fehlgeschlagen ist.

Physische Server:

  • Ein Problem wurde behoben, bei dem der Server-Bootstrap aufgrund von POST-Problemen auf dem HPE-Server fehlgeschlagen ist.

Upgrade:

  • Ein Problem wurde behoben, durch das das Upgrade in der Unterkomponente iac-zoneselection-global fehlgeschlagen ist.

Vertex AI:

  • Ein Problem wurde behoben, bei dem in MonitoringTarget der Status Not Ready angezeigt wurde, wenn Nutzercluster erstellt wurden. Dadurch wurde in der Benutzeroberfläche für vortrainierte APIs fortlaufend der Status Enabling angezeigt.

Add-on Manager:

Upgrade:

  • In der Upgradedokumentation finden Sie geschätzte Zeiträume für die verschiedenen Phasen des Upgradeprozesses.