30. August 2024
Weitere Informationen zu den Funktionen von Distributed Cloud finden Sie in der Produktübersicht.
Clusterverwaltung:
- Es wurde eine größere Auswahl an GPU-Profilen mit mehreren Instanzen (MIG) (einheitlicher und gemischter Modus) eingeführt. Sie können Google Kubernetes Engine-Cluster auf GPU-VMs (A3-VMs) mit verschiedenen GPU-Slicing-Schemata erstellen und die GPU-Ressourcenanforderungen von Diensten, die KI-Arbeitslasten (künstliche Intelligenz) hosten, dynamisch anpassen.
Hardware:
- Es sind neue DL380a-Server mit den neuesten NVIDIA Hopper H100-GPUs (2x2 NVL) in Kombination mit den neuesten Intel-Prozessoren der 5. Generation verfügbar.
Virtuelle Maschinen:
- Ein neuer GPU-optimierter A3-VM-Typ ist verfügbar. An den A3-VM-Typ sind 4 NVIDIA H100-GPUs mit 80 GB angehängt, auf denen KI-Arbeitslasten mit großen Sprachmodellen mit bis zu 100 Milliarden Parametern ausgeführt werden können.
- Es werden kleinere A3-VM-Formen mit 1 H100-GPU mit 80 GB und 2 H100-GPUs mit 80 GB pro VM eingeführt. Diese Feature befindet sich im Vorschaumodus.
Vertex AI:
- Unterstützung für neue Dateiformate für die Dokumentübersetzung (DOC, PPT, TXT, XLS) hinzugefügt.
- Die API und die Unterstützung für die Batchdokumentübersetzung wurden hinzugefügt.
- Ein neues Format für den Beschleunigertyp von MIG-GPUs im Ressourcenpool für Onlinevorhersagen wird unterstützt.
- Die automatische Spracherkennung für Inline-Übersetzungen und in Buckets gespeicherte Dokumente wird unterstützt.
- Die API-Plattform befindet sich in der Produktionsphase.
- CVE-2021-20230
- CVE-2022-48655
- CVE-2022-4968
- CVE-2022-48674
- CVE-2023-6270
- CVE-2023-6597
- CVE-2023-52752
- CVE-2024-0397
- CVE-2024-0450
- CVE-2024-0760
- CVE-2024-1724
- CVE-2024-1737
- CVE-2024-1975
- CVE-2024-2201
- CVE-2024-4032
- CVE-2024-4076
- CVE-2024-5569
- CVE-2024-6655
- CVE-2024-7264
- CVE-2024-23307
- CVE-2024-24861
- CVE-2024-26583
- CVE-2024-26584
- CVE-2024-26585
- CVE-2024-26586
- CVE-2024-26642
- CVE-2024-26643
- CVE-2024-26828
- CVE-2024-26886
- CVE-2024-26889
- CVE-2024-26907
- CVE-2024-26922
- CVE-2024-26923
- CVE-2024-26925
- CVE-2024-26926
- CVE-2024-27019
- CVE-2024-29068
- CVE-2024-29069
- CVE-2024-35235
- CVE-2024-36016
- CVE-2024-37370
- CVE-2024-37371
- CVE-2024-38428
Die Rocky OS-Imageversion wurde auf 20240731 aktualisiert, um die neuesten Sicherheitspatches und wichtigen Updates anzuwenden.
Abrechnung:
-
Nutzer können
BillingAccountBinding
aufgrund eines Validierungs-Webhook-Fehlers nicht erstellen.
Blockspeicher:
-
Grafana-Pods bleiben aufgrund von Fehlern beim Einbinden von Volumes im Status
Init
hängen. - Es ist ein Trident-Fehler beim Anhängen mehrerer Dateien aufgetreten.
Database Service (Datenbankdienst):
-
Bei der Aktualisierung der Unterkomponente
dbs-fleet
ist ein Abgleichsfehler aufgetreten. -
Die Erstellung von
DBCluster
schlägt nach dem Upgrade fehl.
Identitäts- und Zugriffsverwaltung:
-
Die
gatekeeper-audit
-Pods im Namespaceopa-system
werden häufig neu gestartet.
Monitoring:
- Die Cortex-Store-Gateway-Pods können beim Start in eine Crash-Schleife geraten, während sie mit dem Speicher-Backend synchronisiert werden. Die Pods überschreiten ihre Arbeitsspeicherlimits, sodass sie von Kubernetes beendet werden.
- Die Proxy-Pods für Kube-Steuerungsebenenmesswerte können mit einem Backoff-Fehler beim Abrufen von Images in eine Crashloop geraten.
-
Ein Anstieg des WAL (Write-Ahead-Log) führt dazu, dass Prometheus viel Arbeitsspeicher verwendet. Der VM-Knoten der Systemsteuerungsebene meldet aufgrund dieses Problems
NodeHasInsufficientMemory
- undEvictionThresholdMet
-Ereignisse.
Netzwerk:
- Beim Extrahieren oder Abrufen eines Bildes durch den Switch ist ein Fehler aufgetreten.
Objektspeicher:
- Einige Warnungen zur Aktualisierung des Objektspeichers können ignoriert werden.
Betriebssystem:
-
Pods bleiben auf einem einzelnen Knoten im Status
ContainerCreating
hängen.
Physische Server:
- Der DL380a-Server kann nicht bereitgestellt werden.
Upgrade:
- Ein Helm-Fehler während des Upgrades führt zu einer Reihe von Rollbacks.
- Beim Upgrade von HW2.0 und Ubuntu wird fälschlicherweise RockyLinux angezeigt.
-
Der
dhcp-tftp-core-server
-Pod wird nicht entleert. -
OrganizationUpgrade
hängt beim Knotenupgrade fest. - Zeitweise Verbindungsfehler zur externen VIP des Clusters.
- Der Kernel kann keinen Container erstellen.
-
Während des Upgrades wird ein
Incorrect version of Trident
-Fehler angezeigt. - Während der Bereitstellung des Nutzerclusters können einige Pods nicht geplant werden.
-
Das Upgrade der Mandantenorganisation schlägt in der Preflight-Prüfungsphase mit
ErrImagePull
fehl. - Das Upgrade der Stammorganisation bleibt bei einem fehlgeschlagenen Signaturjob hängen.
- Während des Upgrades schlägt die Aufgabe für eine Stammorganisation aufgrund fehlender Dienstkonten fehl.
-
Upgrade schlägt bei
shared-service-cluster upgrade
fehl - Der Knoten schlägt während des Nutzercluster-Upgrades fehl.
- Das Upgrade der Stammorganisation schlägt bei der Preflight-Prüfung fehl.
-
Bei der ersten Root-
organizationupgrade
tritt ein dauerhaftes Zeitlimit auf. -
Der Abgleich der Unterkomponente
obj-syslog-server
schlägt in der Stammorganisation fehl.
Virtuelle Maschinen:
-
Das NVIDIA-Geräte-Plug-in
DaemonSet
schlägt mit der Meldungdriver rpc error
auf Clusternknoten mit GPUs fehl. Dieses Problem führt dazu, dass GPUs für virtuelle Maschinen und Pods nicht verfügbar sind. - Die VM des Systemclusters ist nicht bereit.
- Ein Daten-Volume meldet, dass der Scratch-Speicher nicht gefunden wurde.
-
Der Abgleich der Unterkomponente
obj-syslog-server
schlägt in der Stammorganisation fehl.
Vertex AI:
-
Die vortrainierte
streaming_recognize
-API-Funktion von Speech-to-Text schlägt aufgrund eines Problems mit der Clientbibliothek fehl. -
Das Abrufen des Jobstatus wird für die
batchTranslateDocument
API nicht unterstützt. -
batchTranslateDocument
-Anfragen können zu Leistungsproblemen führen. - Wenn Sie vortrainierte APIs zum ersten Mal aktivieren, wird in der GDC-Konsole nach einigen Minuten möglicherweise ein inkonsistenter Status angezeigt.
-
Übersetzungsanfragen mit mehr als 250 Zeichen können zum Absturz von
translation-prediction-server
-Pods führen. -
Die
GPUAllocation
für den freigegebenen Dienstcluster ist nicht richtig konfiguriert. - Beim Upgrade von Version 1.9.x auf Version 1.13.3 werden möglicherweise Fehler für den OCLCM-Controller (Operable Component Lifecycle Management) für Vertex AI-Unterkomponenten angezeigt.
-
Bei Übersetzungsanfragen kann der Fehlercode
RESOURCE_EXHAUSTED
generiert werden, wenn das Systemfrequenzlimit überschritten wurde. -
batchTranslateDocument
-Anfragen geben den Fehler503 "Batch Document translation is not implemented
zurück, wenn der operable-ParameterenableRAG
im Cluster nicht auftrue
gesetzt ist.
Monitoring:
- Ein Problem wurde behoben, bei dem die Prober-ConfigMap zurückgesetzt wurde und keine Probe-Jobs mehr enthielt.
Netzwerk:
-
Ein Problem wurde behoben, bei dem Knoten keine
PodCIDR
zugewiesen wurde, obwohl eineClusterCIDRConfig
erstellt wurde.
Betriebssystem:
- Ein Problem wurde behoben, bei dem der
bm-system-machine-preflight-check
-Ansible-Job für einen Bare-Metal- oder VM-Knoten mitEither ip_tables or nf_tables kernel module must be loaded
fehlgeschlagen ist.
Physische Server:
- Ein Problem wurde behoben, bei dem der Server-Bootstrap aufgrund von POST-Problemen auf dem HPE-Server fehlgeschlagen ist.
Upgrade:
- Ein Problem wurde behoben, durch das das Upgrade in der Unterkomponente
iac-zoneselection-global
fehlgeschlagen ist.
Vertex AI:
-
Ein Problem wurde behoben, bei dem in
MonitoringTarget
der StatusNot Ready
angezeigt wurde, wenn Nutzercluster erstellt wurden. Dadurch wurde in der Benutzeroberfläche für vortrainierte APIs fortlaufend der StatusEnabling
angezeigt.
Add-on Manager:
Die Google Distributed Cloud for Bare Metal-Version wurde auf 1.29.300-gke.185 aktualisiert, um die neuesten Sicherheitspatches und wichtigen Updates anzuwenden.
Weitere Informationen finden Sie in den Versionshinweisen zu Google Distributed Cloud for Bare Metal 1.29.300-gke.185.
Upgrade:
- In der Upgradedokumentation finden Sie geschätzte Zeiträume für die verschiedenen Phasen des Upgradeprozesses.