30 août 2024
Consultez la présentation du produit pour en savoir plus sur les fonctionnalités de Distributed Cloud.
Gestion des clusters :
- Nous avons introduit un ensemble plus large de profils de GPU multi-instances (MIG) (mode uniforme et mixte). Vous pouvez créer des clusters Google Kubernetes Engine sur des VM GPU (VM A3) avec différents schémas de partitionnement de GPU et répondre de manière dynamique aux besoins en ressources GPU des services hébergeant des charges de travail d'intelligence artificielle (IA).
Matériel :
- De nouveaux serveurs DL380a équipés des derniers GPU NVIDIA Hopper H100 (2x2 NVL) et des processeurs Intel de 5e génération sont disponibles.
Machines virtuelles :
- Un nouveau type de VM A3 optimisé pour les GPU est disponible. Le type de VM A3 est associé à quatre GPU NVIDIA H100 80 Go, qui peuvent exécuter vos charges de travail d'IA nécessitant de grands modèles de langage jusqu'à 100 milliards de paramètres.
- Des formes de VM A3 plus petites sont introduites, avec un ou deux GPU H100 de 80 Go associés par VM. Cette fonctionnalité est disponible en version d'évaluation.
Vertex AI :
- Prise en charge des nouveaux formats de fichiers pour la traduction de documents (DOC, PPT, TXT, XLS).
- Ajout de l'API et de la prise en charge de la traduction de documents par lot.
- Nouveau format accepté pour le type d'accélérateur des GPU MIG dans le pool de ressources pour les prédictions en ligne.
- Prise en charge de la fonctionnalité de détection automatique de la langue pour les traductions intégrées et les documents stockés dans des buckets.
- La plate-forme d'API est en phase de production.
- CVE-2021-20230
- CVE-2022-48655
- CVE-2022-4968
- CVE-2022-48674
- CVE-2023-6270
- CVE-2023-6597
- CVE-2023-52752
- CVE-2024-0397
- CVE-2024-0450
- CVE-2024-0760
- CVE-2024-1724
- CVE-2024-1737
- CVE-2024-1975
- CVE-2024-2201
- CVE-2024-4032
- CVE-2024-4076
- CVE-2024-5569
- CVE-2024-6655
- CVE-2024-7264
- CVE-2024-23307
- CVE-2024-24861
- CVE-2024-26583
- CVE-2024-26584
- CVE-2024-26585
- CVE-2024-26586
- CVE-2024-26642
- CVE-2024-26643
- CVE-2024-26828
- CVE-2024-26886
- CVE-2024-26889
- CVE-2024-26907
- CVE-2024-26922
- CVE-2024-26923
- CVE-2024-26925
- CVE-2024-26926
- CVE-2024-27019
- CVE-2024-29068
- CVE-2024-29069
- CVE-2024-35235
- CVE-2024-36016
- CVE-2024-37370
- CVE-2024-37371
- CVE-2024-38428
Mise à jour de la version de l'image Rocky OS vers 20240731 pour appliquer les derniers correctifs de sécurité et les mises à jour importantes.
Facturation :
-
L'utilisateur ne parvient pas à créer
BillingAccountBinding
en raison d'une erreur de webhook de validation.
Stockage de blocs :
-
Les pods Grafana sont bloqués à l'état
Init
en raison d'erreurs de montage de volume. - Une erreur de pièce jointe multiple Trident s'est produite.
Service de base de données :
-
Le sous-composant
dbs-fleet
présente une erreur de réconciliation lors de la mise à niveau. -
La création de
DBCluster
échoue après la mise à niveau.
Gestion de l'authentification et des accès :
-
Les pods
gatekeeper-audit
de l'espace de nomsopa-system
redémarrent fréquemment.
Surveillance :
- Les pods de passerelle du magasin Cortex peuvent être en boucle de plantage au démarrage lors de la synchronisation avec le backend de stockage. Les pods dépassent leurs limites de mémoire, ce qui entraîne leur arrêt par Kubernetes.
- Les pods de proxy des métriques du plan de contrôle Kube peuvent être en boucle d'erreur avec un message d'échec de l'extraction d'image.
-
Une augmentation du journal WAL (write-ahead log) entraîne une forte consommation de mémoire par Prometheus. En raison de ce problème, le nœud de VM du plan de contrôle du système signale les événements
NodeHasInsufficientMemory
etEvictionThresholdMet
.
Mise en réseau :
- L'image du commutateur n'a pas pu être extraite ni extraire une image.
Stockage d'objets :
- Vous pouvez ignorer certains avertissements de mise à niveau du stockage d'objets.
Système d'exploitation :
-
Les pods sont bloqués à l'état
ContainerCreating
sur un seul nœud.
Serveurs physiques :
- Le provisionnement du serveur DL380a échoue.
Mettre à niveau :
- Une défaillance Helm lors de la mise à niveau entraîne une série de rollbacks.
- Lors de la mise à niveau depuis HW2.0 et Ubuntu, la mise à niveau du nœud affiche RockyLinux de manière incorrecte.
-
Le pod
dhcp-tftp-core-server
n'est pas vidé. -
OrganizationUpgrade
est bloqué à l'étape de mise à niveau des nœuds. - Échec intermittent de la connectivité à l'adresse IP virtuelle du cluster externe.
- Le noyau ne parvient pas à créer le conteneur.
-
Une erreur
Incorrect version of Trident
s'affiche lors de la mise à niveau. - Lors du provisionnement du cluster d'utilisateur, certains pods ne sont pas planifiés.
-
La mise à niveau de l'organisation locataire échoue lors de la vérification préliminaire avec
ErrImagePull
. - La mise à niveau de l'organisation racine est bloquée sur une tâche de signature ayant échoué.
- Lors de la mise à niveau, la tâche d'une organisation racine échoue en raison de comptes de service manquants.
-
Échec de la mise à niveau sur
shared-service-cluster upgrade
- Le nœud échoue lors de la mise à niveau du cluster d'utilisateur.
- La mise à niveau de l'organisation racine échoue lors de la vérification préliminaire.
-
Un délai d'attente persistant se produit lors de la
organizationupgrade
racine initiale. -
Le sous-composant
obj-syslog-server
ne parvient pas à effectuer le rapprochement dans l'organisation racine.
Machines virtuelles :
-
Le plug-in d'appareils NVIDIA
DaemonSet
échoue avec le messagedriver rpc error
sur les nœuds de cluster avec GPU. Ce problème empêche les machines virtuelles et les pods d'utiliser les GPU. - La VM du cluster système n'est pas prête.
- Un volume de données indique que l'espace de travail n'a pas été trouvé.
-
Le sous-composant
obj-syslog-server
ne parvient pas à effectuer le rapprochement dans l'organisation racine.
Vertex AI :
-
La fonction d'API préentraînée
streaming_recognize
de Speech-to-Text échoue en raison d'un problème lié à la bibliothèque cliente. -
L'interrogation de l'état des tâches n'est pas compatible avec l'API
batchTranslateDocument
. -
Les requêtes
batchTranslateDocument
peuvent entraîner des problèmes de performances. - La première fois que vous activez des API pré-entraînées, la console GDC peut afficher un état incohérent au bout de quelques minutes.
-
Les demandes de traduction de plus de 250 caractères peuvent entraîner le plantage des pods
translation-prediction-server
. -
Le
GPUAllocation
pour le cluster de services partagés n'est pas configuré correctement. - Lors de la mise à niveau de la version 1.9.x vers la version 1.13.3, le contrôleur OCLCM (Operable Component Lifecycle Management) pour les sous-composants Vertex AI peut afficher des erreurs.
-
Les demandes de traduction peuvent générer le code d'erreur
RESOURCE_EXHAUSTED
lorsque la limite de fréquence du système a été dépassée. -
Les requêtes
batchTranslateDocument
renvoient l'erreur503 "Batch Document translation is not implemented
si le paramètre operableenableRAG
n'est pas défini surtrue
dans le cluster.
Surveillance :
- Correction d'un problème qui entraînait la réinitialisation du ConfigMap Prober pour n'inclure aucune tâche de vérification.
Mise en réseau :
-
Correction d'un problème lié à un
PodCIDR
non attribué aux nœuds, même si unClusterCIDRConfig
est créé.
Système d'exploitation :
- Correction d'un problème lié à l'échec du job Ansible
bm-system-machine-preflight-check
pour un nœud Bare Metal ou de VM avecEither ip_tables or nf_tables kernel module must be loaded
.
Serveurs physiques :
- Correction d'un problème d'échec de l'amorçage du serveur en raison de problèmes de POST sur le serveur HPE.
Mettre à niveau :
- Correction d'un problème d'échec de la mise à niveau dans le sous-composant
iac-zoneselection-global
.
Vertex AI :
-
Correction d'un problème qui entraînait l'affichage de l'état
Not Ready
dansMonitoringTarget
lors de la création de clusters d'utilisateurs, ce qui entraînait l'affichage continu de l'étatEnabling
pour les API pré-entraînées dans l'interface utilisateur.
Gestionnaire de modules complémentaires :
La version 1.29.300-gke.185 de Google Distributed Cloud pour Bare Metal a été mise à jour pour appliquer les derniers correctifs de sécurité et les mises à jour importantes.
Pour en savoir plus, consultez les notes de version de Google Distributed Cloud pour Bare Metal 1.29.300-gke.185.
Mettre à niveau :
- La documentation sur la mise à niveau fournit des durées estimées pour les différentes étapes du processus de mise à niveau.