30 août 2024
Consultez la présentation du produit pour en savoir plus sur les fonctionnalités de Distributed Cloud.
Gestion des clusters :
- Nous avons introduit un ensemble plus large de profils de GPU multi-instances (MIG) (mode uniforme et mixte). Vous pouvez créer des clusters Google Kubernetes Engine sur des VM GPU (VM A3) avec différents schémas de partitionnement de GPU et répondre de manière dynamique aux besoins en ressources GPU des services hébergeant des charges de travail d'intelligence artificielle (IA).
Matériel :
- De nouveaux serveurs DL380a équipés des derniers GPU NVIDIA Hopper H100 (2x2 NVL) et des processeurs Intel de 5e génération sont disponibles.
Machines virtuelles :
- Un nouveau type de VM A3 optimisé pour les GPU est disponible. Le type de VM A3 est associé à quatre GPU NVIDIA H100 80 Go, qui peuvent exécuter vos charges de travail d'IA nécessitant de grands modèles de langage jusqu'à 100 milliards de paramètres.
- Des formes de VM A3 plus petites sont introduites, avec un ou deux GPU H100 de 80 Go associés par VM. Cette fonctionnalité est disponible en version d'évaluation.
Vertex AI :
- Prise en charge des nouveaux formats de fichiers pour la traduction de documents (DOC, PPT, TXT, XLS).
- Ajout de l'API et de la prise en charge de la traduction de documents par lot.
- Nouveau format accepté pour le type d'accélérateur des GPU MIG dans le pool de ressources pour les prédictions en ligne.
- Prise en charge de la fonctionnalité de détection automatique de la langue pour les traductions intégrées et les documents stockés dans des buckets.
- La plate-forme d'API est en phase de production.
- CVE-2021-20230
- CVE-2022-48655
- CVE-2022-4968
- CVE-2022-48674
- CVE-2023-6270
- CVE-2023-6597
- CVE-2023-52752
- CVE-2024-0397
- CVE-2024-0450
- CVE-2024-0760
- CVE-2024-1724
- CVE-2024-1737
- CVE-2024-1975
- CVE-2024-2201
- CVE-2024-4032
- CVE-2024-4076
- CVE-2024-5569
- CVE-2024-6655
- CVE-2024-7264
- CVE-2024-23307
- CVE-2024-24861
- CVE-2024-26583
- CVE-2024-26584
- CVE-2024-26585
- CVE-2024-26586
- CVE-2024-26642
- CVE-2024-26643
- CVE-2024-26828
- CVE-2024-26886
- CVE-2024-26889
- CVE-2024-26907
- CVE-2024-26922
- CVE-2024-26923
- CVE-2024-26925
- CVE-2024-26926
- CVE-2024-27019
- CVE-2024-29068
- CVE-2024-29069
- CVE-2024-35235
- CVE-2024-36016
- CVE-2024-37370
- CVE-2024-37371
- CVE-2024-38428
Mise à jour de la version de l'image Rocky OS vers 20240731 pour appliquer les derniers correctifs de sécurité et les mises à jour importantes.
Facturation :
-
L'utilisateur ne parvient pas à créer
BillingAccountBindingen raison d'une erreur de webhook de validation.Pour en savoir plus, consultez la section Problèmes connus.
Stockage de blocs :
-
Les pods Grafana sont bloqués à l'état
Initen raison d'erreurs de montage de volume.Pour en savoir plus, consultez la section Problèmes connus.
-
Une erreur de pièce jointe multiple Trident s'est produite.
Pour en savoir plus, consultez la section Problèmes connus.
Service de base de données :
-
Le sous-composant
dbs-fleetprésente une erreur de réconciliation lors de la mise à niveau.Pour en savoir plus, consultez la section Problèmes connus.
-
La création de
DBClusteréchoue après la mise à niveau.Pour en savoir plus, consultez la section Problèmes connus.
Gestion de l'authentification et des accès :
-
Les pods
gatekeeper-auditde l'espace de nomsopa-systemredémarrent fréquemment.Pour en savoir plus, consultez la section Problèmes connus.
Surveillance :
-
Les pods de passerelle du magasin Cortex peuvent être en boucle de plantage au démarrage lors de la synchronisation avec le backend de stockage. Les pods dépassent leurs limites de mémoire, ce qui entraîne leur arrêt par Kubernetes.
Pour en savoir plus, consultez la section Problèmes connus.
-
Les pods de proxy des métriques du plan de contrôle Kube peuvent être en boucle d'erreur avec un message d'échec de l'extraction d'image.
Pour en savoir plus, consultez la section Problèmes connus.
-
Une augmentation du journal WAL (write-ahead log) entraîne une forte consommation de mémoire par Prometheus. En raison de ce problème, le nœud de VM du plan de contrôle du système signale les événements
NodeHasInsufficientMemoryetEvictionThresholdMet.Pour en savoir plus, consultez la section Problèmes connus.
Mise en réseau :
-
L'image du commutateur n'a pas pu être extraite ni extraire une image.
Pour en savoir plus, consultez la section Problèmes connus.
Stockage d'objets :
-
Vous pouvez ignorer certains avertissements de mise à niveau du stockage d'objets.
Pour en savoir plus, consultez la section Problèmes connus.
Système d'exploitation :
-
Les pods sont bloqués à l'état
ContainerCreatingsur un seul nœud.Pour en savoir plus, consultez la section Problèmes connus.
Serveurs physiques :
-
Le provisionnement du serveur DL380a échoue.
Pour en savoir plus, consultez la section Problèmes connus.
Mettre à niveau :
- Une défaillance Helm lors de la mise à niveau entraîne une série de rollbacks.
Pour en savoir plus, consultez la section Problèmes connus.
-
Lors de la mise à niveau depuis HW2.0 et Ubuntu, la mise à niveau du nœud affiche RockyLinux de manière incorrecte.
Pour en savoir plus, consultez la section Problèmes connus.
-
Le pod
dhcp-tftp-core-servern'est pas vidé.Pour en savoir plus, consultez la section Problèmes connus.
-
OrganizationUpgradeest bloqué à l'étape de mise à niveau des nœuds.Pour en savoir plus, consultez la section Problèmes connus.
-
Échec intermittent de la connectivité à l'adresse IP virtuelle du cluster externe.
Pour en savoir plus, consultez la section Problèmes connus.
-
Le noyau ne parvient pas à créer le conteneur.
Pour en savoir plus, consultez la section Problèmes connus.
-
Une erreur
Incorrect version of Tridents'affiche lors de la mise à niveau.Pour en savoir plus, consultez la section Problèmes connus.
-
Lors du provisionnement du cluster d'utilisateur, certains pods ne sont pas planifiés.
Pour en savoir plus, consultez la section Problèmes connus.
-
La mise à niveau de l'organisation locataire échoue lors de la vérification préliminaire avec
ErrImagePull.Pour en savoir plus, consultez la section Problèmes connus.
-
La mise à niveau de l'organisation racine est bloquée sur une tâche de signature ayant échoué.
Pour en savoir plus, consultez la section Problèmes connus.
-
Lors de la mise à niveau, la tâche d'une organisation racine échoue en raison de comptes de service manquants.
Pour en savoir plus, consultez la section Problèmes connus.
-
Échec de la mise à niveau sur
shared-service-cluster upgradePour en savoir plus, consultez la section Problèmes connus.
-
Le nœud échoue lors de la mise à niveau du cluster d'utilisateur.
Pour en savoir plus, consultez la section Problèmes connus.
-
La mise à niveau de l'organisation racine échoue lors de la vérification préliminaire.
Pour en savoir plus, consultez la section Problèmes connus.
-
Un délai d'attente persistant se produit lors de la
organizationupgraderacine initiale.Pour en savoir plus, consultez la section Problèmes connus.
-
Le sous-composant
obj-syslog-serverne parvient pas à effectuer le rapprochement dans l'organisation racine.Pour en savoir plus, consultez la section Problèmes connus.
Machines virtuelles :
-
Le plug-in d'appareils NVIDIA
DaemonSetéchoue avec le messagedriver rpc errorsur les nœuds de cluster avec GPU. Ce problème empêche les machines virtuelles et les pods d'utiliser les GPU.Pour en savoir plus, consultez la section Problèmes connus.
-
La VM du cluster système n'est pas prête.
Pour en savoir plus, consultez la section Problèmes connus.
-
Un volume de données indique que l'espace de travail n'a pas été trouvé.
Pour en savoir plus, consultez la section Problèmes connus.
-
Le sous-composant
obj-syslog-serverne parvient pas à effectuer le rapprochement dans l'organisation racine.Pour en savoir plus, consultez la section Problèmes connus.
Vertex AI :
-
La fonction d'API préentraînée
streaming_recognizede Speech-to-Text échoue en raison d'un problème lié à la bibliothèque cliente.Pour en savoir plus, consultez la section Problèmes connus.
-
L'interrogation de l'état des tâches n'est pas compatible avec l'API
batchTranslateDocument.Pour en savoir plus, consultez la section Problèmes connus.
-
Les requêtes
batchTranslateDocumentpeuvent entraîner des problèmes de performances.Pour en savoir plus, consultez la section Problèmes connus.
-
La première fois que vous activez des API pré-entraînées, la console GDC peut afficher un état incohérent au bout de quelques minutes.
Pour en savoir plus, consultez la section Problèmes connus.
-
Les demandes de traduction de plus de 250 caractères peuvent entraîner le plantage des pods
translation-prediction-server.Pour en savoir plus, consultez la section Problèmes connus.
-
Le
GPUAllocationpour le cluster de services partagés n'est pas configuré correctement.Pour en savoir plus, consultez la section Problèmes connus.
-
Lors de la mise à niveau de la version 1.9.x vers la version 1.13.3, le contrôleur OCLCM (Operable Component Lifecycle Management) pour les sous-composants Vertex AI peut afficher des erreurs.
Pour en savoir plus, consultez la section Problèmes connus.
-
Les demandes de traduction peuvent générer le code d'erreur
RESOURCE_EXHAUSTEDlorsque la limite de fréquence du système a été dépassée.Pour en savoir plus, consultez la section Problèmes connus.
-
Les requêtes
batchTranslateDocumentrenvoient l'erreur503 "Batch Document translation is not implementedsi le paramètre operableenableRAGn'est pas défini surtruedans le cluster.Pour en savoir plus, consultez la section Problèmes connus.
Surveillance :
- Correction d'un problème qui entraînait la réinitialisation du ConfigMap Prober pour n'inclure aucune tâche de vérification.
Mise en réseau :
-
Correction d'un problème lié à un
PodCIDRnon attribué aux nœuds, même si unClusterCIDRConfigest créé.Pour en savoir plus, consultez la section Problèmes connus.
Système d'exploitation :
- Correction d'un problème lié à l'échec du job Ansible
bm-system-machine-preflight-checkpour un nœud Bare Metal ou de VM avecEither ip_tables or nf_tables kernel module must be loaded.Pour en savoir plus, consultez la section Problèmes connus.
Serveurs physiques :
- Correction d'un problème d'échec de l'amorçage du serveur en raison de problèmes de POST sur le serveur HPE.
Pour en savoir plus, consultez la section Problèmes connus.
Mettre à niveau :
- Correction d'un problème d'échec de la mise à niveau dans le sous-composant
iac-zoneselection-global.Pour en savoir plus, consultez la section Problèmes connus.
Vertex AI :
-
Correction d'un problème qui entraînait l'affichage de l'état
Not ReadydansMonitoringTargetlors de la création de clusters d'utilisateurs, ce qui entraînait l'affichage continu de l'étatEnablingpour les API pré-entraînées dans l'interface utilisateur.
Gestionnaire de modules complémentaires :
La version 1.29.300-gke.185 de Google Distributed Cloud pour Bare Metal a été mise à jour pour appliquer les derniers correctifs de sécurité et les mises à jour importantes.
Pour en savoir plus, consultez les notes de version de Google Distributed Cloud pour Bare Metal 1.29.300-gke.185.
Mettre à niveau :
- La documentation sur la mise à niveau fournit des durées estimées pour les différentes étapes du processus de mise à niveau.