Notes de version de Google Distributed Cloud sous air gap 1.13.3

30 août 2024


Google Distributed Cloud (GDC) sous air gap 1.13.3 est disponible.
Consultez la présentation du produit pour en savoir plus sur les fonctionnalités de Distributed Cloud.

Gestion des clusters :

  • Nous avons introduit un ensemble plus large de profils de GPU multi-instances (MIG) (mode uniforme et mixte). Vous pouvez créer des clusters Google Kubernetes Engine sur des VM GPU (VM A3) avec différents schémas de partitionnement de GPU et répondre de manière dynamique aux besoins en ressources GPU des services hébergeant des charges de travail d'intelligence artificielle (IA).

Matériel :

  • De nouveaux serveurs DL380a équipés des derniers GPU NVIDIA Hopper H100 (2x2 NVL) et des processeurs Intel de 5e génération sont disponibles.

Machines virtuelles :

  • Un nouveau type de VM A3 optimisé pour les GPU est disponible. Le type de VM A3 est associé à quatre GPU NVIDIA H100 80 Go, qui peuvent exécuter vos charges de travail d'IA nécessitant de grands modèles de langage jusqu'à 100 milliards de paramètres.
  • Des formes de VM A3 plus petites sont introduites, avec un ou deux GPU H100 de 80 Go associés par VM. Cette fonctionnalité est disponible en version d'évaluation.

Vertex AI :


La version de l'image Canonical Ubuntu OS est passée à 20240811 pour appliquer les derniers correctifs de sécurité et les mises à jour importantes. Pour bénéficier des corrections de bugs et des failles de sécurité, vous devez mettre à niveau tous les nœuds à chaque version. Les failles de sécurité suivantes ont été corrigées :

Mise à jour de la version de l'image Rocky OS vers 20240731 pour appliquer les derniers correctifs de sécurité et les mises à jour importantes.


Facturation :

  • L'utilisateur ne parvient pas à créer BillingAccountBinding en raison d'une erreur de webhook de validation.

Stockage de blocs :

  • Les pods Grafana sont bloqués à l'état Init en raison d'erreurs de montage de volume.
  • Une erreur de pièce jointe multiple Trident s'est produite.

Service de base de données :

  • Le sous-composant dbs-fleet présente une erreur de réconciliation lors de la mise à niveau.
  • La création de DBCluster échoue après la mise à niveau.

Gestion de l'authentification et des accès :

  • Les pods gatekeeper-audit de l'espace de noms opa-system redémarrent fréquemment.

Surveillance :

  • Les pods de passerelle du magasin Cortex peuvent être en boucle de plantage au démarrage lors de la synchronisation avec le backend de stockage. Les pods dépassent leurs limites de mémoire, ce qui entraîne leur arrêt par Kubernetes.
  • Les pods de proxy des métriques du plan de contrôle Kube peuvent être en boucle d'erreur avec un message d'échec de l'extraction d'image.
  • Une augmentation du journal WAL (write-ahead log) entraîne une forte consommation de mémoire par Prometheus. En raison de ce problème, le nœud de VM du plan de contrôle du système signale les événements NodeHasInsufficientMemory et EvictionThresholdMet.

Mise en réseau :

  • L'image du commutateur n'a pas pu être extraite ni extraire une image.

Stockage d'objets :

  • Vous pouvez ignorer certains avertissements de mise à niveau du stockage d'objets.

Système d'exploitation :

  • Les pods sont bloqués à l'état ContainerCreating sur un seul nœud.

Serveurs physiques :

  • Le provisionnement du serveur DL380a échoue.

Mettre à niveau :

  • Une défaillance Helm lors de la mise à niveau entraîne une série de rollbacks.
  • Lors de la mise à niveau depuis HW2.0 et Ubuntu, la mise à niveau du nœud affiche RockyLinux de manière incorrecte.
  • Le pod dhcp-tftp-core-server n'est pas vidé.
  • OrganizationUpgradeest bloqué à l'étape de mise à niveau des nœuds.
  • Échec intermittent de la connectivité à l'adresse IP virtuelle du cluster externe.
  • Le noyau ne parvient pas à créer le conteneur.
  • Une erreur Incorrect version of Trident s'affiche lors de la mise à niveau.
  • Lors du provisionnement du cluster d'utilisateur, certains pods ne sont pas planifiés.
  • La mise à niveau de l'organisation locataire échoue lors de la vérification préliminaire avec ErrImagePull.
  • La mise à niveau de l'organisation racine est bloquée sur une tâche de signature ayant échoué.
  • Lors de la mise à niveau, la tâche d'une organisation racine échoue en raison de comptes de service manquants.
  • Échec de la mise à niveau sur shared-service-cluster upgrade
  • Le nœud échoue lors de la mise à niveau du cluster d'utilisateur.
  • La mise à niveau de l'organisation racine échoue lors de la vérification préliminaire.
  • Un délai d'attente persistant se produit lors de la organizationupgrade racine initiale.
  • Le sous-composant obj-syslog-server ne parvient pas à effectuer le rapprochement dans l'organisation racine.

Machines virtuelles :

  • Le plug-in d'appareils NVIDIA DaemonSet échoue avec le message driver rpc error sur les nœuds de cluster avec GPU. Ce problème empêche les machines virtuelles et les pods d'utiliser les GPU.
  • La VM du cluster système n'est pas prête.
  • Un volume de données indique que l'espace de travail n'a pas été trouvé.
  • Le sous-composant obj-syslog-server ne parvient pas à effectuer le rapprochement dans l'organisation racine.

Vertex AI :

  • La fonction d'API préentraînée streaming_recognize de Speech-to-Text échoue en raison d'un problème lié à la bibliothèque cliente.
  • L'interrogation de l'état des tâches n'est pas compatible avec l'API batchTranslateDocument.
  • Les requêtes batchTranslateDocument peuvent entraîner des problèmes de performances.
  • La première fois que vous activez des API pré-entraînées, la console GDC peut afficher un état incohérent au bout de quelques minutes.
  • Les demandes de traduction de plus de 250 caractères peuvent entraîner le plantage des pods translation-prediction-server.
  • Le GPUAllocation pour le cluster de services partagés n'est pas configuré correctement.
  • Lors de la mise à niveau de la version 1.9.x vers la version 1.13.3, le contrôleur OCLCM (Operable Component Lifecycle Management) pour les sous-composants Vertex AI peut afficher des erreurs.
  • Les demandes de traduction peuvent générer le code d'erreur RESOURCE_EXHAUSTED lorsque la limite de fréquence du système a été dépassée.
  • Les requêtes batchTranslateDocument renvoient l'erreur 503 "Batch Document translation is not implemented si le paramètre operable enableRAG n'est pas défini sur true dans le cluster.

Surveillance :

  • Correction d'un problème qui entraînait la réinitialisation du ConfigMap Prober pour n'inclure aucune tâche de vérification.

Mise en réseau :

  • Correction d'un problème lié à un PodCIDR non attribué aux nœuds, même si un ClusterCIDRConfig est créé.

Système d'exploitation :

  • Correction d'un problème lié à l'échec du job Ansible bm-system-machine-preflight-check pour un nœud Bare Metal ou de VM avec Either ip_tables or nf_tables kernel module must be loaded.

Serveurs physiques :

  • Correction d'un problème d'échec de l'amorçage du serveur en raison de problèmes de POST sur le serveur HPE.

Mettre à niveau :

  • Correction d'un problème d'échec de la mise à niveau dans le sous-composant iac-zoneselection-global.

Vertex AI :

  • Correction d'un problème qui entraînait l'affichage de l'état Not Ready dans MonitoringTarget lors de la création de clusters d'utilisateurs, ce qui entraînait l'affichage continu de l'état Enabling pour les API pré-entraînées dans l'interface utilisateur.

Gestionnaire de modules complémentaires :

Mettre à niveau :

  • La documentation sur la mise à niveau fournit des durées estimées pour les différentes étapes du processus de mise à niveau.