Notes de version de Google Distributed Cloud sous air gap 1.13.3

30 août 2024


Google Distributed Cloud (GDC) sous air gap 1.13.3 est disponible.
Consultez la présentation du produit pour en savoir plus sur les fonctionnalités de Distributed Cloud.

Gestion des clusters :

  • Nous avons introduit un ensemble plus large de profils de GPU multi-instances (MIG) (mode uniforme et mixte). Vous pouvez créer des clusters Google Kubernetes Engine sur des VM GPU (VM A3) avec différents schémas de partitionnement de GPU et répondre de manière dynamique aux besoins en ressources GPU des services hébergeant des charges de travail d'intelligence artificielle (IA).

Matériel :

  • De nouveaux serveurs DL380a équipés des derniers GPU NVIDIA Hopper H100 (2x2 NVL) et des processeurs Intel de 5e génération sont disponibles.

Machines virtuelles :

  • Un nouveau type de VM A3 optimisé pour les GPU est disponible. Le type de VM A3 est associé à quatre GPU NVIDIA H100 80 Go, qui peuvent exécuter vos charges de travail d'IA nécessitant de grands modèles de langage jusqu'à 100 milliards de paramètres.
  • Des formes de VM A3 plus petites sont introduites, avec un ou deux GPU H100 de 80 Go associés par VM. Cette fonctionnalité est disponible en version d'évaluation.

Vertex AI :



Mise à jour de la version de l'image Rocky OS vers 20240731 pour appliquer les derniers correctifs de sécurité et les mises à jour importantes.


Facturation :

  • L'utilisateur ne parvient pas à créer BillingAccountBinding en raison d'une erreur de webhook de validation.

    Pour en savoir plus, consultez la section Problèmes connus.

Stockage de blocs :

  • Les pods Grafana sont bloqués à l'état Init en raison d'erreurs de montage de volume.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Une erreur de pièce jointe multiple Trident s'est produite.

    Pour en savoir plus, consultez la section Problèmes connus.

Service de base de données :

  • Le sous-composant dbs-fleet présente une erreur de réconciliation lors de la mise à niveau.

    Pour en savoir plus, consultez la section Problèmes connus.

  • La création de DBCluster échoue après la mise à niveau.

    Pour en savoir plus, consultez la section Problèmes connus.

Gestion de l'authentification et des accès :

  • Les pods gatekeeper-audit de l'espace de noms opa-system redémarrent fréquemment.

    Pour en savoir plus, consultez la section Problèmes connus.

Surveillance :

  • Les pods de passerelle du magasin Cortex peuvent être en boucle de plantage au démarrage lors de la synchronisation avec le backend de stockage. Les pods dépassent leurs limites de mémoire, ce qui entraîne leur arrêt par Kubernetes.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Les pods de proxy des métriques du plan de contrôle Kube peuvent être en boucle d'erreur avec un message d'échec de l'extraction d'image.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Une augmentation du journal WAL (write-ahead log) entraîne une forte consommation de mémoire par Prometheus. En raison de ce problème, le nœud de VM du plan de contrôle du système signale les événements NodeHasInsufficientMemory et EvictionThresholdMet.

    Pour en savoir plus, consultez la section Problèmes connus.

Mise en réseau :

  • L'image du commutateur n'a pas pu être extraite ni extraire une image.

    Pour en savoir plus, consultez la section Problèmes connus.

Stockage d'objets :

  • Vous pouvez ignorer certains avertissements de mise à niveau du stockage d'objets.

    Pour en savoir plus, consultez la section Problèmes connus.

Système d'exploitation :

  • Les pods sont bloqués à l'état ContainerCreating sur un seul nœud.

    Pour en savoir plus, consultez la section Problèmes connus.

Serveurs physiques :

  • Le provisionnement du serveur DL380a échoue.

    Pour en savoir plus, consultez la section Problèmes connus.

Mettre à niveau :

  • Une défaillance Helm lors de la mise à niveau entraîne une série de rollbacks.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Lors de la mise à niveau depuis HW2.0 et Ubuntu, la mise à niveau du nœud affiche RockyLinux de manière incorrecte.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Le pod dhcp-tftp-core-server n'est pas vidé.

    Pour en savoir plus, consultez la section Problèmes connus.

  • OrganizationUpgradeest bloqué à l'étape de mise à niveau des nœuds.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Échec intermittent de la connectivité à l'adresse IP virtuelle du cluster externe.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Le noyau ne parvient pas à créer le conteneur.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Une erreur Incorrect version of Trident s'affiche lors de la mise à niveau.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Lors du provisionnement du cluster d'utilisateur, certains pods ne sont pas planifiés.

    Pour en savoir plus, consultez la section Problèmes connus.

  • La mise à niveau de l'organisation locataire échoue lors de la vérification préliminaire avec ErrImagePull.

    Pour en savoir plus, consultez la section Problèmes connus.

  • La mise à niveau de l'organisation racine est bloquée sur une tâche de signature ayant échoué.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Lors de la mise à niveau, la tâche d'une organisation racine échoue en raison de comptes de service manquants.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Échec de la mise à niveau sur shared-service-cluster upgrade

    Pour en savoir plus, consultez la section Problèmes connus.

  • Le nœud échoue lors de la mise à niveau du cluster d'utilisateur.

    Pour en savoir plus, consultez la section Problèmes connus.

  • La mise à niveau de l'organisation racine échoue lors de la vérification préliminaire.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Un délai d'attente persistant se produit lors de la organizationupgrade racine initiale.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Le sous-composant obj-syslog-server ne parvient pas à effectuer le rapprochement dans l'organisation racine.

    Pour en savoir plus, consultez la section Problèmes connus.

Machines virtuelles :

  • Le plug-in d'appareils NVIDIA DaemonSet échoue avec le message driver rpc error sur les nœuds de cluster avec GPU. Ce problème empêche les machines virtuelles et les pods d'utiliser les GPU.

    Pour en savoir plus, consultez la section Problèmes connus.

  • La VM du cluster système n'est pas prête.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Un volume de données indique que l'espace de travail n'a pas été trouvé.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Le sous-composant obj-syslog-server ne parvient pas à effectuer le rapprochement dans l'organisation racine.

    Pour en savoir plus, consultez la section Problèmes connus.

Vertex AI :

  • La fonction d'API préentraînée streaming_recognize de Speech-to-Text échoue en raison d'un problème lié à la bibliothèque cliente.

    Pour en savoir plus, consultez la section Problèmes connus.

  • L'interrogation de l'état des tâches n'est pas compatible avec l'API batchTranslateDocument.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Les requêtes batchTranslateDocument peuvent entraîner des problèmes de performances.

    Pour en savoir plus, consultez la section Problèmes connus.

  • La première fois que vous activez des API pré-entraînées, la console GDC peut afficher un état incohérent au bout de quelques minutes.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Les demandes de traduction de plus de 250 caractères peuvent entraîner le plantage des pods translation-prediction-server.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Le GPUAllocation pour le cluster de services partagés n'est pas configuré correctement.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Lors de la mise à niveau de la version 1.9.x vers la version 1.13.3, le contrôleur OCLCM (Operable Component Lifecycle Management) pour les sous-composants Vertex AI peut afficher des erreurs.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Les demandes de traduction peuvent générer le code d'erreur RESOURCE_EXHAUSTED lorsque la limite de fréquence du système a été dépassée.

    Pour en savoir plus, consultez la section Problèmes connus.

  • Les requêtes batchTranslateDocument renvoient l'erreur 503 "Batch Document translation is not implemented si le paramètre operable enableRAG n'est pas défini sur true dans le cluster.

    Pour en savoir plus, consultez la section Problèmes connus.


Surveillance :

  • Correction d'un problème qui entraînait la réinitialisation du ConfigMap Prober pour n'inclure aucune tâche de vérification.

Mise en réseau :

  • Correction d'un problème lié à un PodCIDR non attribué aux nœuds, même si un ClusterCIDRConfig est créé.

    Pour en savoir plus, consultez la section Problèmes connus.

Système d'exploitation :

  • Correction d'un problème lié à l'échec du job Ansible bm-system-machine-preflight-check pour un nœud Bare Metal ou de VM avec Either ip_tables or nf_tables kernel module must be loaded.

    Pour en savoir plus, consultez la section Problèmes connus.

Serveurs physiques :

  • Correction d'un problème d'échec de l'amorçage du serveur en raison de problèmes de POST sur le serveur HPE.

    Pour en savoir plus, consultez la section Problèmes connus.

Mettre à niveau :

  • Correction d'un problème d'échec de la mise à niveau dans le sous-composant iac-zoneselection-global.

    Pour en savoir plus, consultez la section Problèmes connus.

Vertex AI :

  • Correction d'un problème qui entraînait l'affichage de l'état Not Ready dans MonitoringTarget lors de la création de clusters d'utilisateurs, ce qui entraînait l'affichage continu de l'état Enabling pour les API pré-entraînées dans l'interface utilisateur.

Gestionnaire de modules complémentaires :

Mettre à niveau :

  • La documentation sur la mise à niveau fournit des durées estimées pour les différentes étapes du processus de mise à niveau.