Cette page vous explique comment configurer Gemini dans un environnement Google Distributed Cloud (GDC) isolé. Ce guide s'adresse aux opérateurs d'infrastructure (IO) qui gèrent les déploiements de systèmes. Il fournit des informations détaillées sur l'infrastructure requise, la configuration matérielle des pods GPU et les configurations réseau nécessaires au déploiement de Gemini.
Avant de commencer
Pour configurer la configuration réseau de Gemini, vous devez avoir installé le cluster d'administrateur racine dans les racks de base. Pour en savoir plus, consultez Bootstrap du cluster d'administrateur racine.
Configurer votre matériel GPU pour Gemini
Pour exécuter Gemini dans GDC, vous devez déployer le matériel nécessaire sous la forme d'un pod de GPU. Un pod de GPU se compose d'un à huit serveurs GPU énergivores et constitue l'unité déployable minimale des racks compatibles avec les GPU. Chaque serveur GPU est installé dans son propre rack et se connecte à un commutateur de gestion dédié et à deux commutateurs TOR (Top of Rack) partagés. Le nombre de serveurs par rack dépend du budget d'alimentation et de vos besoins.
Le schéma suivant illustre deux configurations de pods de GPU différentes :

Figure 1 : Deux pods de GPU sont affichés. Le premier pod de GPU se compose de huit serveurs GPU. Le deuxième pod GPU se compose de cinq serveurs GPU.
Dans la figure 1, le premier pod GPU se compose des éléments suivants :
- Une paire de clouds privés virtuels (VPC) dédiée, qui peut prendre en charge jusqu'à huit serveurs GPU. Pour ajouter des connexions de serveur, vous devez créer des pods GPU.
- Chaque GPU XE9680 du pod de GPU utilise exclusivement un commutateur TOR. Les TOR du pod GPU ne sont pas partagés avec d'autres ressources de calcul ou de stockage.
- Deux commutateurs TOR sont connectés pour fournir une connectivité à bande passante élevée aux serveurs GPU.
- Ce pod de GPU se compose d'au maximum huit serveurs de GPU. Chaque serveur est installé dans son propre rack.
- Chaque serveur GPU se connecte à la fois à un commutateur de gestion dédié et aux commutateurs TOR GPU partagés qui forment une paire VPC.
Dans la figure 1, le deuxième pod de GPU présenté partage la même architecture, mais il se compose de cinq serveurs GPU au lieu de huit.
Configurer le réseau pour Gemini
Pour configurer votre réseau pour Gemini dans GDC, procédez comme suit :
Effectuez une expansion dynamique sur le pod GPU. Suivez la procédure décrite dans Effectuer une expansion dynamique. Si vous rencontrez un problème où les ressources
SubcomponentOverridene peuvent pas être appliquées lors de l'expansion zonale, suivez le runbook OLT-R0003.Vérifiez que la connexion a réussi. Définissez la variable d'environnement
KUBECONFIGpour vous connecter au cluster d'administrateur racine :KUBECONFIG=KUBECONFIG_PATHRemplacez
KUBECONFIG_PATHpar le chemin d'accès au fichier kubeconfig du cluster d'administrateur racine.Obtenez l'état des commutateurs TOR et de gestion :
kubectl --kubeconfig=$KUBECONFIG get torswitch -n gpc-system kubectl --kubeconfig=$KUBECONFIG get managementswitch -n gpc-systemVérifiez la sortie et assurez-vous que la colonne
READYaffiche la valeurTruepour les deux commutateurs :NAME AGE VENDOR SERIAL-NUMBER MANAGEMENT-IP READY OSVERSION CREDENTIAL-NAME LICENSE-NAME aa-aa-torsw01 10h Cisco 005056B4FC41 172.100.1.130 True 10.3(3) aa-aa-torsw01-admin aa-aa-torsw02 10h Cisco 005056B4966C 172.100.1.131 True 10.3(3) aa-aa-torsw02-adminSi vous rencontrez des problèmes matériels qui affectent la configuration de votre réseau, consultez Résoudre les défaillances matérielles.
Résoudre les défaillances matérielles
Si vous rencontrez des défaillances matérielles pour les commutateurs des racks étendus, suivez la procédure de retour et de remplacement des produits de commutation (RMA) pour les commutateurs TOR et de gestion. Suivez les instructions de PNET-R2001.