Questa pagina ti guida nella configurazione di Gemini in un ambiente con air gap Google Distributed Cloud (GDC). Questa guida è destinata agli operatori dell'infrastruttura (IO) che gestiscono le implementazioni di sistema e copre i dettagli relativi all'infrastruttura richiesta, alla configurazione hardware per i pod GPU e alle configurazioni di rete necessarie per il deployment di Gemini.
Prima di iniziare
Per configurare il networking per Gemini, devi aver installato correttamente il cluster di amministrazione principale nei rack di base. Per ulteriori informazioni, vedi Bootstrap del cluster di amministrazione radice.
Configurare l'hardware GPU per Gemini
Per eseguire Gemini in GDC, devi eseguire il deployment dell'hardware necessario sotto forma di pod GPU. Un pod GPU è costituito da uno a otto server GPU che consumano energia ed è l'unità minima implementabile di rack compatibili con le GPU. Ogni server GPU è alloggiato nel proprio rack e si connette sia a uno switch di gestione dedicato sia a due switch Top of Rack (TOR) condivisi. Il numero di server per rack dipende dal budget energetico e dai tuoi requisiti.
Il seguente diagramma mostra due diverse configurazioni di pod GPU:

Figura 1. Vengono mostrati due pod GPU. Il primo pod GPU è composto da otto server GPU. Il secondo pod GPU è composto da cinque server GPU.
Nella figura 1, il primo pod GPU è costituito da:
- Una coppia Virtual Private Cloud (VPC) dedicata, che può supportare fino a otto server GPU. Le connessioni server aggiuntive richiedono la creazione di nuovi pod GPU.
- Ogni GPU XE9680 nel pod GPU utilizza in modo esclusivo uno switch TOR. I TOR nel pod GPU non sono condivisi con altre risorse di calcolo o di archiviazione.
- Due switch TOR sono collegati per fornire connettività a larghezza di banda elevata per i server GPU.
- Questo pod GPU è composto al massimo da otto server GPU. Ogni server è alloggiato nel proprio rack.
- Ogni server GPU si connette sia a uno switch di gestione dedicato sia agli switch TOR GPU condivisi che formano una coppia VPC.
Nella figura 1, il secondo pod GPU mostrato condivide la stessa architettura, ma è composto da cinque server GPU anziché otto.
Configurare la rete per Gemini
Per configurare la rete per Gemini in GDC, segui questi passaggi:
Esegui un'espansione dinamica sul pod GPU. Segui i passaggi elencati in Eseguire un'espansione dinamica. Se riscontri un problema per cui le risorse
SubcomponentOverridenon possono essere applicate durante l'espansione zonale, segui il runbook OLT-R0003.Verifica che la connessione sia riuscita. Imposta la variabile di ambiente
KUBECONFIGper connetterti al cluster di amministrazione principale:KUBECONFIG=KUBECONFIG_PATHSostituisci
KUBECONFIG_PATHcon il percorso del file kubeconfig del cluster di amministrazione root.Visualizza lo stato dei pulsanti di attivazione/disattivazione TOR e Gestione:
kubectl --kubeconfig=$KUBECONFIG get torswitch -n gpc-system kubectl --kubeconfig=$KUBECONFIG get managementswitch -n gpc-systemControlla l'output e verifica che la colonna
READYmostri un valore diTrueper entrambi gli switch:NAME AGE VENDOR SERIAL-NUMBER MANAGEMENT-IP READY OSVERSION CREDENTIAL-NAME LICENSE-NAME aa-aa-torsw01 10h Cisco 005056B4FC41 172.100.1.130 True 10.3(3) aa-aa-torsw01-admin aa-aa-torsw02 10h Cisco 005056B4966C 172.100.1.131 True 10.3(3) aa-aa-torsw02-adminSe riscontri problemi hardware che influiscono sulla configurazione della rete, consulta Risolvere i guasti hardware.
Risolvere i guasti hardware
Se si verificano errori hardware per gli switch nei rack espansi, esegui la procedura di restituzione e sostituzione del prodotto switch (RMA) per gli switch TOR e di gestione. Segui le istruzioni riportate in PNET-R2001.