Configurare la rete per Gemini

Questa pagina ti guida nella configurazione di Gemini in un ambiente con air gap Google Distributed Cloud (GDC). Questa guida è destinata agli operatori dell'infrastruttura (IO) che gestiscono le implementazioni di sistema e copre i dettagli relativi all'infrastruttura richiesta, alla configurazione hardware per i pod GPU e alle configurazioni di rete necessarie per il deployment di Gemini.

Prima di iniziare

Per configurare il networking per Gemini, devi aver installato correttamente il cluster di amministrazione principale nei rack di base. Per ulteriori informazioni, vedi Bootstrap del cluster di amministrazione radice.

Configurare l'hardware GPU per Gemini

Per eseguire Gemini in GDC, devi eseguire il deployment dell'hardware necessario sotto forma di pod GPU. Un pod GPU è costituito da uno a otto server GPU che consumano energia ed è l'unità minima implementabile di rack compatibili con le GPU. Ogni server GPU è alloggiato nel proprio rack e si connette sia a uno switch di gestione dedicato sia a due switch Top of Rack (TOR) condivisi. Il numero di server per rack dipende dal budget energetico e dai tuoi requisiti.

Il seguente diagramma mostra due diverse configurazioni di pod GPU:

Configurazione rack di un pod GPU

Figura 1. Vengono mostrati due pod GPU. Il primo pod GPU è composto da otto server GPU. Il secondo pod GPU è composto da cinque server GPU.

Nella figura 1, il primo pod GPU è costituito da:

  • Una coppia Virtual Private Cloud (VPC) dedicata, che può supportare fino a otto server GPU. Le connessioni server aggiuntive richiedono la creazione di nuovi pod GPU.
  • Ogni GPU XE9680 nel pod GPU utilizza in modo esclusivo uno switch TOR. I TOR nel pod GPU non sono condivisi con altre risorse di calcolo o di archiviazione.
  • Due switch TOR sono collegati per fornire connettività a larghezza di banda elevata per i server GPU.
  • Questo pod GPU è composto al massimo da otto server GPU. Ogni server è alloggiato nel proprio rack.
  • Ogni server GPU si connette sia a uno switch di gestione dedicato sia agli switch TOR GPU condivisi che formano una coppia VPC.

Nella figura 1, il secondo pod GPU mostrato condivide la stessa architettura, ma è composto da cinque server GPU anziché otto.

Configurare la rete per Gemini

Per configurare la rete per Gemini in GDC, segui questi passaggi:

  1. Esegui un'espansione dinamica sul pod GPU. Segui i passaggi elencati in Eseguire un'espansione dinamica. Se riscontri un problema per cui le risorse SubcomponentOverride non possono essere applicate durante l'espansione zonale, segui il runbook OLT-R0003.

  2. Verifica che la connessione sia riuscita. Imposta la variabile di ambiente KUBECONFIG per connetterti al cluster di amministrazione principale:

    KUBECONFIG=KUBECONFIG_PATH
    

    Sostituisci KUBECONFIG_PATH con il percorso del file kubeconfig del cluster di amministrazione root.

  3. Visualizza lo stato dei pulsanti di attivazione/disattivazione TOR e Gestione:

    kubectl --kubeconfig=$KUBECONFIG get torswitch -n gpc-system
    kubectl --kubeconfig=$KUBECONFIG get managementswitch -n gpc-system
    
  4. Controlla l'output e verifica che la colonna READY mostri un valore di True per entrambi gli switch:

    NAME AGE VENDOR SERIAL-NUMBER MANAGEMENT-IP READY OSVERSION CREDENTIAL-NAME LICENSE-NAME
    aa-aa-torsw01 10h Cisco 005056B4FC41 172.100.1.130 True 10.3(3) aa-aa-torsw01-admin
    aa-aa-torsw02 10h Cisco 005056B4966C 172.100.1.131 True 10.3(3) aa-aa-torsw02-admin
    
  5. Se riscontri problemi hardware che influiscono sulla configurazione della rete, consulta Risolvere i guasti hardware.

Risolvere i guasti hardware

Se si verificano errori hardware per gli switch nei rack espansi, esegui la procedura di restituzione e sostituzione del prodotto switch (RMA) per gli switch TOR e di gestione. Segui le istruzioni riportate in PNET-R2001.

Passaggi successivi