Configurar la red para Gemini

En esta página se explica cómo configurar Gemini en un entorno con air gap de Google Distributed Cloud (GDC). Esta guía está dirigida a los operadores de infraestructura (IOs) que gestionan las implementaciones de sistemas y contiene información sobre la infraestructura necesaria, la configuración del hardware para los pods de GPU y las configuraciones de red necesarias para implementar Gemini.

Antes de empezar

Para configurar la red de Gemini, debes haber instalado correctamente el clúster de administrador raíz en los racks base. Para obtener más información, consulta Bootstrap del clúster de administrador raíz.

Configurar el hardware de la GPU para Gemini

Para ejecutar Gemini en GDC, debes implementar el hardware necesario en forma de pod de GPU. Un pod de GPU consta de entre uno y ocho servidores de GPU que consumen mucha energía y es la unidad mínima que se puede implementar en los racks compatibles con GPU. Cada servidor de GPU se aloja en su propio rack y se conecta a un switch de gestión dedicado y a dos switches TOR compartidos. El número de servidores por rack depende del presupuesto de energía y de tus requisitos.

En el siguiente diagrama se muestran dos configuraciones de pods de GPU diferentes:

Configuración de rack de un pod de GPU

Imagen 1. Se muestran dos pods de GPU. El primer pod de GPU consta de ocho servidores de GPU. El segundo pod de GPU consta de cinco servidores de GPU.

En la figura 1, el primer pod de GPU consta de lo siguiente:

  • Un par de nubes privadas virtuales (VPC) dedicadas, que pueden admitir hasta ocho servidores de GPU. Para añadir más conexiones de servidor, es necesario crear nuevos pods de GPU.
  • Cada GPU XE9680 del pod de GPU tiene uso exclusivo de un conmutador TOR. Los TORs del pod de GPU no se comparten con otros recursos de computación o almacenamiento.
  • Se conectan dos conmutadores TOR para proporcionar conectividad de alto ancho de banda a los servidores de GPU.
  • Este pod de GPU consta de un máximo de ocho servidores de GPU. Cada servidor se aloja en su propio rack.
  • Cada servidor de GPU se conecta a un switch de gestión dedicado y a los switches TOR de GPU compartidos que forman un par de VPCs.

En la figura 1, el segundo pod de GPU mostrado comparte la misma arquitectura, pero consta de cinco servidores de GPU en lugar de ocho.

Configurar la red para Gemini

Para configurar tu red para Gemini en GDC, sigue estos pasos:

  1. Realiza una expansión dinámica en el pod de GPU. Sigue los pasos que se indican en Realizar una expansión dinámica. Si tienes un problema por el que no se pueden aplicar recursos de SubcomponentOverride durante la expansión zonal, sigue el runbook OLT-R0003.

  2. Valida que la conexión se ha realizado correctamente. Define la variable de entorno KUBECONFIG para conectarte al clúster de administrador raíz:

    KUBECONFIG=KUBECONFIG_PATH
    

    Sustituye KUBECONFIG_PATH por la ruta al archivo kubeconfig del clúster de administrador raíz.

  3. Consulta el estado de los interruptores de TOR y Gestión:

    kubectl --kubeconfig=$KUBECONFIG get torswitch -n gpc-system
    kubectl --kubeconfig=$KUBECONFIG get managementswitch -n gpc-system
    
  4. Comprueba el resultado y verifica que la columna READY muestra el valor True en ambos interruptores:

    NAME AGE VENDOR SERIAL-NUMBER MANAGEMENT-IP READY OSVERSION CREDENTIAL-NAME LICENSE-NAME
    aa-aa-torsw01 10h Cisco 005056B4FC41 172.100.1.130 True 10.3(3) aa-aa-torsw01-admin
    aa-aa-torsw02 10h Cisco 005056B4966C 172.100.1.131 True 10.3(3) aa-aa-torsw02-admin
    
  5. Si tienes algún problema de hardware que afecte a la configuración de tu red, consulta el artículo Solucionar fallos de hardware.

Resolver fallos de hardware

Si se produce algún fallo de hardware en los interruptores de los racks ampliados, sigue el proceso de devolución y sustitución de productos (RMA) para los interruptores TOR y de gestión. Sigue las instrucciones de la PNET-R2001.

Siguientes pasos