Información general para operadores

Para habilitar Gemini en un entorno con air gap de Google Distributed Cloud (GDC), los operadores de infraestructura (IOs) deben configurar primero la red y el hardware necesarios. Para obtener más información sobre las audiencias en GDC, consulta el artículo Audiencias de documentación.

En esta guía se ofrecen instrucciones detalladas para que los IOs instalen, aprovisionen e implementen los servicios de Gemini en un entorno de GDC. Los procedimientos descritos son para organizaciones de la versión 2. Es fundamental cumplir estas directrices para implementar funciones avanzadas de IA en un entorno seguro y aislado.

Primero, debes configurar la red para habilitar Gemini, ya que requiere un mayor consumo de energía en comparación con las implementaciones de GDC normales. Esta configuración implica configurar un pod de GPU con la configuración correcta de switch y rack. Esta configuración de red también requiere una expansión dinámica del pod de GPU.

A continuación, debes descargar y transferir manualmente el modelo de Gemini. Un contacto de Google proporciona la URL de descarga. Debes descargar, verificar y transferir la imagen del modelo al entorno aislado en el que vas a extraerla.

Por último, una vez que se haya extraído el modelo de Gemini, puedes cargarlo en GDC. Esta operación requiere un contenedor de almacenamiento y los roles de operador necesarios. Carga el modelo en un segmento de almacenamiento y, a continuación, carga las imágenes de contenedor que contienen el modelo en el registro de contenedores.

Comprobaciones previas a la implementación

Debes implementar Gemini en entornos de GDC en la arquitectura de organización de la versión 2. Esta arquitectura usa organizaciones de Gemini dedicadas que trabajan junto con las organizaciones de los clientes para ofrecer funciones de IA. Para obtener más información sobre las arquitecturas de organizaciones, consulta el artículo Descripción general de las organizaciones.

Antes de instalar y aprovisionar Gemini, debes cumplir los requisitos de implementación. Si no se verifican estas condiciones, se pueden producir retrasos significativos o fallos en la instalación. En la siguiente tabla se incluye una lista de todos los requisitos previos que debe cumplir la infraestructura en el orden indicado:

Step Requisito previo Requisito Verificación y notas Finalizado
1. Versión de GDC Bootstrap 1.14.4 o una versión posterior Comprueba la versión de arranque de todas las organizaciones, incluida la organización raíz.
2. Organización del cliente Al menos una organización de inquilino está activa en al menos una zona. Crea una organización del cliente.
3. Roles de gestión de identidades y accesos mínimos Tienes los permisos necesarios para crear organizaciones e implementar Gemini en GDC Prepara los permisos de gestión de identidades y accesos.
4. Servidor de GPU Bare Metal Se proporciona al menos un servidor de GPU bare metal con la clase de máquina d3-highgpu1-256-gdc-metal. Asegúrate de que la clase de máquina esté disponible y lista. El servidor Dell XE9680 proporciona las GPUs H200 necesarias.

Consulta Crear una organización con IaC para verificar que existe un servidor de GPU: Para obtener información detallada sobre la configuración de la red para servidores de GPU, consulta el artículo Configurar la red para Gemini.

Gemini y organizaciones de clientes

Usa la arquitectura de organización de la versión 2 tanto para Gemini como para las organizaciones de clientes. Para que el despliegue y el funcionamiento sean correctos, es fundamental comprender claramente los distintos roles, componentes e interacciones de esta arquitectura. Para obtener más información sobre las arquitecturas de organizaciones en GDC, consulta el artículo Descripción general de las organizaciones.

En la siguiente tabla se resumen las principales diferencias entre Gemini y las organizaciones de clientes:

Función Organización de Gemini Organización del cliente
Descripción El recurso de organización configurado para ejecutar un servidor de modelos de Gemini Una organización de arrendatario de GDC estándar en la que los usuarios ejecutan sus cargas de trabajo, acceden a la infraestructura de la plataforma y usan los servicios.
Servicios alojados
  • GenAI Router
  • Servidor de modelos con GPUs H200
Pasarela de inferencia
Responsabilidad de la dirección Google I/Os Órdenes de inserción de Google o del cliente
Permisos de cargas de trabajo Solo cargas de trabajo de terceros aprobadas por Google Cargas de trabajo de clientes
Zonas de implementación Una zona de Gemini única y específica La misma zona de Gemini que la organización de Gemini

También se puede desplegar en más zonas. Para obtener más información, consulta el modelo de implementación multizona de Gemini.
Acceso a los servicios de Gemini N/A (proporciona los servicios) A través de Inference Gateway

Componentes clave

Varios componentes trabajan conjuntamente para ofrecer los servicios de Gemini. Estos componentes se distribuyen entre las organizaciones de Gemini y de los clientes.

Pasarela de inferencia

Inference Gateway es el frontend de Gemini. Se ejecuta como un pod en el clúster de infraestructura de la organización del cliente y opera exclusivamente en la zona de Gemini.

Todas las solicitudes de las cargas de trabajo de los clientes a los modelos de Gemini pasan por esta puerta de enlace.

GenAI Router

GenAI Router es el backend de Gemini. Se ejecuta como un pod en el clúster de infraestructura de la organización de Gemini y opera exclusivamente en la zona de Gemini, de forma similar a Inference Gateway.

Su función es recibir solicitudes de Inference Gateway y enrutarlas a las instancias del servidor de modelos correspondientes.

Servidor de modelos

El servidor de modelos se encarga de alojar y ejecutar los modelos de IA que impulsan Gemini en GDC. Estos modelos incluyen el modelo principal de Gemini y sus modelos de tokenización dependientes.

Este servidor usa las GPUs H200 ubicadas en las d3-highgpu1-256-gdc-metal máquinas bare metal de la organización de Gemini.

El servidor de modelos tiene las siguientes funciones:

  • Balanceo de carga: puede distribuir las solicitudes de inferencia si hay más de un conjunto de GPUs disponibles, lo que mejora el rendimiento y la resiliencia.
  • Servicio de varios modelos: puede ejecutar diferentes modelos de Gemini simultáneamente, lo que ofrece flexibilidad en el despliegue y el uso de modelos.

Modelo de implementación multizona de Gemini

Cuando se habilitan las funciones multizona, las organizaciones son recursos globales por naturaleza. Esto significa que se puede acceder a ellos en todas las regiones del universo aislado. GDC admite la creación de organizaciones asimétricas, en las que se puede acceder a los recursos de una organización a nivel global, mientras que su implementación real correspondiente a servidores, almacenamiento y cargas de trabajo se limita a un subconjunto específico de zonas.

El recurso personalizado OrganizationZonalConfig define la configuración de una organización en las zonas especificadas. Para obtener más información sobre las implementaciones multizona, consulta la descripción general de las zonas múltiples.

Un principio clave de seguridad y arquitectura para las implementaciones de Gemini es que la organización de Gemini solo se debe desplegar en una zona. Sin embargo, la organización de clientes correspondiente que interactúa con ella se puede desplegar en varias zonas. Esta arquitectura permite que las cargas de trabajo de los clientes en varias zonas accedan a los servicios centralizados de Gemini.

Siguientes pasos