Para habilitar Gemini en un entorno aislado de Google Distributed Cloud (GDC), los operadores de infraestructura (IO) primero deben configurar la red y el hardware necesarios. Para obtener más información sobre los públicos en GDC, consulta Públicos de documentación.
En esta guía, se proporcionan instrucciones integrales paso a paso para que los IO instalen, aprovisionen y, luego, implementen los servicios de Gemini en un entorno de GDC. Los procedimientos descritos son para organizaciones de la versión 2. El cumplimiento de estos lineamientos es fundamental para implementar capacidades avanzadas de IA en un entorno seguro y aislado.
Primero, debes configurar la red para habilitar Gemini, ya que requiere un mayor consumo de energía en comparación con las implementaciones normales de GDC. Esta configuración implica establecer un pod de GPU con el conmutador y el rack correctos. Esta configuración de red también requiere una expansión dinámica del pod de GPU.
A continuación, debes descargar y transferir el modelo de Gemini de forma manual. Un contacto de Google proporciona la URL de descarga. Debes descargar, verificar y transferir la imagen del modelo al entorno aislado en el que la extraerás.
Por último, después de extraer el modelo de Gemini, puedes cargarlo en GDC. Esta operación requiere un bucket de almacenamiento existente y los roles de operador necesarios. Carga el modelo en un bucket de almacenamiento y, luego, carga las imágenes de contenedor que contienen el modelo en Container Registry.
Verificaciones previas a la implementación
Debes implementar Gemini en entornos de GDC en la arquitectura de organización v2. Esta arquitectura usa organizaciones de Gemini dedicadas que trabajan junto con las organizaciones de los clientes para ofrecer capacidades de IA. Para obtener más información sobre las arquitecturas de organización, consulta Descripción general de la organización.
Antes de instalar y aprovisionar Gemini, debes cumplir con los requisitos de implementación. Si no se verifican estas condiciones, se pueden producir demoras significativas o fallas en la instalación. En la siguiente tabla, se incluye una lista de verificación de todos los requisitos previos que debe cumplir la infraestructura en el orden proporcionado:
| Step | Requisitos previos | Requisito | Verificación y notas | Completado |
|---|---|---|---|---|
| 1. | Versión de GDC | Versión 1.14.4 o posterior de Bootstrap | Verifica la versión de inicio para todas las organizaciones, incluida la organización raíz. | |
| 2. | Organización del cliente | Al menos una organización de arrendatario está en funcionamiento en al menos una zona. | Crea una organización de cliente. | |
| 3. | Roles de IAM mínimos | Tienes los permisos necesarios para crear organizaciones y, luego, implementar Gemini en GDC. | Prepara los permisos de IAM. | |
| 4. | Servidor de GPU Bare Metal | Se proporciona al menos un servidor de GPU físico con la clase de máquina d3-highgpu1-256-gdc-metal. |
Asegúrate de que la clase de máquina esté disponible y lista. El servidor Dell XE9680 proporciona las GPU H200 necesarias. Consulta Crea una organización con IaC para verificar la existencia de un servidor de GPU:
|
Gemini y organizaciones de clientes
Usar la arquitectura de organización de la versión 2 para las organizaciones de Gemini y de los clientes Para lograr una implementación y un funcionamiento exitosos, es fundamental comprender claramente los distintos roles, componentes e interacciones dentro de esta arquitectura. Para obtener más información sobre las arquitecturas de organización en GDC, consulta Descripción general de la organización.
En la siguiente tabla, se resumen las diferencias clave entre Gemini y las organizaciones de clientes:
| Función | Organización de Gemini | Organización del cliente |
|---|---|---|
| Descripción | Es el recurso de organización configurado para ejecutar un servidor de modelos de Gemini. | Organización de inquilino de GDC estándar en la que los usuarios ejecutan sus cargas de trabajo, acceden a la infraestructura de la plataforma y usan servicios |
| Servicios alojados |
|
Puerta de enlace de inferencia |
| Responsabilidad de la administración | Google IOs | Órdenes de inserción de Google o del cliente |
| Permisos de cargas de trabajo | Solo cargas de trabajo de terceros aprobadas por Google | Cargas de trabajo de los clientes |
| Zonas de implementación | Una sola zona de Gemini exclusiva | La misma zona de Gemini que la organización de Gemini También se puede implementar en más zonas. Para obtener más información, consulta Modelo de implementación multizonal para Gemini. |
| Acceso a los servicios de Gemini | N/A (proporciona los servicios) | A través de Inference Gateway |
Componentes clave
Varios componentes trabajan en conjunto para ofrecer los servicios de Gemini. Estos componentes se distribuyen entre las organizaciones de Gemini y de los clientes.
Puerta de enlace de inferencia
La puerta de enlace de inferencia es el frontend de Gemini. Se ejecuta como un pod dentro del clúster de infraestructura de la organización del cliente y opera exclusivamente en la zona de Gemini.
Todas las solicitudes de las cargas de trabajo de los clientes a los modelos de Gemini pasan por esta puerta de enlace.
GenAI Router
El enrutador de IA generativa es el backend de Gemini. Se ejecuta como un pod dentro del clúster de infraestructura de la organización de Gemini y opera exclusivamente en la zona de Gemini, de manera similar a Inference Gateway.
Su función es recibir solicitudes de Inference Gateway y enrutarlas a las instancias del servidor del modelo adecuadas.
Servidor de modelos
El servidor de modelos es responsable de alojar y ejecutar los modelos de IA que potencian Gemini en GDC. Estos modelos incluyen el modelo principal de Gemini y sus modelos de tokenización dependientes.
Este servidor usa las GPU H200 ubicadas en las máquinas de metal
desnudo d3-highgpu1-256-gdc-metal dentro de la organización de Gemini.
El servidor de modelos tiene las siguientes capacidades:
- Balanceo de cargas: Puede distribuir las solicitudes de inferencia si hay más de un conjunto de GPUs disponibles, lo que mejora el rendimiento y la capacidad de recuperación.
- Entrega de varios modelos: Puede ejecutar diferentes modelos de Gemini de forma simultánea, lo que ofrece flexibilidad en la implementación y el uso de modelos.
Modelo de implementación en varias zonas para Gemini
Cuando se habilitan las capacidades multizonales, las organizaciones son recursos inherentemente globales. Esto significa que se puede acceder a ellos en todas las regiones del universo aislado. GDC admite la creación de organizaciones asimétricas, en las que los recursos de una organización pueden ser accesibles a nivel global, mientras que su implementación real correspondiente a servidores, almacenamiento y cargas de trabajo se restringe a un subconjunto específico de zonas.
El recurso personalizado OrganizationZonalConfig define la configuración de una organización dentro de las zonas especificadas. Para obtener más información sobre las implementaciones en varias zonas, consulta la Descripción general de varias zonas.
Un principio clave de seguridad y arquitectura para las implementaciones de Gemini es que la organización de Gemini solo se debe implementar en una sola zona. Sin embargo, la organización del cliente correspondiente que interactúa con él se puede implementar en varias zonas. Esta arquitectura permite que las cargas de trabajo de los clientes en varias zonas accedan a los servicios centralizados de Gemini.