Descripción general del operador

Para habilitar Gemini en un entorno aislado de Google Distributed Cloud (GDC), los operadores de infraestructura (IO) primero deben configurar la red y el hardware necesarios. Para obtener más información sobre los públicos en GDC, consulta Públicos de documentación.

En esta guía, se proporcionan instrucciones integrales paso a paso para que los IO instalen, aprovisionen y, luego, implementen los servicios de Gemini en un entorno de GDC. Los procedimientos descritos son para organizaciones de la versión 2. El cumplimiento de estos lineamientos es fundamental para implementar capacidades avanzadas de IA en un entorno seguro y aislado.

Primero, debes configurar la red para habilitar Gemini, ya que requiere un mayor consumo de energía en comparación con las implementaciones normales de GDC. Esta configuración implica establecer un pod de GPU con el conmutador y el rack correctos. Esta configuración de red también requiere una expansión dinámica del pod de GPU.

A continuación, debes descargar y transferir el modelo de Gemini de forma manual. Un contacto de Google proporciona la URL de descarga. Debes descargar, verificar y transferir la imagen del modelo al entorno aislado en el que la extraerás.

Por último, después de extraer el modelo de Gemini, puedes cargarlo en GDC. Esta operación requiere un bucket de almacenamiento existente y los roles de operador necesarios. Carga el modelo en un bucket de almacenamiento y, luego, carga las imágenes de contenedor que contienen el modelo en Container Registry.

Verificaciones previas a la implementación

Debes implementar Gemini en entornos de GDC en la arquitectura de organización v2. Esta arquitectura usa organizaciones de Gemini dedicadas que trabajan junto con las organizaciones de los clientes para ofrecer capacidades de IA. Para obtener más información sobre las arquitecturas de organización, consulta Descripción general de la organización.

Antes de instalar y aprovisionar Gemini, debes cumplir con los requisitos de implementación. Si no se verifican estas condiciones, se pueden producir demoras significativas o fallas en la instalación. En la siguiente tabla, se incluye una lista de verificación de todos los requisitos previos que debe cumplir la infraestructura en el orden proporcionado:

Step	Requisitos previos	Requisito	Verificación y notas
1.	Versión de GDC	Versión 1.14.4 o posterior de Bootstrap	Verifica la versión de inicio para todas las organizaciones, incluida la organización raíz.
2.	Organización del cliente	Al menos una organización de arrendatario está en funcionamiento en al menos una zona.	Crea una organización de cliente.
3.	Roles de IAM mínimos	Tienes los permisos necesarios para crear organizaciones y, luego, implementar Gemini en GDC.	Prepara los permisos de IAM.
4.	Servidor de GPU Bare Metal	Se proporciona al menos un servidor de GPU físico con la clase de máquina `d3-highgpu1-256-gdc-metal`.	Asegúrate de que la clase de máquina esté disponible y lista. El servidor Dell XE9680 proporciona las GPU H200 necesarias. Consulta Crea una organización con IaC para verificar la existencia de un servidor de GPU: Si no hay un servidor de GPU disponible, consulta la descripción general de la expansión dinámica para conocer las opciones de expansión del servidor. Si hay un servidor de GPU disponible, sigue la guía de redes del servidor de GPU para verificar el estado de los conmutadores TOR y de administración en el clúster de administrador raíz. Para obtener detalles completos sobre la configuración de red para servidores de GPU, consulta Configura la red para Gemini.

Gemini y organizaciones de clientes

Usar la arquitectura de organización de la versión 2 para las organizaciones de Gemini y de los clientes Para lograr una implementación y un funcionamiento exitosos, es fundamental comprender claramente los distintos roles, componentes e interacciones dentro de esta arquitectura. Para obtener más información sobre las arquitecturas de organización en GDC, consulta Descripción general de la organización.

En la siguiente tabla, se resumen las diferencias clave entre Gemini y las organizaciones de clientes:

Función	Organización de Gemini	Organización del cliente
Descripción	Es el recurso de organización configurado para ejecutar un servidor de modelos de Gemini.	Organización de inquilino de GDC estándar en la que los usuarios ejecutan sus cargas de trabajo, acceden a la infraestructura de la plataforma y usan servicios
Servicios alojados	GenAI Router Servidor de modelos con GPUs H200	Puerta de enlace de inferencia
Responsabilidad de la administración	Google IOs	Órdenes de inserción de Google o del cliente
Permisos de cargas de trabajo	Solo cargas de trabajo de terceros aprobadas por Google	Cargas de trabajo de los clientes
Zonas de implementación	Una sola zona de Gemini exclusiva	La misma zona de Gemini que la organización de Gemini También se puede implementar en más zonas. Para obtener más información, consulta Modelo de implementación multizonal para Gemini.
Acceso a los servicios de Gemini	N/A (proporciona los servicios)	A través de Inference Gateway

Componentes clave

Varios componentes trabajan en conjunto para ofrecer los servicios de Gemini. Estos componentes se distribuyen entre las organizaciones de Gemini y de los clientes.

Puerta de enlace de inferencia

La puerta de enlace de inferencia es el frontend de Gemini. Se ejecuta como un pod dentro del clúster de infraestructura de la organización del cliente y opera exclusivamente en la zona de Gemini.

Todas las solicitudes de las cargas de trabajo de los clientes a los modelos de Gemini pasan por esta puerta de enlace.

GenAI Router

El enrutador de IA generativa es el backend de Gemini. Se ejecuta como un pod dentro del clúster de infraestructura de la organización de Gemini y opera exclusivamente en la zona de Gemini, de manera similar a Inference Gateway.

Su función es recibir solicitudes de Inference Gateway y enrutarlas a las instancias del servidor del modelo adecuadas.

Servidor de modelos

El servidor de modelos es responsable de alojar y ejecutar los modelos de IA que potencian Gemini en GDC. Estos modelos incluyen el modelo principal de Gemini y sus modelos de tokenización dependientes.

Este servidor usa las GPU H200 ubicadas en las máquinas de metal desnudo d3-highgpu1-256-gdc-metal dentro de la organización de Gemini.

El servidor de modelos tiene las siguientes capacidades:

Balanceo de cargas: Puede distribuir las solicitudes de inferencia si hay más de un conjunto de GPUs disponibles, lo que mejora el rendimiento y la capacidad de recuperación.
Entrega de varios modelos: Puede ejecutar diferentes modelos de Gemini de forma simultánea, lo que ofrece flexibilidad en la implementación y el uso de modelos.

Modelo de implementación en varias zonas para Gemini

Cuando se habilitan las capacidades multizonales, las organizaciones son recursos inherentemente globales. Esto significa que se puede acceder a ellos en todas las regiones del universo aislado. GDC admite la creación de organizaciones asimétricas, en las que los recursos de una organización pueden ser accesibles a nivel global, mientras que su implementación real correspondiente a servidores, almacenamiento y cargas de trabajo se restringe a un subconjunto específico de zonas.

El recurso personalizado OrganizationZonalConfig define la configuración de una organización dentro de las zonas especificadas. Para obtener más información sobre las implementaciones en varias zonas, consulta la Descripción general de varias zonas.

Un principio clave de seguridad y arquitectura para las implementaciones de Gemini es que la organización de Gemini solo se debe implementar en una sola zona. Sin embargo, la organización del cliente correspondiente que interactúa con él se puede implementar en varias zonas. Esta arquitectura permite que las cargas de trabajo de los clientes en varias zonas accedan a los servicios centralizados de Gemini.

¿Qué sigue?

Configura la red para Gemini

Descripción general del operador Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.