Visão geral do operador

Para ativar o Gemini em um ambiente isolado do Google Distributed Cloud (GDC), os operadores de infraestrutura (IOs) precisam primeiro configurar a rede e o hardware necessários. Para mais informações sobre públicos-alvo no GDC, consulte Públicos-alvo da documentação.

Este guia fornece instruções detalhadas para que os IOs instalem, provisionem e implantem os serviços do Gemini em um ambiente do GDC. Os procedimentos descritos são para organizações da v2. A adesão a essas diretrizes é fundamental para implantar recursos avançados de IA em um ambiente seguro e isolado.

Primeiro, configure a rede para ativar o Gemini, já que ele exige mais consumo de energia em comparação com implantações regulares do GDC. Essa configuração envolve a criação de um pod de GPU com a configuração correta de switch e rack. Essa configuração de rede também exige uma expansão dinâmica do pod de GPU.

Em seguida, baixe e transfira manualmente o modelo do Gemini. Um contato do Google fornece o URL de download. É necessário baixar, verificar e transferir a imagem do modelo para o ambiente isolado em que você está extraindo a imagem.

Por fim, depois que o modelo do Gemini for extraído, você poderá carregá-lo no GDC. Essa operação requer um bucket de armazenamento e as funções de operador necessárias. Carregue o modelo em um bucket de armazenamento e, em seguida, carregue as imagens de contêiner que contêm o modelo no registro de contêiner.

Verificações pré-implantação

É necessário implantar o Gemini em ambientes do GDC na arquitetura de organização v2. Essa arquitetura usa organizações dedicadas do Gemini que trabalham em conjunto com as organizações dos clientes para oferecer recursos de IA. Para mais informações sobre arquiteturas de organização, consulte Visão geral da organização.

Antes da instalação e do provisionamento do Gemini, você precisa atender aos requisitos de implantação. Se essas condições não forem verificadas, poderão ocorrer atrasos significativos ou falhas na instalação. A tabela a seguir contém uma lista de verificação de todos os pré-requisitos que a infraestrutura precisa atender na ordem fornecida:

Etapa Pré-requisito Requisito Verificação e observações Concluído
1. Versão do GDC Bootstrap versão 1.14.4 ou mais recente Verifique a versão do bootstrap para todas as organizações, incluindo a raiz.
2. Organização do cliente Pelo menos uma organização locatária está em execução em pelo menos uma zona Crie uma organização de cliente.
3. Papéis mínimos do IAM Você tem as permissões necessárias para criar organizações e implantar o Gemini no GDC Prepare as permissões do IAM.
4. Servidor GPU bare metal Pelo menos um servidor GPU bare-metal com a classe de máquina d3-highgpu1-256-gdc-metal é fornecido Verifique se a classe de máquina está disponível e pronta. O servidor Dell XE9680 fornece as GPUs H200 necessárias.

Consulte Criar uma organização com IaC para verificar a existência de um servidor de GPU: Para detalhes abrangentes sobre a configuração de rede para servidores de GPU, consulte Configurar a rede para o Gemini.

Gemini e organizações de clientes

Use a arquitetura da organização v2 para o Gemini e as organizações dos clientes. É essencial entender claramente as funções, os componentes e as interações distintas nessa arquitetura para uma implantação e operação bem-sucedidas. Para mais informações sobre arquiteturas de organização no GDC, consulte Visão geral da organização.

A tabela a seguir resume as principais diferenças entre o Gemini e as organizações dos clientes:

Recurso Organização do Gemini Organização do cliente
Descrição O recurso da organização configurado para executar um servidor de modelo do Gemini Uma organização locatária padrão do GDC em que os usuários executam cargas de trabalho, acessam a infraestrutura da plataforma e usam serviços.
Serviços hospedados
  • GenAI Router
  • Servidor de modelo com GPUs H200
Gateway de inferência
Responsabilidade do gerenciamento Google IOs IOs do Google ou do cliente
Permissões de carga de trabalho Somente cargas de trabalho de terceiros aprovadas pelo Google Cargas de trabalho do cliente
Zonas de implantação Uma única zona do Gemini dedicada A mesma zona do Gemini que a organização do Gemini

Também pode ser implantado em mais zonas. Para mais informações, consulte Modelo de implantação multizona para o Gemini.
Acesso aos serviços do Gemini N/A (ele fornece os serviços) Pelo Inference Gateway

Principais componentes

Vários componentes trabalham juntos para oferecer os serviços do Gemini. Esses componentes são distribuídos entre as organizações do Gemini e do cliente.

Gateway de inferência

O Inference Gateway é o front-end do Gemini. Ele é executado como um pod no cluster de infraestrutura da organização do cliente e opera exclusivamente na zona do Gemini.

Todas as solicitações de cargas de trabalho do cliente para modelos do Gemini passam por esse gateway.

GenAI Router

O roteador de IA generativa é o back-end do Gemini. Ele é executado como um pod no cluster de infraestrutura da organização do Gemini e opera exclusivamente na zona do Gemini, semelhante ao Inference Gateway.

A função dele é receber solicitações do Inference Gateway e encaminhá-las para as instâncias de servidor de modelo adequadas.

Servidor de modelo

O servidor de modelos é responsável por hospedar e executar os modelos de IA que alimentam o Gemini no GDC. Esses modelos incluem o modelo principal do Gemini e os modelos de tokenização dependentes.

Esse servidor usa as GPUs H200 localizadas nas máquinas bare metal d3-highgpu1-256-gdc-metal na organização do Gemini.

O servidor de modelo tem os seguintes recursos:

  • Balanceamento de carga: pode distribuir solicitações de inferência se mais de um conjunto de GPUs estiver disponível, aumentando a capacidade de processamento e a capacidade de recuperação.
  • Exibição de vários modelos: pode executar diferentes modelos do Gemini simultaneamente, oferecendo flexibilidade na implantação e no uso de modelos.

Modelo de implantação em várias zonas para o Gemini

Quando os recursos multizonais estão ativados, as organizações são recursos inerentemente globais. Isso significa que eles podem ser acessados em todas as regiões do universo isolado. O GDC permite a criação de organizações assimétricas, em que os recursos de uma organização podem ser acessados globalmente, enquanto a implantação real correspondente a servidores, armazenamento e cargas de trabalho é restrita a um subconjunto específico de zonas.

O recurso personalizado OrganizationZonalConfig define a configuração de uma organização em zonas especificadas. Para mais informações sobre implantações em várias zonas, consulte a Visão geral de várias zonas.

Um princípio fundamental de segurança e arquitetura para implantações do Gemini é que a organização do Gemini precisa ser implantada em uma única zona. No entanto, a organização do cliente correspondente que interage com ele pode ser implantada em várias zonas. Essa arquitetura permite que cargas de trabalho de clientes em várias zonas acessem os serviços centralizados do Gemini.

A seguir