Vista geral do operador

Para ativar o Gemini num ambiente isolado do Google Distributed Cloud (GDC), os operadores de infraestrutura (OIs) têm primeiro de configurar a rede e o hardware necessários. Para mais informações sobre públicos-alvo no GDC, consulte o artigo Públicos-alvo de documentação.

Este guia fornece instruções abrangentes passo a passo para que os IOs instalem, aprovisionem e implementem os serviços Gemini num ambiente GDC. Os procedimentos descritos destinam-se a organizações da versão 2. A adesão a estas diretrizes é fundamental para implementar capacidades avançadas de IA numa definição segura e isolada.

Primeiro, tem de configurar a rede para ativar o Gemini, uma vez que requer um consumo de energia superior em comparação com as implementações normais do GDC. Esta configuração envolve a configuração de um pod de GPU com a configuração correta do comutador e do rack. Esta configuração de rede também requer uma expansão dinâmica do pod da GPU.

Em seguida, tem de transferir e transferir manualmente o modelo do Gemini. Um contacto do Google fornece o URL de transferência. Tem de transferir, validar e transferir a imagem do modelo para o ambiente isolado onde está a extrair a imagem do modelo.

Por fim, depois de extrair o modelo Gemini, pode carregá-lo no GDC. Esta operação requer um contentor de armazenamento existente e as funções de operador necessárias. Carregue o modelo para um contentor de armazenamento e, em seguida, carregue as imagens de contentores que contêm o modelo para o registo de contentores.

Verificações pré-implementação

Tem de implementar o Gemini em ambientes GDC na arquitetura de organização v2. Esta arquitetura usa organizações do Gemini dedicadas que funcionam em conjunto com as organizações dos clientes para disponibilizar capacidades de IA. Para mais informações sobre as arquiteturas de organização, consulte o artigo Vista geral da organização.

Antes da instalação e do aprovisionamento do Gemini, tem de cumprir os requisitos de implementação. A não validação destas condições pode provocar atrasos significativos ou falhas de instalação. A tabela seguinte contém uma lista de verificação de todos os pré-requisitos que a infraestrutura tem de cumprir na ordem indicada:

Step Pré-requisito Requisito Validação e notas Concluído
1. Versão do GDC Versão 1.14.4 ou posterior do Bootstrap Verifique a versão de arranque para todas as organizações, incluindo a organização de raiz.
2. Organização do cliente Pelo menos uma organização de inquilino está em funcionamento em, pelo menos, uma zona Crie uma organização de clientes.
3. Funções de IAM mínimas Tem as autorizações necessárias para criar organizações e implementar o Gemini no GDC Prepare as autorizações de IAM.
4. Servidor de GPU Bare Metal É fornecido, pelo menos, um servidor de GPU bare metal com a classe de máquina d3-highgpu1-256-gdc-metal Certifique-se de que a classe de máquina está disponível e pronta. O servidor Dell XE9680 fornece as GPUs H200 necessárias.

Consulte o artigo Crie uma organização com a IAC para verificar a existência de um servidor de GPU: Para ver detalhes abrangentes sobre a configuração de rede para servidores de GPU, consulte o artigo Configure a rede para o Gemini.

Organizações do Gemini e de clientes

Use a arquitetura de organização v2 para o Gemini e as organizações de clientes. Uma compreensão clara das funções, dos componentes e das interações distintos nesta arquitetura é essencial para uma implementação e uma operação bem-sucedidas. Para mais informações sobre as arquiteturas de organização no GDC, consulte o artigo Vista geral da organização.

A tabela seguinte resume as principais diferenças entre o Gemini e as organizações de clientes:

Funcionalidade Organização do Gemini Organização do cliente
Descrição O recurso da organização configurado para executar um servidor de modelos do Gemini Uma organização de inquilino da GDC padrão onde os utilizadores executam as respetivas cargas de trabalho, acedem à infraestrutura da plataforma e usam serviços
Serviços alojados
  • Router de IA gen
  • Servidor de modelos com GPUs H200
Gateway de inferência
Responsabilidade de gestão Google IOs IOs da Google ou do cliente
Autorizações da carga de trabalho Apenas cargas de trabalho de terceiros aprovadas pela Google Cargas de trabalho dos clientes
Zonas de implementação Uma única zona do Gemini dedicada A mesma zona do Gemini que a organização do Gemini

Também pode ser implementado em mais zonas. Para mais informações, consulte o artigo Modelo de implementação em várias zonas para o Gemini.
Acesso aos serviços Gemini N/A (fornece os serviços) Através do gateway de inferência

Componentes principais

Vários componentes funcionam em conjunto para oferecer os serviços Gemini. Estes componentes são distribuídos entre a organização do Gemini e a organização do cliente.

Gateway de inferência

O Inference Gateway é o front-end do Gemini. É executado como um pod no cluster de infraestrutura da organização do cliente e opera exclusivamente na zona do Gemini.

Todos os pedidos de cargas de trabalho de clientes para os modelos Gemini passam por este gateway.

Router de IA gen

O router de IA gen é o back-end do Gemini. É executado como um pod no cluster de infraestrutura da organização do Gemini e funciona exclusivamente na zona do Gemini, de forma semelhante ao gateway de inferência.

A sua função é receber pedidos do Inference Gateway e encaminhá-los para as instâncias do servidor do modelo adequadas.

Servidor de modelos

O servidor de modelos é responsável por alojar e executar os modelos de IA que usam o Gemini no GDC. Estes modelos incluem o modelo Gemini principal e os respetivos modelos de tokenização dependentes.

Este servidor usa as GPUs H200 localizadas nas máquinas de metal desprotegido na organização do Gemini.d3-highgpu1-256-gdc-metal

O servidor de modelos tem as seguintes capacidades:

  • Equilíbrio de carga: pode distribuir pedidos de inferência se estiver disponível mais do que um conjunto de GPUs, o que melhora o débito e a resiliência.
  • Serviço de vários modelos: pode executar diferentes modelos Gemini em simultâneo, o que oferece flexibilidade na implementação e utilização de modelos.

Modelo de implementação em várias zonas para o Gemini

Quando as capacidades de várias zonas estão ativadas, as organizações são recursos inerentemente globais. Isto significa que são acessíveis em todas as regiões no universo isolado. O GDC suporta a criação de organizações assimétricas, em que os recursos de uma organização podem ser acessíveis globalmente, enquanto a respetiva implementação real correspondente a servidores, armazenamento e cargas de trabalho está restrita a um subconjunto específico de zonas.

O recurso personalizado OrganizationZonalConfig define a configuração de uma organização em zonas especificadas. Para mais informações sobre implementações em várias zonas, consulte a Vista geral de várias zonas.

Um princípio arquitetónico e de segurança fundamental para as implementações do Gemini é que a organização do Gemini tem de ser implementada apenas numa única zona. No entanto, a organização de clientes correspondente que interage com a mesma pode ser implementada em várias zonas. Esta arquitetura permite que as cargas de trabalho dos clientes em várias zonas acedam aos serviços Gemini centralizados.

O que se segue?