Per abilitare Gemini in un ambiente air-gap di Google Distributed Cloud (GDC), gli operatori dell'infrastruttura (IO) devono prima configurare la rete e l'hardware necessari. Per saperne di più sui segmenti di pubblico in GDC, consulta la sezione Segmenti di pubblico della documentazione.
Questa guida fornisce istruzioni dettagliate e complete per consentire agli IO di installare, eseguire il provisioning e implementare i servizi Gemini in un ambiente GDC. Le procedure descritte sono per le organizzazioni v2. Il rispetto di queste linee guida è fondamentale per implementare funzionalità di AI avanzate in un ambiente sicuro e isolato.
Innanzitutto, devi configurare la rete per abilitare Gemini, poiché richiede un consumo energetico maggiore rispetto alle normali implementazioni di GDC. Questa configurazione prevede l'impostazione di un pod GPU con la configurazione corretta di switch e rack. Questa configurazione di rete richiede anche un'espansione dinamica del pod GPU.
Poi, devi scaricare e trasferire manualmente il modello Gemini. Un contatto Google fornisce l'URL di download. Devi scaricare, verificare e trasferire l'immagine del modello all'ambiente isolato in cui la stai estraendo.
Infine, dopo l'estrazione del modello Gemini, puoi caricarlo in GDC. Questa operazione richiede un bucket di archiviazione esistente e i ruoli operatore necessari. Carica il modello in un bucket di archiviazione, quindi carica le immagini container contenenti il modello in Container Registry.
Controlli pre-deployment
Devi eseguire il deployment di Gemini negli ambienti GDC nell'architettura dell'organizzazione v2. Questa architettura utilizza organizzazioni Gemini dedicate che collaborano con le organizzazioni dei clienti per fornire funzionalità di AI. Per saperne di più sulle architetture delle organizzazioni, consulta la panoramica dell'organizzazione.
Prima dell'installazione e del provisioning di Gemini, devi soddisfare i requisiti di deployment. La mancata verifica di queste condizioni può comportare ritardi significativi o errori di installazione. La tabella seguente contiene un elenco di controllo di tutti i prerequisiti che l'infrastruttura deve soddisfare nell'ordine fornito:
| Step | Prerequisito | Requisito | Verifica e note | Completato |
|---|---|---|---|---|
| 1. | Versione GDC | Bootstrap versione 1.14.4 o successive | Controlla la versione di bootstrap per tutte le organizzazioni, inclusa l'organizzazione principale. | |
| 2. | Organizzazione cliente | Almeno un'organizzazione tenant è operativa in almeno una zona | Crea un'organizzazione cliente. | |
| 3. | Ruoli IAM minimi | Disponi delle autorizzazioni necessarie per creare organizzazioni e implementare Gemini su GDC | Prepara le autorizzazioni IAM. | |
| 4. | Server GPU bare metal | Viene fornito almeno un server GPU bare metal con la classe di macchina
d3-highgpu1-256-gdc-metal |
Assicurati che la classe di macchine sia disponibile e pronta. Il server Dell
XE9680 fornisce le GPU H200 richieste. Consulta Crea un'organizzazione con IAC per verificare l'esistenza di un server GPU:
|
Gemini e organizzazioni clienti
Utilizza l'architettura dell'organizzazione v2 sia per Gemini sia per le organizzazioni dei clienti. Una chiara comprensione dei ruoli, dei componenti e delle interazioni distinti all'interno di questa architettura è essenziale per un'implementazione e un funzionamento riusciti. Per saperne di più sulle architetture delle organizzazioni in GDC, consulta la panoramica dell'organizzazione.
La seguente tabella riepiloga le principali differenze tra Gemini e le organizzazioni dei clienti:
| Funzionalità | Organizzazione Gemini | Organizzazione cliente |
|---|---|---|
| Descrizione | La risorsa dell'organizzazione configurata per eseguire un server di modelli Gemini | Un'organizzazione tenant GDC standard in cui gli utenti eseguono i propri workload, accedono all'infrastruttura della piattaforma e utilizzano i servizi |
| Servizi ospitati |
|
Gateway di inferenza |
| Responsabilità di gestione | Google IOs | IO di Google o del cliente |
| Autorizzazioni del workload | Solo carichi di lavoro di terze parti approvati da Google | Workload dei clienti |
| Zone di deployment | Una singola zona Gemini dedicata | La stessa zona Gemini dell'organizzazione Gemini Può essere implementato anche in più zone. Per saperne di più, consulta Modello di deployment multizona per Gemini. |
| Accesso ai servizi Gemini | N/A (fornisce i servizi) | Tramite Inference Gateway |
Componenti chiave
Diversi componenti collaborano per fornire i servizi Gemini. Questi componenti sono distribuiti tra le organizzazioni Gemini e quelle dei clienti.
Gateway di inferenza
L'Inference Gateway è il frontend di Gemini. Viene eseguito come pod all'interno del cluster dell'infrastruttura dell'organizzazione dell'organizzazione del cliente e opera esclusivamente nella zona Gemini.
Tutte le richieste dai carichi di lavoro dei clienti ai modelli Gemini passano attraverso questo gateway.
GenAI Router
Il router AI generativa è il backend di Gemini. Viene eseguito come pod all'interno del cluster dell'infrastruttura dell'organizzazione dell'organizzazione Gemini e opera esclusivamente nella zona Gemini, in modo simile a Inference Gateway.
La sua funzione è ricevere richieste dall'Inference Gateway e indirizzarle alle istanze del server del modello appropriate.
Server modello
Il server dei modelli è responsabile dell'hosting e dell'esecuzione dei modelli di AI che supportano Gemini su GDC. Questi modelli includono il modello Gemini principale e i relativi modelli di tokenizzazione dipendenti.
Questo server utilizza le GPU H200 situate nelle macchine bare metal all'interno dell'organizzazione Gemini.d3-highgpu1-256-gdc-metal
Il server del modello ha le seguenti funzionalità:
- Bilanciamento del carico: può distribuire le richieste di inferenza se sono disponibili più set di GPU, migliorando la velocità effettiva e la resilienza.
- Pubblicazione di più modelli: può eseguire contemporaneamente diversi modelli Gemini, offrendo flessibilità nel deployment e nell'utilizzo dei modelli.
Modello di deployment multizona per Gemini
Quando le funzionalità multizona sono attive, le organizzazioni sono risorse intrinsecamente globali. Ciò significa che sono accessibili in tutte le regioni all'interno dell'universo air-gap. GDC supporta la creazione di organizzazioni asimmetriche, in cui le risorse di un'organizzazione possono essere accessibili a livello globale, mentre il deployment effettivo corrispondente a server, spazio di archiviazione e carichi di lavoro è limitato a un sottoinsieme specifico di zone.
La risorsa personalizzata OrganizationZonalConfig definisce la configurazione di un'organizzazione all'interno di zone specificate. Per saperne di più sui deployment
multizona, consulta la panoramica multizona.
Un principio fondamentale di sicurezza e architettura per i deployment di Gemini è che l'organizzazione Gemini deve essere implementata solo in una singola zona. Tuttavia, l'organizzazione cliente corrispondente che interagisce con esso può essere implementata in più zone. Questa architettura consente ai carichi di lavoro dei clienti in varie zone di accedere ai servizi Gemini centralizzati.