Présentation de l'opérateur

Pour activer Gemini dans un environnement Google Distributed Cloud (GDC) isolé, les opérateurs d'infrastructure (OI) doivent d'abord configurer le réseau et le matériel nécessaires. Pour en savoir plus sur les audiences dans GDC, consultez Audiences de la documentation.

Ce guide fournit des instructions détaillées pour permettre aux IO d'installer, de provisionner et de déployer les services Gemini dans un environnement GDC. Les procédures décrites concernent les organisations v2. Il est essentiel de respecter ces consignes pour déployer des fonctionnalités d'IA avancées dans un environnement sécurisé et isolé.

Tout d'abord, vous devez configurer le réseau pour activer Gemini, car il nécessite une consommation d'énergie plus importante que les déploiements GDC classiques. Cette configuration implique la configuration d'un pod GPU avec le commutateur et le rack appropriés. Cette configuration réseau nécessite également une expansion dynamique du pod GPU.

Vous devez ensuite télécharger et transférer manuellement le modèle Gemini. Un contact Google vous fournira l'URL de téléchargement. Vous devez télécharger, valider et transférer l'image du modèle vers l'environnement isolé dans lequel vous extrayez l'image du modèle.

Enfin, une fois le modèle Gemini extrait, vous pouvez le charger dans GDC. Cette opération nécessite un bucket de stockage existant et les rôles d'opérateur nécessaires. Chargez le modèle dans un bucket de stockage, puis chargez les images de conteneur contenant le modèle dans le registre de conteneurs.

Vérifications avant déploiement

Vous devez déployer Gemini dans les environnements GDC sur l'architecture d'organisation V2. Cette architecture utilise des organisations Gemini dédiées qui fonctionnent avec les organisations clientes pour fournir des fonctionnalités d'IA. Pour en savoir plus sur les architectures d'organisation, consultez Présentation des organisations.

Avant d'installer et de provisionner Gemini, vous devez respecter les exigences de déploiement. Si vous ne vérifiez pas ces conditions, vous risquez de subir des retards importants ou de rencontrer des échecs d'installation. Le tableau suivant contient une checklist de tous les prérequis que l'infrastructure doit respecter dans l'ordre indiqué :

Step Conditions préalables Exigence Validation et notes Terminé
1. Version GDC Bootstrap version 1.14.4 ou ultérieure Vérifiez la version bootstrap pour toutes les organisations, y compris l'organisation racine.
2. Organisation du client Au moins une organisation locataire est opérationnelle dans au moins une zone. Créez une organisation client.
3. Rôles IAM minimaux Vous disposez des autorisations requises pour créer des organisations et déployer Gemini sur GDC. Préparez les autorisations IAM.
4. Serveur GPU Bare Metal Au moins un serveur GPU bare metal avec la classe de machine d3-highgpu1-256-gdc-metal est fourni. Assurez-vous que la classe de machine est disponible et prête. Le serveur Dell XE9680 fournit les GPU H200 requis.

Consultez Créer une organisation avec IAC pour vérifier l'existence d'un serveur GPU : Pour obtenir des informations détaillées sur la configuration réseau des serveurs GPU, consultez Configurer le réseau pour Gemini.

Gemini et les organisations clientes

Utilisez l'architecture d'organisation v2 pour les organisations Gemini et celles des clients. Il est essentiel de bien comprendre les différents rôles, composants et interactions de cette architecture pour réussir le déploiement et le fonctionnement. Pour en savoir plus sur les architectures d'organisation dans GDC, consultez Présentation des organisations.

Le tableau suivant récapitule les principales différences entre Gemini et les organisations clientes :

Fonctionnalité Organisation Gemini Organisation du client
Description Ressource "organization" configurée pour exécuter un serveur de modèle Gemini Organisation locataire GDC standard dans laquelle les utilisateurs exécutent leurs charges de travail, accèdent à l'infrastructure de la plate-forme et utilisent les services
Services hébergés
  • Routeur GenAI
  • Serveur de modèles avec GPU H200
Passerelle d'inférence
Responsabilité de la direction Google IOs Ordres d'insertion Google ou client
Autorisations pour les charges de travail Seules les charges de travail tierces approuvées par Google Charges de travail des clients
Zones de déploiement Une seule zone Gemini dédiée La même zone Gemini que l'organisation Gemini

Il peut également être déployé dans d'autres zones. Pour en savoir plus, consultez Modèle de déploiement multizone pour Gemini.
Accès aux services Gemini N/A (Il fournit les services) Via la passerelle d'inférence

Composants clés

Plusieurs composants fonctionnent ensemble pour fournir les services Gemini. Ces composants sont répartis entre les organisations Gemini et celles des clients.

Passerelle d'inférence

La passerelle d'inférence est l'interface Gemini. Il s'exécute en tant que pod dans le cluster d'infrastructure de l'organisation du client et fonctionne exclusivement dans la zone Gemini.

Toutes les requêtes des charges de travail client adressées aux modèles Gemini transitent par cette passerelle.

Routeur GenAI

Le routeur d'IA générative est le backend de Gemini. Il s'exécute en tant que pod dans le cluster d'infrastructure de l'organisation Gemini et fonctionne exclusivement dans la zone Gemini, comme Inference Gateway.

Sa fonction est de recevoir les requêtes de l'Inference Gateway et de les acheminer vers les instances de serveur de modèle appropriées.

Serveur de modèles

Le serveur de modèles est responsable de l'hébergement et de l'exécution des modèles d'IA qui alimentent Gemini sur GDC. Ces modèles incluent le modèle Gemini principal et ses modèles de tokenisation dépendants.

Ce serveur utilise les GPU H200 situés dans les machines bare metal d3-highgpu1-256-gdc-metal de l'organisation Gemini.

Le serveur de modèle présente les fonctionnalités suivantes :

  • Équilibrage de charge : il peut distribuer les requêtes d'inférence si plusieurs ensembles de GPU sont disponibles, ce qui améliore le débit et la résilience.
  • Diffusion multimodèle : il peut exécuter différents modèles Gemini simultanément, ce qui offre une flexibilité dans le déploiement et l'utilisation des modèles.

Modèle de déploiement multizone pour Gemini

Lorsque les fonctionnalités multizones sont activées, les organisations sont des ressources intrinsèquement mondiales. Cela signifie qu'elles sont accessibles dans toutes les régions de l'univers isolé. GDC permet de créer des organisations asymétriques, où les ressources d'une organisation peuvent être accessibles à l'échelle mondiale, tandis que son déploiement réel correspondant aux serveurs, au stockage et aux charges de travail est limité à un sous-ensemble spécifique de zones.

La ressource personnalisée OrganizationZonalConfig définit la configuration d'une organisation dans des zones spécifiées. Pour en savoir plus sur les déploiements multizones, consultez la présentation des déploiements multizones.

Un principe clé de sécurité et d'architecture pour les déploiements Gemini est que l'organisation Gemini ne doit être déployée que dans une seule zone. Toutefois, l'organisation cliente correspondante qui interagit avec elle peut être déployée dans plusieurs zones. Cette architecture permet aux charges de travail des clients dans différentes zones d'accéder aux services Gemini centralisés.

Étapes suivantes