Cette page a été traduite par l'API Cloud Translation.

Système d'IA multi-agents dans Google Cloud

Last reviewed 2025-09-16 UTC

Ce document fournit une architecture de référence pour vous aider à concevoir des systèmes d'IA multi-agents robustes dans Google Cloud. Un système d'IA multi-agents optimise les processus complexes et dynamiques en les segmentant en tâches distinctes que plusieurs agents d'IA spécialisés exécutent en collaboration.

Ce document s'adresse aux architectes, aux développeurs et aux administrateurs qui créent et gèrent des infrastructures et des applications d'IA dans le cloud. Dans ce document, nous partons du principe que vous possédez des connaissances de base sur les agents et les modèles d'IA. Ce document ne fournit pas de conseils spécifiques sur la conception et le codage des agents d'IA.

Architecture

Le schéma suivant illustre l'architecture d'un exemple de système d'IA multi-agents déployé dans Google Cloud.

Architecture d'un système d'IA multi-agents dans Google Cloud.

Composants d'architecture

L'exemple d'architecture de la section précédente contient les composants suivants :

Composant	Description
Interface	Les utilisateurs interagissent avec le système multi-agents via une interface utilisateur, telle qu'une interface de chat, qui s'exécute en tant que service Cloud Run sans serveur.
Agents	Dans cet exemple, un agent coordinateur contrôle le système d'IA agentive. L'agent coordinateur appelle un sous-agent approprié pour déclencher le flux agentique. Les agents peuvent communiquer entre eux à l'aide du protocole Agent2Agent (A2A), qui permet l'interopérabilité entre les agents, quels que soient leur langage de programmation et leur environnement d'exécution. L'exemple d'architecture montre des agents dans un modèle séquentiel et un modèle d'affinage itératif. Pour en savoir plus sur les sous-agents de cet exemple, consultez la section Flux agentique.
Environnement d'exécution des agents	Les agents d'IA peuvent être déployés en tant que services Cloud Run sans serveur, en tant qu'applications conteneurisées sur Google Kubernetes Engine (GKE) ou sur Vertex AI Agent Engine.
ADK	L'Agent Development Kit (ADK) fournit des outils et un framework pour développer, tester et déployer des agents. L'ADK simplifie la création d'agents et permet aux développeurs d'IA de se concentrer sur la logique et les capacités de l'agent.
Modèle d'IA et durées d'exécution du modèle	Pour la diffusion d'inférences, les agents de cette architecture exemple utilisent un modèle d'IA sur Vertex AI. L'architecture montre Cloud Run et GKE comme des runtimes alternatifs pour le modèle d'IA que vous choisissez d'utiliser.
Model Armor	Model Armor permet d'inspecter et de nettoyer les entrées et les réponses des modèles déployés dans Vertex AI et GKE. Pour en savoir plus, consultez Intégration de Model Armor avec les services Google Cloud .
Clients, serveurs et outils MCP	Le Model Context Protocol (MCP) facilite l'accès aux outils en standardisant l'interaction entre les agents et les outils. Pour chaque paire agent-outil, un client MCP envoie des requêtes à un serveur MCP par le biais duquel l'agent accède à un outil tel qu'une base de données, un système de fichiers ou une API.

Flux agentif

L'exemple de système multi-agents dans l'architecture précédente présente le flux suivant :

Un utilisateur saisit une requête dans une interface utilisateur, telle qu'une interface de chat, qui s'exécute en tant que service Cloud Run sans serveur.
L'interface transfère la requête à un agent coordinateur.
L'agent coordinateur démarre l'un des flux agentiques suivants en fonction de l'intention exprimée dans la requête.
- Séquentiel :
  1. Le sous-agent de la tâche A effectue une tâche.
  2. Le sous-agent de la tâche A appelle le sous-agent de la tâche A.1.
- Affinement itératif :
  1. Le sous-agent de la tâche B effectue une tâche.
  2. Le sous-agent d'évaluation de la qualité examine le résultat du sous-agent de la tâche B.
  3. Si le résultat n'est pas satisfaisant, l'évaluateur de qualité appelle le sous-agent d'amélioration des requêtes pour affiner la requête.
  4. Le sous-agent B exécute à nouveau sa tâche à l'aide de la requête améliorée.
  Ce cycle se poursuit jusqu'à ce que le résultat soit satisfaisant ou que le nombre maximal d'itérations soit atteint.
L'architecture exemple inclut un chemin human-in-the-loop pour permettre aux utilisateurs humains d'intervenir dans le flux agentique si nécessaire.
Le sous-agent de la tâche A.1 et le sous-agent d'évaluation de la qualité appellent indépendamment le sous-agent du générateur de réponses.
Le sous-agent de génération de réponses génère une réponse, effectue des vérifications de validation et d'ancrage, puis envoie la réponse finale à l'utilisateur via l'agent coordinateur.

Produits et outils utilisés

Cette architecture de référence utilise les produits et outils Google Cloud et tiers suivants : Google Cloud

Cloud Run : plate-forme de calcul gérée qui vous permet d'exécuter des conteneurs directement sur l'infrastructure évolutive de Google.
Vertex AI : plate-forme de ML qui vous permet d'entraîner et de déployer des modèles de ML et des applications d'IA, et de personnaliser les LLM à utiliser dans des applications basées sur l'IA.
Google Kubernetes Engine (GKE) : service Kubernetes que vous pouvez utiliser pour déployer et exploiter des applications conteneurisées à grande échelle, à l'aide de l'infrastructure de Google.
Model Armor : service qui protège vos ressources d'IA générative et agentive contre l'injection de requêtes, les fuites de données sensibles et les contenus nuisibles.
Agent Development Kit (ADK) : ensemble d'outils et de bibliothèques permettant de développer, de tester et de déployer des agents d'IA.
Protocole Agent2Agent (A2A) : protocole ouvert qui permet la communication et l'interopérabilité entre les agents, quels que soient leur langage de programmation et leur environnement d'exécution.
Model Context Protocol (MCP) : norme Open Source permettant de connecter des applications d'IA à des systèmes externes.

Cas d'utilisation

Les systèmes d'IA multi-agents conviennent aux cas d'utilisation complexes qui nécessitent une collaboration et une coordination entre plusieurs ensembles de compétences spécialisés pour atteindre un objectif commercial. Pour identifier les cas d'utilisation adaptés aux systèmes d'IA multi-agents, analysez vos processus métier et identifiez les tâches spécifiques que l'IA peut améliorer. Concentrez-vous sur les résultats commerciaux concrets, comme la réduction des coûts et l'accélération du traitement. Cette approche permet d'aligner vos investissements dans l'IA sur la valeur commerciale.

Voici des exemples de cas d'utilisation des systèmes d'IA multi-agents.

Conseiller financier

Fournir des recommandations personnalisées pour le trading d'actions et exécuter des transactions. Le schéma suivant illustre un exemple de flux agentique pour ce cas d'utilisation. Cet exemple utilise un modèle séquentiel.

Cas d'utilisation d'un conseiller financier pour un système multi-agents.

Ce flux est représenté dans le diagramme suivant :

Un agent de récupération de données récupère les cours des actions en temps réel et historiques, les rapports financiers des entreprises et d'autres données pertinentes provenant de sources fiables.
Un agent d'analyse financière applique des techniques d'analyse et de création de graphiques appropriées aux données, identifie les tendances de mouvement des prix et fait des prédictions.
Un agent de recommandation d'actions utilise l'analyse et les graphiques pour générer des recommandations personnalisées d'achat et de vente d'actions spécifiques en fonction du profil de risque et des objectifs d'investissement de l'utilisateur.
Un agent d'exécution des transactions achète et vend des actions pour le compte de l'utilisateur.

Assistant de recherche

Crée un plan de recherche, rassemble des informations, évalue et affine la recherche, puis rédige un rapport. Le schéma suivant illustre un exemple de flux agentique pour ce cas d'utilisation. Le flux principal de cet exemple utilise un modèle séquentiel. L'exemple inclut également un modèle d'affinage itératif.

Cas d'utilisation d'un assistant de recherche pour un système multi-agents.

Ce flux est représenté dans le diagramme suivant :

Un agent de planification crée un plan de recherche détaillé.
Un agent de recherche effectue les tâches suivantes :
1. Utilise le plan de recherche pour identifier les sources de données internes et externes appropriées.
2. Recueille et analyse les données requises.
3. Prépare un résumé de recherche et le fournit à un agent évaluateur.
L'agent de recherche répète ces tâches jusqu'à ce que l'agent d'évaluation approuve la recherche.
Un agent de composition de rapports crée le rapport de recherche final.

Optimiseur de la chaîne d'approvisionnement

Optimisez vos stocks, suivez vos expéditions et communiquez avec vos partenaires de la chaîne d'approvisionnement. Le diagramme suivant illustre un exemple de flux agentique pour ce cas d'utilisation. Cet exemple utilise un modèle séquentiel.

Cas d'utilisation de l'optimiseur de chaîne d'approvisionnement pour un système multi-agents.

Un agent responsable de l'entrepôt veille à ce que les niveaux de stock soient optimaux en créant des bons de réapprovisionnement en fonction de l'inventaire, des prévisions de la demande et des délais de livraison des fournisseurs.
- L'agent interagit avec l'agent de suivi des colis pour suivre les livraisons.
- L'agent interagit avec l'agent de communication avec les fournisseurs pour les informer des modifications apportées aux commandes.
Un agent de suivi des expéditions assure le traitement rapide et efficace des commandes en s'intégrant aux plates-formes logistiques et aux systèmes de transporteurs des fournisseurs.
Un agent de communication avec les fournisseurs communique avec les fournisseurs externes au nom des autres agents du système.

Considérations de conception

Cette section décrit les facteurs de conception, les bonnes pratiques et les recommandations à prendre en compte lorsque vous utilisez cette architecture de référence pour développer une topologie qui répond à vos exigences spécifiques en termes de sécurité, de fiabilité, de coût et de performances.

Les conseils de cette section ne sont pas exhaustifs. En fonction des exigences de votre charge de travail et des produits et fonctionnalités Google Cloud et tiers que vous utilisez, il peut y avoir d'autres facteurs de conception et compromis à prendre en compte.

Conception du système

Cette section vous aide à choisir les régions Google Cloud pour votre déploiement et à sélectionner les produits Google Cloud et outils appropriés.

Sélection de la région

Lorsque vous sélectionnez des Google Cloud régions pour vos applications d'IA, tenez compte des facteurs suivants :

Disponibilité des services Google Cloud dans chaque région.
Exigences relatives à la latence tolérée par l'utilisateur final.
Coût des ressources Google Cloud .
Exigences réglementaires.

Pour sélectionner les Google Cloud emplacements appropriés pour vos applications, utilisez les outils suivants :

Google Cloud Outil de sélection de région : outil Web interactif permettant de sélectionner la région Google Cloudoptimale pour vos applications et vos données en fonction de facteurs tels que l'empreinte carbone, le coût et la latence.
API Cloud Location Finder : API publique qui permet de trouver de manière programmatique les emplacements de déploiement dans Google Cloud, Google Distributed Cloud et d'autres fournisseurs de services cloud.

Conception de l'agent

Cette section fournit des recommandations générales pour la conception d'agents d'IA. Les conseils détaillés sur l'écriture du code et de la logique de l'agent ne sont pas abordés dans ce document.

Objectif de conception	Recommandations
Définition et conception de l'agent	Définissez clairement l'objectif commercial du système d'IA agentive et la tâche que chaque agent effectue. Choisissez un modèle de conception d'agent qui répond le mieux à vos besoins. Utilisez l'ADK pour créer, déployer et gérer efficacement votre architecture agentique.
Interactions avec les agents	Concevez les agents orientés utilisateur dans l'architecture pour qu'ils prennent en charge les interactions en langage naturel. Assurez-vous que chaque agent communique clairement ses actions et son état à ses clients dépendants. Concevez les agents pour qu'ils détectent et traitent les requêtes ambiguës et les interactions nuancées.
Contexte, outils et données	Assurez-vous que les agents disposent de suffisamment de contexte pour suivre les interactions multitours et les paramètres de session. Décrivez clairement l'objectif, les arguments et l'utilisation des outils que les agents peuvent utiliser. Assurez-vous que les réponses des agents sont ancrées dans des sources de données fiables pour réduire les hallucinations. Implémentez une logique pour gérer les situations de non-correspondance, par exemple lorsqu'une requête est hors sujet.

Sécurité

Cette section décrit les considérations et recommandations de conception pour concevoir une topologie dans Google Cloud qui répond aux exigences de sécurité de votre charge de travail.

Composant	Remarques et recommandations concernant la conception
Agents	Les agents d'IA présentent certains risques de sécurité uniques et critiques que les pratiques de sécurité conventionnelles et déterministes ne sont pas en mesure d'atténuer de manière adéquate. Google recommande une approche qui combine les points forts des contrôles de sécurité déterministes avec des défenses dynamiques basées sur le raisonnement. Cette approche repose sur trois principes fondamentaux : la supervision humaine, l'autonomie des agents soigneusement définie et l'observabilité. Vous trouverez ci-dessous des recommandations spécifiques qui s'alignent sur ces principes fondamentaux. Supervision humaine : un système d'IA agentive peut parfois échouer ou ne pas fonctionner comme prévu. Par exemple, le modèle peut générer du contenu inexact ou un agent peut sélectionner des outils inappropriés. Dans les systèmes d'IA agentive critiques pour l'entreprise, intégrez un flux avec intervention humaine pour permettre aux superviseurs humains de surveiller, de remplacer et de suspendre les agents. Par exemple, les utilisateurs humains peuvent examiner les résultats des agents, les approuver ou les refuser, et fournir des conseils supplémentaires pour corriger les erreurs ou prendre des décisions stratégiques. Cette approche combine l'efficacité des systèmes d'IA agentive avec l'esprit critique et l'expertise du domaine des utilisateurs humains. Contrôle des accès pour les agents : configurez les autorisations des agents à l'aide des contrôles Identity and Access Management (IAM). N'accordez à chaque agent que les autorisations dont il a besoin pour effectuer ses tâches et communiquer avec les outils et les autres agents. Cette approche permet de minimiser l'impact potentiel d'une brèche de sécurité, car un agent compromis aurait un accès limité aux autres parties du système. Pour en savoir plus, consultez Configurer l'identité et les autorisations de votre agent et Gérer l'accès aux agents déployés. Surveillance : surveillez le comportement des agents à l'aide de fonctionnalités de traçage complètes qui vous permettent de suivre chaque action d'un agent, y compris son processus de raisonnement, la sélection d'outils et les chemins d'exécution. Pour en savoir plus, consultez Journalisation d'un agent dans Vertex AI Agent Engine et Journalisation dans le kit ADK. Pour en savoir plus sur la sécurisation des agents d'IA, consultez Sécurité des agents d'IA.
Vertex AI	Responsabilité partagée : la sécurité est une responsabilité partagée. Vertex AI sécurise l'infrastructure sous-jacente et fournit des outils et des contrôles de sécurité pour vous aider à protéger vos données, votre code et vos modèles. Vous êtes responsable de la configuration appropriée de vos services, de la gestion des contrôles d'accès et de la sécurisation de vos applications. Pour en savoir plus, consultez Responsabilité partagée de Vertex AI. Contrôles de sécurité : Vertex AI est compatible avec les contrôles de sécurité Google Cloud que vous pouvez utiliser pour répondre à vos exigences en termes de résidence des données, de clés de chiffrement gérées par le client (CMEK), de sécurité réseau à l'aide de VPC Service Controls et de transparence des accès. Pour en savoir plus, consultez la documentation suivante : Contrôles de sécurité pour Vertex AI Contrôles de sécurité pour l'IA générative IA générative et conservation nulle des données Sécurité : les modèles d'IA peuvent générer des réponses nuisibles, parfois en réponse à des requêtes malveillantes. Pour renforcer la sécurité et limiter les cas d'utilisation abusive potentiels du système d'IA agentique, vous pouvez configurer des filtres de contenu qui feront office de barrières contre les entrées et les réponses nuisibles. Pour en savoir plus, consultez Filtres de sécurité et de contenu. Pour inspecter et nettoyer les requêtes et réponses d'inférence afin de détecter les menaces telles que l'injection de requêtes et les contenus nuisibles, vous pouvez utiliser Model Armor. Model Armor vous aide à éviter les entrées malveillantes, à vérifier la sécurité du contenu, à protéger les données sensibles, à assurer la conformité et à appliquer les règles de sécurité de manière cohérente. Accès aux modèles : vous pouvez configurer des règles d'administration pour limiter le type et les versions des modèles d'IA pouvant être utilisés dans un projet Google Cloud . Pour en savoir plus, consultez Contrôler l'accès aux modèles Model Garden. Protection des données : pour découvrir et anonymiser les données sensibles dans les requêtes et les réponses, ainsi que dans les données de journaux, utilisez l'API Cloud Data Loss Prevention. Pour en savoir plus, regardez cette vidéo : Protéger les données sensibles dans les applications d'IA.
MCP	Consultez MCP et sécurité.
A2A	Sécurité du transport : le protocole A2A impose le protocole HTTPS pour toutes les communications A2A dans les environnements de production et recommande les versions 1.2 ou ultérieures du protocole Transport Layer Security (TLS). Authentification : le protocole A2A délègue l'authentification à des mécanismes Web standards tels que les en-têtes HTTP et à des normes telles qu'OAuth2 et OpenID Connect. Chaque agent indique les exigences d'authentification dans sa fiche d'agent. Pour en savoir plus, consultez Authentification A2A.
Cloud Run	Sécurité de l'entrée (pour le service d'interface) : pour contrôler l'accès à l'application, désactivez l'URL `run.app` par défaut du service Cloud Run d'interface et configurez un équilibreur de charge d'application externe régional. En plus d'équilibrer la charge du trafic entrant vers l'application, l'équilibreur de charge gère les certificats SSL. Pour une protection renforcée, vous pouvez utiliser les stratégies de sécurité Google Cloud Armor afin de filtrer les requêtes, de protéger le service contre les attaques DDoS et de limitation du débit. Authentification des utilisateurs : pour authentifier l'accès des utilisateurs au service Cloud Run de l'interface utilisateur, utilisez Identity-Aware Proxy (IAP). Lorsqu'un utilisateur tente d'accéder à une ressource sécurisée par IAP, des vérifications d'authentification et d'autorisation sont effectuées. Pour en savoir plus, consultez Activer IAP pour Cloud Run. Sécurité des images de conteneur : pour vous assurer que seules les images de conteneur autorisées sont déployées sur Cloud Run, vous pouvez utiliser l' autorisation binaire. Pour identifier et atténuer les risques de sécurité dans les images de conteneurs, utilisez Artifact Analysis pour exécuter automatiquement des analyses de failles. Pour en savoir plus, consultez Présentation de l'analyse des conteneurs. Résidence des données : Cloud Run vous aide à répondre aux exigences de résidence des données. Vos fonctions Cloud Run s'exécutent dans la région sélectionnée. Pour obtenir d'autres conseils sur la sécurité des conteneurs, consultez Conseils de développement généraux pour Cloud Run.
Tous les produits de l'architecture	Chiffrement des données : par défaut, Google Cloud chiffre les données au repos à l'aide de Google-owned and Google-managed encryption keys. Pour protéger les données de vos agents à l'aide de clés de chiffrement que vous contrôlez, vous pouvez utiliser des CMEK que vous créez et gérez dans Cloud KMS. Pour en savoir plus sur les services Google Cloud compatibles avec Cloud KMS, consultez Services compatibles. Limitez le risque d'exfiltration de données : pour réduire le risque d'exfiltration de données, créez un périmètre VPC Service Controls autour de l'infrastructure. VPC Service Controls est compatible avec tous les services Google Cloud utilisés par cette architecture de référence. Contrôle des accès : lorsque vous configurez les autorisations pour les ressources de votre topologie, respectez le principe du moindre privilège. Sécurité de l'environnement cloud : utilisez les outils de Security Command Center pour détecter les failles, identifier et atténuer les menaces, définir et déployer une stratégie de sécurité, et exporter des données pour une analyse plus approfondie. Optimisation post-déploiement : une fois votre application déployée dans Google Cloud, obtenez des recommandations pour optimiser davantage la sécurité à l'aide d'Active Assist. Examinez les recommandations et appliquez-les en fonction de votre environnement. Pour en savoir plus, consultez Trouver des recommandations dans Active Assist.

Autres recommandations de sécurité

Fiabilité

Cette section décrit les considérations et les recommandations de conception pour créer et exploiter une infrastructure fiable pour votre déploiement dans Google Cloud.

Composant	Remarques et recommandations concernant la conception
Agents	Tolérance aux pannes : concevez le système agentique de manière à tolérer ou gérer les défaillances au niveau de l'agent. Dans la mesure du possible, utilisez une approche décentralisée où les agents peuvent fonctionner de manière indépendante. Simulez des échecs : avant de déployer le système d'IA agentique en production, validez-le en simulant un environnement de production. Identifier et résoudre les problèmes de coordination entre les agents et les comportements inattendus. Gestion des erreurs : pour permettre le diagnostic et la résolution des erreurs, implémentez des mécanismes de journalisation, de gestion des exceptions et de nouvelles tentatives.
Vertex AI	Gestion des quotas : Vertex AI est compatible avec le quota partagé dynamique (QPD) pour les modèles Gemini. DSQ vous aide à gérer de manière flexible les demandes de paiement à l'utilisation. Il vous évite d'avoir à gérer manuellement les quotas ou à demander des augmentations de quota. DSQ alloue dynamiquement les ressources disponibles pour un modèle et une région donnés aux clients actifs. Avec DSQ, il n'existe aucune limite de quota prédéfinie pour les clients individuels. Planification de la capacité : si le nombre de requêtes envoyées au modèle dépasse la capacité allouée, le code d'erreur 429 est renvoyé. Pour les charges de travail critiques pour l'entreprise et qui nécessitent un débit élevé constant, vous pouvez réserver le débit à l'aide du débit provisionné. Disponibilité des points de terminaison de modèle : si les données peuvent être partagées dans plusieurs régions ou pays, vous pouvez utiliser un point de terminaison global pour le modèle.
Cloud Run	Robustesse en cas de panne de l'infrastructure : Cloud Run est un service régional. Il stocke les données de manière synchrone dans plusieurs zones d'une même région et équilibre automatiquement la charge du trafic entre les zones. En cas de panne zonale, Cloud Run continue de s'exécuter et les données ne sont pas perdues. En cas de panne régionale, le service cesse de fonctionner jusqu'à ce que Google résolve le problème.
Tous les produits de l'architecture	Optimisation post-déploiement : une fois votre application déployée dans Google Cloud, obtenez des recommandations pour optimiser davantage la fiabilité à l'aide d'Active Assist. Examinez les recommandations et appliquez-les en fonction de votre environnement. Pour en savoir plus, consultez Trouver des recommandations dans Active Assist.

Pour obtenir des principes et des recommandations de fiabilité spécifiques aux charges de travail d'IA et de ML, consultez Enjeux spécifiques à l'IA et au ML : fiabilité dans le framework Well-Architected.

Opérations

Cette section décrit les facteurs à prendre en compte lorsque vous utilisez cette architecture de référence pour concevoir une topologie Google Cloud que vous pouvez exploiter efficacement.

Composant Remarques et recommandations concernant la conception

Vertex AI

Composant	Remarques et recommandations concernant la conception
Vertex AI	Surveillance à l'aide des journaux : par défaut, les journaux de l'agent écrits dans les flux `stdout` et `stderr` sont routés vers Cloud Logging. Pour une journalisation avancée, vous pouvez intégrer l'enregistreur Python à Cloud Logging. Si vous avez besoin d'un contrôle total sur la journalisation et les journaux structurés, utilisez le client Cloud Logging. Pour en savoir plus, consultez Journalisation d'un agent et Journalisation dans le kit ADK. Évaluation continue : évaluez régulièrement de manière qualitative la sortie des agents et la trajectoire ou les étapes suivies par les agents pour produire la sortie. Pour implémenter l'évaluation des agents, vous pouvez utiliser le service d'évaluation de l'IA générative ou les méthodes d'évaluation compatibles avec l'ADK.
MCP	Outils de base de données : pour gérer efficacement les outils de base de données pour vos agents d'IA et vous assurer qu'ils gèrent de manière sécurisée les complexités telles que le regroupement de connexions et l'authentification, utilisez la MCP Toolbox pour les bases de données. Il fournit un emplacement centralisé pour stocker et mettre à jour les outils de base de données. Vous pouvez partager les outils entre les agents et les mettre à jour sans redéployer les agents. La boîte à outils inclut un large éventail d'outils pour les bases de données Google Cloud, comme AlloyDB pour PostgreSQL et les bases de données tierces comme MongoDB. Modèles d'IA générative : pour permettre aux agents d'IA d'utiliser les modèles d'IA générative de Google, comme Imagen et Veo, vous pouvez utiliser les serveurs MCP pour les API de médias génératifs. Google Cloud Produits et outils de sécurité Google : pour permettre à vos agents d'IA d'accéder aux produits et outils de sécurité Google tels que Google Security Operations, Google Threat Intelligence et Security Command Center, utilisez les serveurs MCP pour les produits de sécurité Google.
Tous les Google Cloud produits de l'architecture	Traçage : recueillez et analysez en continu les données de trace à l'aide de Cloud Trace. Les données de trace vous permettent d'identifier et de diagnostiquer rapidement les erreurs dans les workflows d'agents complexes. Vous pouvez effectuer une analyse approfondie à l'aide des visualisations de l'explorateur Trace. Pour en savoir plus, consultez Tracer un agent.

Surveillance à l'aide des journaux : par défaut, les journaux de l'agent écrits dans les flux stdout et stderr sont routés vers Cloud Logging. Pour une journalisation avancée, vous pouvez intégrer l'enregistreur Python à Cloud Logging. Si vous avez besoin d'un contrôle total sur la journalisation et les journaux structurés, utilisez le client Cloud Logging. Pour en savoir plus, consultez Journalisation d'un agent et Journalisation dans le kit ADK.

Évaluation continue : évaluez régulièrement de manière qualitative la sortie des agents et la trajectoire ou les étapes suivies par les agents pour produire la sortie. Pour implémenter l'évaluation des agents, vous pouvez utiliser le service d'évaluation de l'IA générative ou les méthodes d'évaluation compatibles avec l'ADK.

MCP

Outils de base de données : pour gérer efficacement les outils de base de données pour vos agents d'IA et vous assurer qu'ils gèrent de manière sécurisée les complexités telles que le regroupement de connexions et l'authentification, utilisez la MCP Toolbox pour les bases de données. Il fournit un emplacement centralisé pour stocker et mettre à jour les outils de base de données. Vous pouvez partager les outils entre les agents et les mettre à jour sans redéployer les agents. La boîte à outils inclut un large éventail d'outils pour les bases de données Google Cloud, comme AlloyDB pour PostgreSQL et les bases de données tierces comme MongoDB.

Modèles d'IA générative : pour permettre aux agents d'IA d'utiliser les modèles d'IA générative de Google, comme Imagen et Veo, vous pouvez utiliser les serveurs MCP pour les API de médias génératifs. Google Cloud

Produits et outils de sécurité Google : pour permettre à vos agents d'IA d'accéder aux produits et outils de sécurité Google tels que Google Security Operations, Google Threat Intelligence et Security Command Center, utilisez les serveurs MCP pour les produits de sécurité Google.

Tous les Google Cloud produits de l'architecture Traçage : recueillez et analysez en continu les données de trace à l'aide de Cloud Trace. Les données de trace vous permettent d'identifier et de diagnostiquer rapidement les erreurs dans les workflows d'agents complexes. Vous pouvez effectuer une analyse approfondie à l'aide des visualisations de l'explorateur Trace. Pour en savoir plus, consultez Tracer un agent.

Pour obtenir des principes et des recommandations d'excellence opérationnelle spécifiques aux charges de travail d'IA et de ML, consultez Perspective de l'IA et du ML : excellence opérationnelle dans le framework Well-Architected.

Optimisation des coûts

Cette section fournit des conseils pour optimiser les coûts de configuration et d'exploitation d'une topologie Google Cloud que vous créez à l'aide de cette architecture de référence.

Composant	Remarques et recommandations concernant la conception
Vertex AI	Analyse et gestion des coûts : pour analyser et gérer les coûts Vertex AI, nous vous recommandons de créer des métriques de référence pour les requêtes par seconde (RPS) et les jetons par seconde (TPS). Ensuite, surveillez ces métriques après le déploiement. La référence aide également à planifier la capacité. Par exemple, la ligne de base vous aide à déterminer quand un débit provisionné peut être nécessaire. Sélection du modèle : le modèle que vous sélectionnez pour votre application d'IA a un impact direct sur les coûts et les performances. Pour identifier le modèle qui offre un équilibre optimal entre performances et coût pour votre cas d'utilisation spécifique, testez les modèles de manière itérative. Nous vous recommandons de commencer par le modèle le plus économique et de passer progressivement à des options plus puissantes. Requêtes économiques : la longueur de vos requêtes (entrée) et des réponses générées (sortie) affecte directement les performances et les coûts. Rédigez des requêtes courtes et directes, qui fournissent suffisamment de contexte. Concevez vos requêtes pour obtenir des réponses concises du modèle. Par exemple, incluez des expressions telles que "résume en deux phrases" ou "liste trois points clés". Pour en savoir plus, consultez les bonnes pratiques pour la conception des requêtes. Mise en cache du contexte : pour réduire le coût des requêtes contenant du contenu répété avec un nombre élevé de jetons d'entrée, utilisez la mise en cache du contexte. Requêtes par lot : le cas échéant, envisagez d'utiliser la prédiction par lot. Les requêtes par lot entraînent des coûts inférieurs à ceux des requêtes standards.
Cloud Run	Allocation de ressources : lorsque vous créez un service Cloud Run, vous pouvez spécifier la quantité de mémoire et de processeur à allouer. Commencez par les allocations de processeur et de mémoire par défaut. Observez l'utilisation et le coût des ressources au fil du temps, et ajustez l'allocation si nécessaire. Pour en savoir plus, consultez la documentation suivante : Configurer les limites de mémoire pour les services Configurer les limites de processeur pour les services Optimisation des tarifs : si vous pouvez prévoir les besoins en processeur et en mémoire, vous pouvez réaliser des économies grâce aux remises sur engagement d'utilisation.
Tous les produits de l'architecture	Optimisation post-déploiement : une fois votre application déployée dans Google Cloud, obtenez des recommandations pour optimiser davantage les coûts à l'aide d'Active Assist. Examinez les recommandations et appliquez-les en fonction de votre environnement. Pour en savoir plus, consultez Trouver des recommandations dans Active Assist.

Composant

Remarques et recommandations concernant la conception

Vertex AI

Analyse et gestion des coûts : pour analyser et gérer les coûts Vertex AI, nous vous recommandons de créer des métriques de référence pour les requêtes par seconde (RPS) et les jetons par seconde (TPS). Ensuite, surveillez ces métriques après le déploiement. La référence aide également à planifier la capacité. Par exemple, la ligne de base vous aide à déterminer quand un débit provisionné peut être nécessaire.

Sélection du modèle : le modèle que vous sélectionnez pour votre application d'IA a un impact direct sur les coûts et les performances. Pour identifier le modèle qui offre un équilibre optimal entre performances et coût pour votre cas d'utilisation spécifique, testez les modèles de manière itérative. Nous vous recommandons de commencer par le modèle le plus économique et de passer progressivement à des options plus puissantes.

Requêtes économiques : la longueur de vos requêtes (entrée) et des réponses générées (sortie) affecte directement les performances et les coûts. Rédigez des requêtes courtes et directes, qui fournissent suffisamment de contexte. Concevez vos requêtes pour obtenir des réponses concises du modèle. Par exemple, incluez des expressions telles que "résume en deux phrases" ou "liste trois points clés". Pour en savoir plus, consultez les bonnes pratiques pour la conception des requêtes.

Mise en cache du contexte : pour réduire le coût des requêtes contenant du contenu répété avec un nombre élevé de jetons d'entrée, utilisez la mise en cache du contexte.

Requêtes par lot : le cas échéant, envisagez d'utiliser la prédiction par lot. Les requêtes par lot entraînent des coûts inférieurs à ceux des requêtes standards.

Cloud Run

Allocation de ressources : lorsque vous créez un service Cloud Run, vous pouvez spécifier la quantité de mémoire et de processeur à allouer. Commencez par les allocations de processeur et de mémoire par défaut. Observez l'utilisation et le coût des ressources au fil du temps, et ajustez l'allocation si nécessaire. Pour en savoir plus, consultez la documentation suivante :

Optimisation des tarifs : si vous pouvez prévoir les besoins en processeur et en mémoire, vous pouvez réaliser des économies grâce aux remises sur engagement d'utilisation.

Tous les produits de l'architecture

Optimisation post-déploiement : une fois votre application déployée dans Google Cloud, obtenez des recommandations pour optimiser davantage les coûts à l'aide d'Active Assist. Examinez les recommandations et appliquez-les en fonction de votre environnement. Pour en savoir plus, consultez Trouver des recommandations dans Active Assist.

Pour estimer le coût de vos ressources Google Cloud , utilisez le simulateur de coûtGoogle Cloud .

Pour obtenir des principes et des recommandations d'optimisation des coûts spécifiques aux charges de travail d'IA et de ML, consultez Perspective de l'IA et du ML : optimisation des coûts dans le framework Well-Architected.

Optimisation des performances

Cette section décrit les considérations de conception et les recommandations pour concevoir une topologie dans Google Cloud qui répond aux exigences de performances de vos charges de travail.

Composant	Remarques et recommandations concernant la conception
Agents	Sélection du modèle : lorsque vous sélectionnez des modèles pour votre système d'IA agentive, tenez compte des capacités requises pour les tâches que les agents doivent effectuer. Optimisation des requêtes : pour améliorer et optimiser rapidement les performances des requêtes à grande échelle, et pour éviter de devoir les réécrire manuellement, utilisez l'optimiseur de requêtes Vertex AI. L'optimiseur vous aide à adapter efficacement les requêtes à différents modèles.
Vertex AI	Sélection du modèle : le modèle que vous sélectionnez pour votre application d'IA a un impact direct sur les coûts et les performances. Pour identifier le modèle qui offre un équilibre optimal entre performances et coût pour votre cas d'utilisation spécifique, testez les modèles de manière itérative. Nous vous recommandons de commencer par le modèle le plus économique et de passer progressivement à des options plus puissantes. Ingénierie des requêtes : la longueur de vos requêtes (entrées) et des réponses générées (sorties) affecte directement les performances et les coûts. Rédigez des requêtes courtes et directes, qui fournissent suffisamment de contexte. Concevez vos requêtes pour obtenir des réponses concises du modèle. Par exemple, incluez des expressions telles que "résume en deux phrases" ou "liste trois points clés". Pour en savoir plus, consultez les bonnes pratiques pour la conception des requêtes. Mise en cache du contexte : pour réduire la latence des requêtes contenant du contenu répété avec un nombre élevé de jetons d'entrée, utilisez la mise en cache du contexte.
Cloud Run	Allocation de ressources : en fonction de vos exigences en termes de performances, configurez la mémoire et le processeur à allouer au service Cloud Run. Pour en savoir plus, consultez la documentation suivante : Configurer les limites de mémoire pour les services Configurer les limites de processeur pour les services Pour obtenir d'autres conseils sur l'optimisation des performances, consultez Conseils de développement généraux pour Cloud Run.
Tous les produits de l'architecture	Optimisation post-déploiement : après avoir déployé votre application dans Google Cloud, obtenez des recommandations pour optimiser davantage les performances à l'aide d'Active Assist. Examinez les recommandations et appliquez-les en fonction de votre environnement. Pour en savoir plus, consultez Trouver des recommandations dans Active Assist.

Pour obtenir des principes et des recommandations d'optimisation des performances spécifiques aux charges de travail d'IA et de ML, consultez Perspective de l'IA et du ML : optimisation des performances dans le framework Well-Architected.

Déploiement

Pour apprendre à créer et à déployer des systèmes d'IA multi-agents, utilisez les exemples de code suivants. Ces exemples de code sont des points de départ entièrement fonctionnels pour l'apprentissage et l'expérimentation. Pour un fonctionnement optimal dans les environnements de production, vous devez personnaliser le code en fonction de vos besoins commerciaux et techniques spécifiques.

Conseiller financier : analysez les données boursières, créez des stratégies de trading, définissez des plans d'exécution et évaluez les risques.
Assistant de recherche : planifiez et menez des recherches, évaluez les résultats et rédigez un rapport de recherche.
Agent d'assurance : créez des souscriptions, fournissez une assistance routière et gérez les demandes d'indemnisation.
Optimiseur de recherche : trouvez des mots clés de recherche, analysez des pages Web et obtenez des suggestions pour optimiser la recherche.
Analyseur de données : récupérez des données, effectuez des manipulations complexes, générez des visualisations et exécutez des tâches de ML.
Agent de Webmarketing : choisissez un nom de domaine, concevez un site Web, créez des campagnes et produisez du contenu.
Planificateur Airbnb (avec A2A et MCP) : trouvez des annonces Airbnb et obtenez des informations météorologiques pour un lieu et une heure donnés.

Pour obtenir des exemples de code pour commencer à utiliser ADK avec les serveurs MCP, consultez Outils MCP.

Étapes suivantes

Choisissez un modèle de conception pour votre système d'IA agentive.
Découvrez des exemples d'agents et d'outils dans Agent Garden.
Créez des agents à l'aide d'Agent Development Kit (ADK).
Déployez des agents sur Google Cloud.
Hébergez des agents A2A sur Cloud Run.
Héberger des serveurs MCP sur Cloud Run
Pour obtenir une présentation des principes et des recommandations d'architecture spécifiques aux charges de travail d'IA et de ML dans Google Cloud, consultez la perspective de l'IA et du ML dans le framework Well-Architected.
Pour découvrir d'autres architectures de référence, schémas et bonnes pratiques, consultez le Centre d'architecture cloud.

Contributeurs

Auteur : Kumar Dhanagopal | Cross-product solution developer

Autres contributeurs :

Alan Blount | Responsable produit
Filipe Gracio, PhD | Ingénieur client, spécialiste en IA/ML
Holt Skinner | Developer Advocate
Jack Wotherspoon | Developer Advocate
Joe Shirey | Responsable des relations avec les développeurs cloud
Megan O'Keefe | Developer Advocate
Samantha He | Rédactrice technique
Shir Meir Lador | Responsable de l'ingénierie des relations avec les développeurs
Victor Dantas | Architecte de solutions d'IA générative
Vlad Kolesnikov | Ingénieur relations avec les développeurs