Ce document fournit une architecture de référence pour vous aider à concevoir des systèmes d'IA multi-agents robustes dans Google Cloud. Un système d'IA multi-agents optimise les processus complexes et dynamiques en les segmentant en tâches distinctes que plusieurs agents d'IA spécialisés exécutent en collaboration.
Ce document s'adresse aux architectes, aux développeurs et aux administrateurs qui créent et gèrent des infrastructures et des applications d'IA dans le cloud. Dans ce document, nous partons du principe que vous possédez des connaissances de base sur les agents et les modèles d'IA. Ce document ne fournit pas de conseils spécifiques sur la conception et le codage des agents d'IA.
Architecture
Le schéma suivant illustre l'architecture d'un exemple de système d'IA multi-agents déployé dans Google Cloud.
Composants d'architecture
L'exemple d'architecture de la section précédente contient les composants suivants :
Composant | Description |
---|---|
Interface | Les utilisateurs interagissent avec le système multi-agents via une interface utilisateur, telle qu'une interface de chat, qui s'exécute en tant que service Cloud Run sans serveur. |
Agents | Dans cet exemple, un agent coordinateur contrôle le système d'IA agentive. L'agent coordinateur appelle un sous-agent approprié pour déclencher le flux agentique. Les agents peuvent communiquer entre eux à l'aide du protocole Agent2Agent (A2A), qui permet l'interopérabilité entre les agents, quels que soient leur langage de programmation et leur environnement d'exécution. L'exemple d'architecture montre un modèle séquentiel et un modèle d'affinage itératif. Pour en savoir plus sur les sous-agents de cet exemple, consultez la section Flux agentique. |
Environnement d'exécution des agents | Les agents d'IA peuvent être déployés en tant que services Cloud Run sans serveur, en tant qu'applications conteneurisées sur Google Kubernetes Engine (GKE) ou sur Vertex AI Agent Engine. |
ADK | L'Agent Development Kit (ADK) fournit des outils et un framework pour développer, tester et déployer des agents. L'ADK simplifie la création d'agents et permet aux développeurs d'IA de se concentrer sur la logique et les capacités de l'agent. |
Modèle d'IA et durées d'exécution du modèle | Pour la diffusion d'inférences, les agents de cette architecture exemple utilisent un modèle d'IA sur Vertex AI. L'architecture montre Cloud Run et GKE comme des runtimes alternatifs pour le modèle d'IA que vous choisissez d'utiliser. |
Model Armor | Model Armor permet d'inspecter et de nettoyer les entrées et les réponses des modèles déployés dans Vertex AI et GKE. Pour en savoir plus, consultez Intégration de Model Armor avec les services Google Cloud . |
Clients, serveurs et outils MCP | Le protocole MCP (Model Context Protocol) facilite l'accès aux outils en standardisant l'interaction entre les agents et les outils. Pour chaque paire agent-outil, un client MCP envoie des requêtes à un serveur MCP par le biais duquel l'agent accède à un outil tel qu'une base de données, un système de fichiers ou une API. |
Flux agentif
L'exemple de système multi-agents de l'architecture précédente présente le flux suivant :
- Un utilisateur saisit une requête dans une interface utilisateur, telle qu'une interface de chat, qui s'exécute en tant que service Cloud Run sans serveur.
- L'interface transfère la requête à un agent coordinateur.
L'agent coordinateur démarre l'un des flux agentiques suivants en fonction de l'intention exprimée dans la requête.
- Séquentiel :
- Le sous-agent de la tâche A effectue une tâche.
- Le sous-agent de la tâche A appelle le sous-agent de la tâche A.1.
Affinement itératif :
- Le sous-agent de la tâche B effectue une tâche.
- Le sous-agent d'évaluation de la qualité examine le résultat du sous-agent de la tâche B.
- Si le résultat n'est pas satisfaisant, l'évaluateur de qualité appelle le sous-agent d'amélioration des requêtes pour affiner la requête.
- Le sous-agent B exécute à nouveau sa tâche à l'aide de la requête améliorée.
Ce cycle se poursuit jusqu'à ce que le résultat soit satisfaisant ou que le nombre maximal d'itérations soit atteint.
L'architecture de l'exemple inclut un chemin d'accès "human-in-the-loop" pour permettre aux utilisateurs humains d'intervenir dans le flux agentique si nécessaire.
- Séquentiel :
Le sous-agent de la tâche A.1 et le sous-agent d'évaluation de la qualité appellent indépendamment le sous-agent du générateur de réponses.
Le sous-agent générateur de réponses génère une réponse, effectue des vérifications de validation et d'ancrage, puis envoie la réponse finale à l'utilisateur via l'agent coordinateur.
Produits et outils utilisés
Cette architecture de référence utilise les produits et outils Google Cloud et tiers suivants : Google Cloud
- Cloud Run : plate-forme de calcul gérée qui vous permet d'exécuter des conteneurs directement sur l'infrastructure évolutive de Google.
- Vertex AI : plate-forme de ML qui vous permet d'entraîner et de déployer des modèles de ML et des applications d'IA, et de personnaliser les LLM à utiliser dans des applications basées sur l'IA.
- Google Kubernetes Engine (GKE) : service Kubernetes que vous pouvez utiliser pour déployer et exploiter des applications conteneurisées à grande échelle, à l'aide de l'infrastructure de Google.
- Model Armor : service qui protège vos ressources d'IA générative et agentive contre l'injection de requêtes, les fuites de données sensibles et les contenus nuisibles.
- Agent Development Kit (ADK) : ensemble d'outils et de bibliothèques permettant de développer, de tester et de déployer des agents d'IA.
- Protocole Agent2Agent (A2A) : protocole ouvert qui permet la communication et l'interopérabilité entre les agents, quels que soient leur langage de programmation et leur environnement d'exécution.
- Protocole MCP (Model Context Protocol) : norme Open Source permettant de connecter des applications d'IA à des systèmes externes.
Cas d'utilisation
Les systèmes d'IA multi-agents conviennent aux cas d'utilisation complexes qui nécessitent une collaboration et une coordination entre plusieurs ensembles de compétences spécialisés pour atteindre un objectif commercial. Pour identifier les cas d'utilisation adaptés aux systèmes d'IA multi-agents, analysez vos processus métier et identifiez les tâches spécifiques que l'IA peut améliorer. Concentrez-vous sur les résultats commerciaux concrets, comme la réduction des coûts et l'accélération du traitement. Cette approche permet d'aligner vos investissements dans l'IA sur la valeur commerciale.
Voici des exemples de cas d'utilisation des systèmes d'IA multi-agents.
Conseiller financier
Fournir des recommandations personnalisées pour le trading d'actions et exécuter des transactions. Le schéma suivant illustre un exemple de flux agentique pour ce cas d'utilisation. Cet exemple utilise un modèle séquentiel.
Ce flux est représenté dans le diagramme suivant :
- Un agent de récupération de données récupère les cours des actions en temps réel et historiques, les rapports financiers des entreprises et d'autres données pertinentes provenant de sources fiables.
- Un agent d'analyse financière applique des techniques d'analyse et de représentation graphique appropriées aux données, identifie les tendances de mouvement des prix et fait des prédictions.
- Un agent de recommandation d'actions utilise l'analyse et les graphiques pour générer des recommandations personnalisées d'achat et de vente d'actions spécifiques en fonction du profil de risque et des objectifs d'investissement de l'utilisateur.
- Un agent d'exécution des transactions achète et vend des actions pour le compte de l'utilisateur.
Assistant de recherche
Créez un plan de recherche, rassemblez des informations, évaluez et affinez la recherche, puis rédigez un rapport. Le schéma suivant illustre un exemple de flux agentique pour ce cas d'utilisation. Le flux principal de cet exemple utilise un modèle séquentiel. L'exemple inclut également un modèle d'affinage itératif.
Ce flux est représenté dans le diagramme suivant :
- Un agent de planification crée un plan de recherche détaillé.
Un agent de recherche effectue les tâches suivantes :
- Utilise le plan de recherche pour identifier les sources de données internes et externes appropriées.
- Recueille et analyse les données requises.
- Prépare un résumé de recherche et le fournit à un agent évaluateur.
L'agent de recherche répète ces tâches jusqu'à ce que l'agent d'évaluation approuve la recherche.
Un agent de composition de rapports crée le rapport de recherche final.
Optimiseur de la chaîne d'approvisionnement
Optimisez vos stocks, suivez vos expéditions et communiquez avec vos partenaires de la chaîne logistique. Le diagramme suivant illustre un exemple de flux agentique pour ce cas d'utilisation. Cet exemple utilise un modèle séquentiel.
Un agent responsable de l'entrepôt veille à ce que les niveaux de stock soient optimaux en créant des bons de réapprovisionnement en fonction de l'inventaire, des prévisions de la demande et des délais de livraison des fournisseurs.
- L'agent interagit avec l'agent de suivi des colis pour suivre les livraisons.
- L'agent interagit avec l'agent de communication avec les fournisseurs pour les informer des modifications apportées aux commandes.
Un agent de suivi des expéditions assure le traitement rapide et efficace des commandes en s'intégrant aux plates-formes logistiques et aux systèmes de transporteurs des fournisseurs.
Un agent de communication avec les fournisseurs communique avec les fournisseurs externes au nom des autres agents du système.
Considérations de conception
Cette section décrit les facteurs de conception, les bonnes pratiques et les recommandations à prendre en compte lorsque vous utilisez cette architecture de référence pour développer une topologie qui répond à vos exigences spécifiques en termes de sécurité, de fiabilité, de coût et de performances.
Les conseils de cette section ne sont pas exhaustifs. En fonction des exigences de votre charge de travail et des produits et fonctionnalités Google Cloud que vous utilisez, il peut y avoir d'autres facteurs de conception et compromis à prendre en compte.
Conception du système
Cette section vous aide à choisir les régions Google Cloud pour votre déploiement et à sélectionner les produits Google Cloud et outils appropriés.
Sélection de la région
Lorsque vous sélectionnez des Google Cloud régions pour vos applications d'IA, tenez compte des facteurs suivants :
- Disponibilité des services Google Cloud dans chaque région.
- Exigences relatives à la latence tolérée par l'utilisateur final.
- Coût des ressources Google Cloud .
- Exigences réglementaires.
Pour sélectionner les Google Cloud emplacements appropriés pour vos applications, utilisez les outils suivants :
- Google Cloud Outil de sélection de région : outil Web interactif permettant de sélectionner la région Google Cloudoptimale pour vos applications et vos données en fonction de facteurs tels que l'empreinte carbone, le coût et la latence.
- API Cloud Location Finder : API publique qui permet de trouver de manière programmatique les emplacements de déploiement dans Google Cloud, Google Distributed Cloud et d'autres fournisseurs de services cloud.
Conception de l'agent
Cette section fournit des recommandations générales pour la conception d'agents d'IA. Les conseils détaillés sur l'écriture du code et de la logique de l'agent ne sont pas abordés dans ce document.
Objectif de conception | Recommandations |
---|---|
Définition et conception de l'agent |
|
Interactions avec les agents |
|
Contexte, outils et données |
|
Sécurité
Cette section décrit les considérations de conception et les recommandations pour concevoir une topologie dans Google Cloud qui répond aux exigences de sécurité de votre charge de travail.
Composant | Remarques et recommandations concernant la conception |
---|---|
Agents |
Les agents d'IA présentent certains risques de sécurité uniques et critiques que les pratiques de sécurité conventionnelles et déterministes ne sont pas en mesure d'atténuer de manière adéquate. Google recommande une approche qui combine les points forts des contrôles de sécurité déterministes avec des défenses dynamiques basées sur le raisonnement. Cette approche repose sur trois principes fondamentaux : la supervision humaine, l'autonomie des agents soigneusement définie et l'observabilité. Vous trouverez ci-dessous des recommandations spécifiques qui s'alignent sur ces principes fondamentaux. Supervision humaine : un système d'IA agentive peut parfois échouer ou ne pas fonctionner comme prévu. Par exemple, le modèle peut générer du contenu inexact ou un agent peut sélectionner des outils inappropriés. Dans les systèmes d'IA agentive stratégiques pour l'entreprise, intégrez un flux human-in-the-loop pour permettre aux superviseurs humains de surveiller, de remplacer et de suspendre les agents en temps réel. Par exemple, les utilisateurs humains peuvent examiner les résultats des agents, les approuver ou les refuser, et fournir des conseils supplémentaires pour corriger les erreurs ou prendre des décisions stratégiques. Cette approche combine l'efficacité des systèmes d'IA agentive avec l'esprit critique et l'expertise du domaine des utilisateurs humains. Contrôle des accès pour les agents : configurez les autorisations des agents à l'aide des contrôles Identity and Access Management (IAM). N'accordez à chaque agent que les autorisations dont il a besoin pour effectuer ses tâches et communiquer avec les outils et les autres agents. Cette approche permet de minimiser l'impact potentiel d'une brèche de sécurité, car un agent compromis aurait un accès limité aux autres parties du système. Pour en savoir plus, consultez Configurer l'identité et les autorisations de votre agent et Gérer l'accès aux agents déployés. Surveillance : surveillez le comportement des agents à l'aide de fonctionnalités de traçage complètes qui vous permettent de suivre chaque action d'un agent, y compris son processus de raisonnement, la sélection d'outils et les chemins d'exécution. Pour en savoir plus, consultez Journalisation d'un agent dans Vertex AI Agent Engine et Journalisation dans le kit ADK. Pour en savoir plus sur la sécurisation des agents d'IA, consultez Sécurité des agents d'IA. |
Vertex AI |
Responsabilité partagée : la sécurité est une responsabilité partagée. Vertex AI sécurise l'infrastructure sous-jacente et fournit des outils et des contrôles de sécurité pour vous aider à protéger vos données, votre code et vos modèles. Vous êtes responsable de la configuration appropriée de vos services, de la gestion des contrôles d'accès et de la sécurisation de vos applications. Pour en savoir plus, consultez Responsabilité partagée de Vertex AI. Contrôles de sécurité : Vertex AI est compatible avec les contrôles de sécurité Google Cloud que vous pouvez utiliser pour répondre à vos exigences en termes de résidence des données, de clés de chiffrement gérées par le client (CMEK), de sécurité réseau à l'aide de VPC Service Controls et de transparence des accès. Pour en savoir plus, consultez la documentation suivante :
Sécurité : les modèles d'IA peuvent générer des réponses nuisibles, parfois en réponse à des requêtes malveillantes.
Accès aux modèles : vous pouvez configurer des règles d'administration pour limiter le type et les versions des modèles d'IA pouvant être utilisés dans un projet Google Cloud . Pour en savoir plus, consultez Contrôler l'accès aux modèles Model Garden. Protection des données : pour découvrir et anonymiser les données sensibles dans les requêtes et les réponses, ainsi que dans les données de journaux, utilisez l'API Cloud Data Loss Prevention. Pour en savoir plus, regardez cette vidéo : Protéger les données sensibles dans les applications d'IA. |
MCP | Consultez MCP et sécurité. |
A2A |
Sécurité du transport : le protocole A2A impose le protocole HTTPS pour toutes les communications A2A dans les environnements de production et recommande les versions 1.2 ou ultérieures du protocole Transport Layer Security (TLS). Authentification : le protocole A2A délègue l'authentification à des mécanismes Web standards tels que les en-têtes HTTP et à des normes telles qu'OAuth2 et OpenID Connect. Chaque agent indique les exigences d'authentification dans sa fiche d'agent. Pour en savoir plus, consultez Authentification A2A. |
Cloud Run |
Sécurité de l'entrée (pour le service d'interface) : pour contrôler l'accès à l'application, désactivez l'URL Authentification des utilisateurs : pour authentifier l'accès des utilisateurs au service Cloud Run de l'interface utilisateur, utilisez Identity-Aware Proxy (IAP). Lorsqu'un utilisateur tente d'accéder à une ressource sécurisée par IAP, des vérifications d'authentification et d'autorisation sont effectuées. Pour en savoir plus, consultez Activer IAP pour Cloud Run. Sécurité des images de conteneur : pour vous assurer que seules les images de conteneur autorisées sont déployées sur Cloud Run, vous pouvez utiliser l' autorisation binaire. Pour identifier et atténuer les risques de sécurité dans les images de conteneurs, utilisez Artifact Analysis pour exécuter automatiquement des analyses de failles. Pour en savoir plus, consultez Présentation de l'analyse des conteneurs. Résidence des données : Cloud Run vous aide à répondre aux exigences de résidence des données. Vos fonctions Cloud Run s'exécutent dans la région sélectionnée. Pour obtenir d'autres conseils sur la sécurité des conteneurs, consultez Conseils de développement généraux pour Cloud Run. |
Tous les produits de l'architecture |
Chiffrement des données : par défaut, Google Cloud chiffre les données au repos à l'aide de Google-owned and Google-managed encryption keys. Pour protéger les données de vos agents à l'aide de clés de chiffrement que vous contrôlez, vous pouvez utiliser des CMEK que vous créez et gérez dans Cloud KMS. Pour en savoir plus sur les services Google Cloud compatibles avec Cloud KMS, consultez Services compatibles. Limitez le risque d'exfiltration de données : pour réduire le risque d'exfiltration de données, créez un périmètre VPC Service Controls autour de l'infrastructure. VPC Service Controls est compatible avec tous les services Google Cloud utilisés par cette architecture de référence. Contrôle des accès : lorsque vous configurez les autorisations pour les ressources de votre topologie, suivez le principe du moindre privilège. Optimisation post-déploiement : une fois votre application déployée dans Google Cloud, obtenez des recommandations pour optimiser davantage la sécurité à l'aide du centre de recommandations Active Assist. Examinez les recommandations et appliquez-les en fonction de votre environnement. Pour en savoir plus, consultez Trouver des recommandations dans le centre de recommandations. Sécurité de l'environnement cloud : utilisez les outils de Security Command Center pour détecter les failles, identifier et atténuer les menaces, définir et déployer une stratégie de sécurité, et exporter des données pour une analyse plus approfondie. |
Autres recommandations de sécurité
- Google Cloud Well-Architected Framework : enjeux spécifiques à l'IA et au ML : sécurité
- Présentation de l'approche de Google pour sécuriser les agents d'IA
Fiabilité
Cette section décrit les considérations et les recommandations de conception pour créer et exploiter une infrastructure fiable pour votre déploiement dans Google Cloud.
Composant | Remarques et recommandations concernant la conception |
---|---|
Agents |
Tolérance aux pannes : concevez le système agentique de manière à tolérer ou gérer les défaillances au niveau de l'agent. Dans la mesure du possible, utilisez une approche décentralisée où les agents peuvent opérer de manière indépendante. Simulez des échecs : avant de déployer le système d'IA agentique en production, validez-le en simulant un environnement de production. Identifier et résoudre les problèmes de coordination entre les agents et les comportements inattendus. Gestion des erreurs : pour permettre le diagnostic et la résolution des erreurs, implémentez des mécanismes de journalisation, de gestion des exceptions et de nouvelles tentatives. |
Vertex AI |
Gestion des quotas : Vertex AI est compatible avec le quota partagé dynamique (QPD) pour les modèles Gemini. DSQ vous aide à gérer de manière flexible les demandes de paiement à l'utilisation. Il vous évite d'avoir à gérer manuellement les quotas ou à demander des augmentations de quota. La DSQ alloue dynamiquement les ressources disponibles pour un modèle et une région donnés aux clients actifs. Avec DSQ, il n'existe aucune limite de quota prédéfinie pour les clients individuels. Planification de la capacité : si le nombre de requêtes envoyées au modèle dépasse la capacité allouée, le code d'erreur 429 est renvoyé. Pour les charges de travail critiques pour l'entreprise et qui nécessitent un débit élevé constant, vous pouvez réserver du débit à l'aide du débit provisionné. Disponibilité des points de terminaison de modèle : si les données peuvent être partagées dans plusieurs régions ou pays, vous pouvez utiliser un point de terminaison global pour le modèle. |
Cloud Run | Robustesse en cas de panne de l'infrastructure : Cloud Run est un service régional. Il stocke les données de manière synchrone dans plusieurs zones d'une même région et équilibre automatiquement la charge du trafic entre les zones. En cas de panne zonale, Cloud Run continue de s'exécuter et les données ne sont pas perdues. En cas de panne régionale, le service cesse de fonctionner jusqu'à ce que Google résolve le problème. |
Tous les produits de l'architecture | Optimisation post-déploiement : une fois votre application déployée dans Google Cloud, obtenez des recommandations pour optimiser davantage la fiabilité à l'aide du centre de recommandations Active Assist. Examinez les recommandations et appliquez-les en fonction de votre environnement. Pour en savoir plus, consultez Trouver des recommandations dans le centre de recommandations. |
Pour obtenir des principes et des recommandations de fiabilité spécifiques aux charges de travail d'IA et de ML, consultez Enjeux spécifiques à l'IA et au ML : fiabilité dans le framework Well-Architected.
Opérations
Cette section décrit les facteurs à prendre en compte lorsque vous utilisez cette architecture de référence pour concevoir une topologie Google Cloud que vous pouvez exploiter efficacement.
Composant | Remarques et recommandations concernant la conception |
---|---|
Vertex AI |
Surveillance à l'aide des journaux : par défaut, les journaux de l'agent écrits dans les flux Évaluation continue : effectuez régulièrement une évaluation qualitative des résultats des agents et de la trajectoire ou des étapes suivies par les agents pour produire les résultats. Pour implémenter l'évaluation des agents, vous pouvez utiliser le service d'évaluation de l'IA générative ou les méthodes d'évaluation compatibles avec l'ADK. |
MCP |
Outils de base de données : pour gérer efficacement les outils de base de données de vos agents d'IA et vous assurer qu'ils gèrent de manière sécurisée les complexités telles que le regroupement de connexions et l'authentification, utilisez MCP Toolbox pour les bases de données. Il fournit un emplacement centralisé pour stocker et mettre à jour les outils de base de données. Vous pouvez partager les outils entre les agents et les mettre à jour sans redéployer les agents. La boîte à outils inclut un large éventail d'outils pour les bases de données Google Cloud, comme AlloyDB pour PostgreSQL, et pour les bases de données tierces, comme MongoDB. Modèles d'IA générative : pour permettre aux agents d'IA d'utiliser des modèles d'IA générative Google tels qu'Imagen et Veo, vous pouvez utiliser les serveurs MCP pour les API de médias génératifs Google Cloud. Produits et outils de sécurité Google : pour permettre à vos agents d'IA d'accéder aux produits et outils de sécurité Google tels que Google Security Operations, Google Threat Intelligence et Security Command Center, utilisez les serveurs MCP pour les produits de sécurité Google. |
Tous les Google Cloud produits de l'architecture | Traçage : recueillez et analysez en continu les données de trace à l'aide de Cloud Trace. Les données de trace vous permettent d'identifier et de diagnostiquer rapidement les erreurs dans les workflows d'agents complexes. Vous pouvez effectuer une analyse approfondie à l'aide des visualisations de l'explorateur Trace. Pour en savoir plus, consultez Tracer un agent. |
Pour obtenir des principes et des recommandations d'excellence opérationnelle spécifiques aux charges de travail d'IA et de ML, consultez Perspective de l'IA et du ML : excellence opérationnelle dans le framework Well-Architected.
Optimisation des coûts
Cette section fournit des conseils pour optimiser les coûts de configuration et d'exploitation d'une topologie Google Cloud que vous créez à l'aide de cette architecture de référence.
Composant | Considérations et recommandations concernant la conception> |
---|---|
Vertex AI |
Analyse et gestion des coûts : pour analyser et gérer les coûts Vertex AI, nous vous recommandons de créer des métriques de référence pour les requêtes par seconde (RPS) et les jetons par seconde (TPS). Ensuite, surveillez ces métriques après le déploiement. La référence aide également à planifier la capacité. Par exemple, la ligne de base vous aide à déterminer quand un débit provisionné peut être nécessaire. Sélection du modèle : le modèle que vous sélectionnez pour votre application d'IA a un impact direct sur les coûts et les performances. Pour identifier le modèle qui offre un équilibre optimal entre performances et coût pour votre cas d'utilisation spécifique, testez les modèles de manière itérative. Nous vous recommandons de commencer par le modèle le plus économique et de passer progressivement à des options plus puissantes. Requêtes économiques : la longueur de vos requêtes (entrée) et des réponses générées (sortie) affecte directement les performances et les coûts. Rédigez des requêtes courtes et directes, qui fournissent suffisamment de contexte. Concevez vos requêtes pour obtenir des réponses concises du modèle. Par exemple, incluez des expressions telles que "résume en deux phrases" ou "liste trois points clés". Pour en savoir plus, consultez les bonnes pratiques pour la conception des requêtes. Mise en cache du contexte : pour réduire le coût des requêtes contenant du contenu répété avec un nombre élevé de jetons d'entrée, utilisez la mise en cache du contexte. Requêtes par lot : le cas échéant, envisagez d'utiliser la prédiction par lot. Les requêtes par lot entraînent des coûts inférieurs à ceux des requêtes standards. |
Cloud Run |
Allocation de ressources : lorsque vous créez un service Cloud Run, vous pouvez spécifier la quantité de mémoire et de processeur à allouer. Commencez par les allocations de processeur et de mémoire par défaut. Observez l'utilisation et le coût des ressources au fil du temps, et ajustez l'allocation si nécessaire. Pour en savoir plus, consultez la documentation suivante :
Optimisation des tarifs : si vous pouvez prévoir les besoins en processeur et en mémoire, vous pouvez réaliser des économies grâce aux remises sur engagement d'utilisation. |
Tous les produits de l'architecture | Optimisation post-déploiement : une fois votre application déployée dans Google Cloud, obtenez des recommandations pour optimiser davantage les coûts à l'aide du centre de recommandations Active Assist. Examinez les recommandations et appliquez-les en fonction de votre environnement. Pour en savoir plus, consultez Trouver des recommandations dans le centre de recommandations. |
Pour estimer le coût de vos ressources Google Cloud , utilisez le simulateur de coûtGoogle Cloud .
Pour obtenir des principes et des recommandations d'optimisation des coûts spécifiques aux charges de travail d'IA et de ML, consultez Perspective de l'IA et du ML : optimisation des coûts dans le framework Well-Architected.
Optimisation des performances
Cette section décrit les considérations de conception et les recommandations pour concevoir une topologie dans Google Cloud qui répond aux exigences de performances de vos charges de travail.
Composant | Remarques et recommandations concernant la conception |
---|---|
Agents |
Sélection du modèle : lorsque vous sélectionnez des modèles pour votre système d'IA agentique, tenez compte des capacités requises pour les tâches que les agents doivent effectuer. Optimisation des requêtes : pour améliorer et optimiser rapidement les performances des requêtes à grande échelle, et pour éviter de devoir les réécrire manuellement, utilisez l'optimiseur de requêtes Vertex AI. L'optimiseur vous aide à adapter efficacement les requêtes à différents modèles. |
Vertex AI |
Sélection du modèle : le modèle que vous sélectionnez pour votre application d'IA a un impact direct sur les coûts et les performances. Pour identifier le modèle qui offre un équilibre optimal entre performances et coût pour votre cas d'utilisation spécifique, testez les modèles de manière itérative. Nous vous recommandons de commencer par le modèle le plus économique et de passer progressivement à des options plus puissantes. Ingénierie des requêtes : la longueur de vos requêtes (entrées) et des réponses générées (sorties) affecte directement les performances et les coûts. Rédigez des requêtes courtes et directes, qui fournissent suffisamment de contexte. Concevez vos requêtes pour obtenir des réponses concises du modèle. Par exemple, incluez des expressions telles que "résume en deux phrases" ou "liste trois points clés". Pour en savoir plus, consultez les bonnes pratiques pour la conception des requêtes. Mise en cache du contexte : pour réduire la latence des requêtes contenant du contenu répété avec un nombre élevé de jetons d'entrée, utilisez la mise en cache du contexte. |
Cloud Run |
Allocation de ressources : en fonction de vos exigences en termes de performances, configurez la mémoire et le processeur à allouer au service Cloud Run. Pour en savoir plus, consultez la documentation suivante :
Pour obtenir d'autres conseils sur l'optimisation des performances, consultez Conseils de développement généraux pour Cloud Run. |
Tous les produits de l'architecture | Optimisation post-déploiement : une fois votre application déployée dans Google Cloud, obtenez des recommandations pour optimiser davantage les performances à l'aide du centre de recommandations Active Assist. Examinez les recommandations et appliquez-les en fonction de votre environnement. Pour en savoir plus, consultez Trouver des recommandations dans le centre de recommandations. |
Pour obtenir des principes et des recommandations d'optimisation des performances spécifiques aux charges de travail d'IA et de ML, consultez Perspective de l'IA et du ML : optimisation des performances dans le framework Well-Architected.
Déploiement
Pour apprendre à créer et à déployer des systèmes d'IA multi-agents, utilisez les exemples de code suivants. Ces exemples de code sont des points de départ entièrement fonctionnels pour l'apprentissage et l'expérimentation. Pour un fonctionnement optimal dans les environnements de production, vous devez personnaliser le code en fonction de vos besoins commerciaux et techniques spécifiques.
- Conseiller financier : analysez les données boursières, créez des stratégies de trading, définissez des plans d'exécution et évaluez les risques.
- Assistant de recherche : planifiez et menez des recherches, évaluez les résultats et rédigez un rapport de recherche.
- Agent d'assurance : créez des abonnements, fournissez une assistance routière et gérez les demandes d'indemnisation.
- Optimiseur de recherche : trouvez des mots clés de recherche, analysez des pages Web et obtenez des suggestions pour optimiser la recherche.
- Analyseur de données : récupérez des données, effectuez des manipulations complexes, générez des visualisations et exécutez des tâches de ML.
- Agent de Webmarketing : choisissez un nom de domaine, concevez un site Web, créez des campagnes et produisez du contenu.
- Planificateur Airbnb (avec A2A et MCP) : trouvez des annonces Airbnb et obtenez des informations météorologiques pour un lieu et une heure donnés.
Pour obtenir des exemples de code pour commencer à utiliser l'ADK avec les serveurs MCP, consultez Outils MCP.
Étapes suivantes
- Découvrez des exemples d'agents et d'outils dans Agent Garden.
- Créez des agents à l'aide d'Agent Development Kit (ADK).
- Déployez des agents sur Google Cloud.
- Hébergez des agents A2A sur Cloud Run.
- Héberger des serveurs MCP sur Cloud Run
- Pour obtenir une présentation des principes et des recommandations d'architecture spécifiques aux charges de travail d'IA et de ML dans Google Cloud, consultez la perspective de l'IA et du ML dans le framework Well-Architected.
- Pour découvrir d'autres architectures de référence, schémas et bonnes pratiques, consultez le Centre d'architecture cloud.
Contributeurs
Auteur : Kumar Dhanagopal | Cross-product solution developer
Autres contributeurs :
- Alan Blount | Responsable produit
- Filipe Gracio, PhD | Ingénieur client, spécialiste en IA/ML
- Holt Skinner | Developer Advocate
- Jack Wotherspoon | Developer Advocate
- Joe Shirey | Responsable, Relations avec les développeurs cloud
- Megan O'Keefe | Developer Advocate
- Samantha He | Rédactrice technique
- Shir Meir Lador | Responsable de l'ingénierie des relations avec les développeurs
- Victor Dantas | Architecte de solutions d'IA générative
- Vlad Kolesnikov | Ingénieur relations avec les développeurs