Sistema di AI multi-agente in Google Cloud

Last reviewed 2025-09-16 UTC

Questo documento fornisce un'architettura di riferimento per aiutarti a progettare sistemi di AI multi-agente robusti in Google Cloud. Un sistema di AI multi-agente ottimizza processi complessi e dinamici segmentandoli in attività discrete che più agenti AI specializzati eseguono in modo collaborativo.

Il pubblico di destinazione di questo documento include architetti, sviluppatori e amministratori che creano e gestiscono infrastrutture e applicazioni di AI nel cloud. Questo documento presuppone una conoscenza di base degli agenti e dei modelli di AI. Il documento non fornisce indicazioni specifiche per la progettazione e la codifica di agenti AI.

Architettura

Il seguente diagramma mostra un'architettura per un esempio di sistema di AI multi-agente che viene implementato in Google Cloud.

Architettura per un sistema di AI multi-agente in Google Cloud. Architettura per un sistema di AI multi-agente in Google Cloud.

Componenti dell'architettura

L'architettura di esempio nella sezione precedente contiene i seguenti componenti:

Componente Descrizione
Frontend Gli utenti interagiscono con il sistema multi-agente tramite un frontend, ad esempio un'interfaccia di chat, che viene eseguita come servizio Cloud Run serverless.
Agenti In questo esempio, un agente coordinatore controlla il sistema di AI agentica. L'agente coordinatore richiama un subagente appropriato per attivare il flusso dell'agente. Gli agenti possono comunicare tra loro utilizzando il protocollo Agent2Agent (A2A), che consente l'interoperabilità tra gli agenti indipendentemente dal linguaggio di programmazione e dal runtime. L'architettura di esempio mostra un pattern sequenziale e un pattern di perfezionamento iterativo. Per ulteriori informazioni sui subagenti in questo esempio, consulta la sezione Flusso agentico.
Runtime degli agenti Gli agenti AI possono essere implementati come servizi Cloud Run serverless, come app containerizzate su Google Kubernetes Engine (GKE) o su Vertex AI Agent Engine.
ADK L'Agent Development Kit (ADK) fornisce strumenti e un framework per sviluppare, testare e implementare agenti. L'ADK astrae la complessità della creazione di agenti e consente agli sviluppatori di AI di concentrarsi sulla logica e sulle funzionalità dell'agente.
Modello AI e runtime del modello Per il servizio di inferenza, gli agenti in questa architettura di esempio utilizzano un modello di AI su Vertex AI. L'architettura mostra Cloud Run e GKE come runtime alternativi per il modello di AI che scegli di utilizzare.
Model Armor Model Armor consente l'ispezione e la sanitizzazione di input e risposte per i modelli di cui è stato eseguito il deployment in Vertex AI e GKE. Per ulteriori informazioni, vedi Integrazione di Model Armor con i servizi Google Cloud .
Client, server e strumenti MCP Il Model Context Protocol (MCP) facilita l'accesso agli strumenti standardizzando l'interazione tra agenti e strumenti. Per ogni coppia agente-strumento, un client MCP invia richieste a un server MCP tramite il quale l'agente accede a uno strumento come un database, un file system o un'API.

Flusso agentico

Il sistema multi-agente di esempio nell'architettura precedente ha il seguente flusso:

  1. Un utente inserisce un prompt tramite un frontend, ad esempio un'interfaccia di chat, che viene eseguito come servizio Cloud Run serverless.
  2. Il frontend inoltra la richiesta a un agente coordinatore.
  3. L'agente coordinatore avvia uno dei seguenti flussi di agenti in base all'intent espresso nel prompt.

    • Sequenziale:
      1. L'attività A esegue un'attività.
      2. L'agente secondario task-A richiama l'agente secondario task-A.1.
    • Perfezionamento iterativo:

      1. L'agente secondario task-B esegue un'attività.
      2. L'agente secondario di valutazione della qualità esamina l'output dell'agente secondario dell'attività B.
      3. Se l'output non è soddisfacente, il valutatore della qualità richiama l'agente secondario di miglioramento dei prompt per perfezionare il prompt.
      4. L'agente secondario dell'attività B esegue di nuovo la sua attività utilizzando il prompt migliorato.

      Questo ciclo continua finché l'output non è soddisfacente o non viene raggiunto il numero massimo di iterazioni.

    L'architettura di esempio include un percorso human-in-the-loop per consentire agli utenti umani di intervenire nel flusso agentico quando necessario.

  4. L'agente secondario task-A.1 e l'agente secondario di valutazione della qualità richiamano in modo indipendente l'agente secondario di generazione delle risposte.

  5. L'agente secondario generatore di risposte genera una risposta, esegue la convalida e i controlli di grounding, quindi invia la risposta finale all'utente tramite l'agente coordinatore.

Prodotti e strumenti utilizzati

Questa architettura di riferimento utilizza i seguenti Google Cloud e prodotti e strumenti di terze parti:

  • Cloud Run: una piattaforma di computing serverless che ti consente di eseguire container direttamente sull'infrastruttura scalabile di Google.
  • Vertex AI: una piattaforma ML che ti consente di addestrare ed eseguire il deployment di modelli ML e applicazioni AI e personalizzare LLM da utilizzare in applicazioni basate sull'AI.
  • Google Kubernetes Engine (GKE): un servizio Kubernetes che puoi utilizzare per eseguire il deployment e gestire applicazioni containerizzate su larga scala utilizzando l'infrastruttura di Google.
  • Model Armor: un servizio che fornisce protezione per le tue risorse di AI generativa e agentica contro prompt injection, fughe di dati sensibili e contenuti dannosi.
  • Agent Development Kit (ADK): un insieme di strumenti e librerie per sviluppare, testare e distribuire agenti AI.
  • Protocollo Agent2Agent (A2A): un protocollo aperto che consente la comunicazione e l'interoperabilità tra gli agenti indipendentemente dal linguaggio di programmazione e dal runtime.
  • Model Context Protocol (MCP): uno standard open source per connettere applicazioni di AI a sistemi esterni.

Casi d'uso

I sistemi di AI multi-agente sono adatti a casi d'uso complessi che richiedono collaborazione e coordinamento tra più competenze specializzate per raggiungere un obiettivo aziendale. Per identificare i casi d'uso per cui i sistemi di AI multi-agente sono adatti, analizza i tuoi processi aziendali e identifica le attività specifiche che l'AI può migliorare. Concentrati su risultati aziendali tangibili, come la riduzione dei costi e l'elaborazione più rapida. Questo approccio consente di allineare gli investimenti nell'AI al valore aziendale.

Di seguito sono riportati alcuni esempi di casi d'uso per i sistemi di AI multi-agente.

Consulente finanziario

Fornire consigli personalizzati per il trading azionario ed eseguire operazioni. Il diagramma seguente mostra un esempio di flusso autonomo per questo caso d'uso. Questo esempio utilizza un pattern sequenziale.

Caso d'uso di un consulente finanziario per un sistema multi-agente.

Il diagramma mostra il seguente flusso:

  1. Un agente di recupero dei dati recupera i prezzi delle azioni in tempo reale e storici, i report finanziari delle società e altri dati pertinenti da fonti affidabili.
  2. Un agente analizzatore finanziario applica tecniche di analisi e creazione di grafici appropriate ai dati, identifica i pattern di movimento dei prezzi ed effettua previsioni.
  3. Un agente di consulenza azionaria utilizza l'analisi e i grafici per generare consigli personalizzati per acquistare e vendere azioni specifiche in base al profilo di rischio e agli obiettivi di investimento dell'utente.
  4. Un agente di esecuzione di operazioni acquista e vende azioni per conto dell'utente.

Assistente di ricerca

Crea un piano di ricerca, raccogli informazioni, valuta e perfeziona la ricerca e poi componi un report. Il seguente diagramma mostra un esempio di flusso agente per questo caso d'uso. Il flusso principale di questo esempio utilizza un pattern sequenziale. L'esempio include anche un pattern di perfezionamento iterativo.

Caso d'uso dell'assistente di ricerca per un sistema multi-agente.

Il diagramma mostra il seguente flusso:

  1. Un agente di pianificazione crea un piano di ricerca dettagliato.
  2. Un agente di ricerca completa le seguenti attività:

    1. Utilizza il piano di ricerca per identificare le origini dati interne ed esterne appropriate.
    2. Raccoglie e analizza i dati richiesti.
    3. Prepara un riepilogo della ricerca e lo fornisce a un agente valutatore.

    L'agente ricercatore ripete queste attività finché l'agente valutatore non approva la ricerca.

  3. Un agente di composizione dei report crea il report di ricerca finale.

Ottimizzatore della catena di fornitura

Ottimizza l'inventario, monitora le spedizioni e comunica con i partner della catena di fornitura. Il seguente diagramma mostra un esempio di flusso agentico per questo caso d'uso. Questo esempio utilizza un pattern sequenziale.

Caso d'uso dell'ottimizzatore della catena di fornitura per un sistema multi-agente.

  1. Un agente di gestione del magazzino garantisce livelli di scorte ottimali creando ordini di riassortimento in base all'inventario, alle previsioni della domanda e ai tempi di consegna dei fornitori.

    • L'agente interagisce con l'agente di monitoraggio delle spedizioni per monitorare le consegne.
    • L'agente interagisce con l'agente di comunicazione con i fornitori per comunicare ai fornitori le modifiche agli ordini.
  2. Un agente di monitoraggio delle spedizioni garantisce l'evasione tempestiva ed efficiente degli ordini integrandosi con le piattaforme logistiche e i sistemi di trasporto dei fornitori.

  3. Un agente di comunicazione con i fornitori comunica con i fornitori esterni per conto degli altri agenti del sistema.

Considerazioni sulla progettazione

Questa sezione descrive i fattori di progettazione, le best practice e i suggerimenti da prendere in considerazione quando utilizzi questa architettura di riferimento per sviluppare una topologia che soddisfi i tuoi requisiti specifici di sicurezza, affidabilità, costi e rendimento.

Le indicazioni riportate in questa sezione non sono esaustive. A seconda dei requisiti del tuo carico di lavoro e dei prodotti e delle funzionalità di terze parti che utilizzi, potrebbero esserci ulteriori fattori di progettazione e compromessi da considerare. Google Cloud

Progettazione del sistema

Questa sezione fornisce indicazioni per aiutarti a scegliere le Google Cloud regioni per il deployment e a selezionare i Google Cloud prodotti e gli strumenti appropriati.

Selezione delle regioni

Quando selezioni le regioni Google Cloud per le tue applicazioni di AI, considera i seguenti fattori:

Per selezionare le località Google Cloud appropriate per le tue applicazioni, utilizza i seguenti strumenti:

  • Google Cloud Selettore di regioni: uno strumento web interattivo per selezionare la regione Google Cloud ottimale per le tue applicazioni e i tuoi dati in base a fattori quali l'impronta di carbonio, il costo e la latenza.
  • API Cloud Location Finder: Un'API pubblica che fornisce un modo programmatico per trovare posizioni di deployment in Google Cloud, Google Distributed Cloud e altri provider di servizi cloud.

Progettazione di agenti

Questa sezione fornisce consigli generali per la progettazione di agenti AI. Le indicazioni dettagliate sulla scrittura del codice e della logica dell'agente non rientrano nell'ambito di questo documento.

Focus sul design Consigli
Definizione e progettazione dell'agente
  • Definisci chiaramente l'obiettivo aziendale del sistema di AI agentica e l'attività che ogni agente svolge.
  • Utilizza un pattern di agente che soddisfi al meglio i tuoi requisiti.
  • Utilizza l'ADK per creare, implementare e gestire in modo efficiente l'architettura basata su agenti.
Interazioni con l'agente
  • Progetta gli agenti rivolti agli utenti nell'architettura per supportare interazioni in linguaggio naturale.
  • Assicurati che ogni agente comunichi chiaramente le proprie azioni e il proprio stato ai client dipendenti.
  • Progetta gli agenti in modo che rilevino e gestiscano query ambigue e interazioni più complesse.
Contesto, strumenti e dati
  • Assicurati che gli agenti abbiano un contesto sufficiente per monitorare le interazioni multi-turn e i parametri di sessione.
  • Descrivi chiaramente lo scopo, gli argomenti e l'utilizzo degli strumenti che gli agenti possono utilizzare.
  • Assicurati che le risposte degli agenti si basino su origini dati affidabili per ridurre le allucinazioni.
  • Implementa la logica per gestire le situazioni di mancata corrispondenza, ad esempio quando un prompt è fuori tema.

Sicurezza

Questa sezione descrive le considerazioni e i consigli di progettazione per progettare una topologia in Google Cloud che soddisfi i requisiti di sicurezza del tuo workload.

Componente Considerazioni e consigli sulla progettazione
Agenti

Gli agenti AI introducono alcuni rischi per la sicurezza unici e critici che le pratiche di sicurezza convenzionali e deterministiche potrebbero non essere in grado di mitigare adeguatamente. Google consiglia un approccio che combini i punti di forza dei controlli di sicurezza deterministici con difese dinamiche basate sul ragionamento. Questo approccio si basa su tre principi fondamentali: supervisione umana, autonomia dell'agente definita con attenzione e osservabilità. Di seguito sono riportati consigli specifici in linea con questi principi fondamentali.

Supervisione umana: un sistema di AI autonomo a volte potrebbe non funzionare o non funzionare come previsto. Ad esempio, il modello potrebbe generare contenuti imprecisi o un agente potrebbe selezionare strumenti inappropriati. Nei sistemi di AI agentica critici per l'attività, incorpora un flusso human-in-the-loop per consentire ai supervisori umani di monitorare, ignorare e mettere in pausa gli agenti in tempo reale. Ad esempio, gli utenti umani possono esaminare l'output degli agenti, approvare o rifiutare gli output e fornire ulteriori indicazioni per correggere gli errori o prendere decisioni strategiche. Questo approccio combina l'efficienza dei sistemi di AI basati su agenti con il pensiero critico e l'esperienza nel settore degli utenti umani.

Controllo dell'accesso per gli agenti: configura le autorizzazioni degli agenti utilizzando i controlli di Identity and Access Management (IAM). Concedi a ogni agente solo le autorizzazioni necessarie per svolgere le proprie attività e per comunicare con strumenti e con altri agenti. Questo approccio contribuisce a ridurre al minimo il potenziale impatto di una violazione della sicurezza, perché un agente compromesso avrebbe un accesso limitato ad altre parti del sistema. Per ulteriori informazioni, vedi Configurare l'identità e le autorizzazioni per l'agente e Gestire l'accesso per gli agenti di cui è stato eseguito il deployment.

Monitoraggio: monitora il comportamento dell'agente utilizzando funzionalità di tracciamento complete che ti offrono visibilità su ogni azione intrapresa da un agente, tra cui il processo di ragionamento, la selezione degli strumenti e i percorsi di esecuzione. Per ulteriori informazioni, vedi Registrazione di un agente in Vertex AI Agent Engine e Registrazione nell'ADK.

Per saperne di più sulla protezione degli agenti AI, consulta Sicurezza per gli agenti AI.

Vertex AI

Responsabilità condivisa: la sicurezza è una responsabilità condivisa. Vertex AI protegge l'infrastruttura sottostante e fornisce strumenti e controlli di sicurezza per aiutarti a proteggere dati, codice e modelli. Sei responsabile della corretta configurazione dei tuoi servizi, della gestione dei controlli di accesso e della protezione delle tue applicazioni. Per ulteriori informazioni, vedi Responsabilità condivisa di Vertex AI.

Controlli di sicurezza: Vertex AI supporta i controlli di sicurezza Google Cloud che puoi utilizzare per soddisfare i tuoi requisiti di residenza dei dati, chiavi di crittografia gestite dal cliente (CMEK), sicurezza di rete tramite i controlli di servizio VPC e Access Transparency. Per saperne di più, consulta la seguente documentazione:

Sicurezza: i modelli di AI potrebbero produrre risposte dannose, a volte in risposta a prompt dannosi.

  • Per migliorare la sicurezza e mitigare il potenziale uso improprio del sistema di AI con agenti, puoi configurare i filtri dei contenuti in modo che fungano da barriere per input e risposte dannosi. Per maggiori informazioni, consulta Filtri di sicurezza e dei contenuti.
  • Per ispezionare e sanificare le richieste e le risposte di inferenza per minacce come l'injection di prompt e i contenuti dannosi, puoi utilizzare Model Armor. Model Armor ti aiuta a prevenire input dannosi, verificare la sicurezza dei contenuti, proteggere i dati sensibili, mantenere la conformità e applicare in modo coerente le norme di sicurezza.

Accesso ai modelli: puoi configurare le policy dell'organizzazione per limitare il tipo e le versioni dei modelli di AI che possono essere utilizzati in un progetto Google Cloud . Per saperne di più, vedi Controllare l'accesso ai modelli di Model Garden.

Protezione dei dati: per rilevare e rimuovere l'identificazione dei dati sensibili nei prompt e nelle risposte e nei dati di log, utilizza l'API Cloud Data Loss Prevention. Per saperne di più, guarda questo video: Proteggere i dati sensibili nelle app di AI.

MCP Vedi MCP e sicurezza.
A2A

Sicurezza del trasporto: il protocollo A2A impone HTTPS per tutte le comunicazioni A2A negli ambienti di produzione e consiglia Transport Layer Security (TLS) versione 1.2 o successive.

Autenticazione: il protocollo A2A delega l'autenticazione a meccanismi web standard come le intestazioni HTTP e a standard come OAuth2 e OpenID Connect. Ogni agente pubblicizza i requisiti di autenticazione nella propria scheda. Per ulteriori informazioni, vedi Autenticazione A2A.

Cloud Run

Sicurezza in entrata (per il servizio frontend): per controllare l'accesso all'applicazione, disattiva l'URL run.app predefinito del servizio Cloud Run frontend e configura un bilanciatore del carico delle applicazioni esterno regionale. Oltre a bilanciare il carico del traffico in entrata verso l'applicazione, il bilanciatore del carico gestisce i certificati SSL. Per una maggiore protezione, puoi utilizzare i criteri di sicurezza di Google Cloud Armor per fornire il filtro delle richieste, la protezione dagli attacchi DDoS e limitazione di frequenza per il servizio.

Autenticazione utente: per autenticare l'accesso utente al servizio Cloud Run frontend, utilizza Identity-Aware Proxy (IAP). Quando un utente tenta di accedere a una risorsa protetta da IAP, IAP esegue i controlli di autenticazione e autorizzazione. Per maggiori informazioni, consulta Abilitazione di IAP per Cloud Run.

Sicurezza delle immagini container: per garantire che venga eseguito il deployment su Cloud Run solo delle immagini container autorizzate, puoi utilizzare Autorizzazione binaria. Per identificare e mitigare i rischi per la sicurezza nelle immagini container, utilizza Artifact Analysis per eseguire automaticamente le scansioni delle vulnerabilità. Per maggiori informazioni, consulta Panoramica dell'analisi dei container.

Residenza dei dati: Cloud Run ti aiuta a soddisfare i requisiti di residenza dei dati. Le tue Cloud Run Functions vengono eseguite all'interno della regione selezionata.

Per ulteriori indicazioni sulla sicurezza dei container, consulta Suggerimenti generali per lo sviluppo di Cloud Run.

Tutti i prodotti nell'architettura

Crittografia dei dati: per impostazione predefinita, Google Cloud cripta i dati at-rest utilizzando Google-owned and Google-managed encryption keys. Per proteggere i dati dei tuoi agenti utilizzando chiavi di crittografia che controlli, puoi utilizzare le CMEK che crei e gestisci in Cloud KMS. Per informazioni sui servizi Google Cloud compatibili con Cloud KMS, consulta la sezione Servizi compatibili.

Mitiga il rischio di esfiltrazione di dati: per ridurre il rischio di esfiltrazione di dati, crea un perimetro di Controlli di servizio VPC attorno all'infrastruttura. Controlli di servizio VPC supporta tutti i Google Cloud servizi utilizzati da questa architettura di riferimento.

Controllo dell'accesso: quando configuri le autorizzazioni per le risorse nella tua topologia, segui il principio del privilegio minimo.

Ottimizzazione post-deployment: dopo aver eseguito il deployment dell'applicazione in Google Cloud, ricevi consigli per ottimizzare ulteriormente la sicurezza utilizzando l'hub dei suggerimenti di Active Assist. Esamina i consigli e applicali in base al tuo ambiente. Per saperne di più, vedi Trovare i consigli nell'hub dei suggerimenti.

Sicurezza dell'ambiente cloud: utilizza gli strumenti di Security Command Center per rilevare vulnerabilità, identificare e mitigare le minacce, definire e implementare una strategia di sicurezza ed esportare i dati per ulteriori analisi.

Altri suggerimenti per la sicurezza

Affidabilità

Questa sezione descrive considerazioni e consigli di progettazione per creare e gestire un'infrastruttura affidabile per il tuo deployment in Google Cloud.

Componente Considerazioni e consigli sulla progettazione
Agenti

Tolleranza di errore: progetta il sistema agentico in modo che tolleri o gestisca gli errori a livello di agente. Ove possibile, utilizza un approccio decentralizzato in cui gli agenti possono operare in modo indipendente.

Simula errori: prima di eseguire il deployment del sistema di AI agentica in produzione, convalidalo simulando un ambiente di produzione. Identifica e risolvi i problemi di coordinamento tra agenti e i comportamenti inattesi.

Gestione degli errori: per consentire la diagnosi e la risoluzione dei problemi relativi agli errori, implementa meccanismi di logging, gestione delle eccezioni e nuovi tentativi.

Vertex AI

Gestione delle quote: Vertex AI supporta la quota condivisa dinamica (DSQ) per i modelli Gemini. DSQ consente di gestire in modo flessibile le richieste con pagamento a consumo ed elimina la necessità di gestire manualmente la quota o di richiedere aumenti della quota. DSQ alloca dinamicamente le risorse disponibili per un determinato modello e una determinata regione tra i clienti attivi. Con DSQ, non esistono limiti di quota predefiniti per i singoli clienti.

Pianificazione della capacità: se il numero di richieste al modello supera la capacità allocata, viene restituito il codice di errore 429. Per i workload business critical che richiedono un throughput costantemente elevato, puoi riservare il throughput utilizzando il throughput riservato.

Disponibilità dell'endpoint del modello: se i dati possono essere condivisi in più regioni o paesi, puoi utilizzare un endpoint globale per il modello.

Cloud Run Robustezza alle interruzioni dell'infrastruttura: Cloud Run è un servizio regionale. Archivia i dati in modo sincrono in più zone all'interno di una regione e bilancia automaticamente il carico del traffico tra le zone. In caso di interruzione della zona, Cloud Run continua a essere eseguito e i dati non vengono persi. Se si verifica un'interruzione a livello di regione, il servizio smette di funzionare finché Google non risolve l'interruzione.
Tutti i prodotti nell'architettura Ottimizzazione post-deployment: dopo aver eseguito il deployment dell'applicazione in Google Cloud, ricevi consigli per ottimizzare ulteriormente l'affidabilità utilizzando l'hub dei suggerimenti di Active Assist. Esamina i consigli e applicali in base al tuo ambiente. Per saperne di più, vedi Trovare i consigli nell'hub dei suggerimenti.

Per principi e consigli di affidabilità specifici per i workload AI e ML, consulta Prospettiva AI e ML: affidabilità nel framework Well-Architected.

Operazioni

Questa sezione descrive i fattori da considerare quando utilizzi questa architettura di riferimento per progettare una topologia Google Cloud che puoi gestire in modo efficiente.

Componente Considerazioni e consigli sulla progettazione
Vertex AI

Monitoraggio tramite log: per impostazione predefinita, i log dell'agente scritti nei flussi stdout e stderr vengono indirizzati a Cloud Logging. Per un logging avanzato, puoi integrare il logger Python con Cloud Logging. Se hai bisogno del controllo completo del logging e dei log strutturati, utilizza il client Cloud Logging. Per ulteriori informazioni, consulta Registrazione di un agente e Registrazione nell'ADK.

Valutazione continua: esegui regolarmente una valutazione qualitativa dell'output degli agenti e della traiettoria o dei passaggi intrapresi dagli agenti per produrre l'output. Per implementare la valutazione dell'agente, puoi utilizzare il servizio di valutazione Gen AI o i metodi di valutazione supportati dall'ADK.

MCP

Strumenti per database: per gestire in modo efficiente gli strumenti per database per i tuoi agenti AI e per assicurarti che gestiscano in sicurezza complessità come il pooling delle connessioni e l'autenticazione, utilizza MCP Toolbox for Databases. Fornisce una posizione centralizzata per archiviare e aggiornare gli strumenti di database. Puoi condividere gli strumenti tra gli agenti e aggiornarli senza doverli ridistribuire. La casella degli strumenti include un'ampia gamma di strumenti per Google Cloud database come AlloyDB per PostgreSQL e per database di terze parti come MongoDB.

Modelli di AI generativa: per consentire agli agenti AI di utilizzare i modelli di AI generativa di Google come Imagen e Veo, puoi utilizzare i server MCP per le Google Cloud API di media generativi.

Prodotti e strumenti di sicurezza Google: per consentire ai tuoi agenti AI di accedere a prodotti e strumenti di sicurezza Google come Google Security Operations, Google Threat Intelligence e Security Command Center, utilizza i server MCP per i prodotti di sicurezza Google.

Tutti i prodotti Google Cloud dell'architettura Tracciamento: raccogli e analizza continuamente i dati di traccia utilizzando Cloud Trace. I dati di Trace ti consentono di identificare e diagnosticare rapidamente gli errori all'interno di flussi di lavoro complessi degli agenti. Puoi eseguire analisi approfondite tramite le visualizzazioni nello strumento Trace Explorer. Per maggiori informazioni, vedi Tracciare un agente.

Per principi e consigli di eccellenza operativa specifici per i workload di AI e ML, consulta Prospettiva AI e ML: eccellenza operativa nel framework Well-Architected.

Ottimizzazione dei costi

Questa sezione fornisce indicazioni per ottimizzare il costo di configurazione e gestione di una topologia Google Cloud che crei utilizzando questa architettura di riferimento.

Componente Considerazioni e consigli sulla progettazione>
Vertex AI

Analisi e gestione dei costi: per analizzare e gestire i costi di Vertex AI, ti consigliamo di creare metriche di base per le query al secondo (QPS) e i token al secondo (TPS). Poi, monitora queste metriche dopo il deployment. La baseline aiuta anche con la pianificazione della capacità. Ad esempio, la baseline ti aiuta a determinare quando potrebbe essere necessario il throughput sottoposto a provisioning.

Selezione del modello: il modello che selezioni per la tua applicazione AI influisce direttamente su costi e rendimento. Per identificare il modello che offre un equilibrio ottimale tra prestazioni e costi per il tuo caso d'uso specifico, testa i modelli in modo iterativo. Ti consigliamo di iniziare con il modello più conveniente e passare gradualmente a opzioni più potenti.

Prompt a costi contenuti: la lunghezza dei prompt (input) e delle risposte generate (output) influisce direttamente sulle prestazioni e sui costi. Scrivi prompt brevi, diretti e che forniscano un contesto sufficiente. Progetta i prompt per ottenere risposte concise dal modello. Ad esempio, includi frasi come "riassumi in 2 frasi" o "elenca 3 punti chiave". Per saperne di più, consulta le best practice per la progettazione dei prompt.

Memorizzazione nella cache del contesto: per ridurre il costo delle richieste che contengono contenuti ripetuti con un numero elevato di token di input, utilizza la memorizzazione nella cache del contesto.

Richieste batch: se pertinente, valuta la possibilità di utilizzare la previsione batch. Le richieste batch comportano un costo inferiore rispetto alle richieste standard.

Cloud Run

Allocazione delle risorse: quando crei un servizio Cloud Run, puoi specificare la quantità di memoria e CPU da allocare. Inizia con le allocazioni predefinite di CPU e memoria. Osserva l'utilizzo e il costo delle risorse nel tempo e modifica l'allocazione in base alle necessità. Per saperne di più, consulta la seguente documentazione:

Ottimizzazione della tariffa: se puoi prevedere i requisiti di CPU e memoria, puoi risparmiare denaro con gli sconti per impegno di utilizzo (CUD).

Tutti i prodotti nell'architettura Ottimizzazione post-deployment: dopo aver eseguito il deployment dell'applicazione in Google Cloud, ricevi consigli per ottimizzare ulteriormente i costi utilizzando l'hub dei consigli di Active Assist. Esamina i consigli e applicali in base al tuo ambiente. Per saperne di più, vedi Trovare i consigli nell'hub dei suggerimenti.

Per stimare il costo delle tue risorse Google Cloud , utilizza il Google Cloud Calcolatore prezzi.

Per principi e consigli di ottimizzazione dei costi specifici per i carichi di lavoro di AI e ML, consulta Prospettiva AI e ML: ottimizzazione dei costi nel framework Well-Architected.

Ottimizzazione delle prestazioni

Questa sezione descrive le considerazioni e i consigli di progettazione per progettare una topologia in Google Cloud che soddisfi i requisiti di rendimento dei tuoi workload.

Componente Considerazioni e consigli sulla progettazione
Agenti

Selezione del modello: quando selezioni i modelli per il tuo sistema di AI con agenti, considera le funzionalità richieste per le attività che gli agenti devono svolgere.

Ottimizzazione dei prompt: per migliorare e ottimizzare rapidamente il rendimento dei prompt su larga scala ed eliminare la necessità di riscrittura manuale, utilizza lo strumento di ottimizzazione dei prompt di Vertex AI. L'ottimizzatore ti aiuta ad adattare in modo efficiente i prompt a diversi modelli.

Vertex AI

Selezione del modello: il modello che selezioni per la tua applicazione AI influisce direttamente su costi e rendimento. Per identificare il modello che offre un equilibrio ottimale tra prestazioni e costi per il tuo caso d'uso specifico, testa i modelli in modo iterativo. Ti consigliamo di iniziare con il modello più conveniente e passare gradualmente a opzioni più potenti.

Prompt engineering: la lunghezza dei prompt (input) e delle risposte generate (output) influisce direttamente sul rendimento e sui costi. Scrivi prompt brevi, diretti e che forniscano un contesto sufficiente. Progetta i prompt per ottenere risposte concise dal modello. Ad esempio, includi frasi come "riassumi in 2 frasi" o "elenca 3 punti chiave". Per saperne di più, consulta le best practice per la progettazione dei prompt.

Memorizzazione nella cache del contesto: per ridurre la latenza delle richieste che contengono contenuti ripetuti con un numero elevato di token di input, utilizza la memorizzazione nella cache del contesto.

Cloud Run

Allocazione delle risorse: a seconda dei requisiti di prestazioni, configura la memoria e la CPU da allocare al servizio Cloud Run. Per saperne di più, consulta la seguente documentazione:

Per ulteriori indicazioni sull'ottimizzazione del rendimento, consulta Suggerimenti generali per lo sviluppo di Cloud Run.

Tutti i prodotti nell'architettura Ottimizzazione post-deployment: dopo aver eseguito il deployment dell'applicazione in Google Cloud, ricevi consigli per ottimizzare ulteriormente il rendimento utilizzando l'hub dei consigli di Active Assist. Esamina i consigli e applicali in base al tuo ambiente. Per saperne di più, consulta Trovare i consigli nell'hub dei suggerimenti.

Per principi e consigli di ottimizzazione delle prestazioni specifici per i carichi di lavoro di AI e ML, consulta Prospettiva AI e ML: ottimizzazione delle prestazioni nel Well-Architected Framework.

Deployment

Per scoprire come creare e implementare sistemi di AI multi-agente, utilizza i seguenti esempi di codice. Questi esempi di codice sono punti di partenza completamente funzionali per l'apprendimento e la sperimentazione. Per un funzionamento ottimale negli ambienti di produzione, devi personalizzare il codice in base ai tuoi requisiti aziendali e tecnici specifici.

  • Consulente finanziario: analizza i dati del mercato azionario, crea strategie di trading, definisce piani di esecuzione e valuta i rischi.
  • Assistente di ricerca: pianifica e conduci ricerche, valuta i risultati e componi un report di ricerca.
  • Agente assicurativo: Crea abbonamenti, fornisce assistenza stradale e gestisce le richieste di risarcimento assicurativo.
  • Ottimizzatore della ricerca: trova parole chiave di ricerca, analizza le pagine web e fornisce suggerimenti per ottimizzare la ricerca.
  • Analizzatore di dati: recupera i dati, esegui manipolazioni complesse, genera visualizzazioni ed esegui attività di ML.
  • Agente di web marketing: scegli un nome di dominio, progetta un sito web, crea campagne e produci contenuti.
  • Pianificatore Airbnb (con A2A e MCP): per una determinata località e ora, trova annunci Airbnb e ottieni informazioni meteo.

Per esempi di codice per iniziare a utilizzare l'ADK insieme ai server MCP, vedi Strumenti MCP.

Passaggi successivi

Collaboratori

Autore: Kumar Dhanagopal | Sviluppatore di soluzioni cross-prodotto

Altri collaboratori: