Infrastruttura RAG per l'AI generativa utilizzando Google Agentspace e Vertex AI

Last reviewed 2025-09-11 UTC

Questo documento fornisce un'architettura di riferimento che puoi utilizzare per progettare l'infrastruttura per un'applicazione di AI generativa con Retrieval-Augmented Generation (RAG) utilizzando Google Agentspace e Vertex AI. Questa architettura di riferimento mostra come utilizzare i servizi gestiti ed eseguire il deployment di un singolo agente AI per facilitare un flusso di dati RAG end-to-end. Google Agentspace funge da piattaforma unificata per l'orchestrazione degli agenti in tutta l'azienda. Vertex AI accelera lo sviluppo e il deployment di agenti personalizzati e fornisce datastore gestiti per facilitare il recupero efficiente per la RAG.

Il pubblico di destinazione di questo documento include architetti, sviluppatori e amministratori di applicazioni di AI generativa. Il documento presuppone che tu abbia una conoscenza di base dei concetti di AI, machine learning (ML) e modelli linguistici di grandi dimensioni (LLM). Questo documento non fornisce indicazioni su come progettare e sviluppare un'applicazione di AI generativa. Per informazioni su come progettare un'applicazione, consulta Sviluppare un'applicazione di AI generativa.

Architettura

Il seguente diagramma mostra una visione di alto livello dell'architettura presentata in questo documento:

Una visione di alto livello dei flussi di importazione e gestione dei dati nell'architettura.

L'architettura nel diagramma precedente ha due sottosistemi: importazione dati e pubblicazione.

  • Il sottosistema di importazione dei dati importa e prepara i dati da fonti esterne per l'utilizzo in RAG. Il sottosistema genera incorporamenti per i dati importati e li utilizza per creare e gestire un indice vettoriale in un datastore gestito.
  • Il sottosistema di pubblicazione contiene i servizi di frontend e backend dell'applicazione di AI generativa.
    • Il servizio frontend gestisce il flusso di query-risposta con gli utenti dell'applicazione e inoltra le query al servizio di backend.
    • Il servizio di backend utilizza Google Agentspace e Vertex AI per creare e implementare l'agente AI per orchestrare il processo RAG. Questo processo utilizza i dati vettoriali indicizzati per generare risposte contestualmente fondate e conformi ai filtri di sicurezza dell'AI responsabile.

Il seguente diagramma mostra una visualizzazione dettagliata dell'architettura:

Una visualizzazione dettagliata dei flussi di inserimento e pubblicazione dei dati nell'architettura.

Le sezioni seguenti descrivono il flusso di dati all'interno di ogni sottosistema del diagramma dell'architettura precedente.

Sottosistema di importazione dati

Il sottosistema di importazione dati importa i dati da origini esterne e li prepara per RAG. Di seguito sono riportati i passaggi del flusso di preparazione e importazione dei dati:

  1. Gli ingegneri dei dati caricano i dati da origini esterne in un bucket Cloud Storage. Le origini esterne potrebbero essere applicazioni, database o servizi di streaming.
  2. Al termine, Cloud Storage pubblica un messaggio in un argomento Pub/Sub.
  3. L'argomento Pub/Sub attiva un job di elaborazione da eseguire in Cloud Run Functions.
  4. Le funzioni Cloud Run elaborano i dati non elaborati generando e archiviando i metadati come file JSON Lines (JSONL). I file JSONL vengono archiviati in un bucket Cloud Storage separato.
  5. Al termine, le funzioni Cloud Run pubblicano un messaggio in un argomento Pub/Sub.
  6. L'argomento Pub/Sub attiva un job di elaborazione da eseguire nel datastore gestito all'interno di Google Agentspace. Il job di elaborazione estrae i dati e i metadati non elaborati inseriti dai bucket Cloud Storage, quindi analizza e suddivide i dati in blocchi per un recupero efficiente durante la pubblicazione. Google Agentspace genera automaticamente incorporamenti vettoriali senza alcuna configurazione necessaria.

Sottosistema di pubblicazione

Il sottosistema di pubblicazione gestisce il flusso di query-risposta tra l'applicazione di AI generativa e i suoi utenti. Di seguito sono riportati i passaggi del flusso di pubblicazione:

  1. Un utente dell'applicazione invia una query tramite uno dei servizi Cloud Run frontend. Puoi personalizzare questi servizi per diverse esperienze, ad esempio un'interfaccia utente di chatbot, una pagina di ricerca o un'applicazione mobile.
  2. Il servizio frontend riceve la query e la inoltra a un servizio di backend Cloud Run centralizzato. Questo backend fornisce un singolo endpoint unificato per supportare tutti i diversi client frontend. Il servizio di backend esegue anche il pre-elaborazione necessaria, che può includere la creazione di filtri per la query di ricerca. Questo approccio mantiene la logica trasparente per i frontend.
  3. Il servizio di backend invia la richiesta preparata a Google Agentspace utilizzando l'endpoint API Google Agentspace per avviare il flusso di lavoro RAG.
  4. Per elaborare la query, Google Agentspace utilizza la ricerca aziendale e l'agente personalizzato per eseguire le seguenti attività:
    1. Crea un embedding della query dell'utente.
    2. Esegui una ricerca semantica sui dati indicizzati nel datastore gestito per trovare le informazioni più pertinenti.
    3. Aumenta la query originale con i dati recuperati dal datastore gestito per creare un prompt dettagliato e contestuale.
    4. Genera una risposta finale basata sul prompt aumentato.
  5. Google Agentspace invia la risposta generata al servizio di backend Cloud Run.
  6. Il servizio di backend restituisce la risposta finale al servizio di frontend che ha inviato la richiesta originale. Il servizio frontend presenta la risposta all'utente dell'applicazione.

Prodotti utilizzati

Questa architettura di riferimento utilizza i seguenti prodotti Google Cloud :

  • Google Agentspace: una piattaforma gestita che funge da registro centrale e hub di interazione per tutti gli agenti AI all'interno di un'azienda e consente la scoperta, la governance e l'utilizzo senza problemi da parte delle applicazioni.
  • Vertex AI: una piattaforma ML che ti consente di addestrare ed eseguire il deployment di modelli ML e applicazioni AI e personalizzare LLM da utilizzare in applicazioni basate sull'AI.
    • Vertex AI Agent Engine: una piattaforma che ti consente di eseguire, gestire e scalare gli agenti AI in produzione.
  • Cloud Run: una piattaforma di computing serverless che ti consente di eseguire container direttamente sull'infrastruttura scalabile di Google.
  • Pub/Sub: un servizio di messaggistica asincrono e scalabile che disaccoppia i servizi che producono messaggi da quelli che li elaborano.
  • Cloud Storage: uno spazio di archiviazione di oggetti a basso costo e senza limiti per diversi tipi di dati. I dati sono accessibili dall'interno e dall'esterno di Google Cloude vengono replicati in più località per la ridondanza.

Casi d'uso

Questa architettura è progettata per scenari aziendali in cui l'applicazione di AI generativa deve accedere alle informazioni più aggiornate e richiede una comprensione profonda e contestuale per fornire risposte accurate.

L'architettura include un sottosistema di importazione dati personalizzato per soddisfare due requisiti aziendali chiave:

  • Disponibilità dei dati in tempo reale: la pipeline basata sugli eventi elabora i nuovi dati non appena sono disponibili nella tua organizzazione, ad esempio una nuova guida al prodotto o un report aggiornato. La pipeline rende inoltre disponibili le informazioni nel tuo datastore gestito. Questo design contribuisce a ridurre l'obsolescenza delle informazioni perché garantisce un ritardo minimo tra la disponibilità e l'utilizzo dei dati.
  • Ricerca contestuale arricchita:il job di elaborazione personalizzato consente alla tua organizzazione di applicare la propria logica di business per arricchire i dati con metadati preziosi. La funzione Cloud Run può taggare ogni documento con attributi specifici come linea di prodotti, autore, posizione o tipo di documento. Questi metadati avanzati aiutano l'agente a restringere la ricerca e a fornire risposte più precise e consapevoli del contesto.

La RAG è una tecnica efficace per migliorare la qualità dell'output generato da un LLM. Questa sezione fornisce esempi di casi d'uso per i quali puoi utilizzare applicazioni di AI generativa compatibili con RAG.

Suggerimenti personalizzati sui prodotti

Un sito di acquisti online potrebbe utilizzare un chatbot basato su LLM per aiutare i clienti a trovare prodotti o a ricevere assistenza per gli acquisti. Le domande di un utente possono essere arricchite utilizzando i dati storici sul comportamento di acquisto dell'utente e sui modelli di interazione con il sito web. I dati potrebbero includere recensioni e feedback degli utenti archiviati in un datastore non strutturato o metriche correlate alla ricerca archiviate in un data warehouse di analisi web. La domanda aumentata può essere elaborata dall'LLM per generare risposte personalizzate che l'utente potrebbe trovare più interessanti e coinvolgenti.

Sistemi di assistenza clinica

I medici negli ospedali devono analizzare e diagnosticare rapidamente le condizioni di salute di un paziente per prendere decisioni su cure e farmaci appropriati. Un'applicazione di AI generativa che utilizza un LLM medico come Med-PaLM può essere utilizzata per assistere i medici nella procedura di diagnosi clinica. Le risposte generate dall'applicazione possono essere basate sulle cartelle cliniche storiche dei pazienti contestualizzando i prompt dei medici con i dati del database delle cartelle cliniche elettroniche (EHR) dell'ospedale o di una knowledge base esterna come PubMed.

La ricerca legale basata sull'AI generativa consente agli avvocati di interrogare rapidamente grandi volumi di leggi e giurisprudenza per identificare precedenti legali pertinenti o riassumere concetti legali complessi. I risultati di questa ricerca possono essere migliorati aumentando i prompt di un avvocato con i dati recuperati dal corpus proprietario di contratti, comunicazioni legali passate e registri interni dello studio legale. Questo approccio di progettazione garantisce che le risposte generate siano pertinenti al settore legale in cui l'avvocato è specializzato.

Alternative di progettazione

Questa sezione presenta approcci di progettazione alternativi che puoi prendere in considerazione per la tua applicazione di AI generativa compatibile con RAG in Google Cloud.

Alternative all'infrastruttura AI

Se hai bisogno di un'architettura che utilizzi un prodotto di ricerca vettoriale completamente gestito, puoi utilizzare Vertex AI e Vector Search, che forniscono un'infrastruttura di pubblicazione ottimizzata per ricerche vettoriali su larga scala. Per ulteriori informazioni, consulta Infrastruttura RAG per l'AI generativa utilizzando Vertex AI e Vector Search.

Se vuoi sfruttare le funzionalità di vector store di un database Google Cloud completamente gestito come AlloyDB per PostgreSQL o Cloud SQL, consulta Infrastruttura RAG per l'AI generativa utilizzando Vertex AI e AlloyDB per PostgreSQL.

Se vuoi creare ed eseguire il deployment rapidamente di applicazioni di AI generativa compatibili con RAG utilizzando strumenti e modelli open source come Ray, Hugging Face e LangChain, consulta Infrastruttura RAG per l'AI generativa utilizzando GKE e Cloud SQL.

Opzioni di hosting delle applicazioni

Nell'architettura mostrata in questo documento, Cloud Run è l'host per l'applicazione di AI generativa e il trattamento dei dati. Cloud Run è un'applicazione completamente gestita e incentrata sugli sviluppatori. Puoi anche eseguire il deployment della tua applicazione su Vertex AI Agent Engine, cluster GKE o su VM Compute Engine.

Per scegliere un host dell'applicazione, valuta i seguenti compromessi tra flessibilità di configurazione e sforzo di gestione:

  • Con l'opzione serverless Cloud Run, esegui il deployment dei tuoi servizi personalizzati in un ambiente gestito e preconfigurato. Per ospitare i servizi frontend e la logica di backend personalizzata per il pre-elaborazione delle richieste, questa architettura richiede la possibilità di eseguire il deployment di applicazioni personalizzate.
  • Con l'opzione Vertex AI Agent Engine, utilizzi una piattaforma completamente gestita progettata per l'erogazione di agenti. Vertex AI Agent Engine riduce il sovraccarico di gestione e garantisce una stretta integrazione con Google Agentspace.
  • Con le VM di Compute Engine e i container GKE, sei responsabile della gestione delle risorse di calcolo sottostanti, ma hai maggiore flessibilità e controllo della configurazione.

Per ulteriori informazioni sulla scelta di un servizio di hosting di applicazioni appropriato, consulta i seguenti documenti:

Altre opzioni di infrastruttura

Per informazioni su altre opzioni di infrastruttura, modelli supportati e tecniche di grounding che puoi utilizzare per le applicazioni di AI generativa in Google Cloud, consulta Scegliere modelli e infrastruttura per la tua applicazione di AI generativa.

Considerazioni sulla progettazione

Questa sezione fornisce indicazioni per aiutarti a sviluppare un'architettura di AI generativa con funzionalità RAG in Google Cloud che soddisfi i tuoi requisiti specifici di sicurezza e conformità, affidabilità, costi e prestazioni. Le indicazioni riportate in questa sezione non sono esaustive. A seconda dei requisiti specifici della tua applicazione di AI generativa e dei Google Cloud prodotti e delle funzionalità che utilizzi, potresti dover prendere in considerazione ulteriori fattori di progettazione e compromessi.

Per una panoramica dei principi e dei consigli architetturali specifici per i workload di AI e ML in Google Cloud, consulta la prospettiva AI e ML nel framework Well-Architected.

Sicurezza, privacy e conformità

Questa sezione descrive le considerazioni e i consigli di progettazione per progettare una topologia in Google Cloud che soddisfi i requisiti di sicurezza e conformità del tuo workload.


Prodotto

Considerazioni e consigli sulla progettazione

Vertex AI

Vertex AI supporta Google Cloud controlli di sicurezza che puoi utilizzare per soddisfare i tuoi requisiti di residenza dei dati, crittografia dei dati, sicurezza di rete e trasparenza degli accessi. Per saperne di più, consulta la seguente documentazione: Google Agentspace Enterprise elimina i dati richiesti dall'utente entro 60 giorni. Per saperne di più, consulta la sezione Eliminazione dei dati su Google Cloud.

I modelli di AI generativa potrebbero produrre risposte dannose, soprattutto quando vengono richiesti esplicitamente. Per migliorare la sicurezza e mitigare potenziali abusi, puoi configurare i filtri dei contenuti in modo che fungano da barriere alle risposte dannose. Per saperne di più, consulta Filtri per la sicurezza e i contenuti.

Cloud Run

Per impostazione predefinita, Cloud Run cripta i dati utilizzando Google-owned and Google-managed encryption keys. Per proteggere i tuoi container utilizzando chiavi che controlli, puoi utilizzare le chiavi di crittografia gestite dal cliente (CMEK). Per saperne di più, vedi Utilizzare le chiavi di crittografia gestite dal cliente.

Per garantire che venga eseguito il deployment solo delle immagini container autorizzate su Cloud Run, puoi utilizzare Autorizzazione binaria.

Cloud Run ti aiuta a soddisfare i requisiti di residenza dei dati. Le tue funzioni Cloud Run vengono eseguite all'interno della regione selezionata.

Cloud Storage

Per impostazione predefinita, Cloud Storage cripta i dati archiviati utilizzando Google-owned and Google-managed encryption keys. Se necessario, puoi utilizzare le chiavi CMEK o le tue chiavi gestite utilizzando un metodo di gestione esterno come le chiavi di crittografia fornite dal cliente (CSEK). Per saperne di più, vedi Opzioni di crittografia dei dati.

Cloud Storage supporta due metodi per concedere agli utenti l'accesso ai bucket e agli oggetti: Identity and Access Management (IAM) ed elenchi di controllo dell'accesso (ACL). Nella maggior parte dei casi, ti consigliamo di utilizzare IAM, che ti consente di concedere autorizzazioni a livello di bucket e progetto. Per ulteriori informazioni, consulta Panoramica del controllo dell'accesso.

I dati caricati nel sottosistema di importazione dati tramite Cloud Storage potrebbero includere dati sensibili. Puoi utilizzare Sensitive Data Protection per rilevare, classificare e anonimizzare i dati sensibili. Per maggiori informazioni, consulta Utilizzo di Sensitive Data Protection con Cloud Storage.

Cloud Storage ti aiuta a soddisfare i requisiti di residenza dei dati. Cloud Storage archivia o replica i dati all'interno della regione che specifichi.

Pub/Sub

Per impostazione predefinita, Pub/Sub cripta tutti i messaggi, inclusi quelli at-rest e in transito, utilizzando Google-owned and Google-managed encryption keys. Pub/Sub supporta l'utilizzo di chiavi CMEK per la crittografia dei messaggi a livello di applicazione. Per ulteriori informazioni, vedi Configurare la crittografia dei messaggi.

Se hai requisiti di residenza dei dati, per assicurarti che i dati dei messaggi vengano archiviati in posizioni specifiche, puoi configurare criteri di archiviazione dei messaggi.

Per principi e consigli di sicurezza specifici per i workload AI e ML, consulta Prospettiva AI e ML: sicurezza nel framework Well-Architected.

Affidabilità

Questa sezione descrive considerazioni e consigli di progettazione per creare e gestire un'infrastruttura affidabile per il tuo deployment in Google Cloud.


Prodotto

Considerazioni e consigli sulla progettazione

Vertex AI

Vertex AI garantisce la residenza dei dati a riposo. Vertex AI archivia i dati di origine, inclusi i dati per RAG nel datastore gestito, nella Google Cloud posizione che hai selezionato. Questa separazione dell'elaborazione dall'archiviazione è un aspetto fondamentale del modo in cui la piattaforma offre elevata affidabilità e conformità.

Cloud Run

Cloud Run è un servizio regionale che archivia i dati in modo sincrono in più zone all'interno di una regione. Il servizio bilancia automaticamente il carico del traffico tra le zone. Se si verifica un'interruzione della zona, i job Cloud Run continuano a essere eseguiti e i dati non vengono persi. Se si verifica un'interruzione del servizio a livello di regione, i job Cloud Run smettono di essere eseguiti finché Google non risolve l'interruzione.

I singoli job o attività Cloud Run potrebbero non riuscire. Per gestire questi errori, puoi utilizzare i tentativi di ripetizione delle attività e il checkpointing. Per ulteriori informazioni, consulta le best practice per i tentativi ripetuti e i checkpoint dei job.

Cloud Storage

Puoi creare bucket Cloud Storage in uno dei tre tipi di località: regionale, con due regioni o multiregionale. Per i dati nei bucket regionali, Cloud Storage replica in modo sincrono i dati in più zone all'interno di una regione. Per una maggiore disponibilità, puoi utilizzare bucket a due o più regioni, in cui Cloud Storage replica i dati in modo asincrono tra le regioni. Assicurati che la tua scelta sia in linea con i requisiti di conformità.

Per principi e consigli di affidabilità specifici per i workload AI e ML, consulta Prospettiva AI e ML: affidabilità nel framework Well-Architected.

Ottimizzazione dei costi

Questa sezione fornisce indicazioni per ottimizzare il costo di configurazione e gestione di una topologia Google Cloud che crei utilizzando questa architettura di riferimento.


Prodotto

Considerazioni e consigli sulla progettazione

Vertex AI

Il modello di AI sottostante richiamato dall'agente può influire direttamente sul costo di utilizzo dell'agente. I prezzi vengono calcolati in base al numero di token di input e output per ogni richiesta. Per ulteriori informazioni, consulta Quote e limiti di sistema dell'AI generativa su Vertex AI e il calcolatore dei prezzi diGoogle Cloud.

Per informazioni su come ridurre al minimo il conteggio dei token per ridurre i costi, consulta Ottimizzare la lunghezza del prompt e dell'output.

Cloud Run Functions

Quando crei job Cloud Run, specifichi la quantità di memoria e CPU da allocare all'istanza di container. Per controllare i costi, inizia con le allocazioni predefinite di CPU e memoria. Per migliorare le prestazioni, puoi aumentare l'allocazione configurando il limite CPU e il limite di memoria.

Se riesci a prevedere i requisiti di CPU e memoria dei tuoi job Cloud Run, puoi risparmiare denaro con gli sconti per impegno di utilizzo. Per ulteriori informazioni, consulta la pagina relativa agli sconti per impegno di utilizzo di Cloud Run.

Cloud Storage

Per il bucket Cloud Storage che utilizzi per caricare i dati nel sottosistema di importazione dati, scegli una classe di archiviazione appropriata in base ai requisiti di conservazione dei dati e frequenza di accesso dei tuoi carichi di lavoro. Ad esempio, puoi scegliere la classe di archiviazione Standard e utilizzare Gestione del ciclo di vita degli oggetti per controllare i costi di archiviazione. Gestione del ciclo di vita degli oggetti esegue automaticamente il downgrade degli oggetti a una classe di archiviazione a costi inferiori o elimina gli oggetti in base alle condizioni che hai impostato.

Per principi e consigli di ottimizzazione dei costi specifici per i carichi di lavoro di AI e ML, consulta Prospettiva AI e ML: ottimizzazione dei costi nel framework Well-Architected.

Ottimizzazione delle prestazioni

Questa sezione descrive le considerazioni e i consigli di progettazione per progettare una topologia in Google Cloud che soddisfi i requisiti di rendimento dei tuoi workload.


Prodotto

Considerazioni e consigli sulla progettazione

Google Agentspace

Per ridurre la latenza durante la pubblicazione, trasmetti le risposte inviando le risposte del modello prima che l'agente generi l'output completo. Ciò consente l'elaborazione in tempo reale dell'output e puoi aggiornare immediatamente l'interfaccia utente ed eseguire altre attività simultanee. Lo streaming migliora la reattività percepita e crea un'esperienza utente più interattiva. Per maggiori informazioni, consulta Risposte in streaming.

Cloud Run

Regola l'allocazione di memoria e CPU per le istanze Cloud Run in base ai requisiti di rendimento. Per ulteriori informazioni, consulta Configurare i limiti della CPU per i job e Configurare i limiti di memoria per i servizi.

Cloud Storage

Per caricare file di grandi dimensioni, puoi utilizzare un metodo chiamato caricamenti compositi paralleli. Con questa strategia, il file di grandi dimensioni viene suddiviso in blocchi. Carichi i blocchi in Cloud Storage in parallelo e Cloud Storage riassembla i dati in Google Cloud. I caricamenti compositi paralleli possono essere più veloci delle normali operazioni di caricamento se disponi di larghezza di banda di rete e velocità del disco sufficienti. Tuttavia, questa strategia presenta alcune limitazioni e implicazioni in termini di costi. Per saperne di più, consulta Caricamenti compositi paralleli.

Per principi e consigli di ottimizzazione delle prestazioni specifici per i carichi di lavoro di AI e ML, consulta Prospettiva AI e ML: ottimizzazione delle prestazioni nel Well-Architected Framework.

Deployment

Per eseguire il deployment di questa architettura di riferimento, utilizza l'esempio Terraform disponibile su GitHub. Per ulteriori informazioni, consulta Infrastruttura RAG per applicazioni di AI generativa utilizzando Google Agentspace e Vertex AI.

Passaggi successivi

Collaboratori

Autore: Samantha He | Technical Writer

Altri collaboratori: