Questa pagina è stata tradotta dall'API Cloud Translation.

Infrastruttura per un'applicazione di IA generativa compatibile con RAG che utilizza Vertex AI

Last reviewed 2024-06-07 UTC

Questo documento fornisce un'architettura di riferimento che puoi utilizzare per progettare l'infrastruttura per eseguire un'applicazione di intelligenza artificiale (IA) generativa con la retrieval-augmented generation (RAG). Il pubblico di destinazione di questo documento include sviluppatori e amministratori delle applicazioni di AI generativa e dei cloud architect. Il documento presuppone una conoscenza di base dei concetti di IA, machine learning (ML) e modelli linguistici di grandi dimensioni (LLM). Questo documento non fornisce indicazioni su come progettare e sviluppare un'applicazione di IA generativa.

Architettura

Il seguente diagramma mostra una vista di alto livello di un'architettura per un'applicazione di IA generativa compatibile con RAG in Google Cloud:

Un'architettura di alto livello per un'applicazione di AI generativa compatibile con RAG in Google Cloud.

L'architettura contiene i seguenti componenti interconnessi:

Componente	Finalità	Interazioni
Sottosistema di importazione dati	Prepara ed elabora i dati esterni utilizzati per attivare la funzionalità RAG.	Il sottosistema di importazione dati interagisce con gli altri sottosistemi dell'architettura a livello di database.
Sottosistema di pubblicazione	Gestire il flusso di richiesta-risposta tra l'AI generativa dell'applicazione e dei relativi utenti.	Il sottosistema di pubblicazione interagisce con il sottosistema di importazione dei dati tramite il livello del database.
Sottosistema di valutazione della qualità	Valutare la qualità delle risposte che il sottosistema di pubblicazione generato.	Il sottosistema di valutazione della qualità interagisce con il sottosistema di pubblicazione direttamente e con il sottosistema di importazione dati tramite il database livello di sicurezza.
Database	Memorizza i seguenti dati: Prompt Embedding vettorializzati dei dati utilizzati per RAG Configurazione dei job serverless nei sottosistemi di importazione dei dati e di valutazione della qualità	Tutti i sottosistemi dell'architettura interagiscono con i database.

Il seguente diagramma mostra una vista dettagliata dell'architettura:

Un'architettura dettagliata per un'applicazione di IA generativa compatibile con RAG in Google Cloud.

Le seguenti sezioni forniscono descrizioni dettagliate dei componenti e dei dati flusso all'interno di ogni sottosistema dell'architettura.

Sottosistema di importazione dati

Il sottosistema di importazione dei dati importa i dati da origini esterne come file, database e servizi di streaming. I dati caricati includono prompt per la valutazione della qualità. Il sottosistema di importazione dati fornisce la funzionalità RAG l'architettura. Il seguente diagramma mostra i dettagli del sottosistema di importazione dei dati nell'architettura:

Il sottosistema di importazione dei dati per un'applicazione di IA generativa compatibile con RAG in Google Cloud.

Di seguito sono riportati i passaggi del flusso di importazione dati:

I dati sono caricati su un bucket Cloud Storage. L'origine dati potrebbe essere un utente di un'applicazione che esegue un caricamento, un'importazione di database o flussi e i dati di Google Cloud.
Quando i dati vengono caricati, viene inviata una notifica a un argomento Pub/Sub.
Pub/Sub attiva un job Cloud Run per elaborare per i dati caricati.
Cloud Run avvia il job utilizzando i dati di configurazione archiviato in un database AlloyDB per PostgreSQL.
Il job Cloud Run utilizza Document AI per prepararsi per elaborarli ulteriormente. Ad esempio, la preparazione può includere analizzare i dati, convertirli nel formato richiesto e dividere i dati in blocchi.
Il job Cloud Run utilizza Vertex AI Incorporamenti per la creazione del modello di testo incorporamenti vettoriali dei dati importati.

Nota: l'applicazione di IA generativa che sviluppi deve utilizzare gli stessi parametri e lo stesso modello di embedding per il testo per convertire le richieste in linguaggio naturale in embedding.
Cloud Run memorizza le istanze incorporate in un database AlloyDB per PostgreSQL in cui è attivata l'estensione pgvector. Come descritto nella sezione seguente, quando il sottosistema di pubblicazione elabora le richieste degli utenti, utilizza gli embedding nel database di vettori per recuperare i dati pertinenti specifici del dominio.

Sottosistema di pubblicazione

Il sottosistema di pubblicazione gestisce il flusso di richiesta-risposta tra l'applicazione di AI generativa e i suoi utenti. Il seguente diagramma mostra i dettagli del sottosistema di pubblicazione nell'architettura:

Il sottosistema di gestione per un'applicazione di AI generativa compatibile con RAG in Google Cloud.

Di seguito sono riportati i passaggi del flusso di richiesta-risposta nel sottosistema di pubblicazione:

Gli utenti inviano richieste all'applicazione di IA generativa tramite un frontend (ad esempio un chatbot o un'app mobile).
L'applicazione di AI generativa converte la richiesta in linguaggio naturale incorporamenti.

Nota: per creare gli incorporamenti, l'applicazione di AI generativa a cui devono utilizzare gli stessi rappresentazioni distribuite per il modello di testo e i parametri per convertire i dati esterni in incorporamenti.
L'applicazione completa la parte di recupero dell'approccio RAG:
1. L'applicazione esegue una ricerca semantica dell'embedding nello store vettoriale AlloyDB per PostgreSQL gestito dal sottosistema di importazione dei dati. La ricerca semantica aiuta a trovare gli incorporamenti in base alla l'intento di un prompt piuttosto che il suo contenuto testuale.
2. L'applicazione combina la richiesta originale con i dati non elaborati recuperati in base all'embedding corrispondente per creare un prompt contestualizzato.
L'applicazione invia il prompt contestualizzato a un'inferenza LLM e lo stack che viene eseguito su Vertex AI.
La pila di inferenza LLM utilizza un LLM di IA generativa, che può essere un LLM di base o un LLM personalizzato, e genera una risposta vincolata al contesto fornito.
1. L'applicazione può archiviare i log dell'attività di richiesta-risposta in Cloud Logging. Puoi visualizzare e utilizzare i log per il monitoraggio utilizzando Cloud Monitoring. Google non accede ai dati dei log e non li utilizza.
2. L'applicazione carica le risposte in BigQuery per l'analisi offline.
L'applicazione filtra le risposte filtri per l'IA responsabile.
L'applicazione invia le risposte filtrate agli utenti tramite il frontend.

Sottosistema di valutazione della qualità

Il seguente diagramma mostra i dettagli del sottosistema di valutazione della qualità in dell'architettura:

Il sottosistema di valutazione della qualità per un'applicazione di IA generativa compatibile con RAG in Google Cloud.

Quando il sottosistema di valutazione della qualità riceve una richiesta, procede nel seguente modo:

Pub/Sub attiva un job Cloud Run.
Cloud Run avvia il job utilizzando i dati di configurazione archiviato in un database AlloyDB per PostgreSQL.
Il job Cloud Run estrae le richieste di valutazione da un database AlloyDB per PostgreSQL. I prompt sono stati caricati in precedenza dal sottosistema di importazione dati.
Il job Cloud Run utilizza i prompt di valutazione per valutare la qualità delle risposte generate dal sottosistema di pubblicazione.

L'output di questa valutazione è costituito dai punteggi di valutazione per le metriche come l'accuratezza e la pertinenza dei fatti.
Cloud Run carica i punteggi di valutazione e i prompt e risposte valutate in BigQuery per il futuro e analisi.

Prodotti utilizzati

Di seguito è riportato un riepilogo di tutti i prodotti Google Cloud utilizzati dall'architettura precedente:

Vertex AI: una piattaforma di ML che consente di addestrare ed eseguire il deployment di modelli ML applicazioni di IA e AI, nonché personalizzare gli LLM per l'utilizzo nelle applicazioni basate sull'AI.
Cloud Run: una piattaforma di serverless computing che ti consente di eseguire i container direttamente sull'infrastruttura scalabile di Google.
BigQuery: un data warehouse aziendale che ti aiuta a gestire e analizzare i dati con funzionalità integrate come il machine learning geospaziale analisi e business intelligence.
Cloud Storage: un archivio di oggetti economico e senza limiti per diversi tipi di dati. I dati sono accessibili dall'interno e dall'esterno di Google Cloud replicati in più località per la ridondanza.
AlloyDB per PostgreSQL: un servizio di database completamente gestito e compatibile con PostgreSQL, progettato per i carichi di lavoro più impegnativi, tra cui l'elaborazione analitica e transazionale ibrida.
Document AI: una piattaforma di elaborazione di documenti che acquisisce dati non strutturati dai documenti e li trasforma in dati strutturati.
Pub/Sub: un servizio di messaggistica asincrono e scalabile che consente di disaccoppiare i servizi che producono messaggi da quelli che li elaborano.
Cloud Logging: un sistema di gestione dei log in tempo reale con archiviazione, ricerca, analisi e generazione di avvisi.
Cloud Monitoring: un servizio che offre visibilità su prestazioni, disponibilità e integrità delle tue applicazioni e dell'infrastruttura.

Casi d'uso

RAG è una tecnica efficace per migliorare la qualità dell'output, generati da un LLM. Questa sezione fornisce esempi di casi d'uso per i quali possono utilizzare applicazioni di AI generativa compatibili con RAG.

Suggerimenti personalizzati sui prodotti

Un sito di shopping online potrebbe utilizzare un chatbot basato su LLM per aiutare i clienti a trovare prodotti o ricevere assistenza in merito agli acquisti. Le domande di un l'utente può essere incrementato utilizzando dati storici relativi al suo comportamento di acquisto e i modelli di interazione con il sito web. I dati potrebbero includere recensioni degli utenti e Feedback archiviato in un datastore non strutturato o in metriche relative alla ricerca in un data warehouse di analisi dei dati web. La domanda aumentata può essere poi elaborato dall'LLM per generare risposte personalizzate che l'utente potrebbero trovare più interessanti e convincenti.

Sistemi di assistenza clinica

I medici degli ospedali devono analizzare e diagnosticare rapidamente le condizioni di salute di un paziente per prendere decisioni in merito a cure e farmaci appropriati. Un'applicazione di AI generativa che utilizza un modello LLM medico come Med-PaLM può essere utilizzata per assistere i medici nella procedura di diagnosi clinica. Le risposte generate dall'applicazione possono essere basate sui record storici dei pazienti contestualizzando le richieste dei medici con i dati del database della cartella clinica elettronica (CCE) dell'ospedale o di una knowledge base esterna come PubMed.

Ricerca legale efficiente

La ricerca legale basata sull'IA generativa consente agli avvocati di interrogare rapidamente grandi volumi di statuti e giurisprudenza per identificare i precedenti legali pertinenti o riassumere concetti giuridici complessi. Il risultato di questa ricerca può essere migliorato integrando le richieste di un avvocato con i dati recuperati dal corpus proprietario di contratti, comunicazioni legali passate e record interni delle cause dello studio legale. Questo approccio di progettazione garantisce che le risposte generate siano pertinenti al dominio legale in cui l'avvocato è specializzato.

Alternativa di progettazione

Per i componenti del repository di vettori e della ricerca semantica nell'architettura, puoi utilizzare Vertex AI Vector Search. Ricerca di vettori è un servizio completamente gestito che fornisce un'infrastruttura di pubblicazione ottimizzata per la ricerca di vettori su larga scala. I dati non elaborati (testo chunk) possono essere archiviati in archivi di oggetti come Cloud Storage o di archiviazione chiave-valore come Filestore. In entrambi i casi, la rappresentazione vettoriale di ogni frammento di testo non elaborato viene archiviata in Vector Search.

Quando i dati vengono importati, a ogni blocco di testo non elaborato viene assegnato un ID univoco, che viene utilizzato come nome file dell'oggetto in Cloud Storage. Lo stesso ID è utilizzato come ID vettoriale in Vector Search.

Al momento della pubblicazione, una query di testo in entrata viene convertita in vettore di incorporamento. La ricerca vettoriale esegue una ricerca di somiglianza per restituire vettori semanticamente simili. Gli ID vettoriali vengono quindi utilizzati per cercare a blocchi di testo originali. Nel loro insieme, questi blocchi di testo forniscono il contesto pertinente di cui l'LLM ha bisogno per completare una determinata attività.

Per informazioni su come creare, implementare ed eseguire query su un indice di ricerca vettoriale, consulta la guida rapida di Ricerca vettoriale.

Note sul layout

Questa sezione fornisce indicazioni per aiutarti a sviluppare un'architettura di IA generativa compatibile con RAG in Google Cloud che soddisfi i tuoi requisiti specifici per sicurezza e conformità, affidabilità, costi e prestazioni. Le indicazioni riportate in questa sezione non sono esaustive. A seconda dei requisiti specifici della tua applicazione di IA generativa e dei prodotti e delle funzionalità Google Cloud che utilizzi, potresti dover prendere in considerazione fattori di progettazione e compromessi aggiuntivi.

Sicurezza e conformità

Questa sezione descrive i fattori da considerare durante la progettazione e la creazione di un'applicazione di IA generativa compatibile con RAG in Google Cloud che soddisfi i tuoi requisiti di sicurezza e conformità.

Prodotto	Note sul layout
Vertex AI	Vertex AI supporta i controlli di sicurezza di Google Cloud che puoi utilizzare per soddisfare i requisiti di residenza dei dati, crittografia, sicurezza della rete e trasparenza degli accessi. Per maggiori informazioni le informazioni, vedi Controlli di sicurezza per Vertex AI e Controlli di sicurezza per l'IA generativa.
Cloud Run	Per impostazione predefinita, Cloud Run cripta i dati utilizzando una Chiave di proprietà di Google e gestita da Google. Per proteggere i container mediante una chiave gestita da te, puoi utilizzare le chiavi di crittografia gestite dal cliente (CMEK). Per ulteriori informazioni, vedi Utilizzo di chiavi di crittografia gestite dal cliente. Per garantire che venga eseguito il deployment nell'istanza solo delle immagini container autorizzate in Cloud Run, puoi utilizzare Autorizzazione binaria. Cloud Run ti aiuta a soddisfare i requisiti di residenza dei dati. Le istanze di container Cloud Run vengono eseguite all'interno della regione che selezioni.
AlloyDB per PostgreSQL	Per impostazione predefinita, i dati archiviati in AlloyDB per PostgreSQL sono criptati mediante chiavi di proprietà e gestite da Google. Se hai bisogno di usare la crittografia che controlli e gestisci, puoi usare le CMEK. Per maggiori informazioni le informazioni, vedi Informazioni su CMEK. Per ridurre il rischio di esfiltrazione di dati da AlloyDB per PostgreSQL puoi creare un perimetro di servizio con Controlli di servizio VPC. Per impostazione predefinita, un'istanza AlloyDB per PostgreSQL accetta solo connessioni che utilizzano SSL. Per proteggere ulteriormente le connessioni ai database AlloyDB per PostgreSQL, puoi utilizzare il connettore proxy di autenticazione AlloyDB per PostgreSQL. Il connettore del proxy di autenticazione fornisce l'autorizzazione per la connessione basata su Identity and Access Management (IAM) e utilizza una connessione TLS 1.3 con una crittografia AES a 256 bit per verificare il client le identità dei server e criptare il traffico dei dati. Per saperne di più, consulta Informazioni sul proxy di autenticazione AlloyDB per PostgreSQL. Per le connessioni create utilizzando Java, Python o Go, utilizza il connettore del linguaggio appropriato anziché il connettore del proxy di autenticazione. AlloyDB per PostgreSQL ti aiuta a soddisfare i requisiti di residenza dei dati. I dati vengono archiviati o replicati nelle regioni specificate.
BigQuery	BigQuery offre molte funzionalità che puoi utilizzare per controllare l'accesso ai dati, proteggere i dati sensibili e garantire l'accuratezza e la coerenza dei dati. Per ulteriori informazioni, vedi Introduzione alla governance dei dati in BigQuery. BigQuery ti aiuta a soddisfare i requisiti di residenza dei dati. I dati vengono archiviati nella regione specificata.
Cloud Storage	Per impostazione predefinita, i dati archiviati in Cloud Storage vengono criptati utilizzando chiavi di proprietà e gestite da Google. Se necessario, puoi utilizzare le chiavi CMEK o le tue chiavi che gestisci utilizzando un metodo di gestione esterno come le chiavi di crittografia fornite dal cliente (CSEK). Per maggiori informazioni, consulta Opzioni di crittografia dei dati. Cloud Storage supporta due metodi per concedere l'accesso agli utenti ai bucket e agli oggetti: IAM ed elenchi di controllo dell'accesso (ACL). Nella maggior parte dei casi, ti consigliamo di utilizzare IAM, che ti consente di concedere autorizzazioni a livello di bucket e progetto. Per ulteriori informazioni, consulta Panoramica del controllo dell'accesso. I dati caricati nel sottosistema di importazione dei dati tramite Cloud Storage potrebbero includere dati sensibili. Per proteggere tali dati, puoi utilizzare Sensitive Data Protection per scoprire, classificare e anonimizzare i dati. Per ulteriori informazioni, consulta Utilizzo della protezione dei dati sensibili con Cloud Storage. Cloud Storage ti aiuta a soddisfare i requisiti di residenza dei dati. I dati vengono archiviati o replicati nelle regioni specificate.
Pub/Sub	Per impostazione predefinita, Pub/Sub cripta tutti i messaggi, sia at-rest che in transito, utilizzando chiavi di proprietà e gestite da Google. Pub/Sub supporta l'utilizzo delle chiavi CMEK per la crittografia dei messaggi a livello di applicazione. Per ulteriori informazioni, consulta Configurare la crittografia dei messaggi. Se hai requisiti di residenza dei dati, per assicurarti che i dati dei messaggi in posizioni specifiche, puoi configurare i criteri di archiviazione dei messaggi.
Document AI	Per impostazione predefinita, i dati at-rest vengono criptati utilizzando le chiavi di crittografia gestite da Google. Se devi utilizzare chiavi di crittografia che controlli e gestisci, puoi utilizzare le CMEK. Per ulteriori informazioni, consulta Sicurezza e conformità di Document AI.
Cloud Logging	Gli audit log delle attività di amministrazione sono abilitati per impostazione predefinita per tutti i servizi Google Cloud utilizzati in questa architettura di riferimento. Questi log registrano le chiamate API o altre azioni che modificano la configurazione o i metadati delle risorse Google Cloud. Gli log di controllo per l'accesso ai dati sono abilitati per impostazione predefinita per BigQuery. Per gli altri servizi utilizzati in questa l'architettura, puoi attivare i log di controllo di accesso ai dati. I log ti consentono monitorare le chiamate API che leggono la configurazione o i metadati delle risorse richieste degli utenti di creare, modificare o leggere i dati delle risorse forniti dall'utente. Per contribuire a soddisfare i requisiti di residenza dei dati, puoi configurare Cloud Logging in modo da archiviare i dati di log nella regione specificata. Per ulteriori informazioni, consulta Regionalizzare i log.

Per linee guida generali sui principi di sicurezza da considerare per le applicazioni dell'AI, vedi Presentazione del Secure AI Framework di Google.

Affidabilità

Questa sezione descrive i fattori di progettazione da prendere in considerazione per creare e gestire un'infrastruttura affidabile per un'applicazione di IA generativa compatibile con RAG in Google Cloud.

Prodotto	Note sul layout
Cloud Run	Cloud Run è un servizio a livello di regione. I dati vengono archiviati in modo sincrono in più zone all'interno di una regione. Il traffico è viene automaticamente bilanciato il carico tra le zone. In caso di interruzione di una zona i job Cloud Run continuano a essere eseguiti e i dati hanno perso. Se si verifica un'interruzione del servizio in una regione, i job Cloud Run non vengono più eseguiti finché Google non risolve il problema. I singoli job o le singole attività Cloud Run potrebbero non riuscire. A per gestire questi errori, puoi utilizzare senza nuovi tentativi e controlli. Per ulteriori informazioni, consulta Best practice per i tentativi di ripetizione e i checkpoint dei job.
AlloyDB per PostgreSQL	Per impostazione predefinita, i cluster AlloyDB per PostgreSQL offrono disponibilità elevata con failover automatico. L'istanza principale contiene dati di nodi situati in due zone diverse all'interno di una regione. Questo la ridondanza assicura che i cluster siano robusti contro la zona o in caso di interruzione del servizio. Per pianificare il ripristino dopo le interruzioni della regione, puoi utilizzare replica tra regioni.
BigQuery	I dati caricati in BigQuery vengono archiviati in modo sincrono in due zone all'interno della regione specificata. Questa ridondanza contribuisce a garantire che i dati non vadano persi in caso di interruzione del servizio in una zona. Per ulteriori informazioni sulle funzionalità di affidabilità in BigQuery, vedi Comprendere l'affidabilità.
Cloud Storage	Puoi creare bucket Cloud Storage in uno dei tre tipi di località: regionale, con due regioni o multiregionale. I dati archiviati nei bucket regionali vengono replicati in modo sincrono in più zone all'interno di una regione. Per una maggiore disponibilità, puoi utilizzare due o più regioni dei bucket, dove i dati vengono replicati in modo asincrono tra le regioni.
Pub/Sub	Per gestire picchi temporanei nel traffico dei messaggi, puoi configurare il controllo del flusso nelle impostazioni del publisher. Per gestire le pubblicazioni non riuscite, modifica le variabili di richiesta di ripetizione come necessario. Per ulteriori informazioni, consulta la sezione Reitentare le richieste.
Document AI	Document AI è un servizio regionale. I dati vengono archiviati in modo sincrono tra più zone all'interno di una regione. Il traffico viene bilanciato automaticamente tra le zone. Se si verifica un'interruzione della zona, i dati non vengono persi. Se si verifica un'interruzione di una regione, Document AI non sarà disponibile finché Google non risolverà il problema o un'interruzione del servizio.

Ottimizzazione dei costi

Questa sezione fornisce indicazioni per aiutarti a ottimizzare il costo della configurazione e del funzionamento di un'applicazione di IA generativa compatibile con RAG in Google Cloud.

Prodotto	Note sul layout
Cloud Run	Quando crei job Cloud Run, specifichi la quantità e CPU da allocare all'istanza di container. Per controllare i costi, inizia con le allocazioni predefinite (minime) di CPU e memoria. Per migliorare il rendimento, puoi aumentare l'allocazione configurando Limite CPU e di memoria standard. Se puoi prevedere i requisiti di CPU e memoria in Cloud Run, puoi risparmiare denaro ottenendo per l'utilizzo per impegno di utilizzo. Per ulteriori informazioni, vedi Sconti per impegno di utilizzo di Cloud Run.
AlloyDB per PostgreSQL	Per impostazione predefinita, un'istanza principale di un cluster AlloyDB per PostgreSQL è a disponibilità elevata (HA). L'istanza ha un nodo attivo e un nodo di riserva. Se il nodo attivo non funziona, AlloyDB per PostgreSQL esegue automaticamente il failover sul nodo di standby. Se non hai bisogno dell'HA per i database, puoi ridurre i costi impostando l'istanza principale del cluster come istanza di base. Un'istanza di base non è molto resistente alle interruzioni di servizio nelle zone e presenta tempi di inattività più lunghi durante le operazioni di manutenzione. Per ulteriori informazioni, vedi Riduci i costi utilizzando le istanze di base. Se puoi prevedere i requisiti di CPU e memoria AlloyDB per PostgreSQL, puoi risparmiare denaro ottenendo per l'utilizzo per impegno di utilizzo. Per ulteriori informazioni, consulta Sconti per impegno di utilizzo di AlloyDB per PostgreSQL.
BigQuery	BigQuery ti consente di stimare il costo delle query prima eseguendole. Per ottimizzare i costi delle query, devi ottimizzare lo spazio di archiviazione e il calcolo delle query. Per ulteriori informazioni, vedi Stima e controllo dei costi.
Cloud Storage	Per il bucket Cloud Storage che utilizzi per caricare i dati nel sottosistema di importazione dei dati, scegli una classe di archiviazione appropriata in base ai requisiti di conservazione dei dati e frequenza di accesso dei tuoi carichi di lavoro. Ad esempio, puoi scegliere il modello classe di archiviazione e utilizza Gestione del ciclo di vita degli oggetti per controllare i costi di archiviazione in modo automatico eseguire il downgrade degli oggetti a una classe di archiviazione a basso costo o eliminazione di oggetti in base alle condizioni da te impostate.
Cloud Logging	Per controllare i costi di archiviazione dei log, puoi procedere come segue: Riduci il volume dei log escludendo o filtrando le voci di log non necessarie. Per ulteriori informazioni, vedi Filtri di esclusione. Riduci il periodo per il quale vengono conservate le voci di log. Per ulteriori informazioni, consulta Configure custom retention (Configurare la conservazione personalizzata).

Prestazioni

Questa sezione descrive i fattori che devi prendere in considerazione quando progetti creare un'applicazione di AI generativa compatibile con RAG in Google Cloud che soddisfi le per soddisfare i requisiti di prestazioni.

Prodotto	Note sul layout
Cloud Run	Per impostazione predefinita, a ogni istanza di container Cloud Run viene assegnata una CPU e 512 MiB di memoria. A seconda dei requisiti di prestazioni per i job Cloud Run, puoi configurare il limite di CPU e il limite di memoria.
AlloyDB per PostgreSQL	Per aiutarti ad analizzare e migliorare le prestazioni delle query dei database, AlloyDB per PostgreSQL fornisce uno strumento Query Insights. Puoi utilizzare questo strumento per monitorare le prestazioni e risalire all'origine di una query problematica. Per ulteriori informazioni, consulta Panoramica di Query Insights. per avere una panoramica dello stato e delle prestazioni dei tuoi database. e per visualizzare metriche dettagliate come i picchi di connessioni di replica, puoi utilizzare la dashboard di System Insights. Per saperne di più, consulta Monitorare un'istanza utilizzando la dashboard Insight sul sistema AlloyDB per PostgreSQL. Per ridurre il carico sull'istanza AlloyDB per PostgreSQL principale e per scalare la capacità di gestire le richieste di lettura, puoi aggiungere al cluster istanze del pool di lettura. Per ulteriori informazioni, vedi Nodi e istanze di AlloyDB per PostgreSQL.
BigQuery	BigQuery fornisce un grafico di esecuzione delle query che puoi utilizzare per analizzare le prestazioni delle query e ottenere informazioni sulle prestazioni per problemi come la contesa degli slot e una quota di ordinamento insufficiente. Per maggiori informazioni le informazioni, vedi Ottieni insight sulle prestazioni delle query. Dopo aver risolto i problemi identificati tramite gli approfondimenti sul rendimento delle query, puoi ottimizzare ulteriormente le query utilizzando tecniche come la riduzione del volume dei dati di input e output. Per maggiori informazioni, consulta Ottimizzare il calcolo delle query.
Cloud Storage	Per caricare file di grandi dimensioni, puoi utilizzare un metodo chiamato caricamenti compositi paralleli. Con questa strategia, il file di grandi dimensioni viene in blocchi. I blocchi vengono caricati su Cloud Storage in parallelo e i dati vengono ricomposti nel cloud. I caricamenti compositi paralleli possono essere più rapidi delle normali operazioni di caricamento quando la larghezza di banda della rete e la velocità del disco non sono fattori limitanti. Tuttavia, questa strategia presenta alcune limitazioni e implicazioni sui costi. Per maggiori informazioni le informazioni, vedi Caricamenti compositi paralleli.

Deployment

Per iniziare e sperimentare la creazione dell'infrastruttura su Google Cloud per le applicazioni di AI generativa compatibili con RAG, puoi usare Soluzione Jump Start: RAG di IA generativa con Cloud SQL. Questa soluzione esegue il deployment di un'applicazione di chat basata su Python Cloud Run e utilizza un database Cloud SQL completamente gestito per la ricerca vettoriale. Il codice campione per questa soluzione è disponibile in GitHub.

Passaggi successivi

Scopri come Crea applicazioni di IA generativa con l'API Vertex AI PaLM e LangChain.
Scopri come Crea app aziendali di AI generativa con i database Google Cloud.
Scopri come la nuova app di recupero di database di IA generativa contribuisce a migliorare le risposte degli LLM.
Prova il codelab per Crea un'applicazione di chat basata su LLM e RAG utilizzando AlloyDB per PostgreSQL AI e LangChain.
Prova la sintesi dei documenti con l'IA generativa.
Leggi di più sulla Retrieval Augmented Generation per le attività di NLP che richiedono conoscenze.
Leggi informazioni sulla generazione basata sul recupero per i modelli linguistici di grandi dimensioni.
Per altre architetture di riferimento, diagrammi e best practice, visita il Centro architetture di Google Cloud.

Collaboratori

Autore: Kumar Dhanagopal | Sviluppatore di soluzioni cross-product

Altri collaboratori:

Andrew Brook | Engineering Director
Anna Berenberg | Ingegnere
Assaf Namer | Principal Cloud Security Architect
Balachandar Krishnamoorthy | Ingegnere informatico principale
Daniele Lessi | Cloud Security Architect
Derek Downey | Developer Relations Engineer
Eran Lewis | Senior Product Manager
Geoffrey Anderson | Product Manager
Gleb Otochkin | Cloud Advocate, database
Hamsa Buvaraghan | Product Manager IA
Irina Sigler | Product manager
Mario Rossi | Ingegnere informatico
Giulio Verdi | Consulente per gli sviluppatori
Jordan Totten | Customer Engineer
Julia Wiesinger | Product manager
Kara Greenfield | Customer Engineer
Kurtis Van Gent | Ingegnere informatico del personale
Per Jacobsson | Ingegnere informatico
Pranav Nambiar | Regista
Richard Hendricks | Personale del Centro architetture
Safiuddin Khaja | Cloud engineer
Sandy Ghai | Group Product Manager
Vladimir Vuskovic | Direttore della gestione dei prodotti
Steren Giannini | Group Product Manager
Wietse Venema | Ingegnere per le relazioni con gli sviluppatori