Questa pagina è stata tradotta dall'API Cloud Translation.

Infrastruttura per un'applicazione di AI generativa compatibile con RAG che utilizza GKE e Cloud SQL

Last reviewed 2024-12-11 UTC

Questo documento fornisce un'architettura di riferimento che puoi utilizzare per progettare l'infrastruttura per eseguire un'applicazione di AI generativa con generazione aumentata dal recupero (RAG) utilizzando Google Kubernetes Engine (GKE), Cloud SQL e strumenti open source come Ray, Hugging Face e LangChain. Per aiutarti a sperimentare questa architettura di riferimento, in GitHub sono disponibili un'applicazione di esempio e una configurazione Terraform.

Questo documento è rivolto agli sviluppatori che vogliono creare ed eseguire il deployment rapidamente di applicazioni di AI generativa compatibili con RAG utilizzando strumenti e modelli open source. Presuppone che tu abbia esperienza con l'utilizzo di GKE e Cloud SQL e che tu abbia una comprensione concettuale di AI, machine learning (ML) e modelli linguistici di grandi dimensioni (LLM). Questo documento non fornisce indicazioni su come progettare e sviluppare un'applicazione di AI generativa.

Architettura

Il seguente diagramma mostra una panoramica di un'architettura per un'applicazione di AI generativa compatibile con RAG in Google Cloud:

Un'architettura di alto livello per un'applicazione di AI generativa compatibile con RAG in Google Cloud.

L'architettura contiene un sottosistema di pubblicazione e un sottosistema di incorporamento.

Il sottosistema di pubblicazione gestisce il flusso di richiesta-risposta tra l'applicazione e i suoi utenti. Il sottosistema include un server frontend, un server di inferenza e un servizio di AI responsabile (RAI). Il sottosistema di pubblicazione interagisce con il sottosistema di incorporamento tramite un database vettoriale.
Il sottosistema di incorporamento abilita la funzionalità RAG nell'architettura. Questo sottosistema esegue le seguenti operazioni:
- Inserisce i dati dalle origini dati in Google Cloud, on-premise e altre piattaforme cloud.
- Converte i dati importati in vector embedding.
- Archivia gli embedding in un database vettoriale.

Il seguente diagramma mostra una visualizzazione dettagliata dell'architettura:

Un'architettura dettagliata per un'applicazione di AI generativa compatibile con RAG in Google Cloud.

Come mostrato nel diagramma precedente, il server frontend, il server di inferenza e il servizio di incorporamento vengono implementati in un cluster GKE regionale in modalità Autopilot. I dati per RAG vengono importati tramite un bucket Cloud Storage. L'architettura utilizza un'istanza Cloud SQL per PostgreSQL con l'estensione pgvector come database vettoriale per archiviare gli incorporamenti ed eseguire ricerche semantiche. I database vettoriali sono progettati per archiviare e recuperare in modo efficiente vettori ad alta dimensione.

Le sezioni seguenti descrivono i componenti e il flusso di dati all'interno di ogni sottosistema dell'architettura.

Sottosistema di embedding

Di seguito è riportato il flusso di dati nel sottosistema di incorporamento:

I dati provenienti da origini esterne e interne vengono caricati nel bucket Cloud Storage da utenti umani o in modo programmatico. I dati caricati potrebbero trovarsi in file, database o dati in streaming.
(Non mostrato nel diagramma dell'architettura.) L'attività di caricamento dei dati attiva un evento pubblicato in un servizio di messaggistica come Pub/Sub. Il servizio di messaggistica invia una notifica al servizio di incorporamento.
Quando il servizio di incorporamento riceve una notifica di un evento di caricamento dei dati, esegue le seguenti operazioni:
1. Recupera i dati dal bucket Cloud Storage tramite il driver CSI di Cloud Storage FUSE.
2. Legge i dati caricati e li preelabora utilizzando Ray Data. La pre-elaborazione può includere la suddivisione dei dati in blocchi e la loro trasformazione in un formato adatto alla generazione di incorporamenti.
3. Esegue un job Ray per creare embedding vettoriali dei dati preelaborati utilizzando un modello open source come intfloat/multilingual-e5-small che viene implementato nello stesso cluster.
4. Scrive gli incorporamenti vettoriali nel database vettoriale Cloud SQL per PostgreSQL.

Come descritto nella sezione seguente, quando il sottosistema di pubblicazione elabora le richieste degli utenti, utilizza gli incorporamenti nel database vettoriale per recuperare dati pertinenti specifici del dominio.

Sottosistema di pubblicazione

Di seguito è riportato il flusso di richiesta/risposta nel sottosistema di pubblicazione:

Un utente invia una richiesta in linguaggio naturale a un server frontend tramite un'interfaccia di chat basata sul web. Il server frontend viene eseguito su GKE.
Il server frontend esegue un processo LangChain che esegue le seguenti operazioni:
1. Converte la richiesta in linguaggio naturale in incorporamenti utilizzando lo stesso modello e gli stessi parametri utilizzati dal servizio di incorporamento.
2. Recupera i dati di base pertinenti eseguendo una ricerca semantica per gli embedding nel database vettoriale. La ricerca semantica aiuta a trovare gli incorporamenti in base all'intento di un prompt anziché ai suoi contenuti testuali.
3. Crea un prompt contestualizzato combinando la richiesta originale con i dati di base recuperati.
4. Invia il prompt contestualizzato al server di inferenza, che viene eseguito su GKE.
Il server di inferenza utilizza il framework di servizio Hugging Face TGI per pubblicare un LLM open source come Mistral-7B-Instruct o un modello open Gemma.
Il modello LLM genera una risposta al prompt e il server di inferenza invia la risposta al server frontend.

Puoi archiviare e visualizzare i log dell'attività di richiesta-risposta in Cloud Logging e puoi configurare il monitoraggio basato sui log utilizzando Cloud Monitoring. Puoi anche caricare le risposte generate in BigQuery per l'analisi offline.
Il server di frontend richiama un servizio RAI per applicare i filtri di sicurezza necessari alla risposta. Puoi utilizzare strumenti come Sensitive Data Protection e API Cloud Natural Language per scoprire, filtrare, classificare e anonimizzare i contenuti sensibili nelle risposte.
Il server di frontend invia la risposta filtrata all'utente.

Prodotti utilizzati

Di seguito è riportato un riepilogo dei prodotti Google Cloud e open source utilizzati dall'architettura precedente:

Google Cloud prodotti

Google Kubernetes Engine (GKE): un servizio Kubernetes che puoi utilizzare per eseguire il deployment e gestire applicazioni containerizzate su larga scala utilizzando l'infrastruttura di Google.
Cloud Storage: uno spazio di archiviazione di oggetti a basso costo e senza limiti per diversi tipi di dati. I dati sono accessibili dall'interno e dall'esterno di Google Cloude vengono replicati in più località per la ridondanza.
Cloud SQL: un servizio di database relazionale completamente gestito che ti aiuta a eseguire il provisioning, il funzionamento e la gestione dei database MySQL, PostgreSQL e SQL Server su Google Cloud.

Prodotti open source

Hugging Face Text Generation Inference (TGI): un toolkit per il deployment e la pubblicazione di LLM.
Ray: un framework di calcolo unificato open source che ti aiuta a scalare i carichi di lavoro di AI e Python.
LangChain: un framework per lo sviluppo e il deployment di applicazioni basate su LLM.

Casi d'uso

La RAG è una tecnica efficace per migliorare la qualità dell'output generato da un LLM. Questa sezione fornisce esempi di casi d'uso per i quali puoi utilizzare applicazioni di AI generativa compatibili con RAG.

Suggerimenti personalizzati sui prodotti

Un sito di acquisti online potrebbe utilizzare un chatbot basato su LLM per aiutare i clienti a trovare prodotti o a ricevere assistenza per gli acquisti. Le domande di un utente possono essere arricchite utilizzando i dati storici sul comportamento di acquisto dell'utente e sui modelli di interazione con il sito web. I dati potrebbero includere recensioni e feedback degli utenti archiviati in un datastore non strutturato o metriche correlate alla ricerca archiviate in un data warehouse di analisi web. La domanda aumentata può essere elaborata dall'LLM per generare risposte personalizzate che l'utente potrebbe trovare più interessanti e coinvolgenti.

Sistemi di assistenza clinica

I medici negli ospedali devono analizzare e diagnosticare rapidamente le condizioni di salute di un paziente per prendere decisioni in merito alle cure e ai farmaci appropriati. Un'applicazione di AI generativa che utilizza un LLM medico come Med-PaLM può essere utilizzata per assistere i medici nella procedura di diagnosi clinica. Le risposte generate dall'applicazione possono essere basate sulle cartelle cliniche storiche dei pazienti contestualizzando i prompt dei medici con i dati del database delle cartelle cliniche elettroniche (EHR) dell'ospedale o di una knowledge base esterna come PubMed.

Ricerca giuridica efficiente

La ricerca legale basata sull'AI generativa consente agli avvocati di interrogare rapidamente grandi volumi di leggi e giurisprudenza per identificare precedenti legali pertinenti o riassumere concetti legali complessi. I risultati di questa ricerca possono essere migliorati aumentando i prompt di un avvocato con i dati recuperati dal corpus proprietario di contratti, comunicazioni legali passate e registri interni dello studio legale. Questo approccio di progettazione garantisce che le risposte generate siano pertinenti al settore legale in cui l'avvocato è specializzato.

Alternative di progettazione

Questa sezione presenta approcci di progettazione alternativi che puoi prendere in considerazione per la tua applicazione di AI generativa compatibile con RAG in Google Cloud.

Ricerca vettoriale completamente gestita

Se hai bisogno di un'architettura che utilizzi un prodotto di ricerca vettoriale completamente gestito, puoi utilizzare Vertex AI e Vector Search, che forniscono un'infrastruttura di pubblicazione ottimizzata per la ricerca vettoriale su larga scala. Per ulteriori informazioni, consulta Infrastruttura per un'applicazione di AI generativa compatibile con RAG utilizzando Vertex AI e Vector Search.

Database Google Cloud abilitato per i vettori

Se vuoi sfruttare le funzionalità di vector store di un database completamente gestito come AlloyDB per PostgreSQL o Cloud SQL per la tua applicazione RAG, consulta Infrastruttura per un'applicazione di AI generativa compatibile con RAG utilizzando Vertex AI e AlloyDB per PostgreSQL. Google Cloud

Altre opzioni

Per informazioni su altre opzioni di infrastruttura, modelli supportati e tecniche di grounding che puoi utilizzare per le applicazioni di AI generativa in Google Cloud, consulta Scegliere modelli e infrastruttura per la tua applicazione di AI generativa.

Considerazioni sulla progettazione

Questa sezione fornisce indicazioni per aiutarti a sviluppare ed eseguire un'architettura di AI generativa con funzionalità RAG ospitata su GKE che soddisfi i tuoi requisiti specifici di sicurezza e conformità, affidabilità, costi e prestazioni. Le indicazioni riportate in questa sezione non sono esaustive. A seconda dei requisiti specifici della tua applicazione e dei prodotti e delle funzionalità che utilizzi, potresti dover prendere in considerazione fattori di progettazione e compromessi aggiuntivi. Google Cloud

Per indicazioni di progettazione relative agli strumenti open source in questa architettura di riferimento, come Hugging Face TGI, consulta la documentazione di questi strumenti.

Sicurezza, privacy e conformità

Questa sezione descrive i fattori da considerare quando progetti e crei un'applicazione di AI generativa in Google Cloud che supporta RAG e soddisfa i tuoi requisiti di sicurezza, privacy e conformità.

Prodotto	Considerazioni sulla progettazione
GKE	Nella modalità operativa Autopilot, GKE preconfigura il cluster e gestisce i nodi in base alle best practice di sicurezza, consentendoti di concentrarti sulla sicurezza specifica del workload. Per ulteriori informazioni, consulta le seguenti risorse: Funzionalità di sicurezza di GKE Autopilot Sicurezza Kubernetes pronta all'uso con GKE Autopilot Per garantire un controllo dell'accesso avanzato per le applicazioni in esecuzione in GKE, puoi utilizzare Identity-Aware Proxy (IAP). IAP si integra con la risorsa Ingress di GKE e garantisce che solo gli utenti autenticati con il ruolo Identity and Access Management (IAM) corretto possano accedere alle applicazioni. Per maggiori informazioni, consulta Abilitare IAP per GKE. Per impostazione predefinita, i tuoi dati in GKE sono criptati at-rest e in transito utilizzando Google-owned and Google-managed encryption keys. Come ulteriore livello di sicurezza per i dati sensibili, puoi criptare i dati a livello di applicazione utilizzando una chiave di tua proprietà e gestita con Cloud KMS. Per saperne di più, vedi Crittografia dei secret a livello di applicazione. Se utilizzi un cluster GKE Standard, puoi utilizzare le seguenti funzionalità aggiuntive di crittografia dei dati: Crittografa i dati in uso (ovvero in memoria) utilizzando Confidential GKE Node. Per saperne di più sulle funzionalità, sulla disponibilità e sulle limitazioni di Confidential GKE Nodes, consulta Crittografare i dati dei workload in uso con Confidential GKE Nodes. Se hai bisogno di un maggiore controllo sulle chiavi di crittografia utilizzate per criptare il traffico dei pod tra i nodi GKE, puoi criptare i dati in transito utilizzando chiavi che gestisci. Per ulteriori informazioni, vedi Criptare i dati in transito in GKE con chiavi di crittografia gestite dall'utente.
Cloud SQL	L'istanza Cloud SQL nell'architettura non deve essere accessibile da internet pubblico. Se è necessario l'accesso esterno all'istanza Cloud SQL, puoi criptare le connessioni esterne utilizzando SSL/TLS o il connettore Cloud SQL Auth Proxy. Il connettore del proxy di autenticazione fornisce l'autorizzazione di connessione utilizzando IAM. Il connettore utilizza una connessione TLS 1.3 con una crittografia AES a 256 bit per verificare le identità di client e server e criptare il traffico di dati. Per le connessioni create utilizzando Java, Python, Go o Node.js, utilizza il connettore di linguaggio appropriato anziché il connettore proxy di autenticazione. Per impostazione predefinita, Cloud SQL utilizza chiavi di crittografia dei dati (DEK) e chiavi di crittografia della chiave (KEK) di proprietà di Google e gestite da Google per criptare i dati at-rest. Se devi utilizzare KEK che controlli e gestisci, puoi utilizzare chiavi di crittografia gestite dal cliente (CMEK). Per impedire l'accesso non autorizzato all'API Cloud SQL Admin, puoi creare un perimetro di servizio utilizzando i Controlli di servizio VPC. Per informazioni sulla configurazione di Cloud SQL per rispettare i requisiti di residenza dei dati, consulta la panoramica della residenza dei dati.
Cloud Storage	Per impostazione predefinita, i dati archiviati in Cloud Storage vengono criptati utilizzando Google-owned and Google-managed encryption keys. Se necessario, puoi utilizzare le CMEK o le tue chiavi gestite utilizzando un metodo di gestione esterno, ad esempio le chiavi di crittografia fornite dal cliente (CSEK). Per maggiori informazioni, vedi Opzioni di crittografia dei dati. Cloud Storage supporta due metodi per controllare l'accesso degli utenti ai bucket e agli oggetti: IAM ed elenchi di controllo dell'accesso (ACL). Nella maggior parte dei casi, ti consigliamo di utilizzare IAM, che ti consente di concedere autorizzazioni a livello di bucket e progetto. Per ulteriori informazioni, consulta Panoramica del controllo dell'accesso. I dati caricati nel sottosistema di importazione dati tramite Cloud Storage potrebbero includere dati sensibili. Per proteggere questi dati, puoi utilizzare la protezione dei dati sensibili per rilevarli, classificarli e anonimizzarli. Per ulteriori informazioni, consulta Utilizzo di Sensitive Data Protection con Cloud Storage. Per mitigare il rischio di esfiltrazione di dati da Cloud Storage, puoi creare un perimetro di servizio utilizzando i Controlli di servizio VPC. Cloud Storage ti aiuta a soddisfare i requisiti di residenza dei dati. I dati vengono archiviati o replicati all'interno delle regioni che specifichi.
Tutti i prodotti in questa architettura	I log di controllo delle attività di amministrazione sono abilitati per impostazione predefinita per tutti i servizi Google Cloud utilizzati in questa architettura di riferimento. Puoi accedere ai log tramite Cloud Logging e utilizzarli per monitorare le chiamate API o altre azioni che modificano la configurazione o i metadati delle risorse Google Cloud . Gli audit log di accesso ai dati sono abilitati per impostazione predefinita anche per tutti i servizi Google Cloud di questa architettura. Puoi utilizzare questi log per monitorare quanto segue: Chiamate API che leggono la configurazione o i metadati delle risorse. Richieste degli utenti di creare, modificare o leggere i dati delle risorse forniti dall'utente. Google non accede ai dati in Cloud Logging né li utilizza.

Per principi e consigli di sicurezza specifici per i workload di AI e ML, consulta Prospettiva AI e ML: sicurezza nel framework Well-Architected.

Affidabilità

Questa sezione descrive i fattori di progettazione da considerare per creare e gestire un'infrastruttura affidabile per un'applicazione di AI generativa compatibile con RAG in Google Cloud.

Prodotto	Considerazioni sulla progettazione
GKE	Con la modalità operativa Autopilot utilizzata in questa architettura, GKE fornisce le seguenti funzionalità di affidabilità integrate: Il tuo workload utilizza un cluster GKE regionale. Il control plane e i nodi worker sono distribuiti in tre zone diverse all'interno di una regione. I tuoi carichi di lavoro sono robusti contro le interruzioni di zona. I cluster GKE a livello di regione hanno uno SLA con un tempo di attività maggiore rispetto ai cluster a livello di zona. Non è necessario creare nodi o gestire i pool di nodi. GKE crea automaticamente i pool di nodi e li scala automaticamente in base ai requisiti dei tuoi carichi di lavoro. Per assicurarti che sia disponibile una capacità GPU sufficiente quando è necessaria per la scalabilità automatica del cluster GKE, puoi creare e utilizzare prenotazioni. Una prenotazione fornisce capacità garantita in una zona specifica per una risorsa specificata. Una prenotazione può essere specifica per un progetto o condivisa tra più progetti. Ti vengono addebitati costi per le risorse prenotate anche se non viene eseguito il provisioning o l'utilizzo. Per ulteriori informazioni, vedi Consumo di risorse di zona prenotate.
Cloud SQL	Per garantire che il database vettoriale sia protetto da errori del database e interruzioni della zona, utilizza un'istanza Cloud SQL configurata per l'alta disponibilità. In caso di errore del database principale o di interruzione di una zona, Cloud SQL esegue automaticamente il failover sul database di standby in un'altra zona. Non devi modificare l'indirizzo IP dell'endpoint del database. Per assicurarti che le tue istanze Cloud SQL siano coperte dall' SLA, segui le linee guida operative consigliate. Ad esempio, assicurati che CPU e memoria siano dimensionate correttamente per il workload e abilita gli incrementi automatici dello spazio di archiviazione. Per ulteriori informazioni, consulta le linee guida operative.
Cloud Storage	Puoi creare bucket Cloud Storage in uno dei tre tipi di località: regionale, dual-region o multiregionale. I dati archiviati in bucket regionali vengono replicati in modo sincrono in più zone all'interno di una regione. Per una maggiore disponibilità, puoi utilizzare bucket multiregionali o in due regioni, in cui i dati vengono replicati in modo asincrono tra le regioni.

Prodotto

Considerazioni sulla progettazione

GKE

Con la modalità operativa Autopilot utilizzata in questa architettura, GKE fornisce le seguenti funzionalità di affidabilità integrate:

Il tuo workload utilizza un cluster GKE regionale. Il control plane e i nodi worker sono distribuiti in tre zone diverse all'interno di una regione. I tuoi carichi di lavoro sono robusti contro le interruzioni di zona. I cluster GKE a livello di regione hanno uno SLA con un tempo di attività maggiore rispetto ai cluster a livello di zona.
Non è necessario creare nodi o gestire i pool di nodi. GKE crea automaticamente i pool di nodi e li scala automaticamente in base ai requisiti dei tuoi carichi di lavoro.

Per assicurarti che sia disponibile una capacità GPU sufficiente quando è necessaria per la scalabilità automatica del cluster GKE, puoi creare e utilizzare prenotazioni. Una prenotazione fornisce capacità garantita in una zona specifica per una risorsa specificata. Una prenotazione può essere specifica per un progetto o condivisa tra più progetti. Ti vengono addebitati costi per le risorse prenotate anche se non viene eseguito il provisioning o l'utilizzo. Per ulteriori informazioni, vedi Consumo di risorse di zona prenotate.

Cloud SQL

Per garantire che il database vettoriale sia protetto da errori del database e interruzioni della zona, utilizza un'istanza Cloud SQL configurata per l'alta disponibilità. In caso di errore del database principale o di interruzione di una zona, Cloud SQL esegue automaticamente il failover sul database di standby in un'altra zona. Non devi modificare l'indirizzo IP dell'endpoint del database.

Per assicurarti che le tue istanze Cloud SQL siano coperte dall' SLA, segui le linee guida operative consigliate. Ad esempio, assicurati che CPU e memoria siano dimensionate correttamente per il workload e abilita gli incrementi automatici dello spazio di archiviazione. Per ulteriori informazioni, consulta le linee guida operative.

Cloud Storage

Puoi creare bucket Cloud Storage in uno dei tre tipi di località: regionale, dual-region o multiregionale. I dati archiviati in bucket regionali vengono replicati in modo sincrono in più zone all'interno di una regione. Per una maggiore disponibilità, puoi utilizzare bucket multiregionali o in due regioni, in cui i dati vengono replicati in modo asincrono tra le regioni.

Per principi e consigli di affidabilità specifici per i workload AI e ML, consulta Prospettiva AI e ML: affidabilità nel framework Well-Architected.

Ottimizzazione dei costi

Questa sezione fornisce indicazioni per aiutarti a ottimizzare il costo di configurazione e gestione di un'applicazione di AI generativa compatibile con RAG in Google Cloud.

Prodotto	Considerazioni sulla progettazione
GKE	In modalità Autopilot, GKE ottimizza l'efficienza dell'infrastruttura del cluster in base ai requisiti del carico di lavoro. Non devi monitorare costantemente l'utilizzo delle risorse o gestire la capacità per controllare i costi. Se riesci a prevedere l'utilizzo di CPU, memoria e spazio di archiviazione temporaneo del tuo cluster GKE Autopilot, puoi risparmiare denaro ottenendo sconti per l'utilizzo impegnato. Per ulteriori informazioni, consulta Sconti per impegno di utilizzo di GKE. Per ridurre il costo di esecuzione dell'applicazione, puoi utilizzare le VM spot per i nodi GKE. Le VM spot hanno un prezzo inferiore rispetto alle VM standard, ma non offrono garanzie di disponibilità. Per informazioni sui vantaggi dei nodi che utilizzano le VM spot, su come funzionano in GKE e su come pianificare i carichi di lavoro su questi nodi, consulta VM spot. Per ulteriori indicazioni sull'ottimizzazione dei costi, consulta Best practice per l'esecuzione di applicazioni Kubernetes con ottimizzazione dei costi su GKE.
Cloud SQL	Una configurazione ad alta disponibilità (HA) consente di ridurre i tempi di inattività per il database Cloud SQL quando la zona o l'istanza non è disponibile. Tuttavia, il costo di un'istanza configurata per l'alta disponibilità è superiore a quello di un'istanza standalone. Se non hai bisogno dell'alta disponibilità per il database vettoriale, puoi ridurre i costi utilizzando un'istanza autonoma, che non è robusta contro le interruzioni di zona. Puoi rilevare se la tua istanza Cloud SQL è con overprovisioning e ottimizzare la fatturazione utilizzando approfondimenti e consigli sui costi di Cloud SQL forniti da Active Assist. Per ulteriori informazioni, consulta Riduzione delle istanze Cloud SQL con provisioning eccessivo. Se riesci a prevedere i requisiti di CPU e memoria della tua istanza Cloud SQL, puoi risparmiare denaro ottenendo sconti per l'utilizzo con impegno. Per saperne di più, consulta la pagina Sconti per impegno di utilizzo di Cloud SQL.
Cloud Storage	Per il bucket Cloud Storage che utilizzi per caricare i dati nel sottosistema di importazione dati, scegli una classe di archiviazione appropriata. Quando scegli la classe di archiviazione, considera i requisiti di conservazione dei dati e frequenza di accesso dei tuoi carichi di lavoro. Ad esempio, per controllare i costi di archiviazione, puoi scegliere la classe Standard e utilizzare la Gestione del ciclo di vita degli oggetti. In questo modo, è possibile eseguire il downgrade automatico degli oggetti a una classe di archiviazione a costi inferiori o l'eliminazione degli oggetti in base alle condizioni impostate.

Prodotto

Considerazioni sulla progettazione

GKE

In modalità Autopilot, GKE ottimizza l'efficienza dell'infrastruttura del cluster in base ai requisiti del carico di lavoro. Non devi monitorare costantemente l'utilizzo delle risorse o gestire la capacità per controllare i costi.

Se riesci a prevedere l'utilizzo di CPU, memoria e spazio di archiviazione temporaneo del tuo cluster GKE Autopilot, puoi risparmiare denaro ottenendo sconti per l'utilizzo impegnato. Per ulteriori informazioni, consulta Sconti per impegno di utilizzo di GKE.

Per ridurre il costo di esecuzione dell'applicazione, puoi utilizzare le VM spot per i nodi GKE. Le VM spot hanno un prezzo inferiore rispetto alle VM standard, ma non offrono garanzie di disponibilità. Per informazioni sui vantaggi dei nodi che utilizzano le VM spot, su come funzionano in GKE e su come pianificare i carichi di lavoro su questi nodi, consulta VM spot.

Per ulteriori indicazioni sull'ottimizzazione dei costi, consulta Best practice per l'esecuzione di applicazioni Kubernetes con ottimizzazione dei costi su GKE.

Cloud SQL

Una configurazione ad alta disponibilità (HA) consente di ridurre i tempi di inattività per il database Cloud SQL quando la zona o l'istanza non è disponibile. Tuttavia, il costo di un'istanza configurata per l'alta disponibilità è superiore a quello di un'istanza standalone. Se non hai bisogno dell'alta disponibilità per il database vettoriale, puoi ridurre i costi utilizzando un'istanza autonoma, che non è robusta contro le interruzioni di zona.

Puoi rilevare se la tua istanza Cloud SQL è con overprovisioning e ottimizzare la fatturazione utilizzando approfondimenti e consigli sui costi di Cloud SQL forniti da Active Assist. Per ulteriori informazioni, consulta Riduzione delle istanze Cloud SQL con provisioning eccessivo.

Se riesci a prevedere i requisiti di CPU e memoria della tua istanza Cloud SQL, puoi risparmiare denaro ottenendo sconti per l'utilizzo con impegno. Per saperne di più, consulta la pagina Sconti per impegno di utilizzo di Cloud SQL.

Cloud Storage

Per il bucket Cloud Storage che utilizzi per caricare i dati nel sottosistema di importazione dati, scegli una classe di archiviazione appropriata. Quando scegli la classe di archiviazione, considera i requisiti di conservazione dei dati e frequenza di accesso dei tuoi carichi di lavoro. Ad esempio, per controllare i costi di archiviazione, puoi scegliere la classe Standard e utilizzare la Gestione del ciclo di vita degli oggetti. In questo modo, è possibile eseguire il downgrade automatico degli oggetti a una classe di archiviazione a costi inferiori o l'eliminazione degli oggetti in base alle condizioni impostate.

Per stimare il costo delle tue risorse Google Cloud , utilizza il Google Cloud Calcolatore prezzi.

Per principi e suggerimenti di ottimizzazione dei costi specifici per i carichi di lavoro di AI e ML, consulta Prospettiva AI e ML: ottimizzazione dei costi nel framework Well-Architected.

Ottimizzazione delle prestazioni

Questa sezione descrive i fattori da considerare quando progetti e crei un'applicazione di AI generativa in Google Cloud in grado di utilizzare RAG che soddisfi i tuoi requisiti di rendimento.

Prodotto Considerazioni sulla progettazione

GKE Scegli classi di calcolo appropriate per i tuoi pod in base ai requisiti di prestazioni dei carichi di lavoro. Per i pod che eseguono il server di inferenza e il servizio di incorporamento, ti consigliamo di utilizzare un tipo di macchina GPU come nvidia-l4.

Cloud SQL

Prodotto	Considerazioni sulla progettazione
GKE	Scegli classi di calcolo appropriate per i tuoi pod in base ai requisiti di prestazioni dei carichi di lavoro. Per i pod che eseguono il server di inferenza e il servizio di incorporamento, ti consigliamo di utilizzare un tipo di macchina GPU come `nvidia-l4`.
Cloud SQL	Per ottimizzare le prestazioni dell'istanza Cloud SQL, assicurati che la CPU e la memoria allocate all'istanza siano adeguate per il workload. Per ulteriori informazioni, consulta Ottimizzare le istanze Cloud SQL con provisioning insufficiente. Per migliorare il tempo di risposta per la ricerca vettoriale approssimativa del vicino più prossimo (ANN), utilizza l'indice Inverted File with Flat Compression (IVFFlat) o l'indice Hierarchical Navigable Small World (HNSW). Per aiutarti ad analizzare e migliorare le prestazioni delle query dei database, Cloud SQL fornisce uno strumento Query Insights. Puoi utilizzare questo strumento per monitorare le prestazioni e tracciare l'origine di una query problematica. Per maggiori informazioni, vedi Utilizzare Query Insights per migliorare le prestazioni delle query. Per visualizzare una panoramica dello stato e del rendimento dei tuoi database e per visualizzare metriche dettagliate come picchi di connessioni e utilizzo del disco, puoi utilizzare la dashboard System Insights. Per ulteriori informazioni, vedi Utilizzare System Insights per migliorare le prestazioni del sistema.
Cloud Storage	Per caricare file di grandi dimensioni, puoi utilizzare un metodo chiamato caricamenti compositi paralleli. Con questa strategia, il file di grandi dimensioni viene suddiviso in blocchi. I blocchi vengono caricati in parallelo in Cloud Storage e poi i dati vengono ricomposti nel cloud. Quando la larghezza di banda della rete e la velocità del disco non sono fattori limitanti, i caricamenti compositi paralleli possono essere più veloci delle normali operazioni di caricamento. Tuttavia, questa strategia presenta alcune limitazioni e implicazioni in termini di costi. Per saperne di più, consulta Caricamenti compositi paralleli.

Per ottimizzare le prestazioni dell'istanza Cloud SQL, assicurati che la CPU e la memoria allocate all'istanza siano adeguate per il workload. Per ulteriori informazioni, consulta Ottimizzare le istanze Cloud SQL con provisioning insufficiente.

Per migliorare il tempo di risposta per la ricerca vettoriale approssimativa del vicino più prossimo (ANN), utilizza l'indice Inverted File with Flat Compression (IVFFlat) o l'indice Hierarchical Navigable Small World (HNSW).

Per aiutarti ad analizzare e migliorare le prestazioni delle query dei database, Cloud SQL fornisce uno strumento Query Insights. Puoi utilizzare questo strumento per monitorare le prestazioni e tracciare l'origine di una query problematica. Per maggiori informazioni, vedi Utilizzare Query Insights per migliorare le prestazioni delle query.

Per visualizzare una panoramica dello stato e del rendimento dei tuoi database e per visualizzare metriche dettagliate come picchi di connessioni e utilizzo del disco, puoi utilizzare la dashboard System Insights. Per ulteriori informazioni, vedi Utilizzare System Insights per migliorare le prestazioni del sistema.

Cloud Storage Per caricare file di grandi dimensioni, puoi utilizzare un metodo chiamato caricamenti compositi paralleli. Con questa strategia, il file di grandi dimensioni viene suddiviso in blocchi. I blocchi vengono caricati in parallelo in Cloud Storage e poi i dati vengono ricomposti nel cloud. Quando la larghezza di banda della rete e la velocità del disco non sono fattori limitanti, i caricamenti compositi paralleli possono essere più veloci delle normali operazioni di caricamento. Tuttavia, questa strategia presenta alcune limitazioni e implicazioni in termini di costi. Per saperne di più, consulta Caricamenti compositi paralleli.

Per principi e consigli di ottimizzazione delle prestazioni specifici per i carichi di lavoro di AI e ML, consulta Prospettiva AI e ML: ottimizzazione delle prestazioni nel Well-Architected Framework.

Deployment

Per eseguire il deployment di una topologia basata su questa architettura di riferimento, puoi scaricare e utilizzare il codice campione open source disponibile in un repository su GitHub. Il codice campione non è destinato a casi d'uso di produzione. Puoi utilizzare il codice per sperimentare la configurazione dell'infrastruttura AI per un'applicazione di AI generativa compatibile con RAG.

Il codice di esempio esegue queste operazioni:

Esegue il provisioning di un'istanza Cloud SQL per PostgreSQL da utilizzare come database vettoriale.
Esegue il deployment di Ray, JupyterHub e Hugging Face TGI in un cluster GKE che specifichi.
Esegue il deployment di un'applicazione chatbot basata sul web di esempio nel cluster GKE per consentirti di verificare la funzionalità RAG.

Per istruzioni sull'utilizzo del codice campione, consulta il README del codice. Se si verificano errori durante l'utilizzo del codice campione e se non esistono segnalazioni di problemi su GitHub per gli errori, crea segnalazioni su GitHub.

Il codice campione esegue il deployment di risorse Google Cloud fatturabili. Al termine dell'utilizzo del codice, rimuovi le risorse di cui non hai più bisogno.

Passaggi successivi

Consulta le seguenti guide alle best practice di GKE:
- Best practice per il networking di GKE
- Best practice per l'esecuzione di applicazioni Kubernetes con ottimizzazione dei costi su GKE
Scopri come gestire i modelli open Gemma utilizzando le GPU su GKE con Hugging Face TGI.
Esamina le Google Cloud opzioni per basare le risposte dell'AI generativa su dati reali.
Scopri come creare un'infrastruttura per un'applicazione di AI generativa compatibile con RAG utilizzando Vertex AI e Vector Search.
Scopri come creare un'infrastruttura per un'applicazione di AI generativa compatibile con RAG utilizzando Vertex AI e AlloyDB per PostgreSQL.
Per una panoramica dei principi e dei consigli architetturali specifici per i workload di AI e ML in Google Cloud, consulta la prospettiva AI e ML nel framework Well-Architected.
Per ulteriori architetture di riferimento, diagrammi e best practice, esplora il Cloud Architecture Center.

Collaboratori

Autore: Kumar Dhanagopal | Sviluppatore di soluzioni cross-prodotto

Altri collaboratori:

Anna Berenberg | Engineering Fellow
Ali Zaidi | Solutions Architect
Bala Narasimhan | Group Product Manager
Bill Bernsen | Security Engineer
Brandon Royal | Outbound Product Manager
Cynthia Thomas | Product Manager
Geoffrey Anderson | Product Manager
Gleb Otochkin | Cloud Advocate, Databases
Jack Wotherspoon | Software Engineer
Julie Amundson | Senior Staff Software Engineer
Kent Hua | Solutions Manager
Kavitha Rajendran | Specialista di AI/ML, Solutions Architect
Mark Schlagenhauf | Technical Writer, Networking
Megan O'Keefe | Head of Industry Compete, Cloud Platform Evaluations Team
Mofi Rahman | Google Cloud Advocate

Infrastruttura per un'applicazione di AI generativa compatibile con RAG che utilizza GKE e Cloud SQL Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Architettura

Sottosistema di embedding

Sottosistema di pubblicazione

Prodotti utilizzati

Google Cloud prodotti

Prodotti open source

Casi d'uso

Suggerimenti personalizzati sui prodotti

Sistemi di assistenza clinica

Ricerca giuridica efficiente

Alternative di progettazione

Ricerca vettoriale completamente gestita

Database Google Cloud abilitato per i vettori

Altre opzioni

Considerazioni sulla progettazione

Sicurezza, privacy e conformità

Affidabilità

Ottimizzazione dei costi

Ottimizzazione delle prestazioni

Deployment

Passaggi successivi

Collaboratori

Infrastruttura per un'applicazione di AI generativa compatibile con RAG che utilizza GKE e Cloud SQL