Questa pagina elenca i modelli Gemini, i modelli di autodeployment e i modelli con API gestite su Vertex AI che supportano RAG.
Modelli Gemini
La tabella seguente elenca i modelli Gemini e le relative versioni che supportano RAG Engine:
Modello | Versione |
---|---|
Gemini 1.5 Flash | gemini-1.5-flash-002 gemini-1.5-flash-001 |
Gemini 1.5 Pro | gemini-1.5-pro-002 gemini-1.5-pro-001 |
Gemini 1.0 Pro | gemini-1.0-pro-001 gemini-1.0-pro-002 |
Gemini 1.0 Pro Vision | gemini-1.0-pro-vision-001 |
Gemini | gemini-experimental |
Modelli di cui è stato eseguito il deployment autonomo
RAG Engine supporta tutti i modelli in Model Garden.
Utilizza RAG Engine con gli endpoint dei modelli aperti di tua creazione.
Sostituisci le variabili utilizzate nell'esempio di codice:
- PROJECT_ID: l'ID del tuo progetto.
- LOCATION: la regione in cui elaborare la richiesta.
ENDPOINT_ID: l'ID endpoint.
# Create a model instance with your self-deployed open model endpoint rag_model = GenerativeModel( "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID", tools=[rag_retrieval_tool] )
Modelli con API gestite su Vertex AI
I modelli con API gestite su Vertex AI che supportano RAG Engine includono quanto segue:
Il seguente esempio di codice mostra come utilizzare l'API GeminiGenerateContent
per creare un'istanza di modello generativo. L'ID modello,/publisher/meta/models/llama-3.1-405B-instruct-maas
, si trova nella
scheda del modello.
Sostituisci le variabili utilizzate nell'esempio di codice:
- PROJECT_ID: l'ID del tuo progetto.
- LOCATION: la regione in cui elaborare la richiesta.
RAG_RETRIEVAL_TOOL: lo strumento di recupero RAG.
# Create a model instance with Llama 3.1 MaaS endpoint rag_model = GenerativeModel( "projects/PROJECT_ID/locations/LOCATION/publisher/meta/models/llama-3.1-405B-instruct-maas", tools=RAG_RETRIEVAL_TOOL )
Il seguente esempio di codice mostra come utilizzare l'API ChatCompletions
compatibile con OpenAI per generare una risposta del modello.
Sostituisci le variabili utilizzate nell'esempio di codice:
- PROJECT_ID: l'ID del tuo progetto.
- LOCATION: la regione in cui elaborare la richiesta.
- MODEL_ID: modello LLM per la generazione di contenuti. Ad
esempio,
meta/llama-3.1-405b-instruct-maas
. - INPUT_PROMPT: il testo inviato all'LLM per la generazione di contenuti. Utilizza un prompt pertinente ai documenti in Vertex AI Search.
- RAG_CORPUS_ID: l'ID della risorsa del corpus RAG.
- ROLE: il tuo ruolo.
- USER: il tuo nome utente.
CONTENT: i tuoi contenuti.
# Generate a response with Llama 3.1 MaaS endpoint response = client.chat.completions.create( model="MODEL_ID", messages=[{"ROLE": "USER", "content": "CONTENT"}], extra_body={ "extra_body": { "google": { "vertex_rag_store": { "rag_resources": { "rag_corpus": "RAG_CORPUS_ID" }, "similarity_top_k": 10 } } } }, )
Passaggi successivi
- Per informazioni sui limiti di dimensioni dei file, consulta Tipi di documenti supportati.
- Per informazioni sulle quote relative a RAG Engine, consulta Quote di RAG Engine.
- Per informazioni sulla personalizzazione dei parametri, consulta la sezione Parametri di recupero.
- Per scoprire di più sull'API RAG, consulta l'API RAG Engine.
- Per scoprire di più sul grounding, consulta la Panoramica del grounding.
- Per scoprire di più sulla differenza tra messa a terra e RAG, consulta Risposte di messa a terra utilizzando RAG.
- Per saperne di più sull'IA generativa su Vertex AI, consulta la Panoramica dell'IA generativa su Vertex AI.
- Per saperne di più sull'architettura RAG, consulta le seguenti architetture di riferimento: