Nesta página, listamos os modelos do Gemini, os modelos autodeployados e os modelos com APIs gerenciadas na Vertex AI que são compatíveis com o mecanismo RAG da Vertex AI.
Modelos do Gemini
Os seguintes modelos são compatíveis com o mecanismo de RAG da Vertex AI:
- Gemini 2.5 Flash (pré-lançamento)
 - Gemini 2.5 Flash-Lite (Pré-lançamento)
 - Gemini 2.5 Flash-Lite
 - Gemini 2.5 Pro
 - Gemini 2.5 Flash
 - Gemini 2.0 Flash
 
Os modelos do Gemini ajustados não são compatíveis quando eles usam o mecanismo de RAG da Vertex AI.
Modelos autoimplantados
O mecanismo RAG da Vertex AI é compatível com todos os modelos no Model Garden.
Use o mecanismo de RAG da Vertex AI com seus endpoints de modelo aberto autogerenciados.
Substitua as variáveis usadas no exemplo de código:
- PROJECT_ID: o ID do projeto.
 - LOCATION: a região para processar sua solicitação.
 ENDPOINT_ID: o ID do endpoint.
# Create a model instance with your self-deployed open model endpoint rag_model = GenerativeModel( "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID", tools=[rag_retrieval_tool] )
Modelos com APIs gerenciadas na Vertex AI
Os modelos com APIs gerenciadas na Vertex AI que oferecem suporte ao mecanismo de RAG da Vertex AI incluem o seguinte:
O exemplo de código a seguir demonstra como usar a API Gemini
GenerateContent para criar uma instância de modelo generativo. O ID do modelo, /publisher/meta/models/llama-3.1-405B-instruct-maas, pode ser encontrado no card do modelo.
Substitua as variáveis usadas no exemplo de código:
- PROJECT_ID: o ID do projeto.
 - LOCATION: a região para processar sua solicitação.
 RAG_RETRIEVAL_TOOL: sua ferramenta de recuperação de RAG.
# Create a model instance with Llama 3.1 MaaS endpoint rag_model = GenerativeModel( "projects/PROJECT_ID/locations/LOCATION/publisher/meta/models/llama-3.1-405B-instruct-maas", tools=RAG_RETRIEVAL_TOOL )
O exemplo de código a seguir demonstra como usar a API ChatCompletions compatível com a OpenAI para gerar uma resposta do modelo.
Substitua as variáveis usadas no exemplo de código:
- PROJECT_ID: o ID do projeto.
 - LOCATION: a região para processar sua solicitação.
 - MODEL_ID: modelo LLM para geração de conteúdo. Por
exemplo, 
meta/llama-3.1-405b-instruct-maas. - INPUT_PROMPT: o texto enviado ao LLM para geração de conteúdo. Use um comando relevante para os documentos na Vertex AI Search.
 - RAG_CORPUS_ID: o ID do recurso de corpus RAG.
 - ROLE: sua função.
 - USER: seu nome de usuário.
 CONTENT: seu conteúdo.
# Generate a response with Llama 3.1 MaaS endpoint response = client.chat.completions.create( model="MODEL_ID", messages=[{"ROLE": "USER", "content": "CONTENT"}], extra_body={ "extra_body": { "google": { "vertex_rag_store": { "rag_resources": { "rag_corpus": "RAG_CORPUS_ID" }, "similarity_top_k": 10 } } } }, )