Esta página foi traduzida pela API Cloud Translation.

Modelos com suporte do mecanismo de RAG da Vertex AI

Nesta página, listamos os modelos do Gemini, os modelos autodeployados e os modelos com APIs gerenciadas na Vertex AI que são compatíveis com o mecanismo RAG da Vertex AI.

Modelos do Gemini

Os seguintes modelos são compatíveis com o mecanismo de RAG da Vertex AI:

Os modelos do Gemini ajustados não são compatíveis quando eles usam o mecanismo de RAG da Vertex AI.

Modelos autoimplantados

O mecanismo RAG da Vertex AI é compatível com todos os modelos no Model Garden.

Use o mecanismo de RAG da Vertex AI com seus endpoints de modelo aberto autogerenciados.

Substitua as variáveis usadas no exemplo de código:

PROJECT_ID: o ID do projeto.
LOCATION: a região para processar sua solicitação.

ENDPOINT_ID: o ID do endpoint.

  # Create a model instance with your self-deployed open model endpoint
  rag_model = GenerativeModel(
      "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID",
      tools=[rag_retrieval_tool]
  )

Modelos com APIs gerenciadas na Vertex AI

Os modelos com APIs gerenciadas na Vertex AI que oferecem suporte ao mecanismo de RAG da Vertex AI incluem o seguinte:

O exemplo de código a seguir demonstra como usar a API Gemini GenerateContent para criar uma instância de modelo generativo. O ID do modelo, /publisher/meta/models/llama-3.1-405B-instruct-maas, pode ser encontrado no card do modelo.

Substitua as variáveis usadas no exemplo de código:

PROJECT_ID: o ID do projeto.
LOCATION: a região para processar sua solicitação.

RAG_RETRIEVAL_TOOL: sua ferramenta de recuperação de RAG.

  # Create a model instance with Llama 3.1 MaaS endpoint
  rag_model = GenerativeModel(
      "projects/PROJECT_ID/locations/LOCATION/publisher/meta/models/llama-3.1-405B-instruct-maas",
      tools=RAG_RETRIEVAL_TOOL
  )

O exemplo de código a seguir demonstra como usar a API ChatCompletions compatível com a OpenAI para gerar uma resposta do modelo.

Substitua as variáveis usadas no exemplo de código:

PROJECT_ID: o ID do projeto.
LOCATION: a região para processar sua solicitação.
MODEL_ID: modelo LLM para geração de conteúdo. Por exemplo, meta/llama-3.1-405b-instruct-maas.
INPUT_PROMPT: o texto enviado ao LLM para geração de conteúdo. Use um comando relevante para os documentos na Vertex AI Search.
RAG_CORPUS_ID: o ID do recurso de corpus RAG.
ROLE: sua função.
USER: seu nome de usuário.

CONTENT: seu conteúdo.

  # Generate a response with Llama 3.1 MaaS endpoint
  response = client.chat.completions.create(
      model="MODEL_ID",
      messages=[{"ROLE": "USER", "content": "CONTENT"}],
      extra_body={
          "extra_body": {
              "google": {
                  "vertex_rag_store": {
                      "rag_resources": {
                          "rag_corpus": "RAG_CORPUS_ID"
                      },
                      "similarity_top_k": 10
                  }
              }
          }
      },
  )

A seguir

Usar modelos de embedding com o mecanismo de RAG da Vertex AI.