Esta página foi traduzida pela API Cloud Translation.

Modelos geradores

Esta página lista modelos do Gemini, modelos autoimplantados e modelos com APIs gerenciadas na Vertex AI que oferecem suporte a RAG.

Modelos do Gemini

A tabela a seguir lista os modelos do Gemini e as versões que são compatíveis com o Vertex AI RAG Engine:

Modelo	Versão
Gemini 2.0 Flash (GA somente de texto)	`gemini-2.0-flash-001`
Gemini 2.0 Pro (experimental)	`gemini-2.0-pro-exp-02-05`
Gemini 1.5 Flash	`gemini-1.5-flash-002` `gemini-1.5-flash-001`
Gemini 1.5 Pro	`gemini-1.5-pro-002` `gemini-1.5-pro-001`
Gemini 1.0 Pro	`gemini-1.0-pro-001` `gemini-1.0-pro-002`
Gemini 1.0 Pro Vision	`gemini-1.0-pro-vision-001`
Gemini	`gemini-experimental`

Modelos autoimplantados

O Vertex AI RAG Engine é compatível com todos os modelos no Model Garden.

Use o mecanismo RAG da Vertex AI com os endpoints de modelos abertos autoimplantados.

Substitua as variáveis usadas no exemplo de código:

PROJECT_ID: o ID do projeto.
LOCATION: a região para processar sua solicitação.

ENDPOINT_ID: o ID do endpoint.

  # Create a model instance with your self-deployed open model endpoint
  rag_model = GenerativeModel(
      "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID",
      tools=[rag_retrieval_tool]
  )

Modelos com APIs gerenciadas na Vertex AI

Os modelos com APIs gerenciadas na Vertex AI que oferecem suporte ao mecanismo RAG da Vertex AI incluem:

O exemplo de código abaixo demonstra como usar a API GenerateContent do Gemini para criar uma instância de modelo generativo. O ID do modelo, /publisher/meta/models/llama-3.1-405B-instruct-maas, pode ser encontrado no card do modelo.

Substitua as variáveis usadas no exemplo de código:

PROJECT_ID: o ID do projeto.
LOCATION: a região para processar sua solicitação.

RAG_RETRIEVAL_TOOL: sua ferramenta de recuperação de RAG.

  # Create a model instance with Llama 3.1 MaaS endpoint
  rag_model = GenerativeModel(
      "projects/PROJECT_ID/locations/LOCATION/publisher/meta/models/llama-3.1-405B-instruct-maas",
      tools=RAG_RETRIEVAL_TOOL
  )

O exemplo de código abaixo demonstra como usar a API ChatCompletions compatível com a OpenAI para gerar uma resposta de modelo.

Substitua as variáveis usadas no exemplo de código:

PROJECT_ID: o ID do projeto.
LOCATION: a região para processar sua solicitação.
MODEL_ID: modelo LLM para geração de conteúdo. Por exemplo, meta/llama-3.1-405b-instruct-maas.
INPUT_PROMPT: o texto enviado ao LLM para geração de conteúdo. Use uma instrução relevante para os documentos na pesquisa da Vertex AI.
RAG_CORPUS_ID: o ID do recurso do corpus RAG.
ROLE: seu papel.
USER: seu nome de usuário.

CONTENT: seu conteúdo.

  # Generate a response with Llama 3.1 MaaS endpoint
  response = client.chat.completions.create(
      model="MODEL_ID",
      messages=[{"ROLE": "USER", "content": "CONTENT"}],
      extra_body={
          "extra_body": {
              "google": {
                  "vertex_rag_store": {
                      "rag_resources": {
                          "rag_corpus": "RAG_CORPUS_ID"
                      },
                      "similarity_top_k": 10
                  }
              }
          }
      },
  )

A seguir

Usar modelos de embedding com o mecanismo de RAG da Vertex AI