Modelos generativos

En esta página, se enumeran los modelos de Gemini, los modelos autoimplementados y los modelos con APIs administradas en Vertex AI que admiten la RAG.

Modelos de Gemini

En la siguiente tabla, se enumeran los modelos de Gemini y sus versiones que admiten el motor de RAG de Vertex AI:

Modelo Versión
Gemini 1.5 Flash gemini-1.5-flash-002
gemini-1.5-flash-001
Gemini 1.5 Pro gemini-1.5-pro-002
gemini-1.5-pro-001
Gemini 1.0 Pro gemini-1.0-pro-001
gemini-1.0-pro-002
Gemini 1.0 Pro Vision gemini-1.0-pro-vision-001
Gemini gemini-experimental

Modelos implementados automáticamente

El motor de RAG de Vertex AI admite todos los modelos de Model Garden.

Usa Vertex AI RAG Engine con los extremos de modelos abiertos que implementaste por tu cuenta.

Reemplaza las variables que se usan en la muestra de código:

  • PROJECT_ID: Es el ID de tu proyecto.
  • LOCATION: Es la región para procesar tu solicitud.
  • ENDPOINT_ID: Es el ID de tu extremo.

      # Create a model instance with your self-deployed open model endpoint
      rag_model = GenerativeModel(
          "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID",
          tools=[rag_retrieval_tool]
      )
    

Modelos con APIs administradas en Vertex AI

Los modelos con APIs administradas en Vertex AI que admiten el motor de RAG de Vertex AI incluyen los siguientes:

En la siguiente muestra de código, se muestra cómo usar la API de GenerateContent de Gemini para crear una instancia de modelo generativo. El ID del modelo, /publisher/meta/models/llama-3.1-405B-instruct-maas, se encuentra en la tarjeta de modelo.

Reemplaza las variables que se usan en la muestra de código:

  • PROJECT_ID: Es el ID de tu proyecto.
  • LOCATION: Es la región para procesar tu solicitud.
  • RAG_RETRIEVAL_TOOL: Es tu herramienta de recuperación de RAG.

      # Create a model instance with Llama 3.1 MaaS endpoint
      rag_model = GenerativeModel(
          "projects/PROJECT_ID/locations/LOCATION/publisher/meta/models/llama-3.1-405B-instruct-maas",
          tools=RAG_RETRIEVAL_TOOL
      )
    

En la siguiente muestra de código, se muestra cómo usar la API de ChatCompletions compatible con OpenAI para generar una respuesta del modelo.

Reemplaza las variables que se usan en la muestra de código:

  • PROJECT_ID: Es el ID de tu proyecto.
  • LOCATION: Es la región para procesar tu solicitud.
  • MODEL_ID: Es un modelo de LLM para la generación de contenido. Por ejemplo, meta/llama-3.1-405b-instruct-maas.
  • INPUT_PROMPT: Es el texto enviado al LLM para la generación de contenido. Usa una instrucción relevante para los documentos en Vertex AI Search.
  • RAG_CORPUS_ID: Es el ID del recurso del corpus de RAG.
  • ROLE: Tu rol.
  • USER: Tu nombre de usuario.
  • CONTENT: Tu contenido

      # Generate a response with Llama 3.1 MaaS endpoint
      response = client.chat.completions.create(
          model="MODEL_ID",
          messages=[{"ROLE": "USER", "content": "CONTENT"}],
          extra_body={
              "extra_body": {
                  "google": {
                      "vertex_rag_store": {
                          "rag_resources": {
                              "rag_corpus": "RAG_CORPUS_ID"
                          },
                          "similarity_top_k": 10
                      }
                  }
              }
          },
      )
    

¿Qué sigue?