En esta página, se enumeran los modelos de Gemini, los modelos autoimplementados y los modelos con APIs administradas en Vertex AI que admiten la RAG.
Modelos de Gemini
En la siguiente tabla, se enumeran los modelos de Gemini y sus versiones que admiten el motor de RAG de Vertex AI:
Modelo | Versión |
---|---|
Gemini 1.5 Flash | gemini-1.5-flash-002 gemini-1.5-flash-001 |
Gemini 1.5 Pro | gemini-1.5-pro-002 gemini-1.5-pro-001 |
Gemini 1.0 Pro | gemini-1.0-pro-001 gemini-1.0-pro-002 |
Gemini 1.0 Pro Vision | gemini-1.0-pro-vision-001 |
Gemini | gemini-experimental |
Modelos implementados automáticamente
El motor de RAG de Vertex AI admite todos los modelos de Model Garden.
Usa Vertex AI RAG Engine con los extremos de modelos abiertos que implementaste por tu cuenta.
Reemplaza las variables que se usan en la muestra de código:
- PROJECT_ID: Es el ID de tu proyecto.
- LOCATION: Es la región para procesar tu solicitud.
ENDPOINT_ID: Es el ID de tu extremo.
# Create a model instance with your self-deployed open model endpoint rag_model = GenerativeModel( "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID", tools=[rag_retrieval_tool] )
Modelos con APIs administradas en Vertex AI
Los modelos con APIs administradas en Vertex AI que admiten el motor de RAG de Vertex AI incluyen los siguientes:
En la siguiente muestra de código, se muestra cómo usar la API de GenerateContent
de Gemini para crear una instancia de modelo generativo. El ID del modelo, /publisher/meta/models/llama-3.1-405B-instruct-maas
, se encuentra en la tarjeta de modelo.
Reemplaza las variables que se usan en la muestra de código:
- PROJECT_ID: Es el ID de tu proyecto.
- LOCATION: Es la región para procesar tu solicitud.
RAG_RETRIEVAL_TOOL: Es tu herramienta de recuperación de RAG.
# Create a model instance with Llama 3.1 MaaS endpoint rag_model = GenerativeModel( "projects/PROJECT_ID/locations/LOCATION/publisher/meta/models/llama-3.1-405B-instruct-maas", tools=RAG_RETRIEVAL_TOOL )
En la siguiente muestra de código, se muestra cómo usar la API de ChatCompletions
compatible con OpenAI para generar una respuesta del modelo.
Reemplaza las variables que se usan en la muestra de código:
- PROJECT_ID: Es el ID de tu proyecto.
- LOCATION: Es la región para procesar tu solicitud.
- MODEL_ID: Es un modelo de LLM para la generación de contenido. Por ejemplo,
meta/llama-3.1-405b-instruct-maas
. - INPUT_PROMPT: Es el texto enviado al LLM para la generación de contenido. Usa una instrucción relevante para los documentos en Vertex AI Search.
- RAG_CORPUS_ID: Es el ID del recurso del corpus de RAG.
- ROLE: Tu rol.
- USER: Tu nombre de usuario.
CONTENT: Tu contenido
# Generate a response with Llama 3.1 MaaS endpoint response = client.chat.completions.create( model="MODEL_ID", messages=[{"ROLE": "USER", "content": "CONTENT"}], extra_body={ "extra_body": { "google": { "vertex_rag_store": { "rag_resources": { "rag_corpus": "RAG_CORPUS_ID" }, "similarity_top_k": 10 } } } }, )