Auf dieser Seite sind Gemini-Modelle, selbst bereitgestellte Modelle und Modelle mit verwalteten APIs in Vertex AI aufgeführt, die RAG unterstützen.
Gemini-Modelle
In der folgenden Tabelle sind die Gemini-Modelle und ihre Versionen aufgeführt, die die Vertex AI RAG Engine unterstützen:
Modell | Version |
---|---|
Gemini 1.5 Flash | gemini-1.5-flash-002 gemini-1.5-flash-001 |
Gemini 1.5 Pro, | gemini-1.5-pro-002 gemini-1.5-pro-001 |
Gemini 1.0 Pro | gemini-1.0-pro-001 gemini-1.0-pro-002 |
Gemini 1.0 Pro Vision | gemini-1.0-pro-vision-001 |
Gemini | gemini-experimental |
Selbst bereitgestellte Modelle
Die Vertex AI RAG Engine unterstützt alle Modelle in Model Garden.
Verwenden Sie die Vertex AI RAG Engine mit Ihren selbst bereitgestellten Endpunkten für offene Modelle.
Ersetzen Sie die im Codebeispiel verwendeten Variablen:
- PROJECT_ID: Ihre Projekt-ID.
- LOCATION: Die Region, in der Ihre Anfrage verarbeitet werden soll.
ENDPOINT_ID: Ihre Endpunkt-ID.
# Create a model instance with your self-deployed open model endpoint rag_model = GenerativeModel( "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID", tools=[rag_retrieval_tool] )
Modelle mit verwalteten APIs in Vertex AI
Die Modelle mit verwalteten APIs in Vertex AI, die die Vertex AI-RAG-Engine unterstützen, sind:
Im folgenden Codebeispiel wird gezeigt, wie Sie mit der GeminiGenerateContent
API eine Instanz eines generativen Modells erstellen. Die Modell-ID, /publisher/meta/models/llama-3.1-405B-instruct-maas
, finden Sie auf der Modellkarte.
Ersetzen Sie die im Codebeispiel verwendeten Variablen:
- PROJECT_ID: Ihre Projekt-ID.
- LOCATION: Die Region, in der Ihre Anfrage verarbeitet werden soll.
RAG_RETRIEVAL_TOOL: Ihr RAG-Abruftool.
# Create a model instance with Llama 3.1 MaaS endpoint rag_model = GenerativeModel( "projects/PROJECT_ID/locations/LOCATION/publisher/meta/models/llama-3.1-405B-instruct-maas", tools=RAG_RETRIEVAL_TOOL )
Das folgende Codebeispiel zeigt, wie Sie mit der OpenAI-kompatiblen ChatCompletions
API eine Modellantwort generieren.
Ersetzen Sie die im Codebeispiel verwendeten Variablen:
- PROJECT_ID: Ihre Projekt-ID.
- LOCATION: Die Region, in der Ihre Anfrage verarbeitet werden soll.
- MODEL_ID: LLM-Modell für die Inhaltsgenerierung. Beispiel:
meta/llama-3.1-405b-instruct-maas
. - INPUT_PROMPT: Der Text, der zur Inhaltsgenerierung an das LLM gesendet wird. Verwenden Sie einen Prompt, der für die Dokumente in der Vertex AI-Suche relevant ist.
- RAG_CORPUS_ID: Die ID der RAG-Korpusressource.
- ROLE: Ihre Rolle.
- USER: Ihr Nutzername.
CONTENT: Ihre Inhalte.
# Generate a response with Llama 3.1 MaaS endpoint response = client.chat.completions.create( model="MODEL_ID", messages=[{"ROLE": "USER", "content": "CONTENT"}], extra_body={ "extra_body": { "google": { "vertex_rag_store": { "rag_resources": { "rag_corpus": "RAG_CORPUS_ID" }, "similarity_top_k": 10 } } } }, )