Generative Modelle

Auf dieser Seite sind Gemini-Modelle, selbst bereitgestellte Modelle und Modelle mit verwalteten APIs in Vertex AI aufgeführt, die RAG unterstützen.

Gemini-Modelle

In der folgenden Tabelle sind die Gemini-Modelle und ihre Versionen aufgeführt, die die Vertex AI RAG Engine unterstützen:

Modell Version
Gemini 1.5 Flash gemini-1.5-flash-002
gemini-1.5-flash-001
Gemini 1.5 Pro, gemini-1.5-pro-002
gemini-1.5-pro-001
Gemini 1.0 Pro gemini-1.0-pro-001
gemini-1.0-pro-002
Gemini 1.0 Pro Vision gemini-1.0-pro-vision-001
Gemini gemini-experimental

Selbst bereitgestellte Modelle

Die Vertex AI RAG Engine unterstützt alle Modelle in Model Garden.

Verwenden Sie die Vertex AI RAG Engine mit Ihren selbst bereitgestellten Endpunkten für offene Modelle.

Ersetzen Sie die im Codebeispiel verwendeten Variablen:

  • PROJECT_ID: Ihre Projekt-ID.
  • LOCATION: Die Region, in der Ihre Anfrage verarbeitet werden soll.
  • ENDPOINT_ID: Ihre Endpunkt-ID.

      # Create a model instance with your self-deployed open model endpoint
      rag_model = GenerativeModel(
          "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID",
          tools=[rag_retrieval_tool]
      )
    

Modelle mit verwalteten APIs in Vertex AI

Die Modelle mit verwalteten APIs in Vertex AI, die die Vertex AI-RAG-Engine unterstützen, sind:

Im folgenden Codebeispiel wird gezeigt, wie Sie mit der GeminiGenerateContent API eine Instanz eines generativen Modells erstellen. Die Modell-ID, /publisher/meta/models/llama-3.1-405B-instruct-maas, finden Sie auf der Modellkarte.

Ersetzen Sie die im Codebeispiel verwendeten Variablen:

  • PROJECT_ID: Ihre Projekt-ID.
  • LOCATION: Die Region, in der Ihre Anfrage verarbeitet werden soll.
  • RAG_RETRIEVAL_TOOL: Ihr RAG-Abruftool.

      # Create a model instance with Llama 3.1 MaaS endpoint
      rag_model = GenerativeModel(
          "projects/PROJECT_ID/locations/LOCATION/publisher/meta/models/llama-3.1-405B-instruct-maas",
          tools=RAG_RETRIEVAL_TOOL
      )
    

Das folgende Codebeispiel zeigt, wie Sie mit der OpenAI-kompatiblen ChatCompletions API eine Modellantwort generieren.

Ersetzen Sie die im Codebeispiel verwendeten Variablen:

  • PROJECT_ID: Ihre Projekt-ID.
  • LOCATION: Die Region, in der Ihre Anfrage verarbeitet werden soll.
  • MODEL_ID: LLM-Modell für die Inhaltsgenerierung. Beispiel: meta/llama-3.1-405b-instruct-maas.
  • INPUT_PROMPT: Der Text, der zur Inhaltsgenerierung an das LLM gesendet wird. Verwenden Sie einen Prompt, der für die Dokumente in der Vertex AI-Suche relevant ist.
  • RAG_CORPUS_ID: Die ID der RAG-Korpusressource.
  • ROLE: Ihre Rolle.
  • USER: Ihr Nutzername.
  • CONTENT: Ihre Inhalte.

      # Generate a response with Llama 3.1 MaaS endpoint
      response = client.chat.completions.create(
          model="MODEL_ID",
          messages=[{"ROLE": "USER", "content": "CONTENT"}],
          extra_body={
              "extra_body": {
                  "google": {
                      "vertex_rag_store": {
                          "rag_resources": {
                              "rag_corpus": "RAG_CORPUS_ID"
                          },
                          "similarity_top_k": 10
                      }
                  }
              }
          },
      )
    

Nächste Schritte