Questa pagina è stata tradotta dall'API Cloud Translation.

Modelli generativi

Questa pagina elenca i modelli Gemini, i modelli di autodeployment e i modelli con API gestite su Vertex AI che supportano RAG.

Modelli Gemini

Nella tabella seguente sono elencati i modelli Gemini e le relative versioni che supportano il motore RAG di Vertex AI:

Modello	Versione
Gemini 1.5 Flash	`gemini-1.5-flash-002` `gemini-1.5-flash-001`
Gemini 1.5 Pro	`gemini-1.5-pro-002` `gemini-1.5-pro-001`
Gemini 1.0 Pro	`gemini-1.0-pro-001` `gemini-1.0-pro-002`
Gemini 1.0 Pro Vision	`gemini-1.0-pro-vision-001`
Gemini	`gemini-experimental`

Modelli di cui è stato eseguito il deployment autonomo

Il motore RAG di Vertex AI supporta tutti i modelli in Model Garden.

Utilizza il motore RAG di Vertex AI con gli endpoint dei modelli aperti di cui hai eseguito il deployment autonomo.

Sostituisci le variabili utilizzate nell'esempio di codice:

PROJECT_ID: l'ID del tuo progetto.
LOCATION: la regione in cui elaborare la richiesta.

ENDPOINT_ID: l'ID endpoint.

  # Create a model instance with your self-deployed open model endpoint
  rag_model = GenerativeModel(
      "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID",
      tools=[rag_retrieval_tool]
  )

Modelli con API gestite su Vertex AI

I modelli con API gestite su Vertex AI che supportano il motore RAG di Vertex AI includono quanto segue:

Il seguente esempio di codice mostra come utilizzare l'API GeminiGenerateContent per creare un'istanza di modello generativo. L'ID modello,/publisher/meta/models/llama-3.1-405B-instruct-maas, si trova nella scheda del modello.

Sostituisci le variabili utilizzate nell'esempio di codice:

PROJECT_ID: l'ID del tuo progetto.
LOCATION: la regione in cui elaborare la richiesta.

RAG_RETRIEVAL_TOOL: lo strumento di recupero RAG.

  # Create a model instance with Llama 3.1 MaaS endpoint
  rag_model = GenerativeModel(
      "projects/PROJECT_ID/locations/LOCATION/publisher/meta/models/llama-3.1-405B-instruct-maas",
      tools=RAG_RETRIEVAL_TOOL
  )

Il seguente esempio di codice mostra come utilizzare l'API ChatCompletions compatibile con OpenAI per generare una risposta del modello.

Sostituisci le variabili utilizzate nell'esempio di codice:

PROJECT_ID: l'ID del tuo progetto.
LOCATION: la regione in cui elaborare la richiesta.
MODEL_ID: modello LLM per la generazione di contenuti. Ad esempio, meta/llama-3.1-405b-instruct-maas.
INPUT_PROMPT: il testo inviato all'LLM per la generazione di contenuti. Utilizza un prompt pertinente ai documenti in Vertex AI Search.
RAG_CORPUS_ID: l'ID della risorsa del corpus RAG.
ROLE: il tuo ruolo.
USER: il tuo nome utente.

CONTENT: i tuoi contenuti.

  # Generate a response with Llama 3.1 MaaS endpoint
  response = client.chat.completions.create(
      model="MODEL_ID",
      messages=[{"ROLE": "USER", "content": "CONTENT"}],
      extra_body={
          "extra_body": {
              "google": {
                  "vertex_rag_store": {
                      "rag_resources": {
                          "rag_corpus": "RAG_CORPUS_ID"
                      },
                      "similarity_top_k": 10
                  }
              }
          }
      },
  )

Passaggi successivi

Utilizzare i modelli di embedding con il motore RAG di Vertex AI