Modelli di lama


I modelli Llama su Vertex AI offrono un ambiente serverless e completamente gestito i modelli come API. Per utilizzare un modello Llama su Vertex AI, invia una richiesta direttamente all'endpoint API Vertex AI. Poiché I modelli Llama utilizzano un'API gestita, non è necessario eseguire il provisioning per gestire l'infrastruttura.

Puoi trasmettere le risposte in streaming per ridurre la percezione della latenza dell'utente finale. R la risposta in modalità flusso utilizza eventi inviati dal server (SSE) per trasmettere in modo incrementale la risposta corretta.

Durante il periodo di anteprima non sono previsti costi. Se hai bisogno di pronto per la produzione, utilizza i modelli Llama self-hosted.

Modelli Llama 3.1 disponibili

Llama 3.1 è un modello linguistico autoregressivo che utilizza una Transformer. Le versioni ottimizzate utilizzano l'ottimizzazione supervisionata (SFT) e apprendimento per rinforzo con feedback umano (RLHF) per allinearsi alle preferenze per l'utilità e la sicurezza.

Da Meta sono disponibili i seguenti modelli Llama per l'utilizzo in Vertex AI. Per accedere a un modello Llama, vai alla relativa Scheda del modello di Model Garden.

Llama 3.1 405B

Llama 3.1 405B è il modello Meta più potente e versatile per data. È il più grande modello di base disponibile al pubblico e offre funzionalità dalla generazione di dati sintetici alla distillazione del modello, orientamento, matematica, strumento la traduzione multilingue e così via. Per ulteriori informazioni, vedi sito Llama 3.1 di Meta.

Llama 3.1 405B è ottimizzato per i seguenti casi d'uso:

  • Applicazioni di livello aziendale
  • Ricerca e sviluppo
  • Generazione di dati sintetici e distillazione del modello
Vai alla scheda del modello Llama 3.1 405B

Utilizza modelli Llama

Quando invii richieste per utilizzare i modelli di Lama, utilizza il seguente modello nomi:

  • Per Llama 3.1 405B, utilizza llama3-405b-instruct-mass.

Ti consigliamo di utilizzare le versioni del modello che includono un suffisso inizia con il simbolo @ a causa delle possibili differenze le versioni del modello. Se non specifichi una versione del modello, viene usata l'ultima versione sempre utilizzata, il che può inavvertitamente influire sui flussi di lavoro quando modifiche.

Prima di iniziare

Per utilizzare i modelli Llama con Vertex AI, devi eseguire i seguenti passaggi. L'API Vertex AI (aiplatform.googleapis.com) deve essere attivato per utilizzare Vertex AI. Se hai già un progetto con il è abilitata l'API Vertex AI, puoi utilizzare questo progetto anziché creare un'istanza un nuovo progetto.

Assicurati di disporre delle autorizzazioni necessarie per attivare e utilizzare il partner di machine learning. Per ulteriori informazioni, vedi Concedi le autorizzazioni richieste.

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  4. Attiva l'API Vertex AI.

    Abilita l'API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  7. Attiva l'API Vertex AI.

    Abilita l'API

  8. Vai a una delle seguenti schede dei modelli di Model Garden, quindi fai clic su attiva:

Effettuare una chiamata in modalità flusso a un modello Llama

Nell'esempio seguente viene effettuata una chiamata in modalità flusso a un modello Llama.

REST

Dopo configurare l'ambiente, puoi usare REST per testare un prompt di testo. Il seguente esempio invia una richiesta al publisher endpoint del modello.

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:

  • LOCATION: una regione che supporta Modelli di lama.
  • MODEL: il nome del modello che vuoi utilizzare.
  • ROLE: il ruolo associato a per creare un nuovo messaggio email. Puoi specificare un user o un assistant. Il primo messaggio deve usare il ruolo user. I modelli attiva con turni alternati user e assistant. Se il messaggio finale utilizza il ruolo assistant, la risposta i contenuti procedono immediatamente a partire dai contenuti di quel messaggio. Puoi utilizzare la modalità questo per vincolare parte della risposta del modello.
  • CONTENT: i contenuti, ad esempio del messaggio user o assistant.
  • MAX_OUTPUT_TOKENS: Numero massimo di token che possono essere generati nella risposta. Un token è di circa quattro caratteri. 100 token corrispondono a circa 60-80 parole.

    Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe diverse.

  • STREAM: un valore booleano che specifica indipendentemente dal fatto che la risposta sia trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre la percezione della latenza da parte dell'utente finale. Imposta true per trasmettere la risposta in streaming e false per restituire la risposta contemporaneamente.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Corpo JSON della richiesta:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": true
}

Per inviare la richiesta, scegli una delle seguenti opzioni:

curl

Salva il corpo della richiesta in un file denominato request.json. ed esegui questo comando:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Salva il corpo della richiesta in un file denominato request.json. ed esegui questo comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente.

Fai una chiamata unaria a un modello Lama

Nell'esempio seguente viene effettuata una chiamata unaria a un modello Llama.

REST

Dopo configurare l'ambiente, puoi usare REST per testare un prompt di testo. Il seguente esempio invia una richiesta al publisher endpoint del modello.

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:

  • LOCATION: una regione che supporta Modelli di lama.
  • MODEL: il nome del modello che vuoi utilizzare.
  • ROLE: il ruolo associato a per creare un nuovo messaggio email. Puoi specificare un user o un assistant. Il primo messaggio deve usare il ruolo user. I modelli attiva con turni alternati user e assistant. Se il messaggio finale utilizza il ruolo assistant, la risposta i contenuti procedono immediatamente a partire dai contenuti di quel messaggio. Puoi utilizzare la modalità questo per vincolare parte della risposta del modello.
  • CONTENT: i contenuti, ad esempio del messaggio user o assistant.
  • MAX_OUTPUT_TOKENS: Numero massimo di token che possono essere generati nella risposta. Un token è di circa quattro caratteri. 100 token corrispondono a circa 60-80 parole.

    Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe diverse.

  • STREAM: un valore booleano che specifica indipendentemente dal fatto che la risposta sia trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre la percezione della latenza da parte dell'utente finale. Imposta true per trasmettere la risposta in streaming e false per restituire la risposta contemporaneamente.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Corpo JSON della richiesta:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": false
}

Per inviare la richiesta, scegli una delle seguenti opzioni:

curl

Salva il corpo della richiesta in un file denominato request.json. ed esegui questo comando:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Salva il corpo della richiesta in un file denominato request.json. ed esegui questo comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente.

Esempi

Per vedere esempi di utilizzo dei modelli Llama, esegui i seguenti blocchi note:

Descrizione Apri in
Utilizza Llama Guard per salvaguardare gli input e gli output degli LLM. Colab
GitHub
Vertex AI Workbench
Valutare i modelli Llama 3.1 utilizzando la valutazione affiancata automatica (AutoSxS). Colab
GitHub
Vertex AI Workbench

Disponibilità e quote per la regione del modello Lama

Per i modelli Llama, viene applicata una quota per ogni regione in cui il modello viene disponibili. La quota è specificata in query al minuto (QPM).

Le regioni supportate, le quote predefinite e la lunghezza massima del contesto per ciascun Il modello lama è elencato nelle seguenti tabelle:

Llama 3.1 405B

Regione Sistema di quote Lunghezza del contesto supportata
us-central1 15 Q/M 32.000 token

Se vuoi aumentare una qualsiasi delle tue quote per l'AI generativa su Vertex AI, puoi usa la console Google Cloud per richiedere un aumento della quota. Per scoprire di più su quote, consulta Utilizzare le quote.