I modelli Llama su Vertex AI offrono un ambiente serverless e completamente gestito i modelli come API. Per utilizzare un modello Llama su Vertex AI, invia una richiesta direttamente all'endpoint API Vertex AI. Poiché I modelli Llama utilizzano un'API gestita, non è necessario eseguire il provisioning per gestire l'infrastruttura.
Puoi trasmettere le risposte in streaming per ridurre la percezione della latenza dell'utente finale. R la risposta in modalità flusso utilizza eventi inviati dal server (SSE) per trasmettere in modo incrementale la risposta corretta.
Durante il periodo di anteprima non sono previsti costi. Se hai bisogno di pronto per la produzione, utilizza i modelli Llama self-hosted.
Modelli Llama 3.1 disponibili
Llama 3.1 è un modello linguistico autoregressivo che utilizza una Transformer. Le versioni ottimizzate utilizzano l'ottimizzazione supervisionata (SFT) e apprendimento per rinforzo con feedback umano (RLHF) per allinearsi alle preferenze per l'utilità e la sicurezza.
Da Meta sono disponibili i seguenti modelli Llama per l'utilizzo in Vertex AI. Per accedere a un modello Llama, vai alla relativa Scheda del modello di Model Garden.
Llama 3.1 405B
Llama 3.1 405B è il modello Meta più potente e versatile per data. È il più grande modello di base disponibile al pubblico e offre funzionalità dalla generazione di dati sintetici alla distillazione del modello, orientamento, matematica, strumento la traduzione multilingue e così via. Per ulteriori informazioni, vedi sito Llama 3.1 di Meta.
Llama 3.1 405B è ottimizzato per i seguenti casi d'uso:
- Applicazioni di livello aziendale
- Ricerca e sviluppo
- Generazione di dati sintetici e distillazione del modello
Utilizza modelli Llama
Quando invii richieste per utilizzare i modelli di Lama, utilizza il seguente modello nomi:
- Per Llama 3.1 405B, utilizza
llama3-405b-instruct-mass
.
Ti consigliamo di utilizzare le versioni del modello che includono un suffisso
inizia con il simbolo @
a causa delle possibili differenze
le versioni del modello. Se non specifichi una versione del modello, viene usata l'ultima versione
sempre utilizzata, il che può inavvertitamente influire sui flussi di lavoro quando
modifiche.
Prima di iniziare
Per utilizzare i modelli Llama con Vertex AI, devi eseguire
i seguenti passaggi. L'API Vertex AI
(aiplatform.googleapis.com
) deve essere attivato per utilizzare
Vertex AI. Se hai già un progetto con il
è abilitata l'API Vertex AI, puoi utilizzare questo progetto anziché creare un'istanza
un nuovo progetto.
Assicurati di disporre delle autorizzazioni necessarie per attivare e utilizzare il partner di machine learning. Per ulteriori informazioni, vedi Concedi le autorizzazioni richieste.
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Attiva l'API Vertex AI.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Attiva l'API Vertex AI.
- Vai a una delle seguenti schede dei modelli di Model Garden, quindi fai clic su attiva:
Effettuare una chiamata in modalità flusso a un modello Llama
Nell'esempio seguente viene effettuata una chiamata in modalità flusso a un modello Llama.
REST
Dopo configurare l'ambiente, puoi usare REST per testare un prompt di testo. Il seguente esempio invia una richiesta al publisher endpoint del modello.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- LOCATION: una regione che supporta Modelli di lama.
- MODEL: il nome del modello che vuoi utilizzare.
- ROLE: il ruolo associato a
per creare un nuovo messaggio email. Puoi specificare un
user
o unassistant
. Il primo messaggio deve usare il ruolouser
. I modelli attiva con turni alternatiuser
eassistant
. Se il messaggio finale utilizza il ruoloassistant
, la risposta i contenuti procedono immediatamente a partire dai contenuti di quel messaggio. Puoi utilizzare la modalità questo per vincolare parte della risposta del modello. - CONTENT: i contenuti, ad esempio
del messaggio
user
oassistant
. - MAX_OUTPUT_TOKENS:
Numero massimo di token che possono essere generati nella risposta. Un token è
di circa quattro caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe diverse.
- STREAM: un valore booleano che specifica
indipendentemente dal fatto che la risposta sia trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre
la percezione della latenza
da parte dell'utente finale. Imposta
true
per trasmettere la risposta in streaming efalse
per restituire la risposta contemporaneamente.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Corpo JSON della richiesta:
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": true }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente.
Fai una chiamata unaria a un modello Lama
Nell'esempio seguente viene effettuata una chiamata unaria a un modello Llama.
REST
Dopo configurare l'ambiente, puoi usare REST per testare un prompt di testo. Il seguente esempio invia una richiesta al publisher endpoint del modello.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- LOCATION: una regione che supporta Modelli di lama.
- MODEL: il nome del modello che vuoi utilizzare.
- ROLE: il ruolo associato a
per creare un nuovo messaggio email. Puoi specificare un
user
o unassistant
. Il primo messaggio deve usare il ruolouser
. I modelli attiva con turni alternatiuser
eassistant
. Se il messaggio finale utilizza il ruoloassistant
, la risposta i contenuti procedono immediatamente a partire dai contenuti di quel messaggio. Puoi utilizzare la modalità questo per vincolare parte della risposta del modello. - CONTENT: i contenuti, ad esempio
del messaggio
user
oassistant
. - MAX_OUTPUT_TOKENS:
Numero massimo di token che possono essere generati nella risposta. Un token è
di circa quattro caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe diverse.
- STREAM: un valore booleano che specifica
indipendentemente dal fatto che la risposta sia trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre
la percezione della latenza
da parte dell'utente finale. Imposta
true
per trasmettere la risposta in streaming efalse
per restituire la risposta contemporaneamente.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Corpo JSON della richiesta:
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": false }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente.
Esempi
Per vedere esempi di utilizzo dei modelli Llama, esegui i seguenti blocchi note:
Descrizione | Apri in |
---|---|
Utilizza Llama Guard per salvaguardare gli input e gli output degli LLM. |
Colab GitHub Vertex AI Workbench |
Valutare i modelli Llama 3.1 utilizzando la valutazione affiancata automatica (AutoSxS). |
Colab GitHub Vertex AI Workbench |
Disponibilità e quote per la regione del modello Lama
Per i modelli Llama, viene applicata una quota per ogni regione in cui il modello viene disponibili. La quota è specificata in query al minuto (QPM).
Le regioni supportate, le quote predefinite e la lunghezza massima del contesto per ciascun Il modello lama è elencato nelle seguenti tabelle:
Llama 3.1 405B
Regione | Sistema di quote | Lunghezza del contesto supportata |
---|---|---|
us-central1 |
15 Q/M | 32.000 token |
Se vuoi aumentare una qualsiasi delle tue quote per l'AI generativa su Vertex AI, puoi usa la console Google Cloud per richiedere un aumento della quota. Per scoprire di più su quote, consulta Utilizzare le quote.