I modelli AI21 Labs su Vertex AI offrono un ambiente serverless e completamente gestito i modelli come API. Per utilizzare un modello AI21 Labs su Vertex AI, invia una richiesta direttamente all'endpoint API Vertex AI. Poiché i modelli AI21 Labs utilizzano un'API gestita, non è necessario eseguire il provisioning o gestire l'infrastruttura.
Puoi trasmettere le risposte in streaming per ridurre la percezione della latenza dell'utente finale. R la risposta in modalità flusso utilizza eventi inviati dal server (SSE) per trasmettere in modo incrementale la risposta corretta.
Paghi i modelli AI21 Labs man mano che li utilizzi (pagamento a consumo). Per prezzi con pagamento a consumo, vedi i prezzi del modello AI21 Labs nella Prezzi di Vertex AI .
Modelli AI21 Labs disponibili
I seguenti modelli sono disponibili da AI21 Labs per l'utilizzo in Vertex AI. Per accedere a un modello AI21 Labs, vai alla relativa Scheda del modello di Model Garden.
Jamba 1.5 Mini
Il Jamba 1.5 Mini di AI21 Labs è un piccolo modello di base costruito a partire da che sfrutta l'architettura Mamba e Transformer per raggiungere una qualità leader a un prezzo competitivo.
Con l'architettura ibrida SSM-Transformer e una finestra di contesto di 256.000, Jamba 1.5 Mini risolve in modo efficiente una serie di casi d'uso aziendali di generazione e comprensione del testo.
Jamba 1.5 Mini è ideale per flussi di lavoro aziendali con attività che molto dati e richiede un modello in grado di importare una grande quantità di informazioni produrre una risposta accurata e approfondita, come il riepilogo di documenti lunghi o abilitare il question answering grazie a un'ampia conoscenza dell'organizzazione base. Jamba 1.5 Mini offre un buon equilibrio tra qualità, velocità in uscita e basso costo.
Vai alla scheda del modello Jamba 1.5 MiniJamba 1.5 Large
Jamba 1.5 Large di AI21 Labs è un modello di base costruito a partire da che sfrutta l'architettura Mamba e Transformer per raggiungere una qualità leader a un prezzo competitivo.
Con l'architettura ibrida SSM-Transformer e una finestra di contesto di 256.000, Jamba 1.5 Large risolve in modo efficiente una serie di casi d'uso aziendali di generazione e comprensione del testo. Jamba 1.5 Large ha 94 miliardi di parametri attivi e 398 miliardi di parametri totali che generano risposte estremamente accurate.
Jamba 1.5 Large è ideale per flussi di lavoro aziendali con attività molto dati e richiede un modello in grado di importare una grande quantità di informazioni produrre una risposta accurata e approfondita, come il riepilogo di documenti lunghi o abilitare il question answering grazie a un'ampia conoscenza dell'organizzazione base. Jamba 1.5 Large è progettato per fornire risposte di qualità superiore, un throughput elevato e prezzi competitivi rispetto ad altri modelli della stessa classe di dimensioni.
Vai alla scheda del modello Jamba 1.5 LargeUtilizzare i modelli di AI21 Labs
Quando invii richieste per utilizzare i modelli di AI21 Labs, utilizza il modello seguente nomi:
- Per Jamba 1.5 Mini, utilizza
jamba-1.5-mini@001
. - Per Jamba 1.5 Large, usa
jamba-1.5-large@001
.
Ti consigliamo di utilizzare le versioni del modello che includono un suffisso
inizia con il simbolo @
a causa delle possibili differenze
le versioni del modello. Se non specifichi una versione del modello, viene usata l'ultima versione
sempre utilizzata, il che può inavvertitamente influire sui flussi di lavoro quando
modifiche.
Prima di iniziare
Per utilizzare i modelli AI21 Labs con Vertex AI, devi eseguire
i seguenti passaggi. L'API Vertex AI
(aiplatform.googleapis.com
) deve essere attivato per utilizzare
Vertex AI. Se hai già un progetto con il
è abilitata l'API Vertex AI, puoi utilizzare questo progetto anziché creare un'istanza
un nuovo progetto.
Assicurati di disporre delle autorizzazioni necessarie per attivare e utilizzare il partner di grandi dimensioni. Per ulteriori informazioni, consulta Concedere le autorizzazioni richieste.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- Vai a una delle seguenti schede dei modelli di Model Garden, quindi fai clic su attiva:
Effettua una chiamata in modalità flusso a un modello di AI21 Labs
Nell'esempio seguente viene effettuata una chiamata in modalità flusso a un modello AI21 Labs.
REST
Dopo configurare l'ambiente, puoi usare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
- LOCATION: una regione che supporta modelli di AI21 Labs.
- MODEL: il nome del modello che vuoi utilizzare. Nella
il corpo della richiesta, escludi la versione del modello
@
numero. - ROLE: il ruolo associato a un messaggio. Puoi specificare un
user
o unassistant
. Il primo messaggio deve usare il ruolouser
. I modelli funzionano con curveuser
eassistant
alternate. Se il messaggio finale utilizza il ruoloassistant
, i contenuti della risposta continuano immediatamente da quelli del messaggio. Puoi utilizzare la modalità questo per vincolare parte della risposta del modello. - STREAM: un valore booleano che specifica
indipendentemente dal fatto che la risposta sia trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre
la percezione della latenza
da parte dell'utente finale. Imposta
true
per trasmettere la risposta in streaming efalse
per restituire la risposta contemporaneamente. - CONTENT: i contenuti, ad esempio
del messaggio
user
oassistant
. - MAX_OUTPUT_TOKENS:
Numero massimo di token che possono essere generati nella risposta. Un token equivale a circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe diverse.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict
Corpo JSON della richiesta:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": true }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente.
Fai una chiamata non in streaming a un modello AI21 Labs
L'esempio seguente effettua una chiamata non in streaming a un modello AI21 Labs.
REST
Dopo configurare l'ambiente, puoi usare REST per testare un prompt di testo. Il seguente esempio invia una richiesta al publisher endpoint del modello.
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
- LOCATION: una regione che supporta modelli di AI21 Labs.
- MODEL: il nome del modello che vuoi utilizzare. Nella
il corpo della richiesta, escludi la versione del modello
@
numero. - ROLE: il ruolo associato a un messaggio. Puoi specificare un
user
o unassistant
. Il primo messaggio deve usare il ruolouser
. I modelli funzionano con curveuser
eassistant
alternate. Se il messaggio finale utilizza il ruoloassistant
, i contenuti della risposta continuano immediatamente da quelli del messaggio. Puoi utilizzare la modalità questo per vincolare parte della risposta del modello. - STREAM: un valore booleano che specifica
indipendentemente dal fatto che la risposta sia trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre
la percezione della latenza
da parte dell'utente finale. Imposta
true
per trasmettere la risposta in streaming efalse
per restituire la risposta contemporaneamente. - CONTENT: i contenuti, ad esempio
del messaggio
user
oassistant
. - MAX_OUTPUT_TOKENS:
Numero massimo di token che possono essere generati nella risposta. Un token equivale a circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe diverse.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict
Corpo JSON della richiesta:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": false }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente.
Disponibilità e quote per la regione del modello di AI21 Labs
Per i modelli AI21 Labs, viene applicata una quota per ogni regione in cui il modello viene disponibili. La quota è specificata in query al minuto (QPM) e token per minuto (TPM). Il TPM include token di input e di output.
Le regioni supportate, le quote predefinite e la lunghezza massima del contesto per ciascun modello AI21 Labs sono elencate nelle seguenti tabelle:
Jamba 1.5 Mini
Regione | Sistema di quote | Lunghezza del contesto supportata |
---|---|---|
us-central1 |
50 QPM, 60.000 TPM | 256.000 token |
europe-west4 |
50 QPM, 60.000 TPM | 256.000 token |
Jamba 1.5 Large
Regione | Sistema di quote | Lunghezza del contesto supportata |
---|---|---|
us-central1 |
20 QPM, 20.000 TPM | 256.000 token |
europe-west4 |
20 QPM, 20.000 TPM | 256.000 token |
Se vuoi aumentare una qualsiasi delle tue quote per l'AI generativa su Vertex AI, puoi usa la console Google Cloud per richiedere un aumento della quota. Per scoprire di più sulle quote, consulta Utilizzo delle quote.