Questa pagina è stata tradotta dall'API Cloud Translation.

Modelli di AI21 Labs

I modelli di AI21 Labs su Vertex AI offrono modelli completamente gestiti e serverless come API. Per utilizzare un modello AI21 Labs su Vertex AI, invia una richiesta direttamente all'endpoint dell'API Vertex AI. Poiché i modelli AI21 Labs utilizzano un'API gestita, non è necessario eseguire il provisioning o gestire l'infrastruttura.

Puoi trasmettere le risposte in streaming per ridurre la percezione della latenza da parte dell'utente finale. Una risposta in streaming utilizza gli eventi inviati dal server (SSE) per eseguire lo streaming incrementale della risposta.

Paghi i modelli AI21 Labs man mano che li utilizzi (pagamento a consumo). Per i prezzi di pagamento a consumo, consulta i prezzi dei modelli AI21 Labs nella pagina dei prezzi di Vertex AI.

Modelli AI21 Labs disponibili

I seguenti modelli sono disponibili da AI21 Labs per l'utilizzo in Vertex AI. Per accedere a un modello AI21 Labs, vai alla relativa scheda del modello di Model Garden.

Jamba 1.5 Mini

Jamba 1.5 Mini di AI21 Labs è un piccolo modello di base creato da un'architettura ibrida che sfrutta l'architettura Mamba e l'architettura Transformer per ottenere una qualità leader a un prezzo competitivo.

Con l'architettura ibrida SSM-Transformer e una finestra di contesto di 256.000, Jamba 1.5 Mini risolve in modo efficiente una serie di casi d'uso aziendali di generazione e comprensione del testo.

Jamba 1.5 Mini è ideale per i flussi di lavoro aziendali con attività che richiedono un volume elevato di dati e un modello in grado di importare una grande quantità di informazioni per produrre una risposta accurata e completa, ad esempio riassumere documenti lunghi o consentire la risposta a domande in un'ampia base di conoscenza dell'organizzazione. Jamba 1.5 Mini offre un buon equilibrio tra qualità, velocità in uscita e basso costo.

Vai alla scheda del modello Jamba 1.5 Mini

Jamba 1.5 Large

Jamba 1.5 Large di AI21 Labs è un modello di base creato da un'architettura ibrida che sfrutta l'architettura Mamba e l'architettura Transformer per ottenere una qualità leader a un prezzo competitivo.

Con l'architettura ibrida SSM-Transformer e una finestra di contesto di 256.000, Jamba 1.5 Large risolve in modo efficiente una serie di casi d'uso aziendali di generazione e comprensione del testo. Jamba 1.5 Large ha 94 miliardi di parametri attivi e 398 miliardi di parametri totali che generano risposte estremamente accurate.

Jamba 1.5 Large è ideale per i flussi di lavoro aziendali con attività che richiedono un gran numero di dati e un modello in grado di importare una grande quantità di informazioni per produrre una risposta accurata e completa, ad esempio per riassumere documenti lunghi o per consentire la risposta a domande in un'ampia base di conoscenza dell'organizzazione. Jamba 1.5 Large è progettato per fornire risposte di qualità superiore, un throughput elevato e prezzi competitivi rispetto ad altri modelli della stessa classe di dimensioni.

Vai alla scheda del modello Jamba 1.5 Large

Utilizzare i modelli di AI21 Labs

Quando invii richieste per utilizzare i modelli di AI21 Labs, utilizza i seguenti nomi del modello:

Per Jamba 1.5 Mini, usa jamba-1.5-mini@001.
Per Jamba 1.5 Large, utilizza jamba-1.5-large@001.

Ti consigliamo di utilizzare le versioni del modello che includono un suffisso che inizia con un simbolo @ a causa delle possibili differenze tra le versioni del modello. Se non specifichi una versione del modello, viene sempre utilizzata la versione più recente, il che può influire inavvertitamente sui tuoi flussi di lavoro quando una versione del modello cambia.

Prima di iniziare

Per utilizzare i modelli di AI21 Labs con Vertex AI, devi eseguire i seguenti passaggi. Per utilizzare Vertex AI, è necessario attivare l'API Vertex AI (aiplatform.googleapis.com). Se hai già un progetto esistente con l'API Vertex AI abilitata, puoi utilizzarlo anziché crearne uno nuovo.

Assicurati di disporre delle autorizzazioni necessarie per attivare e utilizzare i modelli di partner. Per ulteriori informazioni, consulta Concedere le autorizzazioni richieste.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

Vai a una delle seguenti schede del modello di Model Garden e fai clic su Abilita:
- Vai alla scheda del modello Jamba 1.5 Large
- Vai alla scheda del modello Jamba 1.5 Mini

Effettua una chiamata in streaming a un modello AI21 Labs

L'esempio seguente effettua una chiamata in streaming a un modello di AI21 Labs.

REST

Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

LOCATION: una regione che supporta modelli di AI21 Labs.
MODEL: il nome del modello che vuoi utilizzare. Nel corpo della richiesta, escludi il numero di versione del modello @.
ROLE: il ruolo associato a un messaggio. Puoi specificare un user o un assistant. Il primo messaggio deve utilizzare il ruolo user. I modelli funzionano con curve user e assistant alternate. Se il messaggio finale utilizza il ruolo assistant, i contenuti della risposta continuano immediatamente da quelli del messaggio. Puoi usarli per limitare parte della risposta del modello.
STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre la percezione della latenza di utilizzo finale. Imposta su true per trasmettere la risposta in streaming e su false per restituirla tutta insieme.
CONTENT: i contenuti, ad esempio il testo, del messaggio user o assistant.
MAX_OUTPUT_TOKENS: Numero massimo di token che possono essere generati nella risposta. Un token equivale a circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict

Corpo JSON della richiesta:

{
  "model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Per inviare la richiesta, scegli una delle seguenti opzioni:

curl

Nota: il seguente comando presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login oppure utilizzando Cloud Shell, che ti consente di accedere automaticamente all'interfaccia a riga di comando gcloud. Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict"

PowerShell

Nota: il comando seguente presuppone che tu abbia eseguito l'accesso alla CLI gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login . Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente.

Risposta

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}
...

Fai una chiamata non in streaming a un modello AI21 Labs

L'esempio seguente effettua una chiamata non in streaming a un modello AI21 Labs.

REST

Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

LOCATION: una regione che supporta modelli di AI21 Labs.
MODEL: il nome del modello che vuoi utilizzare. Nel corpo della richiesta, escludi il numero di versione del modello @.
ROLE: il ruolo associato a un messaggio. Puoi specificare un user o un assistant. Il primo messaggio deve utilizzare il ruolo user. I modelli funzionano con curve user e assistant alternate. Se il messaggio finale utilizza il ruolo assistant, i contenuti della risposta continuano immediatamente da quelli del messaggio. Puoi usarli per limitare parte della risposta del modello.
STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre la percezione della latenza di utilizzo finale. Imposta su true per trasmettere la risposta in streaming e su false per restituirla tutta insieme.
CONTENT: i contenuti, ad esempio il testo, del messaggio user o assistant.
MAX_OUTPUT_TOKENS: Numero massimo di token che possono essere generati nella risposta. Un token equivale a circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Corpo JSON della richiesta:

{
  "model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Per inviare la richiesta, scegli una delle seguenti opzioni:

curl

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente.

Risposta

{
    "id": "e71d13ffb77344a08e34e0a22ea84458",
    "object": "chat.completion",
    "created": 1720806624,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "OUTPUT",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 17,
        "total_tokens": 295,
        "completion_tokens": 278
    }
}

Disponibilità e quote per la regione del modello AI21 Labs

Per i modelli AI21 Labs, viene applicata una quota per ogni regione in cui il modello è disponibile. La quota è specificata in query al minuto (QPM) e token al minuto (TPM). Il TPM include token di input e di output.

Le regioni supportate, le quote predefinite e la lunghezza massima del contesto per ciascun modello AI21 Labs sono elencate nelle seguenti tabelle:

Jamba 1.5 Mini

Regione	Sistema di quote	Lunghezza del contesto supportata
`us-central1`	50 QPM, 60.000 TPM	256.000 token
`europe-west4`	50 QPM, 60.000 TPM	256.000 token

Jamba 1.5 Large

Regione	Sistema di quote	Lunghezza del contesto supportata
`us-central1`	20 QPM, 20.000 TPM	256.000 token
`europe-west4`	20 QPM, 20.000 TPM	256.000 token

Se vuoi aumentare una delle quote per l'AI generativa su Vertex AI, puoi utilizzare la console Google Cloud per richiedere un aumento di quota. Per scoprire di più sulle quote, consulta Utilizzo delle quote.