AI21 Labs-Modelle

AI21 Labs-Modelle in Vertex AI bieten vollständig verwaltete und serverlose Modelle als APIs. Wenn Sie ein AI21 Labs-Modell für Vertex AI verwenden möchten, senden Sie eine Anfrage direkt an den API-Endpunkt von Vertex AI. Da AI21 Labs-Modelle eine verwaltete API verwenden, muss keine Infrastruktur bereitgestellt oder verwaltet werden.

Sie können Ihre Antworten streamen, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Eine gestreamte Antwort verwendet vom Server gesendete Ereignisse (SSE, Server-Sent Events), um die Antwort schrittweise zu streamen.

Sie zahlen für AI21 Labs-Modelle, sobald Sie sie verwenden (Pay-as-you-go). Informationen zu den „Pay as you go“-Preisen finden Sie in den Preisen des AI21 Labs-Modells auf der Preisseite für Vertex AI.

Verfügbare AI21 Labs-Modelle

Die folgenden Modelle stehen von AI21 Labs zur Verwendung in Vertex AI zur Verfügung. Rufen Sie die zugehörige Model Garden-Modellkarte auf, um auf ein AI21 Labs-Modell zuzugreifen.

Jamba 1.5 Mini

Jamba 1.5 Mini von AI21 Labs ist ein kleines Basismodell, das auf einer Hybridarchitektur basiert, die die Mamba- und Transformer-Architektur nutzt, um eine erstklassige Qualität zu einem wettbewerbsfähigen Preis zu erzielen.

Mit der SSM-Transformer-Hybridarchitektur und einem 256.000 Kontextfenster bietet Jamba 1.5 Mini eine Vielzahl von Anwendungsfällen für Textgenerierung und Textverständnis im Unternehmen effizient.

Jamba 1.5 Mini eignet sich ideal für datenintensive Unternehmensworkflows, bei denen ein Modell benötigt wird, das eine große Menge an Informationen aufnehmen kann, um eine genaue und umfassende Antwort zu liefern. Beispiele hierfür sind die Zusammenfassung langer Dokumente oder die Beantwortung von Fragen über eine umfangreiche Wissensdatenbank des Unternehmens. Jamba 1.5 Mini ist in Bezug auf Qualität, Durchsatz und niedrige Kosten gut ausgewogen.

Zur Modellkarte „Jamba 1.5 Mini“

Jamba 1.5 Large

Jamba 1.5 Large von AI21 Labs ist ein Basismodell, das auf einer Hybridarchitektur basiert, die die Mamba-Architektur und die Transformer-Architektur nutzt, um eine erstklassige Qualität zu einem wettbewerbsfähigen Preis zu erzielen.

Mit der SSM-Transformer-Hybridarchitektur und einem 256.000 Kontextfenster bietet Jamba 1.5 Large eine effiziente Lösung für eine Vielzahl von Anwendungsfällen für Textgenerierung und Textverständnis im Unternehmen. Jamba 1.5 Large hat 94 B aktive Parameter und 398 B Parameter insgesamt, was zu einer hohen Genauigkeit der Antworten führt.

Jamba 1.5 Large eignet sich ideal für datenintensive Unternehmensabläufe, bei denen ein Modell benötigt wird, das eine große Menge an Informationen aufnehmen kann, um eine genaue und umfassende Antwort zu liefern. Beispiele hierfür sind die Zusammenfassung langer Dokumente oder die Beantwortung von Fragen über eine umfangreiche Wissensdatenbank des Unternehmens. Jamba 1.5 Large ist auf hervorragende Antworten, einen hohen Durchsatz und die entsprechenden Preise ausgelegt, die mit anderen Modellen in dieser Größenklasse wettbewerbsfähig sind.

Zur Modellkarte „Jamba 1.5 Large“

AI21 Labs-Modelle verwenden

Verwenden Sie beim Senden von Anfragen zur Verwendung der Modelle von AI21 Labs die folgenden Modellnamen:

Verwenden Sie für Jamba 1.5 Mini jamba-1.5-mini@001.
Verwenden Sie für Jamba 1.5 Large jamba-1.5-large@001.

Aufgrund der möglichen Unterschiede zwischen den Modellversionen empfehlen wir die Verwendung der Modellversionen, die ein Suffix enthalten, das mit einem @-Symbol beginnt. Wenn Sie keine Modellversion angeben, wird immer die aktuelle Version verwendet. Dies kann sich versehentlich auf Ihre Workflows auswirken, wenn sich eine Modellversion ändert.

Hinweise

Führen Sie die folgenden Schritte aus, um AI21 Labs-Modelle mit Vertex AI zu verwenden. Die Vertex AI API (aiplatform.googleapis.com) muss aktiviert sein, um Vertex AI verwenden zu können. Wenn Sie bereits ein Projekt mit aktivierter Vertex AI API haben, können Sie dieses Projekt verwenden, anstatt ein neues Projekt zu erstellen.

Sie müssen die erforderlichen Berechtigungen zum Aktivieren und Verwenden von Partnermodellen haben. Weitere Informationen finden Sie unter Erforderliche Berechtigungen erteilen.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

Rufen Sie eine der folgenden Model Garden-Modellkarten auf und klicken Sie auf Aktivieren:
- Zur Modellkarte „Jamba 1.5 Large“
- Zur Modellkarte „Jamba 1.5 Mini“

Streaming-Aufruf an ein AI21 Labs-Modell senden

Im folgenden Beispiel wird ein Streaming-Aufruf an ein AI21 Labs-Modell gesendet.

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

LOCATION: Eine Region, die AI21 Labs-Modelle unterstützt.
MODEL: Der Modellname, den Sie verwenden möchten. Schließen Sie im Anfragetext die Modellversionsnummer @ aus.
ROLE: Die einer Nachricht zugeordnete Rolle. Sie können user oder assistant angeben. Die erste Nachricht muss die Rolle user verwenden. Die Modelle funktionieren abwechselnd mit user und assistant. Wenn die endgültige Nachricht die Rolle assistant verwendet, wird der Antwortinhalt direkt vom Inhalt dieser Nachricht aus fortgesetzt. Damit können Sie einen Teil der Antwort des Modells einschränken.
STREAM: Ein boolescher Wert, mit dem angegeben wird, ob die Antwort gestreamt wird oder nicht. Streamen Sie Ihre Antwort, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Legen Sie true fest, um die Antwort zu streamen, und false, um die Antwort auf einmal zurückzugeben.
CONTENT: Der Inhalt, z. B. Text der user- oder assistant-Nachricht.
MAX_OUTPUT_TOKENS: Maximale Anzahl an Tokens, die in der Antwort generiert werden können. Ein Token umfasst etwa 3,5 Zeichen. 100 Tokens entsprechen etwa 60–80 Wörtern.
Geben Sie kürzere Werte für kürzere Antworten und höhere Werte für längere Antworten an.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict

JSON-Text der Anfrage:

{
  "model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben. Dazu haben Sie gcloud init oder gcloud auth login ausgeführt oder die Cloud Shell genutzt, die Sie automatisch bei der gcloud CLI anmeldet. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict"

PowerShell

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben. Dazu führen Sie gcloud init oder gcloud auth login aus. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

Antwort

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}
...

Nicht-Streaming-Aufruf an ein AI21 Labs-Modell senden

Im folgenden Beispiel wird ein nicht-streamingfähiger Aufruf an ein AI21 Labs-Modell ausgeführt.

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

LOCATION: Eine Region, die AI21 Labs-Modelle unterstützt.
MODEL: Der Modellname, den Sie verwenden möchten. Schließen Sie im Anfragetext die Modellversionsnummer @ aus.
ROLE: Die einer Nachricht zugeordnete Rolle. Sie können user oder assistant angeben. Die erste Nachricht muss die Rolle user verwenden. Die Modelle funktionieren abwechselnd mit user und assistant. Wenn die endgültige Nachricht die Rolle assistant verwendet, wird der Antwortinhalt direkt vom Inhalt dieser Nachricht aus fortgesetzt. Damit können Sie einen Teil der Antwort des Modells einschränken.
STREAM: Ein boolescher Wert, mit dem angegeben wird, ob die Antwort gestreamt wird oder nicht. Streamen Sie Ihre Antwort, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Legen Sie true fest, um die Antwort zu streamen, und false, um die Antwort auf einmal zurückzugeben.
CONTENT: Der Inhalt, z. B. Text der user- oder assistant-Nachricht.
MAX_OUTPUT_TOKENS: Maximale Anzahl an Tokens, die in der Antwort generiert werden können. Ein Token umfasst etwa 3,5 Zeichen. 100 Tokens entsprechen etwa 60–80 Wörtern.
Geben Sie kürzere Werte für kürzere Antworten und höhere Werte für längere Antworten an.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

JSON-Text der Anfrage:

{
  "model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

Antwort

{
    "id": "e71d13ffb77344a08e34e0a22ea84458",
    "object": "chat.completion",
    "created": 1720806624,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "OUTPUT",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 17,
        "total_tokens": 295,
        "completion_tokens": 278
    }
}

Verfügbarkeit und Kontingente der AI21 Labs-Modellregion

Bei AI21 Labs-Modellen gilt ein Kontingent für jede Region, in der das Modell verfügbar ist. Das Kontingent wird in Abfragen pro Minute (Queries per minute, QPM) und Tokens pro Minute (Tokens per minute, TPM) angegeben. TPM enthält sowohl Eingabe- als auch Ausgabetokens.

Die unterstützten Regionen, Standardkontingente und die maximale Kontextlänge pro AI21 Labs-Modell sind in den folgenden Tabellen aufgeführt:

Jamba 1.5 Mini

Region	Kontingentsystem	Unterstützte Kontextlänge
`us-central1`	50 Abfragen pro Minute, 60.000 TPM	256,000 Tokens
`europe-west4`	50 Abfragen pro Minute, 60.000 TPM	256,000 Tokens

Jamba 1.5 Large

Region	Kontingentsystem	Unterstützte Kontextlänge
`us-central1`	20 Abfragen pro Minute, 20.000 TPM	256,000 Tokens
`europe-west4`	20 Abfragen pro Minute, 20.000 TPM	256,000 Tokens

Wenn Sie eines der Kontingente für die generative AI auf Vertex AI erhöhen möchten, können Sie über die Google Cloud Console eine Kontingenterhöhung anfordern. Weitere Informationen zu Kontingenten finden Sie unter Mit Kontingenten arbeiten.