Mistral AI-Modelle

Mistral AI-Modelle in Vertex AI bieten vollständig verwaltete und serverlose Modelle als APIs. Wenn Sie ein Mistral AI-Modell für Vertex AI verwenden möchten, senden Sie eine Anfrage direkt an den API-Endpunkt von Vertex AI. Da Mistral AI-Modelle eine verwaltete API verwenden, muss keine Infrastruktur bereitgestellt oder verwaltet werden.

Sie können Ihre Antworten streamen, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Eine gestreamte Antwort verwendet vom Server gesendete Ereignisse (SSE, Server-Sent Events), um die Antwort schrittweise zu streamen.

Sie zahlen für Mistral AI-Modelle, sobald Sie sie verwenden (Pay-as-you-go). Die „Pay-as-you-go“-Preise finden Sie in den Preisen des Mistral AI-Modells auf der Preisseite für Vertex AI.

Verfügbare Mistral AI-Modelle

Die folgenden Modelle sind von Mistral AI zur Verwendung in Vertex AI verfügbar. Rufen Sie die zugehörige Model Garden-Modellkarte auf, um auf ein Mistral-KI-Modell zuzugreifen.

Mistral Large (2407)

Mistral Large (2407) ist das Flagship-Modell von Mistral AI für die Textgenerierung. Es erreicht erstklassige Logikleistungen und kann für komplexe mehrsprachige Aufgaben wie Textverständnis, Transformation und Codegenerierung verwendet werden. Weitere Informationen finden Sie im Beitrag von Mistral AI zu Mistral Large (2407).

Mistral Large (2407) hebt sich in folgenden Aspekten hervor:

  • Mehrsprachigkeit Unterstützt werden Dutzende von Sprachen, darunter Deutsch, Englisch, Französisch, Italienisch, Chinesisch, Japanisch, Koreanisch, Portugiesisch, Niederländisch und Polnisch.
  • Coding-Kompetenz. Trainiert in über 80 Programmiersprachen wie Python, Java, C, C++, JavaScript und Bash. Außerdem wurde es mit bestimmten Sprachen wie Swift und Fortran trainiert.
  • Agent-zentriert. Erstklassige Funktionen für Kundenservicemitarbeiter mit nativem Funktionsaufruf und JSON-Ausgabe.
  • Erweiterte Argumentationsfähigkeit. Modernste mathematische und inferentielle Fähigkeiten.
Zur Modellkarte Mistral Large (2407)

Mistral Nemo

Mistral Nemo ist das kostengünstigste proprietäre Modell von Mistral AI. Es eignet sich ideal für Arbeitslasten mit niedriger Latenz und einfache Aufgaben, die im Bulk-Verfahren ausgeführt werden können, z. B. Klassifizierung, Kundensupport und Textgenerierung. Weitere Informationen finden Sie in der Dokumentation von Mistral AI.

Mistral Nemo ist für die folgenden Anwendungsfälle optimiert:

  • Text generieren und klassifizieren.
  • Agents für Kundensupportszenarien erstellen.
  • Code generieren, vervollständigen, prüfen und kommentieren. Unterstützt alle gängigen Programmiersprachen.
Zur Mistral Nemo-Modellkarte

Codestral

Codestral ist ein generatives Modell, das speziell für Aufgaben zur Codegenerierung entwickelt und optimiert wurde, einschließlich fill-in-the-middle und Codevervollständigung. Codestral wurde mit mehr als 80 Programmiersprachen trainiert, sodass es sowohl mit gängigen als auch mit weniger gängigen Sprachen gut funktioniert. Weitere Informationen finden Sie in der Dokumentation zur Codegenerierung von Mistral AI.

Codestral ist für die folgenden Anwendungsfälle optimiert:

  • Code generieren, Codevervollständigung, Vorschläge und Übersetzungen bereitstellen.
  • Sie müssen Ihren Code verstehen, um eine Zusammenfassung und Erklärung Ihres Codes zu liefern.
  • Die Qualität Ihres Codes prüfen, indem Sie Ihren Code umstrukturieren, Fehler beheben und Testfälle generieren.
Zur Codestral-Modellkarte

Mistral-KI-Modelle verwenden

Verwenden Sie beim Senden von Anfragen zur Verwendung der Mistral AI-Modelle die folgenden Modellnamen:

  • Verwenden Sie für Mistral Large (2407) mistral-large@2407.
  • Verwenden Sie für Mistral Nemo mistral-nemo@2407.
  • Verwenden Sie für Codestral codestral@2405.

Aufgrund der möglichen Unterschiede zwischen den Modellversionen empfehlen wir die Verwendung der Modellversionen, die ein Suffix enthalten, das mit einem @-Symbol beginnt. Wenn Sie keine Modellversion angeben, wird immer die aktuelle Version verwendet. Dies kann sich versehentlich auf Ihre Workflows auswirken, wenn sich eine Modellversion ändert.

Weitere Informationen zur Verwendung des Mistral AI SDK finden Sie in der Dokumentation zu Mistral AI Vertex AI.

Hinweise

Führen Sie die folgenden Schritte aus, um Mistral-KI-Modelle mit Vertex AI zu verwenden. Die Vertex AI API (aiplatform.googleapis.com) muss aktiviert sein, um Vertex AI verwenden zu können. Wenn Sie bereits ein Projekt mit aktivierter Vertex AI API haben, können Sie dieses Projekt verwenden, anstatt ein neues Projekt zu erstellen.

Sie müssen die erforderlichen Berechtigungen zum Aktivieren und Verwenden von Partnermodellen haben. Weitere Informationen finden Sie unter Erforderliche Berechtigungen erteilen.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. Rufen Sie eine der folgenden Model Garden-Modellkarten auf und klicken Sie auf Aktivieren:

Streaming-Aufruf an ein Mistral AI-Modell senden

Im folgenden Beispiel wird ein Streaming-Aufruf an ein Mistral-KI-Modell gesendet.

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • LOCATION: Eine Region, die Mistral AI-Modelle unterstützt.
  • MODEL: Der Modellname, den Sie verwenden möchten. Schließen Sie im Anfragetext die Modellversionsnummer @ aus.
  • ROLE: Die einer Nachricht zugeordnete Rolle. Sie können user oder assistant angeben. Die erste Nachricht muss die Rolle user verwenden. Die Modelle arbeiten mit abwechselnden user- und assistant-Kurven. Wenn die endgültige Nachricht die Rolle assistant verwendet, wird der Antwortinhalt direkt vom Inhalt dieser Nachricht aus fortgesetzt. So können Sie einen Teil der Antwort des Modells einschränken.
  • STREAM: Ein boolescher Wert, mit dem angegeben wird, ob die Antwort gestreamt wird oder nicht. Streamen Sie Ihre Antwort, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Legen Sie true fest, um die Antwort zu streamen, und false, um die Antwort auf einmal zurückzugeben.
  • CONTENT: Der Inhalt, z. B. Text der user- oder assistant-Nachricht.
  • MAX_OUTPUT_TOKENS: Maximale Anzahl an Tokens, die in der Antwort generiert werden können. Ein Token besteht aus etwa 3,5 Zeichen. 100 Tokens entsprechen etwa 60–80 Wörtern.

    Geben Sie kürzere Werte für kürzere Antworten und höhere Werte für längere Antworten an.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

JSON-Text der Anfrage:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

Unären Aufruf an ein Mistral AI-Modell senden

Im folgenden Beispiel wird ein unärer Aufruf an ein Mistral AI-Modell ausgeführt.

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • LOCATION: Eine Region, die Mistral AI-Modelle unterstützt.
  • MODEL: Der Modellname, den Sie verwenden möchten. Schließen Sie im Anfragetext die Modellversionsnummer @ aus.
  • ROLE: Die einer Nachricht zugeordnete Rolle. Sie können user oder assistant angeben. Die erste Nachricht muss die Rolle user verwenden. Die Modelle arbeiten mit abwechselnden user- und assistant-Kurven. Wenn die endgültige Nachricht die Rolle assistant verwendet, wird der Antwortinhalt direkt vom Inhalt dieser Nachricht aus fortgesetzt. So können Sie einen Teil der Antwort des Modells einschränken.
  • STREAM: Ein boolescher Wert, mit dem angegeben wird, ob die Antwort gestreamt wird oder nicht. Streamen Sie Ihre Antwort, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Legen Sie true fest, um die Antwort zu streamen, und false, um die Antwort auf einmal zurückzugeben.
  • CONTENT: Der Inhalt, z. B. Text der user- oder assistant-Nachricht.
  • MAX_OUTPUT_TOKENS: Maximale Anzahl an Tokens, die in der Antwort generiert werden können. Ein Token besteht aus etwa 3,5 Zeichen. 100 Tokens entsprechen etwa 60–80 Wörtern.

    Geben Sie kürzere Werte für kürzere Antworten und höhere Werte für längere Antworten an.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

JSON-Text der Anfrage:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

Verfügbarkeit und Kontingente der Mistral AI-Modellregion

Bei Mistral AI-Modellen gilt ein Kontingent für jede Region, in der das Modell verfügbar ist. Das Kontingent wird in Abfragen pro Minute (Queries per minute, QPM) und in Tokens pro Minute (Tokens per minute, TPM) angegeben. TPM enthält sowohl Eingabe- als auch Ausgabetokens.

Die unterstützten Regionen, Standardkontingente und die maximale Kontextlänge pro Mistral AI-Modell sind in den folgenden Tabellen aufgeführt:

Mistral Large (2407)

Region Kontingentsystem Unterstützte Kontextlänge
us-central1 60 Abfragen pro Minute, 200.000 TPM 128.000 Token
europe-west4 60 Abfragen pro Minute, 200.000 TPM 128.000 Token

Mistral Nemo

Region Kontingentsystem Unterstützte Kontextlänge
us-central1 60 Abfragen pro Minute, 200.000 TPM 128.000 Token
europe-west4 60 Abfragen pro Minute, 200.000 TPM 128.000 Token

Codestral

Region Kontingentsystem Unterstützte Kontextlänge
us-central1 60 Abfragen pro Minute, 200.000 TPM 32.000 Token
europe-west4 60 Abfragen pro Minute, 200.000 TPM 32.000 Token

Wenn Sie eines der Kontingente für die generative AI auf Vertex AI erhöhen möchten, können Sie über die Google Cloud Console eine Kontingenterhöhung anfordern. Weitere Informationen zu Kontingenten finden Sie unter Mit Kontingenten arbeiten.