Unterstützte Modelle

In den folgenden Tabellen sind die Modelle aufgeführt, die Provisioned Throughput unterstützen, der Durchsatz für jede Skalierungseinheit der generativen KI (GSU) sowie die Abnahmeraten für jedes Modell.

Google-Modelle

In dieser Tabelle sind der Durchsatz, die Kaufsteigerung und die Abnahmerate für Google-Modelle aufgeführt, die Provisioned Throughput unterstützen. Der Durchsatz pro Sekunde wird als Prompteingabe und generierte Ausgabe für alle Anfragen pro Sekunde definiert.

Der bereitgestellte Durchsatz unterstützt nur Modelle, die Sie direkt über die API des Modells aus Ihrem Projekt aufrufen. Modelle, die von anderen Vertex AI-Produkten wie Vertex AI Agents und Vertex AI Search aufgerufen werden, werden nicht unterstützt.

Informationen dazu, wie viele Tokens für Ihre Arbeitslast erforderlich sind, finden Sie im SDK-Tokenisierer oder in der CountTokens API.

Modell Durchsatz pro Sekunde und GSU Einheiten Mindestkaufsteigerung für GSUs Abnahmeraten
Gemini 2.0 Flash-Lite 6.720 Tokens 1 1 Eingabe-Texttoken = 1 Token
1 Eingabe-Bildtoken = 1 Token
1 Eingabe-Videotoken = 1 Token
1 Eingabe-Audiotoken = 7 Tokens
1 Ausgabe-Texttoken = 4 Tokens
Gemini 2.0 Flash 3.360 Tokens 1 1 Eingabe-Texttoken = 1 Token
1 Eingabe-Bildtoken = 1 Token
1 Eingabe-Videotoken = 1 Token
1 Ausgabe-Texttoken = 4 Token
Gemini 1.5 Flash Kontextfenster mit maximal 128.000 Tokens:
54.000

Kontextfenster mit mehr als 128.000 Tokens:
27.000
Zeichen 1 Kontextfenster mit weniger als oder gleich 128.000 Token:
1 Eingabezeichen = 1 Zeichen
1 Ausgabezeichen = 4 Zeichen
1 Bild = 1.067 Zeichen
1 Video pro Sekunde = 1.067 Zeichen
1 Audio pro Sekunde = 107 Zeichen

Kontextfenster mit mehr als 128.000 Token:
1 Eingabezeichen = 2 Zeichen
1 Ausgabezeichen = 8 Zeichen
1 Bild = 2.134 Zeichen
1 Video pro Sekunde = 2.134 Zeichen
1 Audio pro Sekunde = 214 Zeichen
Gemini 1.5 Pro, 800 Zeichen 1 Kontextfenster mit maximal 128.000 Token:
1 Eingabezeichen = 1 Zeichen
1 Ausgabezeichen = 3 Zeichen
1 Bild = 1.052 Zeichen
1 Video pro Sekunde = 1.052 Zeichen
1 Audio pro Sekunde = 100 Zeichen

Kontextfenster mit mehr als 128.000 Token:
1 Eingabezeichen = 2 Zeichen
1 Ausgabezeichen = 6 Zeichen
1 Bild = 2.104 Zeichen
1 Video pro Sekunde = 2.104 Zeichen
1 Audio pro Sekunde = 200 Zeichen
Gemini 1.0 Pro 8.000 Zeichen 1 1 Eingabezeichen = 1 Zeichen
1 Ausgabezeichen = 3 Zeichen
1 Bild = 20.000 Zeichen
1 Video pro Sekunde = 16.000 Zeichen
Imagen 3 0,025 Bilder 1 Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet.
Imagen 3 Fast 0,05 Bilder 1 Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet.
Imagen 2 0,05 Bilder 1 Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet.
Imagen 2 – Bearbeiten 0,05 Bilder 1 Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet.
MedLM medium 2.000 Zeichen 1 1 Eingabezeichen = 1 Zeichen
1 Ausgabezeichen = 2 Zeichen
MedLM large 200 Zeichen 1 1 Eingabezeichen = 1 Zeichen
1 Ausgabezeichen = 3 Zeichen
MedLM large 1.5 200 Zeichen 1 1 Eingabezeichen = 1 Zeichen
1 Ausgabezeichen = 3 Zeichen

Weitere Informationen zu unterstützten Standorten finden Sie unter Verfügbare Standorte.

Sie können ein Upgrade auf neue Modelle durchführen, sobald sie verfügbar sind. Informationen zur Verfügbarkeit und Einstellung von Modellen finden Sie unter Google-Modelle.

Unterstützung für überwachte, optimierte Modelle

Die öffentliche Vorabversion bietet für Google-Modelle Folgendes:

  • Der bereitgestellte Durchsatz kann sowohl auf Basismodelle als auch auf mithilfe von beaufsichtigtem Lernen optimierte Versionen dieser Basismodelle angewendet werden.

  • Endpunkte mit überwacht feinabgestimmten Modellen und das entsprechende Basismodell werden auf dasselbe Kontingent für den bereitgestellten Durchsatz angerechnet.

    Wenn Sie beispielsweise für gemini-1.5-pro-002 in einem bestimmten Projekt einen bereitgestellten Durchsatz kaufen, werden Anfragen priorisiert, die von überwachten, optimierten Versionen von gemini-1.5-pro-002 in diesem Projekt stammen. Verwenden Sie die richtige Überschrift, um das Verhalten des Traffics zu steuern.

Legacy-Modelle von Google

Alte Modelle, die Provisioned Throughput unterstützen

Partnermodelle

In dieser Tabelle sind der Durchsatz, die Kaufsteigerung und die Abnahmerate für Partnermodelle aufgeführt, die Provisioned Throughput unterstützen. Claude-Modelle werden in Tokens pro Sekunde gemessen. Dieser Wert wird als Summe der Eingabe- und Ausgabetokens für alle Anfragen pro Sekunde definiert.

Modell Durchsatz pro GSU (Tokens/Sekunde) Mindestbestellmenge für GSUs Kaufsteigerung für GSUs Abnahmeraten
Claude 3.5 Sonnet v2 von Anthropic 350 25 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
Claude 3.5 Haiku von Anthropic 2.000 10 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
Claude 3 Opus von Anthropic 70 35 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
Claude 3 Haiku von Anthropic 4.200 5 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
Claude 3.5 Sonnet von Anthropic 350 25 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens

Informationen zu unterstützten Standorten finden Sie unter Verfügbarkeit: Anthropic Claude-Region. Wenn Sie den bereitgestellten Durchsatz für anthropische Modelle bestellen möchten, wenden Sie sich an Ihren Google Cloud Kundenbetreuer.

Nächste Schritte