Bereitgestellter Durchsatz

Provisioned Throughput ist ein monatlicher Abodienst mit fester Gebühr, der Durchsatz für unterstützte generative KI-Modelle in Vertex AI reserviert. Wenn Sie den Durchsatz reservieren möchten, müssen Sie das Modell und die verfügbaren Standorte angeben, an denen das Modell ausgeführt wird.

Auf dieser Seite erfahren Sie, wann Sie Provisioned Throughput verwenden sollten, wie er funktioniert und wie Sie ihn abonnieren.

Unterstützte Modelle

In den folgenden Tabellen sind die Modelle aufgeführt, die Provisioned Throughput unterstützen, der Durchsatz für jede Skalierungseinheit der generativen KI (GSU) und die Abnahmeraten für jedes Modell.

Google-Modelle

In dieser Tabelle sind der Durchsatz, die Kaufsteigerung und die Abnahmerate für Google-Modelle aufgeführt, die Provisioned Throughput unterstützen. Die Google-Modelle werden in Zeichen pro Sekunde gemessen. Dieser Wert wird als Eingabezeichen des Prompts und als generierte Textausgabezeichen für alle Anfragen pro Sekunde definiert.

Modell Durchsatz pro GSU (Zeichen/Sek.) Mindestkaufsteigerung für GSUs Abnahmeraten
gemini-1.5-flash Kontextfenster kleiner oder gleich 128.000:
54.000

Kontextfenster größer als 128.000:
27.000
5 Kontextfenster kleiner oder gleich 128.000:
1 Eingabezeichen = 1 Zeichen
1 Ausgabezeichen = 4 Zeichen
1 Bild = 1.067 Zeichen
1 Video pro Sekunde = 1.067 Zeichen
1 Audio pro Sekunde = 107 Zeichen
Kontextfenster größer als 128.000 Zeichen:
1 Eingabezeichen = 2 Zeichen
1 Ausgabezeichen = 8 Zeichen
1 Bild = 2.134 Zeichen
1 Video pro Sekunde = 2.134 Zeichen
1 Audio pro Sekunde = 214 Zeichen
gemini-1.5-pro 800 5 Kontextfenster kleiner oder gleich 128.000:
1 Eingabezeichen = 1 Zeichen
1 Ausgabezeichen = 3 Zeichen
1 Bild = 1.052 Zeichen
1 Video pro Sekunde = 1.052 Zeichen
1 Audio pro Sekunde = 100 Zeichen
Kontextfenster größer als 128.000 Zeichen:
1 Eingabezeichen = 2 Zeichen
1 Ausgabezeichen = 6 Zeichen
1 Bild = 2.104 Zeichen
1 Video pro Sekunde = 2.104 Zeichen
1 Audio pro Sekunde = 200 Zeichen
gemini-1.0-pro 8.000 5 1 Eingabezeichen = 1 Zeichen
1 Ausgabezeichen = 3 Zeichen
1 Bild = 20.000 Zeichen
1 Video pro Sekunde = 16.000 Zeichen
imagen-3.0-generate-001 0,025
Der Durchsatz wird in Bildern/Sekunde statt in Zeichen/Sekunde gemessen.
5 Nur Ausgabebilder werden auf Ihr Kontingent für Provisioned Throughput angerechnet.
imagen-3.0-fast-generate-001 0,05
Der Durchsatz wird in Bildern/Sekunde statt in Zeichen/Sekunde gemessen.
5 Nur Ausgabebilder werden auf Ihr Kontingent für Provisioned Throughput angerechnet.
MedLM-medium 2.000 5 1 Eingabezeichen = 1 Zeichen
1 Ausgabezeichen = 2 Zeichen
MedLM-large 200 5 1 Eingabezeichen = 1 Zeichen
1 Ausgabezeichen = 3 Zeichen

Weitere Informationen zu unterstützten Standorten finden Sie unter Verfügbare Standorte.

Sie können ein Upgrade auf neue Modelle durchführen, sobald sie verfügbar sind. Informationen zur Verfügbarkeit und zu Einstellungsdaten finden Sie unter Google-Modelle.

Legacy-Modelle von Google

Alte Modelle, die Provisioned Throughput unterstützen

Partnermodelle

In dieser Tabelle sind der Durchsatz, die Kaufsteigerung und die Abnahmerate für Partnermodelle aufgeführt, die Provisioned Throughput unterstützen. Claude-Modelle werden in Token pro Sekunde gemessen. Dieser Wert wird als Summe der Eingabe- und Ausgabe-Token aller Anfragen pro Sekunde definiert.

Modell Durchsatz pro GSU (Tokens/Sek.) Mindestkaufsteigerung für GSUs Abnahmeraten
Anthropic Claude 3.5 Sonnet 350 25 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
Anthropic Claude 3 Opus 70 35 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
Anthropic Claude 3 Haiku 4.200 5 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
Anthropic Claude 3 Sonnet 350 25 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens

Weitere Informationen zu unterstützten Standorten finden Sie unter Verfügbare Standorte.

Wann sollte Provisioned Throughput verwendet werden?

Wenn einer der folgenden Punkte auf Ihren Anwendungsfall zutrifft, sollten Sie Provisioned Throughput verwenden:

  • Ihre kritischen Arbeitslasten erfordern einen konstant hohen Durchsatz. Die Messung des Durchsatzes hängt vom Modell ab.
  • Sie entwickeln Produktionsanwendungen für generative KI in Echtzeit, z. B. Chatbots und Agenten.
  • Der Durchsatz muss mehr als 20.000 Zeichen pro Sekunde betragen.
  • Sie möchten Nutzern Ihrer Anwendungen eine einheitliche und vorhersehbare Umgebung bieten.
  • Sie möchten deterministische Kosten für generative KI, indem Sie einen festen monatlichen Preis mit Kontrolle über Mehrausgaben bezahlen.

Provisioned Throughput ist eine von zwei Möglichkeiten, Ihre Modelle für generative KI zu verwenden. Die zweite Möglichkeit ist die Abrechnung nach Verbrauch, die auch als On-Demand-Verfahren bezeichnet wird.

Messung von Provisioned Throughput

In diesem Abschnitt werden die Konzepte der Skalierungseinheit der generativen KI (GSU) und die Abnahmeraten erläutert. Provisioned Throughput wird anhand von GSUs und Abnahmeraten berechnet und festgelegt.

Eine Skalierungseinheit der generativen KI (GSU) ist ein Maß für den Durchsatz Ihrer Prompts und Antworten. Dieser Wert gibt an, mit welchem Durchsatz ein Modell bereitgestellt werden soll.

Um eine standardmäßige Einheit für alle Modelle zu erhalten, werden alle Eingaben und Ausgaben mithilfe von modellspezifischen Verhältnissen, den sogenannten Abnahmeraten, in Eingabezeichen pro Sekunde (Durchsatz) umgewandelt.

Für verschiedene Modelle wird ein unterschiedlicher Durchsatz verwendet. Informationen zum Mindestbestellwert und zu den Schritten für die einzelnen Modelle finden Sie in diesem Dokument unter Unterstützte Modelle und Abnahmeraten.

Diese Gleichung veranschaulicht die Berechnung des Durchsatzes:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

Anhand des berechneten Durchsatzes pro Sekunde wird ermittelt, wie viele GSUs Sie für Ihren Anwendungsfall benötigen.

Beispiel für die Schätzung Ihrer Anforderungen an Provisioned Throughput

Verwenden Sie das Schätzungstool in der Google Cloud Console, um Ihre Anforderungen für Provisioned Throughput zu ermitteln. Das folgende Beispiel veranschaulicht die Schätzung des bereitgestellten Durchsatzes für Ihr Modell. Die Region wird bei den Schätzungen nicht berücksichtigt.

  1. Ermitteln Sie Ihre Anforderungen.

    1. In diesem Beispiel soll sichergestellt werden, dass Sie mit gemini-1.5-flash 2.000 Zeichen mit 2 Bildern senden und bei 10 Anfragen pro Sekunde eine Ausgabe von 300 Zeichen erhalten.

      Dieser Schritt setzt voraus, dass Sie Ihren Anwendungsfall kennen, da Sie die Größe Ihrer Eingaben und Ausgaben, die Anzahl der Abfragen pro Sekunde (QPS) und Ihr Modell ermittelt haben.

    2. Geben Sie Ihr Modell an, um den Durchsatz zu schätzen. In diesem Beispiel lautet Ihr Modell gemini-1.5-flash.

    3. Geben Sie die Art der Eingabe an und geben Sie die Abnahmerate an. In der Tabelle mit den Abnahmeraten können Sie die Abnahmerate anhand der Art der Eingabe ermitteln.

      Die Abnahmerate eines Bildes für das gemini-1.5-flash-Modell beträgt 1.067 Zeichen.

  2. Berechnen Sie den Durchsatz.

    1. Multiplizieren Sie die Anzahl der Bilder mit der Abnahmerate für den Eingabetyp für Ihr Modell.

      2 Bilder × 1.067 Eingabezeichen pro Bild = 2.134 Eingabezeichen

    2. Die Gesamtzahl der Zeichen in der Ausgabe beträgt 300. Kehren Sie zur Tabelle mit den Abnahmeraten zurück und suchen Sie die Abnahmerate für Ausgabezeichen (vier Zeichen pro Ausgabezeichen) für Ihr Modell (gemini-1.5-flash).

      300 Ausgabezeichen * 4 Zeichen pro Ausgabezeichen = 1.200 konvertierte Eingabezeichen

    3. Addieren Sie die Summen.

      2.000 Eingabezeichen + 2.134 umgewandelte Eingabezeichen für die Bilder + 1.200 umgewandelte Eingabezeichen für die Ausgabe = 5.334 umgewandelte Eingabezeichen pro Abfrage

    4. Multiplizieren Sie die Zeichen pro Abfrage mit der erwarteten Anzahl der Abfragen pro Sekunde, um den Gesamtdurchsatz pro Sekunde zu erhalten.

      5.334 umgewandelte Eingabezeichen pro Abfrage × 10 Abfragen pro Sekunde = 53.340 umgewandelte Eingabezeichen pro Sekunde

  3. Berechnen Sie Ihre GSUs.

    1. Die GSUs sind der Gesamtdurchsatz pro Sekunde geteilt durch den Durchsatz pro GSU aus der Abnahmetabelle.

      53.340 umgewandelte Eingabezeichen pro Sekunde ÷ 54.000 Durchsatz pro GSU = 0,988 GSUs

    2. Die Mindestkaufsteigerung für gemini-1.5-flash beträgt 5 GSU, was Ihrer Anforderung entspricht.

Was Sie vor dem Abonnieren beachten sollten

Hier finden Sie eine Liste mit Details zum Abo, die Ihnen bei der Entscheidung helfen sollen, ob Sie Provisioned Throughput abonnieren möchten:

  • Sie können Ihre Bestellung nicht stornieren.

    Der Kauf von Provisioned Throughput ist eine Zusicherung. Das bedeutet, dass Sie die Bestellung nicht stornieren können. Sie können jedoch die Anzahl der gekauften GSUs erhöhen. Wenn Sie versehentlich eine Zusicherung erworben haben oder ein Problem mit Ihrer Konfiguration vorliegt, wenden Sie sich bitte an Ihren Google Cloud-Kundenbetreuer.

  • Sie können Ihr Abo automatisch verlängern lassen.

    Wenn Sie Ihre Bestellung aufgeben, können Sie festlegen, dass Ihr Abo am Ende der Laufzeit automatisch verlängert wird, oder es auslaufen lassen. Sie können die automatische Verlängerung abbrechen. Wenn Sie Ihr Abo kündigen möchten, bevor es automatisch verlängert wird, müssen Sie die automatische Verlängerung 30 Tage vor Beginn des nächsten Abozeitraums kündigen.

    Wenn Sie Unterstützung bei diesem Vorgang benötigen, wenden Sie sich an Ihren Google Cloud-Kundenbetreuer.

  • Sie können Ihre Modellversion oder Region mit vorheriger Ankündigung ändern.

    Provisioned Throughput wird aktiviert, nachdem Sie das Projekt, die Region, das Modell und die Version ausgewählt haben. Sie können Ihre Modellversion innerhalb desselben Modellanbieters oder derselben Region mit einer Frist von 10 Arbeitstagen ändern. Wenden Sie sich dazu an Ihren Google Cloud-Kundenbetreuer. Sie können beispielsweise zwischen den Modellen von Google wechseln. Sie können zwischen den Modellen von Partner A wechseln. Sie können zwischen den Modellen von Partner B wechseln. Sie können nicht zwischen den Modellen von Google, Partner A und Partner B wechseln.

  • Wenn Sie von „Pay as you go“ zu „Provisioned Throughput“ wechseln, gibt es keine Ausfallzeit.

    Wenn Sie bei einer Bestellung von Provisioned Throughput zwischen Modellen wechseln, gibt es keine Ausfallzeiten. Die Vorlaufzeit für den Durchsatz ist jedoch erforderlich.

  • Standardmäßig wird die Überschreitung als „Pay-as-you-go“ abgerechnet.

    Wenn Ihr Durchsatz den bestellten Betrag für Provisioned Throughput übersteigt, werden Überschreitungen verarbeitet und als „Pay-as-you-go“ abgerechnet. Sie können Überschreitungen pro Anfrage steuern. Weitere Informationen finden Sie unter REST API verwenden.

  • Anfragen werden priorisiert.

    Anfragen von Provisioned Throughput-Kunden werden vor On-Demand-Anfragen priorisiert und bearbeitet.

  • Sie müssen sich zu einer Mindestnutzung und Zahlung verpflichten.

    Die Mindestnutzung hängt vom ausgewählten generativen KI-Modell ab. Jegliche Nutzung, die über den gekauften Durchsatz hinausgeht, ist nicht garantiert und wird nur bei einem angemessenen Aufwand bedient.

  • Der Durchsatz wird nicht addiert.

    Nicht genutzter Durchsatz wird nicht angesammelt oder auf den nächsten Monat übertragen.

  • Provisioned Throughput wird in Zeichen oder Tokens pro Sekunde gemessen.

    Provisioned Throughput wird in Zeichen oder Tokens pro Sekunde gemessen, nicht in Abfragen pro Minute (QPM). Die Messung von Provisioned Throughput hängt daher von der Abfragegröße und der Anzahl der Abfragen pro Minute Ihres Anwendungsfalls ab.

Provisioned Throughput kaufen

In diesem Abschnitt finden Sie die Berechtigungen, die Sie zum Aufgeben oder Ansehen einer Bestellung von Provisioned Throughput benötigen, sowie eine Anleitung zum Aufgeben und Ansehen Ihrer Bestellungen.

Berechtigungen

Wenn Sie Provisioned Throughput abonnieren möchten, muss Ihrem Projekt eine der folgenden Berechtigungen zugewiesen sein, damit Sie neue Bestellungen auflisten und aufgeben können.

  • aiplatform.googleapis.com/provisionedThroughputAdmin: Spezifisch für Provisioned Throughput.
  • aiplatform.googleapis.com/admin: Gewährt allen Ressourcen in Vertex AI Administratorrechte.

Mit dieser Rolle können Sie nur Ihre Bestellungen auflisten:

  • aiplatform.googleapis.com/viewer

Provisioned Throughput bestellen

Wenn Sie die Modelle Imagen 3 und Imagen 3 Fast verwenden möchten, reichen Sie dieses Formular (Antrag auf Berechtigungserteilung) ein, um die Berechtigung zur Verwendung dieser Modelle zu erhalten, bevor Sie Ihre Bestellung aufgeben.

So kaufen Sie ein Abo mit Provisioned Throughput:

Console

  1. Rufen Sie in der Google Cloud Console die Seite „Bereitgestellter Durchsatz“ auf.

    Bereitgestellter Durchsatz

  2. Klicken Sie auf Erstellen, um eine neue Bestellung zu starten.
  3. Geben Sie den Namen einer Bestellung ein.
  4. Wählen Sie das Modell aus.
  5. Wählen Sie die Region aus.
  6. Geben Sie die Anzahl der Skalierungseinheiten der generativen KI (GSUs) ein, die Sie erwerben müssen. Wenn Sie die Anzahl der GSUs schätzen müssen, klicken Sie auf das Schätzungstool.
    1. Wählen Sie Ihr Modell aus.
    2. Geben Sie die Anzahl der Abfragen pro Sekunde ein.
    3. Geben Sie die Anzahl der Eingabezeichen pro Abfrage ein.
    4. Geben Sie die Anzahl der Eingabebilder pro Abfrage ein.
    5. Geben Sie die Anzahl der Videosekunden pro Abfrage ein.
    6. Geben Sie die Anzahl der Audiosekunden pro Abfrage ein.
    7. Geben Sie die Anzahl der Ausgabezeichen pro Abfrage ein.
    8. Wenn Sie die Werte verwenden möchten, die Sie in das Schätzungstool eingegeben haben, klicken Sie auf Berechnung verwenden.
  7. Wählen Sie die Laufzeit aus.
  8. Wählen Sie die Option Verlängerung aus.
  9. Klicken Sie auf Weiter.
  10. Prüfen Sie im Abschnitt Zusammenfassung die Preis- und Durchsatzschätzungen für Ihre Bestellung. Lesen Sie die im Formular aufgeführten und verlinkten Nutzungsbedingungen.
  11. Klicken Sie auf Bestätigen, um die Bestellung abzuschließen.

Bestellstatus prüfen

Nachdem Sie Ihre Bestellung für Provisioned Throughput eingereicht haben, kann der Bestellstatus einen der folgenden Werte haben:

  • Überprüfung ausstehend: Sie haben Ihre Bestellung aufgegeben. Da die Genehmigung von der verfügbaren Kapazität für die Bereitstellung Ihrer Bestellung abhängt, wird Ihre Bestellung derzeit geprüft und genehmigt. Weitere Informationen zum Status Ihrer ausstehenden Bestellung erhalten Sie von Ihrem Google Cloud-Kundenbetreuer.
  • Aktiv: Google hat Ihre Bestellung genehmigt und bereitgestellt. Die Abrechnung beginnt.
  • Abgelaufen: Ihre Bestellung ist abgelaufen.

Bestellungen von Provisioned Throughput ansehen

So rufen Sie Ihre Bestellungen für Provisioned Throughput auf:

Console

  1. Rufen Sie in der Google Cloud Console die Seite „Bereitgestellter Durchsatz“ auf.

    Bereitgestellter Durchsatz

  2. Wählen Sie die Region aus. Ihre Bestellliste wird angezeigt.

Provisioned Throughput verwenden

In diesem Abschnitt wird erläutert, wie Sie Überschreitungen steuern oder Provisioned Throughput umgehen und wie Sie die Nutzung von Provisioned Throughput überwachen.

Überschreitungen steuern oder Provisioned Throughput umgehen

Mit der REST API können Sie Überschreitungen steuern, wenn Sie den gekauften Durchsatz überschreiten, oder Provisioned Throughput pro Anfrage umgehen.

Lesen Sie sich die einzelnen Optionen durch, um herauszufinden, was Sie tun müssen, um Ihren Anwendungsfall zu erfüllen.

Standardverhalten

Wenn Sie den gekauften Durchsatz überschreiten, wird die Überschreitung als On-Demand-Nutzung abgerechnet und zum Pay-as-you-go-Preis in Rechnung gestellt. Sobald Ihre Bestellung für Provisioned Throughput aktiv ist, wird das Standardverhalten automatisch angewendet. Sie müssen Ihren Code nicht ändern, um mit der Inanspruchnahme Ihrer Bestellung zu beginnen.

Dieses curl-Beispiel veranschaulicht das Standardverhalten.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Nur Provisioned Throughput verwenden

Wenn Sie Kosten verwalten, indem Sie On-Demand-Gebühren vermeiden, verwenden Sie nur Provisioned Throughput. Bei Anfragen, die den Bestellbetrag für Provisioned Throughput überschreiten, wird der Fehler 429 zurückgegeben.

In diesem Curl-Beispiel wird gezeigt, wie Sie mit der REST API nur Ihr Abo mit Provisioned Throughput verwenden können. Bei Überschreitungen wird Fehler 429 zurückgegeben.

Setzen Sie den X-Vertex-AI-LLM-Request-Type-Header auf dedicated.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Nur Pay-as-you-go verwenden

Dies wird auch als On-Demand-Nutzung bezeichnet. Anfragen umgehen die Bestellung von Provisioned Throughput und werden direkt an Pay-as-you-go gesendet. Das kann für Tests oder Anwendungen in der Entwicklungsphase nützlich sein.

In diesem curl-Beispiel wird gezeigt, wie Sie mit der REST API Provisioned Throughput umgehen und nur Pay-as-you-go verwenden können.

Setzen Sie den X-Vertex-AI-LLM-Request-Type-Header auf shared.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Provisioned Throughput überwachen

Sie können die Nutzung von Provisioned Throughput über Monitoring-Messwerte und pro Anfrage überwachen.

Antwortheader

Wenn eine Anfrage mit Provisioned Throughput verarbeitet wurde, ist in der Antwort der folgende HTTP-Header enthalten. Diese Codezeile gilt nur für den generateContent API-Aufruf.

  {"X-Vertex-AI-LLM-Request-Type": "dedicated"}

Messwerte

Provisioned Throughput kann mithilfe einer Reihe von Messwerten überwacht werden, die für den Ressourcentyp aiplatform.googleapis.com/PublisherModel erfasst werden. Für jeden Messwert können Sie nach den folgenden Dimensionen filtern:

  • type: input, output
  • request_type: dedicated, shared

Wenn Sie einen Messwert filtern möchten, um die Nutzung von Provisioned Throughput aufzurufen, verwenden Sie den Anfragetyp dedicated. Das Pfadpräfix für einen Messwert lautet aiplatform.googleapis.com/publisher/online_serving. Der vollständige Pfad für den Messwert /consumed_throughput lautet beispielsweise aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Die folgenden Cloud Monitoring-Messwerte sind für die Ressource aiplatform.googleapis.com/PublisherModel verfügbar:

Messwert Anzeigename Beschreibung Nach Nutzung von Provisioned Throughput filtern
/characters Zeichen Verteilung der Zeichenanzahl bei Eingabe und Ausgabe.
/character_count Anzahl der Zeichen Die Summe der Zeichenanzahl in der Eingabe und Ausgabe.
/consumed_throughput Zeichendurchsatz Verbrauchter Durchsatz (berücksichtigt die Abnahmerate) in Zeichen.
/model_invocation_count Anzahl der Modellaufrufe Anzahl der Modellaufrufe (Vorhersageanfragen).
/model_invocation_latencies Latenzen beim Modellaufruf Latenz beim Modellaufruf (Vorhersagelatenz).
/first_token_latencies Latenz beim ersten Token Dauer vom Empfang der Anfrage bis zur Rückgabe des ersten Tokens.
/tokens Tokens Verteilung der Tokenanzahl bei Eingabe und Ausgabe.
/token_count Tokenanzahl Die Summe der Eingabe- und Ausgabetoken.

Nächste Schritte