Bereitgestellter Durchsatz

Bereitgestellter Durchsatz ist ein monatlicher Abo- oder Wochendienst mit fester Gebühr, der Durchsatz für unterstützte generative KI-Modelle in Vertex AI reserviert. Wenn Sie den Durchsatz reservieren möchten, müssen Sie das Modell und die verfügbaren Standorte angeben, an denen das Modell ausgeführt wird.

Auf dieser Seite erfahren Sie, wann Sie Provisioned Throughput verwenden sollten, wie er funktioniert und wie Sie ihn abonnieren.

Unterstützte Modelle

In den folgenden Tabellen sind die Modelle aufgeführt, die Bereitgestellten Durchsatz unterstützen, der Durchsatz für jede Skalierungseinheit der generativen KI (GSU) sowie die Abnahmeraten für jedes Modell.

Google-Modelle

In dieser Tabelle sind der Durchsatz, die Kaufsteigerung und die Abnahmerate für Google-Modelle aufgeführt, die Provisioned Throughput unterstützen. Die Google-Modelle werden in Zeichen pro Sekunde gemessen. Dieser Wert wird als Eingabezeichen des Prompts und als generierte Textausgabezeichen für alle Anfragen pro Sekunde definiert.

Modell Durchsatz pro GSU (Zeichen/Sek.) Mindestkaufsteigerung für GSUs Abnahmeraten
Gemini 1.5 Flash Kontextfenster kleiner oder gleich 128.000:
54.000

Kontextfenster größer als 128.000:
27.000
1 Kontextfenster kleiner oder gleich 128.000:
1 Eingabezeichen = 1 Zeichen
1 Ausgabezeichen = 4 Zeichen
1 Bild = 1.067 Zeichen
1 Video pro Sekunde = 1.067 Zeichen
1 Audio pro Sekunde = 107 Zeichen
Kontextfenster größer als 128.000 Zeichen:
1 Eingabezeichen = 2 Zeichen
1 Ausgabezeichen = 8 Zeichen
1 Bild = 2.134 Zeichen
1 Video pro Sekunde = 2.134 Zeichen
1 Audio pro Sekunde = 214 Zeichen
Gemini 1.5 Pro, 800 1 Kontextfenster kleiner oder gleich 128.000:
1 Eingabezeichen = 1 Zeichen
1 Ausgabezeichen = 3 Zeichen
1 Bild = 1.052 Zeichen
1 Video pro Sekunde = 1.052 Zeichen
1 Audio pro Sekunde = 100 Zeichen
Größer als 128.000 Kontextfenster:
1 Eingabezeichen = 2 Zeichen
1 Ausgabezeichen = 6 Zeichen
1 Bild = 2.104 Zeichen
1 Video pro Sekunde = 2.104 Zeichen
1 Audio pro Sekunde = 200 Zeichen
Gemini 1.0 Pro 8.000 1 1 Eingabezeichen = 1 Zeichen
1 Ausgabezeichen = 3 Zeichen
1 Bild = 20.000 Zeichen
1 Video pro Sekunde = 16.000 Zeichen
Imagen 3 0,025
Der Durchsatz wird in Bildern/Sekunde statt in Zeichen/Sekunde gemessen.
1 Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet.
Imagen 3 Fast 0,05
Der Durchsatz wird in Bildern/Sekunde statt in Zeichen/Sekunde gemessen.
1 Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet.
Imagen 2 0,05
Der Durchsatz wird in Bildern/Sekunde statt in Zeichen/Sekunde gemessen.
1 Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet.
Imagen 2 – Bearbeiten 0,05
Der Durchsatz wird in Bildern/Sekunde statt in Zeichen/Sekunde gemessen.
1 Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet.
MedLM medium 2.000 1 1 Eingabezeichen = 1 Zeichen
1 Ausgabezeichen = 2 Zeichen
MedLM large 200 1 1 Eingabezeichen = 1 Zeichen
1 Ausgabezeichen = 3 Zeichen
MedLM large 1.5 200 1 1 Eingabezeichen = 1 Zeichen
1 Ausgabezeichen = 3 Zeichen

Weitere Informationen zu unterstützten Standorten finden Sie unter Verfügbare Standorte.

Sie können ein Upgrade auf neue Modelle durchführen, sobald sie verfügbar sind. Informationen zur Verfügbarkeit und Einstellung von Modellen finden Sie unter Google-Modelle.

Vorschaufeatures

Für die Vorschaufunktionen für den bereitgestellten Durchsatz ist eine Zugriffsgenehmigung erforderlich. Wenn Sie Zugriff anfordern möchten, füllen Sie das Formular zur Zugriffssteuerung für bereitgestellten Durchsatz aus und reichen Sie es ein.

Die Vorabversion bietet für Google-Modelle Folgendes:

  • Der bereitgestellte Durchsatz kann sowohl auf Basismodelle als auch auf mithilfe von beaufsichtigtem Lernen optimierte Versionen dieser Basismodelle angewendet werden.

  • Endpunkte für überwachte, fein abgestimmte Modelle und das entsprechende Basismodell werden auf dasselbe Kontingent für den bereitgestellten Durchsatz angerechnet.

    Wenn Sie beispielsweise für gemini-1.5-pro-002 in einem bestimmten Projekt einen bereitgestellten Durchsatz kaufen, werden Anfragen priorisiert, die von überwachten, optimierten Versionen von gemini-1.5-pro-002 in diesem Projekt stammen. Verwenden Sie den entsprechenden Header, um das Verhalten des Traffics zu steuern.

  • Der bereitgestellte Durchsatz kann anstelle eines Monatsabos für einen Zeitraum von einer Woche erworben werden. Sie können ein Startdatum innerhalb von zwei Wochen nach der Bestellung angeben.

Legacy-Modelle von Google

Alte Modelle, die Provisioned Throughput unterstützen

Partnermodelle

In dieser Tabelle sind der Durchsatz, die Kaufsteigerung und die Abnahmerate für Partnermodelle aufgeführt, die Provisioned Throughput unterstützen. Claude-Modelle werden in Tokens pro Sekunde gemessen. Dieser Wert wird als Summe der Eingabe- und Ausgabetokens für alle Anfragen pro Sekunde definiert.

Modell Durchsatz pro GSU (Tokens/Sekunde) Mindestbestellmenge für GSUs Kaufsteigerung für GSUs Abnahmeraten
Claude 3.5 Sonnet v2 von Anthropic 350 25 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
Claude 3.5 Haiku von Anthropic 2.000 10 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
Claude 3 Opus von Anthropic 70 35 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
Claude 3 Haiku von Anthropic 4.200 5 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
Claude 3.5 Sonnet von Anthropic 350 25 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
Claude 3 Sonnet von Anthropic 350 25 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens

Weitere Informationen zu unterstützten Standorten finden Sie unter Verfügbare Standorte.

Wann sollte Provisioned Throughput verwendet werden?

Wenn einer der folgenden Punkte auf Ihren Anwendungsfall zutrifft, sollten Sie Provisioned Throughput verwenden:

  • Ihre kritischen Arbeitslasten erfordern einen konstant hohen Durchsatz. Die Messung des Durchsatzes hängt vom Modell ab.
  • Sie entwickeln Produktionsanwendungen für generative KI in Echtzeit, z. B. Chatbots und Agenten.
  • Der Durchsatz muss mehr als 20.000 Zeichen pro Sekunde betragen.
  • Sie möchten Nutzern Ihrer Anwendungen eine einheitliche und vorhersehbare Umgebung bieten.
  • Sie möchten deterministische Kosten für generative KI, indem Sie einen festen monatlichen Preis mit Kontrolle über Mehrausgaben bezahlen.
  • Sie möchten deterministische Kosten für generative KI, indem Sie einen festen monatlichen oder wöchentlichen Preis zahlen und die Kontrolle über Mehrausgaben haben.

Bereitgestellter Durchsatz ist eine von zwei Möglichkeiten, Ihre Modelle für generative KI zu verwenden. Die zweite Möglichkeit ist die Abrechnung nach Verbrauch, die auch als On-Demand-Verfahren bezeichnet wird.

Messung von Provisioned Throughput

In diesem Abschnitt werden die Konzepte „Skalierungseinheit der generativen KI“ (GSU) und „Abnahmeraten“ erläutert. Provisioned Throughput wird anhand von GSUs und Abnahmeraten berechnet und festgelegt.

Eine Skalierungseinheit der generativen KI (GSU) ist ein Maß für den Durchsatz Ihrer Prompts und Antworten. Dieser Wert gibt an, mit welchem Durchsatz ein Modell bereitgestellt werden soll.

Um eine modellübergreifende Standardeinheit zu erhalten, werden alle Eingaben und Ausgaben mithilfe von modellspezifischen Verhältnissen, den sogenannten Abnahmeraten, in Eingabezeichen pro Sekunde (Durchsatz) umgewandelt.

Für verschiedene Modelle wird ein unterschiedlicher Durchsatz verwendet. Informationen zum Mindestbestellwert und zu den Schritten für die einzelnen Modelle finden Sie in diesem Dokument unter Unterstützte Modelle und Abnahmeraten.

Diese Gleichung veranschaulicht die Berechnung des Durchsatzes:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

Anhand des berechneten Durchsatzes pro Sekunde wird festgelegt, wie viele GSUs Sie für Ihren Anwendungsfall benötigen.

Beispiel für die Schätzung Ihrer Anforderungen an Provisioned Throughput

Verwenden Sie das Schätzungstool in der Google Cloud Console, um Ihre Anforderungen für Provisioned Throughput zu ermitteln. Das folgende Beispiel veranschaulicht die Schätzung des bereitgestellten Durchsatzes für Ihr Modell. Die Region wird bei den Schätzungen nicht berücksichtigt.

  1. Ermitteln Sie Ihre Anforderungen.

    1. In diesem Beispiel soll sichergestellt werden, dass Sie mit gemini-1.5-flash 2.000 Zeichen mit 2 Bildern senden und bei 10 Anfragen pro Sekunde eine Ausgabe von 300 Zeichen erhalten.

      In diesem Schritt sollten Sie Ihren Anwendungsfall kennen, da Sie die Größe Ihrer Eingaben und Ausgaben, die Anzahl der Abfragen pro Sekunde (QPS) und Ihr Modell ermittelt haben.

    2. Geben Sie Ihr Modell an, um den Durchsatz zu schätzen. In diesem Beispiel ist Ihr Modell gemini-1.5-flash.

    3. Geben Sie die Art der Eingabe an und geben Sie die Abnahmerate an. In der Tabelle mit den Abnahmeraten können Sie die Abnahmerate anhand der Art der Eingabe ermitteln.

      Die Abnahmerate eines Bildes für das gemini-1.5-flash-Modell beträgt 1.067 Zeichen.

  2. Berechnen Sie den Durchsatz.

    1. Multiplizieren Sie die Anzahl der Bilder mit der Abnahmerate für den Eingabetyp für Ihr Modell.

      2 Bilder × 1.067 Eingabezeichen pro Bild = 2.134 Eingabezeichen

    2. Die Gesamtzahl der Zeichen in der Ausgabe beträgt 300. Kehren Sie zur Tabelle mit den Abnahmeraten zurück und suchen Sie die Abnahmerate für Ausgabezeichen (vier Zeichen pro Ausgabezeichen) für Ihr Modell (gemini-1.5-flash).

      300 Ausgabezeichen × 4 Zeichen pro Ausgabezeichen = 1.200 konvertierte Eingabezeichen

    3. Addieren Sie die Summen.

      2.000 Eingabezeichen + 2.134 umgewandelte Eingabezeichen für die Bilder + 1.200 umgewandelte Eingabezeichen für die Ausgabe = 5.334 umgewandelte Eingabezeichen pro Abfrage

    4. Multiplizieren Sie die Zeichen pro Abfrage mit der erwarteten Anzahl der Abfragen pro Sekunde, um den Gesamtdurchsatz pro Sekunde zu erhalten.

      5.334 umgewandelte Eingabezeichen pro Abfrage × 10 Abfragen pro Sekunde = 53.340 umgewandelte Eingabezeichen pro Sekunde

  3. Berechnen Sie Ihre GSUs.

    1. Die GSUs sind der Gesamtdurchsatz pro Sekunde geteilt durch den Durchsatz pro GSU aus der Abnahmetabelle.

      53.340 umgewandelte Eingabezeichen pro Sekunde ÷ 54.000 Durchsatz pro GSU = 0,988 GSUs

    2. Die Mindestkaufsteigerung für gemini-1.5-flash beträgt 1 GSU, was Ihrer Anforderung entspricht.

Was Sie vor dem Abonnieren beachten sollten

Hier finden Sie eine Liste mit Details zum Abo, die Ihnen bei der Entscheidung helfen sollen, ob Sie Provisioned Throughput abonnieren möchten:

  • Sie können Ihre Bestellung nicht stornieren.

    Der Kauf von Provisioned Throughput ist eine Zusicherung. Das bedeutet, dass Sie die Bestellung nicht stornieren können. Sie können jedoch die Anzahl der gekauften GSUs erhöhen. Wenn Sie versehentlich eine Nutzungszusicherung erworben haben oder ein Problem mit Ihrer Konfiguration vorliegt, wenden Sie sich bitte an Ihren Google Cloud-Kundenbetreuer.

  • Sie können Ihr Abo automatisch verlängern lassen.

    Wenn Sie Ihre Bestellung aufgeben, können Sie festlegen, dass Ihr Abo am Ende der Laufzeit automatisch verlängert wird, oder es auslaufen lassen. Sie können die automatische Verlängerung abbrechen. Wenn Sie Ihr Abo kündigen möchten, bevor es automatisch verlängert wird, müssen Sie die automatische Verlängerung 30 Tage vor Beginn des nächsten Abozeitraums kündigen.

    Sie können monatliche Abos so konfigurieren, dass sie jeden Monat automatisch verlängert werden. Bei wöchentlichen Laufzeiten ist keine automatische Verlängerung möglich.

    Wenn Sie Unterstützung bei diesem Vorgang benötigen, wenden Sie sich an Ihren Google Cloud-Kundenbetreuer.

  • Sie können Ihre Modellversion oder Region innerhalb einer Frist ändern.

    Provisioned Throughput wird aktiviert, nachdem Sie das Projekt, die Region, das Modell und die Version ausgewählt haben. Sie können Ihre Modellversion innerhalb desselben Modellanbieters oder derselben Region mit einer Frist von 10 Arbeitstagen ändern. Wenden Sie sich dazu an Ihren Google Cloud-Kundenbetreuer. Sie können beispielsweise zwischen den Modellen von Google wechseln. Sie können zwischen den Modellen von Partner A wechseln. Sie können zwischen den Modellen von Partner B wechseln. Sie können nicht zwischen den Modellen von Google, Partner A und Partner B wechseln.

  • Wenn Sie von „Pay as you go“ zu „Provisioned Throughput“ wechseln, gibt es keine Ausfallzeit.

    Wenn Sie bei einer Bestellung von Provisioned Throughput zwischen Modellen wechseln, gibt es keine Ausfallzeiten. Die Vorlaufzeit für den Durchsatz ist jedoch erforderlich.

  • Standardmäßig wird die Überschreitung als „Pay-as-you-go“ abgerechnet.

    Wenn Ihr Durchsatz den bestellten Bereitgestellten Durchsatz übersteigt, werden Überschreitungen verarbeitet und als „Pay-as-you-go“ abgerechnet. Sie können Überschreitungen pro Anfrage steuern. Weitere Informationen finden Sie unter REST API verwenden.

  • Anfragen werden priorisiert.

    Anfragen von Provisioned Throughput-Kunden werden vor On-Demand-Anfragen priorisiert und bearbeitet.

  • Sie müssen sich zu einer Mindestnutzung und Zahlung verpflichten.

    Die Mindestnutzung hängt vom ausgewählten generativen KI-Modell ab. Jegliche Nutzung, die über den gekauften Durchsatz hinausgeht, ist nicht garantiert und wird nur bei einem angemessenen Aufwand bedient.

  • Der Durchsatz wird nicht addiert.

    Nicht genutzter Durchsatz wird nicht angesammelt oder auf den nächsten Monat übertragen.

  • Provisioned Throughput wird in Zeichen oder Tokens pro Sekunde gemessen.

    Provisioned Throughput wird in Zeichen oder Tokens pro Sekunde gemessen, nicht in Abfragen pro Minute (QPM). Die Messung von Provisioned Throughput hängt daher von der Abfragegröße und der Anzahl der Abfragen pro Minute Ihres Anwendungsfalls ab.

  • Bei Provisioned Throughput wird Ihr Kontingent geprüft.

    Ihr Kontingent für den bereitgestellten Durchsatz wird bei jeder Anfrage innerhalb des Kontingentzeitraums geprüft. Für gemini-1.5-flash-002- und gemini-1.5-pro-002-Modelle beträgt das Kontingentfenster 30 Sekunden. Das bedeutet, dass Sie vorübergehend priorisierten Traffic erhalten können, der in einigen Fällen Ihr Kontingent pro Sekunde überschreitet. Das Kontingent sollte jedoch nicht auf 30-Sekunden-Basis überschritten werden. Für andere Modelle beträgt das Kontingentfenster eine Minute.

  • Endpunkte mit überwacht optimierten Modellen und das entsprechende Basismodell werden auf dasselbe Kontingent für den bereitgestellten Durchsatz angerechnet. Dies ist eine Vorabversion. Füllen Sie das Formular zur Zugriffssteuerung für bereitgestellten Durchsatz aus und senden Sie es ab.

    Wenn Sie beispielsweise für gemini-1.5-pro-002 in einem bestimmten Projekt einen bereitgestellten Durchsatz kaufen, werden Anfragen, die von innerhalb dieses Projekts erstellten, mithilfe von KI optimierten Versionen von gemini-1.5-pro-002 stammen, priorisiert. Verwenden Sie den entsprechenden Header, um das Verhalten des Traffics zu steuern.

Provisioned Throughput kaufen

In diesem Abschnitt finden Sie die Berechtigungen, die Sie zum Aufgeben oder Ansehen einer Bestellung von Provisioned Throughput benötigen, sowie eine Anleitung zum Aufgeben und Ansehen Ihrer Bestellungen.

Berechtigungen

Wenn Sie Provisioned Throughput abonnieren möchten, muss Ihrem Projekt eine der folgenden Berechtigungen zugewiesen sein, damit Sie neue Bestellungen auflisten und aufgeben können.

  • aiplatform.googleapis.com/provisionedThroughputAdmin: Spezifisch für Provisioned Throughput.
  • aiplatform.googleapis.com/admin: Gewährt Administratorrechte für alle Ressourcen in Vertex AI.

Mit dieser Rolle können Sie nur Ihre Bestellungen auflisten:

  • aiplatform.googleapis.com/viewer

Provisioned Throughput bestellen

Bevor Sie eine Bestellung für die Verwendung von Imagen-Modellen aufgeben, reichen Sie das Antragsformular zur Gewährung von Berechtigungen ein, um Berechtigungen zu erhalten.

Bevor Sie eine Bestellung für die Verwendung von MedLM-large-1.5 aufgeben, wenden Sie sich an Ihren Google Cloud-Ansprechpartner, um Zugriff zu beantragen. Wenn Sie davon ausgehen,dass Ihre Anzahl der Abfragen pro Minute 30.000 überschreitet, können Sie die Leistung Ihrer Provisioned Throughput-Bestellung maximieren, indem Sie Ihr Standardkontingent für das Vertex AI-System erhöhen. Verwenden Sie dazu die folgenden Informationen:

  • Dienst: Die Vertex AI API.
  • Name: Online prediction requests per minute per region
  • Diensttyp: Ein Kontingent.
  • Dimensionen: Die Region, in der Sie den bereitgestellten Durchsatz bestellt haben.
  • Wert: Das ist das von Ihnen ausgewählte Traffic-Limit für die Online-Prognose.

So kaufen Sie Provisioned Throughput:

Console

  1. Rufen Sie in der Google Cloud Console die Seite „Bereitgestellter Durchsatz“ auf.

    Provisioned Throughput aufrufen

  2. Klicken Sie auf Erstellen, um eine neue Bestellung zu starten.
  3. Geben Sie den Namen einer Bestellung ein.
  4. Wählen Sie das Modell aus.
  5. Wählen Sie die Region aus.
  6. Geben Sie die Anzahl der Skalierungseinheiten der generativen KI (GSUs) ein, die Sie erwerben müssen. Wenn Sie die Anzahl der GSUs schätzen müssen, klicken Sie auf das Schätzungstool.
    1. Wählen Sie Ihr Modell aus.
    2. Geben Sie die Anzahl der Abfragen pro Sekunde ein.
    3. Geben Sie die Anzahl der Eingabezeichen pro Abfrage ein.
    4. Geben Sie die Anzahl der Eingabebilder pro Abfrage ein.
    5. Geben Sie die Anzahl der Videosekunden pro Abfrage ein.
    6. Geben Sie die Anzahl der Audiosekunden pro Abfrage ein.
    7. Geben Sie die Anzahl der Ausgabezeichen pro Abfrage ein.
    8. Wenn Sie die Werte verwenden möchten, die Sie in das Schätzungstool eingegeben haben, klicken Sie auf Berechnung verwenden.
  7. Wählen Sie die Laufzeit aus.

    Wenn Sie eine Woche auswählen, können Sie ein Startdatum und eine Uhrzeit innerhalb von zwei Wochen angeben, zu der eine Bestellung aufgegeben werden soll. Wenn Sie kein Startdatum und keine Uhrzeit angeben, bearbeiten wir die Bestellung, sobald wir sicher sein können, dass die Kapazität verfügbar ist. Die angegebenen Startdaten und -zeiten werden nach Möglichkeit berücksichtigt. Es kann jedoch sein, dass Bestellungen erst nach der Genehmigung des Bestellstatus (Genehmigt) ausgeführt werden.

    Wenn das von Ihnen angegebene Startdatum zu nah am aktuellen Datum liegt, wird Ihre Bestellung möglicherweise erst nach dem angegebenen Startdatum genehmigt und aktiviert. Das Enddatum bleibt dann sieben Tage nach dem Aktivierungsdatum.

  8. Wählen Sie die Option Verlängerung aus.
  9. Klicken Sie auf Weiter.
  10. Prüfen Sie im Abschnitt Zusammenfassung die Preis- und Durchsatzschätzungen für Ihre Bestellung. Lesen Sie die im Formular aufgeführten und verlinkten Nutzungsbedingungen.
  11. Klicken Sie auf Bestätigen, um die Bestellung abzuschließen.

Bestellstatus prüfen

Nachdem Sie Ihre Bestellung für Provisioned Throughput eingereicht haben, kann der Bestellstatus einen der folgenden Werte haben:

  • Überprüfung ausstehend: Sie haben Ihre Bestellung aufgegeben. Da die Genehmigung von der verfügbaren Kapazität für die Bereitstellung Ihrer Bestellung abhängt, wird Ihre Bestellung derzeit geprüft und genehmigt. Weitere Informationen zum Status Ihrer ausstehenden Bestellung erhalten Sie von Ihrem Google Cloud-Kundenbetreuer.
  • Genehmigt: Google hat Ihren Auftrag genehmigt.
  • Aktiv: Google hat Ihre Bestellung aktiviert und die Abrechnung beginnt.
  • Abgelaufen: Ihre Bestellung ist abgelaufen.

Bestellungen von Provisioned Throughput ansehen

So rufen Sie Ihre Bestellungen für Provisioned Throughput auf:

Console

  1. Rufen Sie in der Google Cloud Console die Seite „Bereitgestellter Durchsatz“ auf.

    Provisioned Throughput aufrufen

  2. Wählen Sie die Region aus. Ihre Bestellliste wird angezeigt.

Provisioned Throughput verwenden

In diesem Abschnitt wird erläutert, wie Sie Überschreitungen steuern oder Provisioned Throughput umgehen und wie Sie die Nutzung von Provisioned Throughput überwachen.

Überschreitungen steuern oder Provisioned Throughput umgehen

Mit der REST API können Sie Überschreitungen steuern, wenn Sie den gekauften Durchsatz überschreiten, oder Provisioned Throughput pro Anfrage umgehen.

Lesen Sie sich die einzelnen Optionen durch, um herauszufinden, was Sie tun müssen, um Ihren Anwendungsfall zu erfüllen.

Standardverhalten

Wenn Sie den gekauften Durchsatz überschreiten, werden die Überschreitungen als On-Demand-Nutzung abgerechnet und zum Pay-as-you-go-Preis in Rechnung gestellt. Sobald Ihre Bestellung für Provisioned Throughput aktiv ist, wird das Standardverhalten automatisch angewendet. Sie müssen Ihren Code nicht ändern, um mit der Inanspruchnahme Ihrer Bestellung zu beginnen.

Dieses curl-Beispiel veranschaulicht das Standardverhalten.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Nur Provisioned Throughput verwenden

Wenn Sie Kosten verwalten, indem Sie On-Demand-Gebühren vermeiden, verwenden Sie nur Provisioned Throughput. Bei Anfragen, die den Bestellbetrag für Provisioned Throughput überschreiten, wird der Fehler 429 zurückgegeben.

In diesem Curl-Beispiel wird gezeigt, wie Sie mit der REST API nur Ihr Abo mit Provisioned Throughput verwenden können. Bei Überschreitungen wird Fehler 429 zurückgegeben.

Setzen Sie den X-Vertex-AI-LLM-Request-Type-Header auf dedicated.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Nur Pay-as-you-go verwenden

Dies wird auch als On-Demand-Nutzung bezeichnet. Anfragen umgehen die Bestellung von Provisioned Throughput und werden direkt an Pay-as-you-go gesendet. Das kann für Tests oder Anwendungen in der Entwicklungsphase nützlich sein.

In diesem curl-Beispiel wird gezeigt, wie Sie mit der REST API Provisioned Throughput umgehen und nur Pay-as-you-go verwenden können.

Setzen Sie den X-Vertex-AI-LLM-Request-Type-Header auf shared.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Provisioned Throughput überwachen

Sie können die Nutzung von Provisioned Throughput über Monitoring-Messwerte und pro Anfrage überwachen.

Antwortheader

Wenn eine Anfrage mit Provisioned Throughput verarbeitet wurde, ist in der Antwort der folgende HTTP-Header enthalten. Diese Codezeile gilt nur für den generateContent API-Aufruf.

  {"X-Vertex-AI-LLM-Request-Type": "dedicated"}

Messwerte

Provisioned Throughput kann mithilfe einer Reihe von Messwerten überwacht werden, die für den Ressourcentyp aiplatform.googleapis.com/PublisherModel erfasst werden. Für jeden Messwert können Sie nach den folgenden Dimensionen filtern:

  • type: input, output
  • request_type: dedicated, shared

Wenn Sie einen Messwert filtern möchten, um die Nutzung von Provisioned Throughput aufzurufen, verwenden Sie den Anfragetyp dedicated. Das Pfadpräfix für einen Messwert lautet aiplatform.googleapis.com/publisher/online_serving. Der vollständige Pfad für den Messwert /consumed_throughput lautet beispielsweise aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Die folgenden Cloud Monitoring-Messwerte sind für die Ressource aiplatform.googleapis.com/PublisherModel verfügbar:

Messwert Anzeigename Beschreibung Nach Nutzung von Provisioned Throughput filtern
/characters Zeichen Verteilung der Zeichenanzahl bei Eingabe und Ausgabe.
/character_count Anzahl der Zeichen Die Summe der Zeichenanzahl in der Eingabe und Ausgabe.
/consumed_throughput Zeichendurchsatz Verbrauchter Durchsatz (mit Abnahmerate) in Zeichen.
/model_invocation_count Anzahl der Modellaufrufe Anzahl der Modellausrufe (Vorhersageanfragen).
/model_invocation_latencies Latenzen beim Modellaufruf Latenz beim Modellaufruf (Vorhersagelatenz).
/first_token_latencies Latenz beim ersten Token Dauer vom Empfang der Anfrage bis zur Rückgabe des ersten Tokens.
/tokens Tokens Verteilung der Tokenanzahl bei Eingabe und Ausgabe.
/token_count Tokenanzahl Die Summe der Eingabe- und Ausgabetoken.

Fehlerbehebung bei Provisioned Throughput

So beheben Sie den Fehler 429, der durch Provisioned Throughput generiert wurde:

  • Verwenden Sie das Beispiel default, in dem in Vorhersageanfragen kein Header festgelegt wird. Überschreitungen werden auf Abruf verarbeitet und als „Pay-as-you-go“ abgerechnet.
  • Erhöhen Sie die Anzahl der GSUs in Ihrem Abo für Provisioned Throughput.

Nächste Schritte