Anforderungen an den bereitgestellten Durchsatz berechnen

In diesem Abschnitt werden die Konzepte „Skalierungseinheit der generativen KI“ (GSU) und „Abnahmeraten“ erläutert. Provisioned Throughput wird anhand von Skalierungseinheiten der generativen KI (GSUs) und Abnahmeraten berechnet und festgelegt.

GSU und Burn-Down-Rate

Eine Skalierungseinheit der generativen KI (GSU) ist ein Maß für den Durchsatz Ihrer Prompts und Antworten. Dieser Wert gibt an, mit welchem Durchsatz ein Modell bereitgestellt werden soll.

Eine Abklingrate ist ein Verhältnis, das die Eingabe- und Ausgabezeichen in Eingabezeichen pro Sekunde (Durchsatz) umwandelt. Dieses Verhältnis wird verwendet, um eine standardmäßige Einheit für alle Modelle zu erstellen.

Für verschiedene Modelle wird ein unterschiedlicher Durchsatz verwendet. Informationen zum Mindestbestellwert und zu den Schritten für die einzelnen Modelle finden Sie in diesem Dokument unter Unterstützte Modelle und Abnahmeraten.

Diese Gleichung veranschaulicht die Berechnung des Durchsatzes:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

Anhand des berechneten Durchsatzes pro Sekunde wird festgelegt, wie viele GSUs Sie für Ihren Anwendungsfall benötigen.

Wichtige Hinweise

Um Ihre Anforderungen an den bereitgestellten Durchsatz zu planen, sollten Sie die folgenden wichtigen Aspekte berücksichtigen:

  • Anfragen werden priorisiert.

    Anfragen von Provisioned Throughput-Kunden werden vor On-Demand-Anfragen priorisiert und bearbeitet.

  • Der Durchsatz wird nicht addiert.

    Nicht genutzter Durchsatz wird nicht angesammelt oder in den nächsten Monat übertragen.

  • Provisioned Throughput wird in Zeichen oder Tokens pro Sekunde gemessen.

    Der zugewiesene Durchsatz wird in Zeichen oder Tokens pro Sekunde gemessen, nicht in Abfragen pro Minute (QPM). Die Messung des bereitgestellten Durchsatzes hängt daher von der Abfragegröße, der Antwortgröße und der Anzahl der Abfragen pro Minute Ihres Anwendungsfalls ab.

  • Bei Provisioned Throughput wird Ihr Kontingent geprüft.

    Ihr Kontingent für den bereitgestellten Durchsatz wird bei jeder Anfrage innerhalb des Kontingentzeitraums geprüft. Bei gemini-2.0-flash-001-, gemini-1.5-flash-002- und gemini-1.5-pro-002-Modellen kann das Kontingentfenster bis zu 30 Sekunden lang sein und unterliegt Änderungen. Das bedeutet, dass Sie vorübergehend priorisierten Traffic erhalten können, der in einigen Fällen Ihr Kontingent pro Sekunde überschreitet. Das Kontingent sollte jedoch nicht auf 30-Sekunden-Basis überschritten werden. Bei anderen Modellen kann das Kontingentfenster bis zu einer Minute dauern. Die Kontingentzeiträume basieren auf der Vertex AI-Uhrzeit und sind unabhängig davon, wann Anfragen gestellt werden.

    Wenn Sie beispielsweise 1 GSU gemini-1.5-pro-002 kaufen, können Sie mit einem Durchsatz von 800 Zeichen pro Sekunde rechnen. Im Durchschnitt sollten Sie pro 30 Sekunden nicht mehr als 24.000 Zeichen verwenden. Dieser Wert wird anhand der folgenden Formel berechnet:

    800 Zeichen pro Sekunde * 30 Sekunden = 24.000 Zeichen

    Wenn Sie den ganzen Tag über eine einzige Anfrage gesendet haben, die 1.600 Zeichen pro Sekunde benötigt hat, wird sie möglicherweise trotzdem als Anfrage mit bereitgestelltem Durchsatz verarbeitet, auch wenn Sie zum Zeitpunkt der Anfrage das Limit von 800 Zeichen pro Sekunde überschritten haben.

  • Der bereitgestellte Durchsatz ist für ein Projekt, eine Region, ein Modell und eine Version spezifisch.

    Der bereitgestellte Durchsatz wird einer bestimmten Kombination aus Projekt, Region, Modell und Version zugewiesen. Wenn dasselbe Modell von einer anderen Region aufgerufen wird, wird es nicht auf Ihr Kontingent für den bereitgestellten Durchsatz angerechnet und nicht vor On-Demand-Anfragen priorisiert.

Beispiel für die Schätzung Ihrer Anforderungen an Provisioned Throughput

Verwenden Sie das Schätzungstool in der Google Cloud Console, um Ihre Anforderungen für Provisioned Throughput zu ermitteln. Das folgende Beispiel veranschaulicht die Schätzung des bereitgestellten Durchsatzes für Ihr Modell. Die Region wird bei der Schätzung nicht berücksichtigt.

In dieser Tabelle finden Sie die Abnahmeraten für gemini-1.5-flash, die Sie für das Beispiel verwenden können.

Modell Durchsatz pro GSU (Zeichen/Sek.) Mindestkaufsteigerung für GSUs Abnahmeraten
Gemini 1.5 Flash Kontextfenster mit maximal 128.000 Tokens:
54.000

Kontextfenster mit mehr als 128.000 Tokens:
27.000
1 Kontextfenster mit weniger als oder gleich 128.000 Token:
1 Eingabezeichen = 1 Zeichen
1 Ausgabezeichen = 4 Zeichen
1 Bild = 1.067 Zeichen
1 Video pro Sekunde = 1.067 Zeichen
1 Audio pro Sekunde = 107 Zeichen

Kontextfenster mit mehr als 128.000 Token:
1 Eingabezeichen = 2 Zeichen
1 Ausgabezeichen = 8 Zeichen
1 Bild = 2.134 Zeichen
1 Video pro Sekunde = 2.134 Zeichen
1 Audio pro Sekunde = 214 Zeichen
  1. Ermitteln Sie Ihre Anforderungen.

    1. In diesem Beispiel soll sichergestellt werden, dass Sie mit gemini-1.5-flash 2.000 Zeichen mit 2 Bildern senden und bei 10 Anfragen pro Sekunde eine Ausgabe von 300 Zeichen erhalten.

      In diesem Schritt sollten Sie Ihren Anwendungsfall kennen, da Sie die Größe Ihrer Eingaben und Ausgaben, die Anzahl der Abfragen pro Sekunde (QPS) und Ihr Modell ermittelt haben.

    2. Geben Sie Ihr Modell an, um den Durchsatz zu schätzen. In diesem Beispiel ist Ihr Modell gemini-1.5-flash.

    3. Geben Sie die Art der Eingabe und die Abnahmerate an. Mit der Auslastungsrate können Sie die Auslastungsrate basierend auf der Art der Eingabe ermitteln.

      Die Abnahmerate eines Bildes für das gemini-1.5-flash-Modell beträgt 1.067 Zeichen.

  2. Berechnen Sie den Durchsatz.

    1. Multiplizieren Sie die Anzahl der Bilder mit der Burndown-Rate für den Eingabetyp Ihres Modells.

      2 Bilder × 1.067 Eingabezeichen pro Bild = 2.134 Eingabezeichen

    2. Die Gesamtzahl der Zeichen in der Ausgabe beträgt 300. Kehren Sie zur Tabelle mit den Abnahmeraten zurück und suchen Sie die Abnahmerate für Ausgabezeichen (vier Zeichen pro Ausgabezeichen) für Ihr Modell (gemini-1.5-flash).

      300 Ausgabezeichen × 4 Zeichen pro Ausgabezeichen = 1.200 konvertierte Eingabezeichen

    3. Addieren Sie die Summen.

      2.000 Eingabezeichen + 2.134 umgewandelte Eingabezeichen für die Bilder + 1.200 umgewandelte Eingabezeichen für die Ausgabe = 5.334 umgewandelte Eingabezeichen pro Abfrage

    4. Multiplizieren Sie die Zeichen pro Abfrage mit der erwarteten Anzahl der Abfragen pro Sekunde, um den Gesamtdurchsatz pro Sekunde zu erhalten.

      5.334 umgewandelte Eingabezeichen pro Abfrage × 10 Abfragen pro Sekunde = 53.340 umgewandelte Eingabezeichen pro Sekunde

  3. Berechnen Sie Ihre GSUs.

    1. Die GSUs sind der Gesamtdurchsatz pro Sekunde geteilt durch den Durchsatz pro GSU aus der Abnahmetabelle.

      53.340 umgewandelte Eingabezeichen pro Sekunde ÷ 54.000 Durchsatz pro GSU = 0,988 GSUs

    2. Die Mindestkaufsteigerung für gemini-1.5-flash beträgt 1 GSU, was Ihrer Anforderung entspricht.

Nächste Schritte