Generative AI auf Vertex AI-Kontingentlimits

Ein Kontingent schränkt ein, wie viel von einer bestimmten gemeinsam genutzten Google Cloud-Ressource Ihr Google Cloud-Projekt nutzen kann, einschließlich Hardware, Software und Netzwerkkomponenten. Daher sind Kontingente Teil eines Systems, das Folgendes tut:

  • Ihre Nutzung oder Ihren Verbrauch von Google Cloud-Produkten und -Diensten überwachen.
  • Ihren Verbrauch dieser Ressourcen einschränken, um u. a. für Fairness zu sorgen und Nutzungsspitzen zu reduzieren.
  • Konfigurationen verwalten, die automatisch vorgeschriebene Einschränkungen erzwingen.
  • Möglichkeit, das Kontingent anzufordern oder zu ändern.

Wenn ein Kontingentlimit überschritten wird, blockiert das System in den meisten Fällen den Zugriff auf die entsprechende Google-Ressource und die Aufgabe, die Sie ausführen möchten, schlägt fehl. In den meisten Fällen gelten Kontingente für jedes Google Cloud-Projekt und werden von allen Anwendungen und IP-Adressen geteilt, die dieses Google Cloud-Projekt verwenden.

Kontingente nach Region und Modell

Das Kontingent für Abfragen pro Minute gilt für ein Basismodell und alle Versionen, Kennungen und abgestimmte Versionen dieses Modells. Beispiel: Eine Anfrage an text-bison und eine Anfrage an text-bison@001 werden als zwei Anfragen auf das QPM-Kontingent des Basismodells text-bison angerechnet. Ebenso wird eine Anfrage an text-bison@001 und text-bison@002 als zwei Anfragen auf das QPM-Kontingent des Basismodells text-bison angerechnet. Dasselbe gilt für abgestimmte Modelle. Eine Anfrage an chat-bison@002 und ein abgestimmtes Modell basierend auf chat-bison@002 namens my-tuned-chat-model werden als zwei Anfragen an das Basismodell chat-bison gezählt.

Die Kontingente gelten für Generative AI für Vertex AI-Anfragen für ein bestimmtes Google Cloud-Projekt und eine unterstützte Region.

So rufen Sie die Kontingente in der Google Cloud Console auf:

  1. Öffnen Sie in der Google Cloud Console die IAM- und Administrator-Seite Kontingente.

    Kontingente in der Console ansehen

  2. Geben Sie im Feld Filter die Dimension oder den Messwert an.

    • Dimension:Die Modell-ID. Beispiel: base_model:gemini-1.0-prooder base_model:text-bison

    • Messwert:Die Kontingent-ID.

      • Für Gemini-Modelle: aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
      • Für PaLM 2-Modelle aiplatform.googleapis.com/online_prediction_requests_per_base_model

Wählen Sie eine Region aus, um die Kontingentlimits für jedes verfügbare Modell aufzurufen:

Batchkontingente

Die folgenden Kontingente und Limits sind für die Regionen von Generative AI auf Vertex AI-Batchvorhersagejobs gleich:

Kontingent Wert
text_bison_concurrent_batch_prediction_jobs 4
code_bison_concurrent_batch_prediction_jobs 4
textembedding_gecko_concurrent_batch_prediction_jobs 4

Kontingente für benutzerdefiniert trainierte Modelle

Die folgenden Kontingente gelten für Generative AI von Vertex AI-Modellen für ein bestimmtes Projekt und eine bestimmte Region:

Kontingent Wert
Eingeschränkte Image-Trainings-TPU V3 Pod-Kerne pro Region
* unterstützte Region - europe-west4
64
Eingeschränktes Bildtraining Nvidia A100 80 GB GPUs pro Region
* unterstützte Region - us-central1
* unterstützte Region - us-east4

8
2

* Feinabstimmungsszenarien haben Beschleunigerreservierungen in bestimmten Regionen. Kontingente für die Feinabstimmung werden unterstützt und müssen in bestimmten Regionen angefordert werden.

Kontingente für die Onlinebewertung

Der Online-Bewertungsdienst verwendet das Modell text-bison als Autorater mit IP-Prompts und Mechanismen von Google, um eine konsistente und objektive Bewertung modellbasierter Messwerte zu gewährleisten.

Eine einzelne Bewertungsanfrage für einen modellbasierten Messwert kann zu mehreren zugrunde liegenden Anfragen an den Onlinevorhersagedienst führen. Das Kontingent jedes Modells wird auf Projektbasis berechnet. Das bedeutet, dass alle Anfragen, die zur Modellinferenz und zur modellbasierten Bewertung an das text-bison gerichtet werden, zum Kontingent beitragen. Kontingente für unterschiedliche Modelle werden unterschiedlich festgelegt. Das Kontingent für den Bewertungsdienst und das Kontingent für das zugrunde liegende Autorater-Modell sind in der Tabelle angezeigt.

Anfragekontingent Standardkontingent
Online-Bewertungsdienst-Anfragen pro Minute 1.000 Anfragen pro Projekt und Region
Anfragen für Onlinevorhersagen pro Minute für base_model, base_model: text-bison 1.600 Anfragen pro Projekt und Region

Wenn bei der Verwendung des Online-Bewertungsdienstes ein Fehler im Zusammenhang mit Kontingenten auftritt, müssen Sie möglicherweise eine Anfrage zur Kontingenterhöhung einreichen. Weitere Informationen finden Sie unter Kontingente aufrufen und verwalten.

Limit Wert
Zeitlimit für Onlinebewertungsdienst-Anfragen 60 Sekunden

Bei erstmaligen Nutzern des Online-Bewertungsdienstes in einem neuen Projekt kann es zu einer anfänglichen Einrichtungsverzögerung von in der Regel bis zu zwei Minuten kommen. Das ist ein einmaliger Vorgang. Wenn Ihre erste Anfrage fehlschlägt, warten Sie ein paar Minuten und versuchen Sie es dann noch einmal. Nachfolgende Bewertungsanfragen werden in der Regel innerhalb von 60 Sekunden abgeschlossen.

Die maximalen Eingabe- und Ausgabetokens sind für die modellbasierten Messwerte gemäß dem Modell begrenzt, das als Autorater verwendet wird. Siehe Modellinformationen | Generative AI in Vertex AI | Google Cloud für Limits für relevante Modelle.

Retrieval Augmented Generation Kontingente

Die RAG-Kontingente (Retrieval Augmented Generation) umfassen Folgendes:

Dienst Kontingent
RAG-Datenverwaltungs-APIs 60 Anfragen pro Minute (RPM)
RetrievalContexts API 1.500 RPM
Datenaufnahme 1.000 Dateien

Das Gecko@003-Kontingent für die Texteinbettung-API wird für die Dokumentindexierung verwendet. Wir empfehlen, das Kontingent zu erhöhen, um die beste Indexierungsleistung zu erzielen.

Kontingente für die Pipelinebewertung

Wenn Sie bei der Verwendung des Pipelines-Bewertungsdienstes einen Fehler im Zusammenhang mit Kontingenten erhalten, müssen Sie möglicherweise eine Kontingenterhöhung beantragen. Weitere Informationen finden Sie unter Kontingente aufrufen und verwalten.

Der Pipelines-Bewertungsdienst verwendet Vertex AI Pipelines, um PipelineJobs auszuführen. Sehen Sie sich relevante Kontingente für Vertex AI Pipelines an. Im Folgenden finden Sie allgemeine Kontingentempfehlungen:

Dienst Kontingent Empfehlung
Vertex AI API Gleichzeitige LLM-Batchvorhersagejobs pro Region Punktweise: 1 * num_concurrent_pipelines

Paarweise: 2 * num_concurrent_pipelines
Vertex AI API Bewertungsanfragen pro Minute und Region 1.000 * num_concurrent_pipelines

Außerdem kann der Autorater bei der Berechnung modellbasierter Bewertungsmesswerte Kontingentprobleme verursachen. Das relevante Kontingent hängt davon ab, welcher Autorater verwendet wurde:

Aufgaben Kontingent Basismodell Empfehlung
summarization
question_answering
Anfragen für Onlinevorhersagen pro Basismodell pro Minute, Region und base_model text-bison 60 * num_concurrent_pipelines

Vertex AI Pipelines

Jeder Abstimmungsjob verwendet Vertex AI Pipelines. Weitere Informationen finden Sie unter Vertex AI Pipelines-Kontingente und -Limits.

Kontingent erhöhen

Wenn Sie eines der Kontingente für die generative AI auf Vertex AI erhöhen möchten, können Sie über die Google Cloud Console eine Kontingenterhöhung anfordern. Weitere Informationen zu Kontingenten finden Sie unter Mit Kontingenten arbeiten.

Nächste Schritte