Google Cloud nutzt Kontingente, um Fairness zu gewährleisten und Spitzen bei Ressourcennutzung und -verfügbarkeit zu reduzieren. Ein Kontingent schränkt ein, wie viel von einer Google Cloud-Ressource Ihr Google Cloud-Projekt nutzen darf. Kontingente gelten für eine Reihe von Ressourcentypen, einschließlich Hardware, Software und Netzwerkkomponenten. Mit Kontingenten können Sie beispielsweise die Anzahl der API-Aufrufe an einen Dienst, die Anzahl der von Ihrem Projekt gleichzeitig verwendeten Load Balancer oder die Anzahl der Projekte begrenzen, die Sie erstellen können. Die Kontingente sollen eine Überlastung von Diensten verhindern und dadurch die Community der Google Cloud-Nutzer schützen. Sie helfen Ihnen auch bei der Verwaltung Ihrer eigenen Google Cloud-Ressourcen.
Das Cloud-Kontingentsystem ermöglicht Folgendes:
- Ihren Verbrauch von Google Cloud-Produkten und -Diensten überwachen
- Ihren Verbrauch dieser Ressourcen einschränken
- Eine Möglichkeit bieten, Änderungen am Kontingentwert anzufordern
Wenn Sie versuchen, mehr von einer Ressource zu verbrauchen, als das Kontingent zulässt, blockiert das System in den meisten Fällen den Zugriff auf die Ressource. Die Aufgabe, die Sie ausführen möchten, schlägt fehl.
Kontingente gelten in der Regel auf Google Cloud-Projektebene. Ihre Nutzung einer Ressource in einem Projekt hat keinen Einfluss auf Ihr verfügbares Kontingent in einem anderen Projekt. Innerhalb eines Google Cloud-Projekts werden die Kontingente für alle Anwendungen und IP-Adressen gemeinsam genutzt.
Kontingente nach Region und Modell
Das Kontingent für Anfragen pro Minute gilt für ein Basismodell und alle Versionen, Kennungen und abgestimmte Versionen dieses Modells. Beispiel: Eine Anfrage an gemini-1.0-pro
und eine Anfrage an gemini-1.0-pro-001
werden als zwei Anfragen auf das RPM-Kontingent des Basismodells gemini-1.0-pro
angerechnet.
Ebenso wird eine Anfrage an gemini-1.0-pro-001
und gemini-1.0-pro-002
als zwei Anfragen auf das RPM-Kontingent des Basismodells gemini-1.0-pro
angerechnet. Dasselbe gilt für abgestimmte Modelle. Eine Anfrage an gemini-1.0-pro-001
und ein abgestimmtes Modell basierend auf gemini-1.0-pro-001
namens my-tuned-chat-model
werden als zwei Anfragen an das Basismodell gemini-1.0-pro
gezählt.
Die Kontingente gelten für Generative AI für Vertex AI-Anfragen für ein bestimmtes Google Cloud-Projekt und eine unterstützte Region.
So rufen Sie die Kontingente in der Google Cloud Console auf:
- Öffnen Sie in der Google Cloud Console die IAM- und Administrator-Seite Kontingente.
- Geben Sie im Feld Filter die Dimension oder den Messwert an.
Dimension (Modellkennzeichnung) | Messwert (Kontingent-ID für Gemini-Modelle) |
---|---|
base_model: gemini-1.5-flash base_model: gemini-1.5-pro |
Hier können Sie Anpassungen anfordern: <ph type="x-smartling-placeholder">
|
Alle anderen Modelle | Sie können nur ein Kontingent anpassen:
|
Wählen Sie eine Region aus, um die Kontingentlimits für jedes verfügbare Modell aufzurufen:
Ratenlimits
Die folgenden Ratenbegrenzungen gelten für die aufgeführten Modelle in allen Regionen für den
Messwert, generate_content_input_tokens_per_minute_per_base_model
:
Basismodell | Tokens pro Minute |
---|---|
base_model: gemini-1.5-flash |
4M (4.000.000) |
base_model: gemini-1.5-pro |
4M (4.000.000) |
Batchanfragen
Die Kontingente und Limits für Batchanfragen sind in allen Regionen gleich.
Gleichzeitige Batchanfragen
In der folgenden Tabelle sind die Kontingente für die Anzahl gleichzeitiger Batchanfragen aufgeführt:
Kontingent | Wert |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
aiplatform.googleapis.com/model_garden_oss_concurrent_batch_prediction_jobs |
1 |
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs |
1 |
Wenn die Anzahl der eingereichten Aufgaben das zugewiesene Kontingent überschreitet, werden die Aufgaben in eine Warteschlange gestellt und verarbeitet, sobald Kontingentkapazität verfügbar ist.
Limits für Batchanfragen
In der folgenden Tabelle sind die Größenlimits für die einzelnen Batchanfragen zur Textgenerierung aufgeführt.
Modell | Limit |
---|---|
gemini-1.5-pro |
50.000 Datensätze |
gemini-1.5-flash |
150.000 Datensätze |
gemini-1.0-pro |
150.000 Datensätze |
gemini-1.0-pro-vision |
50.000 Datensätze |
Kontingente für benutzerdefiniert trainierte Modelle
Die folgenden Kontingente gelten für Generative AI von Vertex AI-Modellen für ein bestimmtes Projekt und eine bestimmte Region:
Kontingent | Wert |
---|---|
Eingeschränkte Image-Trainings-TPU V3 Pod-Kerne pro Region * unterstützte Region - europe-west4 |
64 |
Eingeschränktes Bildtraining Nvidia A100 80 GB GPUs pro Region * unterstützte Region - us-central1 * unterstützte Region - us-east4 |
8 2 |
* Feinabstimmungsszenarien haben Beschleunigerreservierungen in bestimmten Regionen. Kontingente für die Feinabstimmung werden unterstützt und müssen in bestimmten Regionen angefordert werden.
Kontingente für die Onlinebewertung
Der Online-Bewertungsdienst verwendet das Gemini 1.5-Modell als Autorater für IP-Prompts und Mechanismen von Google, um eine konsistente und objektive Bewertung modellbasierter Messwerte zu gewährleisten.
Eine einzelne Bewertungsanfrage für einen modellbasierten Messwert kann zu mehreren zugrunde liegenden Anfragen an den Online-Vorhersagedienst führen. Das Kontingent jedes einzelnen Modells wird auf Projektbasis berechnet. Das bedeutet, dass alle Anfragen, die zur Modellinferenz und zur modellbasierten Bewertung an Gemini 1.5 übertragen werden, zum Kontingent beitragen. Die Kontingente für verschiedene Modelle werden unterschiedlich festgelegt. Das Kontingent für den Bewertungsdienst und das Kontingent für das zugrunde liegende Autorater-Modell sind in der Tabelle angezeigt.
Anfragekontingent | Standardkontingent |
---|---|
Online-Bewertungsdienst-Anfragen pro Minute | 1.000 Anfragen pro Projekt und Region |
Anfragen für Onlinevorhersagen pro Minute für base_model: gemini-1.5-pro |
1.600 Anfragen pro Projekt und Region |
Wenn bei der Verwendung des Online-Bewertungsdienstes ein Fehler im Zusammenhang mit Kontingenten auftritt, müssen Sie möglicherweise eine Anfrage zur Kontingenterhöhung einreichen. Weitere Informationen finden Sie unter Kontingente aufrufen und verwalten.
Limit | Wert |
---|---|
Zeitlimit für Onlinebewertungsdienst-Anfragen | 60 Sekunden |
Bei Erstnutzern des Online-Bewertungsdienstes in einem neuen Projekt kann es zu einer Verzögerung für die Ersteinrichtung von bis zu zwei Minuten kommen. Das ist ein einmaliger Vorgang. Wenn Ihre erste Anfrage fehlschlägt, warten Sie einige Minuten und versuchen Sie es dann noch einmal. Nachfolgende Bewertungsanfragen werden in der Regel innerhalb von 60 Sekunden abgeschlossen.
Die maximalen Eingabe- und Ausgabetokens sind für die modellbasierten Messwerte gemäß dem Modell begrenzt, das als Autorater verwendet wird. Siehe Modellinformationen | Generative KI in Vertex AI | Google Cloud für Limits für relevante Modelle.
LlamaIndex auf Vertex AI-Kontingente für RAG
Die folgenden Kontingente gelten für die Ausführung von Retrieval-Augmented Generation (RAG) unter Verwendung von LlamaIndex in Vertex AI:
Dienst | Kontingent |
---|---|
LlamaIndex in Vertex AI Data Management APIs | 60 Anfragen pro Minute (RPM) |
RetrievalContexts API |
1.500 RPM |
base_model: textembedding-gecko |
1.500 RPM |
Anfragen für Onlinevorhersagen1 | 30.000 RPM |
Datenaufnahme | 1.000 Dateien |
1 Dieses Kontingent gilt nur für öffentliche Endpunkte. Private Endpunkte haben eine unbegrenzte Anfragenzahl pro Minute.
Kontingente für die Pipelinebewertung
Wenn Sie bei der Verwendung des Pipelines-Bewertungsdienstes einen Fehler im Zusammenhang mit Kontingenten erhalten, müssen Sie möglicherweise eine Kontingenterhöhung beantragen. Weitere Informationen finden Sie unter Kontingente aufrufen und verwalten.
Der Pipelines-Bewertungsdienst verwendet Vertex AI Pipelines, um PipelineJobs
auszuführen. Sehen Sie sich relevante Kontingente für Vertex AI Pipelines an. Im Folgenden finden Sie allgemeine Kontingentempfehlungen:
Dienst | Kontingent | Empfehlung |
---|---|---|
Vertex AI API | Gleichzeitige LLM-Batchvorhersagejobs pro Region | Punktweise: 1 * num_concurrent_pipelines Paarweise: 2 * num_concurrent_pipelines |
Vertex AI API | Bewertungsanfragen pro Minute und Region | 1.000 * num_concurrent_pipelines |
Außerdem kann der Autorater bei der Berechnung modellbasierter Bewertungsmesswerte Kontingentprobleme verursachen. Das relevante Kontingent hängt davon ab, welcher Autorater verwendet wurde:
Tasks | Kontingent | Basismodell | Empfehlung |
---|---|---|---|
summarization question_answering |
Anfragen für Onlinevorhersagen pro Basismodell pro Minute, Region und base_model | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
Jeder Abstimmungsjob verwendet Vertex AI Pipelines. Weitere Informationen finden Sie unter Vertex AI Pipelines-Kontingente und -Limits.
Dynamisches freigegebenes Kontingent
Bei Diensten, die dynamische gemeinsame Kontingente unterstützen, verteilt Google Cloud die On-Demand-Kapazität auf alle verarbeiteten Abfragen. Dadurch müssen Sie keine Anfragen zur Kontingenterhöhung mehr senden (QIRs, Quota Increase Requests).
Wenn Sie die Kosten kontrollieren und Budgetüberschreitungen verhindern möchten, können Sie ein selbst festgelegtes Kontingent konfigurieren, eine sogenannte Nutzerkontingentüberschreibung. Weitere Informationen finden Sie unter Nutzerkontingentüberschreibung erstellen.
Wenn Sie priorisierten Traffic benötigen, verwenden Sie Bereitgestellter Durchsatz.
Sie können Ihre Nutzung auch unter Kontingente und Systemlimits in der Google Cloud Console im Blick behalten.
Informationen zu Modellen, die dynamische gemeinsame Kontingente unterstützen, finden Sie unter Claude-Modelle von Anthropic verwenden.
Beispiel für die Funktionsweise dynamischer freigegebenen Kontingente
Google Cloud prüft die verfügbare Kapazität in einer bestimmten Region, z. B. Nordamerika, und prüft dann, wie viele Kunden Anfragen senden. Betrachten Sie Kunden A, der 25 Abfragen pro Minute (QPM) sendet, und Kunde B, der 25 QPM sendet. Der Dienst unterstützt 100 QPM. Wenn Kunde A die Rate seiner Abfragen auf 75 QPM erhöht, unterstützt das dynamische freigegebene Kontingent die Erhöhung. Wenn Kunde A die Rate seiner Abfragen auf 100 QPM erhöht, drosselt das dynamische freigegebene Kontingent Kunde A auf 75 QPM, um Kunde B weiterhin um 25 QPM bedienen zu können.
Um Fehler zu beheben, die bei der Verwendung von dynamischen freigegebenen Kontingenten vorkommen, lesen Sie Kontingentfehler beheben.
Kontingent erhöhen
Wenn Sie eines der Kontingente für die generative AI auf Vertex AI erhöhen möchten, können Sie über die Google Cloud Console eine Kontingenterhöhung anfordern. Weitere Informationen zu Kontingenten finden Sie unter Mit Kontingenten arbeiten.
Nächste Schritte
- Weitere Informationen zu Vertex AI-Kontingenten und -Limits
- Weitere Informationen zu Kontingenten und Limits von Google Cloud.