Google Cloud nutzt Kontingente, um Fairness zu gewährleisten und Spitzen bei Ressourcennutzung und -verfügbarkeit zu reduzieren. Ein Kontingent schränkt ein, wie viel von einer Google Cloud-Ressource Ihr Google Cloud-Projekt nutzen darf. Kontingente gelten für eine Reihe von Ressourcentypen, einschließlich Hardware, Software und Netzwerkkomponenten. Mit Kontingenten können Sie beispielsweise die Anzahl der API-Aufrufe an einen Dienst, die Anzahl der von Ihrem Projekt gleichzeitig verwendeten Load Balancer oder die Anzahl der Projekte begrenzen, die Sie erstellen können. Die Kontingente sollen eine Überlastung von Diensten verhindern und dadurch die Community der Google Cloud-Nutzer schützen. Sie helfen Ihnen auch bei der Verwaltung Ihrer eigenen Google Cloud-Ressourcen.
Das Cloud-Kontingentsystem ermöglicht Folgendes:
- Ihren Verbrauch von Google Cloud-Produkten und -Diensten überwachen
- Ihren Verbrauch dieser Ressourcen einschränken
- Eine Möglichkeit bieten, Änderungen am Kontingentwert anzufordern
Wenn Sie versuchen, mehr von einer Ressource zu verbrauchen, als das Kontingent zulässt, blockiert das System in den meisten Fällen den Zugriff auf die Ressource. Die Aufgabe, die Sie ausführen möchten, schlägt fehl.
Kontingente gelten in der Regel auf Google Cloud-Projektebene. Ihre Nutzung einer Ressource in einem Projekt hat keinen Einfluss auf Ihr verfügbares Kontingent in einem anderen Projekt. Innerhalb eines Google Cloud-Projekts werden die Kontingente für alle Anwendungen und IP-Adressen gemeinsam genutzt.
Ratenlimits
In dieser Tabelle sind die Ratenbegrenzungen für die folgenden Modelle für den Messwertgenerate_content_input_tokens_per_minute_per_base_model
in allen Regionen aufgeführt:
Basismodell | Tokens pro Minute |
---|---|
base_model: gemini-1.5-flash |
4M (4.000.000) |
base_model: gemini-1.5-pro |
4M (4.000.000) |
Informationen zu Kontingenten für Version 002 von Gemini 1.5 Flash (gemini-1.5-flash-002
) und Gemini 1.5 Pro (gemini-1.5-pro-002
) finden Sie unter Google-Modelle.
Kontingente nach Region und Modell
Das Kontingent für Anfragen pro Minute gilt für ein Basismodell und alle Versionen, Kennungen und abgestimmte Versionen dieses Modells. Die folgenden Beispiele zeigen, wie das RPM-Kontingent angewendet wird:- Eine Anfrage an das Basismodell
gemini-1.0-pro
und eine Anfrage an die stabile Versiongemini-1.0-pro-001
werden als zwei Anfragen auf das RPM-Kontingent des Basismodellsgemini-1.0-pro
angerechnet. - Eine Anfrage an zwei Versionen eines Basismodells, „gemini-1.0-pro-001“ und „gemini-1.0-pro-002“, wird als zwei Anfragen auf das RPM-Kontingent des Basismodells „gemini-1.0-pro“ gezählt.
- Eine Anfrage an zwei Versionen eines Basismodells, „gemini-1.0-pro-001“ und eine abgestimmte Version namens „my-tuned-chat-model“, wird als zwei Anfragen an das Basismodell „gemini-1.0-pro“ gezählt.
Kontingente in der Google Cloud Console ansehen
So rufen Sie die Kontingente in der Google Cloud Console auf:- Öffnen Sie in der Google Cloud Console die IAM- und Administrator-Seite Kontingente.
- Klicken Sie auf Kontingente in der Console ansehen.
- Geben Sie im Feld Filter die Dimension oder den Messwert an.
Dimension (Modell-ID) | Messwert (Kontingent-ID für Gemini-Modelle) |
---|---|
base_model: gemini-1.5-flash base_model: gemini-1.5-pro |
Sie können Anpassungen in folgenden Fällen beantragen:
|
Alle anderen Modelle | Sie können nur ein Kontingent anpassen:
|
Kontingente nach Region und Modell ansehen
Wählen Sie eine Region aus, um die Kontingentlimits für jedes verfügbare Modell aufzurufen:
Kontingente erhöhen
Wenn Sie eines der Kontingente für die generative AI auf Vertex AI erhöhen möchten, können Sie über die Google Cloud Console eine Kontingenterhöhung anfordern. Weitere Informationen zu Kontingenten finden Sie unter Mit Kontingenten arbeiten.
RAG Engine-Kontingente
Für jeden Dienst, der die Retrieval-Augmented Generation (RAG) mit der RAG Engine durchführt, gelten die folgenden Kontingente. Das Kontingent wird in Anfragen pro Minute (RPM) gemessen.Dienst | Kontingent | Messwert |
---|---|---|
APIs zur Datenverwaltung der RAG Engine | 60 U/min | VertexRagDataService requests per minute per region |
RetrievalContexts API |
1.500 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1.500 RPM | Online prediction requests per base model per minute per region per base_model Sie können auch den Filter base_model: textembedding-gecko angeben. |
Dienst | Limit | Messwert |
---|---|---|
Gleichzeitige ImportRagFiles -Anfragen |
3 U/min | VertexRagService concurrent import requests per region |
Maximale Anzahl von Dateien pro ImportRagFiles -Anfrage |
10.000 | VertexRagService import rag files requests per region |
Weitere Informationen zu den Grenzwerten und Kontingenten finden Sie unter Grenzwerte für die Auslastung von generativer KI in Vertex AI.
Batchanfragen
Die Kontingente und Limits für Batchanfragen sind für alle Regionen gleich.Gleichzeitige Batchanfragen
In der folgenden Tabelle sind die Kontingente für die Anzahl der gleichzeitigen Batchanfragen aufgeführt:Kontingent | Value |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs |
4 |
aiplatform.googleapis.com/gemini_flash_concurrent_batch_prediction_jobs |
4 |
Limits für Batchanfragen
In der folgenden Tabelle sind die Größenlimits für die einzelnen Batchanfragen zur Textgenerierung aufgeführt.Modell | Limit |
---|---|
gemini-1.5-pro |
50.000 Datensätze |
gemini-1.5-flash |
150.000 Datensätze |
gemini-1.0-pro |
150.000 Datensätze |
gemini-1.0-pro-vision |
50.000 Datensätze |
Kontingente für benutzerdefiniert trainierte Modelle
Die folgenden Kontingente gelten für Generative AI von Vertex AI-Modellen für ein bestimmtes Projekt und eine bestimmte Region:Kontingent | Value |
---|---|
Eingeschränkte Image-Trainings-TPU V3 Pod-Kerne pro Region * unterstützte Region - europe-west4 |
64 |
Eingeschränktes Bildtraining Nvidia A100 80 GB GPUs pro Region * unterstützte Region – us-central1 * unterstützte Region – us-east4 |
8 2 |
Einschränkungen bei der Texteinbettung
Jede Anfrage für ein Modell für Text-Embeddings kann bis zu 250 Eingabetexte (1 Embedding pro Eingabetext) und 20.000 Token pro Anfrage enthalten. Für die Berechnung der Einbettungen werden nur die ersten 2.048 Tokens in jedem Eingabetext verwendet.
Kontingente für den Gen AI Evaluation Service
Der Gen AI-Bewertungsdienst verwendetgemini-1.5-pro
als Bewertungsmodell und Mechanismen, um eine konsistente und objektive Bewertung modellbasierter Messwerte zu gewährleisten.
Eine einzelne Bewertungsanfrage für einen modellbasierten Messwert kann zu mehreren zugrunde liegenden Anfragen an den Gen AI Evaluation Service führen. Das Kontingent jedes Modells wird auf Projektbasis berechnet. Das bedeutet, dass alle Anfragen, die zur Modellinferenz und zur modellbasierten Bewertung an gemini-1.5-pro
gerichtet werden, zum Kontingent beitragen. Die Kontingente für die einzelnen Modelle werden unterschiedlich festgelegt. Das Kontingent für den Gen AI Evaluation Service und das Kontingent für das zugrunde liegende Autorater-Modell sind in der Tabelle angezeigt.
Kontingent anfordern | Standardkontingent |
---|---|
Anfragen an den Gen AI Evaluation Service pro Minute | 1.000 Anfragen pro Projekt und Region |
Anfragen für Onlinevorhersagen pro Minute für base_model: gemini-1.5-pro |
Weitere Informationen finden Sie unter Kontingente nach Region und Modell. |
Limit | Value |
---|---|
Zeitlimit für Gen AI Evaluation Service-Anfragen | 60 Sekunden |
Kontingente für die Pipelinebewertung
Wenn Sie bei der Verwendung des Pipelines-Bewertungsdienstes einen Fehler im Zusammenhang mit Kontingenten erhalten, müssen Sie möglicherweise eine Kontingenterhöhung beantragen. Weitere Informationen finden Sie unter Kontingente aufrufen und verwalten. Der Pipelines-Bewertungsdienst verwendet Vertex AI Pipelines, umPipelineJobs
auszuführen. Sehen Sie sich relevante Kontingente für Vertex AI Pipelines an. Im Folgenden finden Sie allgemeine Empfehlungen für Kontingente:
Dienst | Kontingent | Empfehlung |
---|---|---|
Vertex AI API | Gleichzeitige LLM-Batchvorhersagejobs pro Region | Punktweise: 1 * num_concurrent_pipelines Paareweise: 2 * num_concurrent_pipelines |
Vertex AI API | Bewertungsanfragen pro Minute und Region | 1.000 * num_concurrent_pipelines |
Google Tasks | Kontingent | Basismodell | Empfehlung |
---|---|---|---|
summarization question_answering |
Anfragen für Onlinevorhersagen pro Basismodell pro Minute pro Region pro base_model | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
Jeder Abstimmungsjob verwendet Vertex AI Pipelines. Weitere Informationen finden Sie unter Vertex AI Pipelines-Kontingente und -Limits.
Vertex AI Reasoning Engine
Die folgenden Kontingente und Limits gelten für die Vertex AI Reasoning Engine für ein bestimmtes Projekt in jeder Region.Kontingent | Wert |
---|---|
Reasoning Engine pro Minute erstellen/löschen/aktualisieren | 10 |
Abfragen der Reasoning Engine pro Minute | 60 |
Maximale Anzahl von Reasoning Engine-Ressourcen | 100 |
Fehlercode 429 beheben
Informationen zur Fehlerbehebung bei Fehler 429 finden Sie unter Fehlercode 429.
Nächste Schritte
- Weitere Informationen zum dynamischen freigegebenen Kontingent finden Sie unter Dynamisches freigegebenes Kontingent.
- Weitere Informationen zu Kontingenten und Limits für Vertex AI finden Sie unter Vertex AI-Kontingente und -Limits.
- Weitere Informationen zu Kontingenten und Limits für Google Cloud finden Sie unter Informationen zu Kontingentwerten und Systemlimits.