Die Ressourcenzuweisung und -nutzung für AI Platform Training ist begrenzt. Außerdem werden pro Projekt geeignete Kontingente festgelegt. Die einzelnen Richtlinien variieren je nach Ressourcenverfügbarkeit, Nutzerprofil, Dienstnutzungsverlauf sowie weiteren Faktoren und können ohne Vorankündigung geändert werden.
In den folgenden Abschnitten werden die aktuellen Kontingentlimits des Systems beschrieben.
Limits für Dienstanfragen
Sie können nur eine begrenzte Anzahl von API-Anfragen pro 60-Sekunden-Intervall senden. Jedes Limit gilt wie in den folgenden Abschnitten beschrieben für eine bestimmte API oder eine Gruppe von APIs.
Die Anfragekontingente Ihres Projekts finden Sie in der Google Cloud Console im API Manager für AI Platform Training. Sie können eine Kontingenterhöhung anfordern, indem Sie auf das Bearbeitungssymbol neben dem Kontingent und dann auf Höheres Kontingent beantragen klicken.
Jobanfragen
Die folgenden Limits gelten für projects.jobs.create-Anfragen (Trainings- und Batchvorhersagejobs kombiniert):
Zeitraum | Limit |
---|---|
60 Sekunden | 60 |
Anfragen für Onlinevorhersagen
Die folgenden Limits gelten für projects-predict-Anfragen:
Zeitraum | Limit |
---|---|
60 Sekunden | 600.000 |
Anfragen für Ressourcenverwaltung
Die folgenden Limits gelten für die Gesamtzahl aller unterstützten Anfragen dieser Liste:
list-Anfragen für projects.jobs, projects.models, projects.models.versions und projects.operations.
get-Anfragen für projects.jobs, projects.models, projects.models.versions und projects.operations.
delete-Anfragen für projects.models und projects.models.versions.
create-Anfragen für projects.models und projects.models.versions.
cancel-Anfragen für projects.jobs und projects.operations.
Anfragen für projects.models.versions.setDefault.
Zeitraum | Limit |
---|---|
60 Sekunden | 300 |
Darüber hinaus sind alle oben aufgeführten delete-Anfragen und alle create-Anfragen für Versionen auf 10 gleichzeitige Anfragen insgesamt beschränkt.
Limits für die gleichzeitige Nutzung virtueller Maschinen
Die Nutzung der Google Cloud-Verarbeitungsressourcen in Ihrem Projekt wird anhand der Anzahl der verwendeten virtuellen Maschinen ermittelt. In diesem Abschnitt werden die Limits für die gleichzeitige Verwendung dieser Ressourcen in Ihrem Projekt beschrieben.
Limits für die gleichzeitige CPU-Nutzung für das Training
Die Anzahl der für ein typisches Projekt gleichzeitig genutzten virtuellen CPUs wird basierend auf dem Nutzungsverlauf des Projekts skaliert.
- Gesamtzahl der gleichzeitig verwendeten CPUs: Die Gesamtzahl verwendeter CPUs beträgt mindestens 20 und wird typischerweise auf einen Wert von 450 skaliert. Diese Grenzwerte stellen die kombinierte maximale Anzahl von CPUs dar, die einschließlich aller Maschinentypen gleichzeitig genutzt werden können.
Für bestimmte Regionen gelten zusätzliche Standardkontingente. Wenn Sie CPUs in diesen Regionen verwenden, werden sie auf das regionale Kontingent und auf das Gesamtkontingent angerechnet:
asia-northeast2
: 20 CPUsasia-northeast3
: 20 CPUseurope-north1
: 20 CPUseurope-west3
: 20 CPUseurope-west6
: 20 CPUsus-east4
: 20 CPUsus-west2
: 20 CPUsus-west3
: 20 CPUs
Die CPUs, die Sie für das Training eines Modells verwenden, zählen nicht zu den CPUs für Compute Engine. Durch das Kontingent für AI Platform Training erhalten Sie außerdem keinen Zugriff auf Compute Engine-VMs für andere Datenverarbeitungszwecke. Wenn Sie eine Compute Engine-VM starten möchten, müssen Sie das entsprechende Compute Engine-Kontingent anfordern, wie in der Dokumentation zu Compute Engine beschrieben.
Limits für die gleichzeitige GPU-Nutzung für das Training
Ein typisches Projekt ist bei der erstmaligen Verwendung von AI Platform Training auf die folgende Anzahl von GPUs beschränkt, die für das Trainieren von ML-Modellen gleichzeitig verwendet werden können:
Gesamtzahl der gleichzeitig verwendeten GPUs: Maximale Anzahl der gleichzeitig verwendeten GPUs, aufgeschlüsselt nach Typ:
- Anzahl gleichzeitiger A100-GPUs: 8
- Anzahl gleichzeitiger P4-GPUs: 8
- Anzahl gleichzeitiger P100-GPUs: 30
- Anzahl gleichzeitiger V100-GPUs: 8
- Anzahl gleichzeitiger T4-GPUs: 6
Für bestimmte Regionen gelten zusätzliche Standardkontingente. Wenn Sie die folgenden GPUs in den aufgelisteten Regionen verwenden, werden diese auf die regionalen Kontingente sowie auf das Gesamtkontingent angerechnet:
- P4-GPUs in
asia-southeast1
: 4 - P4-GPUs in
us-east4
: 1 - P4-GPUs in
us-west2
: 1 - T4-GPUs in
asia-northeast3
: 1 - T4-GPUs in
asia-southeast1
: 4
Beachten Sie, dass die Kontingente eines Projekts von verschiedenen Faktoren abhängen. Daher können die Kontingente in einem bestimmten Projekt geringer sein als die oben genannten Zahlen. Die GPUs, die Sie für das Training eines Modells verwenden, zählen nicht zu den GPUs für Compute Engine. Durch das Kontingent für AI Platform Training erhalten Sie außerdem keinen Zugriff auf andere Compute Engine-VMs, die GPUs verwenden. Wenn Sie eine Compute Engine-VM starten möchten, die GPUs verwendet, müssen Sie ein entsprechendes Compute Engine-GPU-Kontingent anfordern, wie in der Dokumentation zu Compute Engine beschrieben.
Wenn Sie weitere GPUs für AI Platform Training benötigen, lesen Sie den Abschnitt Kontingenterhöhung anfordern dieses Leitfadens.
Weitere Informationen zu GPUs finden Sie im Abschnitt über die Verwendung von GPUs zum Trainieren von Modellen in der Cloud.
Limits für die gleichzeitige TPU-Nutzung für das Training
Wie bei GPUs ist das TPU-Kontingent für AI Platform Training von Ihrem Cloud TPU-Kontingent getrennt, das Sie direkt mit Compute Engine-VMs nutzen können. Die TPUs für das Trainieren eines Modells zählen nicht als TPUs für Compute Engine und Ihr Kontingent für AI Platform Training gibt Ihnen keinen Zugriff auf Compute Engine-VMs mit TPUs.
In der Google Cloud Console wird lediglich Ihr Cloud TPU-Kontingent mit Compute Engine angezeigt. Wenn Sie ein Cloud TPU-Kontingent für Compute Engine benötigen, senden Sie eine Anfrage an das Cloud TPU-Team.
Allen Google Cloud-Projekten wird ein standardmäßiges AI Platform Training-Kontingent für mindestens eine Cloud TPU zugewiesen. Das Kontingent wird in Einheiten von je 8 TPU-Kernen pro Cloud TPU zugewiesen. Dieses Kontingent wird nicht in der Google Cloud Console angezeigt.
Kontingenterhöhung anfordern
Die auf dieser Seite aufgeführten Kontingente werden pro Projekt zugeteilt und können mit der Nutzung im Zeitverlauf erhöht werden. Wenn Sie mehr Verarbeitungskapazität benötigen, können Sie auf folgende Weise eine Kontingenterhöhung beantragen:
Verwenden Sie die Google Cloud Console, um Kontingenterhöhungen anzufordern, die im API Manager für AI Platform Training aufgeführt sind:
Suchen Sie den Abschnitt für das Kontingent, das Sie erhöhen möchten.
Klicken Sie auf das Stiftsymbol neben dem Kontingentwert am unteren Rand des Nutzungsdiagramms für dieses Kontingent.
Geben Sie die gewünschte Erhöhung ein:
Wenn Ihr gewünschter Kontingentwert in den im Dialogfeld für das Kontingentlimit angezeigten Bereich fällt, geben Sie den neuen Wert ein und klicken Sie auf Speichern.
Wenn Sie das Kontingent über den angezeigten Maximalwert hinaus erhöhen möchten, klicken Sie auf Höheres Kontingent beantragen und folgen Sie der Anleitung für diese zweite Möglichkeit, eine Erhöhung anzufordern.
Wenn Sie ein Kontingent erhöhen möchten, das nicht in der Google Cloud Console aufgeführt ist, z. B. GPU-Kontingente, verwenden Sie das Formular zum Anfordern einer Kontingenterhöhung für AI Platform, um eine Erhöhung des Kontingents anzufordern. Diese Anfragen werden auf Best-Effort-Basis verarbeitet. Es gibt also keine Service Level Agreements (SLAs) oder Service Level Objectives (SLOs), die bei der Überprüfung dieser Anfragen zur Anwendung kommen.
Limits für die gleichzeitige Laufwerknutzung für das Training
Die Anzahl der für ein typisches Projekt gleichzeitig genutzten virtuellen Laufwerke wird basierend auf dem Nutzungsverlauf des Projekts skaliert.
- Gesamtanzahl gleichzeitig genutzter Laufwerke: Ab 4.000 GB für standardmäßige Festplattenlaufwerke (HDD) und 500 GB für SSDs (Solid-State Drives) mit Skalierung auf einen typischen Wert von 180.000 GB für HDD und 75.000 GB für SSD. Diese Grenzwerte stellen die kombinierte maximale Anzahl von Laufwerken dar, die einschließlich aller Maschinentypen gleichzeitig genutzt werden können.
Die Laufwerke, die Sie beim Trainieren eines Modells verwenden, werden nicht als Laufwerke für Compute Engine gezählt. Das Kontingent für AI Platform Training gewährt Ihnen außerdem keinen Zugriff auf Compute Engine-VM-Instanzen für andere Datenverarbeitungsanforderungen. Wenn Sie eine Compute Engine-VM erstellen möchten, müssen Sie ein Compute Engine-Kontingent anfordern.
Nächste Schritte
- Grundlagen von AI Platform kennenlernen
- Zusammenspiel von AI Platform Training mit Lösungen für maschinelles Lernen kennenlernen