Kontingentrichtlinie

Die Ressourcenzuweisung und -nutzung für AI Platform Prediction ist begrenzt. Außerdem werden pro Projekt geeignete Kontingente festgelegt. Die einzelnen Richtlinien variieren je nach Ressourcenverfügbarkeit, Nutzerprofil, Dienstnutzungsverlauf sowie weiteren Faktoren und können ohne Vorankündigung geändert werden.

In den folgenden Abschnitten werden die aktuellen Kontingentlimits des Systems beschrieben.

Limits für Dienstanfragen

Sie können nur eine begrenzte Anzahl von API-Anfragen pro 60-Sekunden-Intervall senden. Jedes Limit gilt wie in den folgenden Abschnitten beschrieben für eine bestimmte API oder eine Gruppe von APIs.

Sie können die Anfragekontingente Ihres Projekts im API Manager für AI Platform Prediction in der Google Cloud Console einsehen. Sie können eine Kontingenterhöhung anfordern, indem Sie auf das Bearbeitungssymbol neben dem Kontingent und dann auf Höheres Kontingent beantragen klicken.

Jobanfragen

Die folgenden Limits gelten für projects.jobs.create-Anfragen (Trainings- und Batchvorhersagejobs kombiniert):

Zeitraum Limit
60 Sekunden 60

Anfragen für Onlinevorhersagen

Die folgenden Limits gelten für projects.predict-Anfragen:

Zeitraum Limit
60 Sekunden 600.000

Anfragen für Ressourcenverwaltung

Die folgenden Limits gelten für die Gesamtzahl aller unterstützten Anfragen dieser Liste:

Zeitraum Limit
60 Sekunden 300

Darüber hinaus sind alle oben aufgeführten delete-Anfragen und alle create-Anfragen für Versionen auf 10 gleichzeitige Anfragen insgesamt beschränkt.

Ressourcenkontingente

Zusätzlich zu den Limits für Anfragen im Zeitablauf gibt es Limits für die Verwendung von Ressourcen. Diese sind:

  • Maximale Anzahl von Modellen: 100.
  • Maximale Anzahl von Versionen: 200. Das Versionslimit gilt für die Gesamtzahl der Versionen in Ihrem Projekt, die nach Bedarf auf Ihre aktiven Modelle verteilt werden können.

Modellgrößenlimits

Wenn Sie eine Modellversion erstellen, darf die Gesamtdateigröße des Modellverzeichnisses höchstens 500 MB betragen, wenn Sie einen Legacy-Maschinentyp (MLS1) verwenden, oder höchstens 10 GB, wenn Sie einen Compute Engine-Maschinentyp (N1) verwenden. Weitere Informationen zu Maschinentypen für die Onlinevorhersage

Für die Modellgrößenlimits können Sie keine Erhöhung beantragen.

Limits für die gleichzeitige Nutzung virtueller Maschinen

Die Nutzung der Google Cloud-Verarbeitungsressourcen in Ihrem Projekt wird anhand der Anzahl der verwendeten virtuellen Maschinen ermittelt. In diesem Abschnitt werden die Limits für die gleichzeitige Verwendung dieser Ressourcen in Ihrem Projekt beschrieben.

Limits für die gleichzeitige Nutzung von Knoten für die Batchvorhersage

Bei der erstmaligen Verwendung von AI Platform Prediction ist in einem typischen Projekt die Anzahl der Knoten begrenzt, die gleichzeitig für die Batchvorhersage verwendet werden:

  • Anzahl der gleichzeitigen Vorhersageknoten: 72

Knotennutzung für Onlinevorhersagen

Für die Knotennutzung für Onlinevorhersagen gelten in AI Platform Prediction keine Kontingente. Weitere Informationen über Vorhersageknoten und Ressourcenzuweisung.

Limits für die gleichzeitige vCPU-Nutzung für die Onlinevorhersage

Ein typisches Projekt ist bei der erstmaligen Verwendung von AI Platform Prediction bei der Verwendung von Compute Engine-Maschinentypen (N1) auf die Anzahl der gleichzeitigen vCPUs pro regionalen Endpunkt begrenzt. Unterschiedliche regionale Endpunkte können unterschiedliche Kontingente haben und die Kontingente für Ihr Projekt können sich im Laufe der Zeit ändern.

Gesamtzahl der gleichzeitig verwendeten vCPUs an jedem regionalen Endpunkt:

  • us-central1: 450
  • us-east1: 450
  • us-east4: 20
  • us-west1: 450
  • northamerica-northeast1: 20
  • europe-west1: 450
  • europe-west2: 20
  • europe-west3: 20
  • europe-west4: 450
  • asia-east1: 450
  • asia-northeast1: 20
  • asia-southeast1: 450
  • australia-southeast1: 20

Dies sind die Standard-Kontingente. Sie können größere Kontingente anfordern.

Limits für die gleichzeitige GPU-Nutzung für die Onlinevorhersage

Ein typisches Projekt ist bei der erstmaligen Verwendung von AI Platform Prediction auf die folgende Anzahl gleichzeitig verwendeter GPUs auf jedem regionalen Endpunkt beschränkt. Unterschiedliche regionale Endpunkte können unterschiedliche Kontingente haben und die Kontingente für Ihr Projekt können sich im Laufe der Zeit ändern.

Gesamtzahl der gleichzeitig verwendeten GPUs: Maximale Anzahl der gleichzeitig verwendeten GPUs, aufgeschlüsselt nach Typ und regionalen Endpunkten:

  • Anzahl gleichzeitiger Tesla K80-GPUs:
    • us-central1: 30
    • us-east1: 30
    • europe-west1: 30
    • asia-east1: 30
  • Anzahl gleichzeitiger Tesla P4-GPUs:
    • us-central1: 2
    • us-east4: 2
    • northamerica-northeast1: 2
    • europe-west4: 2
    • asia-southeast1: 2
    • australia-southeast1: 2
  • Anzahl gleichzeitiger Tesla P100-GPUs:
    • us-central1: 30
    • us-east1: 30
    • us-west1: 30
    • europe-west1: 30
    • asia-southeast1: 30
  • Anzahl gleichzeitiger Tesla T4-GPUs:
    • us-central1: 6
    • us-east1: 6
    • us-west1: 6
    • europe-west2: 2
    • europe-west4: 6
    • asia-northeast1: 2
    • asia-southeast1: 6
  • Anzahl gleichzeitiger Tesla V100-GPUs:
    • us-central1: 2
    • us-west1: 2
    • europe-west4: 2

Dies sind die Standard-Kontingente. Sie können größere Kontingente anfordern.

Die GPUs, die Sie zur Vorhersage verwenden, zählen nicht zu den GPUs für Compute Engine und durch das Kontingent für AI Platform Prediction erhalten Sie keinen Zugriff auf andere Compute Engine-VMs, die GPUs verwenden. Wenn Sie eine Compute Engine-VM starten möchten, die GPUs verwendet, müssen Sie ein entsprechendes Compute Engine-GPU-Kontingent anfordern, wie in der Dokumentation zu Compute Engine beschrieben.

Weitere Informationen finden Sie unter GPUs für die Onlinevorhersage verwenden.

Kontingenterhöhung anfordern

Die auf dieser Seite aufgeführten Kontingente werden pro Projekt zugeteilt und können mit der Nutzung im Zeitverlauf erhöht werden. Wenn Sie mehr Verarbeitungskapazität benötigen, können Sie auf folgende Weise eine Kontingenterhöhung beantragen:

  • In der Google Cloud Console können Sie Erhöhungen für Kontingente anfordern, die im API Manager für AI Platform Prediction aufgeführt sind:

    1. Suchen Sie den Abschnitt für das Kontingent, das Sie erhöhen möchten.

    2. Klicken Sie auf das Stiftsymbol neben dem Kontingentwert am unteren Rand des Nutzungsdiagramms für dieses Kontingent.

    3. Geben Sie die gewünschte Erhöhung ein:

      • Wenn Ihr gewünschter Kontingentwert in den im Dialogfeld für das Kontingentlimit angezeigten Bereich fällt, geben Sie den neuen Wert ein und klicken Sie auf Speichern.

      • Wenn Sie das Kontingent über den angezeigten Maximalwert hinaus erhöhen möchten, klicken Sie auf Höheres Kontingent beantragen und folgen Sie der Anleitung für diese zweite Möglichkeit, eine Erhöhung anzufordern.

  • Wenn Sie ein Kontingent erhöhen möchten, das nicht in der Google Cloud Console aufgeführt ist, z. B. GPU-Kontingente, verwenden Sie das Formular zum Anfordern einer Kontingenterhöhung für AI Platform, um eine Erhöhung des Kontingents anzufordern. Diese Anfragen werden auf Best-Effort-Basis verarbeitet. Es gibt also keine Service Level Agreements (SLAs) oder Service Level Objectives (SLOs), die bei der Überprüfung dieser Anfragen zur Anwendung kommen.

Nächste Schritte