Kontingente

In diesem Dokument sind die Kontingente aufgeführt, die für Cloud TPU gelten. Informationen zu Cloud TPU-Preisen finden Sie unter Cloud TPU-Preise.

Ein Kontingent schränkt ein, wie viel von einer bestimmten gemeinsam genutzten Google Cloud-Ressource Ihr Google Cloud-Projekt nutzen kann, einschließlich Hardware, Software und Netzwerkkomponenten. Daher sind Kontingente Teil eines Systems, das Folgendes tut:

  • Ihre Nutzung oder Ihren Verbrauch von Google Cloud-Produkten und -Diensten überwachen.
  • Ihren Verbrauch dieser Ressourcen einschränken, um u. a. für Fairness zu sorgen und Nutzungsspitzen zu reduzieren.
  • Konfigurationen verwalten, die automatisch vorgeschriebene Einschränkungen erzwingen.
  • Möglichkeit, das Kontingent anzufordern oder zu ändern.

Wenn ein Kontingentlimit überschritten wird, blockiert das System in den meisten Fällen den Zugriff auf die entsprechende Google-Ressource und die Aufgabe, die Sie ausführen möchten, schlägt fehl. In den meisten Fällen gelten Kontingente für jedes Google Cloud-Projekt und werden von allen Anwendungen und IP-Adressen geteilt, die dieses Google Cloud-Projekt verwenden.

Kontingenttypen

Wenn Sie GKE verwenden, finden Sie unter Ausreichendes Kontingent gewährleisten weitere Informationen zum GKE-Kontingent. Für ein Cloud TPU API-Kontingent gelten separate Kontingente für reservierte, On-Demand- und präemptive Cloud TPU-Ressourcen. In der folgenden Tabelle werden die einzelnen Kontingenttypen verglichen.

Kontingenttyp Beschreibung Standardwert Antragstellung Flags für die TPU-Erstellung
Reserviert Die Anzahl der Cloud TPU-Ressourcen, für die Sie garantierten Zugriff haben. Sie müssen eine Reservierungsvereinbarung haben, um auf reservierte Ressourcen zugreifen zu können. Reservierte Ressourcen sind vor Ressourcenmangel geschützt, können aber unterbrochen werden. 0 Wenn Sie ein reserviertes Kontingent anfordern möchten, wenden Sie sich an Ihren Google Cloud-Kundenbetreuer. Verwenden Sie das Flag --reserved.
On demand Die Anzahl der On-Demand-Ressourcen, auf die Sie Zugriff haben. On-Demand-Ressourcen werden nicht vorzeitig beendet. Das On-Demand-Kontingent garantiert jedoch nicht, dass genügend Cloud TPU-Ressourcen verfügbar sind, um Ihre Anfrage zu erfüllen. v3-8 und v2-8: 16 TensorCores
Alle anderen: 0
Weitere Informationen finden Sie unter Höheres Kontingent anfordern. Keine Flags erforderlich, standardmäßig ausgewählt.
Auf Abruf Die Anzahl der Cloud TPU-Ressourcen auf Abruf, auf die Sie Zugriff haben. Ressourcen auf Abruf können vorzeitig beendet werden, um Platz für Jobs mit höherer Priorität zu schaffen. Ein Kontingent auf Abruf ist keine Garantie dafür, dass genügend Cloud TPU-Ressourcen verfügbar sind, um Ihre Anfrage zu erfüllen. Weitere Informationen finden Sie unter TPUs auf Abruf. v3-8 und v2-8: 48 TensorCores
Alle anderen: 0
Weitere Informationen finden Sie unter Höheres Kontingent anfordern. Verwenden Sie das Flag --preemptible oder das Flag --best-effort für eine Anfrage für Ressourcen in der Warteschlange.

Kontingentzuteilung

Das Cloud TPU-Kontingent wird abhängig von der verwendeten TPU-Version unterschiedlich gewährt.

TPU v4 und v5p

Für TPU v4 und v5p können Kontingente in Bezug auf TPU-Chips oder TensorCores angegeben werden. Sie können Ihr Kontingent in einer beliebigen Kombination von Segmenten nutzen. Wenn Sie beispielsweise ein Kontingent für ein v4-32-Slice haben, können Sie mit diesem Kontingent vier v4-8-Slices erstellen.

TPU v5e (Training und Inferenz)

v5e unterstützt sowohl Training als auch Inferenz. Zu den für die Inferenz verwendeten v5e-Slices gehören TPUs mit den Beschleunigertypen v5litepod-1, v5litepod-4 oder v5litepod-8. Sie benötigen ein Kontingent von tpu-v5s-litepod-serving für On-Demand-Cloud TPU, tpu-v5s-litepod-serving-preemptible für Cloud TPU auf Abruf und tpu-v5s-litepod-serving-reserved für reservierte Cloud TPU.

TPU v2 und v3

v2- und v3-TPU-Kontingente werden in Bezug auf TensorCores angegeben. Ein einzelnes TPU-Gerät enthält vier TPU-Chips und acht TensorCores (zwei TensorCores pro Chip). v2- und v3-TPUs haben separate Kontingente für einzelne TPU-Geräte und TPU-Pods. Für v2-8- oder v3-8-TPUs können Sie keine v2- oder v3-TPU-Pod-Kontingente verwenden. Wenn Sie beispielsweise ein Kontingent für ein v3-32-Slice haben, können Sie es nicht zum Erstellen von vier v3-8-TPUs verwenden.

Weitere Informationen zu TPU-Chips und TensorCores finden Sie unter TPU-Systemarchitektur.

Zusätzliches Kontingent ansehen und anfordern

Sie können das Ihrem Google Cloud-Projekt zugeteilte Kontingent in der Google Cloud Console auf der Seite „Kontingente“ ansehen. Wenn Sie ein zusätzliches Cloud TPU-Kontingent benötigen, können Sie es auf der Seite „Kontingente“ anfordern. Weitere Informationen finden Sie unter Höheres Kontingentlimit anfordern.