Quotas

Ce document répertorie les quotas qui s'appliquent à Cloud TPU. Pour en savoir plus sur les tarifs de Cloud TPU, consultez la page Tarifs de Cloud TPU.

Un quota limite la quantité d'une ressource Google Cloud partagée particulière que votre projet Google Cloud peut utiliser, y compris les composants matériels, logiciels et réseau. Par conséquent, les quotas font partie d'un système qui effectue les opérations suivantes :

  • Surveille votre utilisation ou votre consommation des produits et services Google Cloud
  • Limite la consommation de ces ressources pour des raisons telles que l'équité et la réduction des pics d'utilisation.
  • Gère des configurations qui appliquent automatiquement des restrictions recommandées.
  • Fournit un moyen de demander ou d'effectuer des modifications de quota.

Dans la plupart des cas, lorsqu'un quota est dépassé, le système bloque immédiatement l'accès à la ressource Google concernée et la tâche que vous essayez d'effectuer échoue. Dans la plupart des cas, les quotas s'appliquent à chaque projet Google Cloud. Ils sont partagés entre toutes les applications et adresses IP qui utilisent ce projet.

Allocation de quotas

Les quotas sont attribués différemment en fonction de la version de TPU que vous utilisez.

TPU v4 et v5p

Pour les TPU v4 et v5p, le quota peut être spécifié en puce Cloud TPU ou en TensorCores. Tous les TPU v4 et v5p sont traités comme des tranches. Il n'existe donc pas de concept d'appareil TPU unique comme c'est le cas avec les TPU v2 et v3. Vous pouvez utiliser votre quota dans n'importe quelle combinaison de tranches. Par exemple, si vous disposez d'un quota pour une tranche v4-32, vous pouvez utiliser ce quota pour créer quatre tranches v4-8.

TPU v5e (entraînement et inférence)

La version 5e est compatible avec l'entraînement et l'inférence. La création d'une instance v5e pour l'inférence (v5litepod-1, v5litepod-4, v5litepod-8) nécessite des types de quotas de diffusion: tpu-v5s-litepod-serving pour les TPU à la demande, tpu-v5s-litepod-serving-preemptible pour les TPU préemptifs et tpu-v5s-litepod-serving-reserved pour les TPU réservés.

TPU v2 et v3

Pour les TPU v2 et v3, le quota est exprimé en termes de TensorCores. Un appareil Cloud TPU unique est composé de quatre puces TPU et de huit TensorCores, chacun étant constitué de deux TensorCore par puce TPU. Les TPU v2 et v3 disposent de quotas distincts pour les appareils individuels et pour les pods TPU. Vous ne pouvez pas utiliser un quota de pods TPU v2 ou v3 pour les TPU v2-8 ou v3-8. Par exemple, si vous disposez d'un quota pour une tranche v3-32, vous ne pouvez pas l'utiliser pour créer quatre TPU v3-8.

Pour en savoir plus sur les puces TPU et les TensorCores, consultez la page Architecture du système TPU.

Types de quotas

Il existe des quotas distincts pour les ressources Cloud TPU réservées, à la demande et préemptives. Le tableau suivant compare les fonctionnalités de chaque type de quota.

Type de quota Description Valeur par défaut Procédure de demande Indicateurs pour la création de TPU
Réservées Quota de TPU réservés. Une réservation offre un haut niveau de garantie d'obtention de la capacité Cloud TPU. Les instances réservées sont protégées contre les ruptures de stock, mais peuvent faire l'objet d'interruptions. Vous devez disposer d'une remise sur engagement d'utilisation pour accéder aux ressources réservées. 0 Pour demander une réservation, remplissez le formulaire d'inscription à Cloud TPU. Utilisez l'option --reserved.
À la demande Quota pour les TPU qui ne sont pas réservés et qui ne seront pas préemptés. Vous pouvez demander des ressources Cloud TPU dans la limite de votre quota, mais leur disponibilité n'est pas garantie. v3-8 et v2-8: 16 TensorCores
Tous les autres: 0
Consultez la section Demander une augmentation de quota. Aucun indicateur nécessaire, sélectionné par défaut.
VM préemptives Quota de TPU préemptifs. Le service Cloud TPU peut arrêter ces TPU à tout moment si des ressources supplémentaires sont nécessaires pour les tâches dont la priorité est plus élevée. La disponibilité des ressources n'est pas garantie. Pour en savoir plus, consultez la page TPU préemptifs. v3-8 et v2-8: 48 TensorCores
Tous les autres: 0
Consultez la section Demander une augmentation de quota. Utilisez l'option --preemptible ou --best-effort pour une requête de ressource en file d'attente.

Afficher et demander un quota supplémentaire

Vous pouvez consulter le quota alloué pour votre projet Google Cloud sur la page Quotas de la console Google Cloud. Si vous avez besoin d'un quota Cloud TPU supplémentaire, vous pouvez en faire la demande sur la page "Quotas". Pour en savoir plus, consultez Demander une limite de quota plus élevée.