Quotas

Ce document répertorie les quotas qui s'appliquent à Cloud TPU. Pour en savoir plus sur les tarifs de Cloud TPU, consultez la page Tarifs de Cloud TPU.

Un quota limite la quantité d'une ressource Google Cloud partagée particulière que votre projet Google Cloud peut utiliser, y compris les composants matériels, logiciels et réseau. Par conséquent, les quotas font partie d'un système qui effectue les opérations suivantes :

  • Surveille votre utilisation ou votre consommation des produits et services Google Cloud
  • Limite la consommation de ces ressources pour des raisons telles que l'équité et la réduction des pics d'utilisation.
  • Gère des configurations qui appliquent automatiquement des restrictions recommandées.
  • Fournit un moyen de demander ou d'effectuer des modifications de quota.

Dans la plupart des cas, lorsqu'un quota est dépassé, le système bloque immédiatement l'accès à la ressource Google concernée et la tâche que vous essayez d'effectuer échoue. Dans la plupart des cas, les quotas s'appliquent à chaque projet Google Cloud. Ils sont partagés entre toutes les applications et adresses IP qui utilisent ce projet.

Types de quotas

Si vous utilisez GKE, consultez la section Assurer un quota suffisant pour en savoir plus sur les quotas GKE. Lorsque vous utilisez le quota de l'API Cloud TPU, il existe des quotas distincts pour les ressources Cloud TPU réservées, à la demande et préemptives (y compris les VM Spot). Le tableau suivant compare chaque type de quota.

Type de quota Description Valeur par défaut Procédure de demande Options pour la création de TPU
Réservées Nombre de ressources Cloud TPU auxquelles vous avez garanti l'accès. Vous devez disposer d'un accord de réservation pour accéder aux ressources réservées. Les ressources réservées sont protégées des ruptures de stock, mais peuvent faire l'objet d'interruptions. 0 Pour demander un quota réservé, contactez votre responsable de compte Google Cloud. Utilisez l'option --reserved.
À la demande Nombre de ressources à la demande auxquelles vous avez accès. Les ressources à la demande ne seront pas préemptées, mais le quota à la demande ne garantit pas que vous disposerez de suffisamment de ressources Cloud TPU disponibles pour répondre à votre requête. v3-8 et v2-8: 16 TensorCores
Toutes les autres: 0
Consultez la section Demander une augmentation de quota. Aucun indicateur nécessaire (sélectionné par défaut).
VM préemptive Nombre de ressources Cloud TPU préemptives auxquelles vous avez accès. Ce quota s'applique à la fois aux TPU préemptifs et aux VM TPU Spot. Les ressources préemptives peuvent être préemptées pour libérer de la place pour les tâches de priorité plus élevée. Le quota préemptif ne garantit pas que vous aurez suffisamment de ressources Cloud TPU disponibles pour répondre à votre requête. Pour en savoir plus, consultez les pages TPU préemptifs et Gérer des VM TPU Spot. v3-8 et v2-8: 48 TensorCores
Toutes les autres: 0
Consultez la section Demander une augmentation de quota.

Allocation de quotas

Le quota Cloud TPU est attribué différemment en fonction de la version de TPU que vous utilisez.

TPU v4 et v5p

Pour les TPU v4 et v5p, les quotas peuvent être spécifiés en termes de puces TPU ou de TensorCores. Vous pouvez utiliser votre quota dans n'importe quelle combinaison de tranches. Par exemple, si vous disposez d'un quota pour une tranche v4-32, vous pouvez utiliser ce quota pour créer quatre tranches v4-8.

TPU v5e (entraînement et inférence)

La version v5e est compatible avec l'entraînement et l'inférence. Les tranches v5e utilisées pour l'inférence incluent les TPU dotés des types d'accélérateurs v5litepod-1, v5litepod-4 ou v5litepod-8. Vous avez besoin d'un quota de tpu-v5s-litepod-serving pour les Cloud TPU à la demande, de tpu-v5s-litepod-serving-preemptible pour les VM TPU Spot et les Cloud TPU préemptifs, et de tpu-v5s-litepod-serving-reserved pour les Cloud TPU réservés.

TPU v2 et v3

Les quotas de TPU v2 et v3 sont spécifiés en termes de TensorCores. Un appareil TPU unique contient quatre puces TPU et huit TensorCores (deux Tensors par puce). Les TPU v2 et v3 ont des quotas distincts pour les appareils TPU uniques et les pods TPU. Vous ne pouvez pas utiliser le quota de pods TPU v2 ou v3 pour les TPU v2-8 ou v3-8. Par exemple, si vous disposez d'un quota pour une tranche v3-32, vous ne pouvez pas l'utiliser pour créer quatre TPU v3-8.

Pour en savoir plus sur les puces TPU et les TensorCores, consultez la page Architecture du système TPU.

Afficher et demander un quota supplémentaire

Vous pouvez afficher le quota alloué à votre projet Google Cloud sur la page Quotas de la console Google Cloud. Si vous avez besoin d'un quota Cloud TPU supplémentaire, vous pouvez effectuer une demande sur la page "Quotas". Pour en savoir plus, consultez la section Demander une limite de quota plus élevée.