Planification de la collecte TPU pour les charges de travail d'inférence
Trillium (v6e) inclut une fonctionnalité appelée "planification de la collecte" qui vous permet de regrouper un ensemble de tranches TPU, mono-hôte ou multi-hôte, destinées à diffuser des répliques du même modèle. Cette fonctionnalité est disponible pour les configurations Cloud TPU et GKE.
Ce document explique comment utiliser la planification de la collecte avec l'API Cloud TPU. Pour en savoir plus sur l'utilisation de la planification de la collecte avec GKE, consultez la documentation GKE.
En créant une collection pour votre charge de travail d'inférence,Google Cloud limite et simplifie les interruptions des opérations des charges de travail d'inférence. Cela est utile pour les charges de travail d'inférence pour lesquelles une haute disponibilité est nécessaire. Google Cloud garantit une haute disponibilité pour que la collection puisse gérer le trafic entrant. Une partie des tranches d'une collection est toujours disponible pour gérer le trafic entrant.
Chaque tranche de TPU d'une collection aura le même type d'accélérateur et la même topologie.
La planification de la collecte ne s'applique qu'à la version 6e.
Créer une collection à partir de l'API Cloud TPU
Lorsque vous demandez une ressource en file d'attente à l'aide de l'API Cloud TPU, vous utilisez l'indicateur --workload-type = AVAILABILITY-OPTIMIZED
pour créer une collection. Cet indicateur indique à l'infrastructure Cloud TPU qu'elle est destinée à être utilisée pour les charges de travail axées sur la disponibilité.
La commande suivante provisionne une collection à l'aide de l'API Cloud TPU:
gcloud alpha compute tpus queued-resources create serving-QR \ --project=$PROJECT_ID \ --zone=${ZONE} \ --accelerator-type ${ACCELERATOR_TYPE} \ --node-count ${NODE_COUNT} \ --node-prefix "servingTPU" \ --workload-type = AVAILABILITY-OPTIMIZED
L'indicateur --node-count
spécifie le nombre de tranches que vous souhaitez dans votre ressource mise en file d'attente. Une collection de tranches TPU est alors créée.
Facultatif: L'indicateur --node-prefix
spécifie un préfixe pour les noms des tranches.