Planification de la collecte TPU pour les charges de travail d'inférence

Trillium (v6e) inclut une fonctionnalité appelée "planification de la collecte" qui vous permet de regrouper un ensemble de tranches TPU, mono-hôte ou multi-hôte, destinées à diffuser des répliques du même modèle. Cette fonctionnalité est disponible pour les configurations Cloud TPU et GKE.

Ce document explique comment utiliser la planification de la collecte avec l'API Cloud TPU. Pour en savoir plus sur l'utilisation de la planification de la collecte avec GKE, consultez la documentation GKE.

En créant une collection pour votre charge de travail d'inférence,Google Cloud limite et simplifie les interruptions des opérations des charges de travail d'inférence. Cela est utile pour les charges de travail d'inférence pour lesquelles une haute disponibilité est nécessaire. Google Cloud garantit une haute disponibilité pour que la collection puisse gérer le trafic entrant. Une partie des tranches d'une collection est toujours disponible pour gérer le trafic entrant.

Chaque tranche de TPU d'une collection aura le même type d'accélérateur et la même topologie.

La planification de la collecte ne s'applique qu'à la version 6e.

Créer une collection à partir de l'API Cloud TPU

Lorsque vous demandez une ressource en file d'attente à l'aide de l'API Cloud TPU, vous utilisez l'indicateur --workload-type = AVAILABILITY-OPTIMIZED pour créer une collection. Cet indicateur indique à l'infrastructure Cloud TPU qu'elle est destinée à être utilisée pour les charges de travail axées sur la disponibilité.

La commande suivante provisionne une collection à l'aide de l'API Cloud TPU:

gcloud alpha compute tpus queued-resources create serving-QR \
   --project=$PROJECT_ID \
   --zone=${ZONE} \
   --accelerator-type ${ACCELERATOR_TYPE} \
   --node-count ${NODE_COUNT} \
   --node-prefix "servingTPU" \
   --workload-type = AVAILABILITY-OPTIMIZED

L'indicateur --node-count spécifie le nombre de tranches que vous souhaitez dans votre ressource mise en file d'attente. Une collection de tranches TPU est alors créée.

Facultatif: L'indicateur --node-prefix spécifie un préfixe pour les noms des tranches.