Démarrer manuellement un événement de maintenance de l'hôte

Cette page explique comment démarrer manuellement un événement de maintenance de l'hôte sur les VM TPU compatibles. Cela s'avère utile pour les charges de travail susceptibles d'être affectées par des performances dégradées ou des temps d'arrêt, pour lesquels vous devez que l'intervalle de maintenance commence à une heure spécifique.

Lorsque vous démarrez manuellement un événement de maintenance, l'événement de maintenance de l'hôte démarre immédiatement. Vous ne pouvez pas spécifier de date ni d'heure de début de l'événement de maintenance. Si vous n'utilisez pas cette fonctionnalité, l'événement de maintenance se produit à l'heure indiquée dans la notification de maintenance à venir.

Pour savoir comment démarrer manuellement une maintenance pour les TPU dans GKE, consultez la section Gérer les interruptions des nœuds GKE pour les GPU et les TPU.

Limites

Vous ne pouvez démarrer manuellement un événement de maintenance de l'hôte pour les VM TPU v6e que avec les configurations suivantes:

  • VM TPU v6e avec la configuration de topologie 2x4 (v6e-8 si vous utilisez le champ de type d'accélérateur dans l'API Cloud TPU) ou version ultérieure
  • Pools de nœuds multi-hôtes GKE avec des VM TPU v6e de 2x4 ou plus

Démarrer immédiatement une maintenance d'hôte pour des tranches plus importantes peut entraîner l'indisponibilité de la tranche pendant plusieurs heures. Normalement, un événement de maintenance de l'hôte entraîne le replannifiement de la tranche dès que possible sur un autre ensemble d'hôtes éligibles. Toutefois, pour les requêtes d'événements de maintenance de l'hôte plus importantes, il est possible qu'il n'y ait pas suffisamment de capacité pour replanifier immédiatement la tranche, ce qui entraîne un temps d'attente plus long.

De plus, l'activation de la maintenance de la tranche Cloud TPU démarre la maintenance de toutes les VM TPU sous-jacentes. Si vous effectuez une maintenance directement sur l'une des instances à l'aide de l'API Instances, toutes les instances de la tranche Cloud TPU seront mises en maintenance. Utilisez plutôt l'API Cloud TPU queued-resources pour spécifier les nœuds pour lesquels une maintenance doit être effectuée.

Démarrer manuellement un événement de maintenance de l'hôte

Vous pouvez utiliser les notifications de maintenance pour déterminer quand vous pouvez démarrer manuellement un événement de maintenance sur un TPU.

Consulter les informations de la notification

Vous pouvez rechercher des notifications pour les événements de maintenance à venir à l'aide de l'API Cloud TPU ou en interrogeant le serveur de métadonnées de votre VM. Pour en savoir plus, consultez Afficher les notifications de maintenance.

Vous pouvez démarrer un événement de maintenance à l'avance lorsqu'une notification de maintenance de l'hôte à venir est présente sur le TPU. Pour démarrer l'événement de maintenance à l'avance, la notification de maintenance de l'hôte à venir doit définir canReschedule sur true et maintenanceStatus sur PENDING.

Démarrer l'événement de maintenance

Pour démarrer un événement de maintenance de l'hôte, vous pouvez utiliser l'API Cloud TPU avec la commande perform-maintenance:

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

Une fois l'opération terminée, les champs windowEndTime et windowStartTime changent pour indiquer l'heure à laquelle vous avez lancé l'événement de maintenance, et le champ maintenanceStatus devient ONGOING. L'événement de maintenance de l'hôte commence peu de temps après.

Utilisez la commande gcloud alpha compute tpus tpu-vm describe pour afficher l'état de l'événement de maintenance:

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

Le résultat contient une section semblable à celle-ci :

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

La maintenance est terminée lorsque l'état de la VM TPU est READY et que la sortie de la commande gcloud alpha compute tpus tpu-vm describe ne contient plus de champ de métadonnées upcomingMaintenance.

Pour les environnements multislice, vous pouvez démarrer manuellement un événement de maintenance de l'hôte sur des tranches spécifiques à l'aide de la commande suivante:

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES est une liste de tranches (nœuds) de la ressource mise en file d'attente, pour laquelle vous souhaitez démarrer un événement de maintenance de l'hôte, séparés par une virgule. Par exemple, si la ressource mise en file d'attente comporte des nœuds nommés my-qr-0, my-qr-1 et my-qr-2, une entrée valide pour la commande perform-maintenance serait --node-names=my-qr-0,my-qr-1.

Étape suivante