Iniciar manualmente un evento de mantenimiento de host

En esta página se explica cómo iniciar manualmente un evento de mantenimiento del host en las VMs de TPU compatibles. Esto es útil para cargas de trabajo que pueden verse afectadas por un rendimiento degradado o por un tiempo de inactividad, y para las que necesitas que la ventana de mantenimiento empiece a una hora específica.

Cuando inicias manualmente un evento de mantenimiento, este empieza inmediatamente. No puedes especificar una fecha ni una hora para que empiece el evento de mantenimiento. Si no usas esta función, el evento de mantenimiento se producirá a la hora indicada en la notificación de mantenimiento programado.

Para obtener información sobre cómo iniciar manualmente el mantenimiento de las TPUs en GKE, consulta el artículo Gestionar las interrupciones de nodos de GKE en GPUs y TPUs.

Limitaciones

Solo puedes iniciar manualmente un evento de mantenimiento del host para las VMs TPU v6e con las siguientes configuraciones:

  • VMs de TPU v6e con la configuración de topología 2x4 (v6e-8 si se usa el campo de tipo de acelerador en la API Cloud TPU) o superior
  • Grupos de nodos de varios hosts de GKE con VMs de TPU v6e de 2x4 o más

Si inicias el mantenimiento de un host inmediatamente en el caso de las particiones más grandes, es posible que las particiones no estén disponibles durante unas horas. Normalmente, un evento de mantenimiento del host provoca que la porción se reprograme lo antes posible en otro conjunto de hosts aptos, pero en el caso de solicitudes de eventos de mantenimiento del host más grandes, es posible que no haya capacidad suficiente para reprogramar la porción de inmediato, lo que provoca un tiempo de espera más largo.

Además, si inicias el mantenimiento en el segmento de TPU de Cloud, se iniciará el mantenimiento de todas las máquinas virtuales de TPU subyacentes. Si realizas el mantenimiento directamente en una de las instancias mediante la API Instances, todas las instancias del segmento de TPU de Cloud se pondrán en mantenimiento. En su lugar, usa la API Cloud TPU para especificar en qué nodos se debe realizar el mantenimiento.queued-resources

Iniciar manualmente un evento de mantenimiento de host

Puedes usar las notificaciones de mantenimiento para determinar cuándo puedes iniciar manualmente un evento de mantenimiento en una TPU.

Consultar la información de la notificación

Puedes encontrar notificaciones de los próximos eventos de mantenimiento mediante la API Cloud TPU o consultando el servidor de metadatos de tu VM. Para obtener más información, consulta Ver notificaciones de mantenimiento.

Puedes iniciar un evento de mantenimiento antes de tiempo cuando haya una notificación de mantenimiento del host en la TPU. Para iniciar el evento de mantenimiento antes de tiempo, la notificación de mantenimiento del host debe tener el valor canReschedule en true y el valor maintenanceStatus en PENDING.

Iniciar el evento de mantenimiento

Para iniciar un evento de mantenimiento del host, puedes usar la API Cloud TPU con el comando perform-maintenance:

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

Cuando se complete la operación, los campos windowEndTime y windowStartTime cambiarán a la hora en la que iniciaste el evento de mantenimiento, y el campo maintenanceStatus cambiará a ONGOING. El evento de mantenimiento del host empezará poco después.

Usa el comando gcloud alpha compute tpus tpu-vm describe para ver el estado del evento de mantenimiento:

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

La salida contiene una sección similar a la siguiente:

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

El mantenimiento se completa cuando el estado de la VM de TPU es READY y el resultado del comando gcloud alpha compute tpus tpu-vm describe ya no contiene el campo de metadatos upcomingMaintenance.

En los entornos de Multislice, puede iniciar manualmente un evento de mantenimiento de host en segmentos específicos mediante el siguiente comando:

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES es una lista de segmentos (nodos) separados por comas del recurso en cola para los que quieres iniciar un evento de mantenimiento del host. Por ejemplo, si el recurso en cola tiene nodos llamados my-qr-0, my-qr-1 y my-qr-2, una entrada válida para el comando perform-maintenance sería --node-names=my-qr-0,my-qr-1.

Siguientes pasos