Cómo iniciar un evento de mantenimiento del host de forma manual
En esta página, se explica cómo iniciar de forma manual un evento de mantenimiento del host en las VMs de TPU compatibles. Esto es útil para cargas de trabajo que podrían verse afectadas por un rendimiento degradado o un tiempo de inactividad, para lo que necesitas que el período de mantenimiento comience en un momento específico.
Cuando inicias un evento de mantenimiento de forma manual, el evento de mantenimiento del host se inicia de inmediato. No puedes especificar una fecha ni una hora para que comience el evento de mantenimiento. Si no usas esta función, el evento de mantenimiento se produce a la hora indicada en la notificación del próximo mantenimiento.
Para obtener información sobre cómo iniciar manualmente un mantenimiento de TPU en GKE, consulta Administra la interrupción de nodos de GKE para GPUs y TPUs.
Limitaciones
Solo puedes iniciar de forma manual un evento de mantenimiento del host para las VMs de TPU v6e con las siguientes configuraciones:
- VMs de TPU v6e con la configuración de topología
2x4
(v6e-8
si se usa el campo de tipo de acelerador en la API de Cloud TPU) o superior - Grupos de nodos de varios hosts de GKE con VMs de TPU v6e que son
2x4
o más grandes
Iniciar un mantenimiento de host de inmediato para porciones más grandes puede provocar que la porción no esté disponible durante algunas horas. Por lo general, un evento de mantenimiento del host hace que la porción se reprograme lo antes posible a otro conjunto de hosts aptos, pero para solicitudes de eventos de mantenimiento del host más grandes, es posible que no haya suficiente capacidad para reprogramar la porción de inmediato, lo que genera un tiempo de espera más largo.
Además, iniciar el mantenimiento en la porción de Cloud TPU iniciará el mantenimiento de todas las VMs de TPU subyacentes. Si realizas el mantenimiento directamente en una de las instancias con la API de instancias, todas las instancias dentro de la porción de Cloud TPU entrarán en mantenimiento. En su lugar, usa la API de Cloud TPU de queued-resources
para especificar en qué nodos se debe realizar el mantenimiento.
Cómo iniciar un evento de mantenimiento del host de forma manual
Puedes usar las notificaciones de mantenimiento para determinar cuándo puedes iniciar un evento de mantenimiento de forma manual en una TPU.
Verifica la información de la notificación
Puedes encontrar notificaciones sobre los próximos eventos de mantenimiento con la API de Cloud TPU o consultando el servidor de metadatos en tu VM. Para obtener más información, consulta Cómo ver las notificaciones de mantenimiento.
Puedes iniciar un evento de mantenimiento con anticipación cuando haya una notificación de mantenimiento del host próxima en la TPU. Para iniciar el evento de mantenimiento con anticipación, la próxima notificación de mantenimiento del host debe tener canReschedule
establecido en true
y maintenanceStatus
establecido en PENDING
.
Inicia el evento de mantenimiento
Para iniciar un evento de mantenimiento del host, puedes usar la API de Cloud TPU con el comando perform-maintenance
:
gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \ --zone=ZONE
Cuando se completa la operación, los campos windowEndTime
y windowStartTime
cambian a la hora en la que iniciaste el evento de mantenimiento, y el campo maintenanceStatus
cambia a ONGOING
. El evento de mantenimiento del host comienza poco después.
Usa el comando gcloud alpha compute tpus tpu-vm describe
para ver
el estado del evento de mantenimiento:
gcloud alpha compute tpus tpu-vm describe TPU_NAME \ --zone=ZONE
El resultado contiene una sección similar a la siguiente:
upcomingMaintenance: canReschedule: true latestWindowStartTime: "2025-12-01T19:00:00Z" maintenanceStatus: ONGOING type: SCHEDULED windowEndTime: "2025-12-01T22:00:00Z" windowStartTime: "2025-12-01T19:00:00Z"
El mantenimiento se completa cuando el estado de la VM de TPU es READY
y el resultado del comando gcloud alpha compute tpus tpu-vm describe
ya no contiene un campo de metadatos upcomingMaintenance
.
En el caso de los entornos de varias porciones, puedes iniciar manualmente un evento de mantenimiento del host en porciones específicas con el siguiente comando:
gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \ --zone=ZONE --node-names=NODE_NAMES
NODE_NAMES
es una lista de slices (nodos) separados por comas en el recurso en cola para el que deseas iniciar un evento de mantenimiento del host. Por ejemplo, si el recurso en fila tiene nodos llamados my-qr-0, my-qr-1
y my-qr-2
, una entrada válida para el comando perform-maintenance
sería --node-names=my-qr-0,my-qr-1
.