Iniciar manualmente um evento de manutenção de host

Nesta página, explicamos como iniciar manualmente um evento de manutenção de host nas VMs de TPU aceitas. Isso é útil para cargas de trabalho que podem ser afetadas por desempenho degradado ou inatividade e para as quais você precisa que a janela de manutenção comece em um horário específico.

Quando você inicia manualmente um evento de manutenção, ele começa imediatamente. Não é possível especificar uma data ou hora para o início do evento de manutenção. Se você não usar esse recurso, o evento de manutenção vai ocorrer no horário indicado na notificação de manutenção futura.

Para saber como iniciar manualmente uma manutenção para TPUs no GKE, consulte Gerenciar a interrupção de nós do GKE para GPUs e TPUs.

Limitações

Só é possível iniciar manualmente um evento de manutenção de host para VMs de TPU com as seguintes configurações:

  • Qualquer VM de TPU v4 ou v5p
  • VMs de TPU v5e ou v6e com a configuração de topologia 2x4 (por exemplo, v6e-8 ao usar o campo de tipo de acelerador na API Cloud TPU) ou maiores
  • Pools de nós de vários hosts v5e ou v6e do GKE com VMs de TPU 2x4 ou maiores

Ao iniciar uma manutenção de host imediatamente para frações maiores, é possível que a fração fique indisponível por até algumas horas. Normalmente, um evento de manutenção de host faz com que a fração seja reprogramada o mais rápido possível para outro conjunto de hosts qualificados. No entanto, para solicitações maiores de eventos de manutenção de host, pode não haver capacidade suficiente para reprogramar imediatamente a fração, o que resulta em um tempo de espera maior.

Além disso, iniciar a manutenção na fração do Cloud TPU vai iniciar a manutenção em todas as VMs de TPU. Se você realizar a manutenção diretamente em uma das instâncias usando a API Instâncias, todas as instâncias na fração do Cloud TPU vão entrar em manutenção. Em vez disso, use a API Cloud TPU queued-resources para especificar em quais nós a manutenção deve ser realizada.

Iniciar manualmente um evento de manutenção de host

Use as notificações de manutenção para determinar quando iniciar manualmente um evento de manutenção em uma TPU.

Verificar as informações da notificação

É possível encontrar notificações sobre eventos de manutenção futuros usando a API Cloud TPU ou consultando o servidor de metadados na VM. Para mais informações, consulte Conferir notificações de manutenção.

É possível iniciar um evento de manutenção antes do tempo quando há uma notificação de manutenção futura de host na TPU. Para iniciar o evento de manutenção com antecedência, a notificação de manutenção futura de host precisa ter canReschedule definido como true e maintenanceStatus definido como PENDING.

Iniciar o evento de manutenção

Para iniciar um evento de manutenção de host, use a API Cloud TPU com o comando perform-maintenance:

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

Quando a operação for concluída, os campos windowEndTime e windowStartTime vão mudar para o horário em que você iniciou o evento de manutenção, e o campo maintenanceStatus vai mudar para ONGOING. O evento de manutenção de host começa logo depois.

Use o comando gcloud alpha compute tpus tpu-vm describe para conferir o status do evento de manutenção:

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

A saída contém uma seção semelhante a esta:

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

A manutenção é concluída quando o estado da VM de TPU é READY e a saída do comando gcloud alpha compute tpus tpu-vm describe não contém mais um campo de metadados upcomingMaintenance.

Em ambientes de várias frações, é possível iniciar manualmente um evento de manutenção de host em frações específicas usando o seguinte comando:

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES é uma lista separada por vírgulas de frações (nós) no recurso em fila para as quais você quer iniciar um evento de manutenção de host. Por exemplo, se o recurso em fila tiver nós chamados my-qr-0, my-qr-1 e my-qr-2, uma entrada válida para o comando perform-maintenance será --node-names=my-qr-0,my-qr-1.

A seguir