Inicie manualmente um evento de manutenção do anfitrião

Esta página explica como iniciar manualmente um evento de manutenção do anfitrião em VMs de TPU suportadas. Isto é útil para cargas de trabalho que podem ser afetadas por um desempenho degradado ou tempo de inatividade, para as quais precisa que a janela de manutenção comece a uma hora específica.

Quando inicia manualmente um evento de manutenção, o evento de manutenção do anfitrião é iniciado imediatamente. Não pode especificar uma data nem uma hora para o início do evento de manutenção. Se não usar esta funcionalidade, o evento de manutenção ocorre à hora indicada na notificação de manutenção futura.

Para informações sobre como iniciar manualmente uma manutenção para TPUs no GKE, consulte o artigo Faça a gestão da interrupção de nós do GKE para GPUs e TPUs.

Limitações

Só pode iniciar manualmente um evento de manutenção do anfitrião para VMs de TPU v6e com as seguintes configurações:

  • VMs de TPU v6e com a configuração de topologia 2x4 (v6e-8 se usar o campo de tipo de acelerador na API Cloud TPU) ou superior
  • Pools de nós multi-anfitrião do GKE com VMs TPU v6e que sejam 2x4 ou maiores

Iniciar imediatamente uma manutenção do anfitrião para fatias maiores pode resultar na indisponibilidade de fatias durante algumas horas. Normalmente, um evento de manutenção do anfitrião resulta na reprogramação da fatia assim que possível para outro conjunto de anfitriões elegíveis, mas, para pedidos de eventos de manutenção do anfitrião maiores, pode não haver capacidade suficiente para reprogramar imediatamente a fatia, o que leva a um tempo de espera mais longo.

Além disso, iniciar a manutenção na fatia de TPU do Cloud inicia a manutenção para todas as VMs de TPU subjacentes. Se realizar a manutenção diretamente numa das instâncias através da API Instances, todas as instâncias na fatia de TPU do Google Cloud entram em manutenção. Em alternativa, use a API Cloud TPU para especificar em que nós deve ser realizada a manutenção.queued-resources

Inicie manualmente um evento de manutenção do anfitrião

Pode usar as notificações de manutenção para determinar quando pode iniciar manualmente um evento de manutenção numa TPU.

Verifique as informações da notificação

Pode encontrar notificações de eventos de manutenção futuros através da API Cloud TPU ou consultando o servidor de metadados na sua VM. Para mais informações, consulte Veja as notificações de manutenção.

Pode iniciar um evento de manutenção antecipadamente quando existir uma notificação de manutenção do anfitrião pendente na TPU. Para iniciar o evento de manutenção antes do tempo, a notificação de manutenção do anfitrião pendente tem de ter canReschedule definido como true e maintenanceStatus definido como PENDING.

Inicie o evento de manutenção

Para iniciar um evento de manutenção do anfitrião, pode usar a API Cloud TPU com o comando perform-maintenance:

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

Quando a operação estiver concluída, os campos windowEndTime e windowStartTime são alterados para a hora em que iniciou o evento de manutenção, e o campo maintenanceStatus é alterado para ONGOING. O evento de manutenção do anfitrião começa pouco depois.

Use o comando gcloud alpha compute tpus tpu-vm describe para ver o estado do evento de manutenção:

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

O resultado contém uma secção semelhante à seguinte:

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

A manutenção está concluída quando o estado da VM da TPU é READY e o resultado do comando gcloud alpha compute tpus tpu-vm describe já não contém um campo de metadados upcomingMaintenance.

Para ambientes de várias fatias, pode iniciar manualmente um evento de manutenção do anfitrião em fatias específicas através do seguinte comando:

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES é uma lista separada por vírgulas de fatias (nós) no recurso em fila, para as quais quer iniciar um evento de manutenção do anfitrião. Por exemplo, se o recurso em fila tiver nós com os nomes my-qr-0, my-qr-1 e my-qr-2, uma entrada válida para o comando perform-maintenance seria --node-names=my-qr-0,my-qr-1.

O que se segue?