Inicie manualmente um evento de manutenção do anfitrião
Esta página explica como iniciar manualmente um evento de manutenção do anfitrião em VMs de TPU suportadas. Isto é útil para cargas de trabalho que podem ser afetadas por um desempenho degradado ou tempo de inatividade, para as quais precisa que a janela de manutenção comece a uma hora específica.
Quando inicia manualmente um evento de manutenção, o evento de manutenção do anfitrião é iniciado imediatamente. Não pode especificar uma data nem uma hora para o início do evento de manutenção. Se não usar esta funcionalidade, o evento de manutenção ocorre à hora indicada na notificação de manutenção futura.
Para informações sobre como iniciar manualmente uma manutenção para TPUs no GKE, consulte o artigo Faça a gestão da interrupção de nós do GKE para GPUs e TPUs.
Limitações
Só pode iniciar manualmente um evento de manutenção do anfitrião para VMs de TPU v6e com as seguintes configurações:
- VMs de TPU v6e com a configuração de topologia
2x4
(v6e-8
se usar o campo de tipo de acelerador na API Cloud TPU) ou superior - Pools de nós multi-anfitrião do GKE com VMs TPU v6e que sejam
2x4
ou maiores
Iniciar imediatamente uma manutenção do anfitrião para fatias maiores pode resultar na indisponibilidade de fatias durante algumas horas. Normalmente, um evento de manutenção do anfitrião resulta na reprogramação da fatia assim que possível para outro conjunto de anfitriões elegíveis, mas, para pedidos de eventos de manutenção do anfitrião maiores, pode não haver capacidade suficiente para reprogramar imediatamente a fatia, o que leva a um tempo de espera mais longo.
Além disso, iniciar a manutenção na fatia de TPU do Cloud inicia a manutenção para todas as VMs de TPU subjacentes. Se realizar a manutenção diretamente numa das instâncias através da API Instances, todas as instâncias na fatia de TPU do Google Cloud entram em manutenção. Em alternativa, use a API Cloud TPU para especificar em que nós deve ser realizada a manutenção.queued-resources
Inicie manualmente um evento de manutenção do anfitrião
Pode usar as notificações de manutenção para determinar quando pode iniciar manualmente um evento de manutenção numa TPU.
Verifique as informações da notificação
Pode encontrar notificações de eventos de manutenção futuros através da API Cloud TPU ou consultando o servidor de metadados na sua VM. Para mais informações, consulte Veja as notificações de manutenção.
Pode iniciar um evento de manutenção antecipadamente quando existir uma notificação de manutenção do anfitrião pendente na TPU. Para iniciar o evento de manutenção
antes do tempo, a notificação de manutenção do anfitrião pendente tem de ter
canReschedule
definido como true
e maintenanceStatus
definido como PENDING
.
Inicie o evento de manutenção
Para iniciar um evento de manutenção do anfitrião, pode usar a API Cloud TPU com o comando perform-maintenance
:
gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \ --zone=ZONE
Quando a operação estiver concluída, os campos windowEndTime
e windowStartTime
são alterados para a hora em que iniciou o evento de manutenção, e o campo maintenanceStatus
é alterado para ONGOING
. O evento de manutenção do anfitrião
começa pouco depois.
Use o comando gcloud alpha compute tpus tpu-vm describe
para ver o estado do evento de manutenção:
gcloud alpha compute tpus tpu-vm describe TPU_NAME \ --zone=ZONE
O resultado contém uma secção semelhante à seguinte:
upcomingMaintenance: canReschedule: true latestWindowStartTime: "2025-12-01T19:00:00Z" maintenanceStatus: ONGOING type: SCHEDULED windowEndTime: "2025-12-01T22:00:00Z" windowStartTime: "2025-12-01T19:00:00Z"
A manutenção está concluída quando o estado da VM da TPU é READY
e o resultado do comando gcloud alpha compute tpus tpu-vm describe
já não contém um campo de metadados upcomingMaintenance
.
Para ambientes de várias fatias, pode iniciar manualmente um evento de manutenção do anfitrião em fatias específicas através do seguinte comando:
gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \ --zone=ZONE --node-names=NODE_NAMES
NODE_NAMES
é uma lista separada por vírgulas de fatias (nós) no recurso em fila,
para as quais quer iniciar um evento de manutenção do anfitrião. Por exemplo, se o recurso em fila tiver nós com os nomes my-qr-0, my-qr-1
e my-qr-2
, uma entrada válida para o comando perform-maintenance
seria --node-names=my-qr-0,my-qr-1
.