Iniciar manualmente um evento de manutenção de host
Nesta página, explicamos como iniciar manualmente um evento de manutenção de host nas VMs de TPU aceitas. Isso é útil para cargas de trabalho que podem ser afetadas por desempenho degradado ou inatividade e para as quais você precisa que a janela de manutenção comece em um horário específico.
Quando você inicia manualmente um evento de manutenção, ele começa imediatamente. Não é possível especificar uma data ou hora para o início do evento de manutenção. Se você não usar esse recurso, o evento de manutenção vai ocorrer no horário indicado na notificação de manutenção futura.
Para saber como iniciar manualmente uma manutenção para TPUs no GKE, consulte Gerenciar a interrupção de nós do GKE para GPUs e TPUs.
Limitações
Só é possível iniciar manualmente um evento de manutenção de host para VMs de TPU com as seguintes configurações:
- Qualquer VM de TPU v4 ou v5p
- VMs de TPU v5e ou v6e com a configuração de topologia
2x4(por exemplo,v6e-8ao usar o campo de tipo de acelerador na API Cloud TPU) ou maiores - Pools de nós de vários hosts v5e ou v6e do GKE com VMs de TPU
2x4ou maiores
Ao iniciar uma manutenção de host imediatamente para frações maiores, é possível que a fração fique indisponível por até algumas horas. Normalmente, um evento de manutenção de host faz com que a fração seja reprogramada o mais rápido possível para outro conjunto de hosts qualificados. No entanto, para solicitações maiores de eventos de manutenção de host, pode não haver capacidade suficiente para reprogramar imediatamente a fração, o que resulta em um tempo de espera maior.
Além disso, iniciar a manutenção na fração do Cloud TPU vai iniciar
a manutenção em todas as VMs de TPU. Se você realizar a manutenção diretamente em
uma das instâncias usando a API
Instâncias, todas as
instâncias na fração do Cloud TPU vão entrar em manutenção. Em vez disso, use
a API Cloud TPU queued-resources para especificar em quais nós a manutenção
deve ser realizada.
Iniciar manualmente um evento de manutenção de host
Use as notificações de manutenção para determinar quando iniciar manualmente um evento de manutenção em uma TPU.
Verificar as informações da notificação
É possível encontrar notificações sobre eventos de manutenção futuros usando a API Cloud TPU ou consultando o servidor de metadados na VM. Para mais informações, consulte Conferir notificações de manutenção.
É possível iniciar um evento de manutenção antes do tempo quando há uma notificação
de manutenção futura de host na TPU. Para iniciar o evento de manutenção
com antecedência, a notificação de manutenção futura de host precisa ter
canReschedule definido como true e maintenanceStatus definido como PENDING.
Iniciar o evento de manutenção
Para iniciar um evento de manutenção de host, use a API Cloud TPU com o
comando perform-maintenance:
gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \ --zone=ZONE
Quando a operação for concluída, os campos windowEndTime e windowStartTime
vão mudar para o horário em que você iniciou o evento de manutenção, e o
campo maintenanceStatus vai mudar para ONGOING. O evento de manutenção de host
começa logo depois.
Use o comando gcloud alpha compute tpus tpu-vm describe para conferir
o status do evento de manutenção:
gcloud alpha compute tpus tpu-vm describe TPU_NAME \ --zone=ZONE
A saída contém uma seção semelhante a esta:
upcomingMaintenance: canReschedule: true latestWindowStartTime: "2025-12-01T19:00:00Z" maintenanceStatus: ONGOING type: SCHEDULED windowEndTime: "2025-12-01T22:00:00Z" windowStartTime: "2025-12-01T19:00:00Z"
A manutenção é concluída quando o estado da VM de TPU é READY e a saída do
comando gcloud alpha compute tpus tpu-vm describe não contém mais um
campo de metadados upcomingMaintenance.
Em ambientes de várias frações, é possível iniciar manualmente um evento de manutenção de host em frações específicas usando o seguinte comando:
gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \ --zone=ZONE --node-names=NODE_NAMES
NODE_NAMES é uma lista separada por vírgulas de frações (nós) no recurso em fila
para as quais você quer iniciar um evento de manutenção de host. Por exemplo, se o recurso em fila
tiver nós chamados my-qr-0, my-qr-1 e my-qr-2, uma entrada válida para o
comando perform-maintenance será --node-names=my-qr-0,my-qr-1.