Iniciar manualmente um evento de manutenção do host
Nesta página, explicamos como iniciar manualmente um evento de manutenção do host em VMs TPU com suporte. Isso é útil para cargas de trabalho que podem ser afetadas por desempenho degradado ou inatividade, para as quais você precisa que a janela de manutenção comece em um horário específico.
Quando você inicia um evento de manutenção manualmente, o evento de manutenção do host é iniciado imediatamente. Não é possível especificar uma data ou hora para o início do evento de manutenção. Se você não usar esse recurso, o evento de manutenção ocorrerá no horário indicado na notificação de manutenção futura.
Para informações sobre como iniciar manualmente uma manutenção de TPUs no GKE, consulte Gerenciar a interrupção de nós do GKE para GPUs e TPUs.
Limitações
Só é possível iniciar manualmente um evento de manutenção do host para VMs TPU v6e com as seguintes configurações:
- VMs da TPU v6e com a configuração de topologia
2x4
(v6e-8
se usando o campo de tipo de acelerador na API Cloud TPU) ou maior - Pools de nós de vários hosts do GKE com VMs da TPU v6e de
2x4
ou mais
O início imediato da manutenção do host para fatias maiores pode resultar na indisponibilidade da fatia por até algumas horas. Normalmente, um evento de manutenção do host resulta na reprogramação do segmento o mais rápido possível para outro conjunto qualificado de hosts. No entanto, para solicitações de eventos de manutenção do host maiores, talvez não haja capacidade suficiente para reprogramar o segmento imediatamente, o que leva a um tempo de espera mais longo.
Além disso, iniciar a manutenção na fatia do Cloud TPU vai iniciar
a manutenção de todas as VMs da TPU. Se você realizar a manutenção diretamente em
uma das instâncias usando a API
Instances, todas as
instâncias na fatia do Cloud TPU vão entrar em manutenção. Em vez disso, use a API Cloud TPU queued-resources
para especificar quais nós precisam de manutenção.
Iniciar manualmente um evento de manutenção do host
É possível usar as notificações de manutenção para determinar quando você pode iniciar manualmente um evento de manutenção em uma TPU.
Verificar as informações da notificação
É possível encontrar notificações sobre eventos de manutenção futuros usando a API Cloud TPU ou consultando o servidor de metadados na VM. Para mais informações, consulte Conferir notificações de manutenção.
É possível iniciar um evento de manutenção com antecedência quando houver uma notificação de manutenção do host
no TPU. Para iniciar o evento
de manutenção com antecedência, a próxima notificação de manutenção do host precisa ter
canReschedule
definido como true
e maintenanceStatus
definido como PENDING
.
Iniciar o evento de manutenção
Para iniciar um evento de manutenção do host, use a API Cloud TPU com o comando perform-maintenance
:
gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \ --zone=ZONE
Quando a operação for concluída, os campos windowEndTime
e windowStartTime
serão alterados para o horário em que você iniciou o evento de manutenção, e o
campo maintenanceStatus
será alterado para ONGOING
. O evento de manutenção do host
começa logo depois.
Use o comando gcloud alpha compute tpus tpu-vm describe
para conferir
o status do evento de manutenção:
gcloud alpha compute tpus tpu-vm describe TPU_NAME \ --zone=ZONE
A saída contém uma seção semelhante a esta:
upcomingMaintenance: canReschedule: true latestWindowStartTime: "2025-12-01T19:00:00Z" maintenanceStatus: ONGOING type: SCHEDULED windowEndTime: "2025-12-01T22:00:00Z" windowStartTime: "2025-12-01T19:00:00Z"
A manutenção é concluída quando o estado da VM do TPU é READY
e a saída do comando gcloud alpha compute tpus tpu-vm describe
não contém mais um campo de metadados upcomingMaintenance
.
Para ambientes com várias fatias, é possível iniciar manualmente um evento de manutenção do host em fatias específicas usando o seguinte comando:
gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \ --zone=ZONE --node-names=NODE_NAMES
NODE_NAMES
é uma lista separada por vírgulas de fatias (nós) no recurso em fila,
para o qual você quer iniciar um evento de manutenção do host. Por exemplo, se o recurso
em fila tiver nós chamados my-qr-0, my-qr-1
e my-qr-2
, uma entrada válida para o
comando perform-maintenance
será --node-names=my-qr-0,my-qr-1
.