Como lidar com eventos de manutenção do host da GPU

As instâncias de GPU não podem ser migradas em tempo real. Você precisa defini-las para que sejam encerradas durante eventos de manutenção do host. Se necessário, configure as instâncias encerradas para que elas reiniciem automaticamente após a conclusão do evento de manutenção. Os eventos de manutenção do host no Compute Engine têm uma frequência de uma vez a cada duas semanas, mas podem ser executados com mais frequência.

Para minimizar as interrupções das cargas de trabalho durante um evento de manutenção, monitore a programação de manutenção da sua instância e prepare suas cargas de trabalho para a transição durante a reinicialização do sistema.

Para receber aviso antecipado de eventos de manutenção do host, monitore o valor de metadados /computeMetadata/v1/instance/maintenance-event. Se a solicitação ao servidor de metadados retornar NONE, a instância não estará programada para ser encerrada. Por exemplo, execute o comando a seguir em uma instância:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Se o servidor de metadados retornar TERMINATE_ON_HOST_MAINTENANCE, a instância estará programada para ser encerrada. O Compute Engine envia às instâncias de GPU um aviso de encerramento de uma hora, enquanto as instâncias normais recebem apenas um aviso de 60 segundos. Configure seu aplicativo para a transição durante o evento de manutenção. Por exemplo, é possível usar uma das técnicas a seguir:

  • Configure seu aplicativo para migrar o trabalho em andamento temporariamente para um bucket do Cloud Storage e, em seguida, recuperar esses dados após a reinicialização da instância.

  • Grave os dados em um disco permanente secundário. Quando a instância reiniciar automaticamente, o disco permanente poderá ser reanexado e o aplicativo continuará com o trabalho.

Além disso, é possível receber avisos sobre alterações nesse valor de metadados sem a necessidade de pesquisá-lo. Para ver alguns exemplos de como receber avisos sobre eventos de manutenção do host com antecedência, sem a necessidade de fazer pesquisas, leia sobre como receber notificações de migração em tempo real.

A seguir