Como lidar com eventos de manutenção do host da GPU

As instâncias de GPU não podem ser migradas em tempo real. Você precisa definir suas instâncias de GPU para que sejam encerradas durante eventos de manutenção do host. Se necessário, configure as instâncias encerradas para que elas reiniciem automaticamente após a conclusão do evento de manutenção. Esses eventos normalmente ocorrem uma vez por mês, mas a frequência pode ser intensificada quando necessário.

Para minimizar as interrupções das cargas de trabalho durante um evento de manutenção, monitore a programação de manutenção da sua instância e prepare suas cargas de trabalho para a transição durante a reinicialização do sistema.

Para receber o aviso antecipado de eventos de manutenção do host, monitore o valor de metadados /computeMetadata/v1/instance/maintenance-event. Se a solicitação para o servidor de metadados retornar NONE, isso quer dizer que a instância não está programada para ser encerrada. Por exemplo, execute o comando a seguir em uma instância:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Se o servidor de metadados retornar TERMINATE_ON_HOST_MAINTENANCE, significará que a instância está programada para ser encerrada. O Compute Engine dá às instâncias de GPU um aviso de encerramento de uma hora, enquanto as instâncias normais recebem apenas um aviso de 60 segundos. Configure seu aplicativo para a transição durante o evento de manutenção. Por exemplo, é possível usar uma das técnicas a seguir:

  • Configure seu aplicativo para migrar o trabalho em andamento temporariamente para um bucket do Cloud Storage e, em seguida, recuperar esses dados após a reinicialização da instância.

  • Grave os dados em um disco permanente secundário. Quando a instância reiniciar automaticamente, o disco permanente poderá ser reanexado e o aplicativo continuará com o trabalho.

Você também pode receber avisos sobre alterações nesse valor de metadados sem a necessidade de pesquisá-lo. Para ver alguns exemplos de como receber avisos sobre eventos de manutenção do host com antecedência, sem a necessidade de fazer pesquisas, leia sobre como receber notificações de migração em tempo real.

A seguir