Processar eventos do host da GPU


As VMs que têm GPUs anexadas não podem ser migradas em tempo real. Defina essas VMs para interromper os eventos de host. Se necessário, configure as instâncias encerradas para que elas reiniciem automaticamente após a conclusão do evento de manutenção. Os eventos de manutenção do host no Compute Engine têm uma frequência de uma vez a cada duas semanas, mas podem ser executados com mais frequência.

.

Para minimizar as interrupções das cargas de trabalho durante um evento de manutenção, monitore a programação de manutenção da sua instância de máquina virtual (VM) e prepare suas cargas de trabalho para a transição durante a reinicialização do sistema.

Para receber aviso antecipado de eventos do host, monitore o valor de metadados /computeMetadata/v1/instance/maintenance-event. Se a solicitação ao servidor de metadados retornar NONE, a VM não está programada para ser interrompida. Por exemplo, execute o seguinte comando em uma VM:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Se o servidor de metadados retornar TERMINATE_ON_HOST_MAINTENANCE, a instância de VM estará programada para ser encerrada. O Compute Engine fornece às VMs de GPU um aviso de interrupção de uma hora, enquanto as VMs normais recebem apenas um aviso de 60 segundos. Configure seu aplicativo para a transição durante o evento de manutenção. Por exemplo, é possível usar uma das técnicas a seguir:

  • Configure seu aplicativo para migrar o trabalho em andamento temporariamente para um bucket do Cloud Storage e, em seguida, recuperar esses dados após a reinicialização da instância.

  • Grave os dados em um disco permanente secundário. Quando a VM reiniciar automaticamente, o disco permanente poderá ser reanexado e o aplicativo continuará com o trabalho.

A seguir