Gerenciar eventos de manutenção do host da GPU


Quando o Compute Engine realiza manutenção em uma máquina virtual (VM) com unidades de processamento gráfico (GPUs) anexadas, a VM precisa ser interrompida. Isso ocorre porque as VMs com GPUs anexadas não podem ser migradas em tempo real.

Defina essas VMs para interromper os eventos de manutenção de host. É possível configurar as VMs interrompidas para que sejam reiniciadas automaticamente após a conclusão do evento de manutenção.

Os eventos de manutenção do host geralmente ocorrem uma vez a cada duas semanas, mas podem ser executados com mais frequência.

Este documento discute como minimizar as interrupções das cargas de trabalho durante um evento de manutenção.

.

Receber avisos com antecedência antes de eventos de manutenção

Você pode monitorar o cronograma de manutenção da instância de máquina virtual (VM) e preparar as cargas de trabalho para a transição durante a reinicialização do sistema.

Para receber aviso antecipado de eventos do host, monitore o valor de metadados /computeMetadata/v1/instance/maintenance-event. Se a solicitação ao servidor de metadados retornar NONE, a VM não está programada para ser interrompida. Por exemplo, execute o seguinte comando em uma VM:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Se o servidor de metadados retornar TERMINATE_ON_HOST_MAINTENANCE, a instância de VM estará programada para ser encerrada. O Compute Engine fornece às VMs de GPU um aviso de interrupção de uma hora, enquanto as VMs normais recebem apenas um aviso de 60 segundos. Configure seu aplicativo para a transição durante o evento de manutenção. Por exemplo, é possível usar uma das técnicas a seguir:

  • Configure seu aplicativo para migrar o trabalho em andamento temporariamente para um bucket do Cloud Storage e, em seguida, recuperar esses dados após a reinicialização da instância.

  • Grave os dados em um disco permanente secundário. Quando a VM reiniciar automaticamente, o disco permanente poderá ser reanexado e o aplicativo continuará com o trabalho.

A seguir