Esta página foi traduzida pela API Cloud Translation.

Processe eventos de manutenção do anfitrião da GPU

Quando o Compute Engine realiza manutenção numa máquina virtual (VM) com unidades de processamento de gráficos (GPUs) anexadas, a VM tem de ser parada. Isto deve-se ao facto de não ser possível migrar em direto VMs com GPUs anexadas.

Tem de definir estas VMs para parar para eventos de manutenção do anfitrião. Pode definir as VMs paradas para serem reiniciadas automaticamente após a conclusão do evento de manutenção.

Normalmente, os eventos de manutenção do anfitrião ocorrem uma vez a cada duas semanas, mas, ocasionalmente, podem ser executados com maior frequência.

Este documento aborda como pode minimizar as interrupções nas suas cargas de trabalho durante um evento de manutenção.

Receba um aviso prévio antes de eventos de manutenção

Pode monitorizar o agendamento de manutenção da sua instância de máquina virtual (VM) e preparar as suas cargas de trabalho para a transição através do reinício do sistema.

Para receber um aviso prévio de eventos de anfitriões, monitorize o valor dos metadados /computeMetadata/v1/instance/maintenance-event. Se o pedido ao servidor de metadados devolver NONE, significa que a VM não está agendada para parar. Por exemplo, execute o seguinte comando a partir de uma VM:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Se o servidor de metadados devolver TERMINATE_ON_HOST_MAINTENANCE, significa que a VM está agendada para paragem. O Compute Engine envia às VMs com GPU um aviso de paragem de 1 hora, enquanto as VMs normais recebem apenas um aviso de 60 segundos. Configure a sua aplicação para fazer a transição através do evento de manutenção. Por exemplo, pode usar uma das seguintes técnicas:

Configure a sua aplicação para mover temporariamente o trabalho em curso para um contentor do Cloud Storage e, em seguida, obtenha esses dados após o reinício da VM.
Escrever dados num disco persistente secundário. Quando a VM é reiniciada automaticamente, o disco persistente pode ser reativado e a sua aplicação pode retomar o trabalho.

O que se segue?

Saiba mais sobre as plataformas de GPU.
Para saber como gerir e dimensionar grupos de VMs, consulte o artigo Defina o tamanho-alvo do grupo.
Para monitorizar o desempenho da GPU, consulte o artigo Monitorize o desempenho da GPU.
Para melhorar o desempenho da rede, consulte o artigo Use uma largura de banda da rede mais elevada.
Saiba como resolver problemas de encerramentos e reinícios de VMs.