Esta página foi traduzida pela API Cloud Translation.

Processe eventos de manutenção do anfitrião da GPU

Quando o Compute Engine realiza manutenção numa máquina virtual (VM) com unidades de processamento de gráficos (GPUs) anexadas, a VM tem de ser parada. Isto deve-se ao facto de não ser possível migrar em direto VMs com GPUs anexadas.

Tem de definir estas VMs para parar para eventos de manutenção do anfitrião. Pode definir as VMs paradas para reiniciar automaticamente após a conclusão do evento de manutenção.

Normalmente, os eventos de manutenção do anfitrião ocorrem uma vez a cada duas semanas, mas, ocasionalmente, podem ser executados com maior frequência.

Este documento aborda como pode minimizar as interrupções nas suas cargas de trabalho durante um evento de manutenção.

Receba um aviso prévio antes de eventos de manutenção

Pode monitorizar o agendamento de manutenção da sua instância de máquina virtual (VM) e preparar as suas cargas de trabalho para a transição através do reinício do sistema.

Para receber um aviso prévio de eventos de anfitriões, monitorize o valor dos metadados /computeMetadata/v1/instance/maintenance-event. Se o pedido ao servidor de metadados devolver NONE, significa que a VM não está agendada para parar. Por exemplo, execute o seguinte comando a partir de uma VM:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Se o servidor de metadados devolver TERMINATE_ON_HOST_MAINTENANCE, significa que a VM está agendada para paragem. O Compute Engine envia às VMs com GPU um aviso de paragem de 1 hora, enquanto as VMs normais recebem apenas um aviso de 60 segundos. Configure a sua aplicação para fazer a transição através do evento de manutenção. Por exemplo, pode usar uma das seguintes técnicas:

Configure a sua aplicação para mover temporariamente o trabalho em curso para um contentor do Cloud Storage e, em seguida, obtenha esses dados após o reinício da VM.
Escrever dados num disco persistente secundário. Quando a VM é reiniciada automaticamente, o disco persistente pode ser novamente associado e a sua aplicação pode retomar o trabalho.

O que se segue?

Saiba mais sobre as plataformas de GPU.
Para saber como gerir e dimensionar grupos de VMs, consulte o artigo Defina o tamanho de destino do grupo.
Para monitorizar o desempenho da GPU, consulte o artigo Monitorizar o desempenho da GPU.
Para melhorar o desempenho da rede, consulte o artigo Use uma largura de banda da rede mais elevada.
Saiba como resolver problemas de encerramentos e reinícios de VMs.

Processe eventos de manutenção do anfitrião da GPU Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Receba um aviso prévio antes de eventos de manutenção

O que se segue?

Processe eventos de manutenção do anfitrião da GPU