Sobre os eventos de host


Durante a vida útil de uma instância de máquina virtual (VM) ou bare metal, a máquina host em que a instância é executada pode ter vários eventos de host. Um evento de host pode incluir a manutenção regular da infraestrutura do Compute Engine ou, em casos raros, um erro de host. É possível escolher como as instâncias de VM e bare metal respondem durante ou após um evento de host configurando a política de manutenção do host.

Por padrão, a maioria das instâncias é configurada para migrar em tempo real durante eventos de host. É possível substituir esse comportamento e definir explicitamente as instâncias para encerrar e, opcionalmente, reiniciar. Alguns tipos de máquina não são compatíveis com a migração em tempo real, como instâncias bare metal ou VMs com GPUs anexadas. Essas instâncias são encerradas durante eventos de host. Para mais informações, consulte Comportamentos de manutenção e reinicialização.

Tipos de eventos de host

Há dois tipos de eventos do host, que são descritos em mais detalhes nas seções a seguir:

Se a instância não responder, isso também pode acionar uma reinicialização ou encerramento dela.

Eventos de manutenção

Um evento de manutenção ocorre quando o Compute Engine precisa realizar uma atividade de manutenção ou reparo que exige que as VMs sejam removidas do servidor host. Se você ativar a política de manutenção do host da migração em tempo real para um tipo de instância compatível, o Compute Engine moverá a instância para um novo host, com interrupção mínima no aplicativo.

O comportamento da instância durante um evento de manutenção pode variar dependendo da locação da instância e do tipo de máquina. A tabela a seguir resume o comportamento para eventos de manutenção planejada.

Locação de host Frequência aproximada de eventos
de manutenção
Compatível com migração em tempo real Seleção de organizadores
Multilocatário (compartilhado) A cada duas semanas Sim Compute Engine
Locatário único A cada quatro a seis semanas Depende da política de manutenção do host Depende da política de manutenção do host
X4 Mínimo de 90 dias Não Compute Engine
C3 Mínimo de 30 dias Não Compute Engine

O Compute Engine também aplica alguns hipervisores leves e upgrades de rede em segundo plano sem interrupções, mantendo a instância no mesmo host.

Erros de host

Um erro de host (compute.instances.hostError) significa que houve um problema de hardware ou software na máquina física ou na infraestrutura do data center que hospeda a instância de computação que causou a falha dela. Um erro de host que envolve falha total de hardware ou outros problemas de hardware pode impedir a migração em tempo real da instância. Se a instância estiver configurada para reiniciar automaticamente, que é a configuração padrão, o Compute Engine vai reiniciar a instância, normalmente em três minutos a partir do momento em que o erro foi detectado. Dependendo do problema, a reinicialização pode levar até 5,5 minutos.

Ocasionalmente, uma instância de computação pode não responder antes que um erro do host seja sinalizado. É possível reduzir o tempo que o Compute Engine aguarda para reiniciar ou encerrar a instância definindo o tempo limite da recuperação de erros do host (Pré-lançamento). Para mais informações, consulte Definir políticas de disponibilidade.

Falhas físicas de hardware e software podem acontecer ocasionalmente, mas são raras. Para proteger aplicativos e serviços contra esses eventos de sistema potencialmente prejudiciais, analise os seguintes recursos:

O Google também oferece serviços gerenciados, como o App Engine e o ambiente flexível do App Engine.

Visão geral da política de manutenção do host

A política de manutenção do host de uma instância determina como ela se comporta durante os seguintes eventos do host:

  • Evento de manutenção
  • Evento de erro do host ou instância não está respondendo

É possível configurar as instâncias para continuarem em execução durante a manutenção do host, enquanto o Compute Engine as migra em tempo real para outro host ou pode optar por interromper a instância.

É possível mudar a política de manutenção do host de uma instância definindo as seguintes configurações:

  • Comportamento de manutenção:se a instância é migrada em tempo real ou interrompida quando há um evento de manutenção.
  • Comportamento de reinicialização:se o Compute Engine reinicia ou encerra a instância se ela falhar, apresentar um erro de host ou parar de responder.
  • Tempo de detecção de erros do host:o tempo máximo que o Compute Engine aguarda para reiniciar ou encerrar uma instância depois de detectar que ela não está respondendo.
  • Tempo de recuperação do SSD local:o tempo máximo que o Compute Engine gasta na recuperação dos dados em discos SSD locais após detectar um erro de host. Os dados do SSD local serão perdidos se o tempo especificado se esgotar sem uma recuperação bem-sucedida.

Você pode atualizar a política de manutenção do host de uma instância a qualquer momento para controlar como quer que as instâncias se comportem.

Comportamentos de manutenção e reinicialização

Quando um evento do host ocorre, a instância de computação pode usar a migração em tempo real ou ser encerrada. Se uma instância for encerrada, você poderá reiniciá-la manualmente ou permitir que o Compute Engine faça isso automaticamente.

As séries de máquinas a seguir não oferecem suporte à migração em tempo real e são encerradas durante eventos do organizador:

Migração em tempo real

Por padrão, a maioria dos tipos de instâncias é configurada para migrar em tempo real, exceto:

  • Instâncias com GPUs e TPUs anexadas
  • Instâncias bare metal C3 ou X4
  • Instâncias Z3

Durante a migração em tempo real, o Compute Engine migra automaticamente sua instância para fora de um evento de manutenção de infraestrutura, e ela permanece em execução durante a migração. A instância pode ter um curto período de desempenho reduzido, mas, em geral, a maioria das instâncias não tem um desempenho notavelmente diferente. Isso é ideal para instâncias que exigem tempo de atividade constante e podem tolerar um período curto de desempenho reduzido.

Ao migrar a instância, o Compute Engine informa um evento de sistema que é publicado na lista de operações de zona e nos registros de eventos do sistema. É possível analisar esse evento visualizando as operações do Compute Engine para uma zona específica. Os eventos de migração em tempo real têm o seguinte tipo de operação:

compute.instances.migrateOnHostMaintenance

Encerrar e reiniciar

Se você não quiser que a instância seja migrada em tempo real ou se o tipo de instância não oferecer suporte a essa migração, será possível permitir que o Google Cloud pare a instância quando um evento de host ocorrer. Com essa configuração, se um evento do host ocorrer, o Compute Engine enviará um sinal de desligamento suave para desligar a instância. Em seguida, ele aguarda 60 segundos para que a instância seja encerrada corretamente e define o status da instância como TERMINATED. Se a instância não for encerrada corretamente em 60 segundos, ela será encerrada à força.

Essa opção é ideal se as instâncias exigirem um desempenho máximo constante e se o aplicativo geral for criado para lidar com falhas ou reinicializações da instância.

Quando o Compute Engine interrompe uma instância devido a um evento do host, ele informa um evento do sistema que é publicado na lista de operações de zona e nos registros de eventos do sistema. É possível analisar esse evento visualizando as operações do Compute Engine para uma zona específica. Os eventos de encerramento de instância têm o seguinte tipo de operação:

compute.instances.terminateOnHostMaintenance

Reinicialização automática

Se a instância estiver configurada para ser interrompida quando houver um evento de manutenção ou se a instância falhar devido a um problema de hardware subjacente, o Compute Engine poderá reiniciar a instância automaticamente. A instância é reiniciada no mesmo servidor host ou movida para outro servidor na mesma zona que não está participando do evento de manutenção.

Por padrão, o Compute Engine tenta recuperar instâncias com discos SSD locais anexados por uma hora. Se o limite de tempo for atingido, o Compute Engine vai tentar reiniciar a instância em um servidor de host diferente na mesma zona. As instâncias Z3 e X4 têm tempos de espera padrão diferentes. Esses tipos de instância são reiniciados no mesmo servidor de host após o encerramento da instância.

Para configurar a reinicialização automática, defina o campo da política de manutenção do host automaticRestart como true. Essa configuração não se aplica se a instância for colocada off-line devido a uma interrupção de zona ou por uma ação do usuário, como a chamada de sudo shutdown no SO convidado.

Quando o Compute Engine reinicializa a instância automaticamente, ele informa um evento de sistema publicado na lista de operações de zona. É possível analisar esse evento ao visualizar as operações do Compute Engine para uma zona específica. Os eventos de reinicialização automática têm o seguinte tipo de operação:

compute.instances.automaticRestart

Persistência em disco após a interrupção da instância

Como o Persistent Disk e oHyperdisk são armazenamentos anexados à rede, quando a instância é reiniciada, o Compute Engine anexa novamente o disco de inicialização e todos os discos secundários à instância. Os dados nesses discos permanecem durante a migração em tempo real e as reinicializações da instância.

O Compute Engine preserva os dados em discos SSD locais após um evento de host sempre que possível. No entanto, o Compute Engine não garante a persistência de dados do SSD local.

  • Os discos SSD locais são preservados se:

    • Você configura a instância para migração em tempo real e ela passa por um evento de manutenção do host.
    • Um erro de host ocorre e o Compute Engine reconecta a instância aos discos SSD locais dentro do limite de tempo limite.
    • Uma instância de computação com discos SSD locais anexados que oferece suporte apenas à interrupção e reinicialização automática passa por um evento de manutenção. A instância é reiniciada no local, preservando os dados do SSD local, em vez de migrar para um novo host.
  • Os discos SSD locais não são preservados se:

    • Você desliga o sistema operacional convidado e força a interrupção da instância.
    • Você configura a instância para parar em eventos de manutenção do host e ela passa por um evento desse tipo.
    • Ocorre um erro de host e o Compute Engine não consegue reconectar os discos à instância antes do tempo limite expirar. Nesse caso, a instância é reiniciada sem recuperar os discos SSD locais. Quando a instância é reiniciada, o Compute Engine anexa discos SSD locais em branco à instância reiniciada. É necessário formatar e montar esses discos antes que a instância possa usá-los. Os dados nos discos SSD locais originais não podem ser recuperados.

O Google Cloud faz o possível para garantir que os dados do SSD local permaneçam intactos. No entanto, há casos em que não é possível recuperar os dados, como um caso de tempo limite. Para mais informações sobre quando os discos SSD locais são preservados, consulte Permanência de dados no SSD local.

Tempo limite de recuperação do SSD local

Quando ocorre um erro de host, o Compute Engine tenta recuperar todos os discos SSD locais anexados à instância. É possível controlar quanto tempo o Compute Engine passa tentando recuperar os dados com a configuração localSsdRecoveryTimeout da política do host.

Por padrão, o Compute Engine gasta uma hora recuperando os dados, mas os valores válidos para essa configuração ficam entre 0 e 168, em incrementos de 1 hora. Para instâncias Z3, o valor padrão é 6, o que significa que as instâncias Z3 vão tentar recuperar os dados do SSD local por 6 horas antes de atingir o limite de tempo limite.

Se você definir o tempo limite de recuperação do SSD local como 0, o Compute Engine não tentará recuperar os discos SSD locais conectados. A instância é reiniciada assim que possível, e os dados do SSD local se tornam irrecuperáveis. Use essa configuração se a retomada da carga de trabalho for mais importante do que a recuperação dos dados do SSD local.

Se o tempo limite de recuperação não estiver definido como 0, mas o limite de tempo for atingido antes que os dados do SSD local sejam recuperados, o Compute Engine vai reiniciar a instância sem o disco SSD local. O Compute Engine anexa novos discos SSD locais em branco à instância reiniciada. É necessário formatar e montar esses discos antes que a instância possa usá-los.

A instância está no estado REPAIRING enquanto o Compute Engine tenta recuperar os discos SSD locais. A instância e os discos SSD locais ficam indisponíveis durante esse período.

Se você definir o tempo limite de recuperação do SSD local como o valor máximo de 168, a instância vai permanecer no estado REPAIRING por até sete dias enquanto o Compute Engine tenta recuperar os discos SSD locais.

Interromper a recuperação do disco SSD local

É possível interromper o processo de recuperação do disco SSD local antes que o Compute Engine alcance o limite de tempo limite de recuperação. Para fazer isso, use o comando gcloud compute instances stop com a flag --discard-local-ssd=True.

Esse comando interrompe o processo de recuperação, a instância de computação e descarta os dados do SSD local. Em seguida, reinicie a instância. Consulte Interromper uma instância com SSD local para mais informações.

Para definir o tempo limite de recuperação do SSD local, consulte Definir a política de manutenção do host da instância.

Programação da manutenção

O Google Cloud fornece recursos que permitem maior controle da manutenção. Ao usar determinadas famílias de máquinas, é possível especificar preferências de manutenção e receber notificações de eventos de manutenção futuros pelo Cloud Logging, pelo servidor de metadados da instância, pelo comando compute instances describe da CLI gcloud ou pelo método REST instances.describe. Ao receber uma notificação, você tem um período para iniciar a manutenção programada no horário que escolher. Se você não acionar a manutenção programada, o evento de manutenção vai ocorrer no final do período de notificação, que é o horário programado listado na notificação.

É possível usar esses recursos em combinação com a política de manutenção do host para personalizar uma programação de manutenção que se adapte à sua carga de trabalho.

A seguir