O Google Cloud não é imune a falhas de hardware. Embora existam várias camadas de redundância, erros de hardware podem ocorrer, resultando no encerramento das instâncias do Compute Engine.
Os erros de hardware do host podem ter várias causas, porque o hardware do servidor e os componentes associados têm muitas partes que podem falhar. Os tipos de máquina com otimização de memória, em particular, têm um grande número de módulos de memória, o que pode aumentar a probabilidade de falhas de hardware relacionadas à memória. As falhas relacionadas à memória são de dois tipos:
Erros de memória corrigíveis: são aqueles que podem ser corrigidos por mecanismos integrados de hardware e software, como memória de código de correção de erros (ECC, na sigla em inglês). Esses erros não afetam a instância do Compute Engine que está executando no host. Eles são processados de forma transparente por mecanismos de hardware e software.
Erros de memória não corrigidos: são aqueles que não podem ser corrigidos. Eles são raros, aleatórios e imprevisíveis. Qualquer tentativa de acesso à área de memória afetada resulta em um sinal para o SO, que resulta no encerramento da instância do Compute Engine ou em uma Exceção de verificação de máquina (MCE) que é transmitida para a instância. Quando um aplicativo na instância do Compute Engine tenta ler dados da área de memória não corrigida afetada, o aplicativo consome esse sinal e é encerrado. Quando o SO em uma instância do Compute Engine recebe esse sinal, por padrão, ele impede que as páginas de memória afetadas sejam realocadas para evitar o uso.
Detectar erros de host
Para detectar erros do host, configure políticas de alertas baseadas em registros que usem as seguintes consultas predefinidas do Compute Engine:
Nome da consulta/filtro | Descrição |
---|---|
Erro de host do Compute Engine (compute.instances.hostError) |
Um erro de host indica que ocorreu um erro de hardware que resultou no encerramento da instância do Compute Engine. |
Alerta de memória do host do Compute Engine (compute.instances.hostEventNotify) |
Um alerta de memória do host indica um tipo de erro de hardware associado a módulos de memória. Esses erros podem resultar de falhas permanentes de componentes ao longo do tempo ou de eventos transitórios causados por partículas de alta energia ou raios cósmicos que impedem que uma página de memória seja recuperada com segurança. |
Proteger as cargas de trabalho SAP contra erros do host
Para proteger suas cargas de trabalho do SAP contra erros do host, recomendamos o seguinte:
Verifique se a opção Reinício automático está definida para suas instâncias do Compute Engine.
O Compute Engine ativa essa opção para todas as instâncias por padrão. Recomendamos que você não desative essa opção.
Para proteger as cargas de trabalho do SAP HANA e do SAP NetWeaver contra falhas de instância única, implante-as com uma configuração de alta disponibilidade (HA).
Para mais informações, consulte estes guias:
Para proteger as cargas de trabalho do SAP HANA contra a interrupção de qualquer processo do SAP HANA, implemente os ganchos de provedor HA/DR do SAP HANA e ative a opção de reinicialização rápida do SAP HANA.
Para saber como fazer isso, consulte o guia de implantação do seu cenário do SAP HANA em Todos os guias do SAP HANA.
Para proteger as cargas de trabalho do SAP HANA contra erros de memória, conforme mostrado nos eventos Compute Engine Host Memory Alert (
compute.instances.host_event_notify
) para os tipos de máquina M2, M3 ou M4, faça o seguinte:Se o erro não corrigido não puder ser tratado pela VM, ela será reinicializada automaticamente devido à política de reinicialização automática. Em um cluster HA, o nó secundário assume o controle automaticamente. Não é necessário fazer mais nada.
Se o erro de memória não corrigível puder ser processado pela VM e não resultar em uma falha da VM, faça o seguinte:
Se a instância afetada for o nó principal atual no cluster HA, inicie um failover manual para o nó secundário no cluster.
Pare a instância afetada para liberar as páginas de memória virtual que foram afetadas pelo evento de erro do host.
Embora o Compute Engine migre automaticamente as VMs afetadas para um host saudável durante esses eventos, algumas páginas de memória podem permanecer inacessíveis. Se a carga de trabalho do SAP HANA tentar ler as páginas de memória afetadas pela primeira vez após o erro de memória, a carga de trabalho falhará e será encerrada. Ao interromper a instância, você libera as páginas de memória virtual afetadas que podem permanecer do erro inicial de hardware.
Inicie a instância afetada.
Se você não conseguir interromper e iniciar a VM afetada, os aplicativos em execução nela poderão continuar operando até que possam ler as páginas de memória afetadas, o que pode levar algumas horas. Reinicie a VM afetada assim que possível para liberar as páginas de memória afetadas.