Esta página foi traduzida pela API Cloud Translation.

Gerenciar erros de host para cargas de trabalho do SAP em Google Cloud

Este documento descreve como detectar erros de hardware do host no Google Cloud e proteger suas cargas de trabalho da SAP contra eles.

OGoogle Cloud não é imune a falhas de hardware. Embora existam várias camadas de redundância, erros de hardware podem ocorrer, resultando no encerramento das instâncias do Compute Engine.

Os erros de hardware do host podem ter várias causas, porque o hardware do servidor e os componentes associados têm muitas partes que podem falhar. Os tipos de máquina com otimização de memória, em particular, têm um grande número de módulos de memória, o que pode aumentar a probabilidade de falhas de hardware relacionadas à memória. As falhas relacionadas à memória são de dois tipos:

Erros de memória corrigidos: são aqueles que podem ser corrigidos por mecanismos integrados de hardware e software, como memória de código de correção de erros (ECC, na sigla em inglês). Esses erros não afetam a instância do Compute Engine que está executando no host. Eles são processados de forma transparente por mecanismos de hardware e software.
Erros de memória não corrigidos: são aqueles que não podem ser corrigidos. Eles são raros, aleatórios e imprevisíveis. Qualquer tentativa de acesso à área de memória afetada resulta em um sinal para o SO, que resulta no encerramento da instância do Compute Engine ou em uma exceção de verificação de máquina (MCE) que é transmitida para a instância. Quando um aplicativo na instância do Compute Engine tenta ler dados da área de memória não corrigida afetada, o aplicativo consome esse sinal e é encerrado. Quando o SO em uma instância do Compute Engine recebe esse sinal, por padrão, ele impede que as páginas de memória afetadas sejam realocadas para evitar o uso. Quando ocorre um erro de memória irreparável, a interrupção do aplicativo é inevitável.

As VMs do Compute Engine têm proteções adicionais, como a migração em tempo real, que podem ser combinadas com estratégias de arquitetura de aplicativos para limitar o impacto de alguns desses eventos.

Detectar erros de host

Para detectar erros de host em tipos de máquina M2, M3 ou M4, configure políticas de alerta baseadas em registros que usam as seguintes consultas predefinidas do Compute Engine:

Nome da consulta/filtro	Descrição
Erro de host do Compute Engine `(compute.instances.hostError)`	Um erro de host indica que ocorreu um erro de hardware que resultou no encerramento da instância do Compute Engine.
Alerta de memória do host do Compute Engine `(compute.instances.hostEventNotify)`	Um alerta de memória do host indica um tipo de erro de hardware associado a módulos de memória. Esses erros podem resultar de falhas permanentes de componentes ao longo do tempo ou de eventos transitórios causados por partículas de alta energia ou raios cósmicos que impedem que uma página de memória seja recuperada com segurança.

Proteger as cargas de trabalho da SAP contra erros do host

Para proteger as cargas de trabalho do SAP contra erros do host, recomendamos o seguinte:

Verifique se a opção Reinício automático está definida para suas instâncias do Compute Engine.

O Compute Engine ativa essa opção para todas as instâncias por padrão. Recomendamos que você não desative essa configuração.
Para proteger as cargas de trabalho do SAP HANA e do SAP NetWeaver contra falhas de instância única, implante-as com uma configuração de alta disponibilidade (HA).

Para mais informações, consulte estes guias:
- Guia de planejamento de alta disponibilidade do SAP HANA
- Guia de planejamento de alta disponibilidade para SAP NetWeaver no Google Cloud
Para proteger as cargas de trabalho do SAP HANA contra a interrupção de qualquer processo do SAP HANA, implemente os ganchos de provedor HA/DR do SAP HANA e ative a opção de reinicialização rápida do SAP HANA.

Para saber como fazer isso, consulte o guia de implantação do seu cenário do SAP HANA em Todos os guias do SAP HANA.
Para proteger as cargas de trabalho do SAP HANA contra erros incorrigíveis de memória em tipos de máquina bare metal com otimização de memória X4, a instância é reiniciada automaticamente em um host saudável assim que o erro é detectado. Isso fornece o caminho mais rápido para ativar a capacidade operacional total da sua instância.
Para proteger as cargas de trabalho do SAP HANA contra erros de memória, conforme mostrado nos eventos Compute Engine Host Memory Alert (compute.instances.host_event_notify) para os tipos de máquina M2, M3 ou M4, faça o seguinte:
- Se o erro não corrigido não puder ser processado pela VM, ela será reinicializada automaticamente devido à política de reinicialização automática. Em um cluster HA, o nó secundário assume o controle automaticamente. Não é necessário fazer mais nada.
- Se o erro de memória não corrigível puder ser processado pela VM e não resultar em uma falha da VM, faça o seguinte:
  1. Se a instância afetada for o nó principal atual no cluster HA, inicie um failover manual para o nó secundário no cluster.
  2. Pare a instância afetada para liberar as páginas de memória virtual que foram afetadas pelo evento de erro do host.
    
    Embora o Compute Engine migre automaticamente as VMs afetadas para um host saudável durante esses eventos, algumas páginas de memória podem permanecer inacessíveis. Se a carga de trabalho do SAP HANA tentar ler as páginas de memória afetadas pela primeira vez após o erro de memória, a carga de trabalho falhará e será encerrada. Ao interromper a instância, você libera as páginas de memória virtual afetadas que podem permanecer do erro inicial de hardware.
  3. Inicie a instância afetada.
  Se você não conseguir interromper e iniciar a VM afetada, os aplicativos em execução nela poderão continuar operando até que possam ler as páginas de memória afetadas, o que pode levar algumas horas. Reinicie a VM afetada assim que possível para liberar as páginas de memória afetadas.

Gerenciar erros de host para cargas de trabalho do SAP em Google Cloud Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Detectar erros de host

Proteger as cargas de trabalho da SAP contra erros do host

Gerenciar erros de host para cargas de trabalho do SAP em Google Cloud