Administra errores de host para cargas de trabajo de SAP en Google Cloud

En este documento, se describe cómo puedes detectar errores de hardware del host en Google Cloud y proteger tus cargas de trabajo de SAP contra ellos.

Google Cloud no es inmune a las fallas de hardware. Si bien existen varias capas de redundancia, pueden ocurrir errores de hardware, lo que provocará la cancelación de tus instancias de Compute Engine.

Los errores de hardware del host pueden tener varias causas, ya que el hardware del servidor y sus componentes asociados tienen muchas partes que pueden fallar. En particular, los tipos de máquinas con optimización de memoria tienen una gran cantidad de módulos de memoria, lo que puede aumentar la probabilidad de que las fallas de hardware estén relacionadas con la memoria. Las fallas relacionadas con la memoria son de dos tipos:

  • Errores de memoria corregibles: Estos son los que se pueden corregir con mecanismos de hardware y software integrados, como la memoria de código de corrección de errores (ECC). Estos errores no afectan a la instancia de Compute Engine que se ejecuta en el host. Los mecanismos de hardware y software los manejan de forma transparente.

  • Errores de memoria no corregibles: Estos son errores que no se pueden corregir. Son poco frecuentes, aleatorios e impredecibles. Cualquier intento de acceso a la zona de memoria afectada genera una señal para el SO, lo que genera la finalización de la instancia de Compute Engine o una excepción de verificación de la máquina (MCE) que se pasa a la instancia. Cuando una aplicación en la instancia de Compute Engine intenta leer datos del área de memoria no corregible afectada, la aplicación consume este indicador y finaliza. Cuando el SO de una instancia de Compute Engine recibe esta señal, de forma predeterminada, evita que se reasignen las páginas de memoria afectadas para evitar su uso adicional.

Cómo detectar errores del host

Para detectar errores de host, configura políticas de alertas basadas en registros que usen las siguientes consultas de Compute Engine predefinidas:

Nombre de la consulta o del filtro Descripción
Error de host de Compute Engine (compute.instances.hostError) Un error de host indica que se produjo un error de hardware que hizo que se cerrara la instancia de Compute Engine.
Alerta de memoria del host de Compute Engine (compute.instances.hostEventNotify) Una alerta de memoria del host indica un tipo de error de hardware asociado con los módulos de memoria. Estos errores pueden deberse a fallas permanentes de componentes con el tiempo o a eventos transitorios causados por partículas de alta energía o rayos cósmicos que impiden que se recupere de forma segura una página de memoria.

Protege tus cargas de trabajo de SAP de los errores del host

Para proteger tus cargas de trabajo de SAP de los errores del host, te recomendamos lo siguiente:

  • Asegúrate de que el reinicio automático esté configurado para tus instancias de Compute Engine.

    Compute Engine habilita esta opción para todas las instancias de forma predeterminada. Te recomendamos que no lo desactives.

  • Para proteger tus cargas de trabajo de SAP HANA y SAP NetWeaver de fallas de instancia única, impleméntalas con una configuración de alta disponibilidad (HA).

    Si deseas obtener más información, consulta las siguientes guías:

  • Para proteger tus cargas de trabajo de SAP HANA de la finalización de cualquier proceso de SAP HANA, implementa los hooks del proveedor de HA/DR de SAP HANA y habilita la opción de reinicio rápido de SAP HANA.

    Para obtener información sobre cómo hacerlo, consulta la guía de implementación de tu situación de SAP HANA en Todas las guías de SAP HANA.

  • Para proteger tus cargas de trabajo de SAP HANA de los errores de memoria que muestran los eventos de Alerta de memoria del host de Compute Engine (compute.instances.host_event_notify) para los tipos de máquinas M2, M3 o M4, haz lo siguiente:

    • Si la VM no puede controlar el error irrecuperable, esta se reinicia automáticamente debido a la política de reinicio automático. En un clúster de alta disponibilidad, el nodo secundario se hace cargo automáticamente. No es necesario que realices ninguna otra acción.

    • Si la VM puede controlar el error de memoria irrecuperable y no provoca una falla, haz lo siguiente:

      1. Si la instancia afectada es el nodo principal actual de tu clúster de HA, inicia una conmutación por error manual al nodo secundario del clúster.

      2. Detén la instancia afectada para liberar las páginas de memoria virtual que se vieron afectadas por el evento de error del host.

        Si bien Compute Engine migra automáticamente las VMs afectadas a un host en buen estado durante estos eventos, es posible que algunas páginas de memoria sigan siendo inaccesibles. Si tu carga de trabajo de SAP HANA intenta leer las páginas de memoria afectadas por primera vez después de que se produce el error de memoria, la carga de trabajo falla y se cierra. Cuando detienes la instancia, liberas las páginas de memoria virtual afectadas que podrían quedar del error de hardware inicial.

      3. Inicia la instancia afectada.

      Si no puedes detener ni iniciar la VM afectada, es posible que las aplicaciones que se ejecutan en ella sigan funcionando hasta que puedan leer las páginas de memoria afectadas, lo que puede tardar varias horas. Reinicia la VM afectada lo antes posible para liberar las páginas de memoria afectadas.