Resiliencia para las implementaciones de SAP en Google Cloud

En este documento, se describen las consideraciones de diseño que te ayudan a ejecutar sistemas SAP resilientes y confiables en Google Cloud.

La infraestructura y el software pueden fallar. Las causas y el alcance de esas fallas requieren que las implementaciones del sistema SAP sigan ciertos principios para aprovechar al máximo la infraestructura de Google Cloud . La combinación de opciones de infraestructura con arquitecturas de implementación de software de SAP resilientes garantiza la integridad de los datos y la protección contra la pérdida de datos o la falta de disponibilidad del sistema.

Opciones de resiliencia y confiabilidad

Puedes implementar sistemas resilientes y sólidos mediante el uso de capacidades en las capas de infraestructura y aplicación para absorber fallas o permitir la recuperación de fallas. Para garantizar la resiliencia y la confiabilidad de las implementaciones de sistemas SAP en Google Cloud, te recomendamos que consideres las siguientes opciones:

  • Resiliencia de la plataforma: Google Cloud Los servicios y productos se diseñaron teniendo en cuenta la resiliencia y tienen redundancia integrada para cumplir con nuestros Acuerdos de Nivel de Servicio publicados. Cuando implementas tus sistemas SAP de acuerdo con los Google Cloud lineamientos y prácticas recomendadas, los mecanismos subyacentes de la plataforma aumentan la resiliencia de tu sistema SAP. Esto te permite continuar con tus operaciones comerciales en caso de una falla o un desastre.
  • Alta disponibilidad (HA): Si usas configuraciones de infraestructura y software que admiten HA, puedes habilitar la recuperación automática del sistema con interrupciones mínimas. Este uso también garantiza que se requiera una intervención mínima de tu parte en caso de que ocurran fallas en partes de la infraestructura subyacente o en el software de aplicación. El objetivo de la HA es proteger tu sistema contra la falla o degradación de un solo componente, ya que proporciona redundancia para los componentes del sistema.
  • Recuperación ante desastres (DR): La DR permite la recuperación de operaciones comerciales en caso de fallas causadas por un desastre. La DR implica mover los servicios y las aplicaciones a una ubicación secundaria físicamente aislada desde la que se pueden continuar las operaciones. Los sistemas de DR se extienden más allá de un solo componente o falla de servicio para mitigar eventos menos frecuentes, pero más impactantes. Esto puede incluir eventos regionales, como desastres naturales, pérdidas de la red eléctrica y eventos localizados, como incendios o errores humanos. Las disposiciones de DR incluyen lo siguiente:
    • Replicación de datos: Puedes usar la replicación a nivel de software o almacenamiento para asegurarte de que tus datos se transfieran a una ubicación secundaria con una pérdida de datos mínima.
    • Copias de seguridad: Puedes recuperar un sistema o una base de datos con copias de seguridad que se almacenan por separado de tu almacenamiento de datos principal. Esto puede incluir el uso de instantáneas o copias de seguridad subidas a Cloud Storage, siempre que las instantáneas o copias de seguridad se almacenen en una región distinta de la que se implementó el sistema.

Debido a que estas opciones son complementarias, puedes combinar aspectos de cada una para aumentar la resiliencia en tus implementaciones de SAP. Las opciones que selecciones afectarán el objetivo de tiempo de recuperación (RTO) y el objetivo de punto de recuperación (RPO) de tu implementación. Por lo tanto, también debes evaluar el costo de estas opciones en función de su impacto en la resiliencia del sistema y la continuidad del negocio. Te recomendamos que consideres cuidadosamente todas las opciones disponibles y las implementes para que se adapten a tus objetivos de recuperación ante desastres.

En la siguiente sección, se describe un ejemplo de implementación de SAP y el impacto que puedes esperar de las diferentes configuraciones de HA y DR en su resiliencia y confiabilidad.

Situaciones de ejemplo

Considera una implementación de SAP S/4HANA con escalamiento vertical en Google Cloud. En la siguiente tabla, se presentan ejemplos de configuraciones de alta disponibilidad y DR que se pueden aplicar a esta implementación y su impacto esperado en las dimensiones de resiliencia y confiabilidad del sistema, como la disponibilidad, el RTO y el RPO.

Configuración de HA o DR Dimensión de resiliencia o confiabilidad Expectativa
Una configuración de alta disponibilidad. Ten en cuenta lo siguiente:
  • us-central1 es la región principal.
  • Las instancias X4 se implementan en dos zonas diferentes, como us-central1-a y us-central1-b.
Disponibilidad
  • 99.99% o más para todo el sistema
  • 99.9% o más para cada instancia individual
Una configuración de DR que usa la replicación asíncrona del sistema SAP HANA en un sistema de DR residente con memoria completa. Ten en cuenta lo siguiente:
  • us-central1 es la ubicación principal.
  • us-east4 es la ubicación de DR y ejecuta una instancia X4 que tiene el mismo tamaño que la ubicación principal.
  • Los datos se precargan en la instancia X4 que ejecuta SAP HANA en la ubicación de DR.
  • En la ubicación de DR, los servidores de aplicaciones se aprovisionan o compraste reservas para ellos. Nota 1
Período de recuperación Algunas horas, que pueden incluir el tiempo necesario para la propagación del DNS a los sistemas cliente
Punto de recuperación Minutos, en relación con la última replicación asíncrona.
Una configuración de DR que usa copias de seguridad con infraestructura aprovisionada previamente Nota 1. Considera un sistema que use la copia de seguridad y recuperación basadas en Backint. Período de recuperación Es el tiempo para recuperar la base de datos desde la copia de seguridad Nota 2.
Punto de recuperación Hasta el último momento en la instantánea o copia de seguridad del registro de SAP HANA.
Una configuración de DR que usa copias de seguridad sin infraestructura aprovisionada previamente Nota 3. Considera un sistema que use la copia de seguridad y recuperación basadas en Backint. Período de recuperación Varios días para aprovisionar la infraestructura Nota 4 y recuperar datos de la copia de seguridad Nota 3.
Punto de recuperación Hasta el último momento en la instantánea o copia de seguridad del registro de SAP HANA.

Notas de tabla:

  1. Puedes implementar tu solución de DR sin aprovisionar previamente la infraestructura requerida reservando los recursos necesarios con anticipación. Esta es una forma de garantizar la disponibilidad de los recursos necesarios cuando necesites activar tu solución de DR debido a un desastre en la ubicación principal. Para obtener más información, consulta Elige un tipo de reserva.
  2. El tiempo de ejecución de una operación de recuperación depende en gran medida de la solución de copia de seguridad que se usa y del tamaño de los archivos de copia de seguridad. Para determinar las expectativas exactas del tiempo para el tamaño de la base de datos y las tasas de cambio, debes evaluar la velocidad de recuperación de la solución de copia de seguridad que uses, como Backint o instantánea de disco.
  3. La implementación de una solución de DR sin preaprovisionar o reservar los recursos necesarios puede generar situaciones en las que los recursos necesarios no estén disponibles. Esto puede aumentar el tiempo de recuperación de la implementación, lo que, a su vez, afecta tus operaciones comerciales.
  4. En el caso de los tipos de máquinas como X4, que no están disponibles a pedido y deben pedirse, es posible que se requieran varias semanas de tiempo de preparación sin una reserva de capacidad previa.

Considera la información que se presenta en la tabla anterior como complementaria a los diseños y los planes de recuperación ante desastres existentes que derives de los estándares de la industria. Para obtener información adicional, consulta los siguientes recursos:

Recomendaciones para implementaciones resilientes

En las siguientes secciones, se proporciona una descripción general de las configuraciones de HA y DR que recomendamos para implementar cargas de trabajo de SAP resilientes y confiables en Google Cloud.

Si bien te recomendamos que implementes estas recomendaciones para las cargas de trabajo de SAP que alojan operaciones de producción fundamentales para la empresa, también puedes implementarlas en sistemas SAP que no sean de producción en los que una interrupción prolongada puede tener un impacto perjudicial en tus operaciones comerciales.

Para obtener información sobre las recomendaciones, consulta las siguientes secciones:

Recomendaciones de alta disponibilidad

  • Usa al menos dos zonas diferentes dentro de la misma región para implementar instancias.
  • Quita los puntos únicos de fallo. Para lograrlo, puedes agregar recursos adicionales que proporcionen resiliencia y redundancia a los servicios defectuosos o a los componentes de la aplicación en caso de fallas.
  • Usa servicios regionales que tengan redundancia integrada. Por ejemplo, usa Filestore Regional (anteriormente Enterprise) para alojar archivos compartidos y balanceadores de cargas que proporciona Cloud Load Balancing.
  • Usa la automatización para la conmutación por error. La automatización limita la necesidad de intervención manual en caso de falla y reduce el impacto en las operaciones comerciales. Por ejemplo, puedes usar un administrador de clústeres de Linux, como Pacemaker.
  • Usa rutas de red redundantes. Asegúrate de tener conectividad redundante con tu región principal. Según tus requisitos de conectividad, hay varias opciones disponibles. Para obtener más información, consulta la conectividad deGoogle Cloud .

    Para que tus conexiones a las regiones de Google Cloud tengan una disponibilidad del 99.99%, te recomendamos que configures varias conexiones. Para obtener más información, consulta Establece el 99.99% de disponibilidad para la interconexión dedicada.

  • Habilita las políticas de migración en vivo y reinicio automático en los recursos de Compute Engine:

    • Para mantener las instancias de procesamiento en línea durante los eventos de mantenimiento que inicia Google, puedes usar la migración en vivo configurando la propiedad onHostMaintenance con la opción MIGRATE (Predeterminada). En el caso de las instancias de procesamiento que no admiten la migración en vivo, configura la propiedad automaticRestart en true (Predeterminada). Esto permite que Google reinicie cualquier instancia que deje de responder. Para obtener más información, consulta Información sobre los eventos del host.
    • Para las instancias de procesamiento que no admiten la migración en vivo ni el mantenimiento planificado, están disponibles los controles de mantenimiento avanzados. Para obtener más información, consulta Habilita el control de mantenimiento avanzado para nodos de usuario único.
  • Antes del lanzamiento, prueba la conmutación por error en tu entorno.

Recomendaciones de recuperación ante desastres

  • Aloja la solución de DR en una ubicación que no sea la principal. Para evitar que tu solución de DR se vea afectada por el mismo evento que tu sistema principal, asegúrate de que ambas se almacenen en ubicaciones diferentes.

    Idealmente, la ubicación de DR debe ser una región diferente. Sin embargo, si usar una segunda región no es una buena opción debido a problemas de residencia de datos o soberanía, comunícate con Google Cloud Ventas para analizar otras opciones disponibles.

    En el siguiente diagrama, se muestra la arquitectura de alto nivel para una implementación de SAP HANA en Google Cloud con las siguientes provisiones de HA y DR:

    • Para lograr la alta disponibilidad, el sistema principal tiene dos nodos que se implementan en diferentes zonas dentro de la misma región.
    • Para habilitar la resiliencia, los sistemas principal y de DR se alojan en regiones diferentes, con replicación asíncrona.

    Diagrama de arquitectura de alto nivel para SAP HANA en Google Cloud con alta disponibilidad y recuperación ante desastres.

  • Asegúrate de que la ubicación de DR tenga la capacidad adecuada.

    • Decide si tu sistema de DR debe ejecutarse con la misma capacidad que el sistema principal o con una capacidad reducida. Para bases de datos como SAP HANA, la ubicación de DR debe tener recursos suficientes a fin de operar de forma productiva tu carga de trabajo de SAP.
    • Además, verifica con anticipación que los recursos necesarios estén disponibles en tu ubicación de DR. Para garantizar la disponibilidad de los recursos, puedes aprovisionarlos en la ubicación de DR o comprar reservas con anticipación. Comprar reservas te ayuda a evitar situaciones en las que, después de una falla, los recursos no están disponibles porque se asignaron a otros clientes de Google Cloud. Esto es especialmente importante para los tipos de instancias de procesamiento más grandes, como M2 o X4. Para obtener información sobre las reservas, consulta Elige un tipo de reserva.

    Para lograr una mayor rentabilidad, la infraestructura en tu ubicación de DR puede usarse para cargas de trabajo que no sean de producción y cambiarse para entregar tu carga de trabajo de producción durante un evento de DR. Sin embargo, esto tiene el costo de un aumento del tiempo de recuperación.

  • Valida la conectividad a tu ubicación de DR. Al igual que con las rutas de red redundantes a tu ubicación principal, considera agregar opciones de resguardo adicionales, como Cloud VPN.

  • Identifica los indicadores que se pueden usar para identificar un desastre. Estos indicadores ayudan a tomar la decisión de cuándo activar tu solución de DR. Los siguientes son ejemplos de algunos de estos indicadores:

    • Información sobre el estado de los Google Cloud servicios de Google Cloud estado del servicio.
    • Pérdida total de la disponibilidad de la instancia, según lo informa Cloud Monitoring, según la configuración de tus Google Cloud proyectos.
    • Comunicación desde Atención al cliente de Google Cloud o el representante de tu cuenta deGoogle Cloud , que aconseja sobre interrupciones y posibles tiempos de resolución.
    • Daños lógicos en la base de datos que determinan los usuarios o administradores de tu sistema SAP, que los mecanismos de alta disponibilidad no pueden resolver.
  • Prueba tu solución de DR con regularidad. Asegúrate de que tu solución funcione en caso de un desastre. Esto puede afectar tus operaciones diarias. Si tus operaciones lo permiten, considera operar de forma simétrica en tus ubicaciones principales y secundarias, y rota las operaciones entre ellas cada 3 a 6 meses.

  • Usa la replicación para lograr el mejor punto de recuperación. La replicación proporciona una versión casi en tiempo real de tu sitio principal en el sitio de DR. Las siguientes opciones de replicación están disponibles, según cómo esté diseñada tu carga de trabajo de SAP:

    • Replicación a nivel de base de datos mediante el aprovechamiento de mecanismos como la replicación del sistema SAP HANA, que se replica a nivel lógico entre el sitio principal y el de DR
    • Replicación a nivel de almacenamiento mediante el aprovechamiento de mecanismos como la replicación asíncrona de PD, que se replica a nivel de almacenamiento en bloque Dependiendo de la opción de almacenamiento que use tu carga de trabajo de SAP, las opciones de replicación a nivel de almacenamiento disponibles diferirán.

    Asegúrate de supervisar la replicación mediante una herramienta adecuada, como SAP HANA Cockpit. Esto ayuda a verificar que tu carga de trabajo de SAP se haya replicado por completo antes de que se active tu solución de DR en caso de un evento de RD.

  • Usa copias de seguridad de datos para proporcionar recuperabilidad en un momento determinado.

    • Para crear redundancia, usa varias ubicaciones de almacenamiento para almacenar tus copias de seguridad. Por ejemplo:
      • Cuando crees una copia de seguridad con la función Backint del agente deGoogle Cloudpara SAP, usa una ubicación de bucket birregional o multirregional. Para obtener más información, consulta Cómo crear buckets de Cloud Storage.
      • Cuando crees una copia de seguridad con la función de instantánea de disco del agente, usa Cloud Storage multirregional o birregional. Para obtener información sobre las ubicaciones de los buckets de Cloud Storage, consulta Ubicaciones de buckets.
    • Usa copias de seguridad incrementales o diferenciales, que pueden incluir el almacenamiento de instantáneas en Google Cloud.
    • Supervisa tus copias de seguridad para asegurarte de que se creen correctamente según tu estrategia de copia de seguridad. Para obtener una solución completa de protección de datos, considera usar el servicio de copia de seguridad y DR de Google Cloud.
    • Prueba tus copias de seguridad de forma periódica para asegurarte de que se puedan recuperar en caso de un desastre y revisa cuánto tiempo tarda en recuperarse el sistema o la base de datos. Se recomienda probar la recuperación una vez por cada ciclo de copia de seguridad, que suele abarcar 28 días.
    • Protege tus copias de seguridad como lo harías con tu sistema principal, por ejemplo, con la configuración de retención de almacenamiento y las claves de encriptación.

Otras recomendaciones

  • Evalúa el costo de las configuraciones de HA y DR en función del impacto que tienen en los siguientes aspectos de tu empresa:
    • Posible tiempo de inactividad en las operaciones y transacciones comerciales
    • Pérdida potencial de datos que genera la pérdida de confianza de los clientes, los proveedores o las ventas, o fallas de cumplimiento.
  • Todas las empresas tienen consideraciones únicas. Si tu situación particular requiere una solución más personalizada, no dudes en comunicarte con Google Cloud Ventas.

¿Qué sigue?