Resiliencia para las implementaciones de SAP en Google Cloud

En este documento, se describen las consideraciones de diseño que te ayudan a ejecutar sistemas SAP resilientes y confiables en Google Cloud.

La infraestructura y el software pueden fallar. Las causas y el alcance de estas fallas requieren que las implementaciones del sistema SAP sigan ciertos principios para aprovechar al máximo la infraestructura de Google Cloud. La combinación de opciones de infraestructura con arquitecturas de implementación de software de SAP resilientes garantiza la integridad y protección de los datos contra la pérdida de datos o la falta de disponibilidad del sistema.

Opciones de resiliencia y confiabilidad

Puedes implementar sistemas resilientes y sólidos mediante el uso de capacidades en las capas de infraestructura y de aplicación para absorber fallas o permitir la recuperación ante fallas. Para garantizar la resiliencia y la confiabilidad de las implementaciones del sistema SAP en Google Cloud, te recomendamos que consideres las siguientes opciones:

  • Resiliencia de la plataforma: los servicios y productos de Google Cloud se diseñaron teniendo en cuenta la resiliencia y tienen redundancia integrada para lograr nuestros Acuerdos de Nivel de Servicio publicados. Cuando implementas tus sistemas SAP de acuerdo con los lineamientos y las prácticas recomendadas de Google Cloud, los mecanismos subyacentes de la plataforma aumentan la resiliencia de tu sistema SAP. Esto te permite continuar con tus operaciones comerciales en caso de una falla o desastre.
  • Alta disponibilidad (HA): mediante el uso de configuraciones de infraestructura y software que admiten HA, puedes habilitar la recuperación automatizada del sistema con una interrupción mínima. Este uso también garantiza que se requiera una intervención mínima de tu parte en caso de que ocurran fallas en partes de la infraestructura subyacente o en el software de aplicación. La HA está diseñada para proteger tu sistema contra fallas o degradación de un solo componente, ya que proporciona redundancia para los componentes del sistema.
  • Recuperación ante desastres (DR): La DR permite la recuperación de operaciones comerciales en caso de fallas causadas por un desastre. La DR implica mover los servicios y las aplicaciones a una ubicación secundaria aislada físicamente desde donde pueden continuar las operaciones. Los sistemas de DR se extienden más allá de un solo componente o la falla del servicio para mitigar eventos menos frecuentes, pero más impactantes. Esto puede incluir eventos regionales, como desastres naturales, pérdida de energía y eventos localizados, como incendios o errores humanos. Los aprovisionamientos de DR incluyen lo siguiente:
    • Replicación de datos: Puedes usar la replicación a nivel de software o de almacenamiento para asegurarte de que tus datos se transfieran a una ubicación secundaria con una pérdida de datos posible mínima.
    • Copias de seguridad: Puedes recuperar un sistema o una base de datos mediante copias de seguridad que se almacenan por separado del almacenamiento de datos principal. Esto puede incluir el uso de instantáneas o copias de seguridad subidas en Cloud Storage, siempre que estas se almacenen en una región distinta de en la que se implementa el sistema.

Debido a que estas opciones son complementarias, puedes combinar aspectos de cada opción para aumentar la resiliencia dentro de tus implementaciones de SAP. Las opciones que selecciones afectan el objetivo de tiempo de recuperación (RTO) y el objetivo del punto de recuperación (RPO) de tu implementación. Por lo tanto, también debes evaluar el costo de estas opciones en comparación con su impacto en la resiliencia del sistema y la continuidad del negocio. Te recomendamos que consideres con cuidado todas las opciones disponibles y que las implementes para satisfacer tus objetivos de recuperación ante desastres.

En la siguiente sección, se describe un ejemplo de implementación de SAP y el impacto que puedes esperar de las diferentes opciones de configuración de HA y DR en su resiliencia y confiabilidad.

Situaciones de ejemplo

Considera una implementación de SAP S/4HANA de escalamiento vertical en Google Cloud. En la siguiente tabla, se presentan ejemplos de opciones de configuración de HA y DR que se pueden aplicar a esta implementación y su impacto esperado en las dimensiones de resiliencia y confiabilidad del sistema, como la disponibilidad, RTO y RPO.

Configuración de HA o DR Dimensión de resiliencia o confiabilidad Expectativa
Una configuración de alta disponibilidad. Ten en cuenta lo siguiente:
  • us-central1 es la región principal.
  • Las instancias X4 se implementan en dos zonas diferentes, como us-central1-a y us-central1-b.
Disponibilidad
  • 99.99% o superior para todo el sistema.
  • 99.9% o más para cada instancia individual.
Una configuración de DR que usa la replicación asíncrona del sistema SAP HANA en un sistema de DR residente con memoria completa. Ten en cuenta lo siguiente:
  • us-central1 es la ubicación principal.
  • us-east4 es la ubicación de DR y ejecuta una instancia X4 que tiene el mismo tamaño que la ubicación principal.
  • Los datos se precargan en la instancia X4 que ejecuta SAP HANA en la ubicación de DR.
  • En la ubicación de DR, se aprovisionan los servidores de aplicaciones o se compraron reservas para ellos. Nota 1
Período de recuperación Unas horas, lo que puede incluir el tiempo requerido para la propagación de DNS a los sistemas cliente.
Punto de recuperación Minutos, con respecto a la última replicación asíncrona.
Una configuración de DR que usa copias de seguridad con infraestructura aprovisionada previamente Nota 1. Considera un sistema que use la copia de seguridad y recuperación basadas en Backint. Período de recuperación Tiempo de recuperación de la base de datos a partir de la copia de seguridad Nota 2.
Punto de recuperación Hasta el último momento en la instantánea o copia de seguridad del registro de SAP HANA.
Una configuración de DR que usa copias de seguridad sin infraestructura aprovisionada de forma previa Nota 3. Considera un sistema que use la copia de seguridad y recuperación basadas en Backint. Período de recuperación Varios días para aprovisionar la infraestructuraNota 4 y recuperar datos de copias de seguridadNota 3.
Punto de recuperación Hasta el último momento en la instantánea o copia de seguridad del registro de SAP HANA.

Notas de tabla:

  1. Puedes implementar tu solución de DR sin aprovisionar previamente la infraestructura necesaria si reservas los recursos necesarios con anticipación. Esta es una forma de garantizar la disponibilidad de los recursos necesarios cuando necesitas activar la solución de DR debido a un desastre en la ubicación principal. Para obtener más información, consulta Reservas de recursos zonales de Compute Engine.
  2. El tiempo de ejecución de una operación de recuperación depende en gran medida de la solución de copia de seguridad que se use y del tamaño de los archivos de copia de seguridad. Para determinar las expectativas exactas del tiempo para el tamaño de la base de datos y las tasas de cambio, debes evaluar la velocidad de recuperación de la solución de copia de seguridad que uses, como Backint o instantánea de disco.
  3. Implementar una solución de DR sin aprovisionar previamente o reservar los recursos necesarios puede generar situaciones en las que los recursos necesarios no están disponibles. Esto puede aumentar el tiempo de recuperación de la implementación, lo que, a su vez, afecta tus operaciones comerciales.
  4. Para tipos de máquinas como X4, que no están disponibles a pedido y deben pedirse, es posible que se requieran varias semanas de plazo de entrega sin una reserva de capacidad previa.

Considera la información que se presenta en la tabla anterior como complementaria a los diseños y los planes de recuperación ante desastres existentes que derives de los estándares de la industria. Para obtener información adicional, consulta los siguientes recursos:

Recomendaciones para implementaciones resilientes

En las siguientes secciones, se proporciona una descripción general de las opciones de configuración de HA y DR que recomendamos para implementar cargas de trabajo de SAP resilientes y confiables en Google Cloud.

Si bien te recomendamos que implementes estas recomendaciones para las cargas de trabajo de SAP que alojan operaciones de producción fundamentales para la empresa, también puedes implementarlas en sistemas SAP que no sean de producción en los que una interrupción prolongada puede tener un impacto perjudicial en tus operaciones comerciales.

Para obtener información sobre las recomendaciones, consulta las siguientes secciones:

Recomendaciones para la alta disponibilidad

  • Usa al menos dos zonas diferentes dentro de la misma región para implementar instancias.
  • Quita puntos únicos de fallo. Para lograr esto, agrega recursos adicionales que proporcionen resiliencia y redundancia a los servicios o componentes de la aplicación defectuosos en caso de que se produzca una falla.
  • Usa servicios regionales que tengan redundancia integrada. Por ejemplo, usa Filestore Enterprise para alojar archivos compartidos y balanceadores de cargas que proporciona Cloud Load Balancing.
  • Usa la automatización para la conmutación por error. La automatización limita la necesidad de intervención manual en caso de falla y reduce el impacto en las operaciones comerciales. Por ejemplo, puedes usar un administrador de clústeres de Linux, como Pacemaker.
  • Usa rutas de red redundantes. Asegúrate de tener conectividad redundante en la región principal. Según tus requisitos de conectividad, hay varias opciones disponibles. Para obtener más información, consulta Conectividad de Google Cloud.

    Para que tus conexiones a las regiones de Google Cloud tengan una disponibilidad del 99.99%, te recomendamos que configures varias conexiones. Para obtener más información, consulta Establece el 99.99% de disponibilidad para la interconexión dedicada.

  • Habilita las políticas de migración en vivo y de reinicio automático en los recursos de Compute Engine:

    • Para mantener las instancias de procesamiento en línea durante los eventos de mantenimiento iniciados por Google, puedes usar la migración en vivo si configuras la propiedad onHostMaintenance con la opción MIGRATE (predeterminada). Para las instancias de procesamiento que no admiten la migración en vivo, configura la propiedad automaticRestart como true (Predeterminado). Esto permite que Google reinicie cualquier instancia que deje de responder. Para obtener más información, consulta Información sobre los eventos del host.
    • En el caso de las instancias de procesamiento que no admiten la migración en vivo o el mantenimiento planificado, hay controles de mantenimiento avanzados disponibles. Si deseas obtener más información, consulta Habilita el control de mantenimiento avanzado para nodos de usuario único.
  • Antes del lanzamiento, prueba la conmutación por error en tu entorno.

Recomendaciones para la recuperación ante desastres

  • Aloja la solución de DR en una ubicación que no sea la principal. Para evitar que la solución de DR se vea afectada por el mismo evento que tu sistema principal, asegúrate de que ambas estén alojadas en diferentes ubicaciones.

    Lo ideal es que la ubicación de DR sea una región diferente. Sin embargo, si usar una segunda región no es una buena opción por cuestiones de residencia de datos o soberanía, comunícate con Ventas de Google Cloud para analizar otras opciones disponibles.

    En el siguiente diagrama, se muestra la arquitectura de alto nivel para una implementación de SAP HANA en Google Cloud con los siguientes aprovisionamientos de alta disponibilidad y DR:

    • Para lograr la HA, el sistema principal tiene dos nodos que se implementan en diferentes zonas dentro de la misma región.
    • Para habilitar la resiliencia, los sistemas principal y de DR se alojan en regiones diferentes, con replicación asíncrona.

    Diagrama de arquitectura de alto nivel para SAP HANA en Google Cloud con alta disponibilidad y recuperación ante desastres.

  • Garantiza la capacidad adecuada en la ubicación de DR.

    • Decide si el sistema de DR necesita ejecutarse a la misma capacidad que el sistema principal o con una capacidad disminuida. Para bases de datos como SAP HANA, la ubicación de DR debe tener recursos suficientes a fin de operar de forma productiva tu carga de trabajo de SAP.
    • Además, verifica con anticipación que los recursos necesarios estén disponibles en tu ubicación de DR. Para garantizar la disponibilidad de los recursos, puedes aprovisionarlos en la ubicación de DR o comprar reservas con anticipación. Comprar reservas te ayuda a evitar situaciones en las que, después de una falla, los recursos no están disponibles debido a que se asignan a otros clientes de Google Cloud. Esto es muy importante para tipos de instancias de procesamiento más grandes, como M2 o X4. Para obtener información sobre las reservas, consulta Reservas para recursos zonales de Compute Engine.

    Para lograr una mayor rentabilidad, la infraestructura en tu ubicación de DR puede usarse para cargas de trabajo que no sean de producción y cambiarse para entregar tu carga de trabajo de producción durante un evento de DR. Sin embargo, esto conlleva un aumento en el tiempo de recuperación.

  • Valida la conectividad a tu ubicación de DR. Al igual que con las rutas de red redundantes a tu ubicación principal, considera agregar opciones de resguardo adicionales, como Cloud VPN.

  • Identifica indicadores que se pueden usar para identificar un desastre. Estos indicadores ayudan a tomar la decisión sobre cuándo activar tu solución de DR. Los siguientes son ejemplos de algunos de estos indicadores:

    • Información sobre el estado de los servicios de Google Cloud del estado de los servicios de Google Cloud.
    • Pérdida completa de disponibilidad de la instancia según lo que informa Cloud Monitoring, según la configuración de tus proyectos de Google Cloud.
    • Comunicación desde Atención al cliente de Google Cloud o el representante de tu cuenta de Google Cloud, que aconseja sobre interrupciones y posibles tiempos de resolución.
    • Correcciones lógicos en la base de datos determinadas por los usuarios o administradores del sistema SAP, que no se pueden resolver mediante mecanismos de HA
  • Prueba la solución de DR con frecuencia. Asegúrate de que tu solución funcione en caso de un desastre. Esto puede afectar tus operaciones diarias. Si tus operaciones lo permiten, considera operar de forma simétrica en tus ubicaciones principal y secundaria, y rotar las operaciones entre ellas cada 3 a 6 meses.

  • Usa la replicación para lograr el mejor punto de recuperación. La replicación proporciona una versión casi en tiempo real del sitio principal en el sitio de DR. Las siguientes opciones de replicación están disponibles, según cómo se diseñe tu carga de trabajo de SAP:

    • Replicación a nivel de base de datos mediante el aprovechamiento de mecanismos como la replicación del sistema SAP HANA, que se replica a nivel lógico entre el sitio principal y el de DR
    • Replicación a nivel de almacenamiento mediante el aprovechamiento de mecanismos como la replicación asíncrona de PD, que se replica a nivel de almacenamiento en bloque. Según la opción de almacenamiento que usa la carga de trabajo de SAP, las opciones de replicación a nivel de almacenamiento disponibles difieren.

    Asegúrate de supervisar la replicación mediante una herramienta adecuada, como SAP HANA Cockpit. Esto ayuda a verificar que la carga de trabajo de SAP se haya replicado por completo antes de que la solución de DR se active en caso de un evento de DR.

  • Usa las copias de seguridad de datos para proporcionar capacidad de recuperación de un momento determinado.

    • Si quieres crear redundancia, usa varias ubicaciones de almacenamiento para almacenar tus copias de seguridad. Por ejemplo:
    • Usa copias de seguridad incrementales o diferenciales, que pueden incluir el almacenamiento de instantáneas en Google Cloud.
    • Supervisa las copias de seguridad para asegurarte de que se creen de forma correcta de acuerdo con la estrategia de copia de seguridad. Para obtener una solución completa de protección de datos, considera usar el Servicio Backup and DR de Google Cloud.
    • Prueba tus copias de seguridad de forma periódica para asegurarte de que se puedan recuperar en caso de un desastre y revisa cuánto tiempo lleva recuperar el sistema o la base de datos. Se recomienda probar la recuperación una vez por cada ciclo de copia de seguridad, que suele abarcar 28 días.
    • Protege tus copias de seguridad como lo harías con tu sistema principal, por ejemplo, mediante la configuración de retención de almacenamiento y las claves de encriptación.

Otras recomendaciones

  • Evalúa el costo de las configuraciones de alta disponibilidad y DR en comparación con el impacto que tienen en los siguientes aspectos de tu empresa:
    • El tiempo de inactividad posible en las operaciones y transacciones comerciales
    • Posible pérdida de datos que genere fallas en las ventas, la confianza de los clientes o los proveedores, o las fallas de cumplimiento.
  • Todas las empresas tienen consideraciones únicas. Si tu situación en particular requiere una solución más personalizada, no dudes en comunicarte con Ventas de Google Cloud.

¿Qué sigue?