Realiza pruebas para la recuperación ante la pérdida de datos

Last reviewed 2024-12-30 UTC

Este principio del pilar de confiabilidad del framework de arquitectura proporciona recomendaciones para ayudarte a diseñar y ejecutar pruebas de recuperación ante la pérdida de datos.Google Cloud

Este principio es relevante para el área de enfoque de confiabilidad de aprendizaje.

Para garantizar que tu sistema pueda recuperarse de situaciones en las que se pierden o se dañan los datos, debes ejecutar pruebas para esas situaciones. Los casos de pérdida de datos pueden deberse a un error de software o a algún tipo de desastre natural. Después de esos eventos, debes restablecer los datos de las copias de seguridad y volver a activar todos los servicios con los datos recién restablecidos.

Te recomendamos que uses tres criterios para juzgar el éxito o el fracaso de este tipo de prueba de recuperación: integridad de los datos, objetivo de tiempo de recuperación (RTO) y objetivo de punto de recuperación (RPO). Para obtener más información sobre las métricas de RTO y RPO, consulta Conceptos básicos de la planificación de DR.

El objetivo de las pruebas de restablecimiento de datos es verificar de forma periódica que tu organización pueda seguir cumpliendo con los requisitos de continuidad del negocio. Además de medir el RTO y el RPO, una prueba de restablecimiento de datos debe incluir la prueba de toda la pila de aplicaciones y todos los servicios de infraestructura críticos con los datos restablecidos. Esto es necesario para confirmar que toda la aplicación implementada funcione correctamente en el entorno de prueba.

Recomendaciones

Cuando diseñes y ejecutes pruebas para recuperarte de la pérdida de datos, ten en cuenta las recomendaciones de las siguientes sub secciones.

Verifica la coherencia de las copias de seguridad y prueba los procesos de restablecimiento

Debes verificar que tus copias de seguridad contengan instantáneas coherentes y utilizables de los datos que puedes restablecer para volver a poner las aplicaciones en servicio de inmediato. Para validar la integridad de los datos, configura verificaciones de coherencia automáticas que se ejecuten después de cada copia de seguridad.

Para probar las copias de seguridad, restablecelas en un entorno que no sea de producción. Para garantizar que tus copias de seguridad se puedan restablecer de manera eficiente y que los datos restablecidos cumplan con los requisitos de la aplicación, simula situaciones de recuperación de datos con regularidad. Documenta los pasos para la restauración de datos y capacita a tus equipos para que los ejecuten de manera eficaz durante una falla.

Programa copias de seguridad frecuentes y regulares

Para minimizar la pérdida de datos durante el restablecimiento y cumplir con los objetivos de RPO, es esencialmente necesario tener copias de seguridad programadas con regularidad. Establece una frecuencia de copia de seguridad que se alinee con tu RPO. Por ejemplo, si tu RPO es de 15 minutos, programa las copias de seguridad para que se ejecuten al menos cada 15 minutos. Optimiza los intervalos de copia de seguridad para reducir el riesgo de pérdida de datos.

Usa Google Cloud herramientas como Cloud Storage, las copias de seguridad automáticas de Cloud SQL o las copias de seguridad de Spanner para programar y administrar copias de seguridad. Para aplicaciones críticas, usa soluciones de copia de seguridad casi continuas, como la recuperación de un momento determinado (PITR) para Cloud SQL o copias de seguridad incrementales para conjuntos de datos grandes.

Define y supervisa el RPO

Establece un RPO claro según las necesidades de tu empresa y supervisa el cumplimiento del RPO. Si los intervalos de las copias de seguridad superan el RPO definido, usa Cloud Monitoring para configurar alertas.

Supervisa el estado de la copia de seguridad

Usa el Google Cloud servicio de copia de seguridad y DR o herramientas similares para hacer un seguimiento del estado de tus copias de seguridad y confirmar que se almacenan en ubicaciones seguras y confiables. Asegúrate de que las copias de seguridad se repliquen en varias regiones para aumentar la resiliencia.

Planifica situaciones más allá de la copia de seguridad

Combina las copias de seguridad con estrategias de recuperación ante desastres, como configuraciones de conmutación por error activo-activo o replicación entre regiones, para mejorar el tiempo de recuperación en casos extremos. Para obtener más información, consulta la Guía de planificación para la recuperación ante desastres.