Este princípio no pilar de fiabilidade do Google Cloud Well-Architected Framework fornece recomendações para ajudar a conceber e executar testes de recuperação de perda de dados.
Este princípio é relevante para a área de foco de aprendizagem da fiabilidade.
Vista geral do princípio
Para garantir que o seu sistema consegue recuperar de situações em que os dados são perdidos ou danificados, tem de executar testes para esses cenários. As instâncias de perda de dados podem ser causadas por um erro de software ou algum tipo de desastre natural. Após estes eventos, tem de restaurar os dados a partir de cópias de segurança e voltar a disponibilizar todos os serviços através dos dados restaurados recentemente.
Recomendamos que use três critérios para avaliar o sucesso ou o fracasso deste tipo de teste de recuperação: integridade dos dados, objetivo de tempo de recuperação (RTO) e objetivo de ponto de recuperação (RPO). Para ver detalhes sobre as métricas RTO e RPO, consulte o artigo Noções básicas do planeamento de recuperação de desastres.
O objetivo dos testes de restauro de dados é verificar periodicamente se a sua organização consegue continuar a cumprir os requisitos de continuidade do negócio. Além de medir o OTR e o OPR, um teste de restauro de dados tem de incluir testes de toda a pilha de aplicações e todos os serviços de infraestrutura críticos com os dados restaurados. Isto é necessário para confirmar que toda a aplicação implementada funciona corretamente no ambiente de teste.
Recomendações
Quando conceber e executar testes para a recuperação de perdas de dados, considere as recomendações nas subsecções seguintes.
Valide a consistência da cópia de segurança e teste os processos de restauro
Tem de validar se as suas cópias de segurança contêm instantâneos consistentes e utilizáveis dos dados que pode restaurar para repor imediatamente as aplicações em serviço. Para validar a integridade dos dados, configure verificações de consistência automáticas para serem executadas após cada cópia de segurança.
Para testar as cópias de segurança, restaure-as num ambiente de não produção. Para garantir que as cópias de segurança podem ser restauradas de forma eficiente e que os dados restaurados cumprem os requisitos da aplicação, simule regularmente cenários de recuperação de dados. Documente os passos para o restauro de dados e forme as suas equipas para executarem os passos de forma eficaz durante uma falha.
Agende cópias de segurança regulares e frequentes
Para minimizar a perda de dados durante o restauro e cumprir os objetivos do RPO, é essencial ter cópias de segurança agendadas regularmente. Estabeleça uma frequência de cópia de segurança que se alinhe com o seu RPO. Por exemplo, se o RPO for de 15 minutos, agende cópias de segurança para serem executadas, pelo menos, a cada 15 minutos. Otimize os intervalos de cópia de segurança para reduzir o risco de perda de dados.
Use Google Cloud ferramentas como o Cloud Storage, as cópias de segurança automáticas do Cloud SQL ou as cópias de segurança do Spanner para agendar e gerir cópias de segurança. Para aplicações críticas, use soluções de cópia de segurança quase contínuas, como a recuperação num determinado momento (PITR) para o Cloud SQL ou cópias de segurança incrementais para grandes conjuntos de dados.
Defina e monitorize o RPO
Defina um RPO claro com base nas necessidades da sua empresa e monitorize a conformidade com o RPO. Se os intervalos de cópia de segurança excederem o RPO definido, use o Cloud Monitoring para configurar alertas.
Monitorize o estado da cópia de segurança
Use o Google Cloud serviço de cópia de segurança e recuperação de desastres ou ferramentas semelhantes para monitorizar o estado das suas cópias de segurança e confirmar que estão armazenadas em localizações seguras e fiáveis. Certifique-se de que as cópias de segurança são replicadas em várias regiões para maior resiliência.
Planeie cenários além da cópia de segurança
Combine as cópias de segurança com estratégias de recuperação de desastres, como configurações de comutação por falha ativa-ativa ou replicação entre regiões, para melhorar o tempo de recuperação em casos extremos. Para mais informações, consulte o Guia de planeamento de recuperação de desastres.