Crie sistemas altamente disponíveis através da redundância de recursos

Last reviewed 2024-12-30 UTC

Este princípio no pilar de fiabilidade do Google Cloud Well-Architected Framework fornece recomendações para planear, criar e gerir a redundância de recursos, o que pode ajudar a evitar falhas.

Este princípio é relevante para o âmbito área de foco da fiabilidade.

Vista geral do princípio

Depois de decidir o nível de fiabilidade de que precisa, tem de conceber os seus sistemas para evitar pontos únicos de falha. Todos os componentes críticos no sistema têm de ser replicados em várias máquinas, zonas e regiões. Por exemplo, não é possível localizar uma base de dados crítica apenas numa região, e não é possível implementar um servidor de metadados apenas numa única zona ou região. Nestes exemplos, se a única zona ou região tiver uma indisponibilidade, o sistema tem uma indisponibilidade global.

Recomendações

Para criar sistemas redundantes, considere as recomendações nas seguintes subsecções.

Identifique domínios de falhas e replique serviços

Mapeie os domínios de falhas do seu sistema, desde VMs individuais a regiões, e crie a pensar na redundância em vários domínios de falhas.

Para garantir a alta disponibilidade, distribua e replique os seus serviços e aplicações em várias zonas e regiões. Configure o sistema para a comutação por falha automática para garantir que os serviços e as aplicações continuam a estar disponíveis em caso de falhas de zonas ou regiões.

Para ver exemplos de arquiteturas multizona e multirregionais, consulte o artigo Crie uma infraestrutura fiável para as suas cargas de trabalho no Google Cloud.

Detete e resolva problemas rapidamente

Monitorize continuamente o estado dos seus domínios com falhas para detetar e resolver problemas rapidamente.

Pode monitorizar o estado atual dos Google Cloud serviços em todas as regiões através do Google Cloud painel de controlo de estado do serviço. Também pode ver incidentes relevantes para o seu projeto através do Personalized Service Health. Pode usar equilibradores de carga para detetar o estado de funcionamento dos recursos e encaminhar automaticamente o tráfego para back-ends em bom estado. Para mais informações, consulte o artigo Vista geral das verificações de estado.

Testar cenários de comutação por falha

Tal como num simulacro de incêndio, simule regularmente falhas para validar a eficácia das suas estratégias de replicação e ativação pós-falha.

Para mais informações, consulte os artigos Simule uma indisponibilidade de zona para um MIG regional e Simule uma falha de zona em clusters regionais do GKE.