Criar sistemas altamente disponíveis com redundância de recursos

Last reviewed 2024-12-30 UTC

Esse princípio no pilar de confiabilidade do Framework de arquiteturaGoogle Cloud fornece recomendações para planejar, criar e gerenciar a redundância de recursos, o que pode ajudar a evitar falhas.

Esse princípio é relevante para a área de foco de escopo da confiabilidade.

Depois de decidir o nível de confiabilidade necessário, você precisa projetar seus sistemas para evitar pontos únicos de falha. Todos os componentes críticos do sistema precisam ser replicados em várias máquinas, zonas e regiões. Por exemplo, um banco de dados crítico não pode ser localizado em apenas uma região, e um servidor de metadados não pode ser implantado em apenas uma zona ou região. Nesses exemplos, se a única zona ou região tiver uma falha temporária, o sistema terá uma falha global.

Recomendações

Para criar sistemas redundantes, considere as recomendações nas subseções a seguir.

Identificar domínios de falha e replicar serviços

Mapeie os domínios de falha do seu sistema, de VMs individuais a regiões, e projete para redundância em todos os domínios de falha.

Para garantir alta disponibilidade, distribua e replique seus serviços e aplicativos em várias zonas e regiões. Configure o sistema para failover automático para garantir que os serviços e aplicativos continuem disponíveis em caso de falhas de zona ou região.

Para exemplos de arquiteturas de várias zonas e regiões, consulte Projetar uma infraestrutura confiável para suas cargas de trabalho no Google Cloud.

Detectar e resolver problemas rapidamente

Monitore continuamente o status dos seus domínios de falha para detectar e resolver problemas rapidamente.

É possível monitorar o status atual dos serviços Google Cloud em todas as regiões usando o painel de integridade do serviçoGoogle Cloud . Também é possível conferir incidentes relevantes para seu projeto usando o Personalized Service Health. É possível usar balanceadores de carga para detectar a integridade dos recursos e encaminhar automaticamente o tráfego para back-ends saudáveis. Para mais informações, consulte Visão geral das verificações de integridade.

Testar cenários de failover

Como um exercício de simulação, simule falhas regularmente para validar a eficácia das estratégias de failover e replicação.

Para mais informações, consulte Simular uma interrupção de zona em um MIG regional e Simular uma falha de zona em clusters regionais do GKE.