Esta página foi traduzida pela API Cloud Translation.

Framework de arquitetura bem estruturada: pilar de confiabilidade

Last reviewed 2024-12-30 UTC

O pilar de confiabilidade no Google Cloud Well-Architected Framework fornece princípios e recomendações para ajudar você a projetar, implantar e gerenciar cargas de trabalho confiáveis em Google Cloud.

Este documento é destinado a arquitetos de nuvem, desenvolvedores, engenheiros de plataforma, administradores e engenheiros de confiabilidade do site.

A confiabilidade é a capacidade de um sistema realizar consistentemente as funções pretendidas nas condições definidas e manter o serviço ininterrupto. As práticas recomendadas para confiabilidade incluem redundância, design com tolerância a falhas, monitoramento e processos de recuperação automatizados.

Como parte da confiabilidade, a resiliência é a capacidade do sistema de resistir e se recuperar de falhas ou interrupções inesperadas, mantendo o desempenho. Os recursos doGoogle Cloud , como implantações multirregionais, backups automatizados e soluções de recuperação de desastres, podem ajudar a melhorar a resiliência do sistema.

A confiabilidade é importante para sua estratégia de nuvem por vários motivos, incluindo:

Tempo de inatividade mínimo: o tempo de inatividade pode levar à perda de receita, diminuição da produtividade e danos à reputação. As arquiteturas resilientes ajudam a garantir que os sistemas continuem funcionando durante falhas ou se recuperem de maneira eficiente delas.
Experiência do usuário aprimorada: os usuários esperam interações perfeitas com a tecnologia. Sistemas resilientes ajudam a manter a performance e a disponibilidade consistentes, além de oferecer um serviço confiável mesmo durante alta demanda ou problemas inesperados.
Integridade dos dados: falhas podem causar perda ou corrupção de dados. Sistemas resilientes implementam mecanismos como backups, redundância e replicação para proteger os dados e garantir que eles permaneçam precisos e acessíveis.
Continuidade de negócios: sua empresa depende da tecnologia para operações críticas. Arquiteturas resilientes ajudam a garantir a continuidade após uma falha catastrófica, permitindo que as funções comerciais continuem sem interrupções significativas e oferecendo suporte a uma recuperação rápida.
Compliance: muitos setores têm requisitos regulamentares para disponibilidade do sistema e proteção de dados. As arquiteturas resilientes podem ajudar você a atender a esses padrões, garantindo que os sistemas permaneçam operacionais e seguros.
Redução dos custos de longo prazo: as arquiteturas resilientes exigem investimento inicial, mas a resiliência pode ajudar a reduzir os custos ao longo do tempo, evitando períodos de inatividade caros, correções reativas e permitindo um uso mais eficiente dos recursos.

Mentalidade organizacional

Para tornar seus sistemas confiáveis, você precisa de um plano e uma estratégia estabelecida. Essa estratégia precisa incluir educação e autoridade para priorizar a confiabilidade junto com outras iniciativas.

Deixe claro que toda a organização é responsável pela confiabilidade, incluindo desenvolvimento, gerenciamento de produtos, operações, engenharia de plataforma e engenharia de confiabilidade do site (SRE). Até mesmo os grupos focados em negócios, como marketing e vendas, podem influenciar a confiabilidade.

Todas as equipes precisam entender as metas de confiabilidade e os riscos dos respectivos aplicativos. As equipes precisam ser responsáveis por esses requisitos. Os conflitos entre confiabilidade e desenvolvimento regular de recursos do produto precisam ser priorizados e escalados de acordo.

Planeje e gerencie a confiabilidade de forma holística em todas as suas funções e equipes. Considere configurar um Centro de Excelência em Nuvem (CCoE) que inclua um pilar de confiabilidade. Para mais informações, consulte Otimize a jornada de nuvem da sua organização com um Centro de Excelência em Nuvem.

Áreas de foco para confiabilidade

As atividades que você realiza para projetar, implantar e gerenciar um sistema confiável podem ser categorizadas nas seguintes áreas de foco. Cada um dos princípios e recomendações de confiabilidade neste pilar é relevante para uma dessas áreas de foco.

Escopo: para entender seu sistema, faça uma análise detalhada da arquitetura dele. É preciso entender os componentes, como eles funcionam e interagem, como os dados e as ações fluem pelo sistema e o que pode dar errado. Identifique possíveis falhas, gargalos e riscos, o que ajuda você a tomar medidas para mitigar esses problemas.
Observação: para evitar falhas no sistema, implemente uma observação e um monitoramento abrangentes e contínuos. Com essa observação, é possível entender tendências e identificar problemas em potencial de maneira proativa.
Resposta: para reduzir o impacto das falhas, responda de maneira adequada e recupere com eficiência. As respostas automáticas também podem ajudar a reduzir o impacto das falhas. Mesmo com planejamento e controles, ainda podem ocorrer falhas.
Aprendizado: para evitar que as falhas se repitam, aprenda com cada experiência e tome as medidas adequadas.

Princípios básicos

As recomendações no pilar de confiabilidade do Well-Architected Framework são mapeadas para os seguintes princípios básicos:

Colaboradores

Autores:

Laura Hyatt | Engenheiro de clientes, FSI
Jose Andrade | Engenheiro de clientes, especialista em SRE
Gino Pelliccia | Arquiteto principal

Outros colaboradores:

Andrés-Leonardo Martínez-Ortiz | Gerente de programa técnico
Brian Kudzia | Engenheiro de clientes de infraestrutura empresarial
Daniel Lees | Arquiteto de segurança do Cloud
Filipe Gracio, PhD | Engenheiro de clientes, especialista em IA/ML
Gary Harmson | Arquiteto principal
Kumar Dhanagopal | Desenvolvedor de soluções para vários produtos
Marwan Al Shawi | Engenheiro de clientes do parceiro
Nicolas Pintaux | Engenheiro de clientes, especialista em modernização de aplicativos
Radhika Kanakam | Líder de programa, Google Cloud Well-Architected Framework
Ryan Cox | Arquiteto principal
Samantha He | Redatora técnica
Wade Holmes | Diretor global de soluções
Zach Seils | Especialista em rede

Avançar

Definir a confiabilidade com base em metas de experiência do usuário