Esse princípio no pilar de confiabilidade do Google Cloud Framework de arquitetura oferece recomendações para ajudar você a realizar análises pós-ocorrência eficazes após falhas e incidentes.
Esse princípio é relevante para a área de foco de aprendizado de confiabilidade.
Visão geral do princípio
Uma análise pós-ocorrência é um registro escrito de um incidente, do impacto dele, das ações tomadas para mitigá-lo ou resolvê-lo, das causas raiz e das ações de acompanhamento para evitar que o incidente ocorra novamente. O objetivo de uma análise pós-ocorrência é aprender com os erros e não atribuir culpa.
O diagrama a seguir mostra o fluxo de trabalho de uma análise pós-ocorrência:
O fluxo de trabalho de uma análise pós-ocorrência inclui as seguintes etapas:
- Criar análise pós-ocorrência
- Coletar os fatos
- Identificar e analisar as causas-raiz
- Planejar para o futuro
- Execute o plano.
Realize análises pós-ocorrência após eventos importantes e não importantes, como os seguintes:
- Tempos de inatividade ou degradações visíveis para o usuário além de um determinado limite.
- Perdas de dados de qualquer tipo.
- Intervenções de engenheiros de plantão, como um rollback de lançamento ou redirecionamento de tráfego.
- Tempos de resolução acima de um limite definido.
- Monitorar falhas, o que geralmente implica a descoberta manual de incidentes.
Recomendações
Defina os critérios de análise pós-incidente antes que um incidente ocorra para que todos saibam quando uma análise pós-incidente for necessária.
Para realizar análises pós-ocorrência eficazes, considere as recomendações nas subseções a seguir.
Realizar análises sem apontar culpados
As análises pós-ocorrência eficazes se concentram em processos, ferramentas e tecnologias, e não culpam indivíduos ou equipes. O objetivo de uma análise pós-ocorrência é melhorar sua tecnologia e o futuro, não encontrar quem é culpado. Todo mundo comete erros. O objetivo deve ser analisar os erros e aprender com eles.
Os exemplos a seguir mostram a diferença entre feedback que atribui culpa e feedback sem culpa:
- Feedback que atribui culpa: "Precisamos reescrever todo o sistema de back-end complicado. Ela está quebrando semanalmente nos últimos três trimestres, e tenho certeza de que todos estamos cansados de consertar as coisas aos poucos. Sério, se eu receber uma chamada mais uma vez, vou reescrever isso por conta própria…"
- Feedback sem culpas: "Uma ação para reescrever todo o sistema de back-end pode impedir que essas páginas continuem a acontecer. O manual de manutenção dessa versão é bastante longo e muito difícil de ser totalmente treinado. Tenho certeza de que nossos engenheiros de plantão vão agradecer."
Tornar o relatório pós-fato legível para todos os públicos-alvo
Para cada informação que você planeja incluir no relatório, avalie se ela é importante e necessária para ajudar o público a entender o que aconteceu. Você pode mover dados e explicações complementares para um apêndice do relatório. Os revisores que precisarem de mais informações podem solicitar.
Evite soluções complexas ou muito elaboradas
Antes de começar a buscar soluções para um problema, avalie a importância dele e a probabilidade de repetição. Adicionar complexidade ao sistema para resolver problemas que provavelmente não vão ocorrer novamente pode aumentar a instabilidade.
Compartilhe a análise pós-ocorrência o máximo possível.
Para garantir que os problemas não permaneçam sem solução, publique o resultado da análise post-mortem para um público amplo e receba apoio da gerência. O valor de uma análise post-mortem é proporcional ao aprendizado que ocorre após a análise. Quando mais pessoas aprendem com incidentes, a probabilidade de falhas semelhantes recorrentes é reduzida.