Detectar falhas em potencial usando a observabilidade

Last reviewed 2024-12-30 UTC

Esse princípio no pilar de confiabilidade do Google Cloud Well-Architected Framework fornece recomendações para ajudar você a identificar de forma proativa áreas em que erros e falhas podem ocorrer.

Esse princípio é relevante para a área de foco de observação da confiabilidade.

Visão geral do princípio

Para manter e melhorar a confiabilidade das cargas de trabalho no Google Cloud, é necessário implementar uma observabilidade eficaz usando métricas, registros e traces.

  • As métricas são medições numéricas de atividades que você quer acompanhar no seu aplicativo em intervalos de tempo específicos. Por exemplo, talvez você queira rastrear métricas técnicas, como taxa de solicitação e taxa de erro, que podem ser usadas como indicadores de nível de serviço (SLIs). Talvez também seja necessário acompanhar métricas de negócios específicas do aplicativo, como pedidos feitos e pagamentos recebidos.
  • Os registros são registros com carimbo de data/hora de eventos discretos que ocorrem em um aplicativo ou sistema. O evento pode ser uma falha, um erro ou uma mudança de estado. Os registros podem incluir métricas, e você também pode usá-los para SLIs.
  • Um rastreamento representa a jornada de um único usuário ou transação por vários aplicativos separados ou componentes de um aplicativo. Por exemplo, esses componentes podem ser microsserviços. Os rastreamentos ajudam a acompanhar quais componentes foram usados nas jornadas, onde existem gargalos e quanto tempo as jornadas levaram.

Métricas, registros e rastreamentos ajudam você a monitorar seu sistema continuamente. O monitoramento abrangente ajuda você a descobrir onde e por que os erros ocorreram. Você também pode detectar possíveis falhas antes que os erros ocorram.

Recomendações

Para detectar possíveis falhas de maneira eficiente, considere as recomendações nas subseções a seguir.

Receba insights abrangentes

Para acompanhar métricas importantes, como tempos de resposta e taxas de erros, use o Cloud Monitoring e o Cloud Logging. Essas ferramentas também ajudam a garantir que as métricas atendam consistentemente às necessidades da sua carga de trabalho.

Para tomar decisões baseadas em dados, analise as métricas de serviço padrão e entenda as dependências de componentes e o impacto delas no desempenho geral da carga de trabalho.

Para personalizar sua estratégia de monitoramento, crie e publique suas próprias métricas usando o SDK Google Cloud.

Faça uma solução de problemas proativa

Implemente um tratamento de erros robusto e ative o registro em todos os componentes das suas cargas de trabalho no Google Cloud. Ative registros como registros de acesso do Cloud Storage e registros de fluxo da VPC.

Ao configurar o registro em log, considere os custos associados. Para controlar os custos de geração de registros, configure filtros de exclusão nos coletores de registros e impeça que determinados registros sejam armazenados.

Otimizar a utilização de recursos

Monitore o consumo de CPU, as métricas de E/S de rede e de disco para detectar recursos subprovisionados e superprovisionados em serviços como GKE, Compute Engine e Dataproc. Para uma lista completa dos serviços compatíveis, consulte a Visão geral do Cloud Monitoring.

Priorizar alertas

Para alertas, concentre-se em métricas críticas, defina limites adequados para minimizar a fadiga de alertas e garanta respostas rápidas a problemas significativos. Essa abordagem direcionada permite manter a confiabilidade da carga de trabalho de maneira proativa. Para mais informações, consulte Visão geral de alertas.