Detectar possíveis falhas usando a observabilidade

Last reviewed 2024-12-30 UTC

Esse princípio no pilar de confiabilidade do Google Cloud Framework de arquitetura fornece recomendações para ajudar você a identificar proativamente áreas em que erros e falhas podem ocorrer.

Esse princípio é relevante para a observação da área de foco de confiabilidade.

Visão geral do princípio

Para manter e melhorar a confiabilidade das suas cargas de trabalho no Google Cloud, é necessário implementar a observabilidade eficaz usando métricas, registros e rastros.

  • Métricas são medições numéricas de atividades que você quer acompanhar no seu app em intervalos de tempo específicos. Por exemplo, você pode rastrear métricas técnicas, como taxa de solicitações e taxa de erros, que podem ser usadas como indicadores de nível de serviço (SLIs). Talvez você também precise acompanhar métricas de negócios específicas do aplicativo, como pedidos feitos e pagamentos recebidos.
  • Os registros são registros com carimbo de data/hora de eventos discretos que ocorrem em um aplicativo ou sistema. O evento pode ser uma falha, um erro ou uma mudança no estado. Os registros podem incluir métricas, e você também pode usá-los para SLIs.
  • Um rastro representa a jornada de um único usuário ou transação por vários aplicativos separados ou pelos componentes de um aplicativo. Por exemplo, esses componentes podem ser microsserviços. Os rastros ajudam a rastrear quais componentes foram usados nas jornadas, onde existem gargalos e quanto tempo as jornadas levaram.

Métricas, registros e rastros ajudam a monitorar seu sistema continuamente. O monitoramento abrangente ajuda a descobrir onde e por que os erros ocorreram. Você também pode detectar falhas potenciais antes que os erros ocorram.

Recomendações

Para detectar possíveis falhas de maneira eficiente, considere as recomendações nas subseções a seguir.

Receber insights completos

Para acompanhar as principais métricas, como tempos de resposta e taxas de erros, use o Cloud Monitoring e o Cloud Logging. Essas ferramentas também ajudam a garantir que as métricas atendam de forma consistente às necessidades da sua carga de trabalho.

Para tomar decisões baseadas em dados, analise as métricas de serviço padrão para entender as dependências de componentes e o impacto delas na performance geral da carga de trabalho.

Para personalizar sua estratégia de monitoramento, crie e publique suas próprias métricas usando o SDK Google Cloud.

Resolver problemas de forma proativa

Implemente um tratamento de erros robusto e ative o registro em todos os componentes das suas cargas de trabalho no Google Cloud. Ative registros como os registros de acesso do Cloud Storage e os registros de fluxo de VPC.

Ao configurar o registro, considere os custos associados. Para controlar os custos de registro, configure filtros de exclusão nos coletores de registros para excluir o armazenamento de determinados registros.

Otimizar a utilização de recursos

Monitore o consumo de CPU, as métricas de E/S de rede e as métricas de E/S de disco para detectar recursos subprovisionados e superprovisionados em serviços como GKE, Compute Engine e Dataproc. Para uma lista completa de serviços com suporte, consulte a Visão geral do Cloud Monitoring.

Priorizar alertas

Para alertas, concentre-se em métricas críticas, defina limites adequados para minimizar a fadiga de alertas e garantir respostas rápidas a problemas importantes. Essa abordagem direcionada permite manter a confiabilidade da carga de trabalho de forma proativa. Para mais informações, consulte Visão geral de alertas.