Este princípio no pilar de fiabilidade da Google Cloud estrutura bem arquitetada fornece recomendações para ajudar a identificar proativamente áreas onde podem ocorrer erros e falhas.
Este princípio é relevante para a observação área de foco da fiabilidade.
Vista geral do princípio
Para manter e melhorar a fiabilidade das suas cargas de trabalho no Google Cloud, tem de implementar uma observabilidade eficaz através de métricas, registos e rastreios.
- As métricas são medições numéricas de atividades que quer acompanhar para a sua aplicação em intervalos de tempo específicos. Por exemplo, pode querer acompanhar métricas técnicas, como a taxa de pedidos e a taxa de erros, que podem ser usadas como indicadores do nível de serviço (INSs). Também pode ter de acompanhar métricas empresariais específicas da aplicação, como encomendas feitas e pagamentos recebidos.
- Os registos são registos com data/hora de eventos discretos que ocorrem numa aplicação ou num sistema. O evento pode ser uma falha, um erro ou uma alteração no estado. Os registos podem incluir métricas e também pode usar registos para SLIs.
- Um rastreio representa o percurso de um único utilizador ou transação através de várias aplicações separadas ou dos componentes de uma aplicação. Por exemplo, estes componentes podem ser microsserviços. Os rastreios ajudam a acompanhar que componentes foram usados nos percursos, onde existem gargalos e quanto tempo demoraram os percursos.
As métricas, os registos e os rastreios ajudam a monitorizar o seu sistema continuamente. A monitorização abrangente ajuda a descobrir onde e por que motivo ocorreram erros. Também pode detetar potenciais falhas antes de ocorrerem erros.
Recomendações
Para detetar potenciais falhas de forma eficiente, considere as recomendações nas subsecções seguintes.
Aceda a estatísticas abrangentes
Para acompanhar as principais métricas, como os tempos de resposta e as taxas de erro, use o Cloud Monitoring e o Cloud Logging. Estas ferramentas também ajudam a garantir que as métricas cumprem consistentemente as necessidades da sua carga de trabalho.
Para tomar decisões orientadas por dados, analise as métricas de serviço predefinidas para compreender as dependências dos componentes e o respetivo impacto no desempenho geral da carga de trabalho.
Para personalizar a sua estratégia de monitorização, crie e publique as suas próprias métricas através do Google Cloud SDK.
Realize a resolução de problemas proativa
Implemente um processamento de erros robusto e ative o registo em todos os componentes das suas cargas de trabalho no Google Cloud. Ative registos como os registos de acesso ao Cloud Storage e os registos de fluxo de VPC.
Quando configurar o registo, tenha em atenção os custos associados. Para controlar os custos de registo, pode configurar filtros de exclusão nos sinks de registo para excluir determinados registos do armazenamento.
Otimize a utilização de recursos
Monitorize o consumo da CPU, as métricas de E/S de rede e as métricas de E/S de disco para detetar recursos com aprovisionamento insuficiente e excessivo em serviços como o GKE, o Compute Engine e o Dataproc. Para ver uma lista completa dos serviços suportados, consulte o artigo Vista geral do Cloud Monitoring.
Dê prioridade aos alertas
Para alertas, foque-se em métricas críticas, defina limites adequados para minimizar o cansaço de alertas e garanta respostas atempadas a problemas significativos. Esta abordagem segmentada permite-lhe manter proativamente a fiabilidade da carga de trabalho. Para mais informações, consulte a Vista geral dos alertas.