Indicadores de nível de serviço (SLIs) transparentes

Monitore os serviços do Google Cloud e os respectivos efeitos nas cargas de trabalho.

stackdriver-sre-hero-banner

TI moderna, baseada em números

Uma abordagem abrangente, orientada por métricas, tornou-se requisito básico para a maioria das equipes de operações de TI. Muitas empresas agora medem a TI pela disponibilidade e desempenho do serviço. As equipes de TI, que dependem de serviços na nuvem, têm dificuldade em conseguir dados sólidos de provedores de nuvem externos. Se houver um problema, onde eles estarão? Na sua pilha ou no provedor de serviços? Os SLIs transparentes ajudam a monitorar os serviços do Google Cloud e os respectivos efeitos na carga de trabalho para que você tenha um panorama completo.

measure-all-the-things

Meça tudo

Para ajudar a TI a entender o desempenho de todos os componentes de serviços, o Google oferece métricas detalhadas no nível de API para mais de 130 serviços do Google Cloud. Essas métricas mostram contagens de erros e latência para as solicitações dos aplicativos em todos os serviços do Google. Isso permite que você veja correlações e efeitos colaterais entre seus aplicativos e os serviços de que eles dependem, agilizando a análise da causa raiz e o tempo médio para resolução.

real-transparency

Transparência real

Os SLIs ultrapassam as noções tradicionais de “integridade do serviço”. Você tem como ver as interações específicas entre os serviços e correlacioná-las aos dados do ambiente. Isso permite que você compare métricas de serviço considerando diversos atributos, como locação do serviço, credencial do app que chama o serviço e código de versão e resposta para explorar relacionamentos e determinar causas e efeitos.

Como usar SLIs transparentes em termos práticos

  • Se todas as chamadas a um serviço estiverem falhando para um único usuário e nenhum outro, provavelmente há algo errado com essa conta, que você mesmo pode corrigir.
  • Se você estiver resolvendo um problema no seu aplicativo e perceber uma correlação entre a queda no desempenho do app e um aumento prolongado na latência de um serviço crítico do Google Cloud, é um sinal para entrar em contato conosco para receber ajuda.
  • Se a latência de um relatório de serviço do Google Cloud estiver boa e sem alterações, mas as métricas do seu aplicativo informarem que a latência nas chamadas ao serviço está mais alta que o normal, isso quer dizer que pode haver algum problema na rede. Entre em contato com o provedor de rede (em alguns casos, o Google) para iniciar o processo de depuração.

Nosso compromisso com a transparência

Nós do Google Cloud temos o compromisso de compartilhar informações detalhadas sobre o desempenho dos nossos serviços. Isso é semelhante aos dados que os SREs do Google usam para manter nossos serviços em funcionamento. O compartilhamento desses dados permite que você monitore facilmente o que estamos fazendo e entre em sintonia com nossa equipe quando trabalhamos juntos em um tíquete de serviço. Acreditamos que SLIs transparentes ajudam a melhorar sua experiência com o suporte técnico e aumentam a confiança na computação em nuvem.

Google Cloud

Primeiros passos

Para começar a coletar e explorar as métricas de serviço transparentes, acesse o Metrics Explorer do Cloud Monitoring e selecione “API utilizada” como tipo de recurso. Você verá uma lista das métricas que podem ser representadas em gráficos com base nos produtos e serviços usados no seu aplicativo. Depois, escolha as métricas mais adequadas para seu ambiente. Filtre os dados exibidos especificando qual serviço, método, local, credencial ou código de erro você quer monitorar.

Após decidir quais métricas são mais importantes no seu aplicativo, será preciso criar painéis personalizados que relacionem seus indicadores-chave com os nossos. Assim, você tem a visão completa de um problema, necessária para fazer a triagem da causa geral dele. Por fim, quando tiver uma boa base de referência de longo prazo sobre como os serviços do Google se comportam no seu tráfego e qual a tolerância do app, pense na possibilidade de definir alertas para saber se há desvios em relação ao comportamento de longo prazo.

Primeiros passos