Indicadores de nível de serviço transparente do Stackdriver (SLIs)

Monitore os serviços do Google Cloud Platform e os respectivos efeitos nas cargas de trabalho.

stackdriver-sre-hero-banner

TI Moderna, executada com base em números

Uma abordagem abrangente, orientada por métricas, tornou-se requisito básico para a maioria das equipes de operações de TI. Muitas empresas agora medem a TI pela disponibilidade e desempenho do serviço. As equipes de TI, que dependem de serviços na nuvem, podem ter dificuldade em conseguir dados sólidos de provedores de nuvem externos. Se houver um problema, onde ele estará? Na sua pilha ou no provedor de serviços? Os SLIs transparentes ajudam a monitorar os serviços do Google Cloud e os respectivos efeitos na carga de trabalho para que você tenha um panorama completo.

measure-all-the-things

Medir todas as coisas

Para ajudar a TI a entender o desempenho de todos os componentes de serviços, o Google oferece métricas detalhadas no nível de API para mais de 130 serviços do Google Cloud. Essas métricas mostram contagens de erros e latência para as solicitações dos aplicativos em todos os serviços do Google. Isso permite que você veja correlações e efeitos colaterais entre seus aplicativos e os serviços de que eles dependem, agilizando a análise da causa raiz e o tempo médio para resolução.

real-transparency

Transparência real

Os SLIs extrapolam as noções tradicionais de “integridade do serviço”. É possível ver interações específicas entre os serviços e relacioná-los com dados ambientais. Isso permite que você compare métricas de guia de serviço de diversos atributos, como locação de serviço, credencial do aplicativo de chamada do serviço, código de versão e resposta, para explorar relacionamentos e determinar causas e efeitos.

Como usar os SLIs transparentes em termos práticos

  • Se todas as chamadas para um serviço estiverem falhando para um único usuário e nenhum outro, provavelmente há algo errado com essa conta e você mesmo pode corrigir.
  • Se você estiver solucionando um problema com seu aplicativo e perceber uma correlação entre a degradação do desempenho do aplicativo e um aumento contínuo na latência de um serviço crítico do GCP, é um sinal para entrar em contato e solicitar nossa ajuda.
  • Se as latências de um relatório de serviços do GCP parecem boas e sem alterações, mas as métricas no aplicativo informam que a latência nas chamadas ao serviço está alta demais, isso pode indicar a ocorrência de algum problema na rede Entre em contato com o provedor de rede (em alguns casos, o Google) para iniciar o processo de depuração.

Nosso compromisso com a transparência

Nós, do Google Cloud, temos o compromisso de compartilhar informações detalhadas sobre o desempenho dos nossos serviços. Isso é semelhante aos dados que o Google SREs usa para manter nossos serviços em funcionamento. O compartilhamento desses dados permite que você monitore facilmente o que estamos fazendo e entre em sintonia com nossa equipe quando trabalhamos juntos em um tíquete de serviço. Acreditamos que os SLIs transparentes ajudarão a melhorar sua experiência de suporte técnico e aumentar a confiança na computação em nuvem.

Google Cloud

Primeiros passos

Para começar a coletar e explorar as métricas de serviço transparente, acesse Explorador de métricas do Stackdriver e selecione “API utilizada” como tipo de recurso. Você verá uma lista das métricas que podem ser representadas em gráficos com base nos produtos e serviços usados no seu aplicativo. Poderá escolher as métricas mais adequadas para seu ambiente. Filtre os dados exibidos para especificar qual serviço, método, local, credencial ou código de erro você quer monitorar.

Após decidir quais métricas são mais importantes no seu aplicativo, será preciso criar painéis personalizados que relacionem seus indicadores-chave com os nossos para conseguir a visão completa, necessária para fazer a triagem da causa geral de um problema. Por fim, quando tiver uma boa base de referência de longo prazo sobre como os serviços do Google se comportam no seu tráfego e qual a tolerância do seu aplicativo, pense na possibilidade de definir alertas para saber se há desvios em relação ao comportamento de longo prazo.

Primeiros passos