Visão geral dos objetivos de nível de serviço

Os objetivos de nível de serviço (SLOs, na sigla em inglês) são uma ferramenta essencial no toolkit de monitoramento de serviços do Google. Os SLOs podem fornecer um sinal conciso e de baixo ruído sobre a integridade geral dos serviços. O Anthos Service Mesh permite definir SLOs para serviços e monitorar e alertar os serviços de acordo com esses SLOs.

Para monitorar a integridade de um serviço, você precisa entender quais comportamentos são importantes para esse serviço e como medi-los e avaliá-los. Um indicador de nível de serviço (SLI, na sigla em inglês) é uma medida quantitativa de algum aspecto do serviço. Os SLIs típicos são:

  • Latência: quanto tempo leva para retornar uma resposta a uma solicitação, geralmente medida em milissegundos (ms). A latência normalmente é apresentada como uma agregação. Ou seja, os dados brutos são coletados durante um período e calculados como percentis. O Anthos Service Mesh exibe um gráfico de latência na página Métricas para cada um dos serviços. O gráfico mostra a latência ao longo do tempo, o que pode ajudar a determinar um limiar de latência ou um limiar superior para um serviço.
  • Disponibilidade: a fração do tempo que um serviço responde com sucesso. Isso normalmente é apresentado como uma proporção do número de respostas bem-sucedidas em relação ao número total de respostas. O gráfico de taxa de erros na página Métricas ajuda a determinar a disponibilidade de cada serviço.

Um SLO é um valor de destino referente a um nível de serviço medido por um SLI. Um SLO pode ser representado como: SLI ≤ upper_bound ou SLI ≥ lower_bound. Os SLOs são metas mensuráveis de desempenho ao longo de um período. Por exemplo, podem ser definidos requisitos como estes para alguns dos serviços:

  • A latência pode exceder 300 ms em apenas 5% das solicitações durante um período contínuo de 30 dias.
  • O sistema precisa ter 99% de disponibilidade medida ao longo de uma semana.

É possível definir e visualizar SLOs dos serviços com base nos dados de telemetria na página Integridade. Em seguida, crie alertas no Stackdriver Monitoring para avisar se um serviço não estiver tendo o desempenho esperado.

A seguir