Os objetivos de nível de serviço (SLOs, na sigla em inglês) são uma ferramenta essencial no toolkit de monitoramento de serviços do Google. Os SLOs podem fornecer um sinal conciso e de baixo ruído sobre a integridade geral dos serviços. O Anthos Service Mesh permite definir SLOs para serviços e monitorar e alertar os serviços de acordo com esses SLOs.
Para monitorar a integridade de um serviço, você precisa entender quais comportamentos são importantes para esse serviço e como medi-los e avaliá-los. Um indicador de nível de serviço (SLI, na sigla em inglês) é uma medida quantitativa de algum aspecto do serviço. Os SLIs típicos são:
- Latência: quanto tempo leva para retornar uma resposta a uma solicitação, geralmente medida em milissegundos (ms). A latência normalmente é apresentada como uma agregação. Ou seja, os dados brutos são coletados durante um período e calculados como percentis. O Anthos Service Mesh exibe um gráfico de latência na página Métricas para cada um dos serviços. O gráfico mostra a latência ao longo do tempo, o que pode ajudar a determinar um limiar de latência ou um limiar superior para um serviço.
- Disponibilidade: a fração do tempo que um serviço responde com sucesso. Isso normalmente é apresentado como uma proporção do número de respostas bem-sucedidas em relação ao número total de respostas. O gráfico de taxa de erros na página Métricas ajuda a determinar a disponibilidade de cada serviço.
Um SLO é um valor de destino referente a um nível de serviço medido por um SLI. Um SLO
pode ser representado como: SLI ≤ upper_bound
ou SLI ≥ lower_bound
. Os SLOs são
metas mensuráveis de desempenho ao longo de um período. Por exemplo, podem ser definidos
requisitos como estes para alguns dos serviços:
- A latência pode exceder 300 ms em apenas 5% das solicitações durante um período contínuo de 30 dias.
- O sistema precisa ter 99% de disponibilidade medida ao longo de uma semana.
É possível definir e visualizar SLOs dos serviços com base nos dados de telemetria na página Integridade. Em seguida, crie alertas no Stackdriver Monitoring para avisar se um serviço não estiver tendo o desempenho esperado.
A seguir
Saiba mais sobre SLOs da engenharia de confiabilidade do site no Google: