Monitorar instâncias com o Cloud Monitoring

Neste documento, descrevemos como usar o console do Cloud Monitoring para monitorar as instâncias do Spanner.

O console do Cloud Monitoring oferece várias ferramentas de monitoramento para o Spanner:

Se preferir monitorar o Spanner de maneira programática, use as bibliotecas de cliente do Cloud para o Cloud Monitoring para recuperar as métricas.

Usar o painel selecionado do Cloud Monitoring

O Cloud Monitoring oferece um painel selecionado que resume as principais informações sobre as instâncias do Spanner, incluindo:

  • Incidentes: alertas de monitoramento criados pelo usuário que estão abertos, ativos ou resolvidos.
  • Eventos: uma lista de registros de auditoria do Spanner, se ativados e disponíveis.
  • Instâncias: um resumo detalhado das instâncias do Spanner, incluindo a capacidade de computação, o número de bancos de dados e a integridade das instâncias.
  • Gráficos agregados de capacidade e uso de armazenamento.

Para visualizar o painel do Spanner, faça o seguinte:

  1. No Console do Google Cloud, selecione Monitoring ou use este botão:

    Acessar Monitoring

  2. Se Recursos for mostrado no painel de navegação, selecione Recursos e, em seguida, Cloud Spanner. Caso contrário, selecione Painéis e, em seguida, selecione o painel chamado Cloud Spanner.

Mais detalhes da instância e do banco de dados

Quando você abre o painel selecionado para o Spanner, ele mostra dados agregados de todas as instâncias. Para ver mais detalhes sobre uma instância específica, clique no nome dela em Instâncias.

O painel exibe informações, como metadados da instância, bancos de dados incluídos nela e gráficos de várias métricas detalhadas por região.

Na página do painel da instância, também é possível ver os gráficos de um banco de dados específico na instância:

  1. No lado direito, acima dos gráficos de métricas da instância, clique em Métricas do banco de dados.

  2. Na lista suspensa Selecionar um detalhamento, selecione o banco de dados a ser examinado.

    O console do Cloud Monitoring exibe gráficos do banco de dados.

Criar gráficos personalizados para métricas do Spanner

É possível usar o Cloud Monitoring para criar gráficos personalizados para as métricas do Spanner. Também é possível usar o Metrics Explorer para criar gráficos temporários, ad-hoc ou que aparecem em painéis personalizados.

Especificamente, o Cloud Monitoring permite criar um gráfico personalizado que mostra se duas ou mais métricas estão correlacionadas entre si. Por exemplo, é possível verificar uma correlação entre uso da CPU e latência em uma instância do Spanner, o que pode indicar que a instância precisa de mais capacidade de computação ou que algumas consultas estão causando alta utilização da CPU.

Para começar a usar esse exemplo, siga estas etapas:

  1. No Console do Google Cloud, selecione Monitoring ou use este botão:

    Acessar Monitoring

  2. Se o Metrics Explorer for mostrado no painel de navegação, selecione-o. Caso contrário, selecione Recursos e, em seguida, Metrics Explorer.

  3. Clique na guia Opções de visualização e marque a caixa de seleção Escala do registro no eixo Y. Essa opção ajuda você a comparar várias métricas quando uma delas tem valores muito maiores do que as outras.

  4. Na lista suspensa acima do painel direito, selecione Linha.

  5. Clique na guia Métricas. Agora é possível adicionar métricas ao gráfico.

Para adicionar métricas de latência ao gráfico, siga estas etapas:

  1. Na caixa Localizar tipo de recurso e métrica, insira o valor spanner.googleapis.com/api/request_latencies e clique na linha exibida abaixo da caixa.
  2. Na caixa Filtro, insira o valor instance_id e, em seguida, o ID da instância a ser examinada e clique em Aplicar.
  3. Na lista suspensa Agregador, clique em máx.
  4. Se preferir, altere o percentil de latência:

    1. Clique em Mostrar opções avançadas.
    2. Clique na lista suspensa Alinhador e, em seguida, no percentil de latência que você quer visualizar.

      Na maioria dos casos, você observa a latência do 50º percentil para entender a latência típica ou a latência do 99º percentil para entender a latência do 1% mais lento das solicitações.

Para adicionar métricas de utilização da CPU ao gráfico, siga estas etapas:

  1. Clique em Adicionar métrica.
  2. Na caixa Localizar tipo de recurso e métrica, insira o valor spanner.googleapis.com/instance/cpu/utilization e clique na linha exibida abaixo da caixa.
  3. Na caixa Filtro, insira o valor instance_id e, em seguida, o ID da instância a ser examinada e clique em Aplicar.
  4. Na lista suspensa Agregador, clique em máx.

Agora você tem um gráfico que mostra a utilização da CPU e as métricas de latência de uma instância do Spanner. Se as duas métricas forem maiores que o esperado ao mesmo tempo, será possível realizar etapas adicionais para corrigir o problema.

Para mais informações sobre como criar gráficos personalizados, consulte a documentação do Cloud Monitoring.

Criar alertas para métricas do Spanner

Ao criar uma instância do Spanner, escolha a capacidade de computação dela. À medida que a carga de trabalho da instância muda, o Spanner não ajusta automaticamente a capacidade de computação da instância. Como resultado, você precisa configurar diversos alertas para garantir que a instância permaneça dentro dos valores máximos recomendados para utilização da CPU e do limite de armazenamento recomendado.

Os exemplos a seguir mostram como configurar políticas de alertas para algumas métricas do Spanner. Para ver uma lista completa das métricas disponíveis, consulte a lista de métricas do Spanner.

CPU de prioridade alta

Para criar uma política de alertas que seja acionada quando o uso de CPU de alta prioridade para o Spanner estiver acima do limite recomendado, use as configurações a seguir.

Novo estado
Campo

Valor
Recurso e métrica No menu Recursos, selecione Instância do Cloud Spanner.
No menu Categorias de métricas, selecione Instância.
No menu Métricas, selecione Utilização da CPU por prioridade.

O metric.type é spanner.googleapis.com/instance/cpu/utilization_by_priority.
Filtrar instance_id = YOUR_INSTANCE_ID
priority = high
Séries cruzadas
Série temporal agrupada por
location para instâncias multirregionais.
Deixe em branco para instâncias regionais.
Várias séries
Agregação de série temporal
sum
Janela contínua 10 m
Função de janela contínua mean
Campo
Configurar gatilho de alerta

Valor
Tipo de condição Threshold
Acionador de alerta Any time series violates
Posição do limite Above threshold
Valor do limite 45% para instâncias multirregionais.
65% para instâncias regionais.
Teste a janela novamente 10 minutes

CPU em média contínua de 24 horas

Para criar uma política de alertas que é acionada quando a média contínua de 24 horas de utilização da CPU para o Spanner estiver acima do limite recomendado, use as configurações a seguir.

Novo estado
Campo

Valor
Recurso e métrica No menu Recursos, selecione Instância do Cloud Spanner.
No menu Categorias de métricas, selecione Instância.
No menu Métricas, selecione Utilização da CPU suave.

O metric.type é spanner.googleapis.com/instance/cpu/smoothed_utilization.
Filtrar instance_id = YOUR_INSTANCE_ID
Várias séries
Agregação de série temporal
sum
Janela contínua 10 m
Função de janela contínua mean
Campo
Configurar gatilho de alerta

Valor
Tipo de condição Threshold
Acionador de alerta Any time series violates
Posição do limite Above threshold
Limite 90%
Teste a janela novamente 10 minutes

Armazenamento

Para criar uma política de alertas que seja acionada quando o armazenamento da instância do Spanner estiver acima do limite recomendado, use as configurações a seguir.

Novo estado
Campo

Valor
Recurso e métrica No menu Recursos, selecione Instância do Cloud Spanner.
No menu Categorias de métricas, selecione Instância.
No menu Métricas, selecione Armazenamento usado.

O metric.type é spanner.googleapis.com/instance/storage/utilization.
Filtrar instance_id = YOUR_INSTANCE_ID
Várias séries
Agregação de série temporal
sum
Janela contínua 10 m
Função de janela contínua max
Campo
Configurar gatilho de alerta

Valor
Tipo de condição Threshold
Condition triggers if Any time series violates
Posição do limite Above threshold
Valor do limite Defina o limite para 75% do armazenamento máximo por nó, multiplicado pelo número de nós. Para ver os limites atuais de nós, consulte Cotas e limites do Spanner.
Teste a janela novamente 10 minutes

A seguir