Monitorar instâncias com o Cloud Monitoring

Este documento descreve como usar o console do Cloud Monitoring para monitorar suas instâncias do Spanner.

O console do Cloud Monitoring oferece várias ferramentas de monitoramento para o Spanner:

Se você preferir monitorar o Spanner de maneira programática, use as bibliotecas de cliente do Cloud para o Cloud Monitoring para extrair métricas.

Usar o painel selecionado do Cloud Monitoring

O Cloud Monitoring oferece um painel selecionado que resume as principais informações sobre suas instâncias do Spanner, incluindo:

  • Incidentes: alertas de monitoramento criados pelo usuário que estão abertos, ativos ou resolvidos.
  • Eventos: uma lista de registros de auditoria do Spanner, se ativados e disponíveis.
  • Instâncias: um resumo detalhado das instâncias do Spanner, incluindo capacidade de computação, número de bancos de dados e integridade das instâncias.
  • Gráficos agregados de capacidade e uso de armazenamento.

Para acessar o painel do Spanner, faça o seguinte:

  1. No Console do Google Cloud, selecione Monitoring ou use este botão:

    Acessar Monitoring

  2. Se Recursos for mostrado no painel de navegação, selecione Recursos e, em seguida, Cloud Spanner. Caso contrário, selecione Painéis e, em seguida, selecione o painel chamado Cloud Spanner.

Conferir detalhes da instância e do banco de dados

Quando você abre o painel de controle do Spanner, ele mostra dados agregados de todas as suas instâncias. Para ver mais detalhes sobre uma instância específica, clique no nome dela em Instâncias.

O painel exibe informações, como metadados da instância, bancos de dados incluídos nela e gráficos de várias métricas detalhadas por região.

Na página do painel da instância, também é possível ver os gráficos de um banco de dados específico na instância:

  1. No lado direito, acima dos gráficos de métricas da instância, clique em Métricas do banco de dados.

  2. Na lista suspensa Selecionar um detalhamento, selecione o banco de dados a ser examinado.

    O console do Cloud Monitoring exibe gráficos do banco de dados.

Criar gráficos personalizados para métricas do Spanner

Você pode usar o Cloud Monitoring para criar gráficos personalizados de métricas do Spanner. Também é possível usar o Metrics Explorer para criar gráficos temporários, ad-hoc ou que aparecem em painéis personalizados.

Especificamente, o Cloud Monitoring permite criar um gráfico personalizado que mostra se duas ou mais métricas estão correlacionadas. Por exemplo, é possível verificar uma correlação entre a utilização da CPU e a latência em uma instância do Spanner, o que pode indicar que sua instância precisa de mais capacidade de computação ou que algumas consultas estão causando alta utilização da CPU.

Para começar a usar esse exemplo, siga estas etapas:

  1. No Console do Google Cloud, selecione Monitoring ou use este botão:

    Acessar Monitoring

  2. Se o Metrics Explorer for mostrado no painel de navegação, selecione-o. Caso contrário, selecione Recursos e, em seguida, Metrics Explorer.

  3. Clique na guia Opções de visualização e marque a caixa de seleção Escala do registro no eixo Y. Essa opção ajuda você a comparar várias métricas quando uma delas tem valores muito maiores do que as outras.

  4. Na lista suspensa acima do painel direito, selecione Linha.

  5. Clique na guia Métricas. Agora é possível adicionar métricas ao gráfico.

Para adicionar métricas de latência ao gráfico, siga estas etapas:

  1. Na caixa Localizar tipo de recurso e métrica, insira o valor spanner.googleapis.com/api/request_latencies e clique na linha exibida abaixo da caixa.
  2. Na caixa Filtro, insira o valor instance_id e, em seguida, o ID da instância a ser examinada e clique em Aplicar.
  3. Na lista suspensa Agregador, clique em máx.
  4. Se preferir, altere o percentil de latência:

    1. Clique em Mostrar opções avançadas.
    2. Clique na lista suspensa Alinhador e, em seguida, no percentil de latência que você quer visualizar.

      Na maioria dos casos, você observa a latência do 50º percentil para entender a latência típica ou a latência do 99º percentil para entender a latência do 1% mais lento das solicitações.

Para adicionar métricas de utilização da CPU ao gráfico, siga estas etapas:

  1. Clique em Adicionar métrica.
  2. Na caixa Localizar tipo de recurso e métrica, insira o valor spanner.googleapis.com/instance/cpu/utilization e clique na linha exibida abaixo da caixa.
  3. Na caixa Filtro, insira o valor instance_id e, em seguida, o ID da instância a ser examinada e clique em Aplicar.
  4. Na lista suspensa Agregador, clique em máx.

Agora você tem um gráfico que mostra a utilização da CPU e as métricas de latência de uma instância do Spanner. Se as duas métricas forem maiores que o esperado ao mesmo tempo, será possível realizar etapas adicionais para corrigir o problema.

Para mais informações sobre como criar gráficos personalizados, consulte a documentação do Cloud Monitoring.

Criar alertas para métricas do Spanner

Ao criar uma instância do Spanner, você escolhe a capacidade de computação dela. Conforme a carga de trabalho da instância muda, o Spanner não ajusta automaticamente a capacidade de computação da instância. Como resultado, você precisa configurar diversos alertas para garantir que a instância permaneça dentro dos valores máximos recomendados para utilização da CPU e do limite de armazenamento recomendado.

Os exemplos a seguir mostram como configurar políticas de alertas para algumas métricas do Spanner. Para uma lista completa das métricas disponíveis, consulte a lista de métricas do Spanner.

Para criar uma política de alertas que é acionada quando o uso de CPU de alta prioridade para o Spanner está acima do limite recomendado, use as seguintes configurações.

política de alertas.

Para criar uma política de alertas, siga estas etapas:

  1. No Console do Google Cloud, acesse a página  Alertas:

    Acessar Alertas

    Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.

  2. Se você não tiver criado seus canais de notificação e quiser receber uma notificação, clique em Editar canais de notificação e adicione-os. Volte para a página Alertas depois de adicionar seus canais.
  3. Na página Alertas, clique em Criar política.
  4. Para selecionar o recurso, a métrica e os filtros, expanda o menu Selecionar uma métrica e use os valores na tabela Nova condição:
    1. (Opcional) Para limitar o menu a entradas relevantes, insira o nome do recurso ou da métrica na barra de filtro.
    2. Selecione um Tipo de recurso. Por exemplo, selecione Instância de VM.
    3. Selecione uma Categoria de métrica. Por exemplo, selecione instância.
    4. Selecione uma Métrica. Por exemplo, selecione CPU Utilization.
    5. Selecione Apply.
  5. Clique em Avançar e configure o acionador da política de alertas. Para preencher esses campos, use os valores na tabela Configurar gatilho de alerta.
  6. Clique em Próxima.
  7. Opcional: para adicionar notificações à sua política de alertas, clique em Canais de notificação. Na caixa de diálogo, selecione um ou mais canais de notificação no menu e clique em OK.

    (Opcional) Para receber uma notificação quando os incidentes forem abertos ou fechados, marque Notificar sobre o fechamento de incidentes. Por padrão, as notificações são enviadas apenas quando incidentes são abertos.

  8. Opcional: Atualize a Duração do fechamento automático do incidente. Este campo determina quando o Monitoring fecha incidentes na ausência de dados de métrica.
  9. Opcional: clique em Documentação e adicione as informações que quer incluir em uma mensagem de notificação.
  10. Clique em Nome e digite um nome para a política de alertas.
  11. Clique em Criar política.
Novo estado
Campo

Valor
Recurso e métrica No menu Resources, selecione Spanner Instance.
No menu Categorias de métrica, selecione Instância.
No menu Métricas, selecione Utilização da CPU por prioridade.

O metric.type é spanner.googleapis.com/instance/cpu/utilization_by_priority.
Filtrar instance_id = YOUR_INSTANCE_ID
priority = high
Séries cruzadas
Série temporal agrupada por
location para instâncias multirregionais.
Deixe em branco para instâncias regionais.
Várias séries
Agregação de série temporal
sum
Janela contínua 10 m
Função de janela contínua mean
Campo
Configurar gatilho de alerta

Valor
Tipo de condição Threshold
Acionador de alerta Any time series violates
Posição do limite Above threshold
Valor do limite 45% para instâncias multirregionais.
65% para instâncias regionais.
Teste a janela novamente 10 minutes

Para criar uma política de alertas que é acionada quando a média contínua de 24 horas de utilização da CPU para o Spanner está acima do limite recomendado, use as seguintes configurações:

política de alertas.

Para criar uma política de alertas, siga estas etapas:

  1. No Console do Google Cloud, acesse a página  Alertas:

    Acessar Alertas

    Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.

  2. Se você não tiver criado seus canais de notificação e quiser receber uma notificação, clique em Editar canais de notificação e adicione-os. Volte para a página Alertas depois de adicionar seus canais.
  3. Na página Alertas, clique em Criar política.
  4. Para selecionar o recurso, a métrica e os filtros, expanda o menu Selecionar uma métrica e use os valores na tabela Nova condição:
    1. (Opcional) Para limitar o menu a entradas relevantes, insira o nome do recurso ou da métrica na barra de filtro.
    2. Selecione um Tipo de recurso. Por exemplo, selecione Instância de VM.
    3. Selecione uma Categoria de métrica. Por exemplo, selecione instância.
    4. Selecione uma Métrica. Por exemplo, selecione CPU Utilization.
    5. Selecione Apply.
  5. Clique em Avançar e configure o acionador da política de alertas. Para preencher esses campos, use os valores na tabela Configurar gatilho de alerta.
  6. Clique em Próxima.
  7. Opcional: para adicionar notificações à sua política de alertas, clique em Canais de notificação. Na caixa de diálogo, selecione um ou mais canais de notificação no menu e clique em OK.

    (Opcional) Para receber uma notificação quando os incidentes forem abertos ou fechados, marque Notificar sobre o fechamento de incidentes. Por padrão, as notificações são enviadas apenas quando incidentes são abertos.

  8. Opcional: Atualize a Duração do fechamento automático do incidente. Este campo determina quando o Monitoring fecha incidentes na ausência de dados de métrica.
  9. Opcional: clique em Documentação e adicione as informações que quer incluir em uma mensagem de notificação.
  10. Clique em Nome e digite um nome para a política de alertas.
  11. Clique em Criar política.
Novo estado
Campo

Valor
Recurso e métrica No menu Resources, selecione Spanner Instance.
No menu Categorias de métrica, selecione Instância.
No menu Métricas, selecione Utilização da CPU suavizada.

O metric.type é spanner.googleapis.com/instance/cpu/smoothed_utilization.
Filtrar instance_id = YOUR_INSTANCE_ID
Várias séries
Agregação de série temporal
sum
Janela contínua 10 m
Função de janela contínua mean
Campo
Configurar gatilho de alerta

Valor
Tipo de condição Threshold
Acionador de alerta Any time series violates
Posição do limite Above threshold
Limite 90%
Teste a janela novamente 10 minutes

Para criar uma política de alertas que é acionada quando o armazenamento da sua instância do Spanner está acima do limite recomendado, use as seguintes configurações:

política de alertas.

Para criar uma política de alertas, siga estas etapas:

  1. No Console do Google Cloud, acesse a página  Alertas:

    Acessar Alertas

    Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.

  2. Se você não tiver criado seus canais de notificação e quiser receber uma notificação, clique em Editar canais de notificação e adicione-os. Volte para a página Alertas depois de adicionar seus canais.
  3. Na página Alertas, clique em Criar política.
  4. Para selecionar o recurso, a métrica e os filtros, expanda o menu Selecionar uma métrica e use os valores na tabela Nova condição:
    1. (Opcional) Para limitar o menu a entradas relevantes, insira o nome do recurso ou da métrica na barra de filtro.
    2. Selecione um Tipo de recurso. Por exemplo, selecione Instância de VM.
    3. Selecione uma Categoria de métrica. Por exemplo, selecione instância.
    4. Selecione uma Métrica. Por exemplo, selecione CPU Utilization.
    5. Selecione Apply.
  5. Clique em Avançar e configure o acionador da política de alertas. Para preencher esses campos, use os valores na tabela Configurar gatilho de alerta.
  6. Clique em Próxima.
  7. Opcional: para adicionar notificações à sua política de alertas, clique em Canais de notificação. Na caixa de diálogo, selecione um ou mais canais de notificação no menu e clique em OK.

    (Opcional) Para receber uma notificação quando os incidentes forem abertos ou fechados, marque Notificar sobre o fechamento de incidentes. Por padrão, as notificações são enviadas apenas quando incidentes são abertos.

  8. Opcional: Atualize a Duração do fechamento automático do incidente. Este campo determina quando o Monitoring fecha incidentes na ausência de dados de métrica.
  9. Opcional: clique em Documentação e adicione as informações que quer incluir em uma mensagem de notificação.
  10. Clique em Nome e digite um nome para a política de alertas.
  11. Clique em Criar política.
Novo estado
Campo

Valor
Recurso e métrica No menu Resources, selecione Spanner Instance.
No menu Categorias de métrica, selecione Instância.
No menu Métricas, selecione Armazenamento usado.

O metric.type é spanner.googleapis.com/instance/storage/utilization.
Filtrar instance_id = YOUR_INSTANCE_ID
Várias séries
Agregação de série temporal
sum
Janela contínua 10 m
Função de janela contínua max
Campo
Configurar gatilho de alerta

Valor
Tipo de condição Threshold
Condition triggers if Any time series violates
Posição do limite Above threshold
Valor do limite Não é necessário definir um limite específico para o armazenamento máximo por nó. No entanto, recomendamos configurar um alerta quando você estiver se aproximando do limite máximo de armazenamento. Para saber mais, consulte Métricas de utilização do armazenamento.
Teste a janela novamente 10 minutes

A seguir