Observar e monitorar VMs


Neste documento, descrevemos como acessar e visualizar métricas de máquina virtual (VM). Também descreve como analisar as métricas das VMs para saber mais sobre elas ou como solucionar problemas específicos com uma VM.

O monitoramento de instâncias de máquina virtual (VM) é essencial para manter os recursos de VM. O Compute Engine oferece uma visualização de alto nível das suas métricas de VM usando a guia Observabilidade no Console do Google Cloud. Ela fornece um painel predefinido que usa dados de telemetria para monitorar VMs e tomar decisões informadas sobre os recursos do Compute Engine. Também é possível personalizar o painel predefinido para visualizar apenas as métricas específicas que você quer.

Todas as VMs têm dados básicos de utilização do processo disponíveis assim que são criados. No entanto, a instalação do agente de operações fornece insights mais detalhados sobre o comportamento da VM.

Para mais informações sobre como criar uma política de alertas de monitoramento usando o Metrics Explorer ou para acessar informações gerais sobre como o monitoramento e as métricas funcionam no Google Cloud, consulte os documentos do Cloud Monitoring.

Antes de começar

Opcional: instale o agente de operações para coletar dados mais detalhados das instâncias do Compute Engine.

Para verificar quais instâncias de VM têm o Agente de operações instalado, faça o seguinte:

  1. No Console do Google Cloud, acesse Como monitorar painéis.

    Acessar painéis de monitoramento

  2. Selecione Instâncias de VM na lista do painel.

  3. Clique em Lista para consultar as VMs como uma lista.

    Todas as VMs do projeto são exibidas. A coluna Agente mostra o status da instalação do Agente de operações. É possível instalar ou atualizar o agente a partir desta página.

  4. Opcional: para atualizar o painel Predefinido para mostrar eventos, como aqueles que indicam uma atualização em um grupo gerenciado de instâncias, clique em Selecionar eventos e preencha a caixa de diálogo.

    Para mais informações sobre eventos, consulte Tipos de eventos.

Acessar métricas de observabilidade da VM

Acesse informações de uma ou várias VMs usando a guia Observabilidade no console do Google Cloud. Por padrão, um painel predefinido exibe as métricas de VM. Se quiser visualizar apenas as métricas específicas que você quer, crie um painel personalizado.

Ver métricas de observabilidade de uma única VM

Métricas básicas da VM, como uso da CPU e tráfego de rede, estão disponíveis quando você cria sua VM. As métricas para utilização da memória e do processo estão disponíveis somente com a instalação do agente de operações, que é o principal agente para coletar telemetria das instâncias do Compute Engine.

Para visualizar as métricas de uma única VM, faça o seguinte:

  1. No console do Google Cloud, acesse a página Instâncias de VMs.

    Acessar instâncias de VM

  2. Selecione uma VM para abrir a página Detalhes.

  3. Clique na guia Observabilidade para exibir informações sobre a VM.

  4. Opcional: redefina o período padrão de uma hora para o período que você quer monitorar.

  5. Opcional: para atualizar o painel Predefinido para mostrar eventos, como aqueles que indicam uma atualização em um grupo gerenciado de instâncias, clique em Selecionar eventos e preencha a caixa de diálogo.

    Para mais informações sobre eventos, consulte Tipos de eventos.

As informações na Figura 1 exibem detalhes da VM sem o agente de operações instalado na VM. Os gráficos Memory e Disk Space Utilization não têm dados.

Guia "Observabilidade"
 para uma VM sem o Agente de operações instalado.
Figura 1: aObservabilidade para uma VM sem o Agente de operações instalado.

Ver métricas de observabilidade de várias VMs

A observabilidade no nível da frota exibe as métricas das cinco principais VMs com a maior utilização de processos. As cinco principais VMs listadas variam de acordo com a métrica. Talvez você não veja as mesmas cinco VMs para cada processo. Embora haja mais dados disponíveis no nível da frota sem instalar o agente de operações em comparação com a quantidade de dados disponíveis para uma única VM, a instalação do agente fornece mais dados para fins de solução de problemas futuros.

Para visualizar as métricas de várias VMs, faça o seguinte:

  1. No console do Google Cloud, acesse a página Instâncias de VMs.

    Acessar instâncias de VM

  2. Clique na guia Observabilidade.

  3. Opcional: redefina o período padrão de uma hora para o período que você quer monitorar.

  4. Filtre os resultados por uma ou mais das seguintes opções:

    • ID
    • Nome
    • Tipo de máquina
    • Zona
    • Região
    • Grupo de instâncias
    • Rótulos
    • Estado

As informações na Figura 2 exibem um exemplo da guia "Observabilidade" quando várias VMs em um projeto têm o Agente de operações instalado. Há mais métricas disponíveis sobre essas VMs.

Várias instâncias de VM com o Agente de operações instalado.
Figura 2: várias instâncias de VM com o agente de operações instalado.

Ver métricas detalhadas de uma VM

Cada métrica de processo da VM é representada por uma linha no gráfico. No exemplo a seguir, a VM uptime-demo tem o agente de operações instalado. Os dados de utilização da memória estão disponíveis para solucionar problemas. Se uma VM não estiver listada no cartão, filtre pelo nome para encontrar uma VM específica.

Para recuperar as informações sobre essa VM ou outra entre as cinco principais na guia "Observabilidade", faça o seguinte:

  1. Mantenha o ponteiro sobre a linha do gráfico de qualquer VM. Um cartão aparecerá com uma lista das cinco principais VMs usando o processo, cada uma exibindo uma métrica.
  2. Para saber mais sobre o comportamento da VM, clique na linha do gráfico da VM ou em um nome de VM específico na lista.

A VM uptime-demo exibida no cartão de informações da Figura 3 revela algumas métricas que podem exigir uma análise mais detalhada.

A linha do gráfico
 representa uma VM. Clique nela para saber mais sobre uma VM específica.
Figura 3: a linha do gráfico representa uma VM. Clique nela para saber mais sobre uma VM específica.

Clique na VM uptime-demo para abrir a página Detalhes da VM exibida na Figura 4, que apresenta as seguintes informações:

  • O status do agente de operações.
  • As opções no contexto para criar alertas, verificar se há eventos ou verificações de tempo de atividade.
  • A opção de visualizar os detalhes sobre as configurações, métricas e registros da VM.
A página
 "Detalhes da VM" apresenta informações sobre uma VM específica.
Figura 4: a página "Detalhes da VM" fornece informações sobre uma VM específica.

Crie um painel personalizado para conferir métricas específicas

Por padrão, a guia Observabilidade no Compute Engine oferece um painel predefinido que exibe métricas básicas de VM. Para visualizar somente as métricas específicas que você quer ver, é possível modificar o painel predefinido e salvá-lo como um painel personalizado. Você pode personalizar a função da maneira que achar melhor.

Para criar um painel personalizado, faça o seguinte:

  1. No console do Google Cloud, acesse a página Instâncias de VMs.

    Acessar instâncias de VM

  2. Acesse a guia Observabilidade da seguinte maneira:

    • Para uma única VM: na página Instâncias de VM, clique no nome da VM para abrir a página Detalhes e selecione Observabilidade. para essa VM.
    • Para várias VMs: na página Instâncias de VM, clique na guia Observabilidade.
  3. Se o menu suspenso Painel estiver ativado, os painéis personalizados estarão disponíveis. Para modificar uma visualização personalizada, selecione-a na lista suspensa e, na barra de ferramentas do painel, clique em .

  4. Caso contrário, para personalizar o painel predefinido, clique em na barra de ferramentas do painel.

    O Compute Engine cria uma cópia do painel predefinido e, em seguida, abre a cópia no modo de edição.

  5. No editor, é possível adicionar, modificar, excluir, reposicionar ou redimensionar as visualizações no painel. As visualizações são coletivamente chamadas de widgets. Para mais informações sobre os diferentes tipos de widgets, consulte Visão geral dos painéis.

    • Para adicionar um widget, na barra de ferramentas do painel, clique em Adicionar widget e conclua a configuração.

      Por exemplo, para visualizar os registros com os dados de métricas, clique em Adicionar widget, selecione Registros e clique em Aplicar.

    • Para modificar um widget, posicione o ponteiro nele para ativar a barra de ferramentas, clique em Editar widget Em seguida, use as Configurar widget caixa de diálogo. Para aplicar as mudanças ao painel, clique em Aplicar na barra de ferramentas. Para descartar as mudanças, clique em Cancelar.

    • Para excluir um widget, coloque o ponteiro nele para ativar a barra de ferramentas, clique em Mais opções de gráfico e selecione Excluir.

    • Para reposicionar um widget, use o ponteiro para arrastá-lo pelo cabeçalho para um novo local.

    • Para redimensionar um widget, use o ponteiro para reposicionar o canto direito dele.

  6. Depois que você terminar de modificar o painel, clique em Salvar.

  7. Na caixa de diálogo que confirma as mudanças, clique em Ver painel personalizado para acessá-la.

    Para voltar à visualização predefinida, selecione Predefinido no menu suspenso Painel.

Analisar métricas de recursos

Para saber mais sobre cada métrica de recurso, clique em cada processo no menu da guia Observabilidade:

  • Acesse CPU, Processos, utilização de Memória, tráfego de Rede e utilização de Disco.
  • Para ver os dados de registro, pesquise Logs para identificar e visualizar Eventos do sistema.
  • Adicione integrações de terceiros e verifique se há integrações configuradas.

No restante desta seção, você verá exemplos de como alguns processos podem afetar suas cargas de trabalho. Essas informações partem do pressuposto de que o agente de operações está instalado nas VMs.

Uso da CPU

Um exemplo de uso extremo da CPU pode ser quando um servidor está sob uma carga sobrecarregada inesperadamente, como quando um site passa por um aumento repentino no tráfego ou quando uma tarefa de processamento de dados em grande escala está em andamento. Nessas situações, a CPU pode estar executando com 100% de capacidade por um período prolongado, o que pode deixar o servidor mais lento ou sem responder.

Neste exemplo, a saturação é a preocupação. Se a utilização da CPU estiver em 100%, isso pode ser uma boa opção para suas cargas de trabalho, mas convém examinar outras métricas para saber se isso requer intervenção. Nesse caso, convém criar uma política de alertas para ser notificado quando a utilização de CPU de uma VM aumentar.

Com as permissões adequadas, é possível se conectar usando SSH às VMs para investigar o problema. No entanto, se o Agente de operações estiver instalado, será possível ver mais dados históricos para ajudar a resolver problemas.

Utilização do processo

Um exemplo de comportamento extremo do processo pode ser quando um processo está consumindo uma quantidade excessiva de recursos, como CPU, memória ou E/S de disco, a ponto de estar causando a degradação do desempenho ou até mesmo travando a VM.

Por exemplo, se um processo em execução em uma VM estiver com vazamento de memória, ele poderá começar a consumir quantidades cada vez maiores de memória ao longo do tempo, fazendo com que a VM fique sem memória e falhe. Da mesma forma, se um processo estiver usando o disco intensamente, ele poderá fazer com que a E/S do disco da VM fique saturada, levando a tempos de resposta lentos para outros processos.

Uso de memória

Os bancos de dados exigem muita memória para realizar operações como indexação, classificação e mesclagem de tabelas.

Um exemplo de uso alto de memória em uma VM é quando você executa um servidor de banco de dados, como o Cloud SQL para MySQL ou o Cloud SQL para PostgreSQL, com um grande conjunto de dados. Se a memória disponível da VM for muito pequena, recarregar um conjunto de dados na memória poderá fazer com que o banco de dados fique lento ou falhe.

Desempenho da rede

Problemas de desempenho de rede são resultado de diferentes fatores: congestionamento, limitações de largura de banda, problemas de hardware ou software e latência. Para diagnosticar o problema, monitore as métricas de desempenho da rede, solucione problemas de hardware e software e analise os padrões de tráfego de rede para identificar e resolver a causa do problema.

Uso do disco

A alta utilização de disco em uma VM ocorre quando há uma grande quantidade de dados lidos ou gravados do disco virtual, resultando em um atraso no acesso ao disco e em um possível efeito no desempenho da VM.

O monitoramento de métricas de utilização do disco, como operações de E/S de disco por segundo (IOPS, na sigla em inglês), duração da fila de disco e tempo médio de resposta, pode ajudar a identificar e diagnosticar problemas de alta utilização de disco em uma VM.

Verificar registros e eventos do sistema

A página Todos os registros fornece dados de registro sobre os recursos. Classifique por gravidade para identificar problemas e inspecionar o payload.

Os registros de auditoria gravam eventos administrativos que ocorrem nos seus recursos. Os registros podem informar o que aconteceu para acionar o evento. Vários registros são gravados e mantidos na mesma linha. Portanto, por exemplo, se você tiver 20 registros idênticos, as informações serão armazenadas em uma linha, em vez de 20 linhas separadas.

Pense em Eventos do sistema como um termo abrangente para eventos que ocorrem em um nível superior, mas que podem afetar seus recursos do Compute Engine. Um evento do sistema ocorre quando um erro não relacionado a um evento planejado é acionado. Os eventos do sistema são registrados no nível da frota.

Usar integrações de terceiros

O Monitoring oferece integrações com aplicativos de terceiros. Essas integrações permitem coletar telemetria de aplicativos como Apache Web Server, Cloud SQL para MySQL, Memorystore para Redis e outros para implantações em execução no Compute Engine e no GKE. Quando você usa o Compute Engine, a telemetria de terceiros é coletada pelo agente de operações.

A seguir