Como monitorar a integridade do sistema com o detector de problemas do nó

A partir do marco 77, o Container-Optimized OS inclui o agente Detector de problemas de nós. Você pode usar esse recurso para monitorar a integridade do sistema de instâncias do COS. Node Problem Detector monitora a integridade da instância e informa métricas relacionadas à saúde para o Cloud Monitoring, incluindo métricas de capacidade e erro que podem ser visualizadas com painéis do conjunto de operações do Google Cloud. As métricas coletadas da configuração padrão são gratuitas. O Google usará métricas agregadas para entender problemas de nós e melhorar a confiabilidade do Container-Optimized OS.

O agente é pré-configurado com o conjunto de métricas a serem exportadas. No momento, não há suporte para a personalização de métricas informadas para o agente integrado. O Detector de problemas de nós é um software de código aberto. Você pode analisar o código-fonte e as configurações nos respectivos repositórios de origem.

Como ativar o monitoramento de integridade

O recurso é desativado por padrão no momento da inicialização. Você pode ativar esse recurso usando cloud-init ou um script de inicialização.

O exemplo cloud-init explica os conceitos básicos de configuração de uma instância do Container-Optimized OS. Use o cloud-init para ativar o monitoramento de integridade com o exemplo abaixo de cloud-config:

#cloud-config

bootcmd:
- systemctl start node-problem-detector

Como visualizar as métricas coletadas

O Detector de problemas de nós relata uma lista de métricas em relação a um recurso monitorado de instância do Compute Engine. As métricas são documentadas na lista de métricas do Monitoring, com o prefixo compute.googleapis.com/guest/. É possível visualizar as métricas coletadas usando o Monitoring Metrics Explorer:

  1. No Console do Google Cloud, acesse Monitoring ou clique no seguinte botão:

    Acessar Monitoring

  2. No painel de navegação do Monitoring, clique em Metrics Explorer.

  3. Para o tipo de recurso, selecione Instância de VM do Compute Engine.

  4. Selecione uma métrica, por exemplo, "Contagem de problemas".

  5. Você verá gráficos e estatísticas no lado direito. Para ver o resultado de uma instância específica do Container-Optimized OS, defina o filtro como "instance_id=[INSTANCE_ID]", substituindo [INSTANCE_ID] pelo ID da instância que você quer ver.

Como desativar o monitoramento de integridade

O recurso é desativado por padrão no momento da inicialização. Se você já ativou o recurso e quer desativá-lo agora, remova a etapa systemctl start node-problem-detector no script de inicialização e no cloud-config e, em seguida, reinicialize a instância do Container-Optimized OS.