Monitoraggio dell'integrità del sistema con rilevatore problemi nodo

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

A partire da Milestone 77, il sistema operativo ottimizzato per i container include l'agente Detecter per problemi relativi ai nodi. Puoi utilizzare questa funzionalità per monitorare l'integrità del sistema delle istanze COS. Il monitoraggio dei problemi dei nodi monitora lo stato dell'istanza e segnala le metriche relative allo stato a Cloud Monitoring, incluse le metriche di capacità ed errori che puoi visualizzare con le dashboard della suite operativa di Google Cloud. Le metriche raccolte nella configurazione predefinita sono gratuite. Google utilizzerà metriche aggregate per comprendere i problemi dei nodi e migliorare l'affidabilità del sistema operativo ottimizzato per i container.

L'agente è preconfigurato con un insieme di metriche da esportare. Al momento, la personalizzazione delle metriche segnalate per l'agente integrato non è supportata. Node Detect Detect è un software open source. Puoi esaminare il codice sorgente e le configurazioni nei rispettivi repository di codice sorgente.

Abilitazione del monitoraggio dello stato di integrità

L'agente Detector dei problemi è disabilitato per impostazione predefinita al momento dell'avvio. Puoi abilitare questa funzionalità utilizzando:

Utilizzo di uno script di avvio

Puoi abilitare Node problem Detector utilizzando uno script di avvio.

Utilizzo di Cloud-Init

L'esempio cloud-init spiega le nozioni di base sulla configurazione di un'istanza di Container-Optimized OS. Puoi utilizzare cloud-init per abilitare il monitoraggio dello stato di integrità con il seguente esempio di cloud-config:

#cloud-config

runcmd:
- systemctl start node-problem-detector

Utilizzo dei metadati

In Container-Optimized OS Milestone 88 e versioni successive, è possibile abilitare anche il rilevamento dei problemi di nodi impostando il valore google-monitoring-enabled su true nella sezione dei metadati personalizzati.

Per abilitare il monitoraggio durante la creazione di un'istanza:

gcloud compute instances create instance-name \
    --image-family cos-stable \
    --image-project cos-cloud \
    --metadata google-monitoring-enabled=true

Per abilitare il monitoraggio in un'istanza esistente:

gcloud compute instances add-metadata instance-name \
    --metadata google-monitoring-enabled=true

A partire da milestone 97, il monitoraggio può essere abilitato nei metadati del progetto:

gcloud compute project-info add-metadata \
    --metadata google-monitoring-enabled=true

Dopo l'esecuzione, il servizio di rilevamento dei problemi del nodo verrà attivato.

Utilizzo di criteri guest definiti dall'utente

Container-Optimized OS include agente di configurazione del sistema operativo, che utilizza le utilità di sistema del sistema operativo per mantenere lo stato per la VM specificata nel criterio guest. Per informazioni sui criteri guest, vedi Abilitare l'agente OS Config e Creare un criterio guest. Il seguente criterio guest abilita l'agente rilevatore di problemi dei nodi in tutte le istanze.

recipes:
- name: recipe-enable-npd
  desiredState: INSTALLED
  installSteps:
  - scriptRun:
      interpreter: SHELL
      script: |-
        #!/bin/bash
        systemctl start node-problem-detector

Visualizzazione delle metriche raccolte

Il rilevatore di problemi di nodi segnala un elenco di metriche rispetto a una risorsa monitorata un'istanza Compute Engine. Le metriche sono documentate in Monitoraggio dell'elenco delle metriche, preceduto dal prefisso compute.googleapis.com/guest/. Puoi visualizzare le metriche raccolte utilizzando Monitoring Metrics Explorer:

  1. In Google Cloud Console, vai a Monitoring o utilizza il seguente pulsante:

    Vai a Monitoring

  2. Nel riquadro di navigazione di Monitoring, fai clic su Metrics Explorer.

  3. Per il tipo di risorsa, seleziona Istanza VM di Compute Engine.

  4. Seleziona una metrica, ad esempio "Conteggio problemi".

  5. Dovresti vedere grafici e statistiche sul lato destro. Per visualizzare il risultato per un'istanza sistema operativo ottimizzata per i container, imposta il filtro su "instance_id=[INSTANCE_ID]", sostituendo [INSTANCE_ID] con l'ID dell'istanza che ti interessa.

Disabilitazione del monitoraggio dello stato di integrità

Per disabilitare il servizio che è già stato abilitato tramite cloud-config o tramite lo script di avvio, rimuovi il passaggio systemctl start node-problem-detector e riavvia l'istanza di Container-Optimized OS. Se abilitato dai metadati, assicurati che la chiave google-monitoring-enabled sia impostata su false.