Monitoraggio dell'integrità del sistema con rilevatore problemi nodo

A partire da Milestone 77, Container-Optimized OS include Rilevamento problemi dei nodi un agente. Puoi utilizzare questa funzionalità per monitorare l'integrità del sistema delle istanze COS. Il rilevatore di problemi dei nodi monitora l'integrità dell'istanza e segnala l'integrità a Cloud Monitoring, incluse le metriche di capacità ed errore che che potrai quindi visualizzare con le dashboard di Google Cloud Observability. Le metriche raccolte dalla configurazione predefinita sono gratuite. Google utilizzerà metriche aggregate per a comprendere i problemi relativi ai nodi e a migliorare l'affidabilità di Container-Optimized OS.

L'agente è preconfigurato con l'insieme di metriche da esportare. Personalizzazione delle metriche dei report per l'agente integrato non è attualmente supportato. Rilevamento problemi nodo corrente: software open source. Puoi esaminare le sue codice sorgente e configurazioni nei rispettivi repository di origine.

Abilitazione del monitoraggio dello stato di integrità in corso...

L'agente rilevatore problemi nodo è disabilitato per impostazione predefinita al momento dell'avvio. Puoi attivare questa funzionalità utilizzando:

Utilizzo di uno script di avvio

Puoi abilitare il rilevatore dei problemi dei nodi utilizzando un'interfaccia script di avvio.

Utilizzo di cloud-init

L'esempio cloud-init spiega le nozioni di base della configurazione di un'istanza di Container-Optimized OS. Puoi usa cloud-init per abilitare il monitoraggio dello stato di integrità con i seguenti cloud-config esempio:

#cloud-config

runcmd:
- systemctl start node-problem-detector

Utilizzo dei metadati

In Container-Optimized OS Milestone 88 e versioni successive, il rilevatore di problemi dei nodi può può essere attivata anche impostando il valore di google-monitoring-enabled su true in nella sezione dei metadati personalizzati.

Per abilitare il monitoraggio durante la creazione di un'istanza:

gcloud compute instances create VM_NAME \
    --image=IMAGE \
    --image-project=cos-cloud \
    --metadata=google-monitoring-enabled=true

Sostituisci quanto segue:

  • VM_NAME: il nome della nuova VM
  • IMAGE: solo una specifica versione di un'immagine Container-Optimized OS pubblica. Ad esempio, --image=cos-113-18244-85-29.

Per abilitare il monitoraggio in un'istanza esistente:

gcloud compute instances add-metadata VM_NAME \
    --metadata=google-monitoring-enabled=true

Sostituisci VM_NAME con il nome della VM.

A partire da milestone 97, il monitoraggio può essere abilitato nei metadati di progetto:

gcloud compute project-info add-metadata \
    --metadata google-monitoring-enabled=true

Dopo l'esecuzione, il servizio di rilevamento dei problemi del nodo verrà abilitato.

Utilizzo dei criteri relativi agli ospiti definiti dall'utente

Container-Optimized OS include l'agente OS Config, che utilizza utilità di sistema del sistema operativo per mantenere lo stato della VM specificato nel criterio guest. Per maggiori dettagli sui criteri relativi agli ospiti, consulta Abilitare l'agente OS Config e Creare un ospite . Il seguente criterio guest abilita l'agente rilevatore di problemi dei nodi su tutte le istanze.

recipes:
- name: recipe-enable-npd
  desiredState: INSTALLED
  installSteps:
  - scriptRun:
      interpreter: SHELL
      script: |-
        #!/bin/bash
        systemctl start node-problem-detector

Visualizzare le metriche raccolte

Il rilevatore di problemi con i nodi segnala un elenco di metriche rispetto a un Risorsa monitorata dell'istanza Compute Engine. Le metriche sono documentate Elenco delle metriche di monitoraggio, con prefisso con compute.googleapis.com/guest/. Puoi visualizzare le metriche raccolte utilizzando Esplora metriche di Monitoring:

  1. Nella console Google Cloud, vai a Monitoring o utilizza seguente pulsante:

    Vai a Monitoring

  2. Nel riquadro di navigazione di Monitoring, fai clic su Metrics Explorer.

  3. Per il tipo di risorsa, seleziona Istanza VM di Compute Engine.

  4. Seleziona una metrica, ad esempio "Conteggio problemi".

  5. I grafici e le statistiche dovrebbero essere visualizzati sul lato destro. Per visualizzare il risultato per un'istanza di Container-Optimized OS specifica, imposta il filtro su "instance_id=[INSTANCE_ID]", sostituzione di [INSTANCE_ID] con l'ID dell'istanza desiderata.

Disabilitazione del monitoraggio di integrità in corso...

Per disattivare il servizio che è già stato attivato tramite il tuo cloud-config o tramite lo script di avvio, rimuovi il passaggio systemctl start node-problem-detector, quindi riavvia Istanza Container-Optimized OS. Se abilitato da metadata, assicurati che il valore La chiave google-monitoring-enabled è impostata su false.