Incidenti per i criteri di avviso basati su metriche

Un incidente è un record del momento in cui sono soddisfatte le condizioni o le condizioni di un criterio di avviso. In genere, se le condizioni sono soddisfatte, Cloud Monitoring apre un incidente e invia una notifica. Tuttavia, gli incidenti non vengono creati quando il criterio viene posticipato o disattivato, se si verificano troppi incidenti aperti per il criterio in questione o quando la risorsa sottostante è nota per essere disabilitata. Inoltre, quando un criterio di avviso contiene più condizioni, il criterio di avviso specifica se soddisfare una condizione è sufficiente per causare la creazione di un incidente.

Questo documento descrive come visualizzare, esaminare e gestire gli incidenti per i criteri di avviso basati su metriche.

Prima di iniziare

Assicurati di disporre delle autorizzazioni necessarie:

Per ulteriori informazioni sui ruoli di Cloud Monitoring, consulta Controllare l'accesso con Identity and Access Management.

Trova incidenti

Per visualizzare un elenco degli incidenti:

  1. Nel pannello di navigazione della console Google Cloud, seleziona Monitoring e poi  Avvisi:

    Vai ad Avvisi

    • Il riquadro Riepilogo elenca il numero di incidenti aperti.
    • Il riquadro Incidenti mostra gli incidenti aperti più recenti. Per elencare gli incidenti più recenti nella tabella, inclusi quelli chiusi, fai clic su Mostra incidenti chiusi.
  2. (Facoltativo) Per visualizzare i dettagli di un incidente specifico, seleziona l'incidente nell'elenco. Si apre la pagina Dettagli incidente. Per informazioni su questa pagina, consulta la sezione Indagare sugli incidenti di questa pagina.

Trova incidenti meno recenti

Il riquadro Incidenti nella pagina Avvisi mostra gli incidenti aperti più recenti. Per individuare gli incidenti meno recenti, esegui una delle seguenti operazioni:

  • Per scorrere le voci nella tabella Incidenti, fai clic su  Più recenti o  Meno recenti.

  • Per accedere alla pagina Incidenti, fai clic su Visualizza tutti gli incidenti. Dalla pagina Incidenti, puoi fare quanto segue:

    • Mostra incidenti chiusi: per elencare tutti gli incidenti nella tabella, fai clic su Mostra incidenti chiusi.
    • Filtra incidenti: per informazioni sull'aggiunta di filtri, consulta Filtrare gli incidenti.
    • Conferma o chiudi un incidente oppure posticipa il relativo criterio di avviso. Per accedere a queste opzioni, fai clic su  Altre opzioni nella riga dell'incidente e seleziona una voce dal menu. Per maggiori informazioni, consulta Gestire gli incidenti.

Filtra incidenti

Quando inserisci un valore nella barra dei filtri, nella tabella Incidenti vengono elencati solo gli incidenti corrispondenti al filtro. Se aggiungi più filtri, un incidente viene visualizzato solo se soddisfa tutti i filtri.

Per aggiungere un filtro alla tabella degli incidenti:

  1. Nella pagina Incidenti, fai clic su  Filtra tabella e seleziona una proprietà di filtro. Le proprietà di filtro includono quanto segue:

    • Stato dell'incidente
    • Nome del criterio di avviso
    • Quando l'incidente è stato aperto o chiuso.
    • Tipo di metrica
    • Tipo di risorsa
  2. Seleziona un valore dal menu secondario o inserisci un valore nella barra dei filtri.

    Ad esempio, se selezioni Tipo di metrica e inserisci usage_time, potresti vedere solo le seguenti opzioni nel menu secondario:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

Indagare gli incidenti

Dopo aver individuato l'incidente da esaminare, vai alla relativa pagina Dettagli incidente. Per visualizzare i dettagli, seleziona il riepilogo degli incidenti nella tabella degli incidenti nella pagina Avvisi o nella pagina Incidenti.

In alternativa, se hai ricevuto una notifica che include un link all'incidente, puoi utilizzare quel link per visualizzare i dettagli dell'incidente.

La pagina Dettagli incidente fornisce le seguenti informazioni:

  • Informazioni sullo stato, tra cui:

    • Nome: il nome del criterio di avviso che ha causato l'incidente.
    • Stato: lo stato dell'incidente: aperto, confermato o chiuso.
    • Gravità: la gravità dell'incidente.
      • Nessuna gravità
      • Critico
      • Errore
      • Avviso
    • Durata: il periodo di tempo in cui l'incidente è stato aperto.
  • Informazioni sul criterio di avviso che ha causato l'incidente:

    • Riquadro Condizione: identifica la condizione nel criterio di avviso che ha causato l'incidente.

    • Riquadro Messaggio: fornisce una breve spiegazione della causa in base alla configurazione della condizione nel criterio di avviso. Questo riquadro viene sempre compilato.

    • Riquadro Documentazione: mostra il modello di documentazione per le notifiche che hai fornito durante la creazione del criterio di avviso. Queste informazioni potrebbero includere una descrizione di ciò che viene monitorato dal criterio di avviso e includere suggerimenti per la mitigazione.

      Se hai saltato questo campo durante la creazione del criterio di avviso, questo riquadro indicherà "Nessuna documentazione configurata".

  • Etichette: segnala quanto segue:
    • Le etichette e i valori per la risorsa e la metrica monitorate della serie temporale che ha causato l'incidente. Queste informazioni possono aiutarti a identificare la specifica risorsa monitorata che ha causato l'incidente.

      Quando utilizzi le variabili nella documentazione per le etichette delle metriche, Monitoring omette l'etichetta nelle notifiche quando il valore dell'etichetta non inizia con un numero, una lettera, una barra (/) o un segno di uguale (=).

    • Qualsiasi etichetta e valore specificato dall'utente che hai definito nel criterio di avviso. Puoi utilizzare queste etichette per organizzare e identificare i criteri di avviso. Le etichette associate a un criterio sono elencate nella sezione Etichette dei criteri, mentre le etichette definite come parte di una condizione sono elencate nella sezione Etichette delle metriche. Le etichette dei metadati vengono visualizzate solo quando esiste un filtro o un raggruppamento che dipende dall'etichetta. Per maggiori informazioni, consulta Aggiungere annotazioni agli avvisi con etichette.

La pagina Dettagli incidente fornisce anche gli strumenti per indagare sull'incidente:

  • Cronologia dell'incidente: mostra due rappresentazioni visive dell'incidente:

    • Nella sequenza temporale, una barra rossa rappresenta il tempo di un incidente; la lunghezza e la posizione della barra riflettono la durata dell'incidente.
    • Un grafico mostra la soglia e i dati delle serie temporali utilizzati dal criterio di avviso che ha causato l'incidente. L'incidente è stato aperto quando alcune serie temporali hanno soddisfatto una condizione del criterio di avviso.

    L'asse temporale indica la durata dell'incidente con due punti etichettati. La posizione di questi punti sull'asse temporale determina l'intervallo di dati visualizzati sul grafico che accompagna la sequenza temporale dell'incidente. Per impostazione predefinita, viene posizionato un punto all'apertura dell'incidente e uno alla fine dell'incidente oppure nell'ora attuale se l'incidente è ancora aperto.

    Puoi modificare l'intervallo di tempo nella sequenza temporale dell'incidente e nel grafico:

    • Per modificare l'intervallo di tempo visualizzato nel grafico, trascina uno dei due punti lungo l'asse temporale. Utilizzando questa tecnica, puoi concentrarti su intervalli specifici, ad esempio intorno all'inizio o alla fine dell'incidente.

      Se modifichi il grafico trascinando i punti sull'asse, viene impostato un valore personalizzato nel menu Intervallo di tempo e il menu viene disattivato. Per attivare il menu Intervallo di tempo, fai clic su Reimposta.

    • Per modificare l'intervallo di tempo visualizzato nella sequenza temporale, seleziona un intervallo dal menu Intervallo di tempo.
  • Link ad altri strumenti per la risoluzione dei problemi. La configurazione del progetto e del criterio di avviso e l'età dell'incidente determinano i collegamenti disponibili.
    • Per visualizzare la pagina dei dettagli del criterio di avviso, fai clic su Visualizza criterio.
    • Per modificare la definizione del criterio di avviso, fai clic su Modifica criterio.
    • Per accedere a una dashboard con informazioni sulle prestazioni della risorsa, fai clic su Visualizza dettagli risorsa.
    • Per visualizzare le voci di log correlate in Esplora log, fai clic su Visualizza log. Per maggiori informazioni, consulta Visualizzare i log utilizzando Esplora log.
    • Per esaminare i dati nel grafico, fai clic su Visualizza in Metrics Explorer.
  • Annotazioni: fornisce un log dei risultati, dei risultati, dei suggerimenti o di altri commenti della tua indagine sull'incidente.
    • Per aggiungere un'annotazione, inserisci il testo nel campo e fai clic su Aggiungi commento.
    • Per ignorare il commento, fai clic su Annulla.

Gestisci incidenti

Gli incidenti hanno uno dei seguenti stati:

  • Aperto: L'insieme di condizioni del criterio di avviso è soddisfatto o non ci sono dati che indicano che la condizione non è più soddisfatta. Se un criterio di avviso contiene più condizioni, gli incidenti vengono aperti in base a come vengono combinate queste condizioni. Per maggiori informazioni, consulta la sezione Norme con più condizioni.

  • Confermato: l'incidente è aperto ed è stato contrassegnato manualmente come confermato. In genere, questo stato indica che l'incidente è in fase di indagine.

  • Chiuso: Il sistema ha rilevato che la condizione non è più soddisfatta, hai chiuso l'incidente o sono trascorsi 7 giorni senza aver osservato che la condizione continuava a essere soddisfatta.

Quando configuri un criterio di avviso, assicurati che lo stato stabile fornisca un segnale quando tutto va bene. Questo è necessario per garantire che sia possibile identificare lo stato senza errori e, se un incidente è aperto, affinché venga chiuso. Se non esiste un segnale che indichi che una condizione di errore si è arrestata, dopo l'apertura di un incidente, quest'ultimo rimane aperto per 7 giorni dopo l'attivazione del criterio di avviso.

Ad esempio, se crei un criterio di avviso che ti avvisa quando il numero di errori è maggiore di 0, assicurati che produca un conteggio pari a 0 errori se non sono presenti errori. Se il criterio di avviso restituisce null o vuoto nello stato senza errori, non esiste nessun segnale che indichi quando gli errori sono stati interrotti. In alcune situazioni, Monitoring Query Language (MQL) supporta la possibilità di specificare un valore predefinito da utilizzare quando non è disponibile un valore misurato. Per un esempio, consulta la sezione Utilizzare le proporzioni.

Riconoscere gli incidenti

Ti consigliamo di contrassegnare un incidente come confermato quando inizi a ricercare la causa.

Per contrassegnare un incidente come confermato:

  • Nel riquadro Incidenti della pagina Avvisi, fai clic su Visualizza tutti gli incidenti.
  • Nella pagina Incidenti, trova l'incidente che vuoi confermare, quindi esegui una delle seguenti operazioni:

    • Fai clic su  Altre opzioni, quindi seleziona Accetta.
    • Apri la pagina dei dettagli dell'incidente, quindi fai clic su Accetta incidente.

Se il criterio di avviso è configurato per inviare notifiche ripetute, la conferma di un incidente non interrompe le notifiche. Per interromperli, esegui una delle seguenti operazioni:

  • Crea un posticipo per il criterio di avviso.
  • Disabilita il criterio di avviso.

Posticipare un criterio di avviso

Per impedire a Monitoring di creare incidenti e inviare notifiche durante un periodo di tempo specifico, posticipa il criterio di avviso correlato. Quando posticipi un criterio di avviso, Monitoring chiude anche tutti gli incidenti correlati a quel criterio.

Per creare una posticipazione per un incidente che stai visualizzando:

  1. Nella pagina Dettagli incidente, fai clic su Posticipa.

  2. Seleziona la durata del posticipo. Dopo aver selezionato la durata della posticipazione, la posticipazione inizia immediatamente.

Quando visualizzi la pagina dei dettagli di un incidente, puoi creare un posticipo per il criterio di avviso correlato facendo clic su Posticipa e scegliendo una durata. La posticipazione inizia immediatamente. Puoi anche posticipare un criterio di avviso dalla pagina Incidenti individuando l'incidente che vuoi posticipare, facendo clic su  Altre opzioni e selezionando Posticipa. Puoi posticipare i criteri di avviso durante le interruzioni per evitare ulteriori notifiche durante la procedura di risoluzione dei problemi.

Chiudi incidenti

Puoi consentire a Monitoring di chiudere un incidente per conto tuo oppure puoi farlo quando le osservazioni smettono di arrivare. Se chiudi un incidente e poi arrivano i dati che indicano che la condizione è soddisfatta, viene creato un nuovo incidente. La chiusura di un incidente non chiude altri incidenti aperti per la stessa condizione. Se posticipi un criterio di avviso, gli incidenti aperti vengono chiusi all'inizio della posticipazione.

Il monitoraggio chiude automaticamente un incidente quando si verifica una delle seguenti condizioni:

  • Condizioni di soglia di metriche:

    • Arriva un'osservazione che indica che la soglia non è stata violata.
    • Non arriva alcuna osservazione, la condizione è configurata in modo da chiudere gli incidenti quando smettono di arrivare le osservazioni e lo stato della risorsa sottostante è sconosciuto o non è disabilitato.

    • Non arriva alcuna osservazione per la durata della chiusura automatica del criterio di avviso e la condizione non è configurata in modo da chiudere automaticamente gli incidenti quando le osservazioni smettono di arrivare. Per configurare la durata di chiusura automatica, puoi utilizzare la console Google Cloud o l'API Cloud Monitoring. Per impostazione predefinita, la durata della chiusura automatica è di sette giorni. La durata minima della chiusura automatica è di 30 minuti.

  • Condizioni per l'assenza di metriche:

    • Si verifica un'osservazione.
    • Non arriva alcuna osservazione per 24 ore dopo la scadenza della durata di chiusura automatica del criterio di avviso. Per configurare la durata della chiusura automatica, puoi utilizzare la console Google Cloud o l'API Cloud Monitoring. Per impostazione predefinita, la durata della chiusura automatica è di sette giorni.
  • Condizioni di previsione:

    • Viene generata una previsione che prevede che le serie temporali non violeranno la soglia all'interno della finestra di previsione.
    • Non arriva alcuna osservazione per 10 minuti, la condizione è configurata in modo da chiudere gli incidenti quando smettono di arrivare le osservazioni e lo stato della risorsa sottostante è sconosciuto o non è disabilitato.

    • Non arriva alcuna osservazione per la durata della chiusura automatica del criterio di avviso e la condizione non è configurata in modo da chiudere automaticamente gli incidenti quando le osservazioni smettono di arrivare.

Ad esempio, un criterio di avviso ha generato un incidente perché la latenza della risposta HTTP era superiore a 2 secondi per 10 minuti consecutivi. Se la misurazione successiva della latenza della risposta HTTP è inferiore o uguale a 2 secondi, l'incidente viene chiuso. Allo stesso modo, se non si ricevono dati per sette giorni, l'incidente viene chiuso.

Per chiudere un incidente:

  1. Nel riquadro Incidenti della pagina Avvisi, fai clic su Visualizza tutti gli incidenti.
  2. Nella pagina Incidenti, trova l'incidente che vuoi chiudere, quindi esegui una delle seguenti operazioni:

    • Fai clic su  Visualizza altro e seleziona Chiudi incidente.
    • Apri la pagina dei dettagli dell'incidente e fai clic su Chiudi incidente.

Se viene visualizzato il messaggio Unable to close incident with active conditions, non è possibile chiudere l'incidente perché i dati sono stati ricevuti entro il periodo di avviso più recente.

Se visualizzi il messaggio Unable to close incident. Please try again in a few minutes., non è stato possibile chiudere l'incidente a causa di un errore interno.

Conservazione e limiti dei dati

Per informazioni sui limiti e sul periodo di conservazione degli incidenti, consulta Limiti per gli avvisi.

Passaggi successivi

* Per un trattamento concettuale dettagliato dei criteri di avviso, consulta Comportamento dei criteri di avviso basati su metriche.