Incidenti per i criteri di avviso basati su metriche

Un incidente è un record che indica quando viene soddisfatta la condizione o le condizioni di un criterio di avviso. In genere, quando le condizioni sono soddisfatte, Cloud Monitoring apre un incidente e invia una notifica. Tuttavia, gli incidenti non vengono creati quando il criterio viene posticipato o disattivato, quando sono presenti troppi incidenti aperti per quel criterio o quando la risorsa di base è nota per essere disattivata. Inoltre, quando un criterio di avviso contiene più condizioni, il criterio di avviso specifica se una determinata condizione è sufficienti per causare la creazione di un incidente. Un incidente è un record di quando è soddisfatta la condizione di un criterio di avviso. In genere, quando una condizione è soddisfatta, Cloud Monitoring apre un incidente e invia una notifica quando viene ricevuto un log che corrisponde alla condizione il criterio di avviso. Tuttavia, gli incidenti non vengono creati nelle seguenti circostanze:

  • Il criterio è in posticipazione o disattivato.
  • La frequenza massima di notifiche supererebbe il limite di 1 notifica ogni 5 minuti per ogni criterio di avviso basato su log.
  • Il totale giornaliero delle notifiche supererebbe il limite di 20 notifiche al giorno per ogni criterio di avviso basato su log.

Per ogni incidente, Monitoring crea dettagli incidente pagina che ti permette di gestire l'incidente e che riporta le relative informazioni che può aiutarti a risolvere l'errore. Ad esempio, la pagina Dettagli incidente mostra la cronologia dell'incidente e che mostra i dati della metrica monitorati. Puoi anche trovare link che rimandano a a incidenti e voci di log correlati.

Questo documento descrive come individuare gli incidenti. Descrive inoltre come utilizzare la pagina Dettagli incidente per gestire incidenti per criteri di avviso basati su metriche, che valutano i dati delle serie temporali archiviati da Cloud Monitoring.

Prima di iniziare

Assicurati di disporre delle autorizzazioni necessarie:

Per ottenere le autorizzazioni necessarie per visualizzare e gestire gli incidenti utilizzando la console Google Cloud, chiedi all'amministratore di concederti i seguenti ruoli IAM nel tuo progetto:

Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite la ruoli o altri ruoli predefiniti ruoli.

Per ulteriori informazioni sui ruoli di Cloud Monitoring, consulta Controllare l'accesso con Identity and Access Management.

Individua incidenti

Per visualizzare un elenco di incidenti nel tuo progetto Google Cloud, segui questi passaggi:

  1. Nella console Google Cloud, vai alla pagina  Avvisi:

    Vai ad Avvisi

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.

    • Il riquadro Riepilogo elenca il numero di incidenti aperti.
    • Il riquadro Incidenti mostra gli incidenti aperti più recenti. Per elencare nella tabella gli incidenti più recenti, inclusi quelli chiusi, fai clic su Mostra incidenti chiusi.
  2. Per visualizzare i dettagli di un incidente specifico, seleziona l'icona incidente nell'elenco.

    Si apre la pagina Dettagli incidente. Per ulteriori informazioni sui Dettagli incidente, consulta Sezione Indaga su un incidente di questa pagina.

Trovare incidenti meno recenti

Il riquadro Incidenti nella pagina Avvisi mostra gli incidenti aperti più recenti. Per individuare gli incidenti precedenti, esegui una delle seguenti operazioni:

  • Per scorrere le voci nella tabella Incidenti, fai clic su  Più recenti o  Più vecchi.

  • Per accedere alla pagina Incidenti, fai clic su Visualizza tutti gli incidenti. Da Nella pagina Incidenti, puoi effettuare tutte le seguenti operazioni:

    • Mostra incidenti chiusi: per elencare tutti gli incidenti nella tabella, fai clic su Mostra incidenti chiusi.
    • Filtra gli incidenti: per informazioni sull'aggiunta di filtri, consulta Filtra gli incidenti.
    • Conferma o chiudi un incidente oppure posticipa il relativo criterio di avviso. Per accedere a queste opzioni, fai clic su  Altre opzioni nella riga dell'incidente e fai una selezione dal menu. Per saperne di più, consulta Gestire gli incidenti.

Filtra incidenti

Quando inserisci un valore nella barra dei filtri, vengono rilevati solo gli incidenti che corrispondono sono elencati nella tabella Incidenti. Se aggiungi più filtri, un incidente viene visualizzato solo se soddisfa tutti i filtri.

Per aggiungere un filtro alla tabella degli incidenti:

  1. Nella pagina Incidenti, fai clic su  Filtra tabella e poi seleziona una proprietà filtro. Le proprietà di filtro includono tutte le seguenti:

    • Stato dell'incidente
    • Nome del criterio di avviso
    • Quando l'incidente è stato aperto o chiuso
    • Tipo di metrica
    • Tipo di risorsa
  2. Seleziona un valore dal menu secondario o inseriscine uno nella barra dei filtri.

    Ad esempio, se selezioni Tipo di metrica e inserisci usage_time, nel menu secondario potresti visualizzare solo le seguenti opzioni:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    
di Gemini Advanced.

Esaminare un incidente

La pagina Dettagli incidente contiene informazioni che possono aiutarti a identificare causa di un incidente.

Esplorare i dati delle metriche

Per analizzare lo stato della metrica prima e dopo l'evento, utilizza il grafico Metriche avviso. Questo grafico mostra una cronologia e serie temporale che ha causato la condizione del criterio di avviso da soddisfare.

Puoi regolare l'intervallo della sequenza temporale per cercare tendenze e pattern nella tua dati delle metriche relativi all'incidente:

  • Per passare dalla visualizzazione solo della serie temporale che ha causato il verificarsi della condizione alla visualizzazione di tutte le serie temporali valutate dalla condizione, fai clic su Mostra tutte le serie temporali.

  • Per modificare l'intervallo di tempo visualizzato dal grafico, puoi utilizzare il selettore di intervallo di tempo nella barra degli strumenti o evidenziare gli intervalli di tempo sul grafico con il cursore.

Puoi anche analizzare i dati delle metriche in modo più dettagliato visualizzandoli in Metrics Explorer. Per farlo, vai al grafico Metriche avviso e fai clic su Esplora dati. Per impostazione predefinita, l'esploratore delle metriche aggrega e filtra i dati delle metriche in modo che il grafico delle metriche sia in linea con la serie temporale mostrata nella cronologia Metriche avviso.

Esplora le voci di log

Riquadro Log nella pagina Dettagli incidente mostra le voci di log corrispondenti al tipo di risorsa e alle etichette della risorsa monitorata per la metrica. Puoi analizzare queste voci di log per trovare ulteriori informazioni che potrebbero aiutarti a risolvere l'incidente.

  • Per visualizzare le voci di log in Esplora log, fai clic su Visualizza in Esplora log e seleziona un progetto di ambito. Esplora log fornisce strumenti aggiuntivi per analizzare i dati delle voci di log, come una sequenza temporale relativa alla creazione delle voci di log correlate.
  • Per visualizzare e modificare la query utilizzata per filtrare le voci di log nella Esplora metriche, fai clic su Esplora i dati.

Visualizza informazioni supplementari

La sezione Etichette mostra le etichette e i valori per la risorsa monitorata. e la metrica delle serie temporali che ha causato l'incidente, nonché le etichette utente definita nel criterio di avviso. Queste informazioni possono aiutarti a identificare lo specifico alla risorsa che ha causato l'incidente. Per ulteriori informazioni, consulta la sezione Annotare gli incidenti con le etichette.

La sezione Documentazione mostra il modello di documentazione per le notifiche che hai fornito durante la creazione del criterio di avviso. Queste informazioni potrebbero includere una descrizione di ciò che viene monitorato dalle norme relative agli avvisi e suggerimenti per la mitigazione. Per saperne di più, consulta la sezione Annotare le notifiche con la documentazione definita dall'utente.

Se non hai configurato la documentazione per il criterio di avviso, nel riquadro Documentazione viene visualizzato il messaggio "Nessuna documentazione configurata".

Per aiutarti a scoprire i problemi sottostanti nella tua applicazione, puoi esaminare gli incidenti relativi ad altre condizioni delle norme relative agli avvisi.

La sezione Incidenti correlati mostra un elenco di incidenti. che corrispondono a uno dei seguenti criteri:

  • L'incidente è stato creato quando è stata soddisfatta una condizione dello stesso criterio di avviso.
  • L'incidente condivide un'etichetta con l'incidente mostrato nella pagina dettagli dell'incidente.

Gestisci incidenti

Gli incidenti si verificano in uno dei seguenti stati:

  •  Aperto: l'insieme di condizioni del criterio di avviso è soddisfatto o non sono disponibili dati per indicare che la condizione non è più soddisfatta. Se un criterio di avviso contiene più condizioni, gli incidenti vengono aperti, su come vengono combinate queste condizioni. Per ulteriori informazioni, consulta Criteri con più condizioni.

  •  Confermato: l'incidente è aperto e è stato contrassegnato manualmente come confermato. In genere, Questo stato indica che l'incidente è in fase di indagine.

  •  Chiuso: il sistema ha rilevato che la condizione non è più soddisfatta, hai chiuso l'incidente o sono trascorsi 7 giorni senza un'osservazione che la condizione continui a essere soddisfatta.

di Gemini Advanced. Quando configuri un criterio di avviso, assicurati che lo stato stabile fornisce un segnale quando è tutto a posto. Questa operazione è necessaria per garantire lo stato privo di errori può essere identificato e, se un incidente è aperto, per l'incidente da chiudere. Se non viene segnalato alcun errore, la condizione rimane attiva dopo l'apertura dell'incidente per 7 giorni dopo l'attivazione del criterio di avviso.

Ad esempio, se crei un criterio di avviso che ti invia una notifica quando il conteggio degli errori è maggiore di 0, assicurati che produca un conteggio di 0 errori quando non sono presenti errori. Se il criterio di avviso restituisce null o è vuoto nello stato senza errori, non è presente alcun segnale che indichi quando gli errori sono stati interrotti. In alcune situazioni, Monitoring Query Language (MQL) supporta possibilità di specificare un valore predefinito da utilizzare quando non è presente alcun valore misurato è disponibile. Ad esempio, consulta Utilizza rapporto.

Confermare gli incidenti

Ti consigliamo di contrassegnare un incidente come confermato quando inizi indaga sulla causa dell'incidente.

Per contrassegnare un incidente come confermato:

  1. Nel riquadro Incidenti della pagina Avvisi, fai clic su Visualizza tutti gli incidenti.
  2. Nella pagina Incidenti, individua l'incidente che vuoi confermare e poi esegui una delle seguenti operazioni:

    • Fai clic su  Altre opzioni e seleziona Accetta.
    • Apri la pagina dei dettagli dell'incidente e fai clic su Accetta l'incidente.

Se il criterio di avviso è configurato su inviare notifiche ripetute e poi confermare un l'incidente non interrompe le notifiche. Per interromperle, procedi in uno dei seguenti modi:

  • Crea una posticipazione per il criterio di avviso.
  • Disattiva il criterio di avviso.

Posticipare un criterio di avviso

Per impedire a Monitoring di creare incidenti e inviare notifiche durante un periodo di tempo specifico, posticipa il relativo criterio di avviso. Quando posticipi un criterio di avviso, Monitoring chiude anche tutti gli incidenti correlati al criterio.

Per creare una posticipazione per un incidente che stai visualizzando:

  1. Nella pagina Dettagli incidente, fai clic su Criteri di posticipazione.

  2. Seleziona la durata della posticipazione. Dopo aver selezionato la durata della posticipazione, inizia immediatamente.

Puoi anche posticipare un criterio di avviso dalla pagina Incidenti trovando l'incidente che vuoi posticipare, facendo clic  Altre opzioni, quindi seleziona Posticipa. Puoi posticipare i criteri di avviso durante le interruzioni per evitare ulteriori notifiche durante la procedura di risoluzione dei problemi.

Chiudere gli incidenti

Puoi consentire a Monitoring di chiudere un incidente per te oppure chiudere un incidente dopo che le osservazioni hanno smesso di arrivare. Se chiudi un incidente e arrivano dati che indicano che la condizione è soddisfatta, viene creato un nuovo incidente. Quando chiudi un incidente, l'azione non chiude gli altri incidenti aperti per il la stessa condizione. Se posticipi un criterio di avviso, gli incidenti aperti vengono chiusi quando inizia la posticipazione.

Il monitoraggio chiude automaticamente un incidente quando si verifica uno dei seguenti eventi:

  • Condizioni soglia metrica:

    • Arriva un'osservazione che indica che la soglia non è stata violata.
    • Nessuna osservazione, la condizione è configurata per chiudere gli incidenti all'interruzione delle osservazioni e lo stato della risorsa sottostante è sconosciuto o non è disattivato.

    • Non vengono ricevute osservazioni per la durata di chiusura automatica del criterio di avviso e la condizione non è configurata per chiudere automaticamente gli incidenti quando le osservazioni non arrivano più. Per configurare la durata della chiusura automatica, puoi utilizzare la console Google Cloud o l'API Cloud Monitoring. Per impostazione predefinita, la durata della chiusura automatica è per sette giorni. La durata minima della chiusura automatica è di 30 minuti.

  • Condizioni di assenza metrica:

    • Si verifica un'osservazione.
    • Non vengono ricevute osservazioni per 24 ore dopo la scadenza della durata della chiusura automatica del criterio di avviso. Per configurare la durata della chiusura automatica, puoi utilizzare la console Google Cloud o l'API Cloud Monitoring. Per impostazione predefinita, la durata della chiusura automatica è per sette giorni.
  • Condizioni di previsione:

    • Viene generata una previsione che prevede che la serie temporale non violi la soglia all'interno della finestra di previsione.
    • Non vengono ricevute osservazioni per 10 minuti, la condizione è configurata per chiudere gli incidenti quando le osservazioni non arrivano più e lo stato della risorsa sottostante è sconosciuto o non è disabilitato.

    • Non vengono ricevute osservazioni per la durata di chiusura automatica del criterio di avviso e la condizione non è configurata per chiudere automaticamente gli incidenti quando le osservazioni non arrivano più.

Ad esempio, un criterio di avviso ha generato un incidente perché La latenza della risposta HTTP è stata superiore a 2 secondi per 10 minuti. Se la misurazione successiva della latenza della risposta HTTP è inferiore a o uguale a due secondi, allora l'incidente è chiuso. Analogamente, se non vengono ricevuti dati per sette giorni, l'incidente viene chiuso.

Per chiudere un incidente:

  1. Nel riquadro Incidenti della pagina Avvisi, fai clic su Visualizza tutti gli incidenti.
  2. Nella pagina Incidenti, individua l'incidente che vuoi chiudere. quindi esegui una delle seguenti operazioni:

    • Fai clic su  Visualizza altro e poi seleziona Chiudi incidente.
    • Apri la pagina Dettagli incidente per l'incidente in questione. e fai clic su Chiudi incidente.
Se visualizzi il messaggio Unable to close incident with active conditions, l'incidente non può essere chiuso perché i dati sono stati ricevuti nel periodo di avviso più recente.

Se visualizzi il messaggio Unable to close incident. Please try again in a few minutes., l'incidente non è stato possibile chiuderlo a causa di un errore interno.

Conservazione dei dati e limiti

Per informazioni sui limiti e sul periodo di conservazione degli incidenti, consulta Limiti per gli avvisi.

Passaggi successivi