Questo documento descrive come visualizzare, esaminare e gestire gli incidenti per i criteri di avviso basati su metriche.
Prima di iniziare
Assicurati di disporre delle autorizzazioni necessarie:
-
Per ottenere le autorizzazioni necessarie per visualizzare gli incidenti utilizzando la console Google Cloud, chiedi all'amministratore di concederti i seguenti ruoli IAM nel tuo progetto:
-
Monitoring Cloud Console Incident Viewer (
roles/monitoring.cloudConsoleIncidentViewer
) (Visualizzatore incidenti console Cloud Monitoring) -
Visualizzatore account Stackdriver (
roles/stackdriver.accounts.viewer
)
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
-
Monitoring Cloud Console Incident Viewer (
-
Per ottenere le autorizzazioni necessarie per gestire gli incidenti utilizzando la console Google Cloud, chiedi all'amministratore di concederti i seguenti ruoli IAM nel tuo progetto:
-
Editor incidenti console Cloud Monitoring (
roles/monitoring.cloudConsoleIncidentEditor
) -
Visualizzatore account Stackdriver (
roles/stackdriver.accounts.viewer
)
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
-
Editor incidenti console Cloud Monitoring (
Per ulteriori informazioni sui ruoli di Cloud Monitoring, consulta Controllare l'accesso con Identity and Access Management.
Individua incidenti
Per visualizzare un elenco degli incidenti:
-
Nella console Google Cloud, vai alla pagina notifications Avvisi:
Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.
- Il riquadro Riepilogo elenca il numero di incidenti aperti.
- Il riquadro Incidenti mostra gli incidenti aperti più recenti. Per elencare gli incidenti più recenti nella tabella, inclusi quelli chiusi, fai clic su Mostra incidenti chiusi.
(Facoltativo) Per visualizzare i dettagli di un incidente specifico, seleziona l'incidente dall'elenco. Si apre la pagina Dettagli incidente. Per informazioni su questa pagina, consulta la sezione Esaminare gli incidenti di questa pagina.
Trovare incidenti meno recenti
Il riquadro Incidenti nella pagina Avvisi mostra gli incidenti aperti più recenti. Per individuare gli incidenti meno recenti, esegui una delle seguenti operazioni:
Per scorrere le voci nella tabella Incidenti, fai clic su arrow_back_ios Più recenti o arrow_forward_ios Meno recenti.
Per accedere alla pagina Incidenti, fai clic su Visualizza tutti gli incidenti. Nella pagina Incidenti puoi effettuare tutte le seguenti operazioni:
- Mostra incidenti chiusi: per elencare tutti gli incidenti nella tabella, fai clic su Mostra incidenti chiusi.
- Filtrare gli incidenti: per informazioni sull'aggiunta di filtri, consulta Filtrare gli incidenti.
- Conferma o chiudi un incidente oppure posticipa il relativo criterio di avviso. Per accedere a queste opzioni, fai clic su more_vert Altre opzioni nella riga dell'incidente ed effettua una selezione dal menu. Per maggiori informazioni, consulta Gestire gli incidenti.
Filtra incidenti
Quando inserisci un valore nella barra dei filtri, solo gli incidenti che corrispondono al filtro vengono elencati nella tabella Incidenti. Se aggiungi più filtri, un incidente viene visualizzato solo se soddisfa tutti i filtri.
Per aggiungere un filtro alla tabella degli incidenti:
Nella pagina Incidenti, fai clic su filter_list Filtra tabella e seleziona una proprietà di filtro. Le proprietà di filtro includono:
- Stato dell'incidente
- Nome del criterio di avviso
- Quando l'incidente è stato aperto o chiuso
- Tipo di metrica
- Tipo di risorsa
Seleziona un valore dal menu secondario o inserisci un valore nella barra dei filtri.
Ad esempio, se selezioni Tipo di metrica e inserisci
usage_time
, potresti vedere solo le seguenti opzioni nel menu secondario:agent.googleapis.com/cpu/usage_time compute.googleapis.com/guest/container/cpu/usage_time container.googleapis.com/container/cpu/usage_time
Esamina gli incidenti
Dopo aver trovato l'incidente su cui vuoi indagare, vai alla pagina Dettagli incidente corrispondente. Per visualizzare i dettagli, seleziona il riepilogo degli incidenti nella tabella degli incidenti della pagina Avvisi o Incidenti.
In alternativa, se hai ricevuto una notifica che include un link all'incidente, puoi utilizzare questo link per visualizzare i dettagli dell'incidente.
La pagina Dettagli incidente fornisce le seguenti informazioni:
Informazioni sullo stato, tra cui:
- Nome: il nome del criterio di avviso che ha causato questo incidente.
- Stato: lo stato dell'incidente: aperto, confermato o chiuso.
- Gravità: la gravità dell'incidente.
- Nessuna gravità
- Critico
- Errore
- Avviso
- Durata: il periodo di tempo durante il quale l'incidente è stato aperto.
Informazioni sul criterio di avviso che ha causato l'incidente:
Riquadro Condizione: identifica la condizione nel criterio di avviso che ha causato l'incidente.
Riquadro Messaggio: fornisce una breve spiegazione della causa in base alla configurazione della condizione nel criterio di avviso. Questo riquadro viene sempre compilato.
Riquadro Documentazione: mostra il modello di documentazione per le notifiche che hai fornito durante la creazione del criterio di avviso. Queste informazioni potrebbero includere una descrizione di ciò che viene monitorato dal criterio di avviso e includere suggerimenti per la mitigazione.
Se hai ignorato questo campo durante la creazione del criterio di avviso, nel riquadro viene visualizzato il messaggio "Nessuna documentazione configurata".
- Etichette: riporta quanto segue.
Le etichette e i valori per la risorsa e la metrica monitorate della serie temporale che ha causato l'incidente. Queste informazioni possono aiutarti a identificare la risorsa specifica monitorata che ha causato l'incidente.
Quando utilizzi variabili nella documentazione per le etichette delle metriche, Monitoring omette l'etichetta dalle notifiche quando il valore dell'etichetta non inizia con un numero, una lettera, una barra (
/
) o un segno di uguale (=
).- Qualsiasi etichetta e valore specificato dall'utente che hai definito nel criterio di avviso. Puoi utilizzare queste etichette per organizzare e identificare i criteri di avviso. Le etichette associate a un criterio sono elencate nella sezione Etichette dei criteri, mentre le etichette definite come parte di una condizione sono elencate nella sezione Etichette delle metriche. Le etichette dei metadati vengono visualizzate solo quando è presente un filtro o un raggruppamento che dipende dall'etichetta. Per maggiori informazioni, consulta Annotare gli avvisi con le etichette.
La pagina Dettagli incidenti fornisce inoltre strumenti per analizzare l'incidente:
-
Cronologia dell'incidente: mostra due rappresentazioni visive dell'incidente:
- Nella sequenza temporale, una barra rossa rappresenta il tempo di un incidente; la lunghezza e la posizione della barra riflettono la durata dell'incidente.
- Un grafico mostra la soglia e i dati della serie temporale utilizzati dal criterio di avviso che ha causato l'incidente. L'incidente è stato aperto quando alcune serie temporali soddisfacevano una condizione del criterio di avviso.
L'asse del tempo indica la durata dell'incidente con due punti etichettati. La posizione di questi punti sull'asse temporale determina l'intervallo di dati mostrati nel grafico che accompagna la sequenza temporale dell'incidente. Per impostazione predefinita, un punto è posizionato all'apertura dell'incidente e uno alla chiusura dell'incidente o all'ora attuale se l'incidente è ancora aperto.
Puoi modificare l'intervallo di tempo nella sequenza temporale dell'incidente e nel grafico:
-
Per modificare l'intervallo di tempo mostrato nel grafico, trascina uno dei punti lungo l'asse del tempo. Utilizzando questa tecnica, puoi concentrarti su intervalli specifici, ad esempio intorno all'inizio o alla fine dell'incidente.
Se modifichi il grafico trascinando i punti sull'asse, viene impostato un valore personalizzato nel menu Intervallo di tempo e il menu viene disattivato. Per attivare il menu Intervallo di tempo, fai clic su Reimposta.
- Per modificare l'intervallo di tempo mostrato sulla sequenza temporale, seleziona un intervallo dal menu Intervallo di tempo.
- Link ad altri strumenti per la risoluzione dei problemi. La configurazione del progetto, il criterio di avviso e l'età dell'incidente determinano quali link sono disponibili.
- Per visualizzare la pagina dei dettagli del criterio di avviso, fai clic su Visualizza criterio.
- Per modificare la definizione del criterio di avviso, fai clic su Modifica criterio.
- Per accedere a una dashboard con informazioni sulle prestazioni della risorsa, fai clic su Visualizza dettagli risorsa.
- Per visualizzare le voci di log correlate in Esplora log, fai clic su Visualizza log. Per maggiori informazioni, consulta Visualizzare i log utilizzando Esplora log.
- Per esaminare i dati nel grafico, fai clic su Visualizza in Esplora metriche.
- Annotazioni: fornisce un log di risultati, risultati, suggerimenti o altri commenti dell'indagine sull'incidente.
- Per aggiungere un'annotazione, inserisci il testo nel campo e fai clic su Aggiungi commento.
- Per ignorare il commento, fai clic su Annulla.
Gestisci incidenti
Gli incidenti si verificano in uno dei seguenti stati:
error Aperta: l'insieme di condizioni del criterio di avviso è soddisfatto o non esistono dati che indicano che la condizione non è più soddisfatta. Se un criterio di avviso contiene più condizioni, gli incidenti vengono aperti a seconda di come vengono combinate. Per maggiori informazioni, consulta Norme con più condizioni.
warning Confermato: l'incidente è aperto ed è stato contrassegnato manualmente come confermato. In genere, questo stato indica che l'incidente è in fase di indagine.
check_circle Chiuso: il sistema ha rilevato che la condizione non è più soddisfatta, hai chiuso l'incidente oppure sono trascorsi 7 giorni senza sapere che la condizione continuava a essere soddisfatta.
Ad esempio, se crei un criterio di avviso che ti avvisa quando il numero di errori è maggiore di 0, assicurati che venga generato un conteggio pari a 0 quando non sono presenti errori. Se il criterio di avviso restituisce un valore nullo o vuoto in stato privo di errori, non viene visualizzato alcun segnale che indichi quando gli errori sono stati interrotti. In alcune situazioni, Monitoring Query Language (MQL) supporta la possibilità di specificare un valore predefinito da utilizzare quando non è disponibile alcun valore misurato. Ad esempio, consulta Utilizza rapporto.
Conferma degli incidenti
Ti consigliamo di contrassegnare un incidente come confermato quando inizi a esaminarne la causa.
Per contrassegnare un incidente come confermato:
- Nel riquadro Incidenti della pagina Avvisi, fai clic su Visualizza tutti gli incidenti.
Nella pagina Incidenti, trova l'incidente che vuoi confermare ed esegui una delle seguenti operazioni:
- Fai clic su more_vert Altre opzioni, quindi seleziona Accetta.
- Apri la pagina dei dettagli dell'incidente e fai clic su Accetta l'incidente.
Se il criterio di avviso è configurato per inviare notifiche ripetute, la conferma di un incidente non interrompe le notifiche. Per interromperle, procedi in uno dei seguenti modi:
- Crea una posticipazione per il criterio di avviso.
- Disabilita il criterio di avviso.
Posticipare un criterio di avviso
Per impedire a Monitoring di creare incidenti e inviare notifiche durante un periodo di tempo specifico, posticipa il relativo criterio di avviso. Quando posticipi un criterio di avviso, Monitoring chiude anche tutti gli incidenti relativi a quel criterio.
Per creare una posticipazione per un incidente che stai visualizzando:
Nella pagina Dettagli incidente, fai clic su Posticipa.
Seleziona la durata della posticipazione. Una volta selezionata la durata, la posticipazione inizia immediatamente.
Quando visualizzi la pagina dei dettagli di un incidente, puoi creare una posticipazione per il criterio di avviso correlato facendo clic su Posticipa e scegliendo una durata. La posticipazione inizia immediatamente. Puoi anche posticipare un criterio di avviso dalla pagina Incidenti cercando l'incidente da posticipare, facendo clic su more_vert Altre opzioni e selezionando Posticipa. Puoi posticipare i criteri di avviso durante le interruzioni per impedire ulteriori notifiche durante la procedura di risoluzione dei problemi.
Chiudi incidenti
Puoi consentire a Monitoring di chiudere un incidente al posto tuo oppure chiudere un incidente dopo l'interruzione delle osservazioni. Se chiudi un incidente e arrivano i dati che indicano che la condizione è soddisfatta, viene creato un nuovo incidente. Quando chiudi un incidente, questa azione non chiude gli altri incidenti aperti per la stessa condizione. Se posticipi un criterio di avviso, gli incidenti aperti vengono chiusi all'avvio della posticipazione.
Il monitoraggio chiude automaticamente un incidente quando si verifica una delle seguenti condizioni:
Condizioni soglia metrica:
- Arriva un'osservazione che indica che la soglia non è stata violata.
Non vengono ricevute osservazioni, la condizione è configurata per chiudere gli incidenti quando interrompono l'arrivo delle osservazioni e lo stato della risorsa sottostante è sconosciuto o non è disabilitato.
Non vengono registrate osservazioni per la durata della chiusura automatica del criterio di avviso e la condizione non è configurata per chiudere automaticamente gli incidenti quando interrompono l'arrivo delle osservazioni. Per configurare la durata della chiusura automatica, puoi utilizzare la console Google Cloud o l'API Cloud Monitoring. Per impostazione predefinita, la chiusura automatica è di sette giorni. La durata minima della chiusura automatica è di 30 minuti.
Condizioni di assenza metrica:
- Si verifica un'osservazione.
- Non arrivano osservazioni per 24 ore dopo la scadenza della chiusura automatica del criterio di avviso. Per configurare la durata della chiusura automatica, puoi utilizzare la console Google Cloud o l'API Cloud Monitoring. Per impostazione predefinita, la chiusura automatica è di sette giorni.
Condizioni di previsione:
- Viene prodotta una previsione e prevede che le serie temporali non violeranno la soglia all'interno della finestra di previsione.
Nessuna osservazione per 10 minuti, la condizione è configurata in modo da chiudere gli incidenti quando interrompono l'arrivo delle osservazioni e lo stato della risorsa sottostante è sconosciuto o non è disabilitato.
Non vengono registrate osservazioni per la durata della chiusura automatica del criterio di avviso e la condizione non è configurata per chiudere automaticamente gli incidenti quando interrompono l'arrivo delle osservazioni.
Ad esempio, un criterio di avviso ha generato un incidente perché la latenza della risposta HTTP era superiore a 2 secondi per 10 minuti consecutivi. Se la misurazione successiva della latenza della risposta HTTP è inferiore o uguale a due secondi, l'incidente viene chiuso. Analogamente, se non vengono ricevuti dati per sette giorni, l'incidente viene chiuso.
Per chiudere un incidente:
- Nel riquadro Incidenti della pagina Avvisi, fai clic su Visualizza tutti gli incidenti.
Nella pagina Incidenti, trova l'incidente che vuoi chiudere ed esegui una delle seguenti operazioni:
- Fai clic su more_vert Visualizza altro e seleziona Chiudi incidente.
- Apri la pagina dei dettagli dell'incidente e fai clic su Chiudi incidente.
Se viene visualizzato il messaggio Unable to close incident with active conditions
,
l'incidente non può essere chiuso perché i dati sono stati ricevuti entro
il periodo di avviso più recente.
Se visualizzi il messaggio Unable to close incident. Please try again in a few minutes.
, significa che non è stato possibile chiudere l'incidente a causa di un errore interno.
Conservazione dei dati e limiti
Per informazioni sui limiti e sul periodo di conservazione degli incidenti, consulta Limiti per gli avvisi.
Passaggi successivi
- Per creare e gestire i criteri di avviso con l'API Cloud Monitoring o dalla riga di comando, vedi Gestire i criteri di avviso per API.