Comportamento dei criteri di avviso basati su metriche

Questo documento descrive in che modo i periodi di allineamento e le finestre di nuovo test determinano quando viene soddisfatta una condizione, in che modo i criteri di avviso combinano più condizioni e in che modo sostituiscono i punti dati mancanti. Descrive inoltre il numero massimo di incidenti aperti per un criterio. il numero di notifiche per incidente, e le cause dei ritardi nelle notifiche.

Questi contenuti non si applicano ai criteri di avviso basati su log. Per informazioni sui criteri di avviso basati su log, consulta Monitorare i log.

Periodi di allineamento e finestre di nuovo test

Cloud Monitoring valuta il periodo di allineamento e la finestra di test del nuovo test nel determinare se la condizione di un criterio di avviso è stata soddisfatta.

Periodo allineamento

Prima che i dati delle serie temporali siano monitorati da un criterio di avviso, devono essere regolarizzati in modo che il criterio di avviso abbia distanziati regolarmente dati da valutare. Il processo di regolarizzazione è chiamato allineamento.

L'allineamento prevede due passaggi:

  • Suddivisione della serie temporale in intervalli di tempo regolari, chiamata anche raggruppamento in bucket dei dati. L'intervallo è il periodo di allineamento.

  • Calcolo di un singolo valore per i punti nel periodo di allineamento. Puoi scegliere come viene calcolato il singolo punto: puoi sommare tutti i valori, calcolarne la media o utilizzare il valore massimo. La funzione che combina i punti dati è chiamato allineatore. Il risultato della combinazione chiamato valore allineato.

    Per ulteriori informazioni sull'allineamento, consulta Allineamento: regolarizzazione all'interno della serie.

Ad esempio, quando il periodo di allineamento è di cinque minuti, alle 13:00 il periodo di allineamento contiene i campioni ricevuti tra le 12:55 e le 13:00. Alle 13:01, il periodo di allineamento avanza di un minuto e contiene i campioni ricevuti tra le 12:56 e le 13:01.

Il monitoraggio configura un periodo di allineamento nel seguente modo:

Console Google Cloud

Per configurare il periodo di allineamento, scegli un valore per i seguenti campi nella pagina Condizioni di avviso:

  • Finestra mobile: specifica l'intervallo di tempo da valutare.
  • Funzione finestra temporale continua: specifica la funzione matematica da eseguire sulla finestra dei punti dati.

Per ulteriori informazioni sulle funzioni disponibili, consulta Aligner nel riferimento delle API. Alcuni allineatori allineano i dati e convertirla da un tipo o tipo di metrica a un altro. Per una panoramica consulta la sezione Tipi, tipi e conversioni.

API

Per configurare il periodo di allineamento si imposta aggregations.alignmentPeriod e aggregations.perSeriesAligner campi in MetricThreshold e strutture di MetricAbsence.

Per ulteriori informazioni sulle funzioni disponibili, consulta Aligner nel riferimento delle API. Alcune funzioni di allineamento consentono di allineare i dati e di convertirli da un tipo o tipo di metrica a un altro. Per una panoramica consulta la sezione Tipi, tipi e conversioni.

per illustrare l'effetto del periodo allineamento su una condizione in un avviso specifico, considera una condizione di soglia di metrica che sia monitorare una metrica con un periodo di campionamento di un minuto. Supponiamo che il periodo di allineamento sia impostato su cinque minuti e che l'allineatore è impostato su sum. Inoltre, supponiamo che la condizione sia soddisfatta quando il valore allineato della serie temporale è maggiore di due per in per almeno tre minuti e che la condizione venga valutata ogni minuto. In questo esempio, il periodo di allineamento è di due minuti e la finestra di nuovo test, descritta nella sezione successiva, è di tre minuti. La figura seguente illustra diverse valutazioni sequenziali del condizione:

Figura che mostra l'effetto del periodo di allineamento sulla finestra/durata del test.

Ogni riga nella figura illustra una singola valutazione della condizione. La vengono mostrati i dati delle serie temporali. I punti nel periodo di allineamento sono mostrati con puntini blu; i punti precedenti sono neri. Ogni riga mostra il valore allineato e se questo valore è maggiore della soglia di due. Per la riga con l'etichetta start, il valore allineato viene calcolato in uno, che è inferiore alla soglia. Alla valutazione successiva, la somma dei campioni nel periodo di allineamento è pari a due. Alla terza valutazione, la somma è pari a tre e, poiché questo valore è superiore alla soglia, viene avviato un timer per la finestra di esecuzione del nuovo test.

Finestre di ripetizione test

La condizione di un criterio di avviso ha una finestra di riesecuzione del test, che impedisce non venga soddisfatta a causa di una singola misurazione o previsione. Ad esempio, supponiamo che la finestra di test di una condizione sia impostata su 15 minuti. Di seguito viene descritto il comportamento della condizione in base al suo tipo:

  • Le condizioni soglia metrica sono soddisfatte quando, per un singole serie temporali, ogni misurazione allineata in un intervallo di 15 minuti viola la soglia.
  • Le condizioni di assenza metrica sono soddisfatte quando non arrivano dati per una serie temporale in un intervallo di 15 minuti.
  • Le condizioni di previsione vengono soddisfatte quando viene generata ogni previsione durante una finestra di 15 minuti prevede che la serie temporale violerà la soglia all'interno della finestra di previsione.

Per i criteri con una condizione, viene aperto un incidente e le notifiche vengono inviate quando la condizione è soddisfatta. Questi incidenti rimangono aperti mentre la condizione continua a essere soddisfatta.

Console Google Cloud

Per configurare la finestra del nuovo test, utilizza il campo Finestra di nuovo test nel Passaggio Configura il trigger di avviso.

API

La finestra di nuovo test viene configurata impostando il campo chiamato duration nelle strutture MetricThreshold e MetricAbsence.

La figura precedente illustrava tre valutazioni di una soglia metrica . Al momento start + 2 minutes, il valore allineato è superiore alla soglia; tuttavia, la condizione non è soddisfatta perché la finestra di nuovo test è impostata su tre minuti. La figura seguente illustra i risultati per la valutazioni della condizione:

Figura che mostra l'effetto della finestra del nuovo test.

Anche se il valore allineato è maggiore della soglia a volta start + 2 minutes, la condizione non è soddisfatta fino a quando il valore allineato è superiore alla soglia per tre minuti. L'evento si verifica alle ore start + 5 minutes.

Una condizione reimposta la finestra di nuovo test ogni volta che una misurazione o una previsione non soddisfa la condizione. Questo comportamento è illustrato di seguito esempio:

Esempio: questo criterio di avviso contiene una condizione di soglia metrica che specifica un intervallo di tempo per il nuovo test di cinque minuti.

Se la latenza della risposta HTTP è superiore a due secondi,
e se la latenza supera la soglia per cinque minuti,
apri un incidente e invia un'email al team di assistenza.

La seguente sequenza illustra in che modo la finestra di nuovo test influisce sulla valutazione della condizione:

  1. La latenza HTTP è inferiore a due secondi.
  2. Per i successivi tre minuti consecutivi, la latenza HTTP è maggiore per più di due secondi.
  3. Nella misurazione successiva, la latenza è inferiore a due secondi, quindi la condizione reimposta la finestra di nuovo test.
  4. Per i successivi cinque minuti consecutivi, la latenza HTTP sarà maggiore di da due secondi, quindi la condizione è soddisfatta.

    Poiché il criterio di avviso ha una condizione, il monitoraggio invia notifiche quando la condizione è soddisfatta.

Imposta la finestra di test in modo che sia abbastanza lunga da ridurre al minimo i falsi positivi, ma abbastanza breve da garantire che gli incidenti vengano aperti in modo tempestivo.

Best practice per impostare il periodo di allineamento e la finestra per il nuovo test

Il periodo di allineamento determina il numero di campioni combinati con l'allineatore:

  • Il valore minimo del periodo allineamento per un tipo di metrica è di campionamento di quel tipo di metrica. Ad esempio, se il tipo di metrica viene campionato ogni 300 secondi, il periodo di allineamento deve essere di almeno 300 secondi. Tuttavia, per combinare 5 campioni, imposta il valore periodo di allineamento a 5 * 300 secondi o 1500 secondi.

  • Il valore massimo del periodo allineamento è 24 ore meno l'importazione del tipo di metrica. Ad esempio, se il ritardo di importazione per una metrica è di 6 ore, il valore massimo del periodo di allineamento è di 18 ore.

Utilizza la finestra del test per specificare la reattività dell'avviso. Ad esempio, se imposti la finestra di riattivazione del test su 20 minuti per una condizione di assenza di metriche, non devono essere presenti dati per 20 minuti prima che la condizione venga soddisfatta. Per un criterio di avviso più reattivo, imposta la finestra di nuovo test su un valore inferiore. Per le condizioni di soglia metrica, per avere il criterio di avviso più reattivo, imposta la finestra di nuovo test su zero. Un singolo valore allineato causa questi tipi di le condizioni da soddisfare.

Le condizioni dei criteri di avviso vengono valutate con una frequenza fissa. Le scelte che fai per il periodo di allineamento e la finestra di nuovo test non determinano la frequenza con cui viene valutata la condizione.

Norme con più condizioni

Un criterio di avviso può contenere fino a sei condizioni.

Se utilizzi l'API Cloud Monitoring o se se il criterio di avviso è soggetto a più condizioni, devi specificare quando viene aperto un incidente. Per configurare come vengono combinate più condizioni, procedi in uno dei seguenti modi:

Console Google Cloud

Puoi configurare le opzioni del combinatore nel passaggio Trigger per più condizioni.

API

Le opzioni dell'operatore di combinazione vengono configurate con il campo combiner della struttura AlertPolicy.

Questa tabella elenca le impostazioni nella console Google Cloud, ovvero nell'API Cloud Monitoring e una descrizione di ciascuna impostazione:

Console Google Cloud
Il criterio attiva il valore
Valore combinato dell'API
Cloud Monitoring
Significato
Tutte le condizioni sono soddisfatte OR Viene aperto un incidente se una risorsa causa uno dei le condizioni da soddisfare.
Tutte le condizioni sono soddisfatte
anche per risorse
diverse per ogni condizione

(valore predefinito)
AND Viene aperto un incidente se ciascuno sia soddisfatta anche se diversa fa sì che queste condizioni vengano soddisfatte.
Tutte le condizioni sono soddisfatte AND_WITH_MATCHING_RESOURCE Un incidente viene aperto se la stessa risorsa causa ogni condizione da soddisfare. Questa impostazione è la scelta di combinazione più rigorosa.

In questo contesto, il termine soddisfatta indica che la configurazione della condizione restituisce true. Per esempio, se la configurazione è Any time series is greater than 10 for 5 minutes, quando questa istruzione ha valore true, la condizione è soddisfatta.

Esempio

Considera un progetto Google Cloud contenente due VM, vm1 e vm2. Inoltre, supponiamo che tu crei un criterio di avviso con due condizioni:

  • La condizione denominata CPU usage is too high monitora l'utilizzo della CPU dell'account di Compute Engine. Questa condizione è soddisfatta quando l'utilizzo della CPU di qualsiasi istanza è superiore a 100 ms/s per 1 minuto.
  • La condizione denominata Excessive utilization monitora l'utilizzo della CPU delle istanze. Questa condizione è soddisfatta quando l'utilizzo della CPU di qualsiasi istanza è superiore al 60% per 1 minuto.

Inizialmente, supponiamo che entrambe le condizioni restituiscano false.

Supponiamo inoltre che l'utilizzo della CPU di vm1 superi 100 ms/s per 1 minuto. Poiché l'utilizzo della CPU è maggiore della soglia per un minuto, la condizione CPU usage is too high rispettata. Se combinate con Qualsiasi condizione è soddisfatta, un incidente perché è soddisfatta una condizione. Se le condizioni vengono combinate con Tutte le condizioni sono soddisfatte o Tutte le condizioni sono soddisfatte anche per risorse diverse per ogni condizione, non viene creato un incidente. Queste scelte di combinazioni richiedono che entrambe le condizioni siano soddisfatte.

Supponiamo inoltre che l'utilizzo della CPU di vm1 rimanga superiore a 100 ms/s e che l'utilizzo della CPU di vm2 superi il 60% per 1 minuto. Il risultato è che entrambe le condizioni sono soddisfatte. Di seguito viene descritto che cosa accade in base alla combinazione delle condizioni:

  • Qualsiasi condizione è soddisfatta: viene creato un incidente quando una risorsa provoca una condizione da soddisfare. In questo esempio, vm2 causa la condizione Excessive utilization da soddisfare.

    Se la VM2 causa la condizione CPU usage is too high, viene anche creato un incidente. Viene creato un incidente perché vm1 e vm2 generano la condizione CPU usage is too high sono eventi distinti.

  • Tutte le condizioni sono soddisfatte anche per risorse diverse per ogni condizione: Viene creato un incidente perché entrambe le condizioni sono soddisfatte.

  • Tutte le condizioni sono soddisfatte: non viene creato un incidente perché questo combinatore richiede che tutte le condizioni siano soddisfatte dalla stessa risorsa. In questo esempio non viene creato alcun incidente perché la VM1 consente di soddisfare CPU usage is too high, mentre la VM2 consente di soddisfare Excessive utilization.

Dati delle metriche parziali

Quando i dati delle serie temporali non arrivano più o quando i dati subiscono un ritardo, Il monitoraggio classifica i dati come mancanti. La mancanza di dati può impedire la chiusura degli incidenti. I ritardi nei dati in arrivo da fornitori di cloud di terze parti possono arrivare fino a 30 minuti, con ritardi di 5-15 minuti più comuni. Un ritardo prolungato, superiore al periodo di tempo per il nuovo test, può causare l'ingresso delle condizioni in uno stato "sconosciuto". Quando i dati arrivano, il monitoraggio potrebbe aver perso parte della cronologia recente delle condizioni. Un'ispezione successiva dei dati delle serie temporali potrebbe non rivelare questo problema perché non ci sono prove di ritardi quando arrivano i dati.

Console Google Cloud

Puoi configurare il modo in cui Monitoring valuta una condizione di soglia metrica quando i dati non arrivano più. Ad esempio, quando un incidente è aperto e una misurazione prevista non arriva, vuoi che Monitoring lasci l'incidente per aprirlo o chiuderlo immediatamente? Analogamente, quando i dati non arrivano più e non è aperto alcun incidente, vuoi che venga aperto un incidente? Infine, per quanto tempo deve rimanere aperto un incidente dopo l'interruzione dell'arrivo dei dati?

Esistono due campi configurabili che specificano in che modo valuta le condizioni di soglia della metrica quando i dati non arrivano:

  • Per configurare il modo in cui Monitoring determina il valore sostitutivo per i dati mancanti, utilizza il campo Valutazione dei dati mancanti che hai impostato nel passaggio Trigger condizione. Questo campo è disabilitato quando il parametro finestra di ripetizione del test sia impostata su Nessun nuovo test.

    La finestra di nuovo test è il campo denominato durata nell'API Cloud Monitoring.

  • Per configurare il tempo di attesa di Monitoring prima di chiudere un incidente aperto dopo l'interruzione dell'arrivo dei dati, utilizza il campo Durata chiusura automatica incidenti. La durata della chiusura automatica viene impostata nel passaggio Notifica. La durata predefinita della chiusura automatica è per sette giorni.

Di seguito sono descritte le diverse opzioni per il campo dei dati mancanti:

Console Google Cloud
Campo "Valutazione dei dati mancanti"
Riepilogo Dettagli
Dati mancanti vuoti Gli incidenti aperti rimangono aperti.
Non vengono aperti nuovi incidenti.

Per le condizioni soddisfatte, la condizione continua a essere soddisfatta quando i dati non arrivano più. Se un incidente è aperto per questa condizione, l'incidente rimane aperto. Quando un incidente è aperto e non arrivano dati, il timer di chiusura automatica si avvia dopo un ritardo di almeno 15 minuti. Se il timer scade, l'incidente viene chiuso.

Per le condizioni non soddisfatte, la condizione continua a non vengano soddisfatti quando i dati non arrivano più.

Punti dati mancanti trattati come valori che violano la condizione del criterio Gli incidenti aperti rimangono aperti.
È possibile aprire nuovi incidenti.

Per le condizioni soddisfatte, la condizione continua a essere soddisfatti quando i dati non arrivano più. Se un incidente è aperto per questa condizione, l'incidente rimane aperto. Quando un incidente è aperto e non arrivano dati per la durata della chiusura automatica più 24 ore, l'incidente viene chiuso.

Per le condizioni non soddisfatte, questa impostazione fa sì che la condizione di soglia metrica si comporti come metric-absence condition. Se i dati non arrivano nel periodo di tempo specificato dalla finestra di nuovo test, la condizione viene valutata come soddisfatta. Per un criterio di avviso con una condizione, la condizione è soddisfatta comporta l'apertura di un incidente.

Punti dati mancanti trattati come valori che non violano la condizione delle norme Gli incidenti aperti sono chiusi.
I nuovi incidenti non vengono aperti.

Per condizioni soddisfatte, la condizione non viene più soddisfatta quando non arrivano più. Se un incidente è aperto per questa condizione, allora l'incidente è chiuso.

Per le condizioni non soddisfatte, la condizione continua a non vengano soddisfatti quando i dati non arrivano più.

API

Puoi configurare il modo in cui Monitoring valuta una condizione di soglia metrica quando i dati non arrivano più. Ad esempio, quando è aperto un incidente e non arriva una misurazione prevista, vuoi che il monitoraggio lasci aperto l'incidente o lo chiuda immediatamente? Analogamente, quando i dati non arrivano più e non è aperto alcun incidente, vuoi che venga aperto un incidente? Infine, per quanto tempo un incidente deve rimanere aperto quando i dati non sono più disponibili?

Esistono due campi configurabili che specificano in che modo valuta le condizioni di soglia della metrica quando i dati non arrivano:

  • Per configurare il modo in cui il monitoraggio determina il valore sostitutivo per i dati mancanti, utilizza il campo evaluationMissingData della struttura MetricThreshold. Questo campo viene ignorato quando il campo duration è pari a zero.

  • Per configurare il tempo di attesa di Monitoraggio prima di chiudere un incidente aperto dopo l'interruzione dell'arrivo dei dati, utilizza il campo autoClose nella struttura AlertStrategy.

Di seguito sono descritte le diverse opzioni disponibili per il campo dei dati mancanti:

API
Campo evaluationMissingData
Riepilogo Dettagli
EVALUATION_MISSING_DATA_UNSPECIFIED Gli incidenti aperti rimangono aperti.
I nuovi incidenti non vengono aperti.

Per le condizioni soddisfatte, la condizione continua a essere soddisfatti quando i dati non arrivano più. Se un incidente è aperto per questa condizione, l'incidente rimane aperto. Quando un incidente è aperto e non arrivano dati, il timer di chiusura automatica si avvia dopo un ritardo di almeno 15 minuti. Se il timer scade, l'incidente viene chiuso.

Per le condizioni che non sono soddisfatte, la condizione continua a non essere soddisfatta quando i dati non arrivano più.

EVALUATION_MISSING_DATA_ACTIVE Gli incidenti aperti rimangono aperti.
È possibile aprire nuovi incidenti.

Per le condizioni soddisfatte, la condizione continua a essere soddisfatti quando i dati non arrivano più. Se un incidente è aperto per questa condizione, l'incidente rimane aperto. Quando un incidente è aperto e non vengono ricevuti dati per la durata della chiusura automatica più 24 ore, l'incidente viene chiuso.

Per le condizioni non soddisfatte, questa impostazione fa sì che la condizione di soglia metrica si comporti come metric-absence condition. Se i dati non arrivano nel momento specificato dal campo "duration", la condizione viene valutata come soddisfatta. Per un criterio di avviso con una condizione, la condizione è soddisfatta comporta l'apertura di un incidente.

EVALUATION_MISSING_DATA_INACTIVE Gli incidenti aperti sono chiusi.
I nuovi incidenti non vengono aperti.

Per condizioni soddisfatte, la condizione non viene più soddisfatta quando non arrivano più. Se un incidente è aperto per questa condizione, allora l'incidente è chiuso.

Per le condizioni non soddisfatte, la condizione continua a non vengano soddisfatti quando i dati non arrivano più.

Puoi ridurre al minimo i problemi dovuti alla mancanza di dati eseguendo una delle seguenti operazioni:

  • Contatta il tuo provider cloud di terze parti per identificare i modi per ridurre la latenza della raccolta delle metriche.
  • Utilizza finestre di riesami più lunghe nelle condizioni. Utilizzo di una finestra di test più lunga ha lo svantaggio di ridurre i criteri di avviso adattabile.
  • Scegli le metriche con un ritardo di raccolta inferiore:

    • Monitoraggio delle metriche dell'agente, soprattutto quando l'agente in esecuzione su istanze VM in cloud di terze parti.
    • Metriche personalizzate, quando scrivi i relativi dati direttamente in monitoraggio.
    • Metriche basate su log, se la raccolta delle voci di log non è in ritardo.

Per ulteriori informazioni, consulta la panoramica dell'agente di monitoraggio, la panoramica delle metriche definite dall'utente e le metriche basate su log.

Quando il monitoraggio invia notifiche e crea incidenti

Il monitoraggio di Cloud invia una notifica quando una serie temporale fa sì che venga soddisfatta una condizione. La notifica viene inviata a tutti i canali di notifica. Non puoi limitare una notifica a un canale specifico o a un sottoinsieme di canali delle tue norme.

Se configuri le notifiche ripetute: la stessa notifica viene inviata nuovamente a specifici canali di notifica per il criterio di avviso.

Potresti ricevere più notifiche univoche relative a un criterio di avviso quando uno qualsiasi sono vere:

  • Una condizione monitora più serie temporali.

  • Un criterio contiene più condizioni. In questo caso, le notifiche che ricevi dipendono dal valore dell'attivatore con più condizioni del criterio di avviso:

    • Tutte le condizioni sono soddisfatte: quando tutte le condizioni sono soddisfatte, per ogni serie temporale che determina la soddisfazione di una condizione, il criterio di avviso invia una notifica e crea un incidente.

      Non puoi configurare Cloud Monitoring per creare un solo incidente invia una sola notifica quando il criterio di avviso contiene più le condizioni di traffico.

    • Qualsiasi condizione è soddisfatta: il criterio di avviso invia una notifica quando la condizione è soddisfatta da una serie temporale.

    Per ulteriori informazioni, vedi Norme con più condizioni.

I criteri di avviso creati utilizzando l'API Cloud Monitoring ti avvisano anche quando la condizione è soddisfatta e quando non è più soddisfatta. I criteri di avviso creati utilizzando la console Google Cloud non inviano una notifica quando la condizione non è più soddisfatta, a meno che non sia stato attivato questo comportamento.

Quando il monitoraggio non invia notifiche o non crea incidenti

Nelle situazioni seguenti, Monitoring non crea incidenti o invia notifiche quando vengono soddisfatte le condizioni di un criterio di avviso:

  • Il criterio di avviso è disabilitato.
  • Il criterio di avviso è in posticipazione.
  • Il monitoraggio ha raggiunto il limite per il numero massimo di contatti aperti e i relativi incidenti.

Criteri di avviso disattivati

Il monitoraggio non crea incidenti o invia notifiche per i criteri di avviso disattivati. Tuttavia, il monitoraggio continua a valutare le condizioni di un criterio di avviso disattivato.

Quando attivi un criterio disattivato, il monitoraggio valuta i valori di tutte le condizioni nell'ultima finestra di riesami. La finestra di test più recente potrebbe includere dati acquisiti prima, durante e dopo il è stato attivato. Le condizioni di un criterio disattivato possono essere soddisfatte immediatamente dopo la ripresa del criterio, anche con finestre di riesami molto lunghe.

Ad esempio, supponiamo che tu abbia un criterio di avviso che monitora una specifica procedura e di disattivare il criterio. La settimana successiva, il processo si interrompe e, poiché il criterio di avviso è disattivato, non ricevi alcuna notifica. Se riavvii il processo e abiliti immediatamente il criterio di avviso, Il monitoraggio riconosce che il processo non è stato completato ultimi cinque minuti e apre un incidente.

Gli incidenti relativi a un criterio di avviso disattivato rimangono aperti fino alla scadenza della durata della chiusura automatica del criterio.

Criteri di avviso posticipati

Il monitoraggio non invia notifiche né crea incidenti per un criterio di avviso posticipato. Ti consigliamo di posticipare criteri di avviso se vuoi impedire che un criterio di avviso invii solo per brevi intervalli. Ad esempio, prima di eseguire di manutenzione di una macchina virtuale (VM), potresti creare una posticipazione e aggiungere per posticipare i criteri di avviso che monitorano l'istanza.

Quando posticipi un criterio di avviso, Monitoraggio chiude tutti gli incidenti aperti correlati al criterio. Il monitoraggio può aprire nuovi incidenti dopo la scadenza della posticipazione. Per informazioni, vedi Posticipare notifiche e avvisi.

Limiti di notifiche e incidenti aperti

Un criterio di avviso può essere applicato a molte risorse e un problema che interessa tutte le risorse può causare l'apertura di incidenti per ciascuna risorsa. Viene aperto un incidente per ogni serie temporale che comporta il verificarsi di una condizione.

Per evitare il sovraccarico del sistema, il numero di incidenti che un singolo piano può aprire contemporaneamente è limitato a 1000.

Ad esempio, considera un criterio che si applica a 2000 istanze Compute Engine e ogni istanza fa sì che le condizioni di avviso vengano soddisfatte. Il monitoraggio limita il numero di incidenti aperti 1000. Le eventuali condizioni rimanenti che vengono soddisfatte sono ignorati fino alla chiusura di alcuni degli incidenti aperti per quel criterio.

A causa di questo limite, un singolo canale di notifica può ricevere fino a 1000 notifiche contemporaneamente. Se il tuo criterio di avviso prevede più canali di notifica, questo limite si applica a ciascun canale di notifica indipendentemente dagli altri.

Latenza

La latenza si riferisce al ritardo tra il momento in cui Monitoring campiona un e quando il punto dati della metrica diventa visibile come dati delle serie temporali. La latenza influisce sul momento in cui vengono inviate le notifiche. Ad esempio, se una metrica monitorata ha una latenza massima di 180 secondi, il monitoraggio non creerà un incidente per un massimo di 180 secondi dopo che la condizione del criterio di avviso è stata valutata come vera. Per ulteriori informazioni, vedi Latenza dei dati delle metriche.

I seguenti eventi e impostazioni contribuiscono alla latenza:

  • Ritardo nella raccolta delle metriche: il tempo necessario a Monitoring per raccogliere i valori delle metriche. Per i valori Google Cloud, la maggior parte delle metriche non visibile per 60 secondi dopo la raccolta; Tuttavia, il ritardo dipende in base alla metrica. I calcoli dei criteri di avviso richiedono un ulteriore ritardo di 60-90 secondi. Per le metriche AWS CloudWatch, il ritardo di visibilità può richiedere diversi minuti. Per i controlli di uptime, può essere in media di due minuti (dalla fine della finestra di nuovo test).

  • Finestra di nuovo test: la finestra configurata per la condizione. Le condizioni sono soddisfatte solo quando una condizione è vera per l'intera finestra di retest. Ad esempio, un'impostazione della finestra per il nuovo test di cinque minuti fa sì che ritardi nella notifica di almeno cinque minuti dal si verifica prima.

  • Ora di arrivo della notifica: canali di notifica, come l'email. e SMS, potrebbero presentare latenze di rete o altre latenze (non correlate a ciò che viene pubblicato), a volte ci si avvicina ai minuti. Su alcune come SMS e Slack, non vi è alcuna garanzia che il recapito dei messaggi.

Passaggi successivi