Informazioni sul rilevamento di anomalie

Questa pagina si applica ad Apigee e Apigee hybrid.

Visualizza la documentazione di Apigee Edge.

Che cos'è un'anomalia?

Un'anomalia è un pattern di dati dell'API insolito o imprevisto. Ad esempio, dai un'occhiata al grafico del tasso di errori dell'API riportato di seguito:

Grafico di un'anomalia del tasso di errore.

Come puoi vedere, il tasso di errore aumenta improvvisamente intorno alle 07:00. Rispetto ai dati precedenti a quel giorno, questo aumento è abbastanza insolito da essere classificato come anomalia.

Tuttavia, non tutte le varianti dei dati dell'API rappresentano anomalie: la maggior parte sono semplicemente fluttuazioni casuali. Ad esempio, puoi notare alcune variazioni relativamente minori nella percentuale di errore che portano all'anomalia, ma non sono abbastanza significative da poter essere definite vera anomalia.

Anomalia rispetto alla variazione dei dati casuale.

AAPI Ops monitora continuamente i dati delle API ed esegue analisi statistiche per distinguere vere anomalie dalle fluttuazioni casuali nei dati.

Senza il rilevamento di anomalie, devi scegliere autonomamente una soglia di rilevamento di ogni anomalia. Una soglia è un valore che una quantità, ad esempio il tasso di errore, deve raggiungere per attivare un'anomalia. Devi inoltre mantenere aggiornati i valori di soglia in base ai dati più recenti. Al contrario, AAPI-Ops sceglie per te le soglie di anomalie migliori, in base ai pattern di dati recenti.

Quando l'AAPI rileva un'anomalia come quella mostrata sopra, ne mostra i dettagli nella dashboard Eventi anomalie. A questo punto, puoi esaminare l'anomalia nelle dashboard di monitoraggio delle API e adottare le misure appropriate, se necessario. Puoi anche creare un avviso per ricevere una notifica se si verificano eventi simili in futuro.

Un'anomalia rilevata include le seguenti informazioni:

  • La metrica che ha causato l'anomalia, ad esempio la latenza del proxy o un codice di errore HTTP.
  • La gravità dell'anomalia. La gravità può essere leggera, moderata o grave, in base al livello di confidenza nel modello. Un livello di confidenza basso indica che la gravità è leggera, mentre un livello di confidenza alto indica che è grave.

Tipi di anomalie

Apigee rileva automaticamente i seguenti tipi di anomalie:

  • Aumento degli errori HTTP 503 a livello di organizzazione, ambiente e regione
  • Aumento degli errori HTTP 504 a livello di organizzazione, ambiente e regione
  • Aumento di tutti gli errori HTTP 4xx o 5xx a livello di organizzazione, ambiente e regione
  • Aumento della latenza totale della risposta per il 90° percentile (p90) a livello di organizzazione, ambiente e regione

Come funziona il rilevamento di anomalie

Il rilevamento di anomalie prevede le seguenti fasi:

addestramento dei modelli

Il rilevamento di anomalie funziona mediante l'addestramento di un modello di comportamento dei proxy API a partire dai dati storici delle serie temporali. Non è necessario alcun intervento da parte tua per addestrare il modello. Apigee crea e addestra automaticamente modelli a partire dalle sei ore precedenti di dati API. Pertanto, Apigee richiede almeno sei ore di dati su un proxy API per addestrare il modello prima che possa registrare un'anomalia.

L'obiettivo dell'addestramento è migliorare l'accuratezza del modello, che può essere quindi testato su dati storici. Il modo più semplice per verificare l'accuratezza di un modello è calcolare il suo tasso di errori, ovvero la somma dei falsi positivi e dei falsi negativi divisa per il numero totale degli eventi previsti.

Registra eventi anomalie

In fase di runtime, il rilevamento di anomalie di Apigee confronta il comportamento attuale dei proxy API con il comportamento previsto dal modello. Il rilevamento di anomalie può quindi determinare, con un livello di confidenza specifico, quando una metrica operativa supera il valore previsto. Ad esempio, quando la percentuale di errori 5xx supera quella prevista dal modello.

Quando Apigee rileva un'anomalia, registra automaticamente l'evento nella dashboard Eventi anomalie. L'elenco degli eventi visualizzati nella dashboard include tutte le anomalie rilevate e gli avvisi attivati.