Informazioni sul rilevamento di anomalie

Questa pagina si applica a Apigee e Apigee ibrido.

Visualizza la documentazione di Apigee Edge.

Che cos'è un'anomalia?

Un'anomalia è un pattern dei dati API insolito o imprevisto. Ad esempio, dai un'occhiata al grafico del tasso di errore dell'API riportato di seguito:

Grafico di un'anomalia del tasso di errore.

Come puoi vedere, il tasso di errore aumenta improvvisamente intorno alle 7:00. Rispetto ai dati precedenti a quel momento, questo aumento è talmente insolito da essere classificato come anomalia.

Tuttavia, non tutte le varianti dei dati delle API rappresentano anomalie: la maggior parte è semplicemente fluttuazioni casuali. Ad esempio, puoi notare alcune variazioni relativamente minori del tasso di errore che hanno portato all'anomalia, ma non sono abbastanza significative da essere definite una vera anomalia.

Anomalia e variazione di dati casuale.

Le operazioni AAPI monitorano continuamente i dati delle API ed eseguono analisi statistiche per distinguere le vere anomalie dalle fluttuazioni casuali nei dati.

Senza il rilevamento di anomalie, devi scegliere una soglia per rilevare autonomamente ogni anomalia. (Una soglia è un valore che una quantità, ad esempio il tasso di errore, deve raggiungere per attivare un'anomalia.) Devi anche mantenere aggiornati i valori delle soglie in base ai dati più recenti. Al contrario, AAPI-Ops sceglie per te le soglie di anomalie migliori, in base ai pattern di dati recenti.

Quando AAPI rileva un'anomalia come quella mostrata sopra, ne visualizza i dettagli nella dashboard Eventi anomali. A questo punto, puoi esaminare l'anomalia nelle dashboard di monitoraggio delle API e intraprendere le azioni appropriate, se necessario. Puoi anche creare un avviso per ricevere una notifica se si verificano eventi simili in futuro.

Un'anomalia rilevata include le seguenti informazioni:

  • La metrica che ha causato l'anomalia, ad esempio la latenza del proxy o un codice di errore HTTP.
  • La gravità dell'anomalia. La gravità può essere lieve, moderata o grave in base al suo livello di confidenza nel modello. Un livello di confidenza basso indica che la gravità è lieve, mentre un livello di confidenza elevato indica che è grave.

Tipi di anomalie

Apigee rileva automaticamente i seguenti tipi di anomalie:

  • Aumento degli errori HTTP 503 a livello di organizzazione, ambiente e regione
  • Aumento degli errori HTTP 504 a livello di organizzazione, ambiente e regione
  • Aumento di tutti gli errori HTTP 4xx o 5xx a livello di organizzazione, ambiente e regione
  • Aumento della latenza di risposta totale per il 90° percentile (p90) a livello di organizzazione, ambiente e regione

Come funziona il rilevamento di anomalie

Il rilevamento di anomalie prevede le seguenti fasi:

addestramento dei modelli

Il rilevamento di anomalie funziona mediante l'addestramento di un modello del comportamento dei proxy API a partire da dati storici delle serie temporali. Non è richiesta alcuna azione da parte tua per addestrare il modello. Apigee crea e addestra automaticamente i modelli dalle sei ore precedenti di dati API. Pertanto, Apigee richiede almeno sei ore di dati su un proxy API per addestrare il modello prima che possa registrare un'anomalia.

L'obiettivo dell'addestramento è migliorare l'accuratezza del modello, che possa essere testato sulla base di dati storici. Il modo più semplice per testare l'accuratezza di un modello è calcolarne il tasso di errori, ovvero la somma di falsi positivi e falsi negativi divisa per il numero totale di eventi previsti.

Registra eventi anomalia

In fase di runtime, il rilevamento di anomalie Apigee confronta il comportamento attuale dei tuoi proxy API con quello previsto dal modello. Il rilevamento di anomalie può quindi determinare, con un livello di confidenza specifico, quando una metrica operativa supera il valore previsto. Ad esempio, quando la percentuale di errori 5xx supera la percentuale prevista dal modello.

Quando Apigee rileva un'anomalia, registra automaticamente l'evento nella dashboard Eventi anomali. L'elenco degli eventi visualizzati nella dashboard include tutte le anomalie rilevate e gli avvisi attivati.