Informazioni sul rilevamento di anomalie

Questa pagina si applica ad Apigee e Apigee hybrid.

Visualizza la documentazione di Apigee Edge.

Che cos'è un'anomalia?

Un'anomalia è un pattern di dati dell'API insolito o imprevisto. Ad esempio, dai un'occhiata al grafico del tasso di errore dell'API riportato di seguito:

Grafico di un'anomalia del tasso di errore.

Come puoi vedere, il tasso di errore aumenta improvvisamente intorno alle 7:00. Rispetto ai dati precedenti a questo orario, questo aumento è sufficientemente insolito da essere classificato come un'anomalia.

Tuttavia, non tutte le variazioni nei dati dell'API rappresentano anomalie: la maggior parte è costituita da semplici fluttuazioni casuali. Ad esempio, puoi notare alcune variazioni relativamente piccole nel tasso di errore che precedono l'anomalia, ma non sono sufficientemente significative da essere definite un'anomalia vera e propria.

Anomalia rispetto alla variazione casuale dei dati.

AAPI Ops monitora continuamente i dati delle API ed esegue analisi statistiche per distinguere le vere anomalie dalle fluttuazioni casuali nei dati.

Senza il rilevamento delle anomalie, devi scegliere una soglia per rilevare autonomamente ogni anomalia. Una soglia è un valore che una quantità, ad esempio il tasso di errore, deve raggiungere per attivare un'anomalia. Devi anche mantenere aggiornati i valori di soglia in base ai dati più recenti. Al contrario, AAPI-Ops sceglie per te le soglie di anomalia migliori in base ai pattern di dati recenti.

Quando l'AAPI rileva un'anomalia come quella mostrata sopra, ne mostra i dettagli nella dashboard Anomaly Events. A questo punto, puoi esaminare l'anomalia nelle dashboard di monitoraggio delle API e, se necessario, intraprendere le azioni appropriate. Puoi anche creare un avviso per ricevere una notifica se in futuro si verificano eventi simili.

Un'anomalia rilevata include le seguenti informazioni:

  • La metrica che ha causato l'anomalia, ad esempio la latenza del proxy o un codice di errore HTTP.
  • La gravità dell'anomalia. La gravità può essere lieve, moderata o grave, in base al livello di confidenza nel modello. Un livello di confidenza basso indica che la gravità è lieve, mentre un livello di confidenza elevato indica che è grave.

Tipi di anomalie

Apigee rileva automaticamente i seguenti tipi di anomalie:

  • Aumento degli errori HTTP 503 a livello di organizzazione, ambiente e regione
  • Aumento degli errori HTTP 504 a livello di organizzazione, ambiente e regione
  • Aumento di tutti gli errori HTTP 4xx o 5xx a livello di organizzazione, ambiente e regione
  • Aumento della latenza di risposta totale per il 90° percentile (p90) a livello di organizzazione, ambiente e regione

Come funziona il rilevamento di anomalie

Il rilevamento delle anomalie prevede le seguenti fasi:

addestramento dei modelli

Il rilevamento di anomalie funziona addestrando un modello del comportamento dei proxy API a partire da dati storici su serie temporali. Non è richiesto alcun intervento da parte tua per addestrare il modello. Apigee crea e addestra automaticamente i modelli per te a partire dai dati dell'API delle sei ore precedenti. Pertanto, Apigee richiede un minimo di sei ore di dati su un proxy API per addestrare il modello prima di poter registrare un'anomalia.

L'obiettivo dell'addestramento è migliorare l'accuratezza del modello, che può essere poi testato su dati storici. Il modo più semplice per verificare l'accuratezza di un modello è calcolarne il tasso di errore, ovvero la somma di falsi positivi e falsi negativi divisa per il numero totale di eventi previsti.

Registra gli eventi di anomalia

In fase di runtime, il rilevamento di anomalie di Apigee confronta il comportamento attuale dei proxy API con il comportamento previsto dal modello. Il rilevamento delle anomalie può quindi determinare, con un livello di confidenza specifico, quando una metrica operativa supera il valore previsto. Ad esempio, quando la percentuale di errori 5xx supera la percentuale prevista dal modello.

Quando Apigee rileva un'anomalia, registra automaticamente l'evento nella dashboard Eventi anomali. L'elenco di eventi visualizzato nella dashboard include tutte le anomalie rilevate, nonché gli avvisi attivati.