Informazioni sul rilevamento di anomalie

Questa pagina si applica ad Apigee e Apigee hybrid.

Visualizza la documentazione di Apigee Edge.

Che cos'è un'anomalia?

Un'anomalia è un pattern di dati API insolito o imprevisto. Ad esempio, dai un'occhiata al grafico del tasso di errori dell'API riportato di seguito:

Grafico di un'anomalia del tasso di errore.

Come puoi vedere, il tasso di errore aumenta improvvisamente intorno alle 7:00. Rispetto ai dati precedenti, questo aumento è abbastanza insolito da essere classificato come anomalia.

Tuttavia, non tutte le variazioni nei dati API rappresentano anomalie: la maggior parte sono semplici fluttuazioni casuali. Ad esempio, puoi notare alcune variazioni relativamente minori nel tasso di errore che precedono l'anomalia, ma queste non sono abbastanza significative da essere considerate una vera anomalia.

Anomalia rispetto alla variazione casuale dei dati.

AAPI Ops monitora continuamente i dati delle API ed esegue analisi statistiche per distinguere le vere anomalie dalle fluttuazioni casuali nei dati.

Senza il rilevamento delle anomalie, devi scegliere una soglia per rilevare ogni anomalia. Una soglia è un valore che una quantità, ad esempio il tasso di errore, deve raggiungere per attivare un'anomalia. Devi inoltre mantenere aggiornati i valori di soglia in base ai dati più recenti. Al contrario, AAPI-Ops sceglie le migliori soglie di anomalia per te, in base ai recenti pattern dei dati.

Quando l'API AAPI rileva un'anomalia come quella mostrata sopra, ne visualizza i dettagli nella dashboard Anomaly Events. A questo punto, puoi esaminare l'anomalia nei dashboard di monitoraggio API e intraprendere le azioni appropriate, se necessario. Puoi anche creare un avviso per ricevere una notifica se si verificano eventi simili in futuro.

Un'anomalia rilevata include le seguenti informazioni:

  • La metrica che ha causato l'anomalia, ad esempio la latenza del proxy o un codice di errore HTTP.
  • La gravità dell'anomalia. La gravità può essere lieve, moderata o grave, in base al livello di attendibilità del modello. Un livello di confidenza basso indica che la gravità è lieve, mentre un livello di confidenza alto indica che è grave.

Tipi di anomalie

Apigee rileva automaticamente i seguenti tipi di anomalie:

  • Aumento degli errori HTTP 503 a livello di organizzazione, ambiente e regione
  • Aumento degli errori HTTP 504 a livello di organizzazione, ambiente e regione
  • Aumento di tutti gli errori HTTP 4xx o 5xx a livello di organizzazione, ambiente e regione
  • Aumento della latenza di risposta totale per il 90° percentile (p90) a livello di organizzazione, ambiente e regione

Come funziona il rilevamento di anomalie

Il rilevamento delle anomalie prevede le seguenti fasi:

addestramento dei modelli

Il rilevamento di anomalie funziona addestrando un modello del comportamento dei proxy API a partire da dati storici delle serie temporali. Non è richiesto alcun intervento da parte tua per addestrare il modello. Apigee crea e addestra automaticamente i modelli per te a partire dalle sei ore precedenti di dati API. Pertanto, Apigee richiede un minimo di sei ore di dati su un proxy API per addestrare il modello prima che possa registrare un'anomalia.

L'obiettivo dell'addestramento è migliorare l'accuratezza del modello, che può poi essere testato sui dati storici. Il modo più semplice per testare l'accuratezza di un modello è calcolare il suo tasso di errore, ovvero la somma di falsi positivi e falsi negativi, divisa per il numero totale di eventi previsti.

Eventi anomali dei log

In fase di runtime, il rilevamento di anomalie di Apigee confronta il comportamento attuale dei proxy API con il comportamento previsto dal modello. Il rilevamento delle anomalie può quindi determinare, con un livello di confidenza specifico, quando una metrica operativa supera il valore previsto. Ad esempio, quando il tasso di errori 5xx supera il tasso previsto dal modello.

Quando Apigee rileva un'anomalia, registra automaticamente l'evento nella dashboard Eventi anomali. L'elenco degli eventi visualizzati nella dashboard include tutte le anomalie rilevate, nonché gli avvisi attivati.