I risultati del backtest forniscono un riepilogo del rendimento del modello in un determinato periodo di tempo. Vengono generati facendo previsioni su tutti i clienti in un backtest del modello e valutando le prestazioni del modello rispetto agli eventi di rischio disponibili.
I risultati del backtest possono essere utilizzati per misurare il rendimento del modello in un intervallo di tempo diverso da quello utilizzato per l'addestramento oppure nel tempo per verificare il degrado delle prestazioni.
Come eseguire il backtest
Per creare un Risorsa BacktestResult, vedi Crea e gestisci i risultati del backtest.
In particolare, devi selezionare quanto segue:
I dati da utilizzare per il backtesting:
Specifica un set di dati e un'ora di fine nell'intervallo di date del set di dati.
L'addestramento utilizza etichette e funzionalità basate su mesi solari completi fino al mese dell'ora di fine selezionata, escluso. Per ulteriori informazioni, consulta Intervalli di tempo dei set di dati.
Specifica quanti mesi di dati etichettati utilizzare per il backtesting (ovvero il numero di periodi di backtest).
Un modello creato utilizzando un set di dati coerente:
Consulta: Crea un modello.
Periodi di backtest
La
backtestPeriods
specifica per quanti mesi di calendario consecutivi utilizzare caratteristiche ed etichette
nella valutazione delle prestazioni del modello.
Ai dati del backtest si applicano le seguenti regole:
- I mesi utilizzati nella valutazione sono i mesi di calendario completi più recenti
prima del valore
endTime
specificato. Ad esempio, seendTime
è2023-04-15T23:21:00Z
ebacktestPeriods
è5
, vengono utilizzate le etichette dei seguenti mesi: 2023-03, 2023-02, 2023-01, 2022-12 e 2022-11. - Devi utilizzare i dati disponibili più recenti per il backtesting quando valuti un modello in preparazione per l'utilizzo in produzione.
I periodi di backtest devono essere impostati su
3
o superiore. Due mesi di backtest periodo di tempo viene riservato per tenere conto di avvisi ripetuti e i mesi restanti vengono utilizzate per generare etichette positive per la valutazione del rendimento.Evita di utilizzare mesi sovrapposti per l'addestramento e il backtesting, in quanto questo potrebbe comportare un overfitting. Assicurati che le ore di fine del backtest e dell'addestramento siano distanti di almeno
backtestPeriods
. Vale a dire che(mese ora di fine dei risultati del test retrospettivo) >= (mese ora di fine del modello) +
backtestPeriods
Se vuoi, puoi anche creare risultati di previsione per un modello ed eseguire le tue analisi del rendimento del modello a livello di entità.
Output del backtest
La Metadati dei risultati backtest contiene le seguenti metriche. In particolare, queste metriche mostrano seguenti:
Prestazioni del modello rispetto alle etichette di un periodo di tempo e per una serie di volumi di indagine diversi Soglie di punteggio di rischio
Misurazioni che possono essere utilizzate per valutare la coerenza del set di dati (ad esempio, confrontando i valori mancanti delle famiglie di funzionalità di operazioni diverse)
Nome metrica | Descrizione della metrica | Esempio di valore della metrica |
---|---|---|
ObservedRecallValues | Metrica di richiamo misurata sul set di dati specificato per il backtesting. L'API
include 20 di queste misurazioni, in punti operativi diversi, in modo uniforme
distribuito da 0 (non incluso) fino a 2 *
partyInvestigationsPerPeriodHint . L'API aggiunge un richiamo finale
misurazione in partyInvestigationsPerPeriodHint .
|
{ "recallValues": [ { "partyInvestigationsPerPeriod": 5000, "recallValue": 0.80, "scoreThreshold": 0.42, }, ... ... { "partyInvestigationsPerPeriod": 8000, "recallValue": 0.85, "scoreThreshold": 0.30, }, ], } |
Mancanza di dati |
Percentuale di valori mancanti in tutte le funzionalità di ogni famiglia di funzionalità. Idealmente, tutte le famiglie di funzionalità di AML AI dovrebbero avere un Mancanza vicina a 0. Possono verificarsi eccezioni nei casi in cui i dati sottostanti queste famiglie di caratteristiche non sono disponibili per l'integrazione. Un cambiamento significativo in questo valore per qualsiasi famiglia di caratteristiche tra ottimizzazione, l'addestramento, la valutazione e la previsione possono indicare e i set di dati utilizzati. |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "missingnessValue": 0.00, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "missingnessValue": 0.45, }, ], } |
Disallineamento |
Metriche che mostrano il disallineamento tra i set di dati di addestramento e di previsione o di backtest. La distorsione della famiglia indica le variazioni nella distribuzione dei valori delle caratteristiche all'interno di una famiglia di caratteristiche, ponderati in base all'importanza della caratteristica all'interno della famiglia. Il disallineamento massimo indica il disallineamento massimo di qualsiasi caratteristica all'interno di quella famiglia. I valori di asimmetria vanno da 0, che indica nessuna variazione significativa nella distribuzione dei valori delle funzionalità nella famiglia, a 1 per la variazione più significativa. Un valore elevato per un disallineamento famiglia o un disallineamento massimo indica un cambiamento significativo nella struttura dei dati che potrebbe influire sulle prestazioni del modello. Il disallineamento famiglia assume il valore -1 quando il modello non utilizza caratteristiche nella famiglia. Per valori di disallineamento elevato, devi eseguire una delle seguenti operazioni:
Dovresti impostare le soglie per agire in base ai valori di disallineamento famiglia e massimo in base all'osservazione della variazione naturale delle metriche di disallineamento nell'arco di diversi mesi. |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "familySkewValue": 0.10, "maxSkewValue": 0.14, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "familySkewValue": 0.11, "maxSkewValue": 0.11, }, ], } |