Panoramica della preparazione del modello

Questa pagina illustra i passaggi per preparare un'AI di AML supponendo che tu abbia già configurato un'istanza e preparato i necessari e set di dati.

Panoramica delle fasi

Il processo di preparazione di un modello è illustrato nelle seguenti tre fasi:

Una volta completate le fasi precedenti e le prestazioni del modello soddisfano le tue esigenze, consulta le indicazioni nelle sezioni Generare punteggi di rischio e spiegabilità e Preparati per il modello e la governance del rischio.

Prima di iniziare

Prima di iniziare, ti serviranno:

Requisiti del set di dati

Per indicazioni dettagliate sul modello e sullo schema dei dati, consulta le pagine in Prepare Data for AML AI (Prepara i dati per AML AI). Questa sezione illustra come assicurarsi che i set di dati utilizzate nell'ottimizzazione, l'addestramento e la valutazione dei motori funzionano bene insieme.

Intervalli di tempo del set di dati

L'intervallo di tempo minimo dei set di dati per ogni operazione è coperto in Comprendi l'ambito e la durata dei dati. Riassumendo, è necessaria una finestra temporale di 0-24 mesi, a seconda della tabella. oltre a una finestra temporale principale di almeno 18 mesi per coprire tutte le operazioni con lo stesso set di dati. Per le singole operazioni possono essere utilizzati set di dati più brevi; Ad esempio, se riutilizzi una configurazione del motore senza dover eseguire dell'ottimizzazione.

Ad esempio, per l'ottimizzazione del motore, la tabella Transazione deve coprire almeno 42 mesi (18 mesi per la finestra temporale del core e 24 mesi per finestra temporale).

È possibile completare la configurazione di un motore, l'addestramento e la valutazione (backtesting) con un singolo set di dati; vedi l'immagine seguente. Per garantire una buona produzione evitando l'overfitting, dovresti utilizzare una finestra temporale di base disgiunte (ovvero la creazione di risultati backtest), sia recente rispetto alla finestra temporale principale per l'addestramento (ovvero la creazione di un modello).

Intervalli di tempo dei set di dati per l'ottimizzazione, l'addestramento e il backtesting

Coerenza del set di dati

Quando si utilizzano set di dati diversi per l'ottimizzazione, l'addestramento e la valutazione del motore , rendono i set di dati coerenti in cui i campi vengono compilati e in che modo vengono compilati. Questo è importante per la stabilità e le prestazioni del modello AML.

Allo stesso modo, per un punteggio di rischio di alta qualità, il set di dati utilizzato per creare i risultati della previsione con un modello deve essere coerente con il set di dati usato per addestrare il modello.

In particolare, verifica quanto segue:

  • La stessa logica viene utilizzata per compilare ogni campo. Modifica della logica utilizzata per compilare un campo può introdurre un disallineamento di caratteristiche tra l'addestramento del modello una previsione o una valutazione.
  • Viene compilata la stessa selezione di campi CONSIGLIATI. Ad esempio: la rimozione di un campo compilato durante l'addestramento del modello può causare su cui il modello si basa per essere inclinato o mancante durante la valutazione la previsione.
  • Per fornire i valori viene utilizzata la stessa logica. Nella PartySupplementaryData, viene utilizzata la stessa logica per fornisci valori per ogni campo party_supplementary_data_id.

    • Utilizzo degli stessi dati, ma con party_supplementary_data_id diversi fa sì che il modello utilizzi i dati in modo errato. Ad esempio, un campo specifico utilizza l'ID 5 nel PartySupplementaryData per un set di dati, ma poi utilizza l'ID 7 in un altro set di dati.
    • Rimozione di un valore party_supplementary_data_id su cui si basa un modello possono avere effetti imprevedibili. Ad esempio, l'ID 3 viene utilizzato nella PartySupplementaryData in un set di dati, ma è omesso da un altro set di dati.

Ora hai a disposizione un set di dati per l'ottimizzazione, l'addestramento e la valutazione del motore. Nota le operazioni del modello possono richiedere decine di ore. Per informazioni su come verificare se un'operazione è ancora in esecuzione o è stata completata (non riuscita o riuscita); vedi Gestire le operazioni a lunga esecuzione.