Questa pagina illustra i passaggi per preparare un modello AI AML, supponendo che tu abbia già configurato un'istanza e preparato i set di dati necessari.
Panoramica delle fasi
Il processo di preparazione di un modello è articolato nelle seguenti tre fasi:
Fase 1: configurare un motore, inclusa l'ottimizzazione automatica degli iperparametri del motore.
La creazione di una configurazione motore attiva l'ottimizzazione automatica degli iperparametri, memorizzando i risultati come risorsa EngineConfig.
Fase 2: Genera un modello
La creazione di un modello attiva l'addestramento e archivia i risultati come risorsa del modello.
Fase 3: valutare un modello
La creazione dei risultati di backtest valuta le prestazioni del modello in un insieme di mesi specificato, memorizzando i risultati di riepilogo in una risorsa BacktestResult. Facoltativamente, la creazione dei risultati delle previsioni consente di valutare gli output del modello per parte.
Una volta completate le fasi precedenti e dopo che le prestazioni del modello soddisfano le tue esigenze, consulta le indicazioni nelle sezioni Generare punteggi di rischio e spiegabilità e Prepararsi alla governance del modello e del rischio.
Prima di iniziare
Prima di iniziare, ti serviranno:
- Uno o più set di dati
- Una versione del motore selezionata da utilizzare
Requisiti del set di dati
Per indicazioni dettagliate sul modello e sullo schema dei dati, consulta le pagine in Prepara i dati per AML AI. Questa sezione illustra come assicurarsi che i set di dati utilizzati per l'ottimizzazione, l'addestramento e la valutazione del motore funzionino bene insieme.
Intervalli di tempo del set di dati
L'intervallo di tempo minimo dei set di dati per ogni operazione è descritto nell'articolo Comprendere l'ambito e la durata dei dati. In sintesi, è richiesta una finestra temporale da 0 a 24 mesi a seconda della tabella, in aggiunta a una finestra temporale principale di almeno 18 mesi.
Ad esempio, per l'ottimizzazione del motore, la tabella Transazioni deve coprire almeno 42 mesi (18 mesi per la finestra temporale principale e 24 mesi per la finestra temporale).
La configurazione di un motore, l'addestramento e la valutazione (backtesting) possono essere completati con un singolo set di dati; vedi l'immagine seguente. Per garantire buone prestazioni di produzione evitando l'overfitting, devi utilizzare una finestra temporale del core per la valutazione (ovvero, creazione di risultati del backtest) che sia separata e più recente della finestra temporale principale per l'addestramento (ovvero la creazione di un modello).
Coerenza del set di dati
Quando utilizzi set di dati diversi per le fasi di ottimizzazione, addestramento e valutazione del motore, rendi i set di dati coerenti in quali campi vengono completati e come vengono completati. Questo è importante per la stabilità e le prestazioni del modello AML.
Analogamente, per un punteggio di rischio di alta qualità, il set di dati utilizzato per creare risultati di previsione con un modello deve essere coerente con il set di dati utilizzato per addestrare quel modello.
In particolare, assicurati di quanto segue:
- La stessa logica viene utilizzata per compilare ogni campo. La modifica della logica utilizzata per compilare un campo può comportare un disallineamento delle caratteristiche tra l'addestramento del modello e la previsione o la valutazione.
- La stessa selezione di campi CONSIGLIATI è già compilata. Ad esempio, la rimozione di un campo compilato durante l'addestramento del modello può causare l'alterazione o la mancanza delle caratteristiche su cui il modello fa affidamento durante la valutazione o la previsione.
La stessa logica viene utilizzata per fornire i valori. Nella tabella PartySupplementaryData, viene utilizzata la stessa logica per fornire valori per ogni campo
party_supplementary_data_id
.- L'utilizzo degli stessi dati, ma con valori
party_supplementary_data_id
diversi, fa sì che il modello utilizzi i dati in modo errato. Ad esempio, un particolare campo utilizza l'ID5
nella tabella PartySupplementaryData per un set di dati, ma poi utilizza l'ID7
in un altro set di dati. - La rimozione di un valore
party_supplementary_data_id
su cui si basa un modello potrebbe avere effetti imprevedibili. Ad esempio, l'ID3
viene utilizzato nella tabella PartySupplementaryData in un set di dati, ma viene omesso da un altro set di dati.
- L'utilizzo degli stessi dati, ma con valori
Ora hai un set di dati pronto per l'ottimizzazione, l'addestramento e la valutazione dei motori. Tieni presente che le operazioni del modello possono richiedere decine di ore. Per informazioni su come verificare se un'operazione è ancora in esecuzione o è stata completata (non riuscita o riuscita), consulta Gestire le operazioni a lunga esecuzione.