Questa pagina illustra i passaggi per preparare un'AI di AML supponendo che tu abbia già configurato un'istanza e preparato i necessari e set di dati.
Panoramica delle fasi
Il processo di preparazione di un modello è illustrato nelle seguenti tre fasi:
Fase 1: Configurare un motore compresa la selezione dell'origine degli iperparametri:
- Ottimizzazione: ottimizzazione automatica degli iperparametri
- Eredita: eredita gli iperparametri da una configurazione del motore precedente creato con una versione precedente del motore all'interno della versione di ottimizzazione. Questa impostazione ti consente di evitare di apportare modifiche ogni volta che adotti un nuovo modello. del motore di ricerca.
Creazione di una configurazione del motore archivia i risultati dell'ottimizzazione o dell'ereditarietà in un Risorsa EngineConfig.
Fase 2: Genera un modello
Creazione di un modello attiva l'addestramento, archiviando i risultati Risorsa modello.
Fase 3: Valutare un modello
Creazione dei risultati di backtest valuta le prestazioni del modello per un insieme specifico di mesi, memorizzando il riepilogo genera un Risorsa BacktestResult. Se vuoi, creazione dei risultati delle previsioni consente di valutare gli output del modello.
Una volta completate le fasi precedenti e le prestazioni del modello soddisfano le tue esigenze, consulta le indicazioni nelle sezioni Generare punteggi di rischio e spiegabilità e Preparati per il modello e la governance del rischio.
Prima di iniziare
Prima di iniziare, ti serviranno:
- Uno o più set di dati
- Un elemento selezionato versione motore per utilizzare
Requisiti del set di dati
Per indicazioni dettagliate sul modello e sullo schema dei dati, consulta le pagine in Prepare Data for AML AI (Prepara i dati per AML AI). Questa sezione illustra come assicurarsi che i set di dati utilizzate nell'ottimizzazione, l'addestramento e la valutazione dei motori funzionano bene insieme.
Intervalli di tempo del set di dati
L'intervallo di tempo minimo dei set di dati per ogni operazione è coperto in Comprendi l'ambito e la durata dei dati. Riassumendo, è necessaria una finestra temporale di 0-24 mesi, a seconda della tabella. oltre a una finestra temporale principale di almeno 18 mesi per coprire tutte le operazioni con lo stesso set di dati. Per le singole operazioni possono essere utilizzati set di dati più brevi; Ad esempio, se riutilizzi una configurazione del motore senza dover eseguire dell'ottimizzazione.
Ad esempio, per l'ottimizzazione del motore, la tabella Transazione deve coprire almeno 42 mesi (18 mesi per la finestra temporale del core e 24 mesi per finestra temporale).
È possibile completare la configurazione di un motore, l'addestramento e la valutazione (backtesting) con un singolo set di dati; vedi l'immagine seguente. Per garantire una buona produzione evitando l'overfitting, dovresti utilizzare una finestra temporale di base disgiunte (ovvero la creazione di risultati backtest), sia recente rispetto alla finestra temporale principale per l'addestramento (ovvero la creazione di un modello).
Coerenza del set di dati
Quando si utilizzano set di dati diversi per l'ottimizzazione, l'addestramento e la valutazione del motore , rendono i set di dati coerenti in cui i campi vengono compilati e in che modo vengono compilati. Questo è importante per la stabilità e le prestazioni del modello AML.
Allo stesso modo, per un punteggio di rischio di alta qualità, il set di dati utilizzato per creare i risultati della previsione con un modello deve essere coerente con il set di dati usato per addestrare il modello.
In particolare, verifica quanto segue:
- La stessa logica viene utilizzata per compilare ogni campo. Modifica della logica utilizzata per compilare un campo può introdurre un disallineamento di caratteristiche tra l'addestramento del modello una previsione o una valutazione.
- Viene compilata la stessa selezione di campi CONSIGLIATI. Ad esempio: la rimozione di un campo compilato durante l'addestramento del modello può causare su cui il modello si basa per essere inclinato o mancante durante la valutazione la previsione.
Per fornire i valori viene utilizzata la stessa logica. Nella PartySupplementaryData, viene utilizzata la stessa logica per fornisci valori per ogni campo
party_supplementary_data_id
.- Utilizzo degli stessi dati, ma con
party_supplementary_data_id
diversi fa sì che il modello utilizzi i dati in modo errato. Ad esempio, un campo specifico utilizza l'ID5
nel PartySupplementaryData per un set di dati, ma poi utilizza l'ID7
in un altro set di dati. - Rimozione di un valore
party_supplementary_data_id
su cui si basa un modello possono avere effetti imprevedibili. Ad esempio, l'ID3
viene utilizzato nella PartySupplementaryData in un set di dati, ma è omesso da un altro set di dati.
- Utilizzo degli stessi dati, ma con
Ora hai a disposizione un set di dati per l'ottimizzazione, l'addestramento e la valutazione del motore. Nota le operazioni del modello possono richiedere decine di ore. Per informazioni su come verificare se un'operazione è ancora in esecuzione o è stata completata (non riuscita o riuscita); vedi Gestire le operazioni a lunga esecuzione.