Questa pagina ti guida nella procedura di preparazione di un modello IA AML, supponendo che tu abbia già configurato un'istanza e preparato i set di dati necessari.
Panoramica delle fasi
Il processo di preparazione di un modello è articolato nelle seguenti tre fasi:
Fase 1: configura un motore, inclusa la selezione dell'origine degli iperparametri:
- Ottimizzazione: ottimizzazione automatica degli iperparametri
- Eredita: eredita gli iperparametri da una configurazione del motore precedente creata con una versione precedente del motore all'interno della stessa versione dell'ottimizzazione. Questa impostazione consente di evitare la riottimizzazione ogni volta che adotti una nuova versione del motore del modello.
La creazione di una configurazione motore archivia i risultati dell'ottimizzazione o dell'ereditarietà in una risorsa EngineConfig.
Fase 2: genera un modello
La creazione di un modello attiva l'addestramento, memorizzando i risultati come risorsa del modello.
Fase 3: valuta un modello
La creazione di risultati di backtest valuta le prestazioni del modello su un determinato insieme di mesi, memorizzando i risultati di riepilogo in una risorsa BacktestResult. Facoltativamente, la creazione dei risultati della previsione consente di valutare gli output del modello per parti.
Una volta completate le fasi precedenti e il rendimento del modello soddisfa le tue esigenze, consulta le indicazioni nelle sezioni Generare punteggi di rischio e spiegabilità e Prepararsi alla governance del modello e del rischio.
Prima di iniziare
Prima di iniziare, avrai bisogno di:
- Uno o più set di dati
- Una versione del motore selezionata da utilizzare
Requisiti del set di dati
Per indicazioni dettagliate sullo schema e sul modello dei dati, consulta le pagine in Preparazione dei dati per AML AI. Questa sezione spiega come assicurarsi che i set di dati utilizzati per l'ottimizzazione, l'addestramento e la valutazione dei motori funzionino bene insieme.
Intervalli di tempo del set di dati
L'intervallo di tempo minimo dei set di dati per ogni operazione è trattato in Comprendere l'ambito e la durata dei dati. Riassumendo, è necessaria una finestra temporale da 0 a 24 mesi a seconda della tabella, in aggiunta a una finestra temporale principale di almeno 18 mesi.
Ad esempio, per l'ottimizzazione del motore, la tabella Transaction deve coprire almeno 42 mesi (18 mesi per la finestra temporale principale e 24 mesi per la finestra temporale).
La configurazione di un motore, l'addestramento e la valutazione (backtest) possono essere completati con un singolo set di dati; vedi l'immagine seguente. Per garantire buone prestazioni di produzione evitando l'overfitting, devi utilizzare una finestra temporale del core per la valutazione (ovvero, la creazione di risultati del backtest) non articolata e più recente della finestra temporale principale per l'addestramento (ovvero la creazione di un modello).
Coerenza del set di dati
Quando utilizzi set di dati diversi per le fasi di ottimizzazione, addestramento e valutazione del motore, rendili coerenti in quali campi e come vengono compilati. Questo è importante per la stabilità e le prestazioni del modello AML.
Allo stesso modo, per un punteggio di rischio di alta qualità, il set di dati utilizzato per creare risultati delle previsioni con un modello dovrebbe essere coerente con il set di dati utilizzato per addestrare quel modello.
In particolare, verifica quanto segue:
- La stessa logica viene utilizzata per compilare ogni campo. La modifica della logica utilizzata per compilare un campo può introdurre un disallineamento delle caratteristiche tra l'addestramento e la previsione o la valutazione del modello.
- Viene compilata la stessa selezione di campi CONSIGLIATI. Ad esempio, la rimozione di un campo compilato durante l'addestramento del modello può causare che le caratteristiche su cui si basa il modello siano distorte o mancanti durante la valutazione o la previsione.
Per fornire i valori viene utilizzata la stessa logica. Nella tabella PartySupplementaryData, viene utilizzata la stessa logica per fornire valori per ogni campo
party_supplementary_data_id
.- L'utilizzo degli stessi dati, ma con valori
party_supplementary_data_id
diversi, fa sì che il modello utilizzi i dati in modo errato. Ad esempio, un determinato campo utilizza l'ID5
nella tabella PartySupplementaryData per un set di dati, ma poi utilizza l'ID7
in un altro set di dati. - La rimozione di un valore
party_supplementary_data_id
su cui si basa un modello potrebbe avere effetti imprevedibili. Ad esempio, l'ID3
viene utilizzato nella tabella PartySupplementaryData in un set di dati, ma viene omesso da un altro set di dati.
- L'utilizzo degli stessi dati, ma con valori
Ora hai un set di dati pronto per l'ottimizzazione, l'addestramento e la valutazione del motore. Tieni presente che le operazioni del modello possono richiedere decine di ore. Per informazioni su come verificare se un'operazione è ancora in esecuzione o è stata completata (non riuscita o riuscita), consulta Gestire le operazioni a lunga esecuzione.