Questa pagina illustra i passaggi per preparare un'AI di AML supponendo che tu abbia già configurato un'istanza e preparato i necessari e dei set di dati.
Panoramica delle fasi
La procedura per preparare un modello è suddivisa nelle tre fasi che seguono:
Fase 1: Configurare un motore compresa la selezione dell'origine degli iperparametri:
- Ottimizzazione: ottimizzazione automatica degli iperparametri
- Eredita: eredita gli iperparametri da una configurazione del motore precedente che è stata creata con una versione precedente del motore all'interno della stessa versione di ottimizzazione. Questa impostazione ti consente di evitare di eseguire nuovamente l'ottimizzazione ogni volta che adotti una nuova versione del motore del modello.
La creazione di una configurazione dell'engine consente di memorizzare i risultati della regolazione o dell'eredità in una risorsa EngineConfig.
Fase 2: Genera un modello
La creazione di un modello attiva l'addestramento e memorizza i risultati come risorsa modello.
Fase 3: Valutare un modello
La creazione di risultati di backtest valuta le prestazioni del modello su un insieme specificato di mesi, memorizzando i risultati di riepilogo in una risorsa BacktestResult. Se vuoi, creazione dei risultati delle previsioni consente di valutare gli output del modello.
Una volta completate le fasi precedenti e le prestazioni del modello soddisfano le tue esigenze, consulta le indicazioni nelle sezioni Generare punteggi di rischio e spiegabilità e Preparati per il modello e la governance del rischio.
Prima di iniziare
Prima di iniziare, ti serviranno:
- Uno o più set di dati
- Un elemento selezionato versione motore per utilizzare
Requisiti dei set di dati
Per indicazioni dettagliate sul modello di dati e sullo schema, consulta le pagine in Preparazione dei dati per l'IA AML. Questa sezione spiega come assicurarti che i set di dati utilizzati per l'ottimizzazione, l'addestramento e la valutazione dell'engine funzionino bene insieme.
Intervalli di tempo dei set di dati
Ogni set di dati utilizzato per le operazioni di ottimizzazione, addestramento, backtesting e previsione deve contenere dati validi per un intervallo di tempo che termina alla fine dell'ultimo mese di calendario completo precedente alla data e all'ora end_time specificate nella chiamata all'API. La lunghezza questo intervallo di tempo dipende dalla tabella, dalla versione e dal funzionamento del motore. L'intervallo di tempo minimo è descritto in dettaglio in Informazioni sull'ambito e sulla durata dei dati.
Ad esempio, per l'ottimizzazione del motore con le versioni del motore v004.004, la transazione deve coprire almeno 30 mesi.
La configurazione di un motore, l'addestramento e la valutazione (backtesting) possono essere completati con un singolo set di dati; consulta l'immagine seguente. Per garantire buone prestazioni in produzione evitando il sovraadattamento, devi assicurarti che il periodo utilizzato per la valutazione (ovvero la creazione dei risultati del backtest) sia successivo al periodo utilizzato per l'addestramento (ovvero la creazione di un modello).
Ad esempio, se utilizzi 3 punti per il backtesting e i punti fino alla fine di febbraio 2024 per la formazione (ovvero, ora di fine all'inizio di marzo 2024), potresti utilizzare periodi fino alla fine di maggio 2024 per il backtesting (ovvero l'ora di fine) all'inizio di giugno 2024).
Coerenza del set di dati
Quando utilizzi set di dati diversi per le fasi di ottimizzazione, addestramento e valutazione del motore, assicurati che siano coerenti per i campi che vengono compilati e per il modo in cui vengono compilati. Questo è importante per la stabilità e le prestazioni del modello AML.
Allo stesso modo, per un punteggio di rischio di alta qualità, il set di dati utilizzato per creare i risultati della previsione con un modello deve essere coerente con il set di dati usato per addestrare il modello.
In particolare, verifica quanto segue:
- Per compilare ogni campo viene utilizzata la stessa logica. La modifica della logica utilizzata per compilare un campo può introdurre uno scostamento delle funzionalità tra l'addestramento del modello e la previsione o la valutazione.
- Vengono compilati gli stessi campi CONSIGLIATI. Ad esempio: la rimozione di un campo compilato durante l'addestramento del modello può causare su cui il modello fa affidamento per essere inclinato o mancante durante la valutazione la previsione.
Per fornire i valori viene utilizzata la stessa logica. Nella PartySupplementaryData, viene utilizzata la stessa logica per fornisci valori per ogni campo
party_supplementary_data_id
.- Utilizzo degli stessi dati, ma con
party_supplementary_data_id
diversi fa sì che il modello utilizzi i dati in modo errato. Ad esempio, un particolar campo utilizza l'ID5
nella tabella PartySupplementaryData per un set di dati, ma poi utilizza l'ID7
in un altro set di dati. - La rimozione di un valore
party_supplementary_data_id
su cui si basa un modello può avere effetti imprevedibili. Ad esempio, l'ID3
viene utilizzato nella PartySupplementaryData in un set di dati, ma è omesso da un altro set di dati.
- Utilizzo degli stessi dati, ma con
Ora hai un set di dati pronto per l'ottimizzazione, l'addestramento e la valutazione del motore. Tieni conto che le operazioni sui modelli possono richiedere decine di ore. Per informazioni su come verificare se un'operazione è ancora in esecuzione o è stata completata (non riuscita o riuscita) vedi Gestire le operazioni a lunga esecuzione.