Panoramica della preparazione del modello

Questa pagina ti guida nella procedura di preparazione di un modello IA AML, supponendo che tu abbia già configurato un'istanza e preparato i set di dati necessari.

Panoramica delle fasi

Il processo di preparazione di un modello è articolato nelle seguenti tre fasi:

Una volta completate le fasi precedenti e il rendimento del modello soddisfa le tue esigenze, consulta le indicazioni nelle sezioni Generare punteggi di rischio e spiegabilità e Prepararsi alla governance del modello e del rischio.

Prima di iniziare

Prima di iniziare, avrai bisogno di:

Requisiti del set di dati

Per indicazioni dettagliate sullo schema e sul modello dei dati, consulta le pagine in Preparazione dei dati per AML AI. Questa sezione spiega come assicurarsi che i set di dati utilizzati per l'ottimizzazione, l'addestramento e la valutazione dei motori funzionino bene insieme.

Intervalli di tempo del set di dati

L'intervallo di tempo minimo dei set di dati per ogni operazione è trattato in Comprendere l'ambito e la durata dei dati. Riassumendo, è necessaria una finestra temporale da 0 a 24 mesi a seconda della tabella, in aggiunta a una finestra temporale principale di almeno 18 mesi.

Ad esempio, per l'ottimizzazione del motore, la tabella Transaction deve coprire almeno 42 mesi (18 mesi per la finestra temporale principale e 24 mesi per la finestra temporale).

La configurazione di un motore, l'addestramento e la valutazione (backtest) possono essere completati con un singolo set di dati; vedi l'immagine seguente. Per garantire buone prestazioni di produzione evitando l'overfitting, devi utilizzare una finestra temporale del core per la valutazione (ovvero, la creazione di risultati del backtest) non articolata e più recente della finestra temporale principale per l'addestramento (ovvero la creazione di un modello).

Intervalli di tempo del set di dati per ottimizzazione, addestramento e test backtest

Coerenza del set di dati

Quando utilizzi set di dati diversi per le fasi di ottimizzazione, addestramento e valutazione del motore, rendili coerenti in quali campi e come vengono compilati. Questo è importante per la stabilità e le prestazioni del modello AML.

Allo stesso modo, per un punteggio di rischio di alta qualità, il set di dati utilizzato per creare risultati delle previsioni con un modello dovrebbe essere coerente con il set di dati utilizzato per addestrare quel modello.

In particolare, verifica quanto segue:

  • La stessa logica viene utilizzata per compilare ogni campo. La modifica della logica utilizzata per compilare un campo può introdurre un disallineamento delle caratteristiche tra l'addestramento e la previsione o la valutazione del modello.
  • Viene compilata la stessa selezione di campi CONSIGLIATI. Ad esempio, la rimozione di un campo compilato durante l'addestramento del modello può causare che le caratteristiche su cui si basa il modello siano distorte o mancanti durante la valutazione o la previsione.
  • Per fornire i valori viene utilizzata la stessa logica. Nella tabella PartySupplementaryData, viene utilizzata la stessa logica per fornire valori per ogni campo party_supplementary_data_id.

    • L'utilizzo degli stessi dati, ma con valori party_supplementary_data_id diversi, fa sì che il modello utilizzi i dati in modo errato. Ad esempio, un determinato campo utilizza l'ID 5 nella tabella PartySupplementaryData per un set di dati, ma poi utilizza l'ID 7 in un altro set di dati.
    • La rimozione di un valore party_supplementary_data_id su cui si basa un modello potrebbe avere effetti imprevedibili. Ad esempio, l'ID 3 viene utilizzato nella tabella PartySupplementaryData in un set di dati, ma viene omesso da un altro set di dati.

Ora hai un set di dati pronto per l'ottimizzazione, l'addestramento e la valutazione del motore. Tieni presente che le operazioni del modello possono richiedere decine di ore. Per informazioni su come verificare se un'operazione è ancora in esecuzione o è stata completata (non riuscita o riuscita), consulta Gestire le operazioni a lunga esecuzione.