Cette page vous guide tout au long des étapes de préparation d'un modèle d'AML basée sur l'IA, en supposant que vous avez déjà configuré une instance et préparé les ensembles de données nécessaires.
Présentation des étapes
Le processus de préparation d'un modèle comprend trois étapes:
Étape 1 : Configurer un moteur, y compris sélectionner la source des hyperparamètres:
- Réglage: réglage automatique des hyperparamètres
- Hériter: héritez les hyperparamètres d'une configuration de moteur précédente créée avec une version antérieure du moteur au sein de la même version de réglage. Ce paramètre vous permet d'éviter d'avoir à réajuster chaque fois que vous adoptez une nouvelle version de moteur de modèle.
La création d'une configuration de moteur permet de stocker les résultats du réglage ou de l'héritage dans une ressource EngineConfig.
Étape 2 : Générer un modèle
La création d'un modèle déclenche l'entraînement et stocke les résultats en tant que ressource de modèle.
Étape 3 : Évaluer un modèle
La création des résultats des tests Backtest évalue les performances du modèle sur un ensemble de mois spécifié, en stockant les résultats récapitulatifs dans une ressource BacktestResult. La création de résultats de prédiction vous permet éventuellement d'évaluer les sorties du modèle par partie.
Une fois que vous avez terminé les étapes ci-dessus et que les performances du modèle répondent à vos besoins, consultez les conseils des sections Générer des scores de risque et l'explicabilité et Préparer le modèle et la gouvernance des risques.
Avant de commencer
Avant de commencer, vous aurez besoin des éléments suivants:
- Un ou plusieurs ensembles de données
- Une version de moteur sélectionnée à utiliser
Exigences concernant les ensembles de données
Pour en savoir plus sur le modèle de données et le schéma, consultez les pages de la section Préparer les données pour l'AML basée sur l'IA. Cette section explique comment s'assurer que les ensembles de données utilisés dans le réglage, l'entraînement et l'évaluation du moteur fonctionnent bien ensemble.
Périodes de l'ensemble de données
La période minimale des ensembles de données pour chaque opération est traitée dans Comprendre la portée et la durée des données. En résumé, une période d'analyse comprise entre 0 et 24 mois est requise selon le tableau, en plus d'une période principale d'au moins 18 mois.
Par exemple, pour le réglage du moteur, la table Transaction doit couvrir au moins 42 mois (18 mois pour la période centrale et 24 mois pour la période d'analyse).
Vous pouvez configurer un moteur, un entraînement et une évaluation (backtesting) avec un seul ensemble de données (voir l'image ci-dessous). Pour garantir de bonnes performances de production en évitant le surapprentissage, vous devez utiliser une fenêtre temporelle principale pour l'évaluation (c'est-à-dire la création de résultats de test antérieur) qui est disjointe et plus récente que la fenêtre de temps principale pour l'entraînement (c'est-à-dire la création d'un modèle).
Cohérence des ensembles de données
Lorsque vous utilisez différents ensembles de données pour les étapes de réglage, d'entraînement et d'évaluation du moteur, assurez-vous que les champs renseignés et la manière dont ils sont renseignés sont cohérents. Ce point est important pour la stabilité et les performances des modèles d'AML.
De même, pour un score de risque de haute qualité, l'ensemble de données utilisé pour créer les résultats de la prédiction avec un modèle doit être cohérent avec celui utilisé pour entraîner ce modèle.
Vérifiez en particulier les points suivants:
- La même logique est utilisée pour renseigner chaque champ. La modification de la logique utilisée pour renseigner un champ peut introduire un décalage de caractéristiques entre l'entraînement du modèle et la prédiction ou l'évaluation.
- La même sélection de champs RECOMMANDÉS est renseignée. Par exemple, la suppression d'un champ renseigné lors de l'entraînement du modèle peut fausser les caractéristiques sur lesquelles s'appuie le modèle ou les rendre manquantes lors de l'évaluation ou de la prédiction.
La même logique est utilisée pour fournir des valeurs. Dans la table PartySupplementaryData, la même logique est utilisée pour fournir des valeurs à chaque champ
party_supplementary_data_id
.- Si vous utilisez les mêmes données, mais avec des valeurs
party_supplementary_data_id
différentes, le modèle n'utilisera pas correctement les données. Par exemple, un champ particulier utilise l'ID5
dans la table PartySupplementaryData pour un ensemble de données, mais utilise ensuite l'identifiant7
dans un autre ensemble de données. - Supprimer une valeur
party_supplementary_data_id
sur laquelle s'appuie un modèle peut avoir des effets imprévisibles. Par exemple, l'ID3
est utilisé dans la table PartySupplementaryData d'un ensemble de données, mais il est omis d'un autre ensemble de données.
- Si vous utilisez les mêmes données, mais avec des valeurs
Vous disposez maintenant d'un ensemble de données prêt pour le réglage, l'entraînement et l'évaluation du moteur. Notez que les opérations de modèle peuvent prendre plusieurs dizaines d'heures. Pour savoir comment vérifier si une opération est toujours en cours d'exécution ou terminée (échec ou succès), consultez la section Gérer les opérations de longue durée.