Présentation de la préparation du modèle

Cette page vous guide tout au long des étapes de préparation d'un modèle d'AML basée sur l'IA, en supposant que vous avez déjà configuré une instance et préparé les ensembles de données nécessaires.

Présentation des étapes

Le processus de préparation d'un modèle comprend trois étapes:

Une fois que vous avez terminé les étapes ci-dessus et que les performances du modèle répondent à vos besoins, consultez les conseils des sections Générer des scores de risque et l'explicabilité et Préparer le modèle et la gouvernance des risques.

Avant de commencer

Avant de commencer, vous aurez besoin des éléments suivants:

Exigences concernant les ensembles de données

Pour en savoir plus sur le modèle de données et le schéma, consultez les pages de la section Préparer les données pour l'AML basée sur l'IA. Cette section explique comment s'assurer que les ensembles de données utilisés dans le réglage, l'entraînement et l'évaluation du moteur fonctionnent bien ensemble.

Périodes de l'ensemble de données

La période minimale des ensembles de données pour chaque opération est traitée dans Comprendre la portée et la durée des données. En résumé, une période d'analyse comprise entre 0 et 24 mois est requise selon le tableau, en plus d'une période principale d'au moins 18 mois.

Par exemple, pour le réglage du moteur, la table Transaction doit couvrir au moins 42 mois (18 mois pour la période centrale et 24 mois pour la période d'analyse).

Vous pouvez configurer un moteur, un entraînement et une évaluation (backtesting) avec un seul ensemble de données (voir l'image ci-dessous). Pour garantir de bonnes performances de production en évitant le surapprentissage, vous devez utiliser une fenêtre temporelle principale pour l'évaluation (c'est-à-dire la création de résultats de test antérieur) qui est disjointe et plus récente que la fenêtre de temps principale pour l'entraînement (c'est-à-dire la création d'un modèle).

Plages de temps des ensembles de données pour le réglage, l'entraînement et le backtesting

Cohérence des ensembles de données

Lorsque vous utilisez différents ensembles de données pour les étapes de réglage, d'entraînement et d'évaluation du moteur, assurez-vous que les champs renseignés et la manière dont ils sont renseignés sont cohérents. Ce point est important pour la stabilité et les performances des modèles d'AML.

De même, pour un score de risque de haute qualité, l'ensemble de données utilisé pour créer les résultats de la prédiction avec un modèle doit être cohérent avec celui utilisé pour entraîner ce modèle.

Vérifiez en particulier les points suivants:

  • La même logique est utilisée pour renseigner chaque champ. La modification de la logique utilisée pour renseigner un champ peut introduire un décalage de caractéristiques entre l'entraînement du modèle et la prédiction ou l'évaluation.
  • La même sélection de champs RECOMMANDÉS est renseignée. Par exemple, la suppression d'un champ renseigné lors de l'entraînement du modèle peut fausser les caractéristiques sur lesquelles s'appuie le modèle ou les rendre manquantes lors de l'évaluation ou de la prédiction.
  • La même logique est utilisée pour fournir des valeurs. Dans la table PartySupplementaryData, la même logique est utilisée pour fournir des valeurs à chaque champ party_supplementary_data_id.

    • Si vous utilisez les mêmes données, mais avec des valeurs party_supplementary_data_id différentes, le modèle n'utilisera pas correctement les données. Par exemple, un champ particulier utilise l'ID 5 dans la table PartySupplementaryData pour un ensemble de données, mais utilise ensuite l'identifiant 7 dans un autre ensemble de données.
    • Supprimer une valeur party_supplementary_data_id sur laquelle s'appuie un modèle peut avoir des effets imprévisibles. Par exemple, l'ID 3 est utilisé dans la table PartySupplementaryData d'un ensemble de données, mais il est omis d'un autre ensemble de données.

Vous disposez maintenant d'un ensemble de données prêt pour le réglage, l'entraînement et l'évaluation du moteur. Notez que les opérations de modèle peuvent prendre plusieurs dizaines d'heures. Pour savoir comment vérifier si une opération est toujours en cours d'exécution ou terminée (échec ou succès), consultez la section Gérer les opérations de longue durée.