Présentation de la préparation du modèle

Cette page vous présente les étapes à suivre pour préparer une stratégie de lutte contre le blanchiment d'argent (AML) basée sur l'IA en supposant que vous avez déjà configuré une instance et préparé des ensembles de données.

Présentation des étapes

Le processus de préparation d'un modèle comprend les trois étapes suivantes:

Une fois que vous avez terminé les étapes précédentes et que les performances du modèle répondent à vos besoins, consultez les conseils dans les sections Générer des scores de risque et expliquer leur explicabilité. Préparez-vous à la gouvernance des modèles et des risques.

Avant de commencer

Avant de commencer, vous avez besoin des éléments suivants :

Exigences concernant les ensembles de données

Pour obtenir des conseils détaillés sur le modèle de données et le schéma, consultez les pages sous Préparer les données pour l'AML basée sur l'IA Cette section explique comment s'assurer que les jeux de données utilisés pour le réglage du moteur, l'entraînement et l'évaluation fonctionnent bien ensemble.

Plages temporelles des ensembles de données

Chaque ensemble de données utilisé pour le réglage, l'entraînement, le backtesting et les opérations de prédiction doit contenir des données valides pour une période se terminant à la fin du dernier mois calendaire complet précédant l'heure de fin spécifiée dans l'appel d'API. La durée de dépend de la table, de la version du moteur et de l'opération. La période minimale est décrite en détail dans Comprendre la portée et la durée des données.

Par exemple, pour le réglage du moteur avec les versions de moteur v004.004, la table "Transaction" doit couvrir au moins 30 mois.

La configuration d'un moteur, l'entraînement et l'évaluation (tests rétrospectifs) peuvent être effectués avec un seul ensemble de données ; consultez l'image ci-dessous. Pour garantir de bonnes performances en production en évitant le surajustement, vous devez vous assurer que la période utilisée pour l'évaluation (c'est-à-dire la création de résultats de backtest) est postérieure à la période utilisée pour l'entraînement (c'est-à-dire la création d'un modèle).

Par exemple, si vous utilisez trois périodes pour le rétrocompatibilité et des périodes jusqu'à la fin de février 2024 pour l'entraînement (c'est-à-dire la date de fin début mars 2024), vous pouvez utiliser des périodes jusqu'à la fin de mai 2024 pour le rétrocompatibilité (c'est-à-dire la date de fin début juin 2024).

Intervalles de temps de l'ensemble de données pour le réglage, l'entraînement et le backtesting

Cohérence des ensembles de données

Lorsque vous utilisez différents ensembles de données pour les étapes de réglage, d'entraînement et d'évaluation du moteur, assurez-vous que les ensembles de données sont cohérents en ce qui concerne les champs renseignés et la manière dont ils sont renseignés. Cela est important pour la stabilité et les performances du modèle AML.

De même, pour un score de risque de haute qualité, le utilisé pour créer des résultats de prédiction à l'aide d'un modèle doit être cohérent avec l'ensemble de données utilisé pour entraîner le modèle.

Vérifiez en particulier les points suivants:

  • La même logique est utilisée pour renseigner chaque champ. Modifier la logique utilisée pour renseigner un champ peut introduire un décalage de caractéristiques entre l'entraînement du modèle une prédiction ou une évaluation.
  • La même sélection de champs RECOMMANDÉS est renseignée. Par exemple, supprimer un champ renseigné lors de l'entraînement du modèle peut entraîner une distorsion ou une absence de fonctionnalités sur lesquelles le modèle s'appuie lors de l'évaluation ou de la prédiction.
  • La même logique s'applique pour fournir des valeurs. Dans le tableau PartySupplementaryData, la même logique est utilisée pour fournir des valeurs pour chaque champ party_supplementary_data_id.

    • L'utilisation des mêmes données, mais avec des valeurs party_supplementary_data_id différentes, entraîne une utilisation incorrecte des données par le modèle. Par exemple, un champ particulier utilise l'ID 5 dans la table PartySupplementaryData pour un ensemble de données, mais utilise ensuite l'ID 7 dans un autre ensemble de données.
    • Supprimer une valeur party_supplementary_data_id sur laquelle repose un modèle peut avoir des effets imprévisibles. Par exemple, l'ID 3 est utilisé dans PartySupplementaryData dans un ensemble de données, mais n'est sont omises dans un autre jeu de données.

Vous disposez maintenant d'un ensemble de données prêt pour le réglage, l'entraînement et l'évaluation du moteur. Remarque que les opérations du modèle peuvent prendre des dizaines d'heures. Pour savoir comment vérifier si une opération est toujours en cours d'exécution ou si elle est terminée (échec ou réussite), consultez la section Gérer les opérations de longue durée.