Présentation de la préparation du modèle

Cette page vous explique comment préparer un modèle d'IA AML, en supposant que vous avez déjà configuré une instance et préparé les ensembles de données nécessaires.

Présentation des étapes

Le processus de préparation d'un modèle comprend les trois étapes suivantes:

Une fois que vous avez terminé les étapes précédentes et que les performances du modèle répondent à vos besoins, consultez les conseils dans les sections Générer des scores de risque et expliquer leur explicabilité. Préparez-vous à la gouvernance des modèles et des risques.

Avant de commencer

Avant de commencer, vous aurez besoin des éléments suivants:

Exigences concernant les ensembles de données

Pour obtenir des conseils détaillés sur le modèle de données et le schéma, consultez les pages sous Préparer les données pour l'IA AML. Cette section explique comment s'assurer que les jeux de données utilisés pour le réglage du moteur, l'entraînement et l'évaluation fonctionnent bien ensemble.

Plages de dates de l'ensemble de données

La période minimale des ensembles de données pour chaque opération est décrite dans Comprendre le champ d'application et la durée des données. En résumé, une période d'analyse de 0 à 24 mois est requise, en fonction de la table, en plus d'une période de base d'au moins 18 mois pour couvrir toutes les opérations avec le même ensemble de données. Des ensembles de données plus courts peuvent être utilisés pour les opérations individuelles, par exemple si vous réutilisez une configuration de moteur et que vous n'avez pas besoin de procéder à un nouveau réglage.

Par exemple, pour le réglage du moteur, la table Transaction doit couvrent au moins 42 mois (18 mois pour la période principale et 24 mois période d'analyse).

La configuration d'un moteur, l'entraînement et l'évaluation (backtesting) peuvent être effectués avec un seul ensemble de données. Consultez l'image suivante. Pour assurer une bonne production en évitant le surapprentissage, vous devez utiliser une fenêtre temporelle principale (c'est-à-dire, créer les résultats des backtests), qui est disjointe et est plus plus récent que la période principale de l'entraînement (c'est-à-dire la création d'un modèle).

Plages de durée des ensembles de données pour le réglage, l'entraînement et les tests rétrospectifs

Cohérence des ensembles de données

Lorsqu'il utilise différents ensembles de données pour le réglage, l'entraînement et l'évaluation du moteur d'étapes, d'assurer la cohérence des ensembles de données concernant les champs renseignés et la façon dont ils sont renseignés. Cela est important pour la stabilité et les performances du modèle AML.

De même, pour un score de risque de haute qualité, le utilisé pour créer des résultats de prédiction avec un modèle doit être cohérent avec l'ensemble de données utilisé pour entraîner le modèle.

Vérifiez plus particulièrement les points suivants:

  • La même logique est utilisée pour renseigner chaque champ. Modifier la logique utilisée pour renseigner un champ peut introduire un décalage de caractéristiques entre l'entraînement du modèle une prédiction ou une évaluation.
  • La même sélection de champs RECOMMANDED est insérée. Par exemple : la suppression d'un champ renseigné pendant l'entraînement du modèle peut entraîner des problèmes sur lesquels s'appuie le modèle pour être biaisé ou manquant lors de l'évaluation la prédiction.
  • La même logique est utilisée pour fournir des valeurs. Dans PartySupplementaryData, la même logique est utilisée pour fournir des valeurs pour chaque champ party_supplementary_data_id.

    • Utiliser les mêmes données, mais avec des valeurs différentes pour party_supplementary_data_id , le modèle n'utilise pas correctement les données. Par exemple, un ce champ utilise l'ID 5 de la table PartySupplementaryData pour un ensemble de données, utilise l'ID 7 dans un autre ensemble de données.
    • Supprimer une valeur party_supplementary_data_id sur laquelle repose un modèle peut avoir des effets imprévisibles. Par exemple, l'ID 3 est utilisé dans PartySupplementaryData dans un ensemble de données, mais n'est sont omises dans un autre jeu de données.

Vous disposez maintenant d'un ensemble de données prêt pour le réglage, l'entraînement et l'évaluation du moteur. Notez que les opérations de modèle peuvent prendre des dizaines d'heures. Pour savoir comment vérifier si une opération est toujours en cours d'exécution ou s'est terminée (échec ou réussi) ; voir Gérez les opérations de longue durée.