Cette page vous explique comment préparer un modèle d'IA AML, en supposant que vous avez déjà configuré une instance et préparé les ensembles de données nécessaires.
Présentation des étapes
Le processus de préparation d'un modèle comprend les trois étapes suivantes:
Étape 1: Configurer un moteur y compris la sélection de la source des hyperparamètres:
- Réglage: réglage automatique des hyperparamètres
- Hériter: hériter des hyperparamètres d'une configuration de moteur précédente créé avec une version de moteur antérieure dans le même réglage de version. Ce paramètre vous évite d'effectuer de nouveaux réglages chaque fois que vous adoptez un nouveau modèle. version du moteur de recherche.
La création d'une configuration de moteur stocke les résultats du réglage ou de l'héritage dans une ressource EngineConfig.
Étape 2: Générer un modèle
Créer un modèle déclenche l'entraînement, en stockant les résultats Ressource de modèle.
Étape 3 : Évaluer un modèle
Créer des résultats de backtest évalue les performances du modèle sur un ensemble de mois donné, stocke le résumé génère Ressource BacktestResult. Vous pouvez également créer des résultats de prédiction pour évaluer les sorties par parti du modèle.
Une fois que vous avez terminé les étapes précédentes et que les performances du modèle répondent à vos besoins, consultez les conseils dans les sections Générer des scores de risque et expliquer leur explicabilité. Préparez-vous à la gouvernance des modèles et des risques.
Avant de commencer
Avant de commencer, vous aurez besoin des éléments suivants:
- Une ou plusieurs ensembles de données
- A sélectionné version du moteur à utiliser
Exigences concernant les ensembles de données
Pour obtenir des conseils détaillés sur le modèle de données et le schéma, consultez les pages sous Préparer les données pour l'IA AML. Cette section explique comment s'assurer que les jeux de données utilisés pour le réglage du moteur, l'entraînement et l'évaluation fonctionnent bien ensemble.
Plages de dates de l'ensemble de données
La période minimale des ensembles de données pour chaque opération est décrite dans Comprendre le champ d'application et la durée des données. En résumé, une période d'analyse de 0 à 24 mois est requise, en fonction de la table, en plus d'une période de base d'au moins 18 mois pour couvrir toutes les opérations avec le même ensemble de données. Des ensembles de données plus courts peuvent être utilisés pour les opérations individuelles, par exemple si vous réutilisez une configuration de moteur et que vous n'avez pas besoin de procéder à un nouveau réglage.
Par exemple, pour le réglage du moteur, la table Transaction doit couvrent au moins 42 mois (18 mois pour la période principale et 24 mois période d'analyse).
La configuration d'un moteur, l'entraînement et l'évaluation (backtesting) peuvent être effectués avec un seul ensemble de données. Consultez l'image suivante. Pour assurer une bonne production en évitant le surapprentissage, vous devez utiliser une fenêtre temporelle principale (c'est-à-dire, créer les résultats des backtests), qui est disjointe et est plus plus récent que la période principale de l'entraînement (c'est-à-dire la création d'un modèle).
Cohérence des ensembles de données
Lorsqu'il utilise différents ensembles de données pour le réglage, l'entraînement et l'évaluation du moteur d'étapes, d'assurer la cohérence des ensembles de données concernant les champs renseignés et la façon dont ils sont renseignés. Cela est important pour la stabilité et les performances du modèle AML.
De même, pour un score de risque de haute qualité, le utilisé pour créer des résultats de prédiction avec un modèle doit être cohérent avec l'ensemble de données utilisé pour entraîner le modèle.
Vérifiez plus particulièrement les points suivants:
- La même logique est utilisée pour renseigner chaque champ. Modifier la logique utilisée pour renseigner un champ peut introduire un décalage de caractéristiques entre l'entraînement du modèle une prédiction ou une évaluation.
- La même sélection de champs RECOMMANDED est insérée. Par exemple : la suppression d'un champ renseigné pendant l'entraînement du modèle peut entraîner des problèmes sur lesquels s'appuie le modèle pour être biaisé ou manquant lors de l'évaluation la prédiction.
La même logique est utilisée pour fournir des valeurs. Dans PartySupplementaryData, la même logique est utilisée pour fournir des valeurs pour chaque champ
party_supplementary_data_id
.- Utiliser les mêmes données, mais avec des valeurs différentes pour
party_supplementary_data_id
, le modèle n'utilise pas correctement les données. Par exemple, un ce champ utilise l'ID5
de la table PartySupplementaryData pour un ensemble de données, utilise l'ID7
dans un autre ensemble de données. - Supprimer une valeur
party_supplementary_data_id
sur laquelle repose un modèle peut avoir des effets imprévisibles. Par exemple, l'ID3
est utilisé dans PartySupplementaryData dans un ensemble de données, mais n'est sont omises dans un autre jeu de données.
- Utiliser les mêmes données, mais avec des valeurs différentes pour
Vous disposez maintenant d'un ensemble de données prêt pour le réglage, l'entraînement et l'évaluation du moteur. Notez que les opérations de modèle peuvent prendre des dizaines d'heures. Pour savoir comment vérifier si une opération est toujours en cours d'exécution ou s'est terminée (échec ou réussi) ; voir Gérez les opérations de longue durée.