Évaluer un modèle

Les résultats du backtest vous fournissent un résumé des performances du modèle sur une période donnée. Ils sont générés en effectuant des prédictions sur tous les clients d'un test rétrospectif. et en évaluant les performances du modèle par rapport aux événements de risque disponibles.

Les résultats du backtest peuvent être utilisés pour mesurer les performances du modèle sur une période distincte de celle utilisée pour l'entraînement, ou au fil du temps pour vérifier la dégradation des performances.

Comment effectuer un backtest

Pour créer un Ressource BacktestResult, voir Créer et gérer les résultats des tests rétrospectifs

Vous devez notamment sélectionner les éléments suivants:

  • Données à utiliser pour le backtesting :

    Spécifiez un ensemble de données et une heure de fin comprise dans la plage de dates de l'ensemble de données.

    L'entraînement utilise des étiquettes et des fonctionnalités basées sur des mois calendaires complets jusqu'au (à l'exclusion du mois correspondant à l'heure de fin sélectionnée) Pour plus d'informations, voir Périodes d'utilisation des ensembles de données.

    Spécifiez le nombre de mois de données libellées à utiliser pour le rétrotest (c'est-à-dire le nombre de périodes de rétrotest).

  • Un modèle créé à partir d'un ensemble de données cohérent:

    Voir Créez un modèle.

Périodes de test rétrospectif

La backtestPeriods spécifie le nombre de mois calendaires consécutifs pour utiliser les fonctionnalités et les étiquettes lors de l'évaluation des performances de ce modèle.

Les règles suivantes s'appliquent aux données de backtest:

  • Les mois utilisés lors de l'évaluation sont les mois calendaires complets les plus récents avant le endTime spécifié. Par exemple, si endTime est 2023-04-15T23:21:00Z et backtestPeriods est 5, puis les étiquettes de les mois suivants sont utilisés: 03/2023, 02/02/2023, 01/01/2023, 12/2022 et 2022-11.
  • Vous devez utiliser les données les plus récentes disponibles pour effectuer des tests rétrospectifs lorsque Évaluer un modèle en vue de son utilisation en production
  • Les périodes de rétrotest doivent être définies sur 3 ou plus. Deux mois de la période de test rétrospectif sont réservés pour tenir compte des alertes répétées, et les mois restants sont utilisés pour générer des libellés positifs à des fins d'évaluation des performances.

  • Évitez d'utiliser des mois qui se chevauchent pour l'entraînement et le rétrotest, car cela risque de provoquer un surajustement. Assurez-vous que les heures de backtest et de fin de l'entraînement sont au moins backtestPeriods. En d'autres termes,

    (mois de fin des résultats du backtest) >= (mois de fin du modèle) + backtestPeriods

Vous pouvez également créer des résultats de prédiction pour un modèle et effectuer vos propres analyses des performances du modèle au niveau des partis.

Sortie du test rétrospectif

Les métadonnées des résultats du backtest contiennent les métriques suivantes. Plus précisément, ces métriques vous indiquent les éléments suivants :

  • Les performances du modèle par rapport aux étiquettes d'une autre période pour différents volumes d'investigation seuils de score de risque

  • Mesures pouvant être utilisées pour évaluer la cohérence de l'ensemble de données (par exemple, en comparant les valeurs de manque de valeurs de familles de caractéristiques issues de différentes opérations)

Nom de la métrique Description de la métrique Exemple de valeur de métrique
ObservedRecallValues Métrique de rappel mesurée sur l'ensemble de données spécifié pour le rétrocompatibilité. L'API 20 de ces mesures, à différents points de fonctionnement, distribué de 0 (non inclus) à 2 * partyInvestigationsPerPeriodHint L'API ajoute un dernier rappel mesure à partyInvestigationsPerPeriodHint.
{
  "recallValues": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "recallValue": 0.80,
      "scoreThreshold": 0.42,
    },
    ...
    ...
    {
      "partyInvestigationsPerPeriod": 8000,
      "recallValue": 0.85,
      "scoreThreshold": 0.30,
    },
  ],
}
Données manquantes

Part des valeurs manquantes pour l'ensemble des caractéristiques de chaque famille de caractéristiques.

Dans l'idéal, toutes les familles de fonctionnalités d'AML basée sur l'IA devraient Manquante proche de 0. Des exceptions peuvent se produire lorsque les données sous-jacentes ces familles de caractéristiques ne peuvent pas être intégrées.

Un changement significatif de cette valeur pour une famille de fonctionnalités entre le réglage, l'entraînement, l'évaluation et la prédiction peut indiquer une incohérence dans les ensembles de données utilisés.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
Décalage

Métriques montrant un décalage entre les ensembles de données d'entraînement et de prédiction ou de test rétrospectif. Le biais de famille indique les changements dans la distribution des valeurs des éléments d'une famille d'éléments, pondérés en fonction de l'importance de l'élément dans cette famille. L'asymétrie maximale indique l'asymétrie maximale de toutes les caractéristiques de cette famille.

Les valeurs d'asymétrie varient de 0, qui représente aucun changement significatif dans la distribution des valeurs des éléments de la famille, à 1 pour le changement le plus significatif. Une valeur élevée pour l'asymétrie familiale ou l'asymétrie maximale indique un changement important dans la structure de vos données, ce qui peut avoir un impact sur les performances du modèle. La valeur de biais de famille est -1 lorsque le modèle n'utilise aucune caractéristique de la famille.

Pour les valeurs d'asymétrie importantes, effectuez l'une des opérations suivantes:

  • Examiner les modifications apportées aux données utilisées par cette famille de caractéristiques (voir les documents d'assistance sur la gouvernance des modèles) et résoudre les problèmes liés aux données d'entrée
  • Réentraîner un modèle avec des données plus récentes

Vous devez définir des seuils pour agir sur la famille et les valeurs d'asymétrie maximale en fonction de l'observation de la variation naturelle des métriques de décalage sur plusieurs mois.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "familySkewValue": 0.10,
      "maxSkewValue": 0.14,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "familySkewValue": 0.11,
      "maxSkewValue": 0.11,
    },
  ],
}