Évaluer un modèle

Les résultats des tests rétrospectifs vous fournissent un résumé des performances du modèle dans un environnement spécifié période. Ils sont générés en effectuant des prédictions sur tous les clients d'un test rétrospectif. et en évaluant les performances du modèle par rapport aux événements de risque disponibles.

Les résultats du backtest peuvent être utilisés pour mesurer les performances du modèle à un autre moment de celles utilisées lors de l'entraînement, ou au fil du temps pour vérifier les performances une dégradation importante.

Effectuer un backtest

Pour créer un Ressource BacktestResult, voir Créer et gérer les résultats des tests rétrospectifs

Vous devez notamment sélectionner les éléments suivants:

  • Données à utiliser pour les tests rétrospectifs:

    Spécifiez un ensemble de données et une heure de fin dans la plage de dates de l'ensemble de données.

    L'entraînement utilise des étiquettes et des fonctionnalités basées sur des mois calendaires complets jusqu'au (à l'exclusion du mois correspondant à l'heure de fin sélectionnée) Pour plus d'informations, voir Périodes d'utilisation des ensembles de données.

    Spécifiez le nombre de mois de données étiquetées à utiliser pour les tests rétrospectifs (c'est-à-dire, le nombre de périodes de rétrotest).

  • Un modèle créé à partir d'un ensemble de données cohérent:

    Voir Créez un modèle.

Périodes les plus anciennes

La backtestPeriods spécifie le nombre de mois calendaires consécutifs pour utiliser les fonctionnalités et les étiquettes lors de l'évaluation des performances de ce modèle.

Les règles suivantes s'appliquent aux données de backtest:

  • Les mois utilisés lors de l'évaluation sont les mois calendaires complets les plus récents avant le endTime spécifié. Par exemple, si endTime est 2023-04-15T23:21:00Z et backtestPeriods est 5, puis les étiquettes de les mois suivants sont utilisés: 03/2023, 02/02/2023, 01/01/2023, 12/2022 et 2022-11.
  • Vous devez utiliser les données les plus récentes disponibles pour effectuer des tests rétrospectifs lorsque Évaluer un modèle en vue de son utilisation en production
  • Les périodes de rétrotest doivent être définies sur 3 ou plus. Deux mois de backtest sont réservées aux alertes répétées, et les mois restants permettent de générer des étiquettes positives pour évaluer les performances.

  • Évitez d'utiliser des mois qui se chevauchent pour l'entraînement et les tests rétrospectifs, car cela risque surapprentissage. Assurez-vous que les heures de backtest et de fin de l'entraînement sont au moins backtestPeriods. En d'autres termes,

    (heure de fin des résultats du test backtest mois) >= (heure de fin du modèle mois) + backtestPeriods

Vous pouvez également Créer des résultats de prédiction pour un modèle et effectuer vos propres analyses des performances du modèle au niveau de chaque partie.

Résultat du backtest

La Métadonnées des résultats des tests backtest contient les métriques suivantes. En particulier, ces métriques vous indiquent suivantes:

  • Les performances du modèle par rapport aux étiquettes d'une autre période pour différents volumes d'investigation seuils de score de risque

  • Mesures pouvant être utilisées pour évaluer la cohérence de l'ensemble de données (par exemple, en comparant les valeurs de manque de valeurs de familles de caractéristiques issues de différentes opérations)

Nom de la métrique Description de la métrique Exemple de valeur de métrique
ObservedRecallValues Métrique de rappel mesurée sur l'ensemble de données spécifié pour les tests rétrospectifs. L'API 20 de ces mesures, à différents points de fonctionnement, distribué de 0 (non inclus) à 2 * partyInvestigationsPerPeriodHint L'API ajoute un dernier rappel mesure à partyInvestigationsPerPeriodHint.
{
  "recallValues": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "recallValue": 0.80,
      "scoreThreshold": 0.42,
    },
    ...
    ...
    {
      "partyInvestigationsPerPeriod": 8000,
      "recallValue": 0.85,
      "scoreThreshold": 0.30,
    },
  ],
}
Manquant

Part des valeurs manquantes pour l'ensemble des caractéristiques de chaque famille de caractéristiques.

Dans l'idéal, toutes les familles de fonctionnalités d'AML basée sur l'IA devraient Manquante proche de 0. Des exceptions peuvent se produire lorsque les données sous-jacentes ces familles de caractéristiques ne peuvent pas être intégrées.

Un changement significatif de cette valeur pour toute famille de caractéristiques entre le réglage l'entraînement, l'évaluation et la prédiction peuvent indiquer des incohérences les ensembles de données utilisés.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
Décalage

Métriques montrant un décalage entre les ensembles de données d'entraînement et de prédiction ou de test rétrospectif. Un décalage familial indique des changements dans la distribution des valeurs de caractéristiques au sein d'une famille de caractéristiques, pondérées par l'importance de la caractéristique dans cette famille. L'asymétrie maximale indique l'asymétrie maximale de toutes les caractéristiques de cette famille.

Les valeurs de décalage sont comprises entre 0 (pas de changement significatif dans la distribution des valeurs des caractéristiques de la famille) et 1 (pour la variation la plus importante). Une valeur élevée pour un décalage familial ou maximal indique un changement significatif dans la structure de vos données, susceptible d'affecter les performances du modèle. Un décalage familial prend la valeur -1 lorsqu'aucune caractéristique de la famille n'est utilisée par le modèle.

Pour les valeurs d'asymétrie importantes, effectuez l'une des opérations suivantes:

  • Examiner les modifications apportées aux données utilisées par cette famille de caractéristiques (voir les documents d'assistance sur la gouvernance des modèles) et résoudre les problèmes liés aux données d'entrée
  • Réentraîner un modèle avec des données plus récentes

Vous devez définir des seuils pour agir sur la famille et les valeurs d'asymétrie maximale en fonction de l'observation de la variation naturelle des métriques de décalage sur plusieurs mois.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "familySkewValue": 0.10,
      "maxSkewValue": 0.14,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "familySkewValue": 0.11,
      "maxSkewValue": 0.11,
    },
  ],
}