Évaluer un modèle

Les résultats des rétrotests fournissent un résumé des performances du modèle dans une période spécifiée. Cela permet de mesurer les performances du modèle sur une période différente de celle utilisée pour l'entraînement, ou également au fil du temps pour vérifier une dégradation des performances.

Effectuer un test arrière

Pour créer une ressource BacktestResult, consultez la section Créer et gérer les résultats des tests backtest.

Vous devez notamment sélectionner les éléments suivants:

  • Données à utiliser pour le backtesting:

    Spécifiez un ensemble de données et une heure de fin dans la plage de dates de l'ensemble de données.

    L'entraînement utilise des libellés et des fonctionnalités basés sur des mois calendaires complets jusqu'au mois de l'heure de fin sélectionnée (non inclus). Pour en savoir plus, consultez la section Plages de dates de l'ensemble de données.

    Spécifiez le nombre de mois de données étiquetées à utiliser pour les rétrotests (c'est-à-dire le nombre de périodes de rétrotests).

  • Modèle créé à partir d'un ensemble de données cohérent:

    Consultez Configurer un moteur.

Périodes des tests antérieurs

Le champ backtestPeriods indique le nombre de mois calendaires consécutifs à partir desquels utiliser les caractéristiques et les libellés pour évaluer les performances de ce modèle.

Les éléments suivants s'appliquent aux données de backtest:

  • Les mois pris en compte dans l'évaluation sont les mois calendaires complets les plus récents avant le endTime spécifié. Par exemple, si endTime correspond à 2023-04-03T23:21:00Z et backtestPeriods est 5, les étiquettes des mois suivants sont utilisées: 03/2023, 02/2023, 01/2023, 12/2022 et 2022-11.
  • Vous devez utiliser les données les plus récentes disponibles pour le backtest lors de l'évaluation d'un modèle en vue de son utilisation en production.
  • Les périodes des tests antérieurs doivent être définies sur 3 ou plus. Deux mois de la période des rétrotests sont réservés pour tenir compte des alertes répétées, et les mois restants sont utilisés pour générer des étiquettes positives afin d'évaluer les performances.

  • Évitez d'utiliser des mois qui se chevauchent pour l'entraînement et le backtesting, car cela risque d'entraîner un surapprentissage. Assurez-vous que les heures de backtest et de fin de l'entraînement sont séparées d'au moins backtestPeriods. Autrement dit,

    (mois de fin des résultats des tests antérieurs) >= (mois de la date de fin du modèle) + backtestPeriods

Si vous le souhaitez, vous pouvez également créer des résultats de prédiction pour un modèle et effectuer vos propres analyses des performances du modèle au niveau d'un tiers.

Résultat du test précédent

Les métadonnées des résultats des tests Backtest contiennent les métriques suivantes. Elles indiquent en particulier ce qui suit:

  • les performances du modèle par rapport aux étiquettes d'une période distincte et pour divers volumes d'investigation ou seuils de score de risque ;

  • Toute modification importante des familles de caractéristiques prises en charge par l'ensemble de données (entre le réglage du moteur, l'entraînement, l'évaluation et la prédiction)

Nom de la métrique Description de la métrique Exemple de valeur de métrique
ObservedRecallValues Métrique de rappel mesurée sur l'ensemble de données spécifié pour le backtesting. L'API inclut 20 de ces mesures, à différents points de fonctionnement, réparties uniformément entre 0 (non inclus) et 2 * partyInvestigationsPerPeriodHint. L'API ajoute une mesure de rappel finale à partyInvestigationsPerPeriodHint.

{
  "recallValues": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "recallValue": 0.80,
      "scoreThreshold": 0.42,
    },
    ...
    ...
    {
      "partyInvestigationsPerPeriod": 8000,
      "recallValue": 0.85,
      "scoreThreshold": 0.30,
    },
  ],
}
Manquant

Part des valeurs manquantes pour toutes les caractéristiques de chaque famille de caractéristiques.

Idéalement, le champ "Manquant" de toutes les familles de caractéristiques d'IA de l'AML doit être proche de 0. Des exceptions peuvent se produire lorsque les données sous-jacentes à ces familles de caractéristiques ne sont pas disponibles pour l'intégration.

Un changement significatif de cette valeur pour une famille de caractéristiques entre le réglage, l'entraînement, l'évaluation et la prédiction peut indiquer des incohérences dans les ensembles de données utilisés.


{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
Décalage

Métriques montrant un décalage entre les ensembles de données d'entraînement et de prédiction ou de rétrotest. L'asymétrie de la famille indique des changements dans la distribution des valeurs des caractéristiques au sein d'une famille, pondérées par l'importance de la caractéristique au sein de cette famille. L'écart maximal indique l'asymétrie maximale de toute caractéristique au sein de cette famille.

Les valeurs de décalage sont comprises entre 0 (qui représente un changement significatif dans la distribution des valeurs des caractéristiques dans la famille) et 1 (pour le changement le plus significatif). Une valeur élevée du décalage familial ou maximal indique un changement significatif dans la structure de vos données, qui peut avoir un impact sur les performances du modèle. Le décalage de famille prend la valeur -1 lorsqu'aucune caractéristique de la famille n'est utilisée par le modèle.

Pour les valeurs d'asymétrie importantes, vous devez effectuer l'une des opérations suivantes:

  • Examiner les modifications apportées aux données utilisées par cette famille de caractéristiques (voir les documents d'aide sur la gouvernance des modèles) et résoudre les problèmes de données d'entrée
  • Réentraîner un modèle avec des données plus récentes

Vous devez définir des seuils pour agir sur les valeurs d'asymétrie de la famille et maximales en vous basant sur l'observation de la variation naturelle des métriques d'asymétrie sur plusieurs mois.


{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "familySkewValue": 0.10,
      "maxSkewValue": 0.14,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "familySkewValue": 0.11,
      "maxSkewValue": 0.11,
    },
  ],
}