Modell bewerten

Backtest-Ergebnisse enthalten eine Zusammenfassung der Modellleistung in einem bestimmten Zeitraum. Sie werden generiert, indem eine Vorhersage für alle Kundschaft innerhalb eines Backtests durchgeführt wird und die Modellleistung anhand verfügbarer Risikoereignisse zu bewerten.

Backtest-Ergebnisse können verwendet werden, um die Modellleistung zu einem anderen Zeitpunkt zu messen die für das Training verwendet werden, oder auch im Laufe der Zeit, und Beeinträchtigungen.

Backtest

So erstellen Sie ein BacktestResult-Ressource Siehe Backtest-Ergebnisse erstellen und verwalten.

Insbesondere müssen Sie Folgendes auswählen:

  • Daten für das Backtesting:

    Geben Sie einen Datensatz und eine Endzeit innerhalb des Zeitraums des Datensatzes an.

    Für die Ausbildung werden Labels und Funktionen für vollständige Kalendermonate bis zum Monat des ausgewählten Endzeitpunkts verwendet, dieser Monat ist jedoch nicht inbegriffen. Weitere Informationen Siehe Dataset-Zeitbereiche:

    Geben Sie an, wie viele Monate lang mit Labels versehene Daten für das Backtesting verwendet werden sollen (d. h. die Anzahl der Backtest-Zeiträume).

  • Ein Modell, das mit einem konsistenten Dataset erstellt wurde:

    Weitere Informationen finden Sie unter Modell erstellen.

Backtest-Zeiträume

Die backtestPeriods gibt an, für wie viele aufeinanderfolgende Kalendermonate die Funktionen und Labels verwendet werden sollen bei der Leistungsbewertung dieses Modells.

Für Backtest-Daten gilt Folgendes:

  • Die für die Bewertung verwendeten Monate sind die letzten vollständigen Kalendermonate vor dem angegebenen endTime. Beispiel: endTime ist 2023-04-15T23:21:00Z und backtestPeriods sind 5, dann sind die Labels aus die folgenden Monate werden verwendet: 2023-03, 2023-02, 2023-01, 2022-12 und 2022–11.
  • Sie sollten die neuesten verfügbaren Daten für Backtests verwenden, wenn Sie ein Modell zur Vorbereitung auf die Produktionsnutzung bewerten.
  • Backtestzeiträume müssen mindestens 3 betragen. Zwei Monate Backtest werden für wiederholte Benachrichtigungen und für die verbleibenden Monate reserviert. werden verwendet, um positive Labels für die Leistungsbewertung zu generieren.

  • Verwenden Sie keine sich überschneidenden Monate für Training und Backtesting, da dies zu Überanpassung führen kann. Die Endzeiten von Backtest und Training müssen mindestens backtestPeriods auseinanderliegen. Das bedeutet:

    (Monat des Endzeitpunkts der Backtestergebnisse) >= (Monat des Endzeitpunkts des Modells) + backtestPeriods

Optional können Sie auch Vorhersageergebnisse erstellen für ein Modell und führen Sie eigene Analysen der Modellleistung durch.

Backtest-Ausgabe

Die Metadaten der Backtest-Ergebnisse enthält die folgenden Messwerte. Diese Messwerte geben Aufschluss über Folgendes:

  • Die Leistung des Modells im Vergleich zu Labels aus einem separaten Zeitraum unterschiedlichen Untersuchungsvolumens oder Risiko-Score-Schwellenwerte

  • Messwerte, mit denen die Datensatzkonsistenz bewertet werden kann (z. B. durch Vergleich der Werte für fehlende Werte von Featurefamilien aus verschiedenen Vorgängen)

Messwertname Beschreibung des Messwerts Beispiel für einen Messwert
ObservedRecallValues Recall-Messwert, gemessen am Dataset, das für das Backtesting angegeben wurde. Die API umfasst 20 dieser Messungen bei unterschiedlichen Betriebspunkten, gleichmäßig verteilt von 0 (nicht enthalten) bis 2 * partyInvestigationsPerPeriodHint Die API fügt einen abschließenden Recall hinzu. Messung bei partyInvestigationsPerPeriodHint.
{
  "recallValues": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "recallValue": 0.80,
      "scoreThreshold": 0.42,
    },
    ...
    ...
    {
      "partyInvestigationsPerPeriod": 8000,
      "recallValue": 0.85,
      "scoreThreshold": 0.30,
    },
  ],
}
Fehlen

Anteil der fehlenden Werte für alle Features in jeder Featurefamilie.

Idealerweise sollte der Wert für alle AML-KI-Funktionsfamilien nahe 0 liegen. Ausnahmen können auftreten, wenn die Daten, die diesen Funktionsfamilien zugrunde liegen, nicht für die Einbindung verfügbar sind.

Eine erhebliche Änderung dieses Werts für eine Feature-Familie zwischen Abstimmung, Training, Bewertung und Vorhersage können auf Inkonsistenzen in der Datasets.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
Schiefe

Messwerte, die die Verzerrung zwischen Trainings- und Vorhersage- oder Backtest-Datasets anzeigen. Die Abweichung der Familie gibt Änderungen bei der Verteilung der Feature-Werte innerhalb einer Feature-Familie an, gewichtet nach der Wichtigkeit des Features innerhalb dieser Familie. „Max. Schiefe“ gibt die maximale Schiefe eines beliebigen Elements innerhalb dieser Familie an.

Die Werte für die Schiefe reichen von 0, was keine signifikante Änderung bei der Verteilung der Werte der Features in der Familie bedeutet, bis 1 für die stärkste Änderung. Ein hoher Wert für „Familienabweichung“ oder „Maximale Abweichung“ weist auf eine erhebliche Änderung der Struktur Ihrer Daten hin, die sich auf die Modellleistung auswirken kann. Für die Familienasymmetrie wird der Wert „-1“ verwendet, wenn keine Merkmale der Familie vom Modell verwendet werden.

Führen Sie bei großen Abweichungen einen der folgenden Schritte aus:

  • Prüfen Sie Änderungen an den von dieser Feature-Familie verwendeten Daten (siehe Supportmaterialien für die Modell-Governance) und beheben Sie Probleme mit Eingabedaten
  • Modell mit neueren Daten neu trainieren

Sie sollten Schwellenwerte für Maßnahmen bei Werten für die Familien- und die maximale Schiefe festlegen, die auf der natürlichen Schwankung der Schiefemesswerte über mehrere Monate basieren.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "familySkewValue": 0.10,
      "maxSkewValue": 0.14,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "familySkewValue": 0.11,
      "maxSkewValue": 0.11,
    },
  ],
}