Modell bewerten

Diese Seite gilt für die Engine-Versionen in den folgenden Hauptgruppen von Engine-Versionen. Wenn Sie die Seite für andere Engine-Versionen aufrufen möchten, verwenden Sie die Auswahl oben auf dieser Seite.

Zusammenfassend sind das die Änderungen von den Engine-Versionen v003 bis v004 (bis v004.008):

  • Der Messwert ObservedRecallValuesPerTypology wurde der Backtest-Ausgabe hinzugefügt.
  • partiesCount und identifiedPartiesCount wurden dem Messwert ObservedRecallValues hinzugefügt.

Übersicht

Die Backtesting-Ergebnisse enthalten eine Zusammenfassung der Modellleistung in einem bestimmten Zeitraum. Sie werden generiert, indem Vorhersagen für alle Kunden im Backtestzeitraum getroffen und die Modellleistung anhand der verfügbaren Risikoereignisse bewertet wird.

Mit Backtest-Ergebnissen lässt sich die Modellleistung in einem separaten Zeitraum als dem für das Training verwendeten Zeitraum oder auch im Zeitverlauf messen, um Leistungsverschlechterungen zu erkennen.

Backtesting

Informationen zum Erstellen einer BacktestResult-Ressource finden Sie unter Backtestergebnisse erstellen und verwalten.

Insbesondere müssen Sie Folgendes auswählen:

  • Die für Backtesting zu verwendenden Daten:

    Geben Sie ein Dataset und eine Endzeit innerhalb des Zeitraums des Datasets an.

    Für das Training werden Labels und Funktionen verwendet, die auf vollständigen Kalendermonaten bis zum Monat der ausgewählten Endzeit basieren (der Monat der ausgewählten Endzeit selbst wird nicht berücksichtigt). Weitere Informationen finden Sie unter Zeiträume für Datasets.

    Geben Sie an, wie viele Monate mit gelabelten Daten für Backtesting verwendet werden sollen (d. h. die Anzahl der Backtestzeiträume).

    Geben Sie mit dem Feld PerformanceTarget die Anzahl der zu bewertenden Parteien an.

  • Erwartetes Untersuchungsvolumen basierend auf den Modellen:

    Geben Sie partyInvestigationsPerPeriodHint an. Beim Backtesting wird das AML AI-Modell anhand einer Reihe von monatlichen Untersuchungsvolumina bewertet, die auf dem von Ihnen angegebenen Betrag basieren. Weitere Informationen finden Sie unter Backtest-Ausgabe.

  • Ein Modell, das mit einem einheitlichen Dataset erstellt wurde:

    Weitere Informationen finden Sie unter Modell erstellen.

Backtest-Zeiträume

Im Feld backtestPeriods wird angegeben, wie viele aufeinanderfolgende Kalendermonate für die Leistungsbewertung dieses Modells verwendet werden sollen.

Für Backtestdaten gilt Folgendes:

  • Die für die Auswertung verwendeten Monate sind die letzten vollständigen Kalendermonate vor dem angegebenen endTime. Wenn endTime beispielsweise 2023-04-15T23:21:00Z und backtestPeriods 5 ist, werden die Labels aus den folgenden Monaten verwendet: 2023-03, 2023-02, 2023-01, 2022-12 und 2022-11.
  • Wenn Sie ein Modell zur Vorbereitung auf die Produktion bewerten, sollten Sie die neuesten verfügbaren Daten für Backtesting verwenden.
  • Der Backtest-Zeitraum muss mindestens 3 betragen. Zwei Monate des Backtestzeitraums sind für wiederholte Benachrichtigungen reserviert. Die verbleibenden Monate werden verwendet, um positive Labels für die Leistungsbewertung zu generieren.

  • Vermeiden Sie es, sich überschneidende Monate für Training und Backtesting zu verwenden, da dies das Risiko einer Überanpassung birgt. Die Endzeiten für Backtest und Training müssen mindestens backtestPeriods auseinanderliegen. Das bedeutet:

    (Monat des Endzeitpunkts der Backtest-Ergebnisse) >= (Monat des Endzeitpunkts des Modells) + backtestPeriods

Optional können Sie auch Vorhersageergebnisse für ein Modell erstellen und eigene Analysen der Modellleistung auf Parteiebene durchführen.

Backtest-Ausgabe

Die Metadaten der Backtest-Ergebnisse enthalten die folgenden Messwerte. Insbesondere können Sie anhand dieser Messwerte Folgendes sehen:

  • Wie das Modell im Vergleich zu Labels aus einem separaten Zeitraum und für eine Vielzahl unterschiedlicher Untersuchungsvolumina oder Risikoindex-Schwellenwerte abschneidet

  • Messungen, mit denen die Dataset-Konsistenz bewertet werden kann, z. B. durch Vergleichen der Werte für fehlende Daten von Feature-Familien aus verschiedenen Vorgängen

Messwertname Beschreibung des Messwerts Beispiel für Messwert
ObservedRecallValues Messwert für die Trefferquote, der für das für den Backtest angegebene Dataset gemessen wird. Die API enthält 20 dieser Messungen an verschiedenen Betriebspunkten, die gleichmäßig von 0 (nicht enthalten) bis 2 × partyInvestigationsPerPeriodHint verteilt sind. Die API fügt eine abschließende Recall-Messung bei partyInvestigationsPerPeriodHint hinzu.

Neben dem Recall-Wert stellen wir auch den Zähler und Nenner als partiesCount bzw. identifiedPartiesCount bereit.
{
  "recallValues": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "recallValue": 0.80,
      "partiesCount": 60,
      "identifiedPartiesCount": 48,
      "scoreThreshold": 0.42,
    },
    ...
    ...
    {
      "partyInvestigationsPerPeriod": 8000,
      "recallValue": 0.85,
      "partiesCount": 60,
      "identifiedPartiesCount": 51,
      "scoreThreshold": 0.30,
    },
  ],
}
ObservedRecallValuesPerTypology Messwert für die Trefferquote auf Ebene der Risikotypologie, gemessen anhand des für das Backtesting angegebenen Datasets. Die Messungen folgen demselben Ansatz wie ObservedRecallValues.
{
  "recallValuesPerTypology": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "riskTypology": "risk_typology_id_1",
      "recallValue": 0.80,
      "partiesCount": 60,
      "identifiedPartiesCount": 48,
      "scoreThreshold": 0.42,
    },
    {
      "partyInvestigationsPerPeriod": 8000,
      "riskTypology": "risk_typology_id_1",
      "recallValue": 0.90,
      "partiesCount": 60,
      "identifiedPartiesCount": 54,
      "scoreThreshold": 0.30,
    },
    ...
    ...
    {
      "partyInvestigationsPerPeriod": 8000,
      "riskTypology": "risk_typology_id_2",
      "recallValue": 0.75,
      "partiesCount": 4
      "identifiedPartiesCount": 3,
      "scoreThreshold": 0.30,
    },
  ],
}
Fehlende Werte

Anteil der fehlenden Werte für alle Features in jeder Feature-Familie.

Im Idealfall sollte für alle AML AI-Funktionsfamilien ein Missingness-Wert nahe 0 vorliegen. Es kann Ausnahmen geben, bei denen die Daten, die diesen Funktionsfamilien zugrunde liegen, nicht für die Integration verfügbar sind.

Eine erhebliche Änderung dieses Werts für eine beliebige Feature-Familie zwischen Optimierung, Training, Auswertung und Vorhersage kann auf Inkonsistenzen in den verwendeten Datasets hindeuten.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
Skew

Messwerte, die die Abweichung zwischen Trainings- und Vorhersage- oder Backtest-Datasets zeigen. Die Familienabweichung gibt Änderungen in der Verteilung der Feature-Werte innerhalb einer Feature-Familie an, gewichtet nach der Wichtigkeit des Features innerhalb dieser Familie. „Max skew“ (Maximale Abweichung) gibt die maximale Abweichung eines beliebigen Merkmals innerhalb dieser Familie an.

Die Werte für die Abweichung reichen von 0 (keine signifikante Änderung in der Verteilung der Werte von Funktionen in der Familie) bis 1 (die signifikanteste Änderung). Ein hoher Wert für die Familienabweichung oder die maximale Abweichung weist auf eine erhebliche Änderung der Struktur Ihrer Daten hin, die sich auf die Modellleistung auswirken kann. Der Wert für „Family Skew“ ist -1, wenn keine Funktionen in der Familie vom Modell verwendet werden.

Bei großen Abweichungswerten sollten Sie einen der folgenden Schritte ausführen:

  • Untersuchen Sie Änderungen an den Daten, die von dieser Funktionsfamilie verwendet werden (siehe Supportmaterialien zur Modellverwaltung), und beheben Sie alle Probleme mit Eingabedaten.
  • Modell mit aktuelleren Daten neu trainieren

Sie sollten Schwellenwerte für die Reaktion auf Werte für Familien- und maximalen Bias festlegen, indem Sie die natürliche Variation der Bias-Messwerte über mehrere Monate hinweg beobachten.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "familySkewValue": 0.10,
      "maxSkewValue": 0.14,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "familySkewValue": 0.11,
      "maxSkewValue": 0.11,
    },
  ],
}