Zusammenfassend sind das die Änderungen von den Engine-Versionen v003 bis v004 (bis v004.008):
- Der Messwert
ObservedRecallValuesPerTypology
wurde der Backtest-Ausgabe hinzugefügt. partiesCount
undidentifiedPartiesCount
wurden dem MesswertObservedRecallValues
hinzugefügt.
Übersicht
Die Backtesting-Ergebnisse enthalten eine Zusammenfassung der Modellleistung in einem bestimmten Zeitraum. Sie werden generiert, indem Vorhersagen für alle Kunden im Backtestzeitraum getroffen und die Modellleistung anhand der verfügbaren Risikoereignisse bewertet wird.
Mit Backtest-Ergebnissen lässt sich die Modellleistung in einem separaten Zeitraum als dem für das Training verwendeten Zeitraum oder auch im Zeitverlauf messen, um Leistungsverschlechterungen zu erkennen.
Backtesting
Informationen zum Erstellen einer BacktestResult-Ressource finden Sie unter Backtestergebnisse erstellen und verwalten.
Insbesondere müssen Sie Folgendes auswählen:
Die für Backtesting zu verwendenden Daten:
Geben Sie ein Dataset und eine Endzeit innerhalb des Zeitraums des Datasets an.
Für das Training werden Labels und Funktionen verwendet, die auf vollständigen Kalendermonaten bis zum Monat der ausgewählten Endzeit basieren (der Monat der ausgewählten Endzeit selbst wird nicht berücksichtigt). Weitere Informationen finden Sie unter Zeiträume für Datasets.
Geben Sie an, wie viele Monate mit gelabelten Daten für Backtesting verwendet werden sollen (d. h. die Anzahl der Backtestzeiträume).
Geben Sie mit dem Feld PerformanceTarget die Anzahl der zu bewertenden Parteien an.
Erwartetes Untersuchungsvolumen basierend auf den Modellen:
Geben Sie
partyInvestigationsPerPeriodHint
an. Beim Backtesting wird das AML AI-Modell anhand einer Reihe von monatlichen Untersuchungsvolumina bewertet, die auf dem von Ihnen angegebenen Betrag basieren. Weitere Informationen finden Sie unter Backtest-Ausgabe.Ein Modell, das mit einem einheitlichen Dataset erstellt wurde:
Weitere Informationen finden Sie unter Modell erstellen.
Backtest-Zeiträume
Im Feld backtestPeriods
wird angegeben, wie viele aufeinanderfolgende Kalendermonate für die Leistungsbewertung dieses Modells verwendet werden sollen.
Für Backtestdaten gilt Folgendes:
- Die für die Auswertung verwendeten Monate sind die letzten vollständigen Kalendermonate vor dem angegebenen
endTime
. WennendTime
beispielsweise2023-04-15T23:21:00Z
undbacktestPeriods
5
ist, werden die Labels aus den folgenden Monaten verwendet: 2023-03, 2023-02, 2023-01, 2022-12 und 2022-11. - Wenn Sie ein Modell zur Vorbereitung auf die Produktion bewerten, sollten Sie die neuesten verfügbaren Daten für Backtesting verwenden.
Der Backtest-Zeitraum muss mindestens
3
betragen. Zwei Monate des Backtestzeitraums sind für wiederholte Benachrichtigungen reserviert. Die verbleibenden Monate werden verwendet, um positive Labels für die Leistungsbewertung zu generieren.Vermeiden Sie es, sich überschneidende Monate für Training und Backtesting zu verwenden, da dies das Risiko einer Überanpassung birgt. Die Endzeiten für Backtest und Training müssen mindestens
backtestPeriods
auseinanderliegen. Das bedeutet:(Monat des Endzeitpunkts der Backtest-Ergebnisse) >= (Monat des Endzeitpunkts des Modells) +
backtestPeriods
Optional können Sie auch Vorhersageergebnisse für ein Modell erstellen und eigene Analysen der Modellleistung auf Parteiebene durchführen.
Backtest-Ausgabe
Die Metadaten der Backtest-Ergebnisse enthalten die folgenden Messwerte. Insbesondere können Sie anhand dieser Messwerte Folgendes sehen:
Wie das Modell im Vergleich zu Labels aus einem separaten Zeitraum und für eine Vielzahl unterschiedlicher Untersuchungsvolumina oder Risikoindex-Schwellenwerte abschneidet
Messungen, mit denen die Dataset-Konsistenz bewertet werden kann, z. B. durch Vergleichen der Werte für fehlende Daten von Feature-Familien aus verschiedenen Vorgängen
Messwertname | Beschreibung des Messwerts | Beispiel für Messwert |
---|---|---|
ObservedRecallValues | Messwert für die Trefferquote, der für das für den Backtest angegebene Dataset gemessen wird. Die API enthält 20 dieser Messungen an verschiedenen Betriebspunkten, die gleichmäßig von 0 (nicht enthalten) bis 2 × partyInvestigationsPerPeriodHint verteilt sind. Die API fügt eine abschließende Recall-Messung bei partyInvestigationsPerPeriodHint hinzu.
Neben dem Recall-Wert stellen wir auch den Zähler und Nenner als partiesCount bzw. identifiedPartiesCount bereit.
|
{ "recallValues": [ { "partyInvestigationsPerPeriod": 5000, "recallValue": 0.80, "partiesCount": 60, "identifiedPartiesCount": 48, "scoreThreshold": 0.42, }, ... ... { "partyInvestigationsPerPeriod": 8000, "recallValue": 0.85, "partiesCount": 60, "identifiedPartiesCount": 51, "scoreThreshold": 0.30, }, ], } |
ObservedRecallValuesPerTypology | Messwert für die Trefferquote auf Ebene der Risikotypologie, gemessen anhand des für das Backtesting angegebenen Datasets. Die Messungen folgen demselben Ansatz wie ObservedRecallValues .
|
{ "recallValuesPerTypology": [ { "partyInvestigationsPerPeriod": 5000, "riskTypology": "risk_typology_id_1", "recallValue": 0.80, "partiesCount": 60, "identifiedPartiesCount": 48, "scoreThreshold": 0.42, }, { "partyInvestigationsPerPeriod": 8000, "riskTypology": "risk_typology_id_1", "recallValue": 0.90, "partiesCount": 60, "identifiedPartiesCount": 54, "scoreThreshold": 0.30, }, ... ... { "partyInvestigationsPerPeriod": 8000, "riskTypology": "risk_typology_id_2", "recallValue": 0.75, "partiesCount": 4 "identifiedPartiesCount": 3, "scoreThreshold": 0.30, }, ], } |
Fehlende Werte |
Anteil der fehlenden Werte für alle Features in jeder Feature-Familie. Im Idealfall sollte für alle AML AI-Funktionsfamilien ein Missingness-Wert nahe 0 vorliegen. Es kann Ausnahmen geben, bei denen die Daten, die diesen Funktionsfamilien zugrunde liegen, nicht für die Integration verfügbar sind. Eine erhebliche Änderung dieses Werts für eine beliebige Feature-Familie zwischen Optimierung, Training, Auswertung und Vorhersage kann auf Inkonsistenzen in den verwendeten Datasets hindeuten. |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "missingnessValue": 0.00, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "missingnessValue": 0.45, }, ], } |
Skew |
Messwerte, die die Abweichung zwischen Trainings- und Vorhersage- oder Backtest-Datasets zeigen. Die Familienabweichung gibt Änderungen in der Verteilung der Feature-Werte innerhalb einer Feature-Familie an, gewichtet nach der Wichtigkeit des Features innerhalb dieser Familie. „Max skew“ (Maximale Abweichung) gibt die maximale Abweichung eines beliebigen Merkmals innerhalb dieser Familie an. Die Werte für die Abweichung reichen von 0 (keine signifikante Änderung in der Verteilung der Werte von Funktionen in der Familie) bis 1 (die signifikanteste Änderung). Ein hoher Wert für die Familienabweichung oder die maximale Abweichung weist auf eine erhebliche Änderung der Struktur Ihrer Daten hin, die sich auf die Modellleistung auswirken kann. Der Wert für „Family Skew“ ist -1, wenn keine Funktionen in der Familie vom Modell verwendet werden. Bei großen Abweichungswerten sollten Sie einen der folgenden Schritte ausführen:
Sie sollten Schwellenwerte für die Reaktion auf Werte für Familien- und maximalen Bias festlegen, indem Sie die natürliche Variation der Bias-Messwerte über mehrere Monate hinweg beobachten. |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "familySkewValue": 0.10, "maxSkewValue": 0.14, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "familySkewValue": 0.11, "maxSkewValue": 0.11, }, ], } |