Modell bewerten

Diese Seite gilt für die Engine-Versionen in den folgenden Hauptgruppen von Engine-Versionen. Wenn Sie die Seite für andere Engine-Versionen aufrufen möchten, verwenden Sie die Auswahl oben auf dieser Seite.

Hier eine Zusammenfassung der Änderungen von den Engine-Versionen v003 bis v004 (bis v004.008):

  • Der Backtest-Ausgabe wurde der Messwert ObservedRecallValuesPerTypology hinzugefügt.
  • Dem Messwert ObservedRecallValues wurden partiesCount und identifiedPartiesCount hinzugefügt.

Übersicht

Backtest-Ergebnisse enthalten eine Zusammenfassung der Modellleistung in einem bestimmten Zeitraum. Sie werden generiert, indem für alle Kunden innerhalb eines Backtestzeitraums eine Vorhersage erstellt und die Modellleistung anhand der verfügbaren Risikoereignisse bewertet wird.

Mit Backtest-Ergebnissen lässt sich die Modellleistung in einem anderen Zeitraum als dem für das Training gemessen oder im Zeitverlauf auf Leistungseinbußen überprüft werden.

Backtest

Informationen zum Erstellen einer BacktestResult-Ressource finden Sie unter Backtestergebnisse erstellen und verwalten.

Insbesondere müssen Sie Folgendes auswählen:

  • Daten für das Backtesting:

    Geben Sie einen Datensatz und eine Endzeit innerhalb des Zeitraums des Datensatzes an.

    Für die Ausbildung werden Labels und Funktionen für vollständige Kalendermonate bis zum Monat des ausgewählten Endzeitpunkts verwendet, dieser Monat ist jedoch nicht inbegriffen. Weitere Informationen finden Sie unter Zeiträume für Datasets.

    Geben Sie an, wie viele Monate an beschrifteten Daten für das Back-Test verwendet werden sollen (d. h. die Anzahl der Back-Test-Perioden).

  • Ein Modell, das mit einem konsistenten Dataset erstellt wurde:

    Weitere Informationen finden Sie unter Modell erstellen.

Backtest-Zeiträume

Im Feld backtestPeriods wird angegeben, für wie viele aufeinanderfolgende Kalendermonate Funktionen und Labels bei der Leistungsbewertung dieses Modells verwendet werden sollen.

Für Backtest-Daten gilt Folgendes:

  • Die für die Bewertung verwendeten Monate sind die letzten vollständigen Kalendermonate vor dem angegebenen endTime. Wenn endTime beispielsweise 2023-04-15T23:21:00Z und backtestPeriods 5 ist, werden die Labels der folgenden Monate verwendet: 2023-03, 2023-02, 2023-01, 2022-12 und 2022-11.
  • Sie sollten die neuesten verfügbaren Daten für Backtests verwenden, wenn Sie ein Modell zur Vorbereitung auf die Produktionsnutzung bewerten.
  • Backtestzeiträume müssen mindestens 3 betragen. Zwei Monate des Backtests sind für wiederholte Benachrichtigungen reserviert. In den verbleibenden Monaten werden positive Labels für die Leistungsbewertung generiert.

  • Verwenden Sie keine sich überschneidenden Monate für Training und Backtesting, da dies zu Überanpassung führen kann. Die Endzeiten von Backtest und Training müssen mindestens backtestPeriods auseinanderliegen. Das bedeutet:

    (Monat des Endzeitpunkts der Backtestergebnisse) >= (Monat des Endzeitpunkts des Modells) + backtestPeriods

Optional können Sie auch Vorhersageergebnisse für ein Modell erstellen und eigene Analysen der Modellleistung auf Parteiebene durchführen.

Backtest-Ausgabe

Die Metadaten der Backtest-Ergebnisse enthalten die folgenden Messwerte. Diese Messwerte geben Aufschluss über Folgendes:

  • Die Leistung des Modells im Vergleich zu Labels aus einem anderen Zeitraum und für verschiedene Untersuchungsvolumina oder Grenzwerte für den Risikowert

  • Messwerte, mit denen die Datensatzkonsistenz bewertet werden kann (z. B. durch Vergleich der Werte für fehlende Werte von Featurefamilien aus verschiedenen Vorgängen)

Messwertname Messwertbeschreibung Beispiel für einen Messwert
ObservedRecallValues Der für den Backtest angegebene Datensatz. Die API enthält 20 dieser Messungen an verschiedenen Betriebspunkten, gleichmäßig verteilt von 0 (nicht enthalten) bis 2 × partyInvestigationsPerPeriodHint. Die API fügt bei partyInvestigationsPerPeriodHint eine abschließende Erinnerungsmessung hinzu.

Neben dem Abrufwert werden auch der Nenner und der Zähler als partiesCount bzw. identifiedPartiesCount angegeben.
{
  "recallValues": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "recallValue": 0.80,
      "partiesCount": 60,
      "identifiedPartiesCount": 48,
      "scoreThreshold": 0.42,
    },
    ...
    ...
    {
      "partyInvestigationsPerPeriod": 8000,
      "recallValue": 0.85,
      "partiesCount": 60,
      "identifiedPartiesCount": 51,
      "scoreThreshold": 0.30,
    },
  ],
}
ObservedRecallValuesPerTypology Trefferquote auf Risikotypologieebene, gemessen am Datensatz, der für das Backtesting angegeben wurde. Die Messungen folgen demselben Ansatz wie ObservedRecallValues.
{
  "recallValuesPerTypology": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "riskTypology": "risk_typology_id_1",
      "recallValue": 0.80,
      "partiesCount": 60,
      "identifiedPartiesCount": 48,
      "scoreThreshold": 0.42,
    },
    {
      "partyInvestigationsPerPeriod": 8000,
      "riskTypology": "risk_typology_id_1",
      "recallValue": 0.90,
      "partiesCount": 60,
      "identifiedPartiesCount": 54,
      "scoreThreshold": 0.30,
    },
    ...
    ...
    {
      "partyInvestigationsPerPeriod": 8000,
      "riskTypology": "risk_typology_id_2",
      "recallValue": 0.75,
      "partiesCount": 4
      "identifiedPartiesCount": 3,
      "scoreThreshold": 0.30,
    },
  ],
}
Fehlende Werte

Anteil der fehlenden Werte bei allen Features in jeder Feature-Familie.

Idealerweise sollte der Wert für alle AML-KI-Funktionsfamilien nahe 0 liegen. Ausnahmen können auftreten, wenn die Daten, die diesen Funktionsfamilien zugrunde liegen, nicht für die Einbindung verfügbar sind.

Eine erhebliche Änderung dieses Werts für eine beliebige Funktionsfamilie zwischen Optimierung, Training, Bewertung und Vorhersage kann auf Inkonsistenzen in den verwendeten Datensätzen hinweisen.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
Schiefe

Messwerte, die eine Abweichung zwischen Trainings- und Vorhersage- oder Backtest-Datasets zeigen. Die Abweichung der Familie gibt Änderungen bei der Verteilung der Feature-Werte innerhalb einer Feature-Familie an, gewichtet nach der Wichtigkeit des Features innerhalb dieser Familie. „Max. Schiefe“ gibt die maximale Schiefe eines Elements innerhalb dieser Familie an.

Die Werte für die Schiefe reichen von 0, was keine signifikante Änderung bei der Verteilung der Werte der Elemente in der Familie bedeutet, bis 1 für die stärkste Änderung. Ein hoher Wert für „Familienabweichung“ oder „Maximale Abweichung“ weist auf eine erhebliche Änderung der Struktur Ihrer Daten hin, die sich auf die Modellleistung auswirken kann. Für die Familienabweichung wird der Wert „-1“ verwendet, wenn keine Merkmale der Familie vom Modell verwendet werden.

Bei großen Schiefewerten sollten Sie einen der folgenden Schritte ausführen:

  • Prüfen Sie die Änderungen an den von dieser Funktionsfamilie verwendeten Daten (siehe Supportmaterialien zur Modellverwaltung) und beheben Sie alle Probleme mit Eingabedaten.
  • Modell mit aktuelleren Daten neu trainieren

Sie sollten Schwellenwerte für Maßnahmen bei Werten für die Familien- und die maximale Schiefe festlegen, die auf der natürlichen Schwankung der Schiefemesswerte über mehrere Monate basieren.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "familySkewValue": 0.10,
      "maxSkewValue": 0.14,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "familySkewValue": 0.11,
      "maxSkewValue": 0.11,
    },
  ],
}