Modellvorbereitung – Übersicht

Auf dieser Seite werden Sie durch die Schritte zum Vorbereiten eines AML AI-Modells geführt. Dabei wird davon ausgegangen, dass Sie bereits eine Instanz eingerichtet und die erforderlichen Datasets vorbereitet haben.

Phasenübersicht

Die Erstellung eines Modells umfasst die folgenden drei Phasen:

Wenn Sie die oben genannten Phasen abgeschlossen haben und die Modellleistung Ihren Anforderungen entspricht, lesen Sie die Hinweise in den Abschnitten Risikobewertungen und Erklärbarkeit generieren und Auf Modell- und Risiko-Governance vorbereiten.

Hinweise

Für den Start benötigen Sie Folgendes:

Dataset-Anforderungen

Eine ausführliche Anleitung zum Datenmodell und Schema finden Sie auf den Seiten unter Daten für AML AI vorbereiten. In diesem Abschnitt wird beschrieben, wie Sie dafür sorgen, dass die Datasets, die zur Feinabstimmung, zum Training und zur Bewertung von Suchmaschinen verwendet werden, gut zusammen funktionieren.

Dataset-Zeiträume

Die Mindestzeitspanne von Datasets für jeden Vorgang wird unter Datenumfang und -dauer erläutert. Zusammenfassend lässt sich sagen, dass je nach Tabelle ein Lookback-Window von 0 bis 24 Monaten zusätzlich zu einem Kernzeitfenster von mindestens 18 Monaten erforderlich ist.

Beispielsweise sollte die Tabelle Transaktion für die Suchmaschinenabstimmung mindestens 42 Monate (18 Monate Kernzeitfenster und 24 Monate für das Lookback-Window) abdecken.

Die Konfiguration einer Engine sowie das Training und die Bewertung (Backtesting) können mit einem einzigen Dataset abgeschlossen werden. Siehe folgende Abbildung. Um eine gute Produktionsleistung zu gewährleisten und eine Überanpassung zu vermeiden, sollten Sie ein Kernzeitfenster für die Bewertung verwenden (d. h. Backtest-Ergebnisse erstellen), das disjunkt und aktueller ist als das Kernzeitfenster für das Training (d. h. das Erstellen eines Modells).

Dataset-Zeitbereiche für Abstimmung, Training und Backtests

Dataset-Konsistenz

Achten Sie bei der Verwendung verschiedener Datasets für die Abstimmungs-, Trainings- und Bewertungsphase der Engine darauf, dass die Datasets einheitlich sind, in welchen Feldern und wie sie gefüllt werden. Dies ist wichtig für die Stabilität und Leistung des AML-Modells.

Analog sollte für eine hohe Risikobewertung das Dataset, das zum Erstellen von Vorhersageergebnissen mit einem Modell verwendet wird, mit dem Dataset übereinstimmen, das zum Trainieren dieses Modells verwendet wird.

Achten Sie insbesondere auf Folgendes:

  • Für alle Felder wird dieselbe Logik verwendet. Das Ändern der Logik, die zum Ausfüllen eines Feldes verwendet wird, kann zu einer Featureabweichung zwischen Modelltraining und Vorhersage oder Bewertung führen.
  • Dieselben Felder vom Typ EMPFOHLEN werden ausgefüllt. Beispielsweise kann das Entfernen eines Feldes, das während des Modelltrainings ausgefüllt wurde, dazu führen, dass vom Modell benötigte Merkmale während der Bewertung oder Vorhersage verzerrt werden oder fehlen.
  • Zum Bereitstellen von Werten wird dieselbe Logik verwendet. In der Tabelle PartySupplementaryData wird dieselbe Logik verwendet, um Werte für jedes party_supplementary_data_id-Feld anzugeben.

    • Die Verwendung derselben Daten, aber mit unterschiedlichen party_supplementary_data_id-Werten führt dazu, dass das Modell die Daten falsch verwendet. Beispielsweise verwendet ein bestimmtes Feld die ID 5 in der Tabelle PartySupplementaryData für ein Dataset, die ID 7 dann aber in einem anderen Dataset.
    • Das Entfernen eines party_supplementary_data_id-Werts, auf den sich ein Modell stützt, kann unvorhersehbare Auswirkungen haben. Die ID 3 wird beispielsweise in der Tabelle PartySupplementaryData in einem Dataset verwendet, in einem anderen aber weggelassen.

Jetzt steht Ihnen ein Dataset für die Abstimmung, das Training und die Bewertung von Suchmaschinen zur Verfügung. Beachten Sie, dass Modellvorgänge mehreren Stunden dauern können. Informationen dazu, wie Sie prüfen können, ob ein Vorgang noch ausgeführt wird oder abgeschlossen wurde (fehlgeschlagen oder erfolgreich), finden Sie unter Lang andauernde Vorgänge verwalten.