Modellvorbereitung – Übersicht

Auf dieser Seite werden Sie durch die Schritte zum Vorbereiten eines AML-KI-Modells geführt. Dabei wird davon ausgegangen, dass Sie bereits eine Instanz eingerichtet und die erforderlichen Datensätze vorbereitet haben.

Phasenübersicht

Die Vorbereitung eines Modells umfasst die folgenden drei Phasen:

Wenn Sie die vorherigen Phasen abgeschlossen haben und die Modellleistung Ihren Anforderungen entspricht, lesen Sie die Anleitung in den Abschnitten Risikobewertungen und Erklärbarkeit generieren und Vorbereitung auf die Modell- und Risikogovernance.

Hinweise

Für den Start ist Folgendes erforderlich:

Anforderungen an Datensätze

Ausführliche Informationen zum Datenmodell und zum Schema finden Sie auf den Seiten unter Daten für AML AI vorbereiten. In diesem Abschnitt erfahren Sie, wie Sie dafür sorgen, dass die Datasets, die für die Motoroptimierung, das Training und die Bewertung verwendet werden, gut zusammenarbeiten.

Zeiträume für Datasets

Jeder Datensatz, der für die Optimierung, das Training, den Backtest und die Prognose verwendet wird, sollte gültige Daten für einen Zeitraum enthalten, der am Ende des letzten vollen Kalendermonats vor dem im API-Aufruf angegebenen Endzeitpunkt endet. Die Länge dieses Zeitraums hängt von der Tabelle, der Engine-Version und dem Vorgang ab. Der Mindestzeitraum wird unter Datenumfang und -dauer ausführlich erläutert.

Bei der Motoroptimierung mit der Motorversion v004.004 sollte die Transaktionstabelle beispielsweise mindestens 30 Monate abdecken.

Die Konfiguration einer Engine, das Training und die Bewertung (Back-Test) können mit einem einzigen Dataset durchgeführt werden (siehe Abbildung unten). Um eine gute Produktionsleistung zu erzielen und Überanpassungen zu vermeiden, sollte der Zeitraum, der für die Bewertung (d. h. das Erstellen von Backtest-Ergebnissen) verwendet wird, nach dem Zeitraum liegen, der für das Training (d. h. das Erstellen eines Modells) verwendet wurde.

Beispiel: Wenn Sie drei Zeiträume für das Backtesting und Zeiträume bis Ende Februar 2024 für das Training verwenden (d. h. Endzeit Anfang März 2024), können Sie Zeiträume bis Ende Mai 2024 für das Backtesting verwenden (d. h. Endzeit Anfang Juni 2024).

Zeiträume für Datasets für die Abstimmung, das Training und das Backtesting

Datensatzkonsistenz

Wenn Sie für die Motoroptimierung, das Training und die Bewertung unterschiedliche Datasets verwenden, achten Sie darauf, dass die Felder in den Datasets einheitlich ausgefüllt sind. Dies ist wichtig für die Stabilität und Leistung des AML-Modells.

Für einen hochwertigen Risikowert sollte das Dataset, mit dem Vorhersageergebnisse mit einem Modell erstellt werden, mit dem Dataset übereinstimmen, das zum Trainieren dieses Modells verwendet wurde.

Achten Sie insbesondere auf Folgendes:

  • Für jedes Feld wird dieselbe Logik verwendet. Wenn Sie die Logik ändern, mit der ein Feld ausgefüllt wird, kann dies zu Abweichungen bei den Modelltrainings-, -vorhersagen oder -bewertungen führen.
  • Dieselben EMPFOHLENEN Felder werden ausgefüllt. Wenn Sie beispielsweise ein Feld entfernen, das während des Modelltrainings ausgefüllt wurde, kann das dazu führen, dass die Merkmale, auf die das Modell angewiesen ist, bei der Bewertung oder Vorhersage verzerrt oder fehlen.
  • Für die Angabe von Werten wird dieselbe Logik verwendet. In der Tabelle PartySupplementaryData wird dieselbe Logik verwendet, um Werte für jedes party_supplementary_data_id-Feld anzugeben.

    • Wenn Sie dieselben Daten, aber mit unterschiedlichen party_supplementary_data_id-Werten verwenden, werden die Daten vom Modell falsch verwendet. Beispiel: Für ein bestimmtes Feld wird in der Tabelle PartySupplementaryData für einen Datensatz die ID 5 und für einen anderen Datensatz die ID 7 verwendet.
    • Das Entfernen eines party_supplementary_data_id-Werts, auf den ein Modell angewiesen ist, kann unvorhersehbare Auswirkungen haben. Angenommen, die ID 3 wird in der Tabelle PartySupplementaryData in einem Datensatz verwendet, aber in einem anderen Datensatz weggelassen.

Jetzt haben Sie einen Datensatz für die Motoroptimierung, das Training und die Bewertung. Modellvorgänge können mehrere Stunden dauern. Informationen dazu, wie Sie prüfen, ob ein Vorgang noch läuft oder abgeschlossen wurde (ob er fehlgeschlagen oder erfolgreich war), finden Sie unter Vorgänge mit langer Ausführungszeit verwalten.