Auf dieser Seite werden Sie durch die Schritte zum Vorbereiten eines AML-KI-Modells geführt. Dabei wird davon ausgegangen, dass Sie bereits eine Instanz eingerichtet und die erforderlichen Datasets vorbereitet haben.
Phasenübersicht
Die Vorbereitung eines Modells umfasst die folgenden drei Phasen:
Phase 1: Engine konfigurieren, einschließlich der Auswahl der Quelle von Hyperparametern:
- Abstimmung: Automatische Abstimmung von Hyperparametern
- Übernehmen: Hyperparameter aus einer vorherigen Engine-Konfiguration übernehmen, die mit einer früheren Engine-Version innerhalb derselben Abstimmungsversion erstellt wurde. Mit dieser Einstellung müssen Sie nicht jedes Mal eine erneute Abstimmung vornehmen, wenn Sie ein neues Modell verwenden. der Suchmaschinenversion.
Engine-Konfiguration erstellen speichert die Ergebnisse der Abstimmung oder Vererbung in einem EngineConfig-Ressource.
Phase 2: Modell generieren
Wenn Sie ein Modell erstellen, wird das Training ausgelöst und die Ergebnisse werden als Modellressource gespeichert.
Phase 3: Modell bewerten
Backtest-Ergebnisse erstellen wertet die Modellleistung für einen bestimmten Satz von Monaten aus und speichert die Zusammenfassung führt zu einer BacktestResult-Ressource. Optional können Sie Vorhersageergebnisse erstellen, um die Ergebnisse des Modells für einzelne Parteien zu bewerten.
Sobald Sie die vorherigen Phasen abgeschlossen haben und die Modellleistung Ihren finden Sie in den Anleitungen in den Abschnitten Risikobewertungen und Erklärbarkeit generieren und Auf Modell- und Risiko-Governance vorbereiten
Hinweise
Für den Start ist Folgendes erforderlich:
- Ein oder mehrere Datasets
- Eine ausgewählte Engine-Version
Anforderungen an Datasets
Eine ausführliche Anleitung zum Datenmodell und zum Schema finden Sie auf den Seiten unter Daten für AML AI vorbereiten In diesem Abschnitt erfahren Sie, wie Sie dafür sorgen, dass die Datasets, die für die Motoroptimierung, das Training und die Bewertung verwendet werden, gut zusammenarbeiten.
Zeiträume für Datasets
Jedes Dataset, das für Abstimmungs-, Trainings-, Backtesting- und Vorhersagevorgänge verwendet wird muss gültige Daten für einen Zeitraum enthalten, der am Ende der letzten vollständigen Kalendermonat vor der im API-Aufruf angegebenen end_time liegt. Die Länge der Dieser Zeitraum hängt von der Tabelle, der Engine-Version und dem Vorgang ab. Der Mindestzeitraum wird unter Datenumfang und -dauer ausführlich erläutert.
Für die Suchmaschinenabstimmung mit v004.004-Engine-Versionen beispielsweise mindestens 30 Monate abdecken.
Die Konfiguration einer Engine, das Training und die Bewertung (Backtesting) können abgeschlossen werden mit einem einzigen Dataset. siehe folgende Abbildung. Für eine gute Produktion Durch die Vermeidung von Überanpassungen sollten Sie sicherstellen, dass der Zeitraum (d. h. Erstellen von Backtest-Ergebnissen) nach dem Zeitraum liegt, Training (d. h. Erstellen eines Modells).
Beispiel: Wenn Sie drei Zeiträume für das Backtesting und Zeiträume bis Ende Februar 2024 für das Training verwenden (d. h. Endzeit Anfang März 2024), können Sie Zeiträume bis Ende Mai 2024 für das Backtesting verwenden (d. h. Endzeit Anfang Juni 2024).
Dataset-Konsistenz
Wenn Sie für die Motoroptimierung, das Training und die Bewertung unterschiedliche Datasets verwenden, achten Sie darauf, dass die Felder in den Datasets einheitlich ausgefüllt sind. Dies ist wichtig für die Stabilität und Leistung des AML-Modells.
Für einen hochwertigen Risikowert sollte das Dataset, mit dem Vorhersageergebnisse mit einem Modell erstellt werden, mit dem Dataset übereinstimmen, das zum Trainieren dieses Modells verwendet wurde.
Achten Sie insbesondere auf Folgendes:
- Für die Befüllung der einzelnen Felder wird dieselbe Logik verwendet. Die verwendete Logik ändern zum Füllen eines Feldes kann zu Featureabweichungen zwischen Modelltraining und Vorhersage oder Bewertung.
- Dieselben EMPFOHLENEN Felder werden ausgefüllt. Beispiel: kann das Entfernen eines Feldes, das während des Modelltrainings gefüllt wurde, dass das Modell bei der Bewertung verzerrt oder fehlt oder eine Vorhersage treffen.
Für die Angabe von Werten wird dieselbe Logik verwendet. Im PartySupplementaryData enthält, wird dieselbe Logik für geben Sie Werte für jedes
party_supplementary_data_id
-Feld an.- Wenn Sie dieselben Daten, aber mit unterschiedlichen
party_supplementary_data_id
-Werten verwenden, werden die Daten vom Modell falsch verwendet. Beispiel: Für ein bestimmtes Feld wird in der Tabelle PartySupplementaryData für einen Datensatz die ID5
und für einen anderen Datensatz die ID7
verwendet. - Einen
party_supplementary_data_id
-Wert entfernen, auf den ein Modell angewiesen ist unvorhersehbare Auswirkungen haben. Die ID3
wird beispielsweise in der PartySupplementaryData-Daten in einem Dataset, in einem anderen Dataset weggelassen wird.
- Wenn Sie dieselben Daten, aber mit unterschiedlichen
Sie haben jetzt einen Datensatz für die Motoroptimierung, das Training und die Bewertung. Modellvorgänge können mehrere Stunden dauern. Informationen dazu, wie Sie prüfen, ob ein Vorgang noch läuft oder abgeschlossen wurde (ob er fehlgeschlagen oder erfolgreich war), finden Sie unter Vorgänge mit langer Ausführungszeit verwalten.