Halaman ini memandu Anda melalui langkah-langkah untuk menyiapkan model AI AML, dengan asumsi Anda telah menyiapkan instance dan menyiapkan set data yang diperlukan.
Ringkasan tahap
Proses untuk menyiapkan model tercakup dalam tiga tahap berikut:
Tahap 1: Konfigurasikan mesin, termasuk memilih sumber hyperparameter:
- Penyesuaian: Penyesuaian hyperparameter otomatis
- Waris: Waris hyperparameter dari konfigurasi mesin sebelumnya yang dibuat dengan versi mesin sebelumnya dalam versi penyesuaian yang sama. Setelan ini memungkinkan Anda menghindari penyesuaian ulang setiap kali menggunakan versi mesin model baru.
Membuat konfigurasi mesin menyimpan hasil dari penyesuaian atau pewarisan dalam resource EngineConfig.
Tahap 2: Buat model
Membuat model memicu pelatihan, yang menyimpan hasilnya sebagai Resource model.
Tahap 3: Evaluasi model
Membuat hasil uji coba balik mengevaluasi performa model pada serangkaian bulan tertentu, yang menyimpan hasil ringkasan di resource BacktestResult. Secara opsional, membuat hasil prediksi memungkinkan Anda mengevaluasi output per pihak dari model.
Setelah menyelesaikan tahap sebelumnya dan performa model memenuhi kebutuhan Anda, lihat panduan di bagian Membuat skor risiko dan keterjelasan dan Mempersiapkan model dan tata kelola risiko.
Sebelum memulai
Sebelum memulai, Anda memerlukan hal berikut:
- Satu atau beberapa set data
- Versi mesin yang dipilih untuk digunakan
Persyaratan set data
Untuk panduan mendetail tentang model dan skema data, lihat halaman di bagian Menyiapkan Data untuk AML AI. Bagian ini membahas cara memastikan bahwa set data yang digunakan dalam penyesuaian, pelatihan, dan evaluasi mesin berfungsi dengan baik.
Rentang waktu set data
Setiap set data yang digunakan untuk operasi penyesuaian, pelatihan, pengujian ulang, dan prediksi harus berisi data yang valid untuk rentang waktu yang berakhir pada akhir bulan kalender penuh terakhir sebelum end_time yang ditentukan dalam panggilan API. Durasi rentang waktu ini bergantung pada tabel, Versi Mesin, dan operasi. Rentang waktu minimum dibahas secara mendetail di Memahami cakupan dan durasi data.
Misalnya, untuk penyesuaian mesin dengan versi mesin v004.004, tabel Transaksi harus mencakup minimal 30 bulan.
Mengonfigurasi mesin, pelatihan, dan evaluasi (pengujian balik) dapat diselesaikan dengan satu set data; lihat gambar berikut. Untuk memastikan performa produksi yang baik dengan menghindari overfitting, Anda harus memastikan bahwa periode yang digunakan untuk evaluasi (yaitu, membuat hasil pengujian balik) adalah setelah periode yang digunakan untuk pelatihan (yaitu, membuat model).
Misalnya: jika menggunakan 3 periode untuk pengujian balik dan menggunakan periode hingga akhir Februari 2024 untuk pelatihan (yaitu, waktu akhir pada awal Maret 2024), Anda dapat menggunakan periode hingga akhir Mei 2024 untuk pengujian balik (yaitu, waktu akhir pada awal Juni 2024).
Konsistensi set data
Saat menggunakan set data yang berbeda untuk tahap penyesuaian, pelatihan, dan evaluasi mesin, buat set data konsisten dalam kolom yang diisi dan cara kolom tersebut diisi. Hal ini penting untuk stabilitas dan performa model AML.
Demikian pula, untuk skor risiko berkualitas tinggi, set data yang digunakan untuk membuat hasil prediksi dengan model harus konsisten dengan set data yang digunakan untuk melatih model tersebut.
Secara khusus, pastikan hal berikut:
- Logika yang sama digunakan untuk mengisi setiap kolom. Mengubah logika yang digunakan untuk mengisi kolom dapat menyebabkan kemiringan fitur antara pelatihan model dan prediksi atau evaluasi.
- Pilihan kolom DIUJIKAN yang sama akan diisi. Misalnya, menghapus kolom yang diisi selama pelatihan model dapat menyebabkan fitur yang menjadi andalan model menjadi miring atau hilang selama evaluasi atau prediksi.
Logika yang sama digunakan untuk memberikan nilai. Dalam tabel PartySupplementaryData, logika yang sama digunakan untuk memberikan nilai untuk setiap kolom
party_supplementary_data_id
.- Menggunakan data yang sama, tetapi dengan nilai
party_supplementary_data_id
yang berbeda, menyebabkan model menggunakan data secara salah. Misalnya, kolom tertentu menggunakan ID5
dalam tabel PartySupplementaryData untuk satu set data, tetapi kemudian menggunakan ID7
dalam set data lain. - Menghapus nilai
party_supplementary_data_id
yang menjadi andalan model dapat memiliki efek yang tidak dapat diprediksi. Misalnya, ID3
digunakan dalam tabel PartySupplementaryData di satu set data, tetapi dihilangkan dari set data lain.
- Menggunakan data yang sama, tetapi dengan nilai
Sekarang Anda memiliki set data yang siap untuk penyesuaian, pelatihan, dan evaluasi mesin. Perhatikan bahwa operasi model dapat memerlukan waktu puluhan jam. Untuk informasi tentang cara memeriksa apakah operasi masih berjalan atau telah selesai (gagal atau berhasil), lihat Mengelola operasi yang berjalan lama.