Ringkasan persiapan model

Halaman ini akan memandu Anda melakukan langkah-langkah untuk menyiapkan model AML AI, dengan asumsi Anda telah menyiapkan instance dan menyiapkan set data yang diperlukan.

Ringkasan tahapan

Proses untuk menyiapkan model dibahas dalam tiga tahap berikut:

Setelah Anda menyelesaikan tahap-tahap di atas dan performa model memenuhi kebutuhan Anda, lihat panduan di bagian Membuat skor dan penjelasan risiko serta Menyiapkan tata kelola model dan risiko.

Sebelum memulai

Sebelum memulai, Anda akan memerlukan hal berikut:

Persyaratan set data

Untuk panduan mendetail tentang model dan skema data, lihat halaman di bagian Menyiapkan Data untuk AML AI. Bagian ini membahas cara memastikan bahwa set data yang digunakan dalam penyesuaian mesin, pelatihan, dan evaluasi bekerja sama dengan baik.

Rentang waktu set data

Rentang waktu minimum set data untuk setiap operasi dibahas dalam bagian Memahami cakupan dan durasi data. Singkatnya, periode lihat balik 0 hingga 24 bulan diperlukan bergantung pada tabel, di atas periode waktu inti minimal 18 bulan.

Misalnya, untuk penyesuaian mesin, tabel Transaksi harus mencakup setidaknya 42 bulan (periode waktu inti 18 bulan dan 24 bulan untuk periode lihat balik).

Mengonfigurasi mesin, pelatihan, dan evaluasi (pengujian ulang) dapat diselesaikan dengan satu set data; lihat gambar berikut. Untuk memastikan performa produksi yang baik dengan menghindari overfitting, Anda harus menggunakan periode waktu inti untuk evaluasi (yaitu, membuat hasil backtest) yang terpisah dan lebih baru daripada periode waktu inti untuk pelatihan (yaitu, membuat model).

Rentang waktu set data untuk penyesuaian, pelatihan, dan backtesting

Konsistensi set data

Saat menggunakan set data yang berbeda untuk tahap penyesuaian, pelatihan, dan evaluasi mesin, buat set data yang konsisten di kolom mana yang akan diisi dan cara pengisiannya. Hal ini penting untuk stabilitas dan performa model AML.

Demikian pula, untuk skor risiko berkualitas tinggi, set data yang digunakan untuk membuat hasil prediksi dengan model harus konsisten dengan set data yang digunakan untuk melatih model tersebut.

Secara khusus, pastikan hal-hal berikut:

  • Logika yang sama digunakan untuk mengisi setiap kolom. Mengubah logika yang digunakan untuk mengisi kolom dapat menyebabkan bias fitur antara pelatihan model dan prediksi atau evaluasi.
  • Pilihan kolom yang REKOMENDASI yang sama akan diisi. Misalnya, menghapus kolom yang diisi selama pelatihan model dapat menyebabkan fitur yang diandalkan model menjadi miring atau hilang selama evaluasi atau prediksi.
  • Logika yang sama digunakan untuk memberikan nilai. Pada tabel PartySupplementaryData, logika yang sama digunakan untuk memberikan nilai bagi setiap kolom party_supplementary_data_id.

    • Menggunakan data yang sama, tetapi dengan nilai party_supplementary_data_id yang berbeda, menyebabkan model menggunakan data dengan tidak benar. Misalnya, kolom tertentu menggunakan ID 5 di tabel PartySupplementaryData untuk satu set data, tetapi kemudian menggunakan ID 7 di set data lain.
    • Menghapus nilai party_supplementary_data_id yang diandalkan model mungkin memiliki efek yang tidak dapat diprediksi. Misalnya, ID 3 digunakan dalam tabel PartySupplementaryData dalam satu set data, tetapi dihapus dari set data lain.

Sekarang Anda memiliki set data yang siap untuk penyesuaian, pelatihan, dan evaluasi mesin. Perhatikan bahwa operasi model dapat memerlukan waktu puluhan jam. Untuk informasi cara memeriksa apakah operasi masih berjalan atau telah selesai (gagal atau berhasil), lihat Mengelola operasi yang berjalan lama.