Ringkasan persiapan model

Halaman ini memandu Anda melalui langkah-langkah untuk menyiapkan model AI AML, dengan asumsi Anda telah menyiapkan instance dan menyiapkan set data yang diperlukan.

Ringkasan tahap

Proses untuk menyiapkan model tercakup dalam tiga tahap berikut:

Setelah menyelesaikan tahap sebelumnya dan performa model memenuhi kebutuhan Anda, lihat panduan di bagian Membuat skor risiko dan keterjelasan dan Mempersiapkan model dan tata kelola risiko.

Sebelum memulai

Sebelum memulai, Anda memerlukan hal berikut:

Persyaratan set data

Untuk panduan mendetail tentang model dan skema data, lihat halaman di bagian Menyiapkan Data untuk AML AI. Bagian ini membahas cara memastikan bahwa set data yang digunakan dalam penyesuaian, pelatihan, dan evaluasi mesin berfungsi dengan baik.

Rentang waktu set data

Setiap set data yang digunakan untuk operasi penyesuaian, pelatihan, pengujian balik, dan prediksi harus berisi data yang valid untuk rentang waktu yang berakhir pada akhir bulan kalender penuh terakhir sebelum end_time yang ditentukan dalam panggilan API. Durasi rentang waktu ini bergantung pada tabel, Versi Mesin, dan operasi. Rentang waktu minimum dibahas secara mendetail di Memahami cakupan dan durasi data.

Misalnya, untuk penyesuaian mesin dengan versi mesin v004.004, tabel Transaksi harus mencakup minimal 30 bulan.

Mengonfigurasi mesin, pelatihan, dan evaluasi (pengujian balik) dapat diselesaikan dengan satu set data; lihat gambar berikut. Untuk memastikan performa produksi yang baik dengan menghindari overfitting, Anda harus memastikan bahwa periode yang digunakan untuk evaluasi (yaitu, membuat hasil pengujian balik) adalah setelah periode yang digunakan untuk pelatihan (yaitu, membuat model).

Misalnya: jika menggunakan 3 periode untuk pengujian balik dan menggunakan periode hingga akhir Februari 2024 untuk pelatihan (yaitu, waktu akhir pada awal Maret 2024), Anda dapat menggunakan periode hingga akhir Mei 2024 untuk pengujian balik (yaitu, waktu akhir pada awal Juni 2024).

Rentang waktu set data untuk penyesuaian, pelatihan, dan pengujian balik

Konsistensi set data

Saat menggunakan set data yang berbeda untuk tahap penyesuaian, pelatihan, dan evaluasi mesin, buat set data konsisten dalam kolom yang diisi dan cara kolom tersebut diisi. Hal ini penting untuk stabilitas dan performa model AML.

Demikian pula, untuk skor risiko berkualitas tinggi, set data yang digunakan untuk membuat hasil prediksi dengan model harus konsisten dengan set data yang digunakan untuk melatih model tersebut.

Secara khusus, pastikan hal berikut:

  • Logika yang sama digunakan untuk mengisi setiap kolom. Mengubah logika yang digunakan untuk mengisi kolom dapat menyebabkan kemiringan fitur antara pelatihan model dan prediksi atau evaluasi.
  • Pilihan kolom DIUJIKAN yang sama akan diisi. Misalnya, menghapus kolom yang diisi selama pelatihan model dapat menyebabkan fitur yang menjadi andalan model menjadi miring atau hilang selama evaluasi atau prediksi.
  • Logika yang sama digunakan untuk memberikan nilai. Dalam tabel PartySupplementaryData, logika yang sama digunakan untuk memberikan nilai untuk setiap kolom party_supplementary_data_id.

    • Menggunakan data yang sama, tetapi dengan nilai party_supplementary_data_id yang berbeda, menyebabkan model menggunakan data secara salah. Misalnya, kolom tertentu menggunakan ID 5 dalam tabel PartySupplementaryData untuk satu set data, tetapi kemudian menggunakan ID 7 dalam set data lain.
    • Menghapus nilai party_supplementary_data_id yang menjadi andalan model dapat memiliki efek yang tidak dapat diprediksi. Misalnya, ID 3 digunakan dalam tabel PartySupplementaryData di satu set data, tetapi dihilangkan dari set data lain.

Sekarang Anda memiliki set data yang siap untuk penyesuaian, pelatihan, dan evaluasi mesin. Perhatikan bahwa operasi model dapat memerlukan waktu puluhan jam. Untuk informasi tentang cara memeriksa apakah operasi masih berjalan atau telah selesai (gagal atau berhasil), lihat Mengelola operasi yang berjalan lama.