Hasil pengujian balik memberi Anda ringkasan performa model dalam jangka waktu tertentu. Nilai ini dihasilkan dengan memprediksi semua pelanggan dalam periode pengujian ulang dan mengevaluasi performa model terhadap peristiwa risiko yang tersedia.
Hasil uji balik dapat digunakan untuk mengukur performa model pada rentang waktu yang terpisah dari yang digunakan dalam pelatihan, atau juga dari waktu ke waktu untuk memeriksa penurunan performa.
Cara melakukan pengujian balik
Untuk membuat resource BacktestResult, lihat Membuat dan mengelola hasil backtest.
Secara khusus, Anda perlu memilih hal berikut:
Data yang akan digunakan untuk pengujian balik:
Tentukan set data dan waktu akhir dalam rentang tanggal set data.
Pelatihan menggunakan label dan fitur berdasarkan bulan kalender lengkap hingga, tetapi tidak termasuk, bulan waktu akhir yang dipilih. Untuk mengetahui informasi selengkapnya, lihat Rentang waktu set data.
Tentukan jumlah bulan data berlabel yang akan digunakan untuk pengujian balik (yaitu, jumlah periode pengujian balik).
Model yang dibuat menggunakan set data yang konsisten:
Lihat Membuat model.
Periode uji coba balik
Kolom
backtestPeriods
menentukan jumlah bulan kalender berturut-turut untuk menggunakan fitur dan label
dalam evaluasi performa model ini.
Hal berikut berlaku untuk data uji coba balik:
- Bulan yang digunakan dalam evaluasi adalah bulan kalender lengkap terbaru
sebelum
endTime
yang ditentukan. Misalnya, jikaendTime
adalah2023-04-15T23:21:00Z
danbacktestPeriods
adalah5
, label dari bulan berikut akan digunakan: 2023-03, 2023-02, 2023-01, 2022-12, dan 2022-11. - Anda harus menggunakan data terbaru yang tersedia untuk pengujian balik saat mengevaluasi model sebagai persiapan untuk penggunaan produksi.
Periode uji coba balik harus ditetapkan ke
3
atau lebih besar. Dua bulan dari periode pengujian ulang disediakan untuk memperhitungkan pemberitahuan berulang, dan bulan-bulan lainnya digunakan untuk membuat label positif untuk evaluasi performa.Hindari penggunaan bulan yang tumpang-tindih untuk pelatihan dan pengujian balik karena hal ini berisiko overfitting. Pastikan waktu berakhir backtest dan pelatihan setidaknya
backtestPeriods
. Artinya,(bulan waktu akhir hasil uji coba balik) >= (bulan waktu akhir model) +
backtestPeriods
Secara opsional, Anda juga dapat membuat hasil prediksi untuk model dan melakukan analisis performa model tingkat pihak Anda sendiri.
Output backtest
Metadata hasil uji coba balik berisi metrik berikut. Secara khusus, metrik ini menunjukkan hal berikut:
Performa model dibandingkan dengan label dari jangka waktu terpisah dan untuk berbagai volume investigasi atau nilai minimum skor risiko
Pengukuran yang dapat digunakan untuk menilai konsistensi set data (misalnya, dengan membandingkan nilai ketidaklengkapan keluarga fitur dari berbagai operasi)
Nama metrik | Deskripsi metrik | Contoh nilai metrik |
---|---|---|
ObservedRecallValues | Metrik recall yang diukur pada set data yang ditentukan untuk pengujian balik. API
menyertakan 20 pengukuran ini, pada titik operasi yang berbeda, yang didistribusikan
secara merata dari 0 (tidak disertakan) hingga 2 *
partyInvestigationsPerPeriodHint . API menambahkan pengukuran recall akhir
di partyInvestigationsPerPeriodHint .
|
{ "recallValues": [ { "partyInvestigationsPerPeriod": 5000, "recallValue": 0.80, "scoreThreshold": 0.42, }, ... ... { "partyInvestigationsPerPeriod": 8000, "recallValue": 0.85, "scoreThreshold": 0.30, }, ], } |
Ketidaklengkapan |
Pangsa nilai yang tidak ada di semua fitur dalam setiap keluarga fitur. Idealnya, semua keluarga fitur AI AML harus memiliki Missingness mendekati 0. Pengecualian dapat terjadi jika data yang mendasari grup fitur tersebut tidak tersedia untuk integrasi. Perubahan yang signifikan pada nilai ini untuk setiap keluarga fitur antara penyesuaian, pelatihan, evaluasi, dan prediksi dapat menunjukkan inkonsistensi dalam set data yang digunakan. |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "missingnessValue": 0.00, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "missingnessValue": 0.45, }, ], } |
Skew |
Metrik yang menunjukkan skew antara set data pelatihan dan prediksi atau backtest. Kemiringan keluarga menunjukkan perubahan dalam distribusi nilai fitur dalam keluarga fitur, yang diberi bobot berdasarkan tingkat kepentingan fitur dalam keluarga tersebut. Skew maksimum menunjukkan skew maksimum fitur apa pun dalam keluarga tersebut. Nilai kemiringan berkisar dari 0, yang menunjukkan tidak ada perubahan signifikan dalam distribusi nilai fitur dalam keluarga, hingga 1 untuk perubahan paling signifikan. Nilai besar untuk kemiringan keluarga atau kemiringan maksimum menunjukkan perubahan signifikan pada struktur data Anda dengan cara yang dapat memengaruhi performa model. Skew keluarga menggunakan nilai -1 jika tidak ada fitur dalam keluarga yang digunakan oleh model. Untuk nilai skew yang besar, Anda harus melakukan salah satu hal berikut:
Anda harus menetapkan nilai minimum untuk menindaklanjuti nilai skew maksimum dan keluarga berdasarkan pengamatan variasi alami dalam metrik skew selama beberapa bulan. |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "familySkewValue": 0.10, "maxSkewValue": 0.14, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "familySkewValue": 0.11, "maxSkewValue": 0.11, }, ], } |