Mengevaluasi model

Hasil pengujian balik memberi Anda ringkasan performa model dalam jangka waktu tertentu. Nilai ini dihasilkan dengan memprediksi semua pelanggan dalam periode pengujian ulang dan mengevaluasi performa model terhadap peristiwa risiko yang tersedia.

Hasil uji balik dapat digunakan untuk mengukur performa model pada rentang waktu yang terpisah dari yang digunakan dalam pelatihan, atau juga dari waktu ke waktu untuk memeriksa penurunan performa.

Cara melakukan pengujian balik

Untuk membuat resource BacktestResult, lihat Membuat dan mengelola hasil backtest.

Secara khusus, Anda perlu memilih hal berikut:

  • Data yang akan digunakan untuk pengujian balik:

    Tentukan set data dan waktu akhir dalam rentang tanggal set data.

    Pelatihan menggunakan label dan fitur berdasarkan bulan kalender lengkap hingga, tetapi tidak termasuk, bulan waktu akhir yang dipilih. Untuk mengetahui informasi selengkapnya, lihat Rentang waktu set data.

    Tentukan jumlah bulan data berlabel yang akan digunakan untuk pengujian balik (yaitu, jumlah periode pengujian balik).

  • Model yang dibuat menggunakan set data yang konsisten:

    Lihat Membuat model.

Periode uji coba balik

Kolom backtestPeriods menentukan jumlah bulan kalender berturut-turut untuk menggunakan fitur dan label dalam evaluasi performa model ini.

Hal berikut berlaku untuk data uji coba balik:

  • Bulan yang digunakan dalam evaluasi adalah bulan kalender lengkap terbaru sebelum endTime yang ditentukan. Misalnya, jika endTime adalah 2023-04-15T23:21:00Z dan backtestPeriods adalah 5, label dari bulan berikut akan digunakan: 2023-03, 2023-02, 2023-01, 2022-12, dan 2022-11.
  • Anda harus menggunakan data terbaru yang tersedia untuk pengujian balik saat mengevaluasi model sebagai persiapan untuk penggunaan produksi.
  • Periode uji coba balik harus ditetapkan ke 3 atau lebih besar. Dua bulan dari periode pengujian ulang disediakan untuk memperhitungkan pemberitahuan berulang, dan bulan-bulan lainnya digunakan untuk membuat label positif untuk evaluasi performa.

  • Hindari penggunaan bulan yang tumpang-tindih untuk pelatihan dan pengujian balik karena hal ini berisiko overfitting. Pastikan waktu berakhir backtest dan pelatihan setidaknya backtestPeriods. Artinya,

    (bulan waktu akhir hasil uji coba balik) >= (bulan waktu akhir model) + backtestPeriods

Secara opsional, Anda juga dapat membuat hasil prediksi untuk model dan melakukan analisis performa model tingkat pihak Anda sendiri.

Output backtest

Metadata hasil uji coba balik berisi metrik berikut. Secara khusus, metrik ini menunjukkan hal berikut:

  • Performa model dibandingkan dengan label dari jangka waktu terpisah dan untuk berbagai volume investigasi atau nilai minimum skor risiko

  • Pengukuran yang dapat digunakan untuk menilai konsistensi set data (misalnya, dengan membandingkan nilai ketidaklengkapan keluarga fitur dari berbagai operasi)

Nama metrik Deskripsi metrik Contoh nilai metrik
ObservedRecallValues Metrik recall yang diukur pada set data yang ditentukan untuk pengujian balik. API menyertakan 20 pengukuran ini, pada titik operasi yang berbeda, yang didistribusikan secara merata dari 0 (tidak disertakan) hingga 2 * partyInvestigationsPerPeriodHint. API menambahkan pengukuran recall akhir di partyInvestigationsPerPeriodHint.
{
  "recallValues": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "recallValue": 0.80,
      "scoreThreshold": 0.42,
    },
    ...
    ...
    {
      "partyInvestigationsPerPeriod": 8000,
      "recallValue": 0.85,
      "scoreThreshold": 0.30,
    },
  ],
}
Ketidaklengkapan

Pangsa nilai yang tidak ada di semua fitur dalam setiap keluarga fitur.

Idealnya, semua keluarga fitur AI AML harus memiliki Missingness mendekati 0. Pengecualian dapat terjadi jika data yang mendasari grup fitur tersebut tidak tersedia untuk integrasi.

Perubahan yang signifikan pada nilai ini untuk setiap keluarga fitur antara penyesuaian, pelatihan, evaluasi, dan prediksi dapat menunjukkan inkonsistensi dalam set data yang digunakan.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
Skew

Metrik yang menunjukkan skew antara set data pelatihan dan prediksi atau backtest. Kemiringan keluarga menunjukkan perubahan dalam distribusi nilai fitur dalam keluarga fitur, yang diberi bobot berdasarkan tingkat kepentingan fitur dalam keluarga tersebut. Skew maksimum menunjukkan skew maksimum fitur apa pun dalam keluarga tersebut.

Nilai kemiringan berkisar dari 0, yang menunjukkan tidak ada perubahan signifikan dalam distribusi nilai fitur dalam keluarga, hingga 1 untuk perubahan paling signifikan. Nilai besar untuk kemiringan keluarga atau kemiringan maksimum menunjukkan perubahan signifikan pada struktur data Anda dengan cara yang dapat memengaruhi performa model. Skew keluarga menggunakan nilai -1 jika tidak ada fitur dalam keluarga yang digunakan oleh model.

Untuk nilai skew yang besar, Anda harus melakukan salah satu hal berikut:

  • Selidiki perubahan pada data yang digunakan oleh grup fitur tersebut (lihat materi dukungan tata kelola model) dan perbaiki masalah data input apa pun
  • Melatih ulang model pada data yang lebih baru

Anda harus menetapkan nilai minimum untuk menindaklanjuti nilai skew maksimum dan keluarga berdasarkan pengamatan variasi alami dalam metrik skew selama beberapa bulan.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "familySkewValue": 0.10,
      "maxSkewValue": 0.14,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "familySkewValue": 0.11,
      "maxSkewValue": 0.11,
    },
  ],
}