Mengevaluasi model

Hasil backtest memberi Anda ringkasan performa model dalam jangka waktu yang ditentukan. Ini dapat digunakan untuk mengukur performa model pada rentang waktu yang terpisah dari yang digunakan dalam pelatihan, atau juga dari waktu ke waktu untuk memeriksa penurunan performa.

Cara melakukan backtest

Untuk membuat resource BacktestResult, lihat Membuat dan mengelola hasil backtest.

Secara khusus, Anda harus memilih hal berikut:

  • Data yang akan digunakan untuk pengujian:

    Tentukan set data dan waktu berakhir dalam rentang tanggal set data.

    Pelatihan menggunakan label dan fitur berdasarkan bulan kalender yang selesai hingga, tetapi tidak termasuk, bulan dari waktu berakhir yang dipilih. Untuk mengetahui informasi selengkapnya, lihat Rentang waktu set data.

    Tentukan berapa bulan data berlabel yang akan digunakan untuk pengujian kembali (yaitu, jumlah periode backtest).

  • Model yang dibuat menggunakan set data yang konsisten:

    Lihat Mengonfigurasi mesin.

Periode backtest

Kolom backtestPeriods menentukan jumlah bulan kalender berturut-turut yang akan menggunakan fitur dan label dalam evaluasi performa model ini.

Hal berikut berlaku untuk data backtest:

  • Bulan yang digunakan dalam evaluasi adalah bulan kalender lengkap terbaru sebelum endTime yang ditentukan. Misalnya, jika endTime adalah 2023-04-03T23:21:00Z dan backtestPeriods adalah 5, label dari bulan-bulan berikut akan digunakan: 03-2023, 02-2023, 01-2023, 12-2022, dan 11-2022.
  • Anda harus menggunakan data terbaru yang tersedia untuk backtesting saat mengevaluasi model sebagai persiapan untuk penggunaan produksi.
  • Periode backtest harus ditetapkan ke 3 atau lebih besar. Dua bulan periode backtest dicadangkan untuk memperhitungkan pemberitahuan berulang, dan bulan yang tersisa digunakan untuk menghasilkan label positif bagi evaluasi performa.

  • Hindari penggunaan bulan yang tumpang-tindih untuk pelatihan dan backtesting karena hal ini berisiko overfitting. Pastikan waktu pengujian backtest dan pelatihan berjarak minimal backtestPeriods terpisah. Yaitu,

    (bulan waktu berakhir hasil backtest) >= (bulan waktu berakhir model) + backtestPeriods

Secara opsional, Anda juga dapat membuat hasil prediksi untuk model dan melakukan analisis performa model Anda sendiri di tingkat pihak.

Output backtest

Metadata hasil backtest berisi metrik berikut. Secara khusus, metrik ini menunjukkan hal berikut:

  • Performa model dibandingkan dengan label dari jangka waktu terpisah dan untuk berbagai volume investigasi atau nilai minimum skor risiko

  • Setiap perubahan besar pada kelompok fitur yang didukung set data (antara engine tuning, pelatihan, evaluasi, dan prediksi)

Nama metrik Deskripsi metrik Contoh nilai metrik
ObservedRecallValues Metrik recall yang diukur pada set data yang ditentukan untuk backtesting. API ini menyertakan 20 pengukuran ini, pada titik operasi yang berbeda, didistribusikan secara merata dari 0 (tidak disertakan) sampai 2 * partyInvestigationsPerPeriodHint. API menambahkan pengukuran perolehan akhir pada partyInvestigationsPerPeriodHint.

{
  "recallValues": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "recallValue": 0.80,
      "scoreThreshold": 0.42,
    },
    ...
    ...
    {
      "partyInvestigationsPerPeriod": 8000,
      "recallValue": 0.85,
      "scoreThreshold": 0.30,
    },
  ],
}
Hilang

Berbagi nilai yang tidak ada di semua fitur dalam setiap kelompok fitur.

Idealnya, semua kelompok fitur AML AI harus memiliki Nilai Hilang mendekati 0. Pengecualian dapat terjadi jika data yang mendasari kelompok fitur tersebut tidak tersedia untuk integrasi.

Perubahan signifikan pada nilai ini untuk kelompok fitur apa pun antara penyesuaian, pelatihan, evaluasi, dan prediksi dapat menunjukkan inkonsistensi dalam set data yang digunakan.


{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
Kemiringan

Metrik yang menunjukkan kemiringan antara set data pelatihan dan prediksi atau backtest. Kecenderungan keluarga menunjukkan perubahan distribusi nilai fitur dalam kelompok fitur, yang diukur berdasarkan kepentingan fitur dalam kelompok tersebut. Kemiringan maksimum menunjukkan kemiringan maksimum dari fitur apa pun dalam kelompok tersebut.

Nilai kemiringan berkisar dari 0, yang menunjukkan tidak ada perubahan signifikan dalam distribusi nilai fitur dalam kelompok fitur, hingga 1 untuk perubahan yang paling signifikan. Nilai yang besar, baik untuk family condong maupun nilai maksimum menunjukkan perubahan signifikan dalam struktur data sehingga dapat memengaruhi performa model. Family condong mengambil nilai -1 ketika tidak ada fitur dalam keluarga yang digunakan oleh model.

Untuk nilai kemiringan besar, Anda harus melakukan salah satu hal berikut:

  • Menyelidiki perubahan pada data yang digunakan oleh kelompok fitur tersebut (lihat materi dukungan tata kelola model) dan memperbaiki masalah data input apa pun
  • Melatih ulang model pada data yang lebih baru

Anda harus menetapkan nilai minimum untuk bertindak berdasarkan nilai kemiringan maksimum dan keluarga berdasarkan pengamatan variasi alami dalam metrik kemiringan selama beberapa bulan.


{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "familySkewValue": 0.10,
      "maxSkewValue": 0.14,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "familySkewValue": 0.11,
      "maxSkewValue": 0.11,
    },
  ],
}