Evaluasi berkelanjutan secara rutin mengambil sampel input dan output prediksi dari model machine learning terlatih yang telah Anda deploy ke AI Platform Prediction. Layanan Pelabelan Data AI Platform kemudian menetapkan peninjau manual untuk memberikan label kebenaran dasar untuk input prediksi Anda; atau, Anda dapat memberikan label kebenaran dasar Anda sendiri. Data Labeling Service membandingkan prediksi model Anda dengan label kebenaran dasar untuk memberikan masukan berkelanjutan tentang performa model Anda dari waktu ke waktu.
Cara kerjanya
Untuk menggunakan evaluasi berkelanjutan, Anda harus telah men-deploy model machine learning terlatih ke AI Platform Prediction sebagai versi model. Kemudian, Anda dapat membuat tugas evaluasi untuk versi model.
Membuat tugas evaluasi untuk versi model akan menyebabkan dua hal:
- Saat versi model menayangkan prediksi online, input dan output untuk beberapa prediksi ini akan disimpan dalam tabel BigQuery. Pengambilan sampel ini sering terjadi, setiap kali model Anda menayangkan prediksi. Anda dapat menyesuaikan jumlah data yang diambil sampelnya.
- Secara berkala, tugas evaluasi berjalan, menghasilkan metrik evaluasi.
Anda dapat melihat metrik evaluasi yang dihasilkan di konsol Google Cloud.
Kebenaran dasar
Label kebenaran nyata adalah label yang ditentukan manusia sebagai label yang benar untuk tugas machine learning Anda. Evaluasi berkelanjutan menggunakan ini sebagai kunci jawaban dan menghitung metrik dengan membandingkan prediksi versi model Anda dengan label kebenaran dasar. Saat membuat tugas evaluasi, Anda harus memutuskan cara membuat label kebenaran dasar untuk data prediksi. Ada dua opsi:
- Data Labeling Service dapat menetapkan peninjau manual untuk memberikan label kebenaran dasar untuk data prediksi Anda.
- Anda dapat memberikan label kebenaran dasar sendiri.
Tugas evaluasi berjalan
Secara default, tugas evaluasi berjalan setiap hari pukul 10.00 UTC. Yang terjadi selama proses berjalan bergantung pada cara Anda memutuskan untuk membuat label ground truth.
Jika Data Labeling Service memberikan label ground truth
Saat tugas evaluasi berjalan, Layanan Pemberian Label Data akan membuat set data dengan semua baris baru di BigQuery sejak operasi terakhir. File ini berisi input dan output prediksi yang diambil sampelnya dari versi model Anda.
Kemudian, Layanan Pelabelan Data mengirimkan permintaan pelabelan berdasarkan set data ini agar peninjau manual memberikan label kebenaran dasar.
Setelah permintaan pemberian label selesai, Data Labeling Service akan menghitung metrik evaluasi menggunakan label kebenaran dasar baru dan output prediksi versi model Anda.
Terutama jika Anda mengambil sampel banyak data prediksi ke dalam tabel BigQuery, perlu waktu lebih dari satu hari bagi pelabel manusia untuk menyelesaikan permintaan pemberian label Anda. Jika hal ini terjadi, tugas evaluasi Anda akan tetap dijalankan lagi pada hari berikutnya, sesuai jadwalnya. Artinya, tugas tersebut berjalan beberapa kali secara paralel. Setiap operasi berlaku untuk sampel data prediksi terpisah: prediksi versi model Anda pada hari sebelum operasi. Berapa pun waktu yang diperlukan, prediksi akan menghasilkan metrik evaluasi untuk prediksi pada hari tertentu.
Jika Anda sendiri yang memberikan label kebenaran dasar
Seperti di bagian sebelumnya, saat tugas evaluasi berjalan, Layanan Pemberian Label Data
akan membuat set data dengan semua baris baru di
BigQuery sejak operasi terakhir. Namun, dalam hal ini, Anda harus
telah menambahkan label kebenaran dasar ke kolom groundtruth
tabel sebelum
eksekusi terjadi. Tugas evaluasi akan melewati baris apa pun tanpa label kebenaran dasar,
dan baris ini tidak dapat disertakan dalam tugas evaluasi yang akan dijalankan pada masa mendatang.
Setelah membuat set data, Layanan Pelabelan Data akan segera menghitung metrik evaluasi.
Jika menggunakan metode ini, Anda harus menambahkan label kebenaran dasar untuk prediksi baru setiap hari, sebelum tugas evaluasi berjalan.
Harga
Jika Layanan Pelabelan Data menetapkan peninjau manual untuk memberikan label kebenaran dasar, harga Layanan Pelabelan Data akan berlaku. Selain itu, tidak ada biaya khusus untuk evaluasi berkelanjutan.
Untuk menggunakan evaluasi berkelanjutan, Anda juga harus menggunakan AI Platform Prediction, BigQuery, dan Cloud Storage. Produk ini mungkin dikenai biaya.
Langkah selanjutnya
Baca tentang hal yang perlu Anda lakukan sebelum dapat membuat tugas evaluasi.