Halaman ini diterjemahkan oleh Cloud Translation API.

Evaluasi model di Vertex AI

Layanan evaluasi AI inferensi memungkinkan Anda mengevaluasi performa model di berbagai kasus penggunaan tertentu. Anda juga dapat menyebut evaluasi sebagai kemampuan pengamatan terhadap performa model. Evaluasi model yang disediakan oleh Vertex AI dapat disesuaikan dengan alur kerja machine learning standar melalui beberapa cara:

Setelah melatih model, tinjau metrik evaluasi model sebelum men-deploy model. Bandingkan metrik evaluasi di beberapa model untuk membantu Anda memutuskan model mana yang akan di-deploy.
Setelah model di-deploy ke produksi, evaluasi model Anda secara berkala menggunakan data baru yang masuk. Jika metrik evaluasi menunjukkan bahwa performa model Anda menurun, sebaiknya latih kembali model. Proses ini disebut evaluasi berkelanjutan.

Cara Anda menafsirkan dan menggunakan metrik tersebut bergantung pada kebutuhan bisnis Anda dan masalah yang biasa dipecahkan oleh model Anda dalam pelatihan. Misalnya, Anda mungkin memiliki toleransi yang lebih rendah untuk positif palsu daripada negatif palsu, atau sebaliknya. Pertanyaan semacam ini dapat memengaruhi metrik yang akan Anda fokuskan saat melakukan iterasi pada model.

Beberapa metrik utama yang disediakan oleh layanan evaluasi model AI prediktif meliputi:

Fitur

Untuk mengevaluasi model dengan Vertex AI, Anda memerlukan model terlatih, output inferensi batch, dan set data kebenaran nyata. Berikut adalah alur kerja evaluasi model standar menggunakan Vertex AI:

Melatih model. Anda dapat melakukannya di Vertex AI menggunakan AutoML atau pelatihan kustom.
Jalankan tugas inferensi batch pada model untuk membuat hasil inferensi.
Menyiapkan data kebenaran nyata, yaitu data yang "diberi label dengan benar" seperti yang ditentukan oleh manusia. Kebenaran nyata biasanya berupa set data pengujian yang Anda gunakan selama proses pelatihan model.
Menjalankan tugas evaluasi di model, yang mengevaluasi akurasi hasil inferensi batch dibandingkan dengan data kebenaran nyata.
Menganalisis metrik yang dihasilkan dari tugas evaluasi.
Lakukan iterasi pada model untuk melihat apakah Anda dapat meningkatkan akurasi model. Anda dapat menjalankan beberapa tugas evaluasi, dan membandingkan hasil dari beberapa tugas di berbagai model atau versi model.

Anda dapat menjalankan evaluasi model di Vertex AI dengan beberapa cara:

Buat evaluasi melalui Vertex AI Model Registry di Google Cloud konsol.
Gunakan evaluasi model dari Vertex AI sebagai komponen pipeline dengan Vertex AI Pipelines. Anda dapat membuat operasi dan template pipeline yang menyertakan evaluasi model sebagai bagian dari alur kerja MLOps otomatis.

Anda dapat menjalankan komponen evaluasi model sendiri, atau dengan komponen pipeline lainnya seperti komponen inferensi batch.

Vertex AI mendukung evaluasi jenis model berikut:

Gambar

Klasifikasi

Anda dapat melihat dan mendownload file skema dari lokasi Cloud Storage berikut:
gs://google-cloud-aiplatform/schema/modelEvaluation/

AuPRC: Area di bawah kurva presisi-perolehan (PR), juga disebut sebagai presisi rata-rata. Nilai ini memiliki rentang dari 0 sampai 1, dengan nilai yang lebih tinggi menunjukkan model yang berkualitas lebih tinggi.
Kerugian log: Entropi silang antara inferensi model dan nilai target. Nilai ini memiliki rentang dari 0 hingga tidak terbatas, dengan nilai yang lebih rendah menunjukkan model yang berkualitas lebih tinggi.
Nilai minimum keyakinan: Skor keyakinan yang menentukan inferensi yang akan ditampilkan. Model akan menampilkan inferensi yang berada pada nilai ini atau nilai yang lebih tinggi. Nilai minimum keyakinan yang lebih tinggi meningkatkan presisi, tetapi menurunkan perolehan. Vertex AI menampilkan metrik keyakinan pada berbagai nilai minimum untuk menunjukkan pengaruh nilai minimum terhadap presisi dan perolehan.
Perolehan: Fraksi inferensi dengan class ini yang diprediksi dengan benar oleh model. Perolehan disebut juga sebagai rasio positif benar.
Presisi: Bagian inferensi klasifikasi yang dihasilkan oleh model yang benar.
Matriks konfusi: Matriks konfusi menunjukkan seberapa sering model memprediksi hasil dengan benar. Untuk hasil yang salah diprediksi, matriks akan menampilkan hasil yang diprediksi oleh model. Matriks konfusi ini membantu Anda memahami di bagian mana model Anda "kebingungan" membedakan dua hasil.

Berbentuk tabel

Klasifikasi

Anda dapat melihat dan mendownload file skema dari lokasi Cloud Storage berikut:
gs://google-cloud-aiplatform/schema/modelEvaluation/

AuPRC: Area di bawah kurva presisi-perolehan (PR), juga disebut sebagai presisi rata-rata. Nilai ini memiliki rentang dari 0 sampai 1, dengan nilai yang lebih tinggi menunjukkan model yang berkualitas lebih tinggi.
AuROC: Area di bawah kurva karakteristik operasi penerima. Nilai ini memiliki rentang dari 0 sampai 1, dengan nilai yang lebih tinggi menunjukkan model yang berkualitas lebih tinggi.
Kerugian log: Entropi silang antara inferensi model dan nilai target. Nilai ini memiliki rentang dari 0 hingga tidak terbatas, dengan nilai yang lebih rendah menunjukkan model yang berkualitas lebih tinggi.
Nilai minimum keyakinan: Skor keyakinan yang menentukan inferensi yang akan ditampilkan. Model akan menampilkan inferensi yang berada pada nilai ini atau nilai yang lebih tinggi. Nilai minimum keyakinan yang lebih tinggi meningkatkan presisi, tetapi menurunkan perolehan. Vertex AI menampilkan metrik keyakinan pada berbagai nilai minimum untuk menunjukkan pengaruh nilai minimum terhadap presisi dan perolehan.
Perolehan: Fraksi inferensi dengan class ini yang diprediksi dengan benar oleh model. Perolehan disebut juga sebagai rasio positif benar.
Perolehan pada nilai 1: Perolehan (rasio positif benar) ketika hanya mempertimbangkan label yang memiliki skor inferensi tertinggi dan tidak berada di bawah nilai minimum keyakinan untuk setiap contoh.
Presisi: Bagian inferensi klasifikasi yang dihasilkan oleh model yang benar.
Presisi pada nilai 1: Presisi ketika hanya mempertimbangkan label yang memiliki skor inferensi tertinggi dan tidak berada di bawah nilai minimum keyakinan untuk setiap contoh.
Skor F1: Rata-rata harmonis dari presisi dan perolehan. F1 adalah metrik yang berguna jika Anda mencari keseimbangan antara presisi dan perolehan, dan ketika ada distribusi kelas yang tidak merata.
Skor F1 pada nilai 1: Rata-rata harmonis dari perolehan pada nilai 1 dan presisi pada nilai 1.
Matriks konfusi: Matriks konfusi menunjukkan seberapa sering model memprediksi hasil dengan benar. Untuk hasil yang salah diprediksi, matriks akan menampilkan hasil yang diprediksi oleh model. Matriks konfusi ini membantu Anda memahami di bagian mana model Anda "kebingungan" membedakan dua hasil.
Jumlah negatif benar: Berapa kali model memprediksi class negatif dengan benar.
Jumlah positif benar: Berapa kali model memprediksi kelas positif dengan benar.
Jumlah negatif palsu (NP): Berapa kali model salah memprediksi kelas negatif.
Jumlah positif palsu (PP): Berapa kali model salah memprediksi kelas positif.
Rasio positif palsu: Bagian hasil yang salah diprediksi dari semua hasil yang diprediksi.
Rasio positif palsu pada nilai 1: Rasio positif palsu jika hanya mempertimbangkan label yang memiliki skor inferensi tertinggi dan tidak berada di bawah nilai minimum keyakinan untuk setiap contoh.
Atribusi fitur model: Vertex AI menunjukkan dampak setiap fitur terhadap model. Nilai diberikan dalam bentuk persentase untuk setiap fitur: makin tinggi persentasenya, makin besar dampak fitur tersebut terhadap pelatihan model. Tinjau informasi ini untuk memastikan semua fitur yang paling penting telah sesuai untuk data dan masalah bisnis Anda.

Regresi

Anda dapat melihat dan mendownload file skema dari lokasi Cloud Storage berikut:
gs://google-cloud-aiplatform/schema/modelEvaluation/

MAE: Rata-rata error mutlak (MAE) adalah selisih mutlak rata-rata antara nilai target dan nilai yang diprediksi. Metrik ini memiliki rentang dari 0 hingga tidak terbatas, dengan nilai yang lebih rendah menunjukkan model yang berkualitas lebih tinggi.
RMSE: Galat akar rataan kuadrat adalah akar kuadrat dari rata-rata selisih kuadrat antara nilai target dan nilai yang diprediksi. RMSE lebih sensitif terhadap pencilan dibandingkan MAE. Jadi, jika Anda khawatir dengan galat yang besar, RMSE dapat menjadi metrik yang lebih berguna untuk dievaluasi. Serupa dengan MAE, nilai yang lebih kecil menunjukkan model yang berkualitas lebih tinggi (0 merepresentasikan prediktor sempurna).
RMSLE: Metrik galat logaritmik akar rataan kuadrat mirip dengan RMSE, tetapi metrik ini menggunakan logaritma natural dari nilai yang diprediksi dan nilai sebenarnya ditambah 1. RMSLE menindak inferensi yang kurang dengan lebih tegas daripada inferensi yang berlebihan. RMSLE juga dapat menjadi metrik yang sesuai jika Anda tidak ingin menindak selisih untuk nilai inferensi yang besar dengan lebih tegas daripada nilai inferensi yang kecil. Metrik ini memiliki rentang dari 0 hingga tidak terbatas, dengan nilai yang lebih rendah menunjukkan model yang berkualitas lebih tinggi. Metrik evaluasi RMSLE hanya ditampilkan jika semua label dan nilai yang diprediksi tidak negatif.
r^2: r kuadrat (r^2) adalah kuadrat dari koefisien korelasi Pearson antara label dan nilai yang diprediksi. Metrik ini memiliki rentang antara 0 dan 1. Nilai yang lebih tinggi menunjukkan kecocokan yang lebih dekat dengan garis regresi.
MAPE: Rataan galat persentase mutlak (MAPE) adalah selisih rata-rata persentase mutlak antara label dan nilai yang diprediksi. Metrik ini memiliki rentang antara nol dan tidak terbatas, dengan nilai yang lebih rendah menunjukkan model yang berkualitas lebih tinggi.
MAPE tidak ditampilkan jika kolom target berisi nilai 0. Dalam hal ini, MAPE tidak terdefinisi.
Atribusi fitur model: Vertex AI menunjukkan dampak setiap fitur terhadap model. Nilai diberikan dalam bentuk persentase untuk setiap fitur: makin tinggi persentasenya, makin besar dampak fitur tersebut terhadap pelatihan model. Tinjau informasi ini untuk memastikan semua fitur yang paling penting telah sesuai untuk data dan masalah bisnis Anda.

Prakiraan

Anda dapat melihat dan mendownload file skema dari lokasi Cloud Storage berikut:
gs://google-cloud-aiplatform/schema/modelEvaluation/

MAE: Rata-rata error mutlak (MAE) adalah selisih mutlak rata-rata antara nilai target dan nilai yang diprediksi. Metrik ini memiliki rentang dari 0 hingga tidak terbatas, dengan nilai yang lebih rendah menunjukkan model yang berkualitas lebih tinggi.
RMSE: Galat akar rataan kuadrat adalah akar kuadrat dari rata-rata selisih kuadrat antara nilai target dan nilai yang diprediksi. RMSE lebih sensitif terhadap pencilan dibandingkan MAE. Jadi, jika Anda khawatir dengan galat yang besar, RMSE dapat menjadi metrik yang lebih berguna untuk dievaluasi. Serupa dengan MAE, nilai yang lebih kecil menunjukkan model yang berkualitas lebih tinggi (0 merepresentasikan prediktor sempurna).
RMSLE: Metrik galat logaritmik akar rataan kuadrat mirip dengan RMSE, tetapi metrik ini menggunakan logaritma natural dari nilai yang diprediksi dan nilai sebenarnya ditambah 1. RMSLE menindak inferensi yang kurang dengan lebih tegas daripada inferensi yang berlebihan. RMSLE juga dapat menjadi metrik yang sesuai jika Anda tidak ingin menindak selisih untuk nilai inferensi yang besar dengan lebih tegas daripada nilai inferensi yang kecil. Metrik ini memiliki rentang dari 0 hingga tidak terbatas, dengan nilai yang lebih rendah menunjukkan model yang berkualitas lebih tinggi. Metrik evaluasi RMSLE hanya ditampilkan jika semua label dan nilai yang diprediksi tidak negatif.
r^2: r kuadrat (r^2) adalah kuadrat dari koefisien korelasi Pearson antara label dan nilai yang diprediksi. Metrik ini memiliki rentang antara 0 dan 1. Nilai yang lebih tinggi menunjukkan kecocokan yang lebih dekat dengan garis regresi.
MAPE: Rataan galat persentase mutlak (MAPE) adalah selisih rata-rata persentase mutlak antara label dan nilai yang diprediksi. Metrik ini memiliki rentang antara nol dan tidak terbatas, dengan nilai yang lebih rendah menunjukkan model yang berkualitas lebih tinggi.
MAPE tidak ditampilkan jika kolom target berisi nilai 0. Dalam hal ini, MAPE tidak terdefinisi.
WAPE: Error persentase mutlak tertimbang (WAPE) adalah selisih keseluruhan antara nilai yang diprediksi oleh model dan nilai yang diamati pada nilai teramati. Dibandingkan dengan RMSE, WAPE ditimbang berdasarkan selisih keseluruhan, bukan selisih individual, yang dapat sangat dipengaruhi oleh nilai yang rendah atau terputus-putus. Nilai yang lebih rendah menunjukkan model dengan kualitas yang lebih tinggi.
RMSPE: Error persentase akar rata-rata kuadrat (RMPSE) menampilkan RMSE sebagai persentase dari nilai sebenarnya, bukan angka mutlak. Nilai yang lebih rendah menunjukkan model dengan kualitas yang lebih tinggi.
Kuantil: Kuantil persen, yang menunjukkan probabilitas bahwa nilai teramati akan lebih rendah dari nilai yang diprediksi. Misalnya, pada kuantil 0,5, nilai teramati diharapkan lebih rendah dari nilai yang diprediksi 50% dari waktu tersebut.
Kuantil teramati: Menampilkan persentase nilai sebenarnya yang lebih kecil dari nilai yang diprediksi untuk kuantil tertentu.
Kerugian pinball dalam skala besar: Kerugian pinball yang diskalakan pada kuantil tertentu. Nilai yang lebih rendah menunjukkan model dengan kualitas lebih tinggi pada kuantil tertentu.

Evaluasi model di Vertex AI

Fitur

Gambar

Klasifikasi

Berbentuk tabel

Klasifikasi

Regresi

Prakiraan

Tutorial notebook

AutoML: Tabular

Pelatihan kustom: Tabular

Vertex AI Model Registry

Langkah berikutnya