Evaluasi model di Vertex AI

Vertex AI menyediakan metrik evaluasi model, seperti presisi dan perolehan, untuk membantu Anda menentukan performa model.

Evaluasi model yang disediakan oleh Vertex AI dapat disesuaikan dengan alur kerja machine learning standar melalui beberapa cara:

  1. Setelah melatih model, tinjau metrik evaluasi model sebelum men-deploy model. Anda dapat membandingkan metrik evaluasi di beberapa model untuk membantu memutuskan model mana yang harus di-deploy.

  2. Setelah model di-deploy ke produksi, evaluasi model Anda secara berkala menggunakan data baru yang masuk. Jika metrik evaluasi menunjukkan bahwa performa model Anda menurun, sebaiknya latih kembali model. Proses ini disebut evaluasi berkelanjutan.

Cara Anda menafsirkan dan menggunakan metrik tersebut bergantung pada kebutuhan bisnis Anda dan masalah yang dilatih untuk dipecahkan oleh model Anda. Misalnya, Anda mungkin memiliki toleransi yang lebih rendah untuk positif palsu (PP) daripada negatif palsu (NP) atau sebaliknya. Pertanyaan semacam ini dapat memengaruhi metrik yang akan Anda fokuskan saat melakukan iterasi pada model.

Features

Untuk mengevaluasi model dengan Vertex AI, Anda harus memiliki model terlatih, output prediksi batch, dan set data kebenaran nyata. Berikut adalah alur kerja evaluasi model standar menggunakan Vertex AI:

  1. Melatih model. Anda dapat melakukannya di Vertex AI menggunakan AutoML atau pelatihan kustom.

  2. Jalankan tugas prediksi batch di model untuk membuat hasil prediksi.

  3. Menyiapkan data kebenaran nyata, yaitu data yang "diberi label dengan benar" seperti yang ditentukan oleh manusia. Kebenaran nyata biasanya berupa set data pengujian yang Anda gunakan selama proses pelatihan model.

  4. Menjalankan tugas evaluasi di model, yang mengevaluasi akurasi hasil prediksi batch dibandingkan dengan data kebenaran nyata.

  5. Menganalisis metrik yang dihasilkan dari tugas evaluasi.

  6. Lakukan iterasi pada model untuk melihat apakah Anda dapat meningkatkan akurasi model. Anda dapat menjalankan beberapa tugas evaluasi, dan membandingkan hasil dari beberapa tugas di berbagai model atau versi model.

Anda dapat menjalankan evaluasi model di Vertex AI dengan beberapa cara:

  • Buat evaluasi melalui Vertex AI Model Registry di Konsol Google Cloud.

  • Gunakan evaluasi model dari Vertex AI sebagai komponen pipeline dengan Vertex AI Pipelines. Anda dapat membuat operasi dan template pipeline yang menyertakan evaluasi model sebagai bagian dari alur kerja MLOps otomatis.

    Anda dapat menjalankan komponen evaluasi model sendiri, atau dengan komponen pipeline lainnya seperti komponen prediksi batch.

Vertex AI mendukung evaluasi jenis model berikut:

Gambar

Klasifikasi

Anda dapat melihat dan mendownload file skema dari lokasi Cloud Storage berikut:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: Area di bawah kurva presisi-perolehan (PR), juga disebut sebagai presisi rata-rata. Nilai ini memiliki rentang dari 0 sampai 1, dengan nilai yang lebih tinggi menunjukkan model yang berkualitas lebih tinggi.
  • Kerugian log: Entropi silang antara prediksi model dan nilai target. Nilai ini memiliki rentang dari 0 hingga tidak terbatas, dengan nilai yang lebih rendah menunjukkan model yang berkualitas lebih tinggi.
  • Nilai minimum keyakinan: Skor keyakinan yang menentukan prediksi yang akan ditampilkan. Model akan menampilkan prediksi yang berada pada nilai ini atau nilai yang lebih tinggi. Nilai minimum keyakinan yang lebih tinggi meningkatkan presisi, tetapi menurunkan perolehan. Vertex AI menampilkan metrik keyakinan pada berbagai nilai minimum untuk menunjukkan pengaruh nilai minimum terhadap presisi dan perolehan.
  • Perolehan: Fraksi prediksi dengan class ini yang diprediksi dengan benar oleh model. Perolehan disebut juga sebagai rasio positif benar.
  • Presisi: Bagian prediksi klasifikasi yang dihasilkan oleh model dengan benar.
  • Matriks konfusi: Matriks konfusi menunjukkan seberapa sering model memprediksi hasil dengan benar. Untuk hasil yang salah diprediksi, matriks akan menampilkan hasil yang diprediksi oleh model. Matriks konfusi ini membantu Anda memahami di bagian mana model Anda "kebingungan" membedakan dua hasil.

Berbentuk tabel

Klasifikasi

Anda dapat melihat dan mendownload file skema dari lokasi Cloud Storage berikut:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: Area di bawah kurva presisi-perolehan (PR), juga disebut sebagai presisi rata-rata. Nilai ini memiliki rentang dari 0 sampai 1, dengan nilai yang lebih tinggi menunjukkan model yang berkualitas lebih tinggi.
  • AuROC: Area di bawah kurva karakteristik operasi penerima. Nilai ini memiliki rentang dari 0 sampai 1, dengan nilai yang lebih tinggi menunjukkan model yang berkualitas lebih tinggi.
  • Kerugian log: Entropi silang antara prediksi model dan nilai target. Nilai ini memiliki rentang dari 0 hingga tidak terbatas, dengan nilai yang lebih rendah menunjukkan model yang berkualitas lebih tinggi.
  • Nilai minimum keyakinan: Skor keyakinan yang menentukan prediksi yang akan ditampilkan. Model akan menampilkan prediksi yang berada pada nilai ini atau nilai yang lebih tinggi. Nilai minimum keyakinan yang lebih tinggi meningkatkan presisi, tetapi menurunkan perolehan. Vertex AI menampilkan metrik keyakinan pada berbagai nilai minimum untuk menunjukkan pengaruh nilai minimum terhadap presisi dan perolehan.
  • Perolehan: Fraksi prediksi dengan class ini yang diprediksi dengan benar oleh model. Perolehan disebut juga sebagai rasio positif benar.
  • Perolehan pada nilai 1: Perolehan (rasio positif benar) ketika hanya mempertimbangkan label yang memiliki skor prediksi tertinggi dan tidak berada di bawah nilai minimum keyakinan untuk setiap contoh.
  • Presisi: Bagian prediksi klasifikasi yang dihasilkan oleh model dengan benar.
  • Presisi pada nilai 1: Presisi ketika hanya mempertimbangkan label yang memiliki skor prediksi tertinggi dan tidak berada di bawah nilai minimum keyakinan untuk setiap contoh.
  • Skor F1: Rata-rata harmonis dari presisi dan perolehan. F1 adalah metrik yang berguna jika Anda mencari keseimbangan antara presisi dan perolehan, dan ketika ada distribusi kelas yang tidak merata.
  • Skor F1 pada nilai 1: Rata-rata harmonis dari perolehan pada nilai 1 dan presisi pada nilai 1.
  • Matriks konfusi: Matriks konfusi menunjukkan seberapa sering model memprediksi hasil dengan benar. Untuk hasil yang salah diprediksi, matriks akan menampilkan hasil yang diprediksi oleh model. Matriks konfusi ini membantu Anda memahami di bagian mana model Anda "kebingungan" membedakan dua hasil.
  • Jumlah negatif benar: Berapa kali model memprediksi class negatif dengan benar.
  • Jumlah positif benar: Berapa kali model memprediksi kelas positif dengan benar.
  • Jumlah negatif palsu (NP): Berapa kali model salah memprediksi kelas negatif.
  • Jumlah positif palsu (PP): Berapa kali model salah memprediksi kelas positif.
  • Rasio positif palsu: Bagian hasil yang salah diprediksi dari semua hasil yang diprediksi.
  • Rasio positif palsu pada nilai 1: Rasio positif palsu jika hanya mempertimbangkan label yang memiliki skor prediksi tertinggi dan tidak berada di bawah nilai minimum keyakinan untuk setiap contoh.
  • Atribusi fitur model: Vertex AI menunjukkan dampak setiap fitur terhadap model. Nilai diberikan dalam bentuk persentase untuk setiap fitur: makin tinggi persentasenya, makin besar dampak fitur tersebut terhadap pelatihan model. Tinjau informasi ini untuk memastikan semua fitur yang paling penting telah sesuai untuk data dan masalah bisnis Anda.

Regresi

Anda dapat melihat dan mendownload file skema dari lokasi Cloud Storage berikut:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: Rata-rata error mutlak (MAE) adalah selisih mutlak rata-rata antara nilai target dan nilai yang diprediksi. Metrik ini memiliki rentang dari 0 hingga tidak terbatas, dengan nilai yang lebih rendah menunjukkan model yang berkualitas lebih tinggi.
  • RMSE: Galat akar rataan kuadrat adalah akar kuadrat dari rata-rata selisih kuadrat antara nilai target dan nilai yang diprediksi. RMSE lebih sensitif terhadap pencilan dibandingkan MAE. Jadi, jika Anda khawatir dengan galat yang besar, RMSE dapat menjadi metrik yang lebih berguna untuk dievaluasi. Serupa dengan MAE, nilai yang lebih kecil menunjukkan model yang berkualitas lebih tinggi (0 merepresentasikan prediktor sempurna).
  • RMSLE: Metrik galat logaritmik akar rataan kuadrat mirip dengan RMSE, tetapi metrik ini menggunakan logaritma natural dari nilai yang diprediksi dan nilai sebenarnya ditambah 1. RMSLE menindak prediksi yang kurang dengan lebih tegas daripada prediksi yang berlebihan. RMSLE juga dapat menjadi metrik yang sesuai jika Anda tidak ingin menindak selisih untuk nilai prediksi yang besar dengan lebih tegas daripada nilai prediksi yang kecil. Metrik ini memiliki rentang dari 0 hingga tidak terbatas, dengan nilai yang lebih rendah menunjukkan model yang berkualitas lebih tinggi. Metrik evaluasi RMSLE hanya ditampilkan jika semua label dan nilai yang diprediksi tidak negatif.
  • r^2: r kuadrat (r^2) adalah kuadrat dari koefisien korelasi Pearson antara label dan nilai yang diprediksi. Metrik ini memiliki rentang antara 0 dan 1. Nilai yang lebih tinggi menunjukkan kecocokan yang lebih dekat dengan garis regresi.
  • MAPE: Rataan galat persentase mutlak (MAPE) adalah selisih rata-rata persentase mutlak antara label dan nilai yang diprediksi. Metrik ini memiliki rentang antara nol dan tidak terbatas, dengan nilai yang lebih rendah menunjukkan model yang berkualitas lebih tinggi.
    MAPE tidak ditampilkan jika kolom target berisi nilai 0. Dalam hal ini, MAPE tidak terdefinisi.
  • Atribusi fitur model: Vertex AI menunjukkan dampak setiap fitur terhadap model. Nilai diberikan dalam bentuk persentase untuk setiap fitur: makin tinggi persentasenya, makin besar dampak fitur tersebut terhadap pelatihan model. Tinjau informasi ini untuk memastikan semua fitur yang paling penting telah sesuai untuk data dan masalah bisnis Anda.

Prakiraan

Anda dapat melihat dan mendownload file skema dari lokasi Cloud Storage berikut:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: Rata-rata error mutlak (MAE) adalah selisih mutlak rata-rata antara nilai target dan nilai yang diprediksi. Metrik ini memiliki rentang dari 0 hingga tidak terbatas, dengan nilai yang lebih rendah menunjukkan model yang berkualitas lebih tinggi.
  • RMSE: Galat akar rataan kuadrat adalah akar kuadrat dari rata-rata selisih kuadrat antara nilai target dan nilai yang diprediksi. RMSE lebih sensitif terhadap pencilan dibandingkan MAE. Jadi, jika Anda khawatir dengan galat yang besar, RMSE dapat menjadi metrik yang lebih berguna untuk dievaluasi. Serupa dengan MAE, nilai yang lebih kecil menunjukkan model yang berkualitas lebih tinggi (0 merepresentasikan prediktor sempurna).
  • RMSLE: Metrik galat logaritmik akar rataan kuadrat mirip dengan RMSE, tetapi metrik ini menggunakan logaritma natural dari nilai yang diprediksi dan nilai sebenarnya ditambah 1. RMSLE menindak prediksi yang kurang dengan lebih tegas daripada prediksi yang berlebihan. RMSLE juga dapat menjadi metrik yang sesuai jika Anda tidak ingin menindak selisih untuk nilai prediksi yang besar dengan lebih tegas daripada nilai prediksi yang kecil. Metrik ini memiliki rentang dari 0 hingga tidak terbatas, dengan nilai yang lebih rendah menunjukkan model yang berkualitas lebih tinggi. Metrik evaluasi RMSLE hanya ditampilkan jika semua label dan nilai yang diprediksi tidak negatif.
  • r^2: r kuadrat (r^2) adalah kuadrat dari koefisien korelasi Pearson antara label dan nilai yang diprediksi. Metrik ini memiliki rentang antara 0 dan 1. Nilai yang lebih tinggi menunjukkan kecocokan yang lebih dekat dengan garis regresi.
  • MAPE: Rataan galat persentase mutlak (MAPE) adalah selisih rata-rata persentase mutlak antara label dan nilai yang diprediksi. Metrik ini memiliki rentang antara nol dan tidak terbatas, dengan nilai yang lebih rendah menunjukkan model yang berkualitas lebih tinggi.
    MAPE tidak ditampilkan jika kolom target berisi nilai 0. Dalam hal ini, MAPE tidak terdefinisi.
  • WAPE: Error persentase mutlak tertimbang (WAPE) adalah selisih keseluruhan antara nilai yang diprediksi oleh model dan nilai yang diamati pada nilai teramati. Dibandingkan dengan RMSE, WAPE ditimbang berdasarkan selisih keseluruhan, bukan selisih individual, yang dapat sangat dipengaruhi oleh nilai yang rendah atau terputus-putus. Nilai yang lebih rendah menunjukkan model dengan kualitas yang lebih tinggi.
  • RMSPE: Error persentase akar rata-rata kuadrat (RMPSE) menampilkan RMSE sebagai persentase dari nilai sebenarnya, bukan angka mutlak. Nilai yang lebih rendah menunjukkan model dengan kualitas yang lebih tinggi.
  • Kuantil: Kuantil persen, yang menunjukkan probabilitas bahwa nilai teramati akan lebih rendah dari nilai yang diprediksi. Misalnya, pada kuantil 0,5, nilai teramati diharapkan lebih rendah dari nilai yang diprediksi 50% dari waktu tersebut.
  • Kuantil teramati: Menampilkan persentase nilai sebenarnya yang lebih kecil dari nilai yang diprediksi untuk kuantil tertentu.
  • Kerugian pinball dalam skala besar: Kerugian pinball yang diskalakan pada kuantil tertentu. Nilai yang lebih rendah menunjukkan model dengan kualitas lebih tinggi pada kuantil tertentu.

Text

Klasifikasi

Anda dapat melihat dan mendownload file skema dari lokasi Cloud Storage berikut:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: Area di bawah kurva presisi-perolehan (PR), juga disebut sebagai presisi rata-rata. Nilai ini memiliki rentang dari 0 sampai 1, dengan nilai yang lebih tinggi menunjukkan model yang berkualitas lebih tinggi.
  • Kerugian log: Entropi silang antara prediksi model dan nilai target. Nilai ini memiliki rentang dari 0 hingga tidak terbatas, dengan nilai yang lebih rendah menunjukkan model yang berkualitas lebih tinggi.
  • Nilai minimum keyakinan: Skor keyakinan yang menentukan prediksi yang akan ditampilkan. Model akan menampilkan prediksi yang berada pada nilai ini atau nilai yang lebih tinggi. Nilai minimum keyakinan yang lebih tinggi meningkatkan presisi, tetapi menurunkan perolehan. Vertex AI menampilkan metrik keyakinan pada berbagai nilai minimum untuk menunjukkan pengaruh nilai minimum terhadap presisi dan perolehan.
  • Perolehan: Fraksi prediksi dengan class ini yang diprediksi dengan benar oleh model. Perolehan disebut juga sebagai rasio positif benar.
  • Perolehan pada nilai 1: Perolehan (rasio positif benar) ketika hanya mempertimbangkan label yang memiliki skor prediksi tertinggi dan tidak berada di bawah nilai minimum keyakinan untuk setiap contoh.
  • Presisi: Bagian prediksi klasifikasi yang dihasilkan oleh model dengan benar.
  • Presisi di 1: Presisi ketika hanya mempertimbangkan label yang memiliki skor prediksi tertinggi dan tidak berada di bawah nilai minimum keyakinan untuk setiap contoh.
  • Matriks konfusi: Matriks konfusi menunjukkan seberapa sering model memprediksi hasil dengan benar. Untuk hasil yang salah diprediksi, matriks akan menampilkan hasil yang diprediksi oleh model. Matriks konfusi ini membantu Anda memahami di bagian mana model Anda "kebingungan" membedakan dua hasil.
  • Skor F1: Rata-rata harmonis dari presisi dan perolehan. F1 adalah metrik yang berguna jika Anda mencari keseimbangan antara presisi dan perolehan, dan ketika ada distribusi kelas yang tidak merata.
  • Skor F1 pada nilai 1: Rata-rata harmonis dari perolehan pada nilai 1 dan presisi pada nilai 1.

Video

Klasifikasi

Anda dapat melihat dan mendownload file skema dari lokasi Cloud Storage berikut:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: Area di bawah kurva presisi-perolehan (PR), juga disebut sebagai presisi rata-rata. Nilai ini memiliki rentang dari nol sampai satu, dengan nilai yang lebih tinggi menunjukkan model yang berkualitas lebih tinggi.
  • Nilai minimum keyakinan: Skor keyakinan yang menentukan prediksi yang akan ditampilkan. Model akan menampilkan prediksi yang berada pada nilai ini atau nilai yang lebih tinggi. Nilai minimum keyakinan yang lebih tinggi meningkatkan presisi, tetapi menurunkan perolehan. Vertex AI menampilkan metrik keyakinan pada berbagai nilai minimum untuk menunjukkan pengaruh nilai minimum terhadap presisi dan perolehan.
  • Perolehan: Fraksi prediksi dengan class ini yang diprediksi dengan benar oleh model. Perolehan disebut juga sebagai rasio positif benar.
  • Presisi: Bagian prediksi klasifikasi yang dihasilkan oleh model dengan benar.
  • Matriks konfusi: Matriks konfusi menunjukkan seberapa sering model memprediksi hasil dengan benar. Untuk hasil yang salah diprediksi, matriks akan menampilkan hasil yang diprediksi oleh model. Matriks konfusi ini membantu Anda memahami di bagian mana model Anda "kebingungan" membedakan dua hasil.
  • Skor F1: Rata-rata harmonis dari presisi dan perolehan. F1 adalah metrik yang berguna jika Anda mencari keseimbangan antara presisi dan perolehan, serta ada distribusi class yang tidak rata.

Tutorial notebook

AutoML: Tabular

AutoML: Text

AutoML: Video

Pelatihan kustom: Tabular

Vertex AI Model Registry

Langkah selanjutnya