Ringkasan evaluasi model ML BigQuery

Dokumen ini menjelaskan cara BigQuery ML mendukung evaluasi model machine learning (ML).

Ringkasan evaluasi model

Anda dapat menggunakan metrik evaluasi model ML untuk tujuan berikut:

  • Untuk menilai kualitas kecocokan antara model dan data.
  • Untuk membandingkan berbagai model.
  • Untuk memprediksi seberapa akurat Anda dapat mengharapkan setiap model berperforma pada set data tertentu, dalam konteks pemilihan model.

Evaluasi model pembelajaran yang diawasi dan tidak diawasi berfungsi secara berbeda:

  • Untuk model pembelajaran yang diawasi, evaluasi model sudah ditentukan dengan baik. Set evaluasi, yang merupakan data yang belum dianalisis oleh model, biasanya dikecualikan dari set pelatihan, lalu digunakan untuk mengevaluasi performa model. Sebaiknya Anda tidak menggunakan set pelatihan untuk evaluasi karena hal ini menyebabkan model berperforma buruk saat melakukan generalisasi hasil prediksi untuk data baru. Hasil ini dikenal sebagai overfitting.
  • Untuk model pembelajaran yang tidak diawasi, evaluasi model kurang ditentukan dan biasanya bervariasi dari satu model ke model lainnya. Karena model pembelajaran yang tidak diawasi tidak mencadangkan kumpulan evaluasi, metrik evaluasi dihitung menggunakan seluruh set data input.

Untuk mengetahui informasi tentang pernyataan dan fungsi SQL yang didukung pada setiap jenis model, lihat Perjalanan pengguna menyeluruh untuk setiap model.

Penawaran evaluasi model

BigQuery ML menyediakan fungsi berikut untuk menghitung metrik evaluasi untuk model ML:

Kategori model Jenis model Fungsi evaluasi model Yang dilakukan fungsi
Pembelajaran yang diawasi Regresi linear

Regresor hierarki yang ditingkatkan

Regresor hutan acak

Regresor DNN

Regresor wide and deep

Regresor AutoML Tables
ML.EVALUATE Melaporkan metrik berikut:
  • rataan error absolut
  • rataan kuadrat galat (RKG)
  • rataan kuadrat error log
  • rataan error absolut
  • skor r2
  • varians yang dijelaskan
Regresi logistik

Pengklasifikasi hierarki yang ditingkatkan

Pengklasifikasi hutan acak

Pengklasifikasi DNN

Pengklasifikasi wide and deep

Pengklasifikasi AutoML Tables
ML.EVALUATE Melaporkan metrik berikut:
  • presisi
  • perolehan
  • akurasi
  • skor F1
  • kerugian log
  • roc auc
ML.CONFUSION_MATRIX Melaporkan matriks konfusi.
ML.ROC_CURVE Melaporkan metrik untuk nilai minimum yang berbeda, termasuk metrik berikut:
  • perolehan
  • rasio positif palsu
  • positif benar
  • positif palsu (PP)
  • negatif benar
  • negatif palsu (NP)

Hanya berlaku untuk model klasifikasi kelas biner.
Pembelajaran yang tidak diawasi K-means ML.EVALUATE Melaporkan indeks Davies-Bouldin, dan jarak rata-rata kuadrat antara titik data dan sentroid cluster yang ditetapkan.
Faktorisasi matriks ML.EVALUATE Untuk model berbasis masukan eksplisit, laporkan metrik berikut:
  • rataan error absolut
  • rataan kuadrat galat (RKG)
  • rataan kuadrat error log
  • rataan error absolut
  • skor r2
  • varians yang dijelaskan
Untuk model berbasis masukan implisit, melaporkan metrik berikut:
PCA ML.EVALUATE Melaporkan total rasio varians yang dijelaskan.
Autoencoder ML.EVALUATE Melaporkan metrik berikut:
  • rataan error absolut
  • rataan kuadrat galat (RKG)
  • rataan kuadrat error log
Deret waktu ARIMA_PLUS ML.EVALUATE Melaporkan metrik berikut:
  • rataan error absolut
  • rataan kuadrat galat (RKG)
  • rata-rata error persentase absolut
  • rata-rata error persentase absolut simetris

Fungsi ini memerlukan data baru sebagai input.
ML.ARIMA_EVALUATE Melaporkan metrik berikut untuk semua model kandidat ARIMA yang ditandai dengan tuple (p, d, q, has_drift) yang berbeda:

Laporan ini juga melaporkan informasi lain tentang tren musiman, efek musim liburan, serta pencilan lonjakan dan penurunan.

Fungsi ini tidak memerlukan data baru sebagai input.

Evaluasi otomatis dalam pernyataan CREATE MODEL

BigQuery ML mendukung evaluasi otomatis selama pembuatan model. Bergantung pada jenis model, opsi pelatihan pemisahan data, dan apakah Anda menggunakan penyesuaian hyperparameter, metrik evaluasi dihitung berdasarkan set data evaluasi yang direservasi, set data pengujian yang direservasi, atau seluruh input set data.

  • Untuk model k-means, PCA, autoencoder, dan ARIMA_PLUS, BigQuery ML menggunakan semua data input sebagai data pelatihan, dan metrik evaluasi dihitung terhadap seluruh set data input.

  • Untuk model regresi linier dan logistik, hierarki yang ditingkatkan, hutan acak, DNN, Wide and deep, serta faktorisasi matriks, metrik evaluasi dihitung berdasarkan set data yang ditentukan oleh opsi CREATE MODEL berikut:

    Saat Anda melatih jenis model ini menggunakan penyesuaian hyperparameter, opsi DATA_SPLIT_TEST_FRACTION juga akan membantu menentukan set data yang digunakan untuk menghitung metrik evaluasi. Untuk mengetahui informasi selengkapnya, lihat Pemisahan data.

  • Untuk model AutoML Tables, lihat cara pemisahan data digunakan untuk pelatihan dan evaluasi.

Untuk mendapatkan metrik evaluasi yang dihitung selama pembuatan model, gunakan fungsi evaluasi seperti ML.EVALUATE pada model tanpa menentukan data input. Sebagai contoh, lihat ML.EVALUATE tanpa menentukan data input.

Evaluasi dengan set data baru

Setelah pembuatan model, Anda dapat menentukan set data baru untuk evaluasi. Untuk memberikan set data baru, gunakan fungsi evaluasi seperti ML.EVALUATE pada model dengan data input yang ditentukan. Sebagai contoh, lihat ML.EVALUATE dengan batas khusus dan data input.