Ringkasan evaluasi model ML BigQuery

Dokumen ini menjelaskan cara BigQuery ML mendukung evaluasi model machine learning (ML).

Ringkasan evaluasi model

Anda dapat menggunakan metrik evaluasi model ML untuk tujuan berikut:

Untuk menilai kualitas kecocokan antara model dan data.
Untuk membandingkan berbagai model.
Untuk memprediksi seberapa akurat Anda dapat mengharapkan setiap model berperforma pada set data tertentu, dalam konteks pemilihan model.

Evaluasi model pembelajaran yang diawasi dan tidak diawasi berfungsi secara berbeda:

Untuk model pembelajaran yang diawasi, evaluasi model sudah ditentukan dengan baik. Set evaluasi, yang merupakan data yang belum dianalisis oleh model, biasanya dikecualikan dari set pelatihan, lalu digunakan untuk mengevaluasi performa model. Sebaiknya Anda tidak menggunakan set pelatihan untuk evaluasi karena hal ini menyebabkan model berperforma buruk saat melakukan generalisasi hasil prediksi untuk data baru. Hasil ini dikenal sebagai overfitting.
Untuk model pembelajaran yang tidak diawasi, evaluasi model kurang ditentukan dan biasanya bervariasi dari satu model ke model lainnya. Karena model pembelajaran yang tidak diawasi tidak mencadangkan kumpulan evaluasi, metrik evaluasi dihitung menggunakan seluruh set data input.

Untuk mengetahui informasi tentang pernyataan dan fungsi SQL yang didukung pada setiap jenis model, lihat Perjalanan pengguna menyeluruh untuk setiap model.

Penawaran evaluasi model

BigQuery ML menyediakan fungsi berikut untuk menghitung metrik evaluasi untuk model ML:

Kategori model	Jenis model	Fungsi evaluasi model	Yang dilakukan fungsi
Pembelajaran yang diawasi	Regresi linear Regresor hierarki yang ditingkatkan Regresor hutan acak Regresor DNN Regresor wide and deep Regresor AutoML Tables	`ML.EVALUATE`	Melaporkan metrik berikut: rataan error absolut rataan kuadrat galat (RKG) rataan kuadrat error log rataan error absolut skor r2 varians yang dijelaskan
	Regresi logistik Pengklasifikasi hierarki yang ditingkatkan Pengklasifikasi hutan acak Pengklasifikasi DNN Pengklasifikasi wide and deep Pengklasifikasi AutoML Tables	`ML.EVALUATE`	Melaporkan metrik berikut: presisi perolehan akurasi skor F1 kerugian log roc auc
		`ML.CONFUSION_MATRIX`	Melaporkan matriks konfusi.
		`ML.ROC_CURVE`	Melaporkan metrik untuk nilai minimum yang berbeda, termasuk metrik berikut: perolehan rasio positif palsu positif benar positif palsu (PP) negatif benar negatif palsu (NP) Hanya berlaku untuk model klasifikasi kelas biner.
Pembelajaran yang tidak diawasi	K-means	`ML.EVALUATE`	Melaporkan indeks Davies-Bouldin, dan jarak rata-rata kuadrat antara titik data dan sentroid cluster yang ditetapkan.
	Faktorisasi matriks	`ML.EVALUATE`	Untuk model berbasis masukan eksplisit, laporkan metrik berikut: rataan error absolut rataan kuadrat galat (RKG) rataan kuadrat error log rataan error absolut skor r2 varians yang dijelaskan
	Faktorisasi matriks	`ML.EVALUATE`	Untuk model berbasis masukan implisit, melaporkan metrik berikut: presisi rata-rata rataan kuadrat galat (RKG) perolehan kumulatif setelah diskon yang dinormalisasi peringkat rata-rata
	PCA	`ML.EVALUATE`	Melaporkan total rasio varians yang dijelaskan.
	Autoencoder	`ML.EVALUATE`	Melaporkan metrik berikut: rataan error absolut rataan kuadrat galat (RKG) rataan kuadrat error log
Deret waktu	ARIMA_PLUS	`ML.EVALUATE`	Melaporkan metrik berikut: rataan error absolut rataan kuadrat galat (RKG) rata-rata error persentase absolut rata-rata error persentase absolut simetris Fungsi ini memerlukan data baru sebagai input.
Deret waktu	ARIMA_PLUS	`ML.ARIMA_EVALUATE`	Melaporkan metrik berikut untuk semua model kandidat ARIMA yang ditandai dengan tuple (p, d, q, has_drift) yang berbeda: log_likelihood AIC varians Laporan ini juga melaporkan informasi lain tentang tren musiman, efek musim liburan, serta pencilan lonjakan dan penurunan. Fungsi ini tidak memerlukan data baru sebagai input.

Evaluasi otomatis dalam pernyataan `CREATE MODEL`

BigQuery ML mendukung evaluasi otomatis selama pembuatan model. Bergantung pada jenis model, opsi pelatihan pemisahan data, dan apakah Anda menggunakan penyesuaian hyperparameter, metrik evaluasi dihitung berdasarkan set data evaluasi yang direservasi, set data pengujian yang direservasi, atau seluruh input set data.

Untuk model k-means, PCA, autoencoder, dan ARIMA_PLUS, BigQuery ML menggunakan semua data input sebagai data pelatihan, dan metrik evaluasi dihitung terhadap seluruh set data input.
Untuk model regresi linier dan logistik, hierarki yang ditingkatkan, hutan acak, DNN, Wide and deep, serta faktorisasi matriks, metrik evaluasi dihitung berdasarkan set data yang ditentukan oleh opsi CREATE MODEL berikut:
Saat Anda melatih jenis model ini menggunakan penyesuaian hyperparameter, opsi DATA_SPLIT_TEST_FRACTION juga akan membantu menentukan set data yang digunakan untuk menghitung metrik evaluasi. Untuk mengetahui informasi selengkapnya, lihat Pemisahan data.
Untuk model AutoML Tables, lihat cara pemisahan data digunakan untuk pelatihan dan evaluasi.

Untuk mendapatkan metrik evaluasi yang dihitung selama pembuatan model, gunakan fungsi evaluasi seperti ML.EVALUATE pada model tanpa menentukan data input. Sebagai contoh, lihat ML.EVALUATE tanpa menentukan data input.

Evaluasi dengan set data baru

Setelah pembuatan model, Anda dapat menentukan set data baru untuk evaluasi. Untuk memberikan set data baru, gunakan fungsi evaluasi seperti ML.EVALUATE pada model dengan data input yang ditentukan. Sebagai contoh, lihat ML.EVALUATE dengan batas khusus dan data input.

Ringkasan evaluasi model ML BigQuery