Membuat model machine learning di BigQuery ML
Tutorial ini memperkenalkan BigQuery ML kepada pengguna menggunakan konsol Google Cloud.
Dengan BigQuery ML, pengguna dapat membuat dan menjalankan model machine learning di BigQuery dengan menggunakan kueri SQL dan kode Python. Tujuannya adalah mendemokrasikan machine learning dengan memungkinkan praktisi SQL membuat model menggunakan alat yang ada dan meningkatkan kecepatan pengembangan dengan meniadakan kebutuhan akan perpindahan data.
Dalam tutorial ini, Anda akan menggunakan contoh set data contoh Google Analytics untuk BigQuery untuk membuat model yang memprediksi apakah pengunjung situs akan melakukan transaksi atau tidak. Untuk mendapatkan informasi tentang skema set data Analytics, lihat skema BigQuery Export di Pusat Bantuan Analytics.
Tujuan
Dalam tutorial ini, Anda akan menggunakan:
- BigQuery ML untuk membuat model regresi logistik biner menggunakan
pernyataan
CREATE MODEL
- Fungsi
ML.EVALUATE
untuk mengevaluasi model ML - Fungsi
ML.PREDICT
untuk membuat prediksi menggunakan model ML
Biaya
Tutorial ini menggunakan komponen Google Cloud yang dapat dikenai biaya, termasuk:
- BigQuery
- BigQuery ML
Untuk informasi selengkapnya tentang biaya BigQuery, lihat halaman harga BigQuery.
Untuk informasi selengkapnya tentang biaya BigQuery ML, lihat harga BigQuery ML.
Sebelum memulai
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
- BigQuery secara otomatis diaktifkan dalam project baru.
Untuk mengaktifkan BigQuery dalam project yang sudah ada, buka
Aktifkan API BigQuery.
Buat set data Anda
Buat set data BigQuery untuk menyimpan model ML Anda:
Di konsol Google Cloud, buka halaman BigQuery.
Di panel Explorer, klik nama project Anda.
Klik
View actions > Create dataset.Di halaman Create dataset, lakukan hal berikut:
Untuk Dataset ID, masukkan
bqml_tutorial
.Untuk Location type, pilih Multi-region, lalu pilih US (multiple regions in United States).
Set data publik disimpan di
US
multi-region. Untuk mempermudah, simpan set data Anda di lokasi yang sama.Jangan ubah setelan default yang tersisa, lalu klik Create dataset.
Buat model
Selanjutnya, Anda membuat model regresi logistik menggunakan set data contoh Analytics untuk BigQuery.
SQL
Kueri GoogleSQL berikut digunakan untuk membuat model yang Anda gunakan untuk memprediksi apakah pengunjung situs akan melakukan transaksi.
#standardSQL CREATE MODEL `bqml_tutorial.sample_model` OPTIONS(model_type='logistic_reg') AS SELECT IF(totals.transactions IS NULL, 0, 1) AS label, IFNULL(device.operatingSystem, "") AS os, device.isMobile AS is_mobile, IFNULL(geoNetwork.country, "") AS country, IFNULL(totals.pageviews, 0) AS pageviews FROM `bigquery-public-data.google_analytics_sample.ga_sessions_*` WHERE _TABLE_SUFFIX BETWEEN '20160801' AND '20170630'
Selain membuat model, menjalankan kueri yang berisi pernyataan CREATE MODEL
akan melatih model menggunakan data yang diambil oleh pernyataan SELECT
kueri Anda.
Detail kueri
Klausa CREATE MODEL
digunakan untuk membuat dan melatih model bernama bqml_tutorial.sample_model
.
Klausa OPTIONS(model_type='logistic_reg')
menunjukkan bahwa Anda membuat
model regresi logistik.
Model regresi logistik mencoba membagi data input menjadi dua class dan memberikan
probabilitas bahwa data tersebut berada dalam salah satu class. Biasanya, hal yang ingin Anda
deteksi (misalnya apakah email adalah spam) diwakili oleh 1 dan
yang lainnya diwakili oleh 0. Jika model regresi logistik menghasilkan output
sebesar 0,9, terdapat 90% probabilitas input tersebut adalah apa yang Anda coba deteksi
(email adalah spam).
Pernyataan SELECT
kueri ini mengambil kolom berikut yang digunakan oleh
model untuk memprediksi probabilitas pelanggan akan menyelesaikan transaksi:
totals.transactions
— Jumlah total transaksi e-commerce dalam sesi. Jika jumlah transaksi adalahNULL
, maka nilai dalam kolomlabel
ditetapkan ke0
. Jika tidak, nilai ini akan ditetapkan ke1
. Nilai-nilai ini mewakili kemungkinan hasil. Membuat alias bernamalabel
merupakan alternatif untuk menyetel opsiinput_label_cols=
dalam pernyataanCREATE MODEL
.device.operatingSystem
— Sistem operasi perangkat pengunjung.device.isMobile
— Menunjukkan apakah perangkat pengunjung adalah perangkat seluler.geoNetwork.country
— Negara tempat sesi berasal, berdasarkan alamat IP.totals.pageviews
— Jumlah total tayangan halaman dalam sesi.
Klausa FROM
— bigquery-public-data.google_analytics_sample.ga_sessions_*
— menunjukkan bahwa Anda membuat kueri set data sampel Google Analytics.
Set data ini ada dalam project bigquery-public-data
. Anda membuat kueri terhadap kumpulan
tabel yang di-sharding berdasarkan tanggal. ini direpresentasikan oleh karakter pengganti dalam nama tabel:
google_analytics_sample.ga_sessions_*
.
Klausa WHERE
— _TABLE_SUFFIX BETWEEN '20160801' AND '20170630'
— membatasi jumlah tabel yang dipindai oleh kueri. Rentang tanggal
yang dipindai adalah 1 Agustus 2016 hingga 30 Juni 2017.
Menjalankan kueri CREATE MODEL
Untuk menjalankan kueri CREATE MODEL
guna membuat dan melatih model Anda:
- Di konsol Google Cloud, klik tombol Buat kueri baru. Jika teks ini tidak tersedia untuk diklik, berarti Editor kueri sudah terbuka.
Masukkan kueri GoogleSQL berikut di area teks Editor kueri.
#standardSQL CREATE MODEL `bqml_tutorial.sample_model` OPTIONS(model_type='logistic_reg') AS SELECT IF(totals.transactions IS NULL, 0, 1) AS label, IFNULL(device.operatingSystem, "") AS os, device.isMobile AS is_mobile, IFNULL(geoNetwork.country, "") AS country, IFNULL(totals.pageviews, 0) AS pageviews FROM `bigquery-public-data.google_analytics_sample.ga_sessions_*` WHERE _TABLE_SUFFIX BETWEEN '20160801' AND '20170630'
Klik Run.
Kueri membutuhkan waktu beberapa menit hingga selesai. Setelah iterasi pertama selesai, model Anda (
sample_model
) akan muncul di panel navigasi. Kueri ini menggunakan pernyataanCREATE MODEL
untuk membuat model, maka Anda tidak akan melihat hasil kueri.Anda dapat mengamati model saat sedang dilatih dengan melihat tab Statistik model. Segera setelah iterasi pertama selesai, tab akan diupdate. Statistik akan terus diupdate saat setiap iterasi selesai.
DataFrame BigQuery
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan DataFrames BigQuery di panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.
Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Mendapatkan statistik pelatihan
Untuk melihat hasil pelatihan model, Anda dapat menggunakan
fungsi ML.TRAINING_INFO
,
atau Anda dapat melihat statistik di konsol Google Cloud. Dalam tutorial
ini, Anda akan menggunakan konsol Google Cloud.
Machine learning berfokus pada membuat model yang dapat menggunakan data untuk membuat prediksi. Model ini pada dasarnya adalah fungsi yang mengambil input dan menerapkan kalkulasi ke input untuk menghasilkan output, yaitu prediksi.
Algoritma machine learning bekerja dengan mengambil beberapa contoh yang prediksinya sudah diketahui (seperti data historis pembelian pengguna) dan secara berulang menyesuaikan berbagai bobot dalam model sehingga prediksi model cocok dengan nilai sebenarnya. Hal ini dilakukan dengan meminimalkan seberapa salah model menggunakan metrik yang disebut kerugian.
Untuk setiap iterasi, kerugiannya harus berkurang (idealnya ke nol). Jika kerugian bernilai nol, berarti model 100% akurat.
Untuk melihat statistik pelatihan model yang dihasilkan saat Anda menjalankan
kueri CREATE MODEL
:
Pada panel navigasi konsol Google Cloud, di bagian Resource, luaskan [PROJECT_ID] > bqml_tutorial, lalu klik sample_model.
Klik tab Statistik Model. Hasilnya akan terlihat seperti berikut:
Kolom Kerugian Data Pelatihan menunjukkan metrik kerugian yang dihitung setelah iterasi yang ditentukan pada set data pelatihan. Anda melakukan regresi logistik, maka kolom ini adalah kerugian log. Kolom Kerugian Data Evaluasi adalah metrik kerugian yang sama yang dihitung pada set data holdout (data yang ditahan dari pelatihan untuk memvalidasi model).
BigQuery ML membagi data input Anda secara otomatis menjadi set pelatihan dan set holdout untuk menghindari model overfitting. Hal ini diperlukan agar algoritma pelatihan tidak terlalu menyesuaikan dengan data yang diketahui, sehingga tidak digeneralisasi menjadi contoh baru yang tidak terlihat.
Kebocoran Data Pelatihan dan Kebocoran Data Evaluasi adalah nilai kerugian rata-rata, yang dirata-ratakan dari semua contoh dalam set masing-masing.
Untuk detail selengkapnya tentang fungsi
ML.TRAINING_INFO
, lihat Referensi Sintaksis BigQuery ML.
Mengevaluasi model Anda
Setelah membuat model, Anda mengevaluasi performa pengklasifikasi menggunakan
fungsi ML.EVALUATE
. Fungsi ML.EVALUATE
mengevaluasi nilai yang diprediksi
terhadap data sebenarnya. Untuk menghitung metrik khusus regresi logistik, gunakan fungsi SQL ML.ROC_CURVE
atau fungsi BigQuery DataFrames bigframes.ml.metrics.roc_curve
.
Dalam tutorial ini, Anda menggunakan model klasifikasi biner yang
mendeteksi transaksi. Kedua class tersebut adalah nilai dalam kolom label
:
0
(tanpa transaksi) dan 1
(transaksi yang dilakukan).
SQL
Kueri yang digunakan untuk mengevaluasi model adalah sebagai berikut:
#standardSQL SELECT * FROM ML.EVALUATE(MODEL `bqml_tutorial.sample_model`, ( SELECT IF(totals.transactions IS NULL, 0, 1) AS label, IFNULL(device.operatingSystem, "") AS os, device.isMobile AS is_mobile, IFNULL(geoNetwork.country, "") AS country, IFNULL(totals.pageviews, 0) AS pageviews FROM `bigquery-public-data.google_analytics_sample.ga_sessions_*` WHERE _TABLE_SUFFIX BETWEEN '20170701' AND '20170801'))
Detail kueri
Pernyataan SELECT
paling atas mengambil kolom dari model Anda.
Klausa FROM
menggunakan fungsi ML.EVALUATE
terhadap model Anda: bqml_tutorial.sample_model
.
Pernyataan SELECT
dan klausa FROM
bertingkat dari kueri ini sama dengan
pernyataan dalam kueri CREATE MODEL
.
Klausa WHERE
— _TABLE_SUFFIX BETWEEN '20170701' AND '20170801'
— membatasi jumlah tabel yang dipindai oleh kueri. Rentang tanggal
yang dipindai adalah 1 Juli 2017 hingga 1 Agustus 2017. Ini adalah data yang Anda gunakan untuk
mengevaluasi performa prediktif model. Data ini dikumpulkan pada bulan
segera setelah jangka waktu yang mencakup data pelatihan.
Menjalankan kueri ML.EVALUATE
Untuk menjalankan kueri ML.EVALUATE
yang mengevaluasi model:
Di konsol Google Cloud, klik tombol Buat kueri baru.
Masukkan kueri GoogleSQL berikut di area teks Query editor.
#standardSQL SELECT * FROM ML.EVALUATE(MODEL `bqml_tutorial.sample_model`, ( SELECT IF(totals.transactions IS NULL, 0, 1) AS label, IFNULL(device.operatingSystem, "") AS os, device.isMobile AS is_mobile, IFNULL(geoNetwork.country, "") AS country, IFNULL(totals.pageviews, 0) AS pageviews FROM `bigquery-public-data.google_analytics_sample.ga_sessions_*` WHERE _TABLE_SUFFIX BETWEEN '20170701' AND '20170801'))
Klik Run.
Setelah kueri selesai, klik tab Results di bawah area teks kueri. Hasilnya akan terlihat seperti berikut:
+--------------------+---------------------+--------------------+--------------------+---------------------+----------+ | precision | recall | accuracy | f1_score | log_loss | roc_auc | +--------------------+---------------------+--------------------+--------------------+---------------------+----------+ | 0.4451901565995526 | 0.08879964301651048 | 0.9716829479411401 | 0.1480654761904762 | 0.07921781778780206 | 0.970706 | +--------------------+---------------------+--------------------+--------------------+---------------------+----------+
Anda melakukan regresi logistik, hasilnya mencakup kolom berikut:
precision
— Metrik untuk model klasifikasi. Presisi mengidentifikasi frekuensi terkait apakah model benar saat memprediksi class positif.recall
— Metrik untuk model klasifikasi yang menjawab pertanyaan berikut: Dari semua kemungkinan label positif, berapa banyak model yang diidentifikasi dengan benar?accuracy
— Akurasi adalah fraksi prediksi yang dilakukan model klasifikasi dengan benar.f1_score
— Ukuran akurasi model. Skor f1 adalah rata-rata harmonik presisi dan perolehan. Nilai terbaik skor f1 adalah 1. Nilai terburuk adalah 0.log_loss
— Fungsi kerugian yang digunakan dalam regresi logistik. Ini adalah ukuran seberapa jauh prediksi model dari label yang benar.roc_auc
— Area di bawah kurva ROC. Ini adalah probabilitas bahwa pengklasifikasi lebih yakin bahwa contoh positif yang dipilih secara acak sebenarnya positif daripada contoh negatif yang dipilih secara acak adalah positif. Untuk mengetahui informasi selengkapnya, lihat Klasifikasi di Kursus Singkat Machine Learning.
DataFrame BigQuery
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan DataFrames BigQuery di panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.
Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Gunakan model Anda untuk memprediksi hasil
Setelah mengevaluasi model, langkah berikutnya adalah menggunakannya untuk memprediksi hasil. Anda menggunakan model untuk memprediksi jumlah transaksi yang dilakukan oleh pengunjung situs dari setiap negara.
SQL
Kueri yang digunakan untuk memprediksi hasilnya adalah sebagai berikut:
#standardSQL SELECT country, SUM(predicted_label) as total_predicted_purchases FROM ML.PREDICT(MODEL `bqml_tutorial.sample_model`, ( SELECT IFNULL(device.operatingSystem, "") AS os, device.isMobile AS is_mobile, IFNULL(totals.pageviews, 0) AS pageviews, IFNULL(geoNetwork.country, "") AS country FROM `bigquery-public-data.google_analytics_sample.ga_sessions_*` WHERE _TABLE_SUFFIX BETWEEN '20170701' AND '20170801')) GROUP BY country ORDER BY total_predicted_purchases DESC LIMIT 10
Detail kueri
Pernyataan SELECT
paling atas mengambil kolom country
dan menjumlahkan
kolom predicted_label
. Kolom ini dihasilkan oleh fungsi ML.PREDICT
.
Saat Anda menggunakan fungsi ML.PREDICT
, nama kolom output untuk model adalah
predicted_<label_column_name>
. Untuk model regresi linear, predicted_label
adalah perkiraan nilai label
. Untuk model regresi logistik,
predicted_label
adalah label yang paling mungkin, yang dalam hal ini adalah 0
atau
1
.
Fungsi ML.PREDICT
digunakan untuk memprediksi hasil menggunakan model Anda: bqml_tutorial.sample_model
.
Pernyataan SELECT
dan klausa FROM
bertingkat dari kueri ini sama dengan
pernyataan dalam kueri CREATE MODEL
.
Klausa WHERE
— _TABLE_SUFFIX BETWEEN '20170701' AND '20170801'
— membatasi jumlah tabel yang dipindai oleh kueri. Rentang tanggal
yang dipindai adalah 1 Juli 2017 hingga 1 Agustus 2017. Ini adalah data yang
Anda buat prediksinya. Data ini dikumpulkan pada bulan segera setelah jangka
waktu yang dicakup oleh data pelatihan.
Klausa GROUP BY
dan ORDER BY
mengelompokkan hasil berdasarkan negara dan mengurutkannya
berdasarkan jumlah prediksi pembelian dalam urutan menurun.
Klausa LIMIT
digunakan di sini untuk menampilkan hanya 10 hasil teratas.
Menjalankan kueri ML.PREDICT
Untuk menjalankan kueri yang menggunakan model untuk memprediksi hasil:
Di konsol Google Cloud, klik tombol Buat kueri baru.
Masukkan kueri GoogleSQL berikut di area teks Query editor.
#standardSQL SELECT country, SUM(predicted_label) as total_predicted_purchases FROM ML.PREDICT(MODEL `bqml_tutorial.sample_model`, ( SELECT IFNULL(device.operatingSystem, "") AS os, device.isMobile AS is_mobile, IFNULL(totals.pageviews, 0) AS pageviews, IFNULL(geoNetwork.country, "") AS country FROM `bigquery-public-data.google_analytics_sample.ga_sessions_*` WHERE _TABLE_SUFFIX BETWEEN '20170701' AND '20170801')) GROUP BY country ORDER BY total_predicted_purchases DESC LIMIT 10
Klik Run.
Setelah kueri selesai, klik tab Results di bawah area teks kueri. Hasilnya akan terlihat seperti berikut ini:
+----------------+---------------------------+ | country | total_predicted_purchases | +----------------+---------------------------+ | United States | 209 | | Taiwan | 6 | | Canada | 4 | | Turkey | 2 | | India | 2 | | Japan | 2 | | Indonesia | 1 | | United Kingdom | 1 | | Guyana | 1 | +----------------+---------------------------+
DataFrame BigQuery
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan DataFrames BigQuery di panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.
Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Memprediksi pembelian per pengguna
Dalam contoh ini, Anda mencoba memprediksi jumlah transaksi yang akan dilakukan setiap pengunjung situs.
SQL
Kueri ini sama dengan kueri sebelumnya, kecuali untuk klausa GROUP BY
. Di sini, klausa GROUP BY
— GROUP BY fullVisitorId
— digunakan untuk mengelompokkan hasil menurut ID pengunjung.
Untuk menjalankan kueri:
Di konsol Google Cloud, klik tombol Buat kueri baru.
Masukkan kueri GoogleSQL berikut di area teks Query editor.
#standardSQL SELECT fullVisitorId, SUM(predicted_label) as total_predicted_purchases FROM ML.PREDICT(MODEL `bqml_tutorial.sample_model`, ( SELECT IFNULL(device.operatingSystem, "") AS os, device.isMobile AS is_mobile, IFNULL(totals.pageviews, 0) AS pageviews, IFNULL(geoNetwork.country, "") AS country, fullVisitorId FROM `bigquery-public-data.google_analytics_sample.ga_sessions_*` WHERE _TABLE_SUFFIX BETWEEN '20170701' AND '20170801')) GROUP BY fullVisitorId ORDER BY total_predicted_purchases DESC LIMIT 10
Klik Run.
Setelah kueri selesai, klik tab Results di bawah area teks kueri. Hasilnya akan terlihat seperti berikut ini:
+---------------------+---------------------------+ | fullVisitorId | total_predicted_purchases | +---------------------+---------------------------+ | 9417857471295131045 | 4 | | 2158257269735455737 | 3 | | 5073919761051630191 | 3 | | 7104098063250586249 | 2 | | 4668039979320382648 | 2 | | 1280993661204347450 | 2 | | 7701613595320832147 | 2 | | 0376394056092189113 | 2 | | 9097465012770697796 | 2 | | 4419259211147428491 | 2 | +---------------------+---------------------------+
DataFrame BigQuery
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan DataFrames BigQuery di panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.
Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Pembersihan
Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
- Anda dapat menghapus project yang Anda buat.
- Atau, Anda dapat menyimpan project dan menghapus set data.
Menghapus set data
Jika project Anda dihapus, semua set data dan semua tabel dalam project akan dihapus. Jika ingin menggunakan kembali project tersebut, Anda dapat menghapus set data yang dibuat dalam tutorial ini:
Jika perlu, buka halaman BigQuery di konsol Google Cloud.
Di navigasi, pilih set data bqml_tutorial yang telah Anda buat.
Klik Hapus set data di sisi kanan jendela. Tindakan ini akan menghapus set data, tabel, dan semua data.
Di kotak dialog Hapus set data, konfirmasi perintah hapus dengan mengetikkan nama set data Anda (
bqml_tutorial
), lalu klik Hapus.
Menghapus project Anda
Untuk menghapus project:
- Di konsol Google Cloud, buka halaman Manage resource.
- Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
- Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.
Langkah selanjutnya
- Untuk mempelajari machine learning lebih lanjut, lihat Kursus singkat machine learning.
- Untuk ringkasan BigQuery ML, lihat Pengantar BigQuery ML.
- Untuk mempelajari konsol Google Cloud lebih lanjut, lihat Menggunakan konsol Google Cloud.