Membuat model machine learning di BigQuery ML

Tutorial ini memperkenalkan BigQuery ML kepada pengguna menggunakan konsol Google Cloud.

Dengan BigQuery ML, pengguna dapat membuat dan menjalankan model machine learning di BigQuery dengan menggunakan kueri SQL dan kode Python. Tujuannya adalah mendemokrasikan machine learning dengan memungkinkan praktisi SQL membuat model menggunakan alat yang ada dan meningkatkan kecepatan pengembangan dengan meniadakan kebutuhan akan perpindahan data.

Dalam tutorial ini, Anda akan menggunakan contoh set data contoh Google Analytics untuk BigQuery untuk membuat model yang memprediksi apakah pengunjung situs akan melakukan transaksi atau tidak. Untuk mendapatkan informasi tentang skema set data Analytics, lihat skema BigQuery Export di Pusat Bantuan Analytics.

Tujuan

Dalam tutorial ini, Anda akan menggunakan:

  • BigQuery ML untuk membuat model regresi logistik biner menggunakan pernyataan CREATE MODEL
  • Fungsi ML.EVALUATE untuk mengevaluasi model ML
  • Fungsi ML.PREDICT untuk membuat prediksi menggunakan model ML

Biaya

Tutorial ini menggunakan komponen Google Cloud yang dapat dikenai biaya, termasuk:

  • BigQuery
  • BigQuery ML

Untuk informasi selengkapnya tentang biaya BigQuery, lihat halaman harga BigQuery.

Untuk informasi selengkapnya tentang biaya BigQuery ML, lihat harga BigQuery ML.

Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  5. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  6. BigQuery secara otomatis diaktifkan dalam project baru. Untuk mengaktifkan BigQuery dalam project yang sudah ada, buka

    Enable the BigQuery API.

    Enable the API

Buat set data Anda

Buat set data BigQuery untuk menyimpan model ML Anda:

  1. Di konsol Google Cloud, buka halaman BigQuery.

    Buka halaman BigQuery

  2. Di panel Explorer, klik nama project Anda.

  3. Klik View actions > Create dataset.

    Buat set data.

  4. Di halaman Create dataset, lakukan hal berikut:

    • Untuk Dataset ID, masukkan bqml_tutorial.

    • Untuk Location type, pilih Multi-region, lalu pilih US (multiple regions in United States).

      Set data publik disimpan di US multi-region. Untuk mempermudah, simpan set data Anda di lokasi yang sama.

    • Jangan ubah setelan default yang tersisa, lalu klik Create dataset.

      Buat halaman set data.

Buat model

Selanjutnya, Anda membuat model regresi logistik menggunakan set data contoh Analytics untuk BigQuery.

SQL

Kueri GoogleSQL berikut digunakan untuk membuat model yang Anda gunakan untuk memprediksi apakah pengunjung situs akan melakukan transaksi.

#standardSQL
CREATE MODEL `bqml_tutorial.sample_model`
OPTIONS(model_type='logistic_reg') AS
SELECT
IF(totals.transactions IS NULL, 0, 1) AS label,
IFNULL(device.operatingSystem, "") AS os,
device.isMobile AS is_mobile,
IFNULL(geoNetwork.country, "") AS country,
IFNULL(totals.pageviews, 0) AS pageviews
FROM
`bigquery-public-data.google_analytics_sample.ga_sessions_*`
WHERE
_TABLE_SUFFIX BETWEEN '20160801' AND '20170630'

Selain membuat model, menjalankan kueri yang berisi pernyataan CREATE MODEL akan melatih model menggunakan data yang diambil oleh pernyataan SELECT kueri Anda.

Detail kueri

Klausa CREATE MODEL digunakan untuk membuat dan melatih model bernama bqml_tutorial.sample_model.

Klausa OPTIONS(model_type='logistic_reg') menunjukkan bahwa Anda membuat model regresi logistik. Model regresi logistik mencoba membagi data input menjadi dua class dan memberikan probabilitas bahwa data tersebut berada dalam salah satu class. Biasanya, hal yang ingin Anda deteksi (misalnya apakah email adalah spam) diwakili oleh 1 dan yang lainnya diwakili oleh 0. Jika model regresi logistik menghasilkan output sebesar 0,9, terdapat 90% probabilitas input tersebut adalah apa yang Anda coba deteksi (email adalah spam).

Pernyataan SELECT kueri ini mengambil kolom berikut yang digunakan oleh model untuk memprediksi probabilitas pelanggan akan menyelesaikan transaksi:

  • totals.transactions — Jumlah total transaksi e-commerce dalam sesi. Jika jumlah transaksi adalah NULL, maka nilai dalam kolom label ditetapkan ke 0. Jika tidak, nilai ini akan ditetapkan ke 1. Nilai-nilai ini mewakili kemungkinan hasil. Membuat alias bernama label merupakan alternatif untuk menyetel opsi input_label_cols= dalam pernyataan CREATE MODEL.
  • device.operatingSystem — Sistem operasi perangkat pengunjung.
  • device.isMobile — Menunjukkan apakah perangkat pengunjung adalah perangkat seluler.
  • geoNetwork.country — Negara tempat sesi berasal, berdasarkan alamat IP.
  • totals.pageviews — Jumlah total tayangan halaman dalam sesi.

Klausa FROMbigquery-public-data.google_analytics_sample.ga_sessions_* — menunjukkan bahwa Anda membuat kueri set data sampel Google Analytics. Set data ini ada dalam project bigquery-public-data. Anda membuat kueri terhadap kumpulan tabel yang di-sharding berdasarkan tanggal. ini direpresentasikan oleh karakter pengganti dalam nama tabel: google_analytics_sample.ga_sessions_*.

Klausa WHERE_TABLE_SUFFIX BETWEEN '20160801' AND '20170630' — membatasi jumlah tabel yang dipindai oleh kueri. Rentang tanggal yang dipindai adalah 1 Agustus 2016 hingga 30 Juni 2017.

Menjalankan kueri CREATE MODEL

Untuk menjalankan kueri CREATE MODEL guna membuat dan melatih model Anda:

  1. Di konsol Google Cloud, klik tombol Buat kueri baru. Jika teks ini tidak tersedia untuk diklik, berarti Editor kueri sudah terbuka.

Tombol tulis kueri

  1. Masukkan kueri GoogleSQL berikut di area teks Editor kueri.

    #standardSQL
    CREATE MODEL `bqml_tutorial.sample_model`
    OPTIONS(model_type='logistic_reg') AS
    SELECT
    IF(totals.transactions IS NULL, 0, 1) AS label,
    IFNULL(device.operatingSystem, "") AS os,
    device.isMobile AS is_mobile,
    IFNULL(geoNetwork.country, "") AS country,
    IFNULL(totals.pageviews, 0) AS pageviews
    FROM
    `bigquery-public-data.google_analytics_sample.ga_sessions_*`
    WHERE
    _TABLE_SUFFIX BETWEEN '20160801' AND '20170630'
    
  2. Klik Run.

    Kueri membutuhkan waktu beberapa menit hingga selesai. Setelah iterasi pertama selesai, model Anda (sample_model) akan muncul di panel navigasi. Kueri ini menggunakan pernyataan CREATE MODEL untuk membuat model, maka Anda tidak akan melihat hasil kueri.

    Anda dapat mengamati model saat sedang dilatih dengan melihat tab Statistik model. Segera setelah iterasi pertama selesai, tab akan diupdate. Statistik akan terus diupdate saat setiap iterasi selesai.

DataFrame BigQuery

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan DataFrames BigQuery di panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

from bigframes.ml.linear_model import LogisticRegression
import bigframes.pandas as bpd

# Start by selecting the data you'll use for training. `read_gbq` accepts
# either a SQL query or a table ID. Since this example selects from multiple
# tables via a wildcard, use SQL to define this data. Watch issue
# https://github.com/googleapis/python-bigquery-dataframes/issues/169
# for updates to `read_gbq` to support wildcard tables.

df = bpd.read_gbq_table(
    "bigquery-public-data.google_analytics_sample.ga_sessions_*",
    filters=[
        ("_table_suffix", ">=", "20160801"),
        ("_table_suffix", "<=", "20170630"),
    ],
)

# Extract the total number of transactions within
# the Google Analytics session.
#
# Because the totals column is a STRUCT data type, call
# Series.struct.field("transactions") to extract the transactions field.
# See the reference documentation below:
# https://cloud.google.com/python/docs/reference/bigframes/latest/bigframes.operations.structs.StructAccessor#bigframes_operations_structs_StructAccessor_field
transactions = df["totals"].struct.field("transactions")

# The "label" values represent the outcome of the model's
# prediction. In this case, the model predicts if there are any
# ecommerce transactions within the Google Analytics session.
# If the number of transactions is NULL, the value in the label
# column is set to 0. Otherwise, it is set to 1.
label = transactions.notnull().map({True: 1, False: 0}).rename("label")

# Extract the operating system of the visitor's device.
operating_system = df["device"].struct.field("operatingSystem")
operating_system = operating_system.fillna("")

# Extract whether the visitor's device is a mobile device.
is_mobile = df["device"].struct.field("isMobile")

# Extract the country from which the sessions originated, based on the IP address.
country = df["geoNetwork"].struct.field("country").fillna("")

# Extract the total number of page views within the session.
pageviews = df["totals"].struct.field("pageviews").fillna(0)

# Combine all the feature columns into a single DataFrame
# to use as training data.
features = bpd.DataFrame(
    {
        "os": operating_system,
        "is_mobile": is_mobile,
        "country": country,
        "pageviews": pageviews,
    }
)

# Logistic Regression model splits data into two classes, giving the
# a confidence score that the data is in one of the classes.
model = LogisticRegression()
model.fit(features, label)

# The model.fit() call above created a temporary model.
# Use the to_gbq() method to write to a permanent location.
model.to_gbq(
    your_model_id,  # For example: "bqml_tutorial.sample_model",
    replace=True,
)

Mendapatkan statistik pelatihan

Untuk melihat hasil pelatihan model, Anda dapat menggunakan fungsi ML.TRAINING_INFO, atau Anda dapat melihat statistik di konsol Google Cloud. Dalam tutorial ini, Anda akan menggunakan konsol Google Cloud.

Machine learning berfokus pada membuat model yang dapat menggunakan data untuk membuat prediksi. Model ini pada dasarnya adalah fungsi yang mengambil input dan menerapkan kalkulasi ke input untuk menghasilkan output, yaitu prediksi.

Algoritma machine learning bekerja dengan mengambil beberapa contoh yang prediksinya sudah diketahui (seperti data historis pembelian pengguna) dan secara berulang menyesuaikan berbagai bobot dalam model sehingga prediksi model cocok dengan nilai sebenarnya. Hal ini dilakukan dengan meminimalkan seberapa salah model menggunakan metrik yang disebut kerugian.

Untuk setiap iterasi, kerugiannya harus berkurang (idealnya ke nol). Jika kerugian bernilai nol, berarti model 100% akurat.

Untuk melihat statistik pelatihan model yang dihasilkan saat Anda menjalankan kueri CREATE MODEL:

  1. Pada panel navigasi konsol Google Cloud, di bagian Resource, luaskan [PROJECT_ID] > bqml_tutorial, lalu klik sample_model.

  2. Klik tab Statistik Model. Hasilnya akan terlihat seperti berikut:

    ML.TRAINING_INFO output

    Kolom Kerugian Data Pelatihan menunjukkan metrik kerugian yang dihitung setelah iterasi yang ditentukan pada set data pelatihan. Anda melakukan regresi logistik, maka kolom ini adalah kerugian log. Kolom Kerugian Data Evaluasi adalah metrik kerugian yang sama yang dihitung pada set data holdout (data yang ditahan dari pelatihan untuk memvalidasi model).

    BigQuery ML membagi data input Anda secara otomatis menjadi set pelatihan dan set holdout untuk menghindari model overfitting. Hal ini diperlukan agar algoritma pelatihan tidak terlalu menyesuaikan dengan data yang diketahui, sehingga tidak digeneralisasi menjadi contoh baru yang tidak terlihat.

    Kebocoran Data Pelatihan dan Kebocoran Data Evaluasi adalah nilai kerugian rata-rata, yang dirata-ratakan dari semua contoh dalam set masing-masing.

    Untuk detail selengkapnya tentang fungsi ML.TRAINING_INFO, lihat Referensi Sintaksis BigQuery ML.

Mengevaluasi model Anda

Setelah membuat model, Anda mengevaluasi performa pengklasifikasi menggunakan fungsi ML.EVALUATE. Fungsi ML.EVALUATE mengevaluasi nilai yang diprediksi terhadap data sebenarnya. Untuk menghitung metrik khusus regresi logistik, gunakan fungsi SQL ML.ROC_CURVE atau fungsi BigQuery DataFrames bigframes.ml.metrics.roc_curve.

Dalam tutorial ini, Anda menggunakan model klasifikasi biner yang mendeteksi transaksi. Kedua class tersebut adalah nilai dalam kolom label: 0 (tanpa transaksi) dan 1 (transaksi yang dilakukan).

SQL

Kueri yang digunakan untuk mengevaluasi model adalah sebagai berikut:

#standardSQL
SELECT
*
FROM
ML.EVALUATE(MODEL `bqml_tutorial.sample_model`, (
SELECT
IF(totals.transactions IS NULL, 0, 1) AS label,
IFNULL(device.operatingSystem, "") AS os,
device.isMobile AS is_mobile,
IFNULL(geoNetwork.country, "") AS country,
IFNULL(totals.pageviews, 0) AS pageviews
FROM
`bigquery-public-data.google_analytics_sample.ga_sessions_*`
WHERE
_TABLE_SUFFIX BETWEEN '20170701' AND '20170801'))

Detail kueri

Pernyataan SELECT paling atas mengambil kolom dari model Anda.

Klausa FROM menggunakan fungsi ML.EVALUATE terhadap model Anda: bqml_tutorial.sample_model.

Pernyataan SELECT dan klausa FROM bertingkat dari kueri ini sama dengan pernyataan dalam kueri CREATE MODEL.

Klausa WHERE_TABLE_SUFFIX BETWEEN '20170701' AND '20170801' — membatasi jumlah tabel yang dipindai oleh kueri. Rentang tanggal yang dipindai adalah 1 Juli 2017 hingga 1 Agustus 2017. Ini adalah data yang Anda gunakan untuk mengevaluasi performa prediktif model. Data ini dikumpulkan pada bulan segera setelah jangka waktu yang mencakup data pelatihan.

Menjalankan kueri ML.EVALUATE

Untuk menjalankan kueri ML.EVALUATE yang mengevaluasi model:

  1. Di konsol Google Cloud, klik tombol Buat kueri baru.

  2. Masukkan kueri GoogleSQL berikut di area teks Query editor.

    #standardSQL
    SELECT
    *
    FROM
    ML.EVALUATE(MODEL `bqml_tutorial.sample_model`, (
    SELECT
    IF(totals.transactions IS NULL, 0, 1) AS label,
    IFNULL(device.operatingSystem, "") AS os,
    device.isMobile AS is_mobile,
    IFNULL(geoNetwork.country, "") AS country,
    IFNULL(totals.pageviews, 0) AS pageviews
    FROM
    `bigquery-public-data.google_analytics_sample.ga_sessions_*`
    WHERE
    _TABLE_SUFFIX BETWEEN '20170701' AND '20170801'))
    
  3. Klik Run.

  4. Setelah kueri selesai, klik tab Results di bawah area teks kueri. Hasilnya akan terlihat seperti berikut:

    +--------------------+---------------------+--------------------+--------------------+---------------------+----------+
    |     precision      |       recall        |      accuracy      |      f1_score      |      log_loss       | roc_auc  |
    +--------------------+---------------------+--------------------+--------------------+---------------------+----------+
    | 0.4451901565995526 | 0.08879964301651048 | 0.9716829479411401 | 0.1480654761904762 | 0.07921781778780206 | 0.970706 |
    +--------------------+---------------------+--------------------+--------------------+---------------------+----------+
    

    Anda melakukan regresi logistik, hasilnya mencakup kolom berikut:

    • precision — Metrik untuk model klasifikasi. Presisi mengidentifikasi frekuensi terkait apakah model benar saat memprediksi class positif.

    • recall — Metrik untuk model klasifikasi yang menjawab pertanyaan berikut: Dari semua kemungkinan label positif, berapa banyak model yang diidentifikasi dengan benar?

    • accuracy — Akurasi adalah fraksi prediksi yang dilakukan model klasifikasi dengan benar.

    • f1_score — Ukuran akurasi model. Skor f1 adalah rata-rata harmonik presisi dan perolehan. Nilai terbaik skor f1 adalah 1. Nilai terburuk adalah 0.

    • log_loss — Fungsi kerugian yang digunakan dalam regresi logistik. Ini adalah ukuran seberapa jauh prediksi model dari label yang benar.

    • roc_auc — Area di bawah kurva ROC. Ini adalah probabilitas bahwa pengklasifikasi lebih yakin bahwa contoh positif yang dipilih secara acak sebenarnya positif daripada contoh negatif yang dipilih secara acak adalah positif. Untuk mengetahui informasi selengkapnya, lihat Klasifikasi di Kursus Singkat Machine Learning.

DataFrame BigQuery

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan DataFrames BigQuery di panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

import bigframes.pandas as bpd

# Select model you'll use for evaluating. `read_gbq_model` loads model data from a
# BigQuery, but you could also use the `model` object from the previous steps.
model = bpd.read_gbq_model(
    your_model_id,  # For example: "bqml_tutorial.sample_model",
)

# The filters parameter limits the number of tables scanned by the query.
# The date range scanned is July 1, 2017 to August 1, 2017. This is the
# data you're using to evaluate the predictive performance of the model.
# It was collected in the month immediately following the time period
# spanned by the training data.
df = bpd.read_gbq_table(
    "bigquery-public-data.google_analytics_sample.ga_sessions_*",
    filters=[
        ("_table_suffix", ">=", "20170701"),
        ("_table_suffix", "<=", "20170801"),
    ],
)

transactions = df["totals"].struct.field("transactions")
label = transactions.notnull().map({True: 1, False: 0}).rename("label")
operating_system = df["device"].struct.field("operatingSystem")
operating_system = operating_system.fillna("")
is_mobile = df["device"].struct.field("isMobile")
country = df["geoNetwork"].struct.field("country").fillna("")
pageviews = df["totals"].struct.field("pageviews").fillna(0)
features = bpd.DataFrame(
    {
        "os": operating_system,
        "is_mobile": is_mobile,
        "country": country,
        "pageviews": pageviews,
    }
)

# Some models include a convenient .score(X, y) method for evaluation with a preset accuracy metric:

# Because you performed a logistic regression, the results include the following columns:

# - precision — A metric for classification models. Precision identifies the frequency with
# which a model was correct when predicting the positive class.

# - recall — A metric for classification models that answers the following question:
# Out of all the possible positive labels, how many did the model correctly identify?

# - accuracy — Accuracy is the fraction of predictions that a classification model got right.

# - f1_score — A measure of the accuracy of the model. The f1 score is the harmonic average of
# the precision and recall. An f1 score's best value is 1. The worst value is 0.

# - log_loss — The loss function used in a logistic regression. This is the measure of how far the
# model's predictions are from the correct labels.

# - roc_auc — The area under the ROC curve. This is the probability that a classifier is more confident that
# a randomly chosen positive example
# is actually positive than that a randomly chosen negative example is positive. For more information,
# see ['Classification']('https://developers.google.com/machine-learning/crash-course/classification/video-lecture')
# in the Machine Learning Crash Course.

model.score(features, label)
#    precision    recall  accuracy  f1_score  log_loss   roc_auc
# 0   0.412621  0.079143  0.985074  0.132812  0.049764  0.974285
# [1 rows x 6 columns]

Gunakan model Anda untuk memprediksi hasil

Setelah mengevaluasi model, langkah berikutnya adalah menggunakannya untuk memprediksi hasil. Anda menggunakan model untuk memprediksi jumlah transaksi yang dilakukan oleh pengunjung situs dari setiap negara.

SQL

Kueri yang digunakan untuk memprediksi hasilnya adalah sebagai berikut:

#standardSQL
SELECT
country,
SUM(predicted_label) as total_predicted_purchases
FROM
ML.PREDICT(MODEL `bqml_tutorial.sample_model`, (
SELECT
IFNULL(device.operatingSystem, "") AS os,
device.isMobile AS is_mobile,
IFNULL(totals.pageviews, 0) AS pageviews,
IFNULL(geoNetwork.country, "") AS country
FROM
`bigquery-public-data.google_analytics_sample.ga_sessions_*`
WHERE
_TABLE_SUFFIX BETWEEN '20170701' AND '20170801'))
GROUP BY country
ORDER BY total_predicted_purchases DESC
LIMIT 10

Detail kueri

Pernyataan SELECT paling atas mengambil kolom country dan menjumlahkan kolom predicted_label. Kolom ini dihasilkan oleh fungsi ML.PREDICT. Saat Anda menggunakan fungsi ML.PREDICT, nama kolom output untuk model adalah predicted_<label_column_name>. Untuk model regresi linear, predicted_label adalah perkiraan nilai label. Untuk model regresi logistik, predicted_label adalah label yang paling mungkin, yang dalam hal ini adalah 0 atau 1.

Fungsi ML.PREDICT digunakan untuk memprediksi hasil menggunakan model Anda: bqml_tutorial.sample_model.

Pernyataan SELECT dan klausa FROM bertingkat dari kueri ini sama dengan pernyataan dalam kueri CREATE MODEL.

Klausa WHERE_TABLE_SUFFIX BETWEEN '20170701' AND '20170801' — membatasi jumlah tabel yang dipindai oleh kueri. Rentang tanggal yang dipindai adalah 1 Juli 2017 hingga 1 Agustus 2017. Ini adalah data yang Anda buat prediksinya. Data ini dikumpulkan pada bulan segera setelah jangka waktu yang dicakup oleh data pelatihan.

Klausa GROUP BY dan ORDER BY mengelompokkan hasil berdasarkan negara dan mengurutkannya berdasarkan jumlah prediksi pembelian dalam urutan menurun.

Klausa LIMIT digunakan di sini untuk menampilkan hanya 10 hasil teratas.

Menjalankan kueri ML.PREDICT

Untuk menjalankan kueri yang menggunakan model untuk memprediksi hasil:

  1. Di konsol Google Cloud, klik tombol Buat kueri baru.

  2. Masukkan kueri GoogleSQL berikut di area teks Query editor.

    #standardSQL
    SELECT
    country,
    SUM(predicted_label) as total_predicted_purchases
    FROM
    ML.PREDICT(MODEL `bqml_tutorial.sample_model`, (
    SELECT
    IFNULL(device.operatingSystem, "") AS os,
    device.isMobile AS is_mobile,
    IFNULL(totals.pageviews, 0) AS pageviews,
    IFNULL(geoNetwork.country, "") AS country
    FROM
    `bigquery-public-data.google_analytics_sample.ga_sessions_*`
    WHERE
    _TABLE_SUFFIX BETWEEN '20170701' AND '20170801'))
    GROUP BY country
    ORDER BY total_predicted_purchases DESC
    LIMIT 10
    
  3. Klik Run.

  4. Setelah kueri selesai, klik tab Results di bawah area teks kueri. Hasilnya akan terlihat seperti berikut ini:

+----------------+---------------------------+
|    country     | total_predicted_purchases |
+----------------+---------------------------+
| United States  |                       209 |
| Taiwan         |                         6 |
| Canada         |                         4 |
| Turkey         |                         2 |
| India          |                         2 |
| Japan          |                         2 |
| Indonesia      |                         1 |
| United Kingdom |                         1 |
| Guyana         |                         1 |
+----------------+---------------------------+

DataFrame BigQuery

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan DataFrames BigQuery di panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

import bigframes.pandas as bpd

# Select model you'll use for predicting.
# `read_gbq_model` loads model data from
# BigQuery, but you could also use the `model`
# object from the previous steps.
model = bpd.read_gbq_model(
    your_model_id,  # For example: "bqml_tutorial.sample_model",
)

# The filters parameter limits the number of tables scanned by the query.
# The date range scanned is July 1, 2017 to August 1, 2017. This is the
# data you're using to make the prediction.
# It was collected in the month immediately following the time period
# spanned by the training data.
df = bpd.read_gbq_table(
    "bigquery-public-data.google_analytics_sample.ga_sessions_*",
    filters=[
        ("_table_suffix", ">=", "20170701"),
        ("_table_suffix", "<=", "20170801"),
    ],
)

operating_system = df["device"].struct.field("operatingSystem")
operating_system = operating_system.fillna("")
is_mobile = df["device"].struct.field("isMobile")
country = df["geoNetwork"].struct.field("country").fillna("")
pageviews = df["totals"].struct.field("pageviews").fillna(0)
features = bpd.DataFrame(
    {
        "os": operating_system,
        "is_mobile": is_mobile,
        "country": country,
        "pageviews": pageviews,
    }
)
# Use Logistic Regression predict method to predict results
# using your model.
# Find more information here in
# [BigFrames](https://cloud.google.com/python/docs/reference/bigframes/latest/bigframes.ml.linear_model.LogisticRegression#bigframes_ml_linear_model_LogisticRegression_predict)

predictions = model.predict(features)

# Call groupby method to group predicted_label by country.
# Call sum method to get the total_predicted_label by country.
total_predicted_purchases = predictions.groupby(["country"])[
    ["predicted_label"]
].sum()

# Call the sort_values method with the parameter
# ascending = False to get the highest values.
# Call head method to limit to the 10 highest values.
total_predicted_purchases.sort_values(ascending=False).head(10)

# country
# United States    220
# Taiwan             8
# Canada             7
# India              2
# Japan              2
# Turkey             2
# Australia          1
# Brazil             1
# Germany            1
# Guyana             1
# Name: predicted_label, dtype: Int64

Memprediksi pembelian per pengguna

Dalam contoh ini, Anda mencoba memprediksi jumlah transaksi yang akan dilakukan setiap pengunjung situs.

SQL

Kueri ini sama dengan kueri sebelumnya, kecuali untuk klausa GROUP BY. Di sini, klausa GROUP BYGROUP BY fullVisitorId — digunakan untuk mengelompokkan hasil menurut ID pengunjung.

Untuk menjalankan kueri:

  1. Di konsol Google Cloud, klik tombol Buat kueri baru.

  2. Masukkan kueri GoogleSQL berikut di area teks Query editor.

    #standardSQL
    SELECT
    fullVisitorId,
    SUM(predicted_label) as total_predicted_purchases
    FROM
    ML.PREDICT(MODEL `bqml_tutorial.sample_model`, (
    SELECT
    IFNULL(device.operatingSystem, "") AS os,
    device.isMobile AS is_mobile,
    IFNULL(totals.pageviews, 0) AS pageviews,
    IFNULL(geoNetwork.country, "") AS country,
    fullVisitorId
    FROM
    `bigquery-public-data.google_analytics_sample.ga_sessions_*`
    WHERE
    _TABLE_SUFFIX BETWEEN '20170701' AND '20170801'))
    GROUP BY fullVisitorId
    ORDER BY total_predicted_purchases DESC
    LIMIT 10
    
  3. Klik Run.

  4. Setelah kueri selesai, klik tab Results di bawah area teks kueri. Hasilnya akan terlihat seperti berikut ini:

    +---------------------+---------------------------+
    |    fullVisitorId    | total_predicted_purchases |
    +---------------------+---------------------------+
    | 9417857471295131045 |                         4 |
    | 2158257269735455737 |                         3 |
    | 5073919761051630191 |                         3 |
    | 7104098063250586249 |                         2 |
    | 4668039979320382648 |                         2 |
    | 1280993661204347450 |                         2 |
    | 7701613595320832147 |                         2 |
    | 0376394056092189113 |                         2 |
    | 9097465012770697796 |                         2 |
    | 4419259211147428491 |                         2 |
    +---------------------+---------------------------+
    

DataFrame BigQuery

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan DataFrames BigQuery di panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.


import bigframes.pandas as bpd

# Select model you'll use for predicting.
# `read_gbq_model` loads model data from
# BigQuery, but you could also use the `model`
# object from the previous steps.
model = bpd.read_gbq_model(
    your_model_id,  # For example: "bqml_tutorial.sample_model",
)

# The filters parameter limits the number of tables scanned by the query.
# The date range scanned is July 1, 2017 to August 1, 2017. This is the
# data you're using to make the prediction.
# It was collected in the month immediately following the time period
# spanned by the training data.
df = bpd.read_gbq_table(
    "bigquery-public-data.google_analytics_sample.ga_sessions_*",
    filters=[
        ("_table_suffix", ">=", "20170701"),
        ("_table_suffix", "<=", "20170801"),
    ],
)

operating_system = df["device"].struct.field("operatingSystem")
operating_system = operating_system.fillna("")
is_mobile = df["device"].struct.field("isMobile")
country = df["geoNetwork"].struct.field("country").fillna("")
pageviews = df["totals"].struct.field("pageviews").fillna(0)
full_visitor_id = df["fullVisitorId"]

features = bpd.DataFrame(
    {
        "os": operating_system,
        "is_mobile": is_mobile,
        "country": country,
        "pageviews": pageviews,
        "fullVisitorId": full_visitor_id,
    }
)

predictions = model.predict(features)

# Call groupby method to group predicted_label by visitor.
# Call sum method to get the total_predicted_label by visitor.
total_predicted_purchases = predictions.groupby(["fullVisitorId"])[
    ["predicted_label"]
].sum()

# Call the sort_values method with the parameter
# ascending = False to get the highest values.
# Call head method to limit to the 10 highest values.
total_predicted_purchases.sort_values(ascending=False).head(10)

# fullVisitorId
# 9417857471295131045    4
# 0376394056092189113    2
# 0456807427403774085    2
# 057693500927581077     2
# 112288330928895942     2
# 1280993661204347450    2
# 2105122376016897629    2
# 2158257269735455737    2
# 2969418676126258798    2
# 489038402765684003     2
# Name: predicted_label, dtype: Int64

Pembersihan

Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

  • Anda dapat menghapus project yang Anda buat.
  • Atau, Anda dapat menyimpan project dan menghapus set data.

Menghapus set data

Jika project Anda dihapus, semua set data dan semua tabel dalam project akan dihapus. Jika ingin menggunakan kembali project tersebut, Anda dapat menghapus set data yang dibuat dalam tutorial ini:

  1. Jika perlu, buka halaman BigQuery di konsol Google Cloud.

    Buka halaman BigQuery

  2. Di navigasi, pilih set data bqml_tutorial yang telah Anda buat.

  3. Klik Hapus set data di sisi kanan jendela. Tindakan ini akan menghapus set data, tabel, dan semua data.

    Menghapus set data

  4. Di kotak dialog Hapus set data, konfirmasi perintah hapus dengan mengetikkan nama set data Anda (bqml_tutorial), lalu klik Hapus.

Menghapus project Anda

Untuk menghapus project:

  1. Di konsol Google Cloud, buka halaman Manage resource.

    Buka Manage resource

  2. Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
  3. Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Langkah selanjutnya