Halaman ini diterjemahkan oleh Cloud Translation API.

Menggunakan BigQuery ML untuk memprediksi berat penguin

Dalam tutorial ini, Anda akan menggunakan model regresi linier di BigQuery ML untuk memprediksi berat penguin berdasarkan informasi demografis penguin. Regresi linear adalah jenis model regresi yang menghasilkan nilai berkelanjutan dari kombinasi linear fitur input.

Tutorial ini menggunakan set data bigquery-public-data.ml_datasets.penguins.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the BigQuery API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the API

Izin yang diperlukan

Untuk membuat model menggunakan BigQuery ML, Anda memerlukan izin IAM berikut:

bigquery.jobs.create
bigquery.models.create
bigquery.models.getData
bigquery.models.updateData
bigquery.models.updateMetadata

Untuk menjalankan inferensi, Anda memerlukan izin berikut:

bigquery.models.getData pada model
bigquery.jobs.create

Membuat set data

Buat set data BigQuery untuk menyimpan model ML Anda.

Konsol

Di konsol Google Cloud , buka halaman BigQuery.

Buka halaman BigQuery
Di panel Explorer, klik nama project Anda.
Klik View actions > Create dataset.
Di halaman Create dataset, lakukan hal berikut:
- Untuk Dataset ID, masukkan bqml_tutorial.
- Untuk Location type, pilih Multi-region, lalu pilih US (multiple regions in United States).
- Jangan ubah setelan default yang tersisa, lalu klik Create dataset.

bq

Untuk membuat set data baru, gunakan perintah bq mk dengan flag --location. Untuk daftar lengkap kemungkinan parameter, lihat referensi perintah bq mk --dataset.

Buat set data bernama bqml_tutorial dengan lokasi data yang ditetapkan ke US dan deskripsi BigQuery ML tutorial dataset:
```
bq --location=US mk -d \
 --description "BigQuery ML tutorial dataset." \
 bqml_tutorial
```
Perintah ini menggunakan pintasan -d, bukan flag --dataset. Jika Anda menghapus -d dan --dataset, perintah defaultnya adalah membuat set data.
Pastikan set data telah dibuat:
```
bq ls
```

API

Panggil metode datasets.insert dengan resource set data yang ditentukan.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

BigQuery DataFrames

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan BigQuery DataFrames di Panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

import google.cloud.bigquery

bqclient = google.cloud.bigquery.Client()
bqclient.create_dataset("bqml_tutorial", exists_ok=True)

Buat model

Buat model regresi linear menggunakan set data contoh Analytics untuk BigQuery.

SQL

Anda dapat membuat model regresi linear menggunakan pernyataan CREATE MODEL dan menentukan LINEAR_REG untuk jenis model. Pembuatan model mencakup pelatihan model.

Berikut adalah hal-hal berguna yang perlu diketahui tentang pernyataan CREATE MODEL:

Opsi input_label_cols menentukan kolom mana dalam pernyataan SELECT yang akan digunakan sebagai kolom label. Di sini, kolom labelnya adalah body_mass_g. Untuk model regresi linear, kolom label harus bernilai riil, yaitu, nilai kolom harus berupa bilangan riil.
Pernyataan SELECT kueri ini menggunakan kolom berikut dalam tabel bigquery-public-data.ml_datasets.penguins untuk memprediksi berat penguin:
- species: spesies penguin.
- island: pulau tempat penguin tinggal.
- culmen_length_mm: panjang paruh penguin dalam milimeter.
- culmen_depth_mm: lebar paruh penguin yang terkatup dalam milimeter.
- flipper_length_mm: panjang sirip penguin dalam milimeter.
- sex: jenis kelamin penguin.
Klausa WHERE dalam pernyataan SELECT kueri ini, WHERE body_mass_g IS NOT NULL, mengecualikan baris dengan kolom body_mass_g adalah NULL.

Jalankan kueri yang membuat model regresi linear Anda:

Di konsol Google Cloud , buka halaman BigQuery.

Buka BigQuery

Di editor kueri, jalankan kueri berikut:

CREATE OR REPLACE MODEL `bqml_tutorial.penguins_model`
OPTIONS
  (model_type='linear_reg',
  input_label_cols=['body_mass_g']) AS
SELECT
  *
FROM
  `bigquery-public-data.ml_datasets.penguins`
WHERE
  body_mass_g IS NOT NULL;

Pembuatan model penguins_model memerlukan waktu sekitar 30 detik.

Untuk melihat model, ikuti langkah-langkah berikut:
1. Di panel kiri, klik Explorer:
  
  Jika Anda tidak melihat panel kiri, klik Luaskan panel kiri untuk membuka panel.
2. Di panel Explorer, luaskan project Anda dan klik Set data.
3. Klik set data bqml_tutorial.
4. Klik tab Model.

BigQuery DataFrames

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

from bigframes.ml.linear_model import LinearRegression
import bigframes.pandas as bpd

# Load data from BigQuery
bq_df = bpd.read_gbq("bigquery-public-data.ml_datasets.penguins")

# Drop rows with nulls to get training data
training_data = bq_df.dropna(subset=["body_mass_g"])

# Specify your feature (or input) columns and the label (or output) column:
feature_columns = training_data.drop(columns=["body_mass_g"])
label_columns = training_data[["body_mass_g"]]

# Create the linear model
model = LinearRegression()
model.fit(feature_columns, label_columns)
model.to_gbq(
    your_model_id,  # For example: "bqml_tutorial.penguins_model"
    replace=True,
)

Pembuatan model memerlukan waktu sekitar 30 detik. Untuk melihat model, ikuti langkah-langkah berikut:

Di panel kiri, klik Explorer:
Di panel Explorer, luaskan project Anda dan klik Set data.
Klik set data bqml_tutorial.
Klik tab Model.

Mendapatkan statistik pelatihan

Untuk melihat hasil pelatihan model, Anda dapat menggunakan fungsi ML.TRAINING_INFO, atau Anda dapat melihat statistik di konsol Google Cloud . Dalam tutorial ini, Anda akan menggunakan konsol Google Cloud .

Algoritma machine learning membuat model dengan memeriksa banyak contoh dan mencoba menemukan model yang meminimalkan kerugian. Proses ini disebut minimalisasi risiko empiris.

Kerugian merupakan akibat dari prediksi yang buruk. Loss adalah angka yang menunjukkan seberapa buruk prediksi model pada satu contoh. Jika prediksi model sempurna, kerugiannya nol. Jika tidak, kerugiannya akan lebih besar. Tujuan pelatihan model adalah untuk menemukan set bobot dan bias yang memiliki kerugian rendah, secara rata-rata, di semua contoh.

Lihat statistik pelatihan model yang dihasilkan saat Anda menjalankan kueri CREATE MODEL:

Di panel kiri, klik Explorer:
Di panel Explorer, luaskan project Anda dan klik Set data.
Klik set data bqml_tutorial.
Klik tab Model.
Untuk membuka panel informasi model, klik penguins_model.
Klik tab Pelatihan, lalu klik Tabel. Hasilnya akan terlihat mirip dengan berikut ini:

Kolom Training Data Loss menunjukkan metrik kerugian yang dihitung setelah model dilatih menggunakan set data pelatihan. Karena Anda melakukan regresi linear, kolom ini menampilkan nilai rataan kuadrat galat (RKG). Strategi pengoptimalan normal_equation otomatis digunakan untuk pelatihan ini, sehingga hanya satu iterasi yang diperlukan untuk digabungkan ke model akhir. Untuk mengetahui informasi selengkapnya tentang cara menyetel strategi pengoptimalan model, lihat optimize_strategy.

Mengevaluasi model

Setelah membuat model, evaluasi performa model menggunakan fungsi ML.EVALUATE atau fungsi score BigQuery DataFrames untuk mengevaluasi nilai prediksi yang dihasilkan oleh model terhadap data sebenarnya.

SQL

Untuk input, fungsi ML.EVALUATE menggunakan model terlatih dan set data yang cocok dengan skema data yang Anda gunakan untuk melatih model. Di lingkungan produksi, Anda harus mengevaluasi model pada data yang berbeda dengan data yang Anda gunakan untuk melatih model. Jika Anda menjalankan ML.EVALUATE tanpa memberikan data input, fungsi akan mengambil metrik evaluasi yang dihitung selama pelatihan. Metrik ini dihitung menggunakan set data evaluasi yang dicadangkan secara otomatis:

    SELECT
      *
    FROM
      ML.EVALUATE(MODEL bqml_tutorial.penguins_model);

Jalankan kueri ML.EVALUATE:

Di konsol Google Cloud , buka halaman BigQuery.

Buka BigQuery

Di editor kueri, jalankan kueri berikut:

  SELECT
    *
  FROM
    ML.EVALUATE(MODEL `bqml_tutorial.penguins_model`,
      (
      SELECT
        *
      FROM
        `bigquery-public-data.ml_datasets.penguins`
      WHERE
        body_mass_g IS NOT NULL));

BigQuery DataFrames

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

import bigframes.pandas as bpd

# Select the model you will be evaluating. `read_gbq_model` loads model data from
# BigQuery, but you could also use the `model` object from the previous steps.
model = bpd.read_gbq_model(
    your_model_id,  # For example: "bqml_tutorial.penguins_model"
)

# Score the model with input data defined in an earlier step to compare
# model predictions on feature_columns to true labels in label_columns.
score = model.score(feature_columns, label_columns)
# Expected output results:
# index  mean_absolute_error  mean_squared_error  mean_squared_log_error  median_absolute_error  r2_score  explained_variance
#   0        227.012237         81838.159892            0.00507                173.080816        0.872377    0.872377
#   1 rows x 6 columns

Hasilnya akan terlihat seperti berikut:

Output ML.EVALUATE

Karena Anda melakukan regresi linear, hasilnya mencakup kolom berikut:

mean_absolute_error
mean_squared_error
mean_squared_log_error
median_absolute_error
r2_score
explained_variance

Metrik penting dalam hasil evaluasi adalah skor R². Skor R² adalah ukuran statistik yang menentukan apakah prediksi regresi linear memperkirakan data sebenarnya. Nilai 0 menunjukkan bahwa model tidak menjelaskan variabilitas data respons di sekitar nilai rata-rata. Nilai 1 menunjukkan bahwa model menjelaskan semua variabilitas data respons di sekitar nilai rata-rata.

Anda juga dapat melihat panel informasi model di Google Cloud konsol untuk melihat metrik evaluasi:

Output ML.EVALUATE

Menggunakan model untuk memprediksi hasil

Setelah mengevaluasi model, langkah berikutnya adalah menggunakannya untuk memprediksi hasil. Anda dapat menjalankan fungsi ML.PREDICT atau fungsi BigQuery DataFrames predict pada model untuk memprediksi massa tubuh dalam gram semua penguin yang berada di Kepulauan Biscoe.

SQL

Untuk input, fungsi ML.PREDICT menggunakan model terlatih dan set data yang cocok dengan skema data yang Anda gunakan untuk melatih model, tidak termasuk kolom label.

Jalankan kueri ML.PREDICT:

Di konsol Google Cloud , buka halaman BigQuery.

Buka BigQuery

Di editor kueri, jalankan kueri berikut:

SELECT
*
FROM
ML.PREDICT(MODEL `bqml_tutorial.penguins_model`,
  (
  SELECT
    *
  FROM
    `bigquery-public-data.ml_datasets.penguins`
  WHERE island = 'Biscoe'));

BigQuery DataFrames

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

# Select the model you'll use for predictions. `read_gbq_model` loads
# model data from BigQuery, but you could also use the `model` object
# object from previous steps.
model = bpd.read_gbq_model(
    your_model_id,
    # For example: "bqml_tutorial.penguins_model",
)

# Load data from BigQuery
bq_df = bpd.read_gbq("bigquery-public-data.ml_datasets.penguins")

# Use 'contains' function to filter by island containing the string
# "Biscoe".
biscoe_data = bq_df.loc[bq_df["island"].str.contains("Biscoe")]

result = model.predict(biscoe_data)

# Expected output results:
#     predicted_body_mass_g  	      species	                island	 culmen_length_mm  culmen_depth_mm   body_mass_g 	flipper_length_mm	sex
# 23	  4681.782896	   Gentoo penguin (Pygoscelis papua)	Biscoe	      <NA>	            <NA>	        <NA>	          <NA>	        <NA>
# 332	  4740.7907	       Gentoo penguin (Pygoscelis papua)	Biscoe	      46.2	            14.4	        214.0	          4650.0	    <NA>
# 160	  4731.310452	   Gentoo penguin (Pygoscelis papua)	Biscoe	      44.5	            14.3	        216.0	          4100.0	    <NA>

Hasilnya akan terlihat seperti berikut:

Output ML.PREDICT

Menjelaskan hasil prediksi

SQL

Untuk memahami alasan model menghasilkan hasil prediksi ini, Anda dapat menggunakan fungsi ML.EXPLAIN_PREDICT.

ML.EXPLAIN_PREDICT adalah versi yang diperluas dari fungsi ML.PREDICT. ML.EXPLAIN_PREDICT tidak hanya menghasilkan output hasil prediksi, tetapi juga menghasilkan kolom tambahan untuk menjelaskan hasil prediksi. Dalam praktiknya, Anda dapat menjalankan ML.EXPLAIN_PREDICT, bukan ML.PREDICT. Untuk mengetahui informasi selengkapnya, lihat Ringkasan Explainable AI BigQuery ML.

Jalankan kueri ML.EXPLAIN_PREDICT:

Di konsol Google Cloud , buka halaman BigQuery.

Buka BigQuery

Di editor kueri, jalankan kueri berikut:

SELECT
  *
FROM
  ML.EXPLAIN_PREDICT(MODEL `bqml_tutorial.penguins_model`,
    (
    SELECT
      *
    FROM
      `bigquery-public-data.ml_datasets.penguins`
    WHERE island = 'Biscoe'),
    STRUCT(3 as top_k_features));

Hasilnya akan terlihat seperti berikut:

BigQuery DataFrames

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

# Use 'predict_explain' function to understand why the model is generating these prediction results.
# 'predict_explain'is an extended version of the 'predict' function that not only outputs prediction results, but also outputs additional columns to explain the prediction results.
# Using the trained model and utilizing data specific to Biscoe Island, explain the predictions of the top 3 features
explained = model.predict_explain(biscoe_data, top_k_features=3)

# Expected results:
#   predicted_body_mass_g               top_feature_attributions	        baseline_prediction_value	prediction_value	approximation_error	              species	            island	culmen_length_mm	culmen_depth_mm	flipper_length_mm	body_mass_g	    sex
# 0	 5413.510134	        [{'feature': 'island', 'attribution': 7348.877...	-5320.222128	          5413.510134	            0.0	         Gentoo penguin (Pygoscelis papua)	Biscoe	    45.2	              16.4	        223.0	           5950.0	    MALE
# 1	 4768.351092            [{'feature': 'island', 'attribution': 7348.877...	-5320.222128	          4768.351092	            0.0	         Gentoo penguin (Pygoscelis papua)	Biscoe	    46.5	              14.5	        213.0	           4400.0	   FEMALE
# 2	 3235.896372	        [{'feature': 'island', 'attribution': 7348.877...	-5320.222128	          3235.896372	            0.0	        Adelie Penguin (Pygoscelis adeliae)	Biscoe	    37.7	              16.0          183.0	           3075.0	   FEMALE
# 3	 5349.603734	        [{'feature': 'island', 'attribution': 7348.877...	-5320.222128	          5349.603734	            0.0	         Gentoo penguin (Pygoscelis papua)	Biscoe	    46.4	              15.6	        221.0	           5000.0	    MALE
# 4	 4637.165037	        [{'feature': 'island', 'attribution': 7348.877...	-5320.222128	          4637.165037	            0.0	         Gentoo penguin (Pygoscelis papua)	Biscoe	    46.1	              13.2	        211.0	           4500.0	   FEMALE

Untuk model regresi linear, nilai Shapley digunakan untuk menghasilkan nilai atribusi fitur untuk setiap fitur dalam model. Output mencakup tiga atribusi fitur teratas per baris tabel penguins karena top_k_features ditetapkan ke 3. Atribusi ini diurutkan menurut nilai absolut atribusi dalam urutan menurun. Pada semua contoh, fitur sex berkontribusi paling besar terhadap prediksi keseluruhan.

Menjelaskan model secara global

SQL

Untuk mengetahui fitur mana yang umumnya paling penting untuk menentukan bobot penguin, Anda dapat menggunakan ML.GLOBAL_EXPLAIN fungsi. Untuk menggunakan ML.GLOBAL_EXPLAIN, Anda harus melatih ulang model dengan opsi ENABLE_GLOBAL_EXPLAIN yang disetel ke TRUE.

Latih ulang dan dapatkan penjelasan global untuk model:

Di konsol Google Cloud , buka halaman BigQuery.

Buka BigQuery

Di editor kueri, jalankan kueri berikut untuk melatih ulang model:

#standardSQL
CREATE OR REPLACE MODEL `bqml_tutorial.penguins_model`
OPTIONS (
  model_type = 'linear_reg',
  input_label_cols = ['body_mass_g'],
  enable_global_explain = TRUE)
AS
SELECT
*
FROM
`bigquery-public-data.ml_datasets.penguins`
WHERE
body_mass_g IS NOT NULL;

Di editor kueri, jalankan kueri berikut untuk mendapatkan penjelasan global:
```
SELECT
*
FROM
ML.GLOBAL_EXPLAIN(MODEL `bqml_tutorial.penguins_model`)
```
Hasilnya akan terlihat seperti berikut:

BigQuery DataFrames

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

# To use the `global_explain()` function, the model must be recreated with `enable_global_explain` set to `True`.
model = LinearRegression(enable_global_explain=True)

# The model must the be fitted before it can be saved to BigQuery and then explained.
training_data = bq_df.dropna(subset=["body_mass_g"])
X = training_data.drop(columns=["body_mass_g"])
y = training_data[["body_mass_g"]]
model.fit(X, y)
model.to_gbq("bqml_tutorial.penguins_model", replace=True)

# Explain the model
explain_model = model.global_explain()

# Expected results:
#                       attribution
# feature
# island	            5737.315921
# species	            4073.280549
# sex	                622.070896
# flipper_length_mm	    193.612051
# culmen_depth_mm	    117.084944
# culmen_length_mm	    94.366793