Halaman ini diterjemahkan oleh Cloud Translation API.

Membangun dan menggunakan model klasifikasi pada data sensus

Dalam tutorial ini, Anda menggunakan model regresi logistik biner di BigQuery ML untuk memprediksi rentang pendapatan individu berdasarkan data demografinya. Model regresi logistik biner memprediksi apakah suatu nilai termasuk dalam salah satu dari dua kategori, dalam hal ini apakah pendapatan tahunan seseorang berada di atas atau di bawah $50.000.

Tutorial ini menggunakan set data bigquery-public-data.ml_datasets.census_adult_income. Set data ini berisi informasi demografis dan pendapatan penduduk AS dari tahun 2000 dan 2010.

Tujuan

Dalam tutorial ini, Anda akan melakukan tugas-tugas berikut:

Membuat model regresi logistik.
Mengevaluasi model.
Buat prediksi menggunakan model.
Menjelaskan hasil yang dihasilkan oleh model.

Biaya

Tutorial ini menggunakan komponen Google Cloudyang dapat ditagih, termasuk:

BigQuery
BigQuery ML

Untuk informasi selengkapnya tentang biaya BigQuery, lihat halaman harga BigQuery.

Untuk informasi selengkapnya tentang biaya BigQuery ML, lihat harga BigQuery ML.

Sebelum memulai

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the BigQuery API.
Enable the API

Izin yang diperlukan

Untuk membuat model menggunakan BigQuery ML, Anda memerlukan izin IAM berikut:

bigquery.jobs.create
bigquery.models.create
bigquery.models.getData
bigquery.models.updateData
bigquery.models.updateMetadata

Untuk menjalankan inferensi, Anda memerlukan izin berikut:

bigquery.models.getData pada model
bigquery.jobs.create

Pengantar

Tugas umum dalam machine learning adalah mengklasifikasikan data ke dalam salah satu dari dua jenis, yang dikenal sebagai label. Misalnya, retailer mungkin ingin memprediksi apakah pelanggan tertentu akan membeli produk baru, berdasarkan informasi lain tentang pelanggan tersebut. Dalam hal ini, kedua labelnya mungkin will buy dan won't buy. Retailer dapat menyusun set data sedemikian rupa sehingga satu kolom merepresentasikan kedua label, dan juga berisi informasi pelanggan seperti lokasi pelanggan, pembelian mereka sebelumnya, dan preferensi yang dilaporkan. Selanjutnya, retailer dapat menggunakan model regresi logistik biner yang menggunakan informasi pelanggan ini untuk memprediksi label mana yang paling sesuai untuk setiap pelanggan.

Dalam tutorial ini, Anda akan membuat model regresi logistik biner yang memprediksi apakah pendapatan responden Sensus AS termasuk dalam salah satu dari dua rentang berdasarkan atribut demografi responden.

Membuat set data

Buat set data BigQuery untuk menyimpan model Anda:

Di Google Cloud konsol, buka halaman BigQuery.

Buka BigQuery
Di panel Explorer, klik nama project Anda.
Klik View actions > Create dataset.
Di halaman Create dataset, lakukan hal berikut:
- Untuk Dataset ID, masukkan census.
- Untuk Location type, pilih Multi-region, lalu pilih US (multiple regions in United States).
  
  Set data publik disimpan di US multi-region. Agar mudah, simpanlah set data Anda di lokasi yang sama.
- Jangan ubah setelan default lainnya, lalu klik Create dataset.

Memeriksa data

Periksa set data dan identifikasi kolom yang akan digunakan sebagai data pelatihan untuk model regresi logistik. Pilih 100 baris dari tabel census_adult_income:

SQL

Di Google Cloud konsol, buka halaman BigQuery.

Buka BigQuery

Di editor kueri, jalankan kueri GoogleSQL berikut:

SELECT
age,
workclass,
marital_status,
education_num,
occupation,
hours_per_week,
income_bracket,
functional_weight
FROM
`bigquery-public-data.ml_datasets.census_adult_income`
LIMIT
100;

Hasilnya akan terlihat seperti berikut:

DataFrame BigQuery

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan BigQuery DataFrames di Panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

import bigframes.pandas as bpd

df = bpd.read_gbq(
    "bigquery-public-data.ml_datasets.census_adult_income",
    columns=(
        "age",
        "workclass",
        "marital_status",
        "education_num",
        "occupation",
        "hours_per_week",
        "income_bracket",
        "functional_weight",
    ),
    max_results=100,
)
df.peek()
# Output:
# age      workclass       marital_status  education_num          occupation  hours_per_week income_bracket  functional_weight
#  47      Local-gov   Married-civ-spouse             13      Prof-specialty              40           >50K             198660
#  56        Private        Never-married              9        Adm-clerical              40          <=50K              85018
#  40        Private   Married-civ-spouse             12        Tech-support              40           >50K             285787
#  34   Self-emp-inc   Married-civ-spouse              9        Craft-repair              54           >50K             207668
#  23        Private   Married-civ-spouse             10   Handlers-cleaners              40          <=50K              40060

Hasil kueri menunjukkan bahwa kolom income_bracket dalam tabel census_adult_income hanya memiliki salah satu dari dua nilai: <=50K atau >50K.

Menyiapkan data sampel

Dalam tutorial ini, Anda akan memprediksi pendapatan responden sensus berdasarkan nilai kolom berikut dalam tabel census_adult_income:

age: usia responden.
workclass: jenis pekerjaan yang dilakukan. Misalnya, pemerintah daerah, swasta, atau wiraswastawan.
marital_status
education_num: tingkat pendidikan tertinggi responden.
occupation
hours_per_week: jam kerja per minggu.

Anda mengecualikan kolom yang menduplikasi data. Misalnya, kolom education, karena nilai kolom education dan education_num mengekspresikan data yang sama dalam format yang berbeda.

Kolom functional_weight adalah jumlah individu yang menurut organisasi sensus diwakili oleh baris tertentu. Karena nilai kolom ini tidak terkait dengan nilai income_bracket untuk baris tertentu, Anda menggunakan nilai dalam kolom ini untuk memisahkan data ke dalam set pelatihan, evaluasi, dan prediksi dengan membuat kolom dataframe baru yang berasal dari kolom functional_weight. Anda memberi label 80% data untuk melatih model, 10% data untuk evaluasi, dan 10% data untuk prediksi.

SQL

Buat tampilan tampilan dengan data contoh. Tabel virtual ini digunakan oleh pernyataan CREATE MODEL nanti dalam tutorial ini.

Jalankan kueri yang menyiapkan data sampel:

Di Google Cloud konsol, buka halaman BigQuery.

Buka BigQuery

Di editor kueri, jalankan kueri berikut:

CREATE OR REPLACE VIEW
`census.input_data` AS
SELECT
age,
workclass,
marital_status,
education_num,
occupation,
hours_per_week,
income_bracket,
CASE
  WHEN MOD(functional_weight, 10) < 8 THEN 'training'
  WHEN MOD(functional_weight, 10) = 8 THEN 'evaluation'
  WHEN MOD(functional_weight, 10) = 9 THEN 'prediction'
END AS dataframe
FROM
`bigquery-public-data.ml_datasets.census_adult_income`;

Lihat data sampel:
```
SELECT * FROM `census.input_data`;
```

DataFrame BigQuery

Buat DataFrame bernama input_data. Anda akan menggunakan input_data nanti dalam tutorial ini untuk melatih model, mengevaluasinya, dan membuat prediksi.

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

import bigframes.pandas as bpd

input_data = bpd.read_gbq(
    "bigquery-public-data.ml_datasets.census_adult_income",
    columns=(
        "age",
        "workclass",
        "marital_status",
        "education_num",
        "occupation",
        "hours_per_week",
        "income_bracket",
        "functional_weight",
    ),
)
input_data["dataframe"] = bpd.Series("training", index=input_data.index,).case_when(
    [
        (((input_data["functional_weight"] % 10) == 8), "evaluation"),
        (((input_data["functional_weight"] % 10) == 9), "prediction"),
    ]
)
del input_data["functional_weight"]

Membuat model regresi logistik

Buat model regresi logistik dengan data pelatihan yang Anda beri label di bagian sebelumnya.

SQL

Gunakan pernyataan CREATE MODEL dan tentukan LOGISTIC_REG untuk jenis model.

Berikut adalah hal-hal berguna yang perlu diketahui tentang pernyataan CREATE MODEL:

Opsi input_label_cols menentukan kolom mana dalam pernyataan SELECT yang akan digunakan sebagai kolom label. Di sini, kolom labelnya adalah income_bracket, sehingga model mempelajari mana dari dua nilai income_bracket yang paling mungkin untuk baris tertentu berdasarkan nilai lain yang ada di baris tersebut.
Anda tidak perlu menentukan apakah model regresi logistik bersifat biner atau multi-class. BigQuery ML menentukan jenis model yang akan dilatih berdasarkan jumlah nilai unik dalam kolom label.
Opsi auto_class_weights disetel ke TRUE untuk menyeimbangkan label class dalam data pelatihan. Secara default, data pelatihan tidak diberi bobot. Jika label dalam data pelatihan tidak seimbang, model dapat belajar untuk lebih banyak memprediksi class label yang paling populer. Dalam hal ini, sebagian besar responden dalam set data berada dalam kelompok berpendapatan lebih rendah. Hal ini dapat menyebabkan model yang memprediksi terlalu banyak kelompok pendapatan yang lebih rendah. Bobot class menyeimbangkan label class dengan menghitung bobot untuk setiap class dengan proporsi yang terbalik dengan frekuensi class tersebut.
Opsi enable_global_explain disetel ke TRUE agar Anda dapat menggunakan fungsi ML.GLOBAL_EXPLAIN pada model di bagian selanjutnya dalam tutorial.
Pernyataan SELECT membuat kueri tampilan input_data yang berisi data sampel. Klausa WHERE memfilter baris sehingga hanya baris yang diberi label sebagai data pelatihan yang digunakan untuk melatih model.

Jalankan kueri yang membuat model regresi logistik Anda:

Di Google Cloud konsol, buka halaman BigQuery.

Buka BigQuery

Di editor kueri, jalankan kueri berikut:

CREATE OR REPLACE MODEL
`census.census_model`
OPTIONS
( model_type='LOGISTIC_REG',
  auto_class_weights=TRUE,
  enable_global_explain=TRUE,
  data_split_method='NO_SPLIT',
  input_label_cols=['income_bracket'],
  max_iterations=15) AS
SELECT * EXCEPT(dataframe)
FROM
`census.input_data`
WHERE
dataframe = 'training'

Di panel Explorer, klik Set Data.
Di panel Set Data, klik census.
Klik panel Model.
Klik census_model.
Tab Detail mencantumkan atribut yang digunakan BigQuery ML untuk melakukan regresi logistik.

DataFrame BigQuery

Gunakan metode fit untuk melatih model dan metode to_gbq untuk menyimpannya ke set data Anda.

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

import bigframes.ml.linear_model

# input_data is defined in an earlier step.
training_data = input_data[input_data["dataframe"] == "training"]
X = training_data.drop(columns=["income_bracket", "dataframe"])
y = training_data["income_bracket"]

census_model = bigframes.ml.linear_model.LogisticRegression(
    # Balance the class labels in the training data by setting
    # class_weight="balanced".
    #
    # By default, the training data is unweighted. If the labels
    # in the training data are imbalanced, the model may learn to
    # predict the most popular class of labels more heavily. In
    # this case, most of the respondents in the dataset are in the
    # lower income bracket. This may lead to a model that predicts
    # the lower income bracket too heavily. Class weights balance
    # the class labels by calculating the weights for each class in
    # inverse proportion to the frequency of that class.
    class_weight="balanced",
    max_iterations=15,
)
census_model.fit(X, y)

census_model.to_gbq(
    your_model_id,  # For example: "your-project.census.census_model"
    replace=True,
)

Mengevaluasi performa model

Setelah membuat model, evaluasi performa model terhadap data evaluasi.

SQL

Fungsi ML.EVALUATE mengevaluasi nilai yang diprediksi yang dihasilkan oleh model berdasarkan data evaluasi.

Untuk input, fungsi ML.EVALUATE menggunakan model terlatih dan baris dari tampilan input_data yang memiliki evaluation sebagai nilai kolom dataframe. Fungsi ini menampilkan satu baris statistik tentang model.

Jalankan kueri ML.EVALUATE:

Di Google Cloud konsol, buka halaman BigQuery.

Buka BigQuery

Di editor kueri, jalankan kueri berikut:

SELECT
*
FROM
ML.EVALUATE (MODEL `census.census_model`,
  (
  SELECT
    *
  FROM
    `census.input_data`
  WHERE
    dataframe = 'evaluation'
  )
);

Hasilnya akan terlihat seperti berikut:

DataFrame BigQuery

Gunakan metode score untuk mengevaluasi model berdasarkan data aktual.

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

# Select model you'll use for predictions. `read_gbq_model` loads model
# data from BigQuery, but you could also use the `census_model` object
# from previous steps.
census_model = bpd.read_gbq_model(
    your_model_id,  # For example: "your-project.census.census_model"
)

# input_data is defined in an earlier step.
evaluation_data = input_data[input_data["dataframe"] == "evaluation"]
X = evaluation_data.drop(columns=["income_bracket", "dataframe"])
y = evaluation_data["income_bracket"]

# The score() method evaluates how the model performs compared to the
# actual data. Output DataFrame matches that of ML.EVALUATE().
score = census_model.score(X, y)
score.peek()
# Output:
#    precision    recall  accuracy  f1_score  log_loss   roc_auc
# 0   0.685764  0.536685   0.83819  0.602134  0.350417  0.882953

Anda juga dapat melihat panel Evaluasi model di konsol Google Cloud untuk melihat metrik evaluasi yang dihitung selama pelatihan:

Output ML.EVALUATE

Memprediksi rentang pendapatan

Gunakan model untuk memprediksi kelompok pendapatan yang paling mungkin untuk setiap responden.

SQL

Gunakan fungsi ML.PREDICT untuk membuat prediksi tentang kemungkinan kategori pendapatan. Untuk input, fungsi ML.PREDICT menggunakan model terlatih dan baris dari tampilan input_data yang memiliki prediction sebagai nilai kolom dataframe.

Jalankan kueri ML.PREDICT:

Di Google Cloud konsol, buka halaman BigQuery.

Buka BigQuery

Di editor kueri, jalankan kueri berikut:

SELECT
*
FROM
ML.PREDICT (MODEL `census.census_model`,
  (
  SELECT
    *
  FROM
    `census.input_data`
  WHERE
    dataframe = 'prediction'
  )
);

Hasilnya akan terlihat seperti berikut:

Kolom predicted_income_bracket berisi rentang pendapatan yang diprediksi untuk responden.

DataFrame BigQuery

Gunakan metode predict untuk membuat prediksi tentang kemungkinan kategori pendapatan.

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

# Select model you'll use for predictions. `read_gbq_model` loads model
# data from BigQuery, but you could also use the `census_model` object
# from previous steps.
census_model = bpd.read_gbq_model(
    your_model_id,  # For example: "your-project.census.census_model"
)

# input_data is defined in an earlier step.
prediction_data = input_data[input_data["dataframe"] == "prediction"]

predictions = census_model.predict(prediction_data)
predictions.peek()
# Output:
#           predicted_income_bracket                     predicted_income_bracket_probs  age workclass  ... occupation  hours_per_week income_bracket   dataframe
# 18004                    <=50K  [{'label': ' >50K', 'prob': 0.0763305999358786...   75         ?  ...          ?               6          <=50K  prediction
# 18886                    <=50K  [{'label': ' >50K', 'prob': 0.0448866871906495...   73         ?  ...          ?              22           >50K  prediction
# 31024                    <=50K  [{'label': ' >50K', 'prob': 0.0362982319421936...   69         ?  ...          ?               1          <=50K  prediction
# 31022                    <=50K  [{'label': ' >50K', 'prob': 0.0787836112058324...   75         ?  ...          ?               5          <=50K  prediction
# 23295                    <=50K  [{'label': ' >50K', 'prob': 0.3385373037905673...   78         ?  ...          ?              32          <=50K  prediction

Menjelaskan hasil prediksi

Untuk memahami alasan model menghasilkan hasil prediksi ini, Anda dapat menggunakan fungsi ML.EXPLAIN_PREDICT.

ML.EXPLAIN_PREDICT adalah versi yang diperluas dari fungsi ML.PREDICT. ML.EXPLAIN_PREDICT tidak hanya menghasilkan output hasil prediksi, tetapi juga menghasilkan kolom tambahan untuk menjelaskan hasil prediksi. Untuk mengetahui informasi selengkapnya tentang kemampuan penjelasan, lihat Ringkasan Explainable AI BigQuery ML.

Jalankan kueri ML.EXPLAIN_PREDICT:

Di Google Cloud konsol, buka halaman BigQuery.

Buka BigQuery

Di editor kueri, jalankan kueri berikut:

SELECT
*
FROM
ML.EXPLAIN_PREDICT(MODEL `census.census_model`,
  (
  SELECT
    *
  FROM
    `census.input_data`
  WHERE
    dataframe = 'evaluation'),
  STRUCT(3 as top_k_features));

Hasilnya akan terlihat seperti berikut:

Untuk model regresi logistik, nilai Shapley digunakan untuk menentukan atribusi fitur relatif untuk setiap fitur dalam model. Karena opsi top_k_features ditetapkan ke 3 dalam kueri, ML.EXPLAIN_PREDICT akan menghasilkan tiga atribusi fitur teratas untuk setiap baris tampilan input_data. Atribusi ini ditampilkan dalam urutan menurun menurut nilai absolut atribusi.

Menjelaskan model secara global

Untuk mengetahui fitur mana yang paling penting guna menentukan kelompok pendapatan, gunakan fungsi ML.GLOBAL_EXPLAIN.

Mendapatkan penjelasan global untuk model:

Di Google Cloud konsol, buka halaman BigQuery.

Buka BigQuery
Di editor kueri, jalankan kueri berikut untuk mendapatkan penjelasan global:
```
SELECT
  *
FROM
  ML.GLOBAL_EXPLAIN(MODEL `census.census_model`)
```
Hasilnya akan terlihat seperti berikut:

Pembersihan

Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus resource satu per satu.

Menghapus set data Anda

Jika project Anda dihapus, semua set data dan semua tabel dalam project akan dihapus. Jika ingin menggunakan kembali project tersebut, Anda dapat menghapus set data yang dibuat dalam tutorial ini:

Jika perlu, buka halaman BigQuery di konsolGoogle Cloud .

Buka halaman BigQuery
Di navigasi, klik set data census yang Anda buat.
Klik Delete dataset di sisi kanan jendela. Tindakan ini akan menghapus set data dan model.
Pada dialog Hapus set data, konfirmasi perintah hapus dengan mengetikkan nama set data Anda (census), lalu klik Hapus.

Menghapus project Anda

Untuk menghapus project:

Perhatian: Menghapus project memiliki efek berikut:

Semua hal dalam project akan dihapus. Jika menggunakan project yang sudah ada untuk tugas dalam dokumen ini, saat Anda menghapusnya, pekerjaan lain yang telah Anda lakukan dalam project tersebut juga akan terhapus.
Project ID kustom hilang. Saat membuat project ini, Anda mungkin telah membuat project ID kustom yang ingin digunakan di masa mendatang. Untuk mempertahankan URL yang menggunakan project ID, seperti URL appspot.com, hapus resource yang dipilih di dalam project, bukan menghapus seluruh project.

Jika Anda berencana mempelajari beberapa arsitektur, tutorial atau panduan memulai, dengan menggunakan kembali project dapat membantu Anda agar tidak melampaui batas kuota project.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Langkah berikutnya

Untuk ringkasan BigQuery ML, lihat Pengantar BigQuery ML.
Untuk informasi tentang cara membuat model, lihat halaman sintaksis CREATE MODEL.

Membangun dan menggunakan model klasifikasi pada data sensus Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Tujuan

Biaya

Sebelum memulai

Izin yang diperlukan

Pengantar

Membuat set data

Memeriksa data

SQL

DataFrame BigQuery

Menyiapkan data sampel

SQL

DataFrame BigQuery

Membuat model regresi logistik

SQL

DataFrame BigQuery

Mengevaluasi performa model

SQL

DataFrame BigQuery

Memprediksi rentang pendapatan

SQL

DataFrame BigQuery

Menjelaskan hasil prediksi

Menjelaskan model secara global

Pembersihan

Menghapus set data Anda

Menghapus project Anda

Langkah berikutnya

Membangun dan menggunakan model klasifikasi pada data sensus