Membuat prediksi dengan model scikit-learn dalam format ONNX


Tutorial ini menunjukkan cara mengimpor model Open Neural Network Exchange (ONNX) yang dilatih dengan scikit-learn. Anda mengimpor model ke dalam set data BigQuery dan menggunakannya untuk membuat prediksi menggunakan kueri SQL.

ONNX menyediakan format seragam yang dirancang untuk merepresentasikan framework machine learning (ML) mana pun. Dukungan BigQuery ML untuk ONNX memungkinkan Anda melakukan hal berikut:

  • Melatih model menggunakan framework favorit Anda.
  • Mengonversi model ke format model ONNX.
  • Mengimpor model ONNX ke BigQuery dan membuat prediksi menggunakan BigQuery ML.

Tujuan

Biaya

Dalam dokumen ini, Anda akan menggunakan komponen Google Cloudyang dapat ditagih berikut:

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga. Pengguna Google Cloud baru mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Setelah menyelesaikan tugas yang dijelaskan dalam dokumen ini, Anda dapat menghindari penagihan berkelanjutan dengan menghapus resource yang Anda buat. Untuk mengetahui informasi selengkapnya, lihat Pembersihan.

Sebelum memulai

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  4. Make sure that billing is enabled for your Google Cloud project.

  5. Enable the BigQuery and Cloud Storage APIs.

    Enable the APIs

  6. Pastikan Anda memiliki izin yang diperlukan untuk melakukan tugas dalam dokumen ini.

Peran yang diperlukan

Jika membuat project baru, Anda adalah pemilik project, dan Anda akan diberi semua izin Identity and Access Management (IAM) yang diperlukan untuk menyelesaikan tutorial ini.

Jika Anda menggunakan project yang sudah ada, lakukan hal berikut.

Make sure that you have the following role or roles on the project:

Check for the roles

  1. In the Google Cloud console, go to the IAM page.

    Go to IAM
  2. Select the project.
  3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

  4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.

Grant the roles

  1. In the Google Cloud console, go to the IAM page.

    Buka IAM
  2. Pilih project.
  3. Klik Berikan akses.
  4. Di kolom New principals, masukkan ID pengguna Anda. Ini biasanya adalah alamat email untuk Akun Google.

  5. Di daftar Pilih peran, pilih peran.
  6. Untuk memberikan peran tambahan, klik Tambahkan peran lain, lalu tambahkan setiap peran tambahan.
  7. Klik Simpan.
  8. Untuk mengetahui informasi selengkapnya tentang izin IAM di BigQuery, lihat izin IAM.

Opsional: Melatih model dan mengonversinya ke format ONNX

Contoh kode berikut menunjukkan cara melatih model klasifikasi dengan scikit-learn dan cara mengonversi pipeline yang dihasilkan menjadi format ONNX. Tutorial ini menggunakan contoh model bawaan yang disimpan di gs://cloud-samples-data/bigquery/ml/onnx/pipeline_rf.onnx. Anda tidak perlu menyelesaikan langkah-langkah ini jika menggunakan model contoh.

Melatih model klasifikasi dengan scikit-learn

Gunakan contoh kode berikut untuk membuat dan melatih pipeline scikit-learn di set data Iris. Untuk petunjuk tentang cara menginstal dan menggunakan scikit-learn, lihat panduan penginstalan scikit-learn.

import numpy
from sklearn.datasets import load_iris
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier

data = load_iris()
X = data.data[:, :4]
y = data.target

ind = numpy.arange(X.shape[0])
numpy.random.shuffle(ind)
X = X[ind, :].copy()
y = y[ind].copy()

pipe = Pipeline([('scaler', StandardScaler()),
                ('clr', RandomForestClassifier())])
pipe.fit(X, y)

Mengonversi pipeline menjadi model ONNX

Gunakan kode contoh berikut di sklearn-onnx untuk mengonversi pipeline scikit-learn menjadi model ONNX yang bernama pipeline_rf.onnx.

from skl2onnx import convert_sklearn
from skl2onnx.common.data_types import FloatTensorType

# Disable zipmap as it is not supported in BigQuery ML.
options = {id(pipe): {'zipmap': False}}

# Define input features. scikit-learn does not store information about the
# training dataset. It is not always possible to retrieve the number of features
# or their types. That's why the function needs another argument called initial_types.
initial_types = [
   ('sepal_length', FloatTensorType([None, 1])),
   ('sepal_width', FloatTensorType([None, 1])),
   ('petal_length', FloatTensorType([None, 1])),
   ('petal_width', FloatTensorType([None, 1])),
]

# Convert the model.
model_onnx = convert_sklearn(
   pipe, 'pipeline_rf', initial_types=initial_types, options=options
)

# And save.
with open('pipeline_rf.onnx', 'wb') as f:
 f.write(model_onnx.SerializeToString())

Mengupload model ONNX ke Cloud Storage

Setelah menyimpan model, lakukan hal berikut:

Membuat set data

Buat set data BigQuery untuk menyimpan model ML Anda.

Konsol

  1. Di Konsol Google Cloud, buka halaman BigQuery.

    Buka halaman BigQuery

  2. Di panel Explorer, klik nama project Anda.

  3. Klik View actions > Create dataset.

    Opsi menu Create dataset.

  4. Di halaman Create dataset, lakukan hal berikut:

    • Untuk Dataset ID, masukkan bqml_tutorial.

    • Untuk Location type, pilih Multi-region, lalu pilih US (multiple regions in United States).

    Set data publik disimpan di US multi-region. Untuk mempermudah, simpan set data Anda di lokasi yang sama.

    • Jangan ubah setelan default yang tersisa, lalu klik Create dataset.

    Halaman Create dataset dengan nilai yang diisi.

bq

Untuk membuat set data baru, gunakan perintah bq mk dengan flag --location. Untuk daftar lengkap parameter yang mungkin, lihat referensi perintah bq mk --dataset.

  1. Buat set data bernama bqml_tutorial dengan lokasi data ditetapkan ke US dan deskripsi BigQuery ML tutorial dataset:

    bq --location=US mk -d \
     --description "BigQuery ML tutorial dataset." \
     bqml_tutorial

    Perintah ini menggunakan pintasan -d, bukan flag --dataset. Jika Anda menghapus -d dan --dataset, perintah defaultnya adalah membuat set data.

  2. Pastikan set data telah dibuat:

    bq ls

API

Panggil metode datasets.insert dengan resource set data yang ditentukan.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

Mengimpor model ONNX ke BigQuery

Langkah-langkah berikut menunjukkan cara mengimpor contoh model ONNX dari Cloud Storage menggunakan pernyataan CREATE MODEL.

Untuk mengimpor model ONNX ke set data Anda, pilih salah satu opsi berikut:

Konsol

  1. Di konsol Google Cloud, buka halaman BigQuery Studio.

    Buka BigQuery Studio

  2. Di editor kueri, masukkan pernyataan CREATE MODEL berikut.

     CREATE OR REPLACE MODEL `bqml_tutorial.imported_onnx_model`
      OPTIONS (MODEL_TYPE='ONNX',
       MODEL_PATH='BUCKET_PATH')

    Ganti BUCKET_PATH dengan jalur ke model yang Anda upload ke Cloud Storage. Jika Anda menggunakan model contoh, ganti BUCKET_PATH dengan nilai berikut: gs://cloud-samples-data/bigquery/ml/onnx/pipeline_rf.onnx.

    Setelah operasi selesai, Anda akan melihat pesan yang mirip dengan berikut: Successfully created model named imported_onnx_model.

    Model baru Anda akan muncul di panel Resource. Model ditunjukkan dengan ikon model: Ikon model di panel Resource Jika Anda memilih model baru di panel Resources, informasi tentang model akan muncul di samping Query editor.

    Panel informasi untuk `imported_onnx_model`

bq

  1. Impor model ONNX dari Cloud Storage dengan memasukkan pernyataan CREATE MODEL berikut.

    bq query --use_legacy_sql=false \
    "CREATE OR REPLACE MODEL
    `bqml_tutorial.imported_onnx_model`
    OPTIONS
    (MODEL_TYPE='ONNX',
      MODEL_PATH='BUCKET_PATH')"

    Ganti BUCKET_PATH dengan jalur ke model yang Anda upload ke Cloud Storage. Jika Anda menggunakan model contoh, ganti BUCKET_PATH dengan nilai berikut: gs://cloud-samples-data/bigquery/ml/onnx/pipeline_rf.onnx.

    Setelah operasi selesai, Anda akan melihat pesan yang mirip dengan berikut: Successfully created model named imported_onnx_model.

  2. Setelah Anda mengimpor model, pastikan model tersebut muncul dalam set data.

    bq ls bqml_tutorial

    Outputnya mirip dengan hal berikut ini:

    tableId               Type
    --------------------- -------
    imported_onnx_model  MODEL

DataFrame BigQuery

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan BigQuery DataFrames di panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

Impor model menggunakan objek ONNXModel.

import bigframes
from bigframes.ml.imported import ONNXModel

bigframes.options.bigquery.project = PROJECT_ID
# You can change the location to one of the valid locations: https://cloud.google.com/bigquery/docs/locations#supported_locations
bigframes.options.bigquery.location = "US"

imported_onnx_model = ONNXModel(
    model_path="gs://cloud-samples-data/bigquery/ml/onnx/pipeline_rf.onnx"
)

Untuk mengetahui informasi selengkapnya tentang cara mengimpor model ONNX ke BigQuery, termasuk persyaratan format dan penyimpanan, lihat Pernyataan CREATE MODEL untuk mengimpor model ONNX.

Membuat prediksi dengan model ONNX yang diimpor

Setelah mengimpor model ONNX, Anda menggunakan fungsi ML.PREDICT untuk membuat prediksi dengan model.

Kueri dalam langkah-langkah berikut menggunakan imported_onnx_model untuk membuat prediksi menggunakan data input dari tabel iris dalam set data publik ml_datasets. Model ONNX mengharapkan empat nilai FLOAT sebagai input:

  • sepal_length
  • sepal_width
  • petal_length
  • petal_width

Input ini cocok dengan initial_types yang ditentukan saat Anda mengonversi model ke format ONNX.

Output-nya mencakup kolom label dan probabilities, serta kolom dari tabel input. label merepresentasikan label class yang diprediksi. probabilities adalah array probabilitas yang mewakili probabilitas untuk setiap class.

Untuk membuat prediksi dengan model TensorFlow yang diimpor, pilih salah satu opsi berikut:

Konsol

  1. Buka halaman BigQuery Studio.

    Buka BigQuery Studio

  2. Di editor kueri, masukkan kueri ini yang menggunakan fungsi ML.PREDICT.

    SELECT *
      FROM ML.PREDICT(MODEL `bqml_tutorial.imported_onnx_model`,
        (
        SELECT * FROM `bigquery-public-data.ml_datasets.iris`
        )
    )

    Hasil kueri mirip dengan berikut ini:

    Output kueri ML.PREDICT

bq

Jalankan kueri yang menggunakan ML.PREDICT.

bq query --use_legacy_sql=false \
'SELECT *
FROM ML.PREDICT(
MODEL `example_dataset.imported_onnx_model`,
(SELECT * FROM `bigquery-public-data.ml_datasets.iris`))'

DataFrame BigQuery

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan BigQuery DataFrames di panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.

Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.

Gunakan fungsi predict untuk menjalankan model jarak jauh.

import bigframes.pandas as bpd

df = bpd.read_gbq("bigquery-public-data.ml_datasets.iris")
predictions = imported_onnx_model.predict(df)
predictions.peek(5)

Hasilnya mirip dengan berikut ini:

Output fungsi prediksi

Pembersihan

Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.

Menghapus project

Konsol

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

gcloud

    Delete a Google Cloud project:

    gcloud projects delete PROJECT_ID

Menghapus resource satu per satu

Atau, untuk menghapus setiap resource yang digunakan dalam tutorial ini, lakukan langkah-langkah berikut:

  1. Hapus model yang diimpor.

  2. Opsional: Hapus set data.

Langkah berikutnya