Membuat prediksi dengan model PyTorch dalam format ONNX


Open Neural Network Exchange (ONNX) menyediakan format seragam yang dirancang untuk merepresentasikan framework machine learning mana pun. Dukungan BigQuery ML untuk ONNX memungkinkan Anda:

  • Melatih model menggunakan framework favorit Anda.
  • Mengonversi model ke format model ONNX.
  • Mengimpor model ONNX ke BigQuery dan membuat prediksi menggunakan BigQuery ML.

Tutorial ini menunjukkan cara mengimpor model ONNX yang dilatih dengan PyTorch ke dalam set data BigQuery dan menggunakannya untuk membuat prediksi dari kueri SQL.

Tujuan

  • Mengimpor model terlatih menggunakan PyTorch.
  • Konversi model ke format ONNX menggunakan torch.onnx.
  • Gunakan pernyataan CREATE MODEL untuk mengimpor model ONNX ke BigQuery.
  • Gunakan fungsi ML.PREDICT untuk membuat prediksi dengan model ONNX yang diimpor.

Biaya

Dalam dokumen ini, Anda akan menggunakan komponen Google Cloudyang dapat ditagih berikut:

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga. Pengguna Google Cloud baru mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Setelah menyelesaikan tugas yang dijelaskan dalam dokumen ini, Anda dapat menghindari penagihan berkelanjutan dengan menghapus resource yang Anda buat. Untuk mengetahui informasi selengkapnya, lihat Pembersihan.

Sebelum memulai

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  4. Make sure that billing is enabled for your Google Cloud project.

  5. Enable the BigQuery, BigQuery Connection, and Cloud Storage APIs.

    Enable the APIs

  6. Pastikan Anda memiliki izin yang diperlukan untuk melakukan tugas dalam dokumen ini.

Peran yang diperlukan

Jika membuat project baru, Anda adalah pemilik project, dan Anda akan diberi semua izin Identity and Access Management (IAM) yang diperlukan untuk menyelesaikan tutorial ini.

Jika Anda menggunakan project yang sudah ada, lakukan hal berikut.

Make sure that you have the following role or roles on the project:

Check for the roles

  1. In the Google Cloud console, go to the IAM page.

    Go to IAM
  2. Select the project.
  3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

  4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.

Grant the roles

  1. In the Google Cloud console, go to the IAM page.

    Buka IAM
  2. Pilih project.
  3. Klik Berikan akses.
  4. Di kolom New principals, masukkan ID pengguna Anda. Ini biasanya adalah alamat email untuk Akun Google.

  5. Di daftar Pilih peran, pilih peran.
  6. Untuk memberikan peran tambahan, klik Tambahkan peran lain, lalu tambahkan setiap peran tambahan.
  7. Klik Simpan.
  8. Untuk mengetahui informasi selengkapnya tentang izin IAM di BigQuery, lihat izin IAM.

Opsional: Melatih model dan mengonversinya ke format ONNX

Contoh kode berikut menunjukkan cara mengimpor model klasifikasi pretrained ke PyTorch dan cara mengonversi model yang dihasilkan ke dalam format ONNX. Tutorial ini menggunakan contoh model bawaan yang disimpan di gs://cloud-samples-data/bigquery/ml/onnx/resnet18.onnx. Anda tidak perlu menyelesaikan langkah-langkah ini jika menggunakan model contoh.

Membuat model visi PyTorch untuk klasifikasi gambar

Gunakan contoh kode berikut untuk mengimpor model resnet18 terlatih PyTorch yang menerima data gambar dari hasil dekode BigQuery ML ML.DECODE_IMAGE dan fungsi ML.RESIZE_IMAGE.

import torch
import torch.nn as nn

# Define model input format to match the output format of
# ML.DECODE_IMAGE function: [height, width, channels]
dummy_input = torch.randn(1, 224, 224, 3, device="cpu")

# Load a pretrained pytorch model for image classification
model = torch.hub.load('pytorch/vision:v0.10.0', 'resnet18', pretrained=True)

# Reshape input format from [batch_size, height, width, channels]
# to [batch_size, channels, height, width]
class ReshapeLayer(nn.Module):
    def __init__(self):
        super().__init__()

    def forward(self, x):
        x = x.permute(0, 3, 1, 2)  # reorder dimensions
        return x

class ArgMaxLayer(nn.Module):
    def __init__(self):
        super().__init__()

    def forward(self, x):
       return torch.argmax(x, dim=1)

final_model = nn.Sequential(
    ReshapeLayer(),
    model,
    nn.Softmax(),
    ArgMaxLayer()
)

Mengonversi model ke format ONNX

Gunakan contoh berikut untuk mengekspor model visi PyTorch menggunakan torch.onnx. File ONNX yang diekspor diberi nama resnet18.onnx.

torch.onnx.export(final_model,            # model being run
                  dummy_input,            # model input
                  "resnet18.onnx",        # where to save the model
                  opset_version=10,       # the ONNX version to export the model to
                  input_names = ['input'],         # the model's input names
                  output_names = ['class_label'])  # the model's output names

Mengupload model ONNX ke Cloud Storage

Setelah menyimpan model, lakukan hal berikut:

Membuat set data

Buat set data BigQuery untuk menyimpan model ML Anda.

Konsol

  1. Di Konsol Google Cloud, buka halaman BigQuery.

    Buka halaman BigQuery

  2. Di panel Explorer, klik nama project Anda.

  3. Klik View actions > Create dataset.

    Opsi menu Create dataset.

  4. Di halaman Create dataset, lakukan hal berikut:

    • Untuk Dataset ID, masukkan bqml_tutorial.

    • Untuk Location type, pilih Multi-region, lalu pilih US (multiple regions in United States).

    Set data publik disimpan di US multi-region. Untuk mempermudah, simpan set data Anda di lokasi yang sama.

    • Jangan ubah setelan default yang tersisa, lalu klik Create dataset.

    Halaman Create dataset dengan nilai yang diisi.

bq

Untuk membuat set data baru, gunakan perintah bq mk dengan flag --location. Untuk daftar lengkap parameter yang mungkin, lihat referensi perintah bq mk --dataset.

  1. Buat set data bernama bqml_tutorial dengan lokasi data ditetapkan ke US dan deskripsi BigQuery ML tutorial dataset:

    bq --location=US mk -d \
     --description "BigQuery ML tutorial dataset." \
     bqml_tutorial

    Perintah ini menggunakan pintasan -d, bukan flag --dataset. Jika Anda menghapus -d dan --dataset, perintah defaultnya adalah membuat set data.

  2. Pastikan set data telah dibuat:

    bq ls

API

Panggil metode datasets.insert dengan resource set data yang ditentukan.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

Mengimpor model ONNX ke BigQuery

Langkah-langkah berikut menunjukkan cara mengimpor contoh model ONNX dari Cloud Storage ke set data Anda menggunakan pernyataan CREATE MODEL.

Konsol

  1. Di konsol Google Cloud, buka halaman BigQuery Studio.

    Buka BigQuery Studio

  2. Di editor kueri, masukkan pernyataan CREATE MODEL berikut.

    CREATE OR REPLACE MODEL `bqml_tutorial.imported_onnx_model`
     OPTIONS (MODEL_TYPE='ONNX',
      MODEL_PATH='BUCKET_PATH')

    Ganti BUCKET_PATH dengan jalur ke model yang Anda upload ke Cloud Storage. Jika Anda menggunakan model contoh, ganti BUCKET_PATH dengan nilai berikut: gs://cloud-samples-data/bigquery/ml/onnx/resnet18.onnx.

    Setelah operasi selesai, Anda akan melihat pesan yang mirip dengan berikut: Successfully created model named imported_onnx_model.

    Model baru Anda akan muncul di panel Resource. Model ditunjukkan dengan ikon model: Ikon model di panel Resource. Jika Anda memilih model baru di panel Resources, informasi tentang model akan muncul di samping Query editor.

    Panel informasi untuk `imported_onnx_model`.

bq

  1. Impor model ONNX dari Cloud Storage dengan memasukkan pernyataan CREATE MODEL berikut.

    bq query --use_legacy_sql=false \
    "CREATE OR REPLACE MODEL
      `bqml_tutorial.imported_onnx_model`
    OPTIONS
      (MODEL_TYPE='ONNX',
       MODEL_PATH='BUCKET_PATH')"

    Ganti BUCKET_PATH dengan jalur ke model yang Anda upload ke Cloud Storage. Jika Anda menggunakan model contoh, ganti BUCKET_PATH dengan nilai ini: gs://cloud-samples-data/bigquery/ml/onnx/resnet18.onnx.

  2. Setelah Anda mengimpor model, pastikan model tersebut muncul dalam set data.

    bq ls bqml_tutorial

    Outputnya mirip dengan hal berikut ini:

    tableId               Type
    --------------------- -------
    imported_onnx_model  MODEL

Untuk mengetahui informasi selengkapnya tentang cara mengimpor model ONNX ke BigQuery, termasuk persyaratan format dan penyimpanan, lihat Pernyataan CREATE MODEL untuk mengimpor model ONNX.

Membuat tabel objek di BigQuery untuk menganalisis data gambar

Tabel objek adalah tabel hanya baca pada objek data tidak terstruktur yang berada di Cloud Storage. Tabel objek memungkinkan Anda menganalisis data tidak terstruktur dari BigQuery.

Dalam tutorial ini, Anda akan menggunakan fungsi ML.PREDICT untuk menampilkan label class yang diprediksi dari gambar input yang disimpan di bucket Cloud Storage.

Untuk membuat tabel objek, Anda harus melakukan hal berikut:

  • Buat bucket Cloud Storage dan upload gambar ikan mas.
  • Buat koneksi resource Cloud yang digunakan untuk mengakses tabel objek.
  • Berikan akses ke akun layanan koneksi resource.

Membuat bucket dan mengupload gambar

Ikuti langkah-langkah berikut untuk membuat bucket Cloud Storage dan mengupload gambar ikan mas.

Konsol

  1. Di Konsol Google Cloud, buka halaman Bucket Cloud Storage.

    Buka Buckets

  2. Klik Create.

  3. Di halaman Buat bucket, masukkan informasi bucket Anda.

    1. Di bagian Mulai, lakukan tindakan berikut:

      1. Di kotak, masukkan bqml_images.

      2. Klik Lanjutkan.

    2. Di bagian Pilih tempat untuk menyimpan data, lakukan hal berikut:

      1. Untuk Jenis lokasi, pilih Multi-region.

      2. Dari menu jenis lokasi, pilih US (multiple regions in United States).

      3. Klik Lanjutkan.

    3. Di bagian Pilih kelas penyimpanan untuk data Anda:

      1. Pilih Tetapkan class default.

      2. Pilih Standar.

      3. Klik Lanjutkan.

    4. Di bagian yang tersisa, biarkan nilai default.

  4. Klik Buat.

Command line

Masukkan perintah gcloud storage buckets create berikut:

gcloud storage buckets create gs://bqml_images --location=us

Jika permintaan berhasil, perintah akan menampilkan pesan berikut ini:

Creating gs://bqml_images/...

Mengupload gambar ke bucket Cloud Storage

Setelah bucket dibuat, download gambar ikan mas, lalu upload ke bucket Cloud Storage Anda.

Selesaikan langkah-langkah berikut untuk mengupload gambar:

Konsol

  1. Di Konsol Google Cloud, buka halaman Bucket Cloud Storage.

    Buka Buckets

  2. Dalam daftar bucket, klik bqml_images.

  3. Di tab Objects untuk bucket, lakukan salah satu hal berikut:

    • Tarik file dari desktop atau pengelola file ke panel utama di Konsol Google Cloud.

    • Klik Upload > Upload file, pilih file gambar yang ingin diupload dalam dialog yang muncul, lalu klik Buka.

Command line

Masukkan perintah gcloud storage cp berikut:

gcloud storage cp OBJECT_LOCATION gs://bqml_images/IMAGE_NAME

Ganti kode berikut:

  • OBJECT_LOCATION: jalur lokal ke file gambar Anda. Contoh, Desktop/goldfish.jpg.
  • IMAGE_NAME: nama image. Contoh, goldfish.jpg.

Jika berhasil, responsnya akan terlihat mirip dengan berikut ini:

Completed files 1/1 | 164.3kiB/164.3kiB

Membuat koneksi resource BigQuery Cloud

Anda harus memiliki koneksi resource Cloud untuk terhubung ke tabel objek yang akan Anda buat nanti dalam tutorial ini.

Dengan koneksi resource cloud, Anda dapat membuat kueri data yang disimpan di luar BigQuery di Google Cloud layanan seperti Cloud Storage atau Spanner, atau di sumber pihak ketiga seperti AWS atau Azure. Koneksi eksternal ini menggunakan BigQuery Connection API.

Ikuti langkah-langkah berikut untuk membuat koneksi resource Cloud.

Konsol

  1. Buka halaman BigQuery Studio.

    Buka BigQuery Studio

  2. Untuk membuat koneksi, klik Tambahkan, lalu klik Koneksi ke sumber data eksternal.

  3. Dalam daftar Connection type, pilih Vertex AI remote models, remote functions and BigLake (Cloud Resource).

  4. Di kolom Connection ID, masukkan bqml_tutorial.

  5. Pastikan Multi-region—US dipilih.

  6. Klik Create connection.

  7. Di bagian bawah jendela, klik Go to connection. Atau, di panel Penjelajah, luaskan Koneksi eksternal, lalu klik us.bqml_tutorial.

  8. Di panel Connection info, salin ID akun layanan. Anda memerlukan ID ini saat mengonfigurasi izin untuk koneksi. Saat Anda membuat resource koneksi, BigQuery akan membuat akun layanan sistem unik dan mengaitkannya dengan koneksi.

bq

  1. Buat koneksi:

    bq mk --connection --location=US --project_id=PROJECT_ID \
        --connection_type=CLOUD_RESOURCE bqml_tutorial

    Ganti PROJECT_ID dengan project ID Google Cloud Anda. Parameter --project_id akan mengganti project default.

    Saat Anda membuat resource koneksi, BigQuery akan membuat akun layanan sistem unik dan mengaitkannya dengan koneksi.

    Pemecahan masalah: Jika Anda mendapatkan error koneksi berikut, update Google Cloud SDK:

    Flags parsing error: flag --connection_type=CLOUD_RESOURCE: value should be one of...
    
  2. Ambil dan salin ID akun layanan untuk digunakan di langkah berikutnya:

    bq show --connection PROJECT_ID.us.bqml_tutorial

    Outputnya mirip dengan hal berikut ini:

    name                          properties
    1234.REGION.CONNECTION_ID {"serviceAccountId": "connection-1234-9u56h9@gcp-sa-bigquery-condel.iam.gserviceaccount.com"}
    

Menyiapkan akses koneksi

Berikan peran Storage Object Admin ke akun layanan koneksi resource Cloud. Anda harus memberikan peran ini di project yang sama dengan project tempat Anda membuat endpoint model jarak jauh.

Untuk memberikan peran, ikuti langkah-langkah berikut:

  1. Buka halaman IAM & Admin.

    Buka IAM & Admin

  2. Klik Berikan Akses.

  3. Di kolom New principals, masukkan ID akun layanan koneksi resource Cloud yang Anda salin sebelumnya.

  4. Di kolom Select a role, pilih Cloud Storage, lalu pilih Storage object admin.

  5. Klik Simpan.

Membuat tabel objek

Ikuti langkah-langkah berikut untuk membuat tabel objek bernama goldfish_image_table menggunakan gambar ikan mas yang Anda upload ke Cloud Storage.

Konsol

  1. Buka halaman BigQuery Studio.

    Buka BigQuery Studio

  2. Di editor kueri, masukkan kueri ini untuk membuat tabel objek.

    CREATE EXTERNAL TABLE `bqml_tutorial.goldfish_image_table`
    WITH CONNECTION `us.bqml_tutorial`
    OPTIONS(
    object_metadata = 'SIMPLE',
    uris = ['gs://bqml_images/IMAGE_NAME'],
    max_staleness = INTERVAL 1 DAY,
    metadata_cache_mode = 'AUTOMATIC');

    Ganti IMAGE_NAME dengan nama file gambar—misalnya, goldfish.jpg.

    Setelah operasi selesai, Anda akan melihat pesan seperti This statement created a new table named goldfish_image_table.

bq

  1. Buat tabel objek dengan memasukkan pernyataan CREATE EXTERNAL TABLE berikut.

    bq query --use_legacy_sql=false \
    "CREATE EXTERNAL TABLE `bqml_tutorial.goldfish_image_table`
    WITH CONNECTION `us.bqml_tutorial`
    OPTIONS(
    object_metadata = 'SIMPLE',
    uris = ['gs://bqml_images/IMAGE_NAME'],
    max_staleness = INTERVAL 1 DAY,
    metadata_cache_mode = 'AUTOMATIC')"

    Ganti IMAGE_NAME dengan nama file gambar—misalnya, goldfish.jpg.

  2. Setelah Anda membuat tabel objek, pastikan tabel tersebut muncul di set data.

    bq ls bqml_tutorial

    Outputnya mirip dengan hal berikut ini:

    tableId               Type
    --------------------- --------
    goldfish_image_table  EXTERNAL

Untuk mengetahui informasi selengkapnya, lihat Membuat tabel objek.

Membuat prediksi dengan model ONNX yang diimpor

Anda menggunakan kueri berikut yang berisi fungsi ML.PREDICT untuk membuat prediksi dari data gambar di tabel objek input goldfish_image_table. Kueri ini menghasilkan label class yang diprediksi dari gambar input berdasarkan kamus label ImageNet.

Dalam kueri, fungsi ML.DECODE_IMAGE diperlukan untuk mendekode data gambar sehingga dapat ditafsirkan oleh ML.PREDICT. Fungsi ML.RESIZE_IMAGE dipanggil untuk mengubah ukuran gambar agar sesuai dengan ukuran input model (224*224).

Untuk informasi selengkapnya tentang menjalankan inferensi pada tabel objek gambar, lihat Menjalankan inferensi pada tabel objek gambar.

Untuk membuat prediksi dari data gambar, lakukan hal berikut.

Konsol

  1. Buka halaman BigQuery Studio.

    Buka BigQuery Studio

  2. Di editor kueri, masukkan kueri ML.PREDICT berikut.

     SELECT
       class_label
     FROM
       ML.PREDICT(MODEL bqml_tutorial.imported_onnx_model,
         (
         SELECT
           ML.RESIZE_IMAGE(ML.DECODE_IMAGE(DATA),
             224,
             224,
             FALSE) AS input
         FROM
           bqml_tutorial.goldfish_image_table))
     

    Hasil kueri mirip dengan berikut ini:

    Hasil kueri ML.PREDICT

bq

Masukkan perintah bq query berikut:

bq query --use_legacy_sql=false \
'SELECT
  class_label
FROM
  ML.PREDICT(MODEL `bqml_tutorial.imported_onnx_model`,
    (
    SELECT
      ML.RESIZE_IMAGE(ML.DECODE_IMAGE(DATA),
        224,
        224,
        FALSE) AS input
    FROM
      bqml_tutorial.goldfish_image_table))'

Pembersihan

Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.

Menghapus project

Konsol

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

gcloud

    Delete a Google Cloud project:

    gcloud projects delete PROJECT_ID

Menghapus resource satu per satu

Atau, untuk menghapus setiap resource yang digunakan dalam tutorial ini, lakukan langkah-langkah berikut:

  1. Hapus model yang diimpor.

  2. (Opsional) Hapus set data.

  3. Hapus koneksi resource Cloud.

  4. Hapus bucket Cloud Storage.

Langkah berikutnya