Pengantar BigQuery ML

BigQuery ML memungkinkan Anda membuat dan menjalankan model machine learning (ML) menggunakan kueri GoogleSQL. Selain itu, Anda juga dapat mengakses LLM dan Cloud AI API untuk melakukan tugas kecerdasan buatan (AI) seperti pembuatan teks atau terjemahan mesin.

Biasanya, menjalankan ML atau AI pada set data besar memerlukan pemrograman dan pengetahuan framework ML yang luas. Persyaratan ini membatasi pengembangan solusi ke sekelompok kecil orang di dalam setiap perusahaan, dan mengecualikan analis data yang memahami data, tetapi memiliki pengetahuan dan keahlian pemrograman ML yang terbatas. Namun, dengan BigQuery ML, praktisi SQL dapat menggunakan alat dan keterampilan SQL yang sudah ada untuk membangun dan mengevaluasi model, serta untuk menghasilkan hasil dari LLM dan API AI Cloud.

Anda dapat menggunakan fungsi BigQuery ML menggunakan cara berikut:

  • Konsol Google Cloud
  • Alat command line bq
  • REST API BigQuery
  • Notebook Colab Enterprise di BigQuery yang terintegrasi
  • Alat eksternal seperti Jupyter notebook atau platform intelijen bisnis

Keunggulan BigQuery ML

BigQuery ML menawarkan beberapa keunggulan dibandingkan pendekatan lain untuk menggunakan ML atau AI dengan data warehouse berbasis cloud:

  • BigQuery ML mendemokrasikan penggunaan ML dan AI dengan memberdayakan analis data, yang merupakan pengguna data warehouse utama, untuk membangun dan menjalankan model menggunakan alat dan spreadsheet business intelligence yang sudah ada. Analisis prediktif dapat memandu proses pengambilan keputusan bisnis di seluruh perusahaan.
  • Anda tidak perlu memprogram solusi ML atau AI menggunakan Python atau Java. Anda melatih model dan mengakses resource AI menggunakan SQL, bahasa yang tidak asing bagi analis data.
  • BigQuery ML meningkatkan kecepatan pengembangan dan inovasi model dengan meniadakan kebutuhan untuk memindahkan data dari data warehouse. Sebagai gantinya, BigQuery ML menghadirkan ML ke data, yang menawarkan manfaat berikut:

    • Mengurangi kerumitan karena memerlukan lebih sedikit alat.
    • Meningkatkan kecepatan ke produksi karena memindahkan dan memformat data dalam jumlah besar untuk framework ML berbasis Python tidak diperlukan dalam melatih model di BigQuery.

    Untuk mengetahui informasi selengkapnya, tonton video Cara mempercepat pengembangan machine learning dengan BigQuery ML.

Model yang didukung

model di BigQuery ML mewakili apa yang telah dipelajari sistem ML dari data pelatihan. Bagian berikut menjelaskan jenis model yang didukung BigQuery ML.

Model yang dilatih secara internal

Model berikut merupakan bawaan di BigQuery ML:

  • Regresi linear ditujukan untuk perkiraan. Misalnya, model ini memperkirakan penjualan suatu item pada hari tertentu. Label bernilai nyata, artinya tidak boleh bernilai tak terhingga positif atau tak terhingga negatif atau NaN (Bukan Angka).
  • Regresi logistik digunakan untuk klasifikasi dua atau beberapa nilai yang mungkin, seperti apakah inputnya low-value, medium-value, atau high-value. Label dapat memiliki hingga 50 nilai unik.
  • Pengelompokan k-means ditujukan untuk segmentasi data. Misalnya, model ini mengidentifikasi segmen pelanggan. K-means adalah teknik unsupervised learning, sehingga pelatihan model tidak memerlukan label atau data terpisah untuk pelatihan atau evaluasi.
  • Faktorisasi matriks digunakan untuk membuat sistem rekomendasi produk. Anda dapat membuat rekomendasi produk menggunakan histori perilaku pelanggan, transaksi, dan rating produk, lalu menggunakan rekomendasi tersebut untuk pengalaman pelanggan yang dipersonalisasi.
  • Analisis komponen utama (PCA) adalah proses komputasi komponen utama dan penggunaan komponen tersebut untuk melakukan perubahan dasar pada data. Analisis ini biasanya digunakan untuk pengurangan dimensi dengan memproyeksikan setiap titik data ke hanya beberapa komponen utama pertama guna mendapatkan data dimensi yang lebih rendah sekaligus mempertahankan variasi data sebanyak mungkin.
  • Deret waktu digunakan untuk menjalankan perkiraan deret waktu. Anda dapat menggunakan fitur ini untuk membuat jutaan model deret waktu dan menggunakannya untuk perkiraan. Model ini akan otomatis menangani anomali, tren musiman, dan hari libur.

Anda dapat menjalankan uji coba pada pernyataan CREATE MODEL untuk model yang dilatih secara internal guna mendapatkan perkiraan jumlah data yang akan diproses jika Anda menjalankannya.

Model yang dilatih secara eksternal

Model berikut merupakan model eksternal dari BigQuery ML dan dilatih di Vertex AI:

  • Deep neural network (DNN) adalah untuk membuat deep neural network berbasis TensorFlow untuk model klasifikasi dan regresi.
  • Wide & Deep berguna untuk masalah regresi dan klasifikasi generik berskala besar dengan input sparse (fitur kategoris dengan sejumlah besar nilai fitur yang mungkin), seperti sistem pemberi rekomendasi, penelusuran, dan masalah peringkat.
  • Autoencoder digunakan untuk membuat model berbasis TensorFlow dengan dukungan representasi data sparse. Anda dapat menggunakan model di BigQuery ML untuk tugas-tugas seperti deteksi anomali yang tidak diawasi dan pengurangan dimensi non-linear.
  • Boosted Tree adalah untuk membuat model klasifikasi dan regresi yang didasarkan pada XGBoost.
  • Hutan acak digunakan untuk membuat beberapa pohon keputusan metode pembelajaran untuk klasifikasi, regresi, dan tugas lainnya pada waktu pelatihan.
  • AutoML adalah layanan ML yang diawasi yang membangun dan men-deploy model klasifikasi dan regresi pada data tabulasi dengan kecepatan dan skala tinggi.

Anda tidak dapat menjalankan uji coba pada pernyataan CREATE MODEL untuk model yang dilatih secara eksternal guna mendapatkan perkiraan jumlah data yang akan diproses jika Anda menjalankannya.

Model jarak jauh

Anda dapat membuat model jarak jauh di BigQuery yang menggunakan model yang di-deploy ke Vertex AI. Anda mereferensikan model yang di-deploy dengan menentukan endpoint HTTPS model dalam pernyataan CREATE MODEL model jarak jauh.

Pernyataan CREATE MODEL untuk model jarak jauh tidak memproses byte apa pun dan tidak dikenai biaya BigQuery.

Model yang diimpor

Dengan BigQuery ML, Anda dapat mengimpor model kustom yang dilatih di luar BigQuery, lalu melakukan prediksi dalam BigQuery. Anda dapat mengimpor model berikut ke BigQuery dari Cloud Storage:

  • Pertukaran Jaringan Neural Terbuka (ONNX) adalah format standar terbuka untuk merepresentasikan model ML. Dengan ONNX, Anda dapat membuat model yang dilatih dengan framework ML populer, seperti PyTorch dan scikit-learn yang tersedia di BigQuery ML.
  • TensorFlow adalah library software open source gratis untuk ML dan kecerdasan buatan. Anda dapat menggunakan TensorFlow di berbagai tugas, tetapi ia memiliki fokus khusus pada pelatihan dan inferensi jaringan neural dalam. Anda dapat memuat model TensorFlow yang telah dilatih sebelumnya ke BigQuery sebagai model BigQuery ML, lalu melakukan prediksi di BigQuery ML.
  • TensorFlow Lite adalah versi ringan dari TensorFlow untuk deployment di perangkat seluler, mikrokontroler, dan perangkat edge lainnya. TensorFlow mengoptimalkan model TensorFlow yang ada untuk mengurangi ukuran model dan inferensi yang lebih cepat.
  • XGBoost adalah library peningkatan gradien terdistribusi yang dioptimalkan dan dirancang agar sangat efisien, fleksibel, dan portabel. Solusi ini menerapkan algoritma ML dalam framework peningkatan gradien.

Pernyataan CREATE MODEL untuk model yang diimpor tidak memproses byte apa pun dan tidak dikenai biaya BigQuery.

Di BigQuery ML, Anda dapat menggunakan model dengan data dari beberapa Set Data BigQuery untuk pelatihan dan untuk prediksi.

Panduan pemilihan model

Pohon keputusan ini memetakan model ML ke tindakan yang ingin Anda capai. Download pohon keputusan pemilihan model.

Resource AI yang didukung

Anda dapat menggunakan model jarak jauh untuk mengakses resource AI seperti LLM dari BigQuery ML. BigQuery ML mendukung resource AI berikut:

BigQuery ML dan Vertex AI

BigQuery ML terintegrasi dengan Vertex AI, yang merupakan platform menyeluruh untuk AI dan ML di Google Cloud. Saat mendaftarkan model BigQuery ML ke Model Registry, Anda dapat men-deploy model ini ke endpoint untuk prediksi online. Untuk informasi selengkapnya, lihat referensi berikut:

BigQuery ML dan Colab Enterprise

Anda kini dapat menggunakan notebook Colab Enterprise untuk menjalankan alur kerja ML di BigQuery. Notebook memungkinkan Anda menggunakan SQL, Python, serta library dan bahasa populer lainnya untuk menyelesaikan tugas ML. Untuk mengetahui informasi selengkapnya, lihat Membuat notebook.

Region yang didukung

BigQuery ML didukung di region yang sama dengan BigQuery. Untuk mengetahui informasi selengkapnya, baca artikel Lokasi BigQuery ML.

Harga

Model ML BigQuery disimpan dalam set data BigQuery seperti tabel dan tabel virtual. Untuk mengetahui informasi tentang harga BigQuery ML, baca artikel Harga BigQuery ML.

Untuk mengetahui harga penyimpanan BigQuery, lihat Harga penyimpanan.

Untuk mengetahui harga kueri BigQuery ML, lihat Harga kueri.

Kuota

Selain batas khusus BigQuery ML, kueri yang menggunakan fungsi BigQuery ML dan pernyataan CREATE MODEL tunduk pada kuota dan batasan di tugas kueri BigQuery.

Batasan

Langkah selanjutnya