Pengantar AI dan ML di BigQuery

BigQuery ML memungkinkan Anda membuat dan menjalankan model machine learning (ML) menggunakan kueri GoogleSQL. Model BigQuery ML disimpan dalam set data BigQuery, mirip dengan tabel dan tampilan. BigQuery ML juga memungkinkan Anda mengakses model Vertex AI dan Cloud AI API untuk melakukan tugas kecerdasan buatan (AI) seperti pembuatan teks atau terjemahan mesin. Gemini untuk Google Cloud juga memberikan bantuan yang didukung teknologi AI untuk tugas BigQuery. Untuk melihat daftar fitur yang didukung AI di BigQuery, lihat Ringkasan Gemini di BigQuery.

Biasanya, menjalankan ML atau AI pada set data besar memerlukan pemrograman dan pengetahuan yang luas tentang framework ML. Persyaratan ini membatasi pengembangan solusi ke sekelompok kecil orang di setiap perusahaan, dan kelompok tersebut tidak mencakup analis data yang memahami data tetapi memiliki pengetahuan ML dan keahlian pemrograman yang terbatas. Namun, dengan BigQuery ML, praktisi SQL dapat menggunakan alat dan keterampilan SQL yang ada untuk membuat dan mengevaluasi model, serta menghasilkan hasil dari LLM dan Cloud AI API.

Anda dapat menggunakan kemampuan BigQuery ML menggunakan cara berikut:

  • Konsol Google Cloud
  • Alat command line bq
  • REST API BigQuery
  • Notebook Colab Enterprise di BigQuery yang terintegrasi
  • Alat eksternal seperti Jupyter notebook atau platform business intelligence

Keunggulan BigQuery ML

BigQuery ML menawarkan beberapa keunggulan penggunaan ML atau AI dengan data warehouse berbasis cloud dibandingkan pendekatan lain:

  • BigQuery ML mendemokrasikan penggunaan ML dan AI dengan memberdayakan analis data, pengguna data warehouse utama, untuk membangun dan menjalankan model menggunakan alat dan spreadsheet business intelligence yang sudah ada. Analisis prediktif dapat memandu proses pengambilan keputusan bisnis di seluruh perusahaan.
  • Anda tidak perlu memprogram solusi ML atau AI menggunakan Python atau Java. Anda dapat melatih model dan mengakses resource AI menggunakan SQL—bahasa yang tidak asing bagi analis data.
  • BigQuery ML meningkatkan kecepatan pengembangan dan inovasi model dengan meniadakan kebutuhan untuk memindahkan data dari data warehouse. Sebagai gantinya, BigQuery ML menghadirkan ML ke data, yang menawarkan manfaat berikut:

    • Mengurangi kerumitan karena memerlukan lebih sedikit alat.
    • Meningkatkan kecepatan ke produksi karena memindahkan dan memformat data dalam jumlah besar untuk framework ML berbasis Python tidak diperlukan dalam melatih model di BigQuery.

    Untuk mengetahui informasi selengkapnya, tonton video Cara mempercepat pengembangan machine learning dengan BigQuery ML.

AI generatif dan model terlatih

Anda dapat menggunakan model jarak jauh untuk mengakses model Vertex AI dan Cloud AI API dari BigQuery ML untuk melakukan tugas berikut:

Model yang didukung

Model di BigQuery ML mewakili apa yang telah dipelajari sistem ML dari data pelatihan. Bagian berikut menjelaskan jenis model yang didukung BigQuery ML.

Model yang dilatih secara internal

Model berikut merupakan bawaan di BigQuery ML:

  • Analisis kontribusi (Pratinjau) digunakan untuk menentukan efek satu atau beberapa dimensi terhadap nilai untuk metrik tertentu. Misalnya, melihat efek lokasi toko dan tanggal penjualan terhadap pendapatan toko. Untuk informasi selengkapnya, lihat Ringkasan analisis kontribusi.
  • Regresi linear adalah untuk memprediksi nilai metrik numerik untuk data baru menggunakan model yang dilatih pada data jarak jauh yang serupa. Label bernilai nyata, artinya tidak boleh bernilai tak terhingga positif atau tak terhingga negatif atau NaN (Bukan Angka).
  • Regresi logistik digunakan untuk klasifikasi dua atau beberapa nilai yang mungkin, seperti apakah inputnya low-value, medium-value, atau high-value. Label dapat memiliki hingga 50 nilai unik.
  • Pengelompokan k-means ditujukan untuk segmentasi data. Misalnya, model ini mengidentifikasi segmen pelanggan. K-means adalah teknik unsupervised learning, sehingga pelatihan model tidak memerlukan label atau data terpisah untuk pelatihan atau evaluasi.
  • Faktorisasi matriks digunakan untuk membuat sistem rekomendasi produk. Anda dapat membuat rekomendasi produk menggunakan histori perilaku pelanggan, transaksi, dan rating produk, lalu menggunakan rekomendasi tersebut untuk pengalaman pelanggan yang dipersonalisasi.
  • Analisis komponen utama (PCA) adalah proses komputasi komponen utama dan penggunaan komponen tersebut untuk melakukan perubahan dasar pada data. Analisis ini biasanya digunakan untuk pengurangan dimensi dengan memproyeksikan setiap titik data ke hanya beberapa komponen utama pertama guna mendapatkan data dimensi yang lebih rendah sekaligus mempertahankan variasi data sebanyak mungkin.
  • Deret waktu digunakan untuk menjalankan perkiraan deret waktu. Anda dapat menggunakan fitur ini untuk membuat jutaan model deret waktu dan menggunakannya untuk perkiraan. Model ini akan otomatis menangani anomali, tren musiman, dan hari libur.

Anda dapat menjalankan uji coba pada pernyataan CREATE MODEL untuk model yang dilatih secara internal guna mendapatkan perkiraan jumlah data yang akan diproses jika Anda menjalankannya.

Model yang dilatih secara eksternal

Model berikut merupakan model eksternal dari BigQuery ML dan dilatih di Vertex AI:

  • Deep neural network (DNN) digunakan untuk membuat jaringan neural dalam berbasis TensorFlow untuk model klasifikasi dan regresi.
  • Wide & Deep berguna untuk masalah regresi dan klasifikasi generik berskala besar dengan input sparse (fitur kategoris dengan sejumlah besar nilai fitur yang mungkin), seperti sistem pemberi rekomendasi, penelusuran, dan masalah peringkat.
  • Autoencoder digunakan untuk membuat model berbasis TensorFlow dengan dukungan representasi data sparse. Anda dapat menggunakan model di BigQuery ML untuk tugas-tugas seperti deteksi anomali yang tidak diawasi dan pengurangan dimensi non-linear.
  • Boosted Tree adalah untuk membuat model klasifikasi dan regresi yang didasarkan pada XGBoost.
  • Hutan acak digunakan untuk membuat beberapa pohon keputusan metode pembelajaran untuk klasifikasi, regresi, dan tugas lainnya pada waktu pelatihan.
  • AutoML adalah layanan ML yang diawasi yang membuat dan men-deploy model klasifikasi dan regresi pada data berbentuk tabel dengan kecepatan dan skala tinggi.

Anda tidak dapat menjalankan uji coba pada pernyataan CREATE MODEL untuk model yang dilatih secara eksternal guna mendapatkan perkiraan jumlah data yang akan diproses jika Anda menjalankannya.

Model jarak jauh

Anda dapat membuat model jarak jauh di BigQuery yang menggunakan model yang di-deploy ke Vertex AI. Anda mereferensikan model yang di-deploy dengan menentukan endpoint HTTPS model dalam pernyataan CREATE MODEL model jarak jauh.

Pernyataan CREATE MODEL untuk model jarak jauh tidak memproses byte apa pun dan tidak dikenai biaya BigQuery.

Model yang diimpor

Dengan BigQuery ML, Anda dapat mengimpor model kustom yang dilatih di luar BigQuery, lalu melakukan prediksi dalam BigQuery. Anda dapat mengimpor model berikut ke BigQuery dari Cloud Storage:

  • Pertukaran Jaringan Neural Terbuka (ONNX) adalah format standar terbuka untuk merepresentasikan model ML. Dengan ONNX, Anda dapat membuat model yang dilatih dengan framework ML populer, seperti PyTorch dan scikit-learn yang tersedia di BigQuery ML.
  • TensorFlow adalah library software open source gratis untuk ML dan kecerdasan buatan. Anda dapat menggunakan TensorFlow di berbagai tugas, tetapi ia memiliki fokus khusus pada pelatihan dan inferensi jaringan neural dalam. Anda dapat memuat model TensorFlow yang telah dilatih sebelumnya ke BigQuery sebagai model BigQuery ML, lalu melakukan prediksi di BigQuery ML.
  • TensorFlow Lite adalah versi ringan dari TensorFlow untuk deployment di perangkat seluler, mikrokontroler, dan perangkat edge lainnya. TensorFlow mengoptimalkan model TensorFlow yang ada untuk mengurangi ukuran model dan inferensi yang lebih cepat.
  • XGBoost adalah library peningkatan gradien terdistribusi yang dioptimalkan dan dirancang agar sangat efisien, fleksibel, dan portabel. Solusi ini menerapkan algoritma ML dalam framework peningkatan gradien.

Pernyataan CREATE MODEL untuk model yang diimpor tidak memproses byte apa pun dan tidak dikenai biaya BigQuery.

Di BigQuery ML, Anda dapat menggunakan model dengan data dari beberapa Set Data BigQuery untuk pelatihan dan untuk prediksi.

Panduan pemilihan model

Pohon keputusan ini memetakan model ML ke tindakan yang ingin Anda capai. Download pohon keputusan pemilihan model.

BigQuery ML dan Vertex AI

BigQuery ML terintegrasi dengan Vertex AI, yang merupakan platform menyeluruh untuk AI dan ML di Google Cloud. Anda dapat mendaftarkan model BigQuery ML ke Model Registry untuk men-deploy model ini ke endpoint untuk prediksi online. Untuk informasi selengkapnya, lihat referensi berikut:

BigQuery ML dan Colab Enterprise

Anda kini dapat menggunakan notebook Colab Enterprise untuk menjalankan alur kerja ML di BigQuery. Notebook memungkinkan Anda menggunakan SQL, Python, serta library dan bahasa populer lainnya untuk menyelesaikan tugas ML. Untuk mengetahui informasi selengkapnya, lihat Membuat notebook.

Region yang didukung

BigQuery ML didukung di region yang sama dengan BigQuery. Untuk mengetahui informasi selengkapnya, baca artikel Lokasi BigQuery ML.

Harga

Anda akan ditagih untuk resource komputasi yang digunakan untuk melatih model dan untuk menjalankan kueri terhadap model. Jenis model yang Anda buat memengaruhi tempat model dilatih dan harga yang berlaku untuk operasi tersebut. Kueri terhadap model selalu berjalan di BigQuery dan menggunakan harga komputasi BigQuery. Karena model jarak jauh melakukan panggilan ke model Vertex AI, kueri terhadap model jarak jauh juga dikenai biaya dari Vertex AI.

Anda akan ditagih untuk penyimpanan yang digunakan oleh model terlatih, menggunakan harga penyimpanan BigQuery.

Untuk informasi selengkapnya, lihat Harga BigQuery ML.

Kuota

Selain batas khusus BigQuery ML, kueri yang menggunakan fungsi BigQuery ML dan pernyataan CREATE MODEL tunduk pada kuota dan batasan di tugas kueri BigQuery.

Batasan

Langkah berikutnya