Pengantar BigQuery ML
BigQuery ML memungkinkan Anda membuat dan menjalankan model machine learning (ML) menggunakan kueri GoogleSQL. Selain itu, platform ini juga memungkinkan Anda mengakses model Vertex AI dan Cloud AI API untuk melakukan tugas kecerdasan buatan (AI) seperti pembuatan teks atau terjemahan mesin.
Biasanya, menjalankan ML atau AI pada set data besar memerlukan pemrograman dan pengetahuan framework ML yang luas. Persyaratan ini membatasi pengembangan solusi ke sekelompok kecil orang di dalam setiap perusahaan, dan mengecualikan analis data yang memahami data, tetapi memiliki pengetahuan dan keahlian pemrograman ML yang terbatas. Namun, dengan BigQuery ML, praktisi SQL dapat menggunakan alat dan keterampilan SQL yang sudah ada untuk membangun dan mengevaluasi model, serta untuk menghasilkan hasil dari LLM dan API AI Cloud.
Anda dapat menggunakan kemampuan BigQuery ML dengan menggunakan hal berikut:
- Konsol Google Cloud
- Alat command line bq
- REST API BigQuery
- Notebook Colab Enterprise di BigQuery yang terintegrasi
- Alat eksternal seperti Jupyter notebook atau platform intelijen bisnis
Keunggulan BigQuery ML
BigQuery ML menawarkan beberapa keunggulan dibandingkan pendekatan lain untuk menggunakan ML atau AI dengan data warehouse berbasis cloud:
- BigQuery ML mendemokrasikan penggunaan ML dan AI dengan memberdayakan analis data, yang merupakan pengguna data warehouse utama, untuk membangun dan menjalankan model menggunakan alat dan spreadsheet business intelligence yang sudah ada. Analisis prediktif dapat memandu proses pengambilan keputusan bisnis di seluruh perusahaan.
- Anda tidak perlu memprogram solusi ML atau AI menggunakan Python atau Java. Anda melatih model dan mengakses resource AI menggunakan SQL, bahasa yang tidak asing bagi analis data.
BigQuery ML meningkatkan kecepatan pengembangan dan inovasi model dengan meniadakan kebutuhan untuk memindahkan data dari data warehouse. Sebagai gantinya, BigQuery ML menghadirkan ML ke data, yang menawarkan manfaat berikut:
- Mengurangi kerumitan karena memerlukan lebih sedikit alat.
- Meningkatkan kecepatan ke produksi karena memindahkan dan memformat data dalam jumlah besar untuk framework ML berbasis Python tidak diperlukan dalam melatih model di BigQuery.
Untuk mengetahui informasi selengkapnya, tonton video Cara mempercepat pengembangan machine learning dengan BigQuery ML.
Resource AI yang didukung
Anda dapat menggunakan model jarak jauh untuk mengakses resource AI seperti LLM dari BigQuery ML. BigQuery ML mendukung resource AI berikut:
- AI Generatif dengan menggunakan salah satu model dasar bahasa natural Vertex AI (LLM).
- Penyematan teks atau multimodal dengan menggunakan salah satu model dasar penyematan Vertex AI.
- Natural language processing menggunakan Cloud Natural Language API.
- Terjemahan mesin menggunakan Cloud Translation API.
- Pemrosesan dokumen menggunakan Document AI API.
- Transkripsi audio menggunakan Speech-to-Text API.
- Computer vision menggunakan Cloud Vision API.
Model yang didukung
model di BigQuery ML mewakili apa yang telah dipelajari sistem ML dari data pelatihan. Bagian berikut menjelaskan jenis model yang didukung BigQuery ML.
Model yang dilatih secara internal
Model berikut merupakan bawaan di BigQuery ML:
- Regresi linear ditujukan untuk perkiraan. Misalnya, model ini memperkirakan penjualan suatu item pada hari tertentu. Label bernilai nyata, artinya tidak boleh bernilai tak terhingga positif atau tak terhingga negatif atau NaN (Bukan Angka).
- Regresi logistik digunakan untuk klasifikasi dua atau beberapa nilai yang mungkin, seperti apakah inputnya
low-value
,medium-value
, atauhigh-value
. Label dapat memiliki hingga 50 nilai unik. - Pengelompokan k-means ditujukan untuk segmentasi data. Misalnya, model ini mengidentifikasi segmen pelanggan. K-means adalah teknik unsupervised learning, sehingga pelatihan model tidak memerlukan label atau data terpisah untuk pelatihan atau evaluasi.
- Faktorisasi matriks digunakan untuk membuat sistem rekomendasi produk. Anda dapat membuat rekomendasi produk menggunakan histori perilaku pelanggan, transaksi, dan rating produk, lalu menggunakan rekomendasi tersebut untuk pengalaman pelanggan yang dipersonalisasi.
- Analisis komponen utama (PCA) adalah proses komputasi komponen utama dan penggunaan komponen tersebut untuk melakukan perubahan dasar pada data. Analisis ini biasanya digunakan untuk pengurangan dimensi dengan memproyeksikan setiap titik data ke hanya beberapa komponen utama pertama guna mendapatkan data dimensi yang lebih rendah sekaligus mempertahankan variasi data sebanyak mungkin.
- Deret waktu digunakan untuk menjalankan perkiraan deret waktu. Anda dapat menggunakan fitur ini untuk membuat jutaan model deret waktu dan menggunakannya untuk perkiraan. Model ini akan otomatis menangani anomali, tren musiman, dan hari libur.
Anda dapat menjalankan uji coba pada pernyataan CREATE MODEL
untuk model yang dilatih secara internal guna mendapatkan perkiraan jumlah data yang akan diproses jika Anda menjalankannya.
Model yang dilatih secara eksternal
Model berikut merupakan model eksternal dari BigQuery ML dan dilatih di Vertex AI:
- Deep neural network (DNN) adalah untuk membuat deep neural network berbasis TensorFlow untuk model klasifikasi dan regresi.
- Wide & Deep berguna untuk masalah regresi dan klasifikasi generik berskala besar dengan input sparse (fitur kategoris dengan sejumlah besar nilai fitur yang mungkin), seperti sistem pemberi rekomendasi, penelusuran, dan masalah peringkat.
- Autoencoder digunakan untuk membuat model berbasis TensorFlow dengan dukungan representasi data sparse. Anda dapat menggunakan model di BigQuery ML untuk tugas-tugas seperti deteksi anomali yang tidak diawasi dan pengurangan dimensi non-linear.
- Boosted Tree adalah untuk membuat model klasifikasi dan regresi yang didasarkan pada XGBoost.
- Hutan acak digunakan untuk membuat beberapa pohon keputusan metode pembelajaran untuk klasifikasi, regresi, dan tugas lainnya pada waktu pelatihan.
- AutoML adalah layanan ML yang diawasi yang membangun dan men-deploy model klasifikasi dan regresi pada data tabulasi dengan kecepatan dan skala tinggi.
Anda tidak dapat menjalankan uji coba pada pernyataan CREATE MODEL
untuk model yang dilatih secara eksternal guna mendapatkan perkiraan jumlah data yang akan diproses jika Anda menjalankannya.
Model jarak jauh
Anda dapat membuat
model jarak jauh
di BigQuery yang menggunakan model yang di-deploy ke Vertex AI.
Anda mereferensikan model yang di-deploy dengan menentukan endpoint HTTPS model dalam pernyataan CREATE MODEL
model jarak jauh.
Pernyataan CREATE MODEL
untuk model jarak jauh tidak memproses byte apa pun dan tidak dikenai biaya BigQuery.
Model yang diimpor
Dengan BigQuery ML, Anda dapat mengimpor model kustom yang dilatih di luar BigQuery, lalu melakukan prediksi dalam BigQuery. Anda dapat mengimpor model berikut ke BigQuery dari Cloud Storage:
- Pertukaran Jaringan Neural Terbuka (ONNX) adalah format standar terbuka untuk merepresentasikan model ML. Dengan ONNX, Anda dapat membuat model yang dilatih dengan framework ML populer, seperti PyTorch dan scikit-learn yang tersedia di BigQuery ML.
- TensorFlow adalah library software open source gratis untuk ML dan kecerdasan buatan. Anda dapat menggunakan TensorFlow di berbagai tugas, tetapi ia memiliki fokus khusus pada pelatihan dan inferensi jaringan neural dalam. Anda dapat memuat model TensorFlow yang telah dilatih sebelumnya ke BigQuery sebagai model BigQuery ML, lalu melakukan prediksi di BigQuery ML.
- TensorFlow Lite adalah versi ringan dari TensorFlow untuk deployment di perangkat seluler, mikrokontroler, dan perangkat edge lainnya. TensorFlow mengoptimalkan model TensorFlow yang ada untuk mengurangi ukuran model dan inferensi yang lebih cepat.
- XGBoost adalah library peningkatan gradien terdistribusi yang dioptimalkan dan dirancang agar sangat efisien, fleksibel, dan portabel. Solusi ini menerapkan algoritma ML dalam framework peningkatan gradien.
Pernyataan CREATE MODEL
untuk model yang diimpor tidak memproses byte apa pun dan tidak dikenai biaya BigQuery.
Di BigQuery ML, Anda dapat menggunakan model dengan data dari beberapa Set Data BigQuery untuk pelatihan dan untuk prediksi.
Panduan pemilihan model
Download pohon keputusan pemilihan model.
BigQuery ML dan Vertex AI
BigQuery ML terintegrasi dengan Vertex AI, yang merupakan platform menyeluruh untuk AI dan ML di Google Cloud. Saat mendaftarkan model BigQuery ML ke Model Registry, Anda dapat men-deploy model ini ke endpoint untuk prediksi online. Untuk informasi selengkapnya, lihat referensi berikut:
- Untuk mempelajari lebih lanjut cara menggunakan model BigQuery ML dengan Vertex AI, lihat Mengelola model BigQuery ML dengan Vertex AI.
- Jika Anda tidak terbiasa dengan Vertex AI dan ingin mempelajari lebih lanjut caranya berintegrasi dengan BigQuery ML, lihat Vertex AI untuk pengguna BigQuery.
- Tonton video Cara menyederhanakan model AI dengan Vertex AI dan BigQuery ML.
BigQuery ML dan Colab Enterprise
Anda kini dapat menggunakan notebook Colab Enterprise untuk menjalankan alur kerja ML di BigQuery. Notebook memungkinkan Anda menggunakan SQL, Python, serta library dan bahasa populer lainnya untuk menyelesaikan tugas ML. Untuk mengetahui informasi selengkapnya, lihat Membuat notebook.
Region yang didukung
BigQuery ML didukung di region yang sama dengan BigQuery. Untuk mengetahui informasi selengkapnya, baca artikel Lokasi BigQuery ML.
Harga
Model ML BigQuery disimpan dalam set data BigQuery seperti tabel dan tabel virtual. Untuk mengetahui informasi tentang harga BigQuery ML, baca artikel Harga BigQuery ML.
Untuk mengetahui harga penyimpanan BigQuery, lihat Harga penyimpanan.
Untuk mengetahui harga kueri BigQuery ML, lihat Harga kueri.
Kuota
Selain batas khusus BigQuery ML, kueri yang menggunakan fungsi BigQuery ML dan pernyataan CREATE MODEL
tunduk pada kuota dan batasan di tugas kueri BigQuery.
Batasan
- BigQuery ML tidak tersedia di edisi Standar.
- BigQuery ML tidak memicu slot penskalaan otomatis. Anda harus menetapkan jumlah slot dasar pengukuran untuk menggunakan BigQuery ML dengan edisi BigQuery. Batasan ini hanya berlaku untuk model yang dilatih secara eksternal, bukan model yang dilatih secara internal. Untuk mengetahui informasi selengkapnya tentang jenis model, baca Model yang didukung.
Langkah selanjutnya
- Untuk mulai menggunakan BigQuery ML, lihat Membuat model machine learning di BigQuery ML.
- Untuk mempelajari machine learning dan BigQuery ML lebih lanjut, baca referensi berikut:
- Kursus Menerapkan Machine Learning ke data Anda dengan Google Cloud di Coursera
- Program pelatihan Analisis smart dan pengelolaan data
- Kursus singkat machine learning
- Glosarium machine learning
- Untuk mempelajari MLOps dengan Model Registry, lihat Mengelola model BigQuery ML di Vertex AI.