Anda dapat mempelajari hasil kueri BigQuery menggunakan notebook Colab Enterprise di BigQuery.
Dalam tutorial ini, Anda akan mengkueri data dari set data publik BigQuery dan mempelajari hasil kuerinya di notebook.
Tujuan
- Membuat dan menjalankan kueri di BigQuery.
- Jelajahi hasil kueri di notebook.
Biaya
Tutorial ini menggunakan set data yang tersedia melalui Program Set Data Publik Google Cloud. Google membayar penyimpanan set data ini dan memberikan akses publik ke data tersebut. Anda dikenai biaya untuk kueri yang dilakukan pada data. Untuk mengetahui informasi lebih lanjut, lihat harga BigQuery.
Sebelum memulai
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan BigQuery API.
Untuk project baru, BigQuery diaktifkan secara otomatis.
Mengaktifkan BigQuery Studio
Ikuti petunjuk di artikel Mengaktifkan BigQuery Studio untuk pengelolaan aset guna menyimpan, membagikan, dan mengelola versi aset kode seperti notebook.
Izin yang diperlukan
Untuk membuat dan menjalankan notebook, Anda memerlukan peran Identity and Access Management (IAM) berikut:
- Pengguna BigQuery (
roles/bigquery.user
) - Pengguna Runtime Notebook (
roles/aiplatform.notebookRuntimeUser
) - Pembuat Kode (
roles/dataform.codeCreator
)
Membuka hasil kueri di notebook
Anda dapat menjalankan kueri SQL dan kemudian menggunakan {i>notebook<i} untuk mengeksplorasi data. Pendekatan ini berguna jika Anda ingin memodifikasi data di BigQuery sebelum menanganinya, atau jika Anda hanya memerlukan subset kolom dalam tabel.
Di konsol Google Cloud, buka halaman BigQuery.
Di kolom Ketik untuk menelusuri, masukkan
bigquery-public-data
.Jika project tidak ditampilkan, masukkan
bigquery
di kolom penelusuran, lalu klik Search to all projects untuk mencocokkan string penelusuran dengan project yang sudah ada.Pilih bigquery-public-data > ml_datasets > penguin.
Untuk tabel penguins, klik
View actions, lalu klik Query.Tambahkan tanda bintang (
*
) untuk pemilihan kolom ke kueri yang dihasilkan, sehingga terbaca seperti contoh berikut:SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
Klik
Run.Di bagian Query results, klik Explore data, lalu klik Explore with Python notebook.
Menyiapkan notebook untuk digunakan
Siapkan notebook untuk digunakan dengan menghubungkan ke runtime dan menetapkan nilai default aplikasi.
- Di header notebook, klik Hubungkan untuk terhubung ke runtime default.
- Di blok kode Setup, klik Run cell.
Jelajahi data
- Untuk memuat data penguin ke BigQuery DataFrame dan menampilkan hasilnya, klik Jalankan sel pada blok kode di bagian Hasil set yang dimuat dari tugas BigQuery sebagai DataFrame.
- Untuk mendapatkan metrik deskriptif untuk data, klik Jalankan sel dalam blok kode di bagian Tampilkan statistik deskriptif menggunakan deskripsi().
- Opsional: Gunakan fungsi atau paket Python lainnya untuk menjelajahi dan menganalisis data.
Contoh kode berikut menunjukkan penggunaan
bigframes.pandas
untuk menganalisis data, dan bigframes.ml
untuk membuat model regresi linear dari data penguin di
BigQuery DataFrame:
Pembersihan
Agar tidak dikenakan biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource-nya.
Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project Google Cloud yang Anda buat untuk tutorial ini.
- Di konsol Google Cloud, buka halaman Manage resource.
- Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
- Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.
Langkah selanjutnya
- Pelajari lebih lanjut cara membuat notebook di BigQuery.
- Pelajari lebih lanjut cara mengeksplorasi data dengan BigQuery DataFrames.