Menggunakan plugin BigQuery JupyterLab
Untuk meminta masukan atau dukungan terkait fitur ini, kirim email ke bigquery-ide-plugin@google.com.
Dokumen ini menunjukkan cara menginstal dan menggunakan BigQuery Plugin JupyterLab untuk melakukan hal berikut:
- Pelajari data BigQuery Anda.
- Menggunakan BigQuery DataFrame API.
- Deploy notebook DataFrame BigQuery ke Cloud Composer.
Plugin BigQuery JupyterLab mencakup semua fungsionalitasnya Plugin Dataproc JupyterLab, seperti membuat template runtime Dataproc Serverless, meluncurkan dan mengelola notebook, mengembangkan dengan Apache Spark, men-deploy kode Anda, dan mengelola resource Anda.
Menginstal plugin BigQuery JupyterLab
Untuk menginstal dan menggunakan plugin BigQuery JupyterLab, ikuti langkah-langkah berikut langkah:
Di terminal lokal Anda, periksa untuk memastikan Anda memiliki Python 3.8 atau yang lebih baru yang diinstal di sistem Anda:
python3 --version
Di terminal lokal Anda, lakukan inisialisasi gcloud CLI:
gcloud init
Instal Pipenv, alat lingkungan virtual Python:
pip3 install pipenv
Membuat lingkungan virtual baru:
pipenv shell
Instal JupyterLab di lingkungan virtual baru:
pipenv install jupyterlab
Instal plugin BigQuery JupyterLab:
pipenv install bigquery-jupyter-plugin
Jika versi JupyterLab yang diinstal lebih lama dari 4.0.0, kemudian aktifkan ekstensi plugin:
jupyter server extension enable bigquery_jupyter_plugin
Luncurkan JupyterLab:
jupyter lab
JupyterLab terbuka di browser Anda.
Memperbarui setelan project dan region
Secara default, sesi berjalan di project dan region yang Anda tetapkan saat
menjalankan gcloud init
. Untuk mengubah setelan project dan region bagi
sesi, lakukan hal berikut:
- Di menu JupyterLab, klik Setelan > Setelan Google BigQuery.
Anda harus memulai ulang plugin agar perubahan diterapkan.
Jelajahi data
Untuk menggunakan data BigQuery Anda di JupyterLab, lakukan hal berikut:
- Di sidebar JupyterLab, buka panel Dataset Explorer: klik ikon set data.
Untuk meluaskan project, di panel Dataset Explorer, klik
panah peluas di samping nama project.Panel Dataset Explorer menampilkan semua set data dalam project yang berada di region BigQuery yang telah Anda konfigurasi sesi tersebut. Anda dapat berinteraksi dengan project dan set data dalam berbagai cara:
- Untuk melihat informasi tentang set data, klik nama set data.
- Untuk menampilkan semua tabel dalam {i>dataset<i}, klik panah peluas di samping {i>dataset <i}tersebut.
- Untuk melihat informasi tentang tabel, klik nama tabel.
- Untuk mengubah project atau region BigQuery, memperbarui setelan.
Menjalankan notebook
Untuk membuat kueri data BigQuery Anda dari JupyterLab, lakukan hal berikut:
- Untuk membuka halaman peluncur, klik File > Peluncur Baru.
- Di bagian BigQuery Notebooks, klik BigQuery DataFrame . Sebuah {i>notebook<i} baru terbuka yang menunjukkan cara untuk memulai DataFrame BigQuery.
Notebook DataFrame BigQuery mendukung pengembangan Python di lingkungan lokal di Kernel Python. Operasi BigQuery DataFrame dijalankan dari jarak jauh di BigQuery, tetapi kode lainnya dijalankan secara lokal di mesin Linux dan Windows. Saat operasi dijalankan di BigQuery, tugas kueri ID dan link ke pekerjaan ada di bawah sel kode.
- Untuk melihat tugas di konsol Google Cloud, klik Open Job.
Men-deploy notebook DataFrame BigQuery
Anda dapat men-deploy notebook DataFrame BigQuery ke Cloud Composer menggunakan template runtime Serverless Dataproc. Anda harus menggunakan runtime versi 2.1 atau yang lebih baru.
- Di {i>notebook<i} JupyterLab Anda, klik calendar_monthPenjadwal Tugas.
- Untuk Job name, masukkan nama unik untuk tugas Anda.
- Untuk Environment, masukkan nama Cloud Composer lingkungan tempat Anda ingin men-deploy tugas.
- Jika notebook Anda diparameterisasi, tambahkan parameter.
- Masukkan nama Template runtime serverless.
- Untuk menangani kegagalan eksekusi notebook, masukkan bilangan bulat untuk Jumlah percobaan ulang dan nilai (dalam menit) untuk Penundaan percobaan ulang.
Pilih notifikasi eksekusi yang akan dikirim, lalu masukkan penerima.
Notifikasi dikirim menggunakan konfigurasi SMTP Airflow.
Pilih jadwal untuk notebook.
Klik Create.
Saat Anda berhasil menjadwalkan {i>notebook<i}, akan muncul di daftar tugas terjadwal di lingkungan Cloud Composer yang Anda pilih.
Langkah selanjutnya
- Mulai Panduan memulai BigQuery DataFrame.
- Pelajari kebijakan BigQuery DataFrame Python API.
- Gunakan JupyterLab untuk sesi batch dan notebook serverless dengan Dataproc.