Menggunakan plugin BigQuery JupyterLab

Untuk meminta masukan atau dukungan terkait fitur ini, kirim email ke bigquery-ide-plugin@google.com.

Dokumen ini menunjukkan cara menginstal dan menggunakan plugin BigQuery JupyterLab untuk melakukan hal berikut:

  • Pelajari data BigQuery Anda.
  • Menggunakan BigQuery DataFrame API.
  • Deploy notebook DataFrame BigQuery ke Cloud Composer.

Plugin BigQuery JupyterLab mencakup semua fungsi plugin JupyterLab Dataproc, seperti membuat template runtime Dataproc Serverless, meluncurkan dan mengelola notebook, melakukan pengembangan dengan Apache Spark, men-deploy kode Anda, dan mengelola resource Anda.

Menginstal plugin BigQuery JupyterLab

Untuk menginstal dan menggunakan plugin BigQuery JupyterLab, ikuti langkah-langkah berikut:

  1. Di terminal lokal, pastikan Anda telah menginstal Python 3.8 atau yang lebih baru di sistem:

    python3 --version
    
  2. Menginstal gcloud CLI.

  3. Di terminal lokal Anda, lakukan inisialisasi gcloud CLI:

    gcloud init
    
  4. Instal Pipenv, alat lingkungan virtual Python:

    pip3 install pipenv
    
  5. Membuat lingkungan virtual baru:

    pipenv shell
    
  6. Instal JupyterLab di lingkungan virtual baru:

    pipenv install jupyterlab
    
  7. Instal plugin BigQuery JupyterLab:

    pipenv install bigquery-jupyter-plugin
    
  8. Jika versi JupyterLab yang diinstal lebih lama dari 4.0.0, aktifkan ekstensi plugin:

    jupyter server extension enable bigquery_jupyter_plugin
    
  9. Luncurkan JupyterLab:

    jupyter lab
    

    JupyterLab terbuka di browser Anda.

Memperbarui setelan project dan region

Secara default, sesi berjalan di project dan region yang Anda tetapkan saat menjalankan gcloud init. Untuk mengubah setelan project dan region untuk sesi Anda, lakukan hal berikut:

  • Di menu JupyterLab, klik Setelan > Setelan Google BigQuery.

Anda harus memulai ulang plugin agar perubahan diterapkan.

Menjelajahi data

Untuk menggunakan data BigQuery Anda di JupyterLab, lakukan hal berikut:

  1. Di sidebar JupyterLab, buka panel Dataset Explorer: klik ikon set data Ikon Dataset Explorer..
  2. Untuk meluaskan project, di panel Dataset Explorer, klik panah luaskan di samping nama project.

    Panel Dataset Explorer menampilkan project yang diperluas dan daftar set data.

    Panel Dataset Explorer menampilkan semua set data dalam project yang berada di region BigQuery yang Anda konfigurasikan untuk sesi tersebut. Anda dapat berinteraksi dengan project dan set data dalam berbagai cara:

    • Untuk melihat informasi tentang set data, klik nama set data.
    • Untuk menampilkan semua tabel dalam set data, klik panah luaskan di samping set data.
    • Untuk melihat informasi tentang tabel, klik nama tabel.
    • Untuk mengubah project atau region BigQuery, perbarui setelan Anda.

Menjalankan notebook

Untuk membuat kueri data BigQuery Anda dari JupyterLab, lakukan hal berikut:

  1. Untuk membuka halaman peluncur, klik File > Peluncur Baru.
  2. Di bagian BigQuery Notebooks, klik kartu BigQuery DataFrame. Sebuah notebook baru akan terbuka dan menunjukkan cara untuk memulai BigQuery DataFrame.

Notebook DataFrame BigQuery mendukung pengembangan Python dalam kernel Python lokal. Operasi BigQuery DataFrame dijalankan dari jarak jauh di BigQuery, tetapi kode lainnya dijalankan secara lokal di mesin Anda. Saat operasi dieksekusi di BigQuery, ID tugas kueri dan link ke tugas akan muncul di bawah sel kode.

  • Untuk melihat tugas di konsol Google Cloud, klik Open Job.

Men-deploy notebook DataFrame BigQuery

Anda dapat men-deploy notebook DataFrame BigQuery ke Cloud Composer menggunakan template runtime Serverless Dataproc. Anda harus menggunakan runtime versi 2.1 atau yang lebih baru.

  1. Di notebook JupyterLab Anda, klik calendar_monthJob Scheduler.
  2. Untuk Job name, masukkan nama unik untuk tugas Anda.
  3. Untuk Environment, masukkan nama lingkungan Cloud Composer tempat Anda ingin men-deploy tugas.
  4. Jika notebook Anda diparameterisasi, tambahkan parameter.
  5. Masukkan nama Template runtime serverless.
  6. Untuk menangani kegagalan eksekusi notebook, masukkan bilangan bulat untuk Jumlah percobaan ulang dan nilai (dalam menit) untuk Penundaan percobaan ulang.
  7. Pilih notifikasi eksekusi yang akan dikirim, lalu masukkan penerima.

    Notifikasi dikirim menggunakan konfigurasi SMTP Airflow.

  8. Pilih jadwal untuk notebook.

  9. Klik Create.

Setelah berhasil menjadwalkan notebook, notebook Anda akan muncul dalam daftar tugas terjadwal di lingkungan Cloud Composer yang dipilih.

Langkah selanjutnya