Memilih library Python
Anda dapat memilih dari tiga library Python di BigQuery, berdasarkan kasus penggunaan Anda.
Kasus penggunaan | Dikelola oleh | Deskripsi | |
---|---|---|---|
DataFrame BigQuery | Pemrosesan data dan operasi ML berbasis Python dengan pemrosesan sisi server (misalnya, menggunakan slot) | Pandas dan Scikit mempelajari API yang diimplementasikan dengan pushdown sisi server. Untuk mengetahui informasi selengkapnya, lihat Pengantar BigQuery DataFrames. | |
pandas-gbq | Pemrosesan data berbasis Python menggunakan salinan data sisi klien | Library open source yang dikelola oleh PyData dan kontributor sukarelawan | Memungkinkan Anda memindahkan data ke dan dari DataFrame Python di sisi klien. Untuk informasi selengkapnya, lihat dokumentasi dan kode sumber. |
google-cloud-bigquery | Deployment, administrasi, dan kueri berbasis SQL BigQuery | Library open source yang dikelola oleh Google | Paket Python yang menggabungkan semua BigQuery API. Untuk mengetahui informasi selengkapnya, lihat dokumentasi dan kode sumber. |
Menggunakan pandas-gbq dan google-cloud-bigquery
Library pandas-gbq
menyediakan antarmuka sederhana untuk menjalankan kueri dan mengupload dataframe pandas ke BigQuery. Library ini adalah wrapper tipis di sekitar library klien BigQuery,
google-cloud-bigquery
. Kedua library ini berfokus untuk membantu Anda melakukan
analisis data menggunakan SQL.
Menginstal library
Untuk menggunakan contoh kode dalam panduan ini, instal paket pandas-gbq
dan library klien Python BigQuery.
Instal paket
pandas-gbq
dan
google-cloud-bigquery
.
pip install --upgrade pandas-gbq 'google-cloud-bigquery[bqstorage,pandas]'
Menjalankan Kueri
Kedua library mendukung pembuatan kueri data yang tersimpan di BigQuery. Perbedaan utama antar-library meliputi:
pandas-gbq | google-cloud-bigquery | |
---|---|---|
Sintaksis SQL default | GoogleSQL (dapat dikonfigurasi dengan pandas_gbq.context.dialect ) |
GoogleSQL |
Konfigurasi kueri | Dikirim sebagai kamus dalam format permintaan kueri. | Gunakan class QueryJobConfig , yang berisi properti untuk berbagai opsi konfigurasi API. |
Membuat kueri data dengan sintaks GoogleSQL
Contoh berikut menunjukkan cara menjalankan kueri GoogleSQL dengan dan tanpa menentukan project secara eksplisit. Untuk kedua library, jika project tidak ditentukan, project akan ditentukan dari kredensial default.
pandas-gbq
:
google-cloud-bigquery
:
Membuat kueri data dengan sintaksis legacy SQL
Contoh berikut menunjukkan cara menjalankan kueri menggunakan sintaksis legacy SQL. Lihat panduan migrasi GoogleSQL untuk mendapatkan panduan tentang cara memperbarui kueri ke GoogleSQL.
pandas-gbq
:
google-cloud-bigquery
:
Menggunakan BigQuery Storage API untuk mendownload hasil dalam jumlah besar
Gunakan BigQuery Storage API untuk mempercepat download hasil besar sebanyak 15 hingga 31 kali.
pandas-gbq
:
google-cloud-bigquery
:
Menjalankan kueri dengan konfigurasi
Pengiriman konfigurasi dengan permintaan BigQuery API diperlukan untuk melakukan operasi kompleks tertentu, seperti menjalankan kueri berparameter atau menentukan tabel tujuan untuk menyimpan hasil kueri. Di pandas-gbq
, konfigurasi harus dikirim sebagai kamus dalam format permintaan kueri.
Di google-cloud-bigquery
, class konfigurasi tugas disediakan, seperti QueryJobConfig
, yang berisi properti yang diperlukan untuk mengonfigurasi tugas yang kompleks.
Contoh berikut menunjukkan cara menjalankan kueri dengan parameter bernama.
pandas-gbq
:
google-cloud-bigquery
:
Memuat DataFrame pandas ke tabel BigQuery
Kedua library mendukung upload data dari DataFrame pandas ke tabel baru di BigQuery. Perbedaan utamanya meliputi:
pandas-gbq | google-cloud-bigquery | |
---|---|---|
Dukungan jenis | Mengonversi DataFrame menjadi format CSV sebelum mengirim ke API, yang tidak mendukung nilai susun bertingkat atau array. | Mengonversi DataFrame ke format Parquet atau CSV sebelum mengirim ke API, yang mendukung nilai susun bertingkat dan array. Pilih Parquet untuk nilai struct dan array serta CSV untuk fleksibilitas serialisasi tanggal dan waktu. Parquet adalah pilihan default. Perhatikan bahwa pyarrow , yang merupakan mesin parquet yang digunakan untuk mengirim data DataFrame ke BigQuery API, harus diinstal untuk memuat DataFrame ke tabel. |
Memuat konfigurasi | Secara opsional, Anda dapat menentukan skema tabel). | Gunakan class LoadJobConfig , yang berisi properti untuk berbagai opsi konfigurasi API. |
pandas-gbq
:
google-cloud-bigquery
:
google-cloud-bigquery
memerlukan library pyarrow
untuk melakukan serialisasi
DataFrame pandas ke file Parquet.
Menginstal paket pyarrow
pip install pyarrow
Fitur yang tidak didukung oleh pandas-gbq
Meskipun library pandas-gbq
menyediakan antarmuka yang berguna untuk membuat kueri data dan menulis data ke tabel, library ini tidak mencakup banyak fitur BigQuery API, termasuk, tetapi tidak terbatas pada:
- Mengelola set data, termasuk membuat set data baru, memperbarui properti set data, dan menghapus set data
- Memuat data ke BigQuery dari format selain pandas DataFrames atau dari pandas DataFrames dengan kolom JSON
- Mengelola tabel, termasuk mencantumkan tabel dalam set data, menyalin data tabel, dan menghapus tabel
- Mengekspor data BigQuery langsung ke Cloud Storage
Memecahkan masalah error kumpulan koneksi
String error: Connection pool is full, discarding connection: bigquery.googleapis.com.
Connection pool size: 10
Jika menggunakan objek klien BigQuery default di Python, Anda
dibatasi hingga maksimum 10 thread karena ukuran kumpulan default untuk Python HTTPAdapter
adalah 10. Untuk menggunakan lebih dari 10 koneksi, buat objek requests.adapters.HTTPAdapter
kustom. Contoh:
client = bigquery.Client() adapter = requests.adapters.HTTPAdapter(pool_connections=128, pool_maxsize=128,max_retries=3) client._http.mount("https://",adapter) client._http._auth_request.session.mount("https://",adapter) query_job = client.query(QUERY)