Menggunakan DataFrame BigQuery
Untuk mendapatkan dukungan selama pratinjau, kirim email ke bigframes-feedback@google.com.
Dokumen ini menjelaskan cara menggunakan DataFrames BigQuery untuk menganalisis dan memanipulasi data di notebook BigQuery.
BigQuery DataFrames adalah library klien Python yang dapat Anda gunakan untuk menganalisis data dan melakukan tugas machine learning di notebook BigQuery.
DataFrame BigQuery terdiri dari bagian berikut:
bigframes.pandas
menerapkan API seperti panda di atas BigQuery.bigframes.ml
menerapkan API seperti scikit-learn di atas BigQuery ML.
Sebelum memulai
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
Pastikan BigQuery API diaktifkan.
Jika Anda membuat project baru, BigQuery API akan otomatis diaktifkan.
Izin yang diperlukan
Untuk menggunakan DataFrames BigQuery di notebook BigQuery, Anda memerlukan peran Identity and Access Management (IAM) berikut:
- Pengguna BigQuery (
roles/bigquery.user
) - Pengguna Runtime Notebook (
roles/aiplatform.notebookRuntimeUser
) - Pembuat Kode (
roles/dataform.codeCreator
)
Membuat notebook
Ikuti petunjuk di Membuat notebook dari editor BigQuery untuk membuat notebook baru.
Menyiapkan opsi DataFrames BigQuery
Setelah penginstalan, Anda harus menentukan lokasi dan project tempat Anda ingin menggunakan DataFrame BigQuery.
Anda dapat menentukan lokasi dan proyek di {i>notebook<i} Anda dengan cara berikut:
Gunakan bigframes.pandas
bigframes.pandas
API menyediakan API mirip pandas
yang dapat Anda gunakan
untuk menganalisis dan memanipulasi data di BigQuery. bigframes.pandas
API bersifat skalabel untuk mendukung pemrosesan
data BigQuery berukuran terabyte, dan menggunakan mesin kueri BigQuery
untuk melakukan penghitungan.
bigframes.pandas
API menyediakan kemampuan berikut:
- Input dan output
- Anda dapat mengakses data dari berbagai sumber, termasuk file CSV lokal,
file Cloud Storage,
pandas
DataFrames, model BigQuery, dan fungsi BigQuery, serta memuatnya ke dalam DataFrame BigQuery. Anda juga dapat membuat tabel BigQuery dari BigQuery DataFrames. - Manipulasi data
- Anda dapat menggunakan Python, bukan SQL, untuk pengembangan Anda.
Anda dapat mengembangkan semua manipulasi data BigQuery di Python,
sehingga tidak perlu beralih antarbahasa dan mencoba menangkap pernyataan
SQL sebagai string teks.
bigframes.pandas
API menawarkan lebih dari 250 fungsipandas
. - Ekosistem dan visualisasi python
bigframes.pandas
API adalah gerbang menuju ekosistem alat Python yang lengkap. API ini mendukung operasi statistik lanjutan, dan Anda dapat memvisualisasikan agregasi yang dihasilkan dari DataFrame BigQuery. Anda juga dapat beralih dari DataFrame BigQuery ke DataFramepandas
dengan operasi pengambilan sampel bawaan.- Fungsi Python kustom
- Anda dapat menggunakan fungsi dan paket Python kustom. Dengan
bigframes.pandas
, Anda dapat men-deploy fungsi jarak jauh yang menjalankan fungsi Python skalar pada skala BigQuery. Anda dapat mempertahankan fungsi ini kembali ke BigQuery sebagai rutinitas SQL, lalu menggunakannya seperti fungsi SQL.
Memuat data dari tabel atau kueri BigQuery
Anda dapat membuat DataFrame dari tabel atau kueri BigQuery dengan cara berikut:
Memuat data dari file CSV
Anda dapat membuat DataFrame dari file CSV lokal atau Cloud Storage dengan cara berikut:
Memeriksa dan memanipulasi data
Anda dapat menggunakan bigframes.pandas
untuk melakukan operasi penghitungan dan
pemeriksaan data.
Contoh kode berikut menunjukkan penggunaan bigframes.pandas
untuk memeriksa kolom body_mass_g
, menghitung rata-rata body_mass
, dan menghitung rata-rata body_mass
dengan species
:
Gunakan bigframes.ml
API mirip scikit-learn bigframes.ml
memungkinkan Anda membuat
beberapa jenis model machine learning.
Regresi
Contoh kode berikut menunjukkan penggunaan bigframes.ml
untuk melakukan hal berikut:
- Memuat data dari BigQuery
- Membersihkan dan menyiapkan data pelatihan
- Membuat dan menerapkan model regresi
bigframes.ml.LinearRegression
Dukungan
Anda dapat menggunakan modul bigframes.ml.cluster
untuk membuat estimator untuk model pengelompokan.
Contoh kode berikut menunjukkan penggunaan class bigframes.ml.cluster
KMeans
dalam membuat model pengelompokan K-means untuk segmentasi data:
Model jarak jauh LLM
Anda dapat menggunakan modul bigframes.ml.llm
untuk membuat estimator untuk model bahasa besar (LLM) jarak jauh.
Contoh kode berikut menunjukkan penggunaan class bigframes.ml.llm
PaLM2TextGenerator
dalam membuat model generator teks PaLM2 untuk pembuatan teks:
Harga
BigQuery DataFrames adalah library Python open source. Kode sumber tersedia untuk dilihat dan didownload menggunakan GitHub. Anda dapat menginstal library dari PyPI. Library mungkin juga tersedia di pengelola paket lain yang dikelola oleh komunitas.
BigQuery DataFrames menggunakan BigQuery,Cloud Functions, Vertex AI, dan layanan Google Cloud lainnya, yang dikenai biaya sendiri. Selama penggunaan reguler, library menyimpan data di tabel BigQuery tingkat menengah, yang secara default memiliki durasi tujuh hari.
Langkah selanjutnya
Untuk mempelajari cara menjalankan tugas analisis dan machine learning menggunakan DataFrames BigQuery di notebook BigQuery, lihat panduan memulai BigQuery DataFrames.
Untuk mempelajari BigQuery DataFrames, lihat dokumen referensi library BigQuery DataFrames.
Untuk mempelajari kode sumber, lihat Kode sumber BigQuery DataFrames di GitHub.