Pengantar BigQuery DataFrames
BigQuery DataFrames adalah serangkaian library Python open source yang memungkinkan Anda memanfaatkan pemrosesan data BigQuery menggunakan API Python yang sudah dikenal. BigQuery DataFrames menyediakan DataFrame Pythonic yang didukung oleh mesin BigQuery, dan menerapkan API pandas dan scikit-learn dengan mendorong pemrosesan ke BigQuery melalui konversi SQL. Hal ini memungkinkan Anda menggunakan BigQuery untuk menjelajahi dan memproses terabyte data, serta melatih model machine learning (ML), semuanya dengan Python API.
Diagram berikut menjelaskan alur kerja DataFrame BigQuery:
Manfaat BigQuery DataFrames
BigQuery DataFrames melakukan hal berikut:
- Menawarkan lebih dari 750 API pandas dan scikit-learn yang diterapkan melalui konversi SQL transparan ke BigQuery dan BigQuery ML API.
- Menunda eksekusi kueri untuk meningkatkan performa.
- Memperluas transformasi data dengan fungsi Python yang ditentukan pengguna agar Anda dapat memproses data di Google Cloud. Fungsi ini di-deploy secara otomatis sebagai fungsi jarak jauh BigQuery.
- Mengintegrasikan dengan Vertex AI untuk memungkinkan Anda menggunakan model Gemini untuk pembuatan teks.
Pemberian Lisensi
BigQuery DataFrame didistribusikan dengan lisensi Apache-2.0.
BigQuery DataFrames juga berisi kode yang berasal dari paket pihak ketiga berikut:
Untuk mengetahui detailnya, lihat direktori third_party/bigframes_vendored
di repositori GitHub BigQuery DataFrames.
Kuota dan batas
- Kuota BigQuery berlaku untuk DataFrame BigQuery, termasuk komponen hardware, software, dan jaringan.
- Sebagian API pandas dan scikit-learn didukung. Untuk mengetahui informasi selengkapnya, lihat API pandas yang didukung.
- Anda harus secara eksplisit membersihkan fungsi Cloud Run yang dibuat secara otomatis sebagai bagian dari pembersihan sesi. Untuk informasi selengkapnya, lihat API pandas yang didukung.
Harga
- BigQuery DataFrames adalah kumpulan library Python open source yang tersedia untuk didownload tanpa biaya tambahan.
- BigQuery DataFrames menggunakan BigQuery, fungsi Cloud Run, Vertex AI, dan layanan Google Cloud lainnya, yang menimbulkan biayanya sendiri.
- Selama penggunaan reguler, BigQuery DataFrames menyimpan data sementara,
seperti hasil perantara, dalam tabel BigQuery. Tabel ini
akan tetap ada selama tujuh hari secara default, dan Anda akan ditagih untuk data
yang disimpan di dalamnya. Tabel dibuat di set data
_anonymous_
dalam project Google Cloud yang Anda tentukan di opsibf.options.bigquery.project
.
Langkah selanjutnya
- Menggunakan BigQuery DataFrames
- Mencoba BigQuery DataFrames
- Referensi BigQuery DataFrames API
- Notebook contoh BigQuery DataFrames
- Kode sumber BigQuery DataFrames (GitHub)