Pengantar BigQuery DataFrames

BigQuery DataFrames adalah kumpulan library Python open source yang memungkinkan Anda memanfaatkan pemrosesan data BigQuery dengan menggunakan Python API yang sudah dikenal. BigQuery DataFrames menerapkan pandas dan scikit-learn API dengan mengirim pemrosesan ke BigQuery melalui konversi SQL. Ini memungkinkan Anda menggunakan BigQuery untuk menjelajahi dan memproses data berukuran terabyte, serta melatih model machine learning (ML), semuanya dengan Python API.

BigQuery DataFrames menawarkan manfaat berikut:

  • Lebih dari 750 pandas dan scikit-learn API diimplementasikan melalui konversi SQL transparan ke BigQuery dan BigQuery ML API.
  • Eksekusi kueri yang ditangguhkan untuk performa yang lebih baik.
  • Memperluas transformasi data dengan fungsi Python yang ditentukan pengguna agar Anda dapat memproses data di cloud. Fungsi ini otomatis di-deploy sebagai fungsi jarak jauh BigQuery.
  • Integrasi dengan Vertex AI agar Anda dapat menggunakan model Gemini untuk pembuatan teks.

Pemberian Lisensi

BigQuery DataFrames didistribusikan dengan lisensi Apache-2.0. File ini juga berisi kode yang berasal dari paket pihak ketiga berikut:

Untuk mengetahui detailnya, lihat direktori third_party/bigframes_vendored di repositori GitHub DataFrames BigQuery.

Kuota dan batas

  • Kuota BigQuery berlaku untuk BigQuery DataFrames, termasuk komponen hardware, software, dan jaringan.
  • Subset pandas dan scikit-learn API didukung. Untuk mengetahui informasi selengkapnya, lihat API pandas yang didukung.
  • Anda harus secara eksplisit membersihkan fungsi Cloud Functions yang dibuat secara otomatis sebagai bagian dari pembersihan sesi. Untuk mengetahui informasi selengkapnya, lihat API pandas yang didukung.

Harga

  • BigQuery DataFrames adalah serangkaian library Python open source yang dapat didownload tanpa biaya tambahan.
  • BigQuery DataFrames menggunakan BigQuery, Cloud Functions, Vertex AI, dan layanan Google Cloud lainnya, yang dikenai biaya sendiri.
  • Selama penggunaan rutin, DataFrame BigQuery menyimpan data sementara, seperti hasil menengah, dalam tabel BigQuery. Tabel ini akan bertahan selama tujuh hari secara default, dan Anda akan dikenai biaya untuk data yang disimpan di dalamnya. Tabel akan dibuat di set data _anonymous_ di project yang Anda tentukan dalam opsi bf.options.bigquery.project.

Langkah selanjutnya