Anda dapat menggunakan konektor BigQuery untuk mengaktifkan akses baca/tulis terprogram ke BigQuery. Ini adalah cara yang ideal untuk memproses data yang disimpan di BigQuery. Akses command line tidak diekspos. Konektor BigQuery adalah library yang memungkinkan aplikasi Spark dan Hadoop memproses data dari BigQuery dan menulis data ke BigQuery menggunakan terminologi native-nya.
Pertimbangan harga
Saat menggunakan konektor, biayanya mencakup biaya penggunaan BigQuery. Biaya khusus layanan berikut juga dapat berlaku:
- Cloud Storage - konektor mendownload data ke bucket Cloud Storage sebelum atau selama eksekusi tugas. Setelah tugas berhasil selesai, data akan dihapus dari Cloud Storage. Anda akan dikenai biaya untuk penyimpanan ini sesuai dengan harga Cloud Storage. Untuk menghindari biaya berlebih, periksa akun Cloud Storage Anda dan hapus file sementara yang tidak diperlukan.
- BigQuery Storage API - untuk mencapai performa yang lebih baik, konektor membaca data menggunakan BigQuery Storage API. Anda akan ditagih untuk penggunaan ini sesuai dengan harga BigQuery Storage API.
Konektor yang tersedia
Konektor BigQuery berikut tersedia untuk digunakan di ekosistem Hadoop:
- Konektor BigQuery Spark menambahkan sumber data Spark, yang memungkinkan DataFrame berinteraksi langsung dengan tabel BigQuery menggunakan operasi
read
danwrite
Spark. - Konektor BigQuery Hive menambahkan Pengelola Penyimpanan, yang memungkinkan Apache Hive berinteraksi secara langsung dengan tabel BigQuery menggunakan sintaksis HiveQL.
- Hadoop BigQuery Connector memungkinkan mapper dan reducer Hadoop berinteraksi dengan tabel BigQuery menggunakan versi terpisah dari class InputFormat dan OutputFormat.
Menggunakan konektor
Untuk memulai cepat menggunakan konektor BigQuery, lihat contoh berikut:
Langkah selanjutnya
- Pelajari BigQuery lebih lanjut
- Ikuti contoh BigQuery untuk Spark
- Pelajari Konektor BigQuery Hive lebih lanjut
- Ikuti contoh BigQuery untuk Java MapReduce