Halaman ini diterjemahkan oleh Cloud Translation API.

Memuat data dalam batch menggunakan Storage Write API

Dokumen ini menjelaskan cara menggunakan BigQuery Storage Write API untuk memuat data dalam bentuk batch ke BigQuery.

Dalam skenario pemuatan dalam bentuk batch, aplikasi menulis data dan commit sebagai satu transaksi atomik. Saat menggunakan Storage Write API untuk memuat data dalam bentuk batch, buat satu atau beberapa aliran data dalam jenis tertunda. Jenis tertunda mendukung transaksi tingkat aliran data. Kumpulan data di-buffer dalam status tertunda hingga Anda melakukan commit untuk aliran data.

Untuk workload batch, pertimbangkan juga untuk menggunakan Storage Write API melalui konektor Apache Spark SQL untuk BigQuery menggunakan Dataproc, bukan menulis kode Storage Write API kustom.

Storage Write API sangat cocok untuk arsitektur pipeline data. Proses utama membuat sejumlah aliran data. Untuk setiap aliran data, thread pekerja atau proses terpisah menulis sebagian data batch. Setiap worker membuat koneksi ke aliran datanya, menulis data, dan menyelesaikan aliran datanya setelah selesai. Setelah semua worker memberi sinyal bahwa penyelesaian proses utama berhasil, proses utama meng-commit data. Jika worker gagal, bagian data yang ditetapkan tidak akan muncul di hasil akhir, dan seluruh worker dapat dicoba lagi dengan aman. Pada pipeline yang lebih canggih, worker memeriksa progres mereka dengan melaporkan offset terakhir yang ditulis ke proses utama. Pendekatan ini dapat menghasilkan pipeline yang tangguh dan tahan terhadap kegagalan.

Memuat data dalam batch menggunakan jenis tertunda

Untuk menggunakan jenis yang tertunda, aplikasi melakukan hal berikut:

Panggil CreateWriteStream untuk membuat satu atau beberapa aliran data dalam jenis tertunda.
Untuk setiap aliran data, panggil AppendRows dalam satu loop untuk menulis batch kumpulan data.
Untuk setiap aliran data, panggil FinalizeWriteStream. Setelah memanggil metode ini, Anda tidak dapat menulis baris lagi ke aliran data. Jika Anda memanggil AppendRows setelah memanggil FinalizeWriteStream, langkah ini akan menampilkan StorageError dengan StorageErrorCode.STREAM_FINALIZED dalam error google.rpc.Status. Untuk informasi selengkapnya tentang model error google.rpc.Status, lihat Error.
Panggil BatchCommitWriteStreams untuk meng-commit aliran data. Setelah Anda memanggil metode ini, data akan tersedia untuk dibaca. Jika terjadi error saat meng-commit salah satu aliran data, error tersebut akan ditampilkan di kolom stream_errors dari BatchCommitWriteStreamsResponse.

Committing adalah operasi atomik, dan Anda dapat meng-commit beberapa aliran data sekaligus. Aliran data hanya dapat di-commit satu kali, jadi jika operasi commit gagal, Anda dapat mencobanya lagi. Data akan tertunda dan tidak terlihat untuk dibaca hingga Anda melakukan commit suatu aliran data.

Setelah aliran data diselesaikan dan sebelum di-commit, data dapat tetap berada dalam buffer hingga 4 jam. Aliran data yang tertunda harus di-commit dalam waktu 24 jam. Ada batas kuota pada ukuran total buffering aliran data yang tertunda.

Kode berikut menunjukkan cara menulis data dalam jenis tertunda: