Pemrosesan Pengambilan Data Perubahan (CDC)
Halaman ini memandu Anda menggunakan Change Data Capture (CDC) dalam Google Cloud Cortex Framework di BigQuery. BigQuery dirancang untuk menyimpan dan menganalisis data baru secara efisien.
Proses CDC
Saat data berubah di sistem data sumber Anda (seperti SAP), BigQuery tidak akan mengubah data yang ada. Sebagai gantinya, informasi yang diperbarui akan ditambahkan sebagai data baru. Untuk menghindari duplikat, operasi penggabungan perlu diterapkan setelahnya. Proses ini disebut pemrosesan Pengambilan Data Perubahan (CDC).
Data Foundation untuk SAP menyertakan opsi untuk membuat skrip bagi
Cloud Composer atau Apache Airflow guna menggabungkan
atau upsert
data baru yang dihasilkan dari update dan hanya menyimpan
versi terbaru dalam set data baru. Agar skrip ini berfungsi, tabel
harus memiliki beberapa kolom tertentu:
operation_flag
: Flag ini memberi tahu skrip apakah data disisipkan, diperbarui, atau dihapus.recordstamp
: Stempel waktu ini membantu mengidentifikasi versi terbaru data. Flag ini menunjukkan apakah data:- Disisipkan (I)
- Diperbarui (U)
- Dihapus (D)
Dengan memanfaatkan pemrosesan CDC, Anda dapat memastikan bahwa data BigQuery Anda mencerminkan status terbaru sistem sumber secara akurat. Tindakan ini akan menghilangkan entri duplikat dan memberikan dasar yang andal untuk analisis data Anda.
Struktur set data
Untuk semua sumber data yang didukung, data dari sistem upstream pertama kali direplikasi ke set data BigQuery (source
atau replicated dataset
), dan hasil yang diperbarui atau digabungkan disisipkan ke set data lain (set data CDC). Tampilan pelaporan memilih data dari set data CDC,
untuk memastikan alat dan aplikasi pelaporan selalu memiliki versi terbaru
tabel.
Alur berikut menunjukkan cara pemrosesan CDC untuk SAP, yang bergantung pada
operational_flag
dan recordstamp
.
Alur berikut menggambarkan integrasi dari API ke dalam data Mentah dan pemrosesan CDC untuk Salesforce, yang bergantung pada kolom Id
dan SystemModStamp
yang dihasilkan oleh Salesforce API.
Beberapa alat replikasi dapat menggabungkan atau memperbarui data saat menyisipkannya ke BigQuery, sehingga pembuatan skrip ini bersifat opsional. Dalam hal ini, penyiapan hanya memiliki satu set data. Set data pelaporan mengambil data yang diperbarui untuk pelaporan dari set data tersebut.