Pemrosesan Pengambilan Data Perubahan (CDC)

Halaman ini memandu Anda menggunakan Change Data Capture (CDC) dalam Google Cloud Cortex Framework di BigQuery. BigQuery dirancang untuk menyimpan dan menganalisis data baru secara efisien.

Proses CDC

Saat data berubah di sistem data sumber Anda (seperti SAP), BigQuery tidak akan mengubah data yang ada. Sebagai gantinya, informasi yang diperbarui akan ditambahkan sebagai data baru. Untuk menghindari duplikat, operasi penggabungan perlu diterapkan setelahnya. Proses ini disebut pemrosesan Pengambilan Data Perubahan (CDC).

Data Foundation untuk SAP menyertakan opsi untuk membuat skrip bagi Cloud Composer atau Apache Airflow guna menggabungkan atau upsert data baru yang dihasilkan dari update dan hanya menyimpan versi terbaru dalam set data baru. Agar skrip ini berfungsi, tabel harus memiliki beberapa kolom tertentu:

  • operation_flag: Flag ini memberi tahu skrip apakah data disisipkan, diperbarui, atau dihapus.
  • recordstamp: Stempel waktu ini membantu mengidentifikasi versi terbaru data. Flag ini menunjukkan apakah data:
    • Disisipkan (I)
    • Diperbarui (U)
    • Dihapus (D)

Dengan memanfaatkan pemrosesan CDC, Anda dapat memastikan bahwa data BigQuery Anda mencerminkan status terbaru sistem sumber secara akurat. Tindakan ini akan menghilangkan entri duplikat dan memberikan dasar yang andal untuk analisis data Anda.

Struktur set data

Untuk semua sumber data yang didukung, data dari sistem upstream pertama kali direplikasi ke set data BigQuery (source atau replicated dataset), dan hasil yang diperbarui atau digabungkan disisipkan ke set data lain (set data CDC). Tampilan pelaporan memilih data dari set data CDC, untuk memastikan alat dan aplikasi pelaporan selalu memiliki versi terbaru tabel.

Alur berikut menunjukkan cara pemrosesan CDC untuk SAP, yang bergantung pada operational_flag dan recordstamp.

Contoh pemrosesan CDC untuk SAP

Gambar 1. Contoh pemrosesan CDC untuk SAP.

Alur berikut menggambarkan integrasi dari API ke dalam data Mentah dan pemrosesan CDC untuk Salesforce, yang bergantung pada kolom Id dan SystemModStamp yang dihasilkan oleh Salesforce API.

Integrasi dari API ke dalam data Mentah dan pemrosesan CDC untuk Salesforce

Gambar 2. Integrasi dari API ke dalam pemrosesan Data mentah dan CDC untuk Salesforce.

Beberapa alat replikasi dapat menggabungkan atau memperbarui data saat menyisipkannya ke BigQuery, sehingga pembuatan skrip ini bersifat opsional. Dalam hal ini, penyiapan hanya memiliki satu set data. Set data pelaporan mengambil data yang diperbarui untuk pelaporan dari set data tersebut.