Elaborazione di Change Data Capture (CDC)
Questa pagina illustra la procedura di acquisizione dei dati modificati (CDC) in Google Cloud Cortex Framework in BigQuery. BigQuery è progettato per memorizzare e analizzare in modo efficiente i nuovi dati.
Processo CDC
Quando i dati cambiano nel sistema di dati di origine (ad esempio SAP), BigQuery non modifica i record esistenti. Le informazioni aggiornate vengono aggiunte come nuovo record. Per evitare duplicati, è necessario applicare un'operazione di associazione in un secondo momento. Questa procedura è chiamata elaborazione Change Data Capture (CDC).
Data Foundation for SAP include la possibilità di creare script per Cloud Composer o Apache Airflow per unire o upsert
i nuovi record risultanti dagli aggiornamenti e mantenere solo la versione più recente in un nuovo set di dati. Affinché questi script funzionino, le tabelle devono avere alcuni campi specifici:
operation_flag
: questo flag indica allo script se un record è stato inserito, aggiornato o eliminato.recordstamp
: questo timestamp consente di identificare la versione più recente di un record. Questo flag indica se il record è:- Inserito (I)
- Aggiornata (U)
- Eliminato (D)
Utilizzando l'elaborazione CDC, puoi assicurarti che i dati di BigQuery riflettano con precisione lo stato più recente del sistema di origine. In questo modo vengono eliminate le voci duplicate e viene fornita una base affidabile per la tua analisi dei dati.
Struttura del set di dati
Per tutte le origini dati supportate, i dati dei sistemi a monte vengono prima replicati
in un set di dati BigQuery (source
o replicated dataset
),
e i risultati aggiornati o uniti vengono inseriti in un altro set di dati
(set di dati CDC). Le visualizzazioni dei report selezionano i dati dal set di dati del CDC per garantire che gli strumenti e le applicazioni di generazione di report dispongano sempre della versione più recente di una tabella.
Il seguente flusso mostra come l'elaborazione CDC per SAP dipende da operational_flag
e recordstamp
.
Il seguente flusso mostra l'integrazione dalle API ai dati non elaborati e all'elaborazione CDC per Salesforce, in base ai campi Id
e SystemModStamp
prodotti dalle API Salesforce.
Alcuni strumenti di replica possono unire o eseguire l'upsert dei record quando li inseriscono in BigQuery, pertanto la generazione di questi script è facoltativa. In questo caso, la configurazione ha un solo set di dati. Il set di dati per i report recupera i record aggiornati per i report da quel set di dati.