Elaborazione di Change Data Capture (CDC)

Questa pagina illustra la procedura di acquisizione dei dati modificati (CDC) in Google Cloud Cortex Framework in BigQuery. BigQuery è progettato per memorizzare e analizzare in modo efficiente i nuovi dati.

Processo CDC

Quando i dati cambiano nel sistema di dati di origine (ad esempio SAP), BigQuery non modifica i record esistenti. Le informazioni aggiornate vengono aggiunte come nuovo record. Per evitare duplicati, è necessario applicare un'operazione di associazione in un secondo momento. Questa procedura è chiamata elaborazione Change Data Capture (CDC).

Data Foundation for SAP include la possibilità di creare script per Cloud Composer o Apache Airflow per unire o upsert i nuovi record risultanti dagli aggiornamenti e mantenere solo la versione più recente in un nuovo set di dati. Affinché questi script funzionino, le tabelle devono avere alcuni campi specifici:

  • operation_flag: questo flag indica allo script se un record è stato inserito, aggiornato o eliminato.
  • recordstamp: questo timestamp consente di identificare la versione più recente di un record. Questo flag indica se il record è:
    • Inserito (I)
    • Aggiornata (U)
    • Eliminato (D)

Utilizzando l'elaborazione CDC, puoi assicurarti che i dati di BigQuery riflettano con precisione lo stato più recente del sistema di origine. In questo modo vengono eliminate le voci duplicate e viene fornita una base affidabile per la tua analisi dei dati.

Struttura del set di dati

Per tutte le origini dati supportate, i dati dei sistemi a monte vengono prima replicati in un set di dati BigQuery (source o replicated dataset), e i risultati aggiornati o uniti vengono inseriti in un altro set di dati (set di dati CDC). Le visualizzazioni dei report selezionano i dati dal set di dati del CDC per garantire che gli strumenti e le applicazioni di generazione di report dispongano sempre della versione più recente di una tabella.

Il seguente flusso mostra come l'elaborazione CDC per SAP dipende da operational_flag e recordstamp.

Esempio di elaborazione CDC per SAP

Figura 1. Esempio di elaborazione CDC per SAP.

Il seguente flusso mostra l'integrazione dalle API ai dati non elaborati e all'elaborazione CDC per Salesforce, in base ai campi Id e SystemModStamp prodotti dalle API Salesforce.

Integrazione dalle API all'elaborazione dei dati non elaborati e del CDC per Salesforce

Figura 2. Integrazione dalle API nelle elaborazioni dei dati non elaborati e CDC per Salesforce.

Alcuni strumenti di replica possono unire o eseguire l'upsert dei record quando li inseriscono in BigQuery, pertanto la generazione di questi script è facoltativa. In questo caso, la configurazione ha un solo set di dati. Il set di dati per i report recupera i record aggiornati per i report da quel set di dati.