Verarbeitung von Change Data Capture (CDC)
Auf dieser Seite erfahren Sie, wie Sie Change Data Capture (CDC) im Google Cloud Cortex Framework in BigQuery verwenden. BigQuery wurde entwickelt, um neue Daten effizient zu speichern und zu analysieren.
CDC-Prozess
Wenn sich Daten in Ihrem Quelldatensystem (z. B. SAP) ändern, werden vorhandene Einträge in BigQuery nicht geändert. Stattdessen werden die aktualisierten Informationen als neuer Datensatz hinzugefügt. Um Duplikate zu vermeiden, muss danach ein Zusammenführungsvorgang angewendet werden. Dieser Vorgang wird als CDC-Verarbeitung (Change Data Capture) bezeichnet.
Die Data Foundation for SAP bietet die Möglichkeit, Scripts für Cloud Composer oder Apache Airflow zu erstellen, um die neuen Datensätze aus den Aktualisierungen zu zusammenführen oder upsert
und nur die neueste Version in einem neuen Datenpool zu behalten. Damit diese Scripts funktionieren, müssen die Tabellen bestimmte Felder enthalten:
operation_flag
: Dieses Flag gibt dem Script an, ob ein Datensatz eingefügt, aktualisiert oder gelöscht wurde.recordstamp
: Anhand dieses Zeitstempels lässt sich die neueste Version eines Eintrags ermitteln. Dieses Flag gibt an, ob der Datensatz:- Eingefügt (I)
- Aktualisiert (U)
- Gelöscht (D)
Mit der CDC-Verarbeitung können Sie dafür sorgen, dass Ihre BigQuery-Daten den aktuellen Status Ihres Quellsystems genau widerspiegeln. So werden doppelte Einträge eliminiert und eine zuverlässige Grundlage für Ihre Datenanalyse geschaffen.
Dataset-Struktur
Bei allen unterstützten Datenquellen werden Daten aus vorgelagerten Systemen zuerst in ein BigQuery-Dataset (source
oder replicated dataset
) repliziert und die aktualisierten oder zusammengeführten Ergebnisse in ein anderes Dataset (CDC-Dataset) eingefügt. In den Berichtsansichten werden Daten aus dem CDC-Datensatz ausgewählt, damit die Berichtstools und ‑anwendungen immer die neueste Version einer Tabelle haben.
Der folgende Ablauf veranschaulicht, wie die CDC-Verarbeitung für SAP abhängig von operational_flag
und recordstamp
funktioniert.
Im folgenden Ablauf wird die Integration von APIs in Rohdaten und die CDC-Verarbeitung für Salesforce dargestellt, abhängig von den Id
- und SystemModStamp
-Feldern, die von Salesforce APIs generiert werden.
Einige Replikationstools können die Datensätze beim Einfügen in BigQuery zusammenführen oder Upserts ausführen. Die Generierung dieser Scripts ist also optional. In diesem Fall gibt es nur einen Datensatz. Aus dem Berichtsdatensatz werden aktualisierte Datensätze für die Berichterstellung abgerufen.