Procesamiento de la captura de datos modificados (CDC)
En esta página, se te guiará por la captura de datos modificados (CDC) en Google Cloud Cortex Framework en BigQuery. BigQuery está diseñado para almacenar y analizar datos nuevos de manera eficiente.
Proceso de CDC
Cuando los datos cambian en tu sistema de datos de origen (como SAP), BigQuery no modifica los registros existentes. En su lugar, la información actualizada se agrega como un registro nuevo. Para evitar duplicados, se debe aplicar una operación de combinación después. Este proceso se denomina procesamiento de captura de datos modificados (CDC).
La Fundación de datos para SAP incluye la opción de crear secuencias de comandos para que Cloud Composer o Apache Airflow combinen o upsert
los registros nuevos que resultan de las actualizaciones y solo conserven la versión más reciente en un conjunto de datos nuevo. Para que estas secuencias de comandos funcionen, las tablas deben tener algunos campos específicos:
operation_flag
: Esta marca le indica a la secuencia de comandos si se insertó, actualizó o borró un registro.recordstamp
: Esta marca de tiempo ayuda a identificar la versión más reciente de un registro. Esta marca indica si el registro es lo siguiente:- Insertado (I)
- Actualizado (U)
- Borrada (D)
Cuando usas el procesamiento de CDC, puedes asegurarte de que tus datos de BigQuery reflejan con precisión el estado más reciente de tu sistema de origen. Esto elimina las entradas duplicadas y proporciona una base confiable para tu análisis de datos.
Estructura del conjunto de datos
Para todas las fuentes de datos admitidas, los datos de los sistemas upstream primero se replican en un conjunto de datos de BigQuery (source
o replicated dataset
), y los resultados actualizados o combinados se insertan en otro conjunto de datos (conjunto de datos de CDC). Las vistas de informes seleccionan datos del conjunto de datos de CDC para garantizar que las herramientas y aplicaciones de informes siempre tengan la versión más reciente de una tabla.
En el siguiente flujo, se muestra cómo funciona el procesamiento de la CDC para SAP, que depende de operational_flag
y recordstamp
.
En el siguiente flujo, se muestra la integración de las APIs en los datos sin procesar y el procesamiento de CDC para Salesforce, que depende de los campos Id
y SystemModStamp
que producen las APIs de Salesforce.
Algunas herramientas de replicación pueden combinar o actualizar los registros cuando se insertan en BigQuery, por lo que la generación de estas secuencias de comandos es opcional. En este caso, la configuración solo tiene un conjunto de datos. El conjunto de datos de informes recupera registros actualizados para generar informes desde ese conjunto de datos.