Procesamiento de captura de datos de cambios (CDC)

En esta página se explica cómo usar la captura de datos de cambios (CDC) en Google Cloud Cortex Framework en BigQuery. BigQuery se ha diseñado para almacenar y analizar datos nuevos de forma eficiente.

Proceso de CDC

Cuando los datos cambian en tu sistema de datos de origen (como SAP), BigQuery no modifica los registros. En su lugar, la información actualizada se añade como un nuevo registro. Para evitar duplicados, debe aplicarse una operación de combinación después. Este proceso se denomina procesamiento de captura de datos de cambios (CDC).

Data Foundation for SAP incluye la opción de crear secuencias de comandos para Cloud Composer o Apache Airflow con el fin de combinar o upsert los nuevos registros resultantes de las actualizaciones y conservar solo la versión más reciente en un nuevo conjunto de datos. Para que estas secuencias de comandos funcionen, las tablas deben tener algunos campos específicos:

  • operation_flag: esta marca indica a la secuencia de comandos si se ha insertado, actualizado o eliminado un registro.
  • recordstamp: esta marca de tiempo ayuda a identificar la versión más reciente de un registro. Esta marca indica si el registro es:
    • Insertada (I)
    • Actualizado (U)
    • Eliminado (E)

Al utilizar el procesamiento de CDC, puedes asegurarte de que tus datos de BigQuery reflejen con precisión el estado más reciente de tu sistema de origen. De esta forma, se eliminan las entradas duplicadas y se proporciona una base fiable para el análisis de datos.

Estructura del conjunto de datos

En todas las fuentes de datos admitidas, los datos de los sistemas de origen se replican primero en un conjunto de datos de BigQuery (source o replicated dataset) y los resultados actualizados o combinados se insertan en otro conjunto de datos (conjunto de datos de CDC). Las vistas de informes seleccionan datos del conjunto de datos del CDC para asegurarse de que las herramientas y aplicaciones de informes siempre tengan la versión más reciente de una tabla.

En el siguiente flujo se muestra cómo se procesa el CDC de SAP, que depende de operational_flag y recordstamp.

Ejemplo de procesamiento de CDC para SAP

Imagen 1. Ejemplo de procesamiento de CDC para SAP.

En el siguiente diagrama se muestra la integración de las APIs en los datos sin procesar y el procesamiento de CDC de Salesforce, que depende de los campos Id y SystemModStamp que producen las APIs de Salesforce.

Integración de APIs en datos sin procesar y procesamiento de CDC para Salesforce

Imagen 2. Integración de APIs en datos sin procesar y procesamiento de CDC para Salesforce.

Algunas herramientas de replicación pueden combinar o insertar los registros cuando se insertan en BigQuery, por lo que la generación de estas secuencias de comandos es opcional. En este caso, la configuración solo tiene un conjunto de datos. El conjunto de datos de informes obtiene los registros actualizados para generar informes a partir de ese conjunto de datos.