Processamento da captura de dados alterados (CDC)
Esta página orienta você sobre a captura de dados alterados (CDC) no Google Cloud Cortex Framework no BigQuery. O BigQuery foi projetado para armazenar e analisar novos dados de maneira eficiente.
Processo de CDC
Quando os dados mudam no sistema de dados de origem, como o SAP, o BigQuery não modifica os registros existentes. Em vez disso, as informações atualizadas são adicionadas como um novo registro. Para evitar duplicatas, uma operação de mesclagem precisa ser aplicada depois. Esse processo é chamado de processamento de captura de dados de alteração (CDC).
A plataforma Data Foundation para SAP inclui a opção de criar scripts para o Cloud Composer ou o Apache Airflow para mesclar ou upsert
os novos registros resultantes das atualizações e manter apenas a versão mais recente em um novo conjunto de dados. Para que esses scripts funcionem, as tabelas
precisam ter alguns campos específicos:
operation_flag
: essa flag informa ao script se um registro foi inserido, atualizado ou excluído.recordstamp
: esse carimbo de data/hora ajuda a identificar a versão mais recente de um registro. Essa flag indica se o registro é:- Inserido (I)
- Atualizado (U)
- Excluído (D)
Ao usar o processamento de CDC, você pode garantir que os dados do BigQuery reflitam com precisão o estado mais recente do sistema de origem. Isso elimina entradas duplicadas e fornece uma base confiável para a análise de dados.
Estrutura do conjunto de dados
Para todas as origens de dados com suporte, os dados dos sistemas upstream são replicados primeiro em um conjunto de dados do BigQuery (source
ou replicated dataset
), e os resultados atualizados ou mesclados são inseridos em outro conjunto de dados (conjunto de dados CDC). As visualizações de relatórios selecionam dados do conjunto de dados do CDC para garantir que as ferramentas e os aplicativos de relatórios sempre tenham a versão mais recente de uma tabela.
O fluxo a seguir mostra como o processamento da CDC para SAP depende de
operational_flag
e recordstamp
.
O fluxo a seguir mostra a integração das APIs com dados brutos e
processamento de CDC para o Salesforce, dependendo dos campos Id
e SystemModStamp
produzidos pelas APIs do Salesforce.
Algumas ferramentas de replicação podem mesclar ou inserir os registros ao ser inseridos no BigQuery. Portanto, a geração desses scripts é opcional. Nesse caso, a configuração tem apenas um conjunto de dados. O conjunto de dados de relatórios busca registros atualizados para relatórios desse conjunto.