Passo 3: determine o mecanismo de integração
Esta página descreve o terceiro passo para implementar a Data Foundation do Cortex Framework, o núcleo do Cortex Framework. Neste passo, configura a integração com a origem de dados escolhida. Se estiver a usar dados de amostra, ignore este passo.
Vista geral da integração
A estrutura do Cortex ajuda a centralizar dados de várias origens, juntamente com outras plataformas. Isto cria uma única fonte de informações fidedignas para os seus dados. A Data Foundation do Cortex integra-se com cada origem de dados de formas diferentes, mas a maioria delas segue um procedimento semelhante:
- Origem para camada não processada: carregue dados da origem de dados para o conjunto de dados não processados através de APIs. Isto é conseguido através da utilização de pipelines do Dataflow acionados através de DAGs do Cloud Composer.
- Camada não processada para camada de CDC: aplique o processamento de CDC no conjunto de dados não processado e armazene o resultado no conjunto de dados de CDC. Isto é conseguido através de DAGs do Cloud Composer que executam SQLs do BigQuery.
- Camada de CDC para camada de relatórios: cria tabelas de relatórios finais a partir de tabelas de CDC no conjunto de dados de relatórios. Isto é conseguido através da criação de vistas de tempo de execução sobre tabelas de CDC ou da execução de DAGs do Cloud Composer para dados materializados em tabelas do BigQuery, consoante a configuração. Para mais informações sobre a configuração, consulte o artigo Personalizar o ficheiro de definições de relatórios.
O ficheiro config.json
configura as definições necessárias para estabelecer ligação a origens de dados para transferir dados de várias cargas de trabalho. Consulte as opções de integração de cada origem de dados nos seguintes recursos.
- Operacional:
- Marketing:
- Sustentabilidade:
Para mais informações sobre os diagramas de entidade-relação que cada origem de dados suporta, consulte a pasta docs
no repositório da base de dados do framework Cortex.
Implementação de cães
O implementador K9 simplifica a integração de diversas origens de dados. O implementador K9 é um conjunto de dados predefinido no ambiente do BigQuery responsável pelo carregamento, processamento e modelagem de componentes reutilizáveis em diferentes origens de dados.
Por exemplo, a dimensão time
é reutilizável em todas as origens de dados em que as tabelas podem ter de usar resultados analíticos com base num calendário gregoriano. O K9
deployer combina dados externos, como o tempo ou o Google Trends, com outras origens de dados
(por exemplo, SAP, Salesforce, Marketing). Este conjunto de dados enriquecido permite
obter informações mais detalhadas e fazer uma análise mais abrangente.
O diagrama seguinte mostra o fluxo de dados de diferentes origens não processadas para várias camadas de relatórios:
No diagrama, o projeto de origem contém os dados não processados das origens de dados escolhidas (SAP, Salesforce e Marketing). Enquanto o projeto de destino contém dados processados, derivados do processo de captura de dados de alterações (CDC).
O passo K9 de pré-processamento é executado antes de todas as cargas de trabalho iniciarem a respetiva implementação, pelo que os modelos reutilizáveis estão disponíveis durante a implementação. Este passo transforma os dados de várias origens para criar um conjunto de dados consistente e reutilizável.
Os passos de pós-processamento K9 ocorrem depois de todas as cargas de trabalho terem implementado os respetivos modelos de relatórios para ativar os relatórios de várias cargas de trabalho ou aumentar os modelos para encontrar as dependências necessárias em cada conjunto de dados de relatórios individual.
Configure a implementação do K9
Configure os gráficos acíclicos dirigidos (DAGs) e os modelos a serem gerados no ficheiro de manifesto K9.
O passo de pré-processamento do K9 é importante porque garante que todas as cargas de trabalho no pipeline de dados têm acesso a dados preparados de forma consistente. Isto reduz a redundância e garante a consistência dos dados.
Para mais informações sobre como configurar conjuntos de dados externos para o K9, consulte o artigo Configure conjuntos de dados externos para o K9.
Passos seguintes
Depois de concluir este passo, avance para os seguintes passos de implementação:
- Estabeleça cargas de trabalho.
- Clonar repositório.
- Determine o mecanismo de integração (esta página).
- Configure os componentes.
- Configure a implementação.
- Execute a implementação.