Etapa 3: determinar o mecanismo de integração
Esta página descreve a terceira etapa para implantar a Cortex Data Foundation, o núcleo do Cortex Framework. Nesta etapa, você configura a integração com a fonte de dados escolhida. Se você estiver usando dados de amostra, pule esta etapa.
Visão geral da integração
O Cortex Framework ajuda a centralizar dados de várias fontes, além de outras plataformas. Isso cria uma única fonte de verdade para seus dados. O Cortex Data Foundation se integra a cada fonte de dados de maneiras diferentes, mas a maioria segue um procedimento semelhante:
- Camada de origem a bruto:ingerir dados da fonte para o conjunto de dados brutos usando APIs. Isso é feito usando pipelines do Dataflow acionados através de DAGs do Cloud Composer.
- Camada bruta para a camada CDC: aplique o processamento do CDC no conjunto de dados brutos e armazene a saída no conjunto de dados CDC. Isso é feito com DAGs do Cloud Composer que executam SQLs do BigQuery.
- Camada CDC para camada de relatórios:cria tabelas de relatórios finais com base nas tabelas CDC no conjunto de dados de relatórios. Isso é feito criando visualizações de execução nas tabelas do CDC ou executando DAGs do Cloud Composer para dados materializados em tabelas do BigQuery, dependendo da configuração. Para mais informações sobre a configuração, consulte Como personalizar o arquivo de configurações de relatórios.
O arquivo config.json
configura as configurações necessárias para se conectar a fontes de dados para transferir dados de várias cargas de trabalho. Confira as opções de integração para cada origem de dados nos recursos a seguir.
- Operacional:
- Marketing:
- Sustentabilidade:
Para mais informações sobre os diagramas de entidade-relacionamento compatíveis com cada fonte de dados, consulte a pasta docs
no repositório de dados do Cortex Framework.
Implantação do K9
O K9 deployer (link em inglês) simplifica a integração de diversas fontes de dados. O implantador do K9 é um conjunto de dados predefinido no ambiente do BigQuery responsável por ingerir, processar e modelar componentes que podem ser reutilizados em diferentes fontes de dados.
Por exemplo, a dimensão time
pode ser reutilizada em todas as fontes de dados em que as tabelas precisam usar resultados analíticos com base no calendário gregoriano. O implantador K9
combina dados externos, como o Google Trends ou a previsão do tempo, com outras fontes de dados
(por exemplo, SAP, Salesforce, Marketing). Esse conjunto de dados enriquecido permite
insights mais detalhados e análises mais abrangentes.
O diagrama a seguir mostra o fluxo de dados de diferentes fontes brutas para várias camadas de relatórios:
No diagrama, o projeto de origem contém os dados brutos das fontes de dados escolhidas (SAP, Salesforce e Marketing). Já o projeto de destino contém dados processados, derivados do processo de captura de dados de alterações (CDC).
A etapa K9 de pré-processamento é executada antes que todas as cargas de trabalho iniciem a implantação. Assim, os modelos reutilizáveis ficam disponíveis durante a implantação. Essa etapa transforma dados de várias fontes para criar um conjunto de dados consistente e reutilizável.
As etapas pós-processamento do K9 ocorrem depois que todas as cargas de trabalho implantaram os modelos de relatórios para permitir relatórios de várias cargas de trabalho ou aumentar os modelos para encontrar as dependências necessárias em cada conjunto de dados de relatórios.
Configurar a implantação do K9
Configure os grafos acíclicos dirigidos (DAGs) e os modelos a serem gerados no arquivo de configuração do K9.
A etapa de pré-processamento do K9 é importante porque garante que todos os workloads no pipeline de dados tenham acesso a dados preparados de forma consistente. Isso reduz a redundância e garante a consistência dos dados.
Para mais informações sobre como configurar conjuntos de dados externos para K9, consulte Configurar conjuntos de dados externos para K9.
Próximas etapas
Depois de concluir esta etapa, siga estas etapas de implantação:
- Estabeleça cargas de trabalho.
- Clone o repositório.
- Determinar o mecanismo de integração (página em inglês).
- Configurar componentes.
- Configure a implantação.
- Executar a implantação.