第 3 步:确定集成机制

本页介绍了部署 Cortex Framework 核心组件 Cortex Framework Data Foundation 的第 3 步。在此步骤中,您需要配置与所选数据源的集成。如果您使用的是示例数据,请跳过此步骤

集成概览

Cortex Framework 可帮助您集中管理来自各种来源以及其他平台的数据。这样,您就可以为数据创建单一可信来源。Cortex Data Foundation 会以不同的方式与每个数据源集成,但大多数集成都遵循类似的流程:

  • “源”到“原始”层:使用 API 将数据从数据源注入到原始数据集。为此,您可以使用通过 Cloud Composer DAG 触发的 Dataflow 流水线。
  • 将原始层转换为 CDC 层:对原始数据集应用 CDC 处理,并将输出存储在 CDC 数据集中。这通过运行 BigQuery SQL 的 Cloud Composer DAG 来实现。
  • CDC 层到报告层:根据“报告”数据集中的 CDC 表创建最终报告表。具体方法是,在 CDC 表上创建运行时视图,或者针对 BigQuery 表中的具体化数据运行 Cloud Composer DAG(具体取决于具体化数据的配置方式)。如需详细了解配置,请参阅自定义报告设置文件

config.json 文件用于配置连接到数据源以从各种工作负载传输数据所需的设置。请参阅以下资源,了解每种数据源的集成选项。

如需详细了解每个数据源支持的实体-关系图,请参阅 Cortex Framework Data Foundation 代码库中的 docs 文件夹。

K9 部署

K9 部署程序可简化各种数据源的集成。K9 部署程序是 BigQuery 环境中的一个预定义数据集,负责提取、处理和建模可在不同数据源中重复使用的组件。

例如,time 维度可在所有数据源中重复使用,其中表格可能需要根据公历获取分析结果。K9 部署程序可将天气或 Google 趋势等外部数据与其他数据源(例如 SAP、Salesforce、营销)结合使用。这种经过丰富的数据集有助于获得更深入的洞见和更全面的分析。

下图显示了数据从不同原始来源流向各种报告层的过程:

K9 数据集

图 1。K9 数据集。

在该图中,源项目包含所选数据源(SAP、Salesforce 和 Marketing)的原始数据。而目标项目包含从变更数据捕获 (CDC) 流程中派生出来的处理后数据。

预处理 K9 步骤会在所有工作负载开始部署之前运行,因此可重复使用的模型会在部署期间可用。此步骤会转换来自各种来源的数据,以创建一致且可重复使用的数据集。

在所有工作负载部署其报告模型以实现跨工作负载报告或增强模型以在每个单独的报告数据集中查找其必要依赖项后,系统会执行 K9 后处理步骤。

配置 K9 部署

K9 配置文件中配置要生成的有向无环图 (DAG) 和模型。

K9 预处理步骤非常重要,因为它可确保数据流水线中的所有工作负载都能访问一致准备的数据。这样可以减少冗余并确保数据一致性。

如需详细了解如何为 K9 配置外部数据集,请参阅为 K9 配置外部数据集

后续步骤

完成此步骤后,请继续执行以下部署步骤:

  1. 建立工作负载
  2. 克隆代码库
  3. 确定集成机制(本页)。
  4. 设置组件
  5. 配置部署
  6. 执行部署