第 1 步:建立工作负载
本页将引导您完成数据基础(Cortex Framework 的核心)的初始设置步骤。数据基础架构基于 BigQuery 存储构建而成,可整理来自各种来源的传入数据。这样有序的数据更易于分析和用于 AI 开发。
设置数据集成
首先,定义一些关键参数,以便在 Cortex Framework 中高效地整理和使用数据。请注意,这些参数可能会因具体工作负载、您选择的数据流和集成机制而异。下图概述了 Cortex Framework Data Foundation 中的数据集成:
请在部署之前定义以下参数,以便在 Cortex Framework 中高效利用数据。
项目
- 源项目:原始数据所在的项目。您需要至少有一个 Google Cloud 项目来存储数据和运行部署流程。
- 目标项目(可选):Cortex Framework Data Foundation 存储其处理后的数据模型的项目。此项目可以与来源项目相同,也可以是其他项目,具体取决于您的需求。
如果您希望为每个工作负载分别设置一组项目和数据集(例如,为 SAP 设置一组源项目和目标项目,为 Salesforce 设置另一组源项目和目标项目),请为每个工作负载运行单独的部署。如需了解详情,请参阅“可选步骤”部分中的使用不同的项目来分隔访问权限。
数据模型
- 部署模型:选择您需要为所有工作负载部署模型,还是仅部署一组模型(例如 SAP、Salesforce 和 Meta)。如需了解详情,请参阅可用的数据源和工作负载。
BigQuery 数据集
- 源数据集(原始):将源数据复制到的 BigQuery 数据集或创建测试数据的位置。建议您创建单独的数据集,每个数据源一个。例如,一个用于 SAP 的原始数据集和一个用于 Google Ads 的原始数据集。此数据集属于源项目。
- CDC 数据集:CDC 处理后的数据会存储到此 BigQuery 数据集中,其中包含最新的可用记录。某些工作负载允许进行字段名称映射。建议为每个来源创建单独的 CDC 数据集。例如,一个 CDC 数据集用于 SAP,另一个 CDC 数据集用于 Salesforce。此数据集属于源项目。
- 目标报告数据集:部署 Data Foundation 预定义数据模型的 BigQuery 数据集。我们建议为每个来源创建单独的报告数据集。例如,一个报告数据集用于 SAP,另一个报告数据集用于 Salesforce。如果此数据集不存在,系统会在部署期间自动创建。此数据集属于 Target 项目。
- 预处理 K9 数据集:BigQuery 数据集,可在其中部署跨工作负载的可重复使用 DAG 组件(例如
time
维度)。除非进行修改,否则工作负载会依赖于此数据集。如果此数据集不存在,系统会在部署期间自动创建一个。此数据集属于源项目。 - 后处理 K9 数据集:BigQuery 数据集,可在其中部署跨工作负载报告和其他外部来源 DAG(例如 Google 趋势提取)。如果此数据集不存在,系统会在部署期间自动创建一个。此数据集属于 Target 项目。
可选:生成示例数据
如果您无法访问自己的数据,或者没有用于设置数据的复制工具,或者您只想了解 Cortex Framework 的运作方式,Cortex Framework 可以为您生成示例数据和表。不过,您仍需要提前创建并标识 CDC 和原始数据集。
按照以下说明,为每个数据源创建原始数据和 CDC 的 BigQuery 数据集。
控制台
在 Google Cloud 控制台中打开 BigQuery 页面。
在探索器面板中,选择您要在其中创建数据集的项目。
展开
操作选项,然后点击创建数据集:在创建数据集页面中执行以下操作:
点击创建数据集。
bq
复制以下命令,为原始数据创建一个新数据集:
bq --location= LOCATION mk -d SOURCE_PROJECT: DATASET_RAW
替换以下内容:
LOCATION
为数据集的位置。- 将
SOURCE_PROJECT
替换为您的源项目 ID。 DATASET_RAW
替换为原始数据的数据集的名称。例如CORTEX_SFDC_RAW
。
复制以下命令,为 CDC 数据创建一个新数据集:
bq --location=LOCATION mk -d SOURCE_PROJECT: DATASET_CDC
替换以下内容:
LOCATION
为数据集的位置。- 将
SOURCE_PROJECT
替换为您的源项目 ID。 - 将
DATASET_CDC
替换为 CDC 数据的数据集的名称。例如CORTEX_SFDC_CDC
。
使用以下命令确认数据集已创建:
bq ls
可选。如需详细了解如何创建数据集,请参阅创建数据集。
后续步骤
完成此步骤后,请继续执行以下部署步骤: