与 Campaign Manager 360 的集成
本页介绍了将 Campaign Manager 360 中的数据作为 Cortex Framework Data Foundation 营销工作负载的数据源所需的配置。
Campaign Manager 360 (CM360) 是 Google 提供的专为广告客户和代理机构设计的网页版广告管理平台。它可作为一个集中管理中心,用于管理和优化您在各种渠道投放的所有数字广告系列。Cortex Framework 提供了分析 CM360 数据、将其与其他营销渠道的数据相结合,以及使用 AI 技术获得更深入的数据分析洞见和优化整体营销策略的工具和平台。
下图描述了如何通过 Cortex Framework Data Foundation 的营销工作负载获取 CM360 数据:
配置文件
config.json
文件用于配置连接到数据源以从各种工作负载传输数据所需的设置。此文件包含 CM360 的以下参数:
"marketing": {
"deployCM360": true,
}
"CM360": {
"deployCDC": true,
"dataTransferBucket": "",
"datasets": {
"cdc": "",
"raw": "",
"reporting": "REPORTING_CM360"
}
}
下表介绍了每项营销参数的值:
参数 | 含义 | 默认值 | 说明 |
marketing.deployCM360
|
部署 CM360 | true
|
为 CM360 数据源执行部署。 |
marketing.CM360.deployCDC
|
为 CM360 部署 CDC 脚本 | true
|
生成 CM360 CDC 处理脚本,以便在 Cloud Composer 中作为 DAG 运行。 |
marketing.CM360.dataTransferBucket
|
包含 Data Transfer Service 结果的存储分区 | - | 存储 DTv2 文件的存储分区。 |
marketing.CM360.datasets.cdc
|
适用于 CM360 的 CDC 数据集 | 适用于 CM360 的 CDC 数据集。 | |
marketing.CM360.datasets.raw
|
CM360 的原始数据集 | CM360 的原始数据集。 | |
marketing.CM360.datasets.reporting
|
CM360 的报告数据集 | "REPORTING_CM360"
|
CM360 的报告数据集。 |
数据模型
本部分使用实体关系图 (ERD) 介绍了 CM360 数据模型。
基本视图
这些是 ERD 中的蓝色对象,是 CDC 表上的视图,除了一些列名称别名之外,没有其他转换。请参阅 src/marketing/src/CM360/src/reporting/ddls
中的脚本。
报告数据视图
这些是 ERD 中的绿色对象,是包含汇总指标的报告视图。请参阅 src/marketing/src/CM360/src/reporting/ddls
中的脚本。
DTv2 文件存储
DTv2(数据传输版本 2)文件是 CM360 用于传送广告系列效果数据的特定格式。按照数据传输 V2.0 文档设置数据传输流程,以便将 CM360 与 Cortex Framework 搭配使用。
创建或添加 Cloud Storage 存储分区,以便从 CM360 存储 DTv2 文件。确保存储分区下的文件可供在 Cloud Composer 中运行 DAG 的服务账号读取。如需了解详情,请参阅创建存储分区。
数据新鲜度和延迟
一般而言,Cortex Framework 数据源的数据新鲜度受上游连接允许的程度以及 DAG 执行频率的限制。调整 DAG 执行频率,使其与上游频率、资源限制和业务需求保持一致。
借助 CM360 数据传输 v2,系统会每天 24 次(每小时一次)提交展示次数和点击次数数据。处理时间可能会因文件而异,因此文件可能会出现混乱。系统每天都会提交活动文件。
Cloud Composer 连接
在 Cloud Composer 中创建以下连接。如需了解详情,请参阅“管理 Airflow 连接”文档。
连接名称 | 目的 |
cm360_raw_dataflow
|
对于 CM360 DTv2 文件 > BigQuery 原始数据集 |
cm360_cdc_bq
|
对于原始数据集 > CDC 数据集传输 |
cm360_reporting_bq
|
对于 CDC 数据集 > 报告数据集 转移 |
Cloud Composer 服务账号权限
向 Cloud Composer 中使用的服务账号(如 cm360_raw_dataflow
连接中所配置)授予 Dataflow 权限。请参阅 Dataflow 文档中的说明。
提取设置
通过 src/CM360/config/ingestion_settings.yaml
文件中的设置控制 Source to Raw
和 Raw to CDC
数据流水线。本部分介绍了每个数据流水线的参数。
来源到原始表
本部分介绍了用于控制 DTv2 中的哪些文件要进行处理的条目。每个条目都与与一个实体关联的文件相对应。根据此配置,Cortex Framework 会创建 Airflow DAG,用于运行 Dataflow 流水线来处理 DTv2 文件中的数据。
以下参数用于控制每个条目的 Source to Raw
设置:
参数 | 说明 |
base_table
|
原始数据集中用于存储实体数据(例如“点击次数”数据)的表。 |
load_frequency
|
此实体的 DAG 用于填充 CDC 表的运行频率。如需详细了解可能的值,请参阅 Airflow 文档。 |
file_pattern
|
基于与实体对应的文件名模式。 |
schema_file
|
src/table_schema 目录中的架构文件,用于将 DTv2 字段映射到目标表的列名称和数据类型。
|
partition_details
|
可选:如果您希望出于性能考虑对此表进行分区。如需了解详情,请参阅表分区。 |
cluster_details
|
可选:如果您希望出于性能考虑对此表进行分片。如需了解详情,请参阅集群设置。 |
将原始表转换为 CDC 表
此部分包含用于控制如何将数据从原始表移至 CDC 表的条目。每个条目都对应一个原始表(该表又对应于上述 DTv2 实体)。
以下参数用于控制每个条目的 Raw to CDC
设置:
参数 | 说明 |
base_table
|
CDC 数据集中用于存储 CDC 转换后原始数据的表(例如 customer )。
|
load_frequency
|
此实体的 DAG 用于填充 CDC 表的运行频率。如需详细了解可能的值,请参阅 Airflow 文档。 |
row_identifiers
|
用于为此表格构成唯一记录的列的列表(以英文逗号分隔)。 |
partition_details
|
可选:如果您希望出于性能考虑对此表进行分区。如需了解详情,请参阅表分区。 |
cluster_details
|
可选:如果您希望出于性能考虑对此表进行分片。如需了解详情,请参阅集群设置。 |
报告设置
您可以使用报告设置文件 (src/CM360/config/reporting_settings.yaml
) 配置和控制 Cortex Framework 如何为 CM360 最终报告层生成数据。此文件控制报告层 BigQuery 对象(表、视图、函数或存储过程)的生成方式。
如需了解详情,请参阅自定义报告设置文件。
后续步骤
- 如需详细了解其他数据源和工作负载,请参阅数据源和工作负载。
- 如需详细了解在生产环境中部署的步骤,请参阅 Cortex Framework Data Foundation 部署前提条件。