与 Campaign Manager 360 的集成

本页介绍了将 Campaign Manager 360 中的数据作为 Cortex Framework Data Foundation 营销工作负载的数据源所需的配置。

Campaign Manager 360 (CM360) 是 Google 提供的专为广告客户和代理机构设计的网页版广告管理平台。它可作为一个集中管理中心,用于管理和优化您在各种渠道投放的所有数字广告系列。Cortex Framework 提供了分析 CM360 数据、将其与其他营销渠道的数据相结合,以及使用 AI 技术获得更深入的数据分析洞见和优化整体营销策略的工具和平台。

下图描述了如何通过 Cortex Framework Data Foundation 的营销工作负载获取 CM360 数据:

CM360 数据源

图 1。CM360 数据源。

配置文件

config.json 文件用于配置连接到数据源以从各种工作负载传输数据所需的设置。此文件包含 CM360 的以下参数:

   "marketing": {
        "deployCM360": true,
        }

        "CM360": {
            "deployCDC": true,
            "dataTransferBucket": "",
            "datasets": {
                "cdc": "",
                "raw": "",
                "reporting": "REPORTING_CM360"
            }
        }

下表介绍了每项营销参数的值:

参数 含义 默认值 说明
marketing.deployCM360 部署 CM360 true 为 CM360 数据源执行部署。
marketing.CM360.deployCDC 为 CM360 部署 CDC 脚本 true 生成 CM360 CDC 处理脚本,以便在 Cloud Composer 中作为 DAG 运行。
marketing.CM360.dataTransferBucket 包含 Data Transfer Service 结果的存储分区 - 存储 DTv2 文件的存储分区。
marketing.CM360.datasets.cdc 适用于 CM360 的 CDC 数据集 适用于 CM360 的 CDC 数据集。
marketing.CM360.datasets.raw CM360 的原始数据集 CM360 的原始数据集。
marketing.CM360.datasets.reporting CM360 的报告数据集 "REPORTING_CM360" CM360 的报告数据集。

数据模型

本部分使用实体关系图 (ERD) 介绍了 CM360 数据模型。

CM360 的实体关系图

图 2。CM360:实体关系图。

基本视图

这些是 ERD 中的蓝色对象,是 CDC 表上的视图,除了一些列名称别名之外,没有其他转换。请参阅 src/marketing/src/CM360/src/reporting/ddls 中的脚本。

报告数据视图

这些是 ERD 中的绿色对象,是包含汇总指标的报告视图。请参阅 src/marketing/src/CM360/src/reporting/ddls 中的脚本。

DTv2 文件存储

DTv2(数据传输版本 2)文件是 CM360 用于传送广告系列效果数据的特定格式。按照数据传输 V2.0 文档设置数据传输流程,以便将 CM360 与 Cortex Framework 搭配使用。

创建或添加 Cloud Storage 存储分区,以便从 CM360 存储 DTv2 文件。确保存储分区下的文件可供在 Cloud Composer 中运行 DAG 的服务账号读取。如需了解详情,请参阅创建存储分区

数据新鲜度和延迟

一般而言,Cortex Framework 数据源的数据新鲜度受上游连接允许的程度以及 DAG 执行频率的限制。调整 DAG 执行频率,使其与上游频率、资源限制和业务需求保持一致。

借助 CM360 数据传输 v2,系统会每天 24 次(每小时一次)提交展示次数和点击次数数据。处理时间可能会因文件而异,因此文件可能会出现混乱。系统每天都会提交活动文件。

Cloud Composer 连接

在 Cloud Composer 中创建以下连接。如需了解详情,请参阅“管理 Airflow 连接”文档

连接名称 目的
cm360_raw_dataflow 对于 CM360 DTv2 文件 > BigQuery 原始数据集
cm360_cdc_bq 对于原始数据集 > CDC 数据集传输
cm360_reporting_bq 对于 CDC 数据集 > 报告数据集 转移

Cloud Composer 服务账号权限

向 Cloud Composer 中使用的服务账号(如 cm360_raw_dataflow 连接中所配置)授予 Dataflow 权限。请参阅 Dataflow 文档中的说明。

提取设置

通过 src/CM360/config/ingestion_settings.yaml 文件中的设置控制 Source to RawRaw to CDC 数据流水线。本部分介绍了每个数据流水线的参数。

来源到原始表

本部分介绍了用于控制 DTv2 中的哪些文件要进行处理的条目。每个条目都与与一个实体关联的文件相对应。根据此配置,Cortex Framework 会创建 Airflow DAG,用于运行 Dataflow 流水线来处理 DTv2 文件中的数据。

以下参数用于控制每个条目的 Source to Raw 设置:

参数 说明
base_table 原始数据集中用于存储实体数据(例如“点击次数”数据)的表。
load_frequency 此实体的 DAG 用于填充 CDC 表的运行频率。如需详细了解可能的值,请参阅 Airflow 文档
file_pattern 基于与实体对应的文件名模式。
schema_file src/table_schema 目录中的架构文件,用于将 DTv2 字段映射到目标表的列名称和数据类型。
partition_details 可选:如果您希望出于性能考虑对此表进行分区。如需了解详情,请参阅表分区
cluster_details 可选:如果您希望出于性能考虑对此表进行分片。如需了解详情,请参阅集群设置

将原始表转换为 CDC 表

此部分包含用于控制如何将数据从原始表移至 CDC 表的条目。每个条目都对应一个原始表(该表又对应于上述 DTv2 实体)。

以下参数用于控制每个条目的 Raw to CDC 设置:

参数 说明
base_table CDC 数据集中用于存储 CDC 转换后原始数据的表(例如 customer)。
load_frequency 此实体的 DAG 用于填充 CDC 表的运行频率。如需详细了解可能的值,请参阅 Airflow 文档
row_identifiers 用于为此表格构成唯一记录的列的列表(以英文逗号分隔)。
partition_details 可选:如果您希望出于性能考虑对此表进行分区。如需了解详情,请参阅表分区
cluster_details 可选:如果您希望出于性能考虑对此表进行分片。如需了解详情,请参阅集群设置
报告设置

您可以使用报告设置文件 (src/CM360/config/reporting_settings.yaml) 配置和控制 Cortex Framework 如何为 CM360 最终报告层生成数据。此文件控制报告层 BigQuery 对象(表、视图、函数或存储过程)的生成方式。

如需了解详情,请参阅自定义报告设置文件

后续步骤