与 Google Analytics 4 集成
本页介绍了将 Google Analytics 4 (GA4) 中的数据作为 Cortex Framework Data Foundation 营销工作负载的数据源所需的配置。
GA4 是最新版本的 Google Analytics。它可全面了解用户行为,重点是基于事件的跟踪和机器学习,以提供更深入的分析洞见。借助 Cortex Framework,您可以从 GA4 中提取数据并将其集成到 BigQuery 中,以便进行进一步分析和生成报告。您可以获得有价值的数据洞见,从而取得更理想的业务成效。
下图描述了如何通过 Cortex Framework Data Foundation 的营销工作负载获取 GA4 数据:
配置文件
config.json
文件用于配置连接到数据源以从各种工作负载传输数据所需的设置。此文件包含 GA4 的以下参数:
"marketing": {
"deployGA4": true,
"GA4": {
"datasets": {
"cdc": [
{"property_id": 0, "name": ""}
],
"reporting": "REPORTING_GA4"
}
}
}
下表介绍了每项营销参数的值:
参数 | 含义 | 默认值 | 说明 |
marketing.deployGA4
|
部署 GA4 | true
|
为 GA4 数据源执行部署。 |
marketing.GA4.datasets.cdc
|
适用于 GA4 的 BigQuery Export 数据集 | [{"property_id": 0, "name": ""}]
|
Google Analytics 4 BigQuery Export 数据集的数组。每个元素都将 Property ID 指定为 INT ,以及其对应的 BigQuery Export 数据集名称。
|
marketing.GA4.datasets.reporting
|
GA4 的报告数据集 | REPORTING_GA4
|
GA4 的报告数据集。 |
数据模型
本部分使用实体关系图 (ERD) 介绍了 GA4 数据模型。
基本视图
这些是 ERD 中的蓝色对象,是 CDC 表上的视图,只需进行最少的转换即可解压缩复杂的数据结构。请参阅 src/marketing/src/GA4/src/reporting/ddls
中的脚本。
报告数据视图
这些是 ERD 中的绿色对象,是包含汇总指标的报告视图。请参阅 src/marketing/src/GA4/src/reporting/ddls
中的脚本。
为 GA4 配置集成
Cortex Framework Data Foundation 通过在 GA4 的 BigQuery Export 数据集(在 Cortex Framework 架构中被视为 CDC 数据集)之上创建报告层,与 GA4 集成。具体方法是,根据报告设置配置,在 CDC 表上创建运行时视图,或针对 BigQuery 表中的具体化数据运行 Cloud Composer DAG。
设置 GA4 BigQuery Export
Cortex Framework 使用 GA4 的 BigQuery Export 功能将数据从源系统加载到 BigQuery。请按照这篇 GA4 帮助文章中有关设置 BigQuery Export 或每个 GA4 媒体资源的说明操作:GA4 - 设置 BigQuery Export。
已知问题、限制和其他注意事项
设置 GA4 BigQuery Export 时,请考虑以下事项:
- 回填:GA4 BigQuery Export 从设置之日起开始生效,不会回填。
- GA4 界面和 Cortex Framework 报告的数字之间存在差异:多种因素(包括但不限于抽样、数据收集延迟和高基数报告)可能会导致 Google Analytics 界面和 Cortex Framework 之间存在细微差异。这是 Google Analytics 的已知固有限制。如需了解详情,请参阅缩小 Google Analytics 界面与 BigQuery Export 之间的差距 。
- 事件导出量限制:根据您使用的 Google Analytics 版本,您每天可能会面临不同程度的 BigQuery 导出量限制。如需了解详情,请参阅 GA4 - 设置 BigQuery Export。
- 时区:在 BigQuery Export 中,
event_date
设在媒体资源的报告时区,而event_timestamp
是采用世界协调时间 (UTC) 的时间戳(以微秒为单位)。因此,如果使用event_timestamp
,请务必在与界面数据进行比较时,针对正确的报告时区进行调整。 - 每日导出与流式(实时)事件导出:对于事件导出,Cortex Framework 仅支持通过完整的每日导出创建的
events_YYYYMMDD
表。如需了解详情,请参阅 GA4 - BigQuery Export。 - 适用于 BigQuery Export 的 GA4 360 服务等级协议 (SLA):虽然 Cortex Framework 不支持将每天更新导出创建的
events_fresh_
表格作为单独的来源表格,但您可以按照Events
“报告”视图中的##CORTEX-CUSTOMER
自定义注释,将来源表格替换为这些表格,以便利用此功能提供的 SLA。此替换完成后,所有报告视图都将继续正常运行。
数据新鲜度和延迟
一般而言,Cortex Framework 数据源的数据新鲜度受上游连接允许的程度以及 DAG 执行频率的限制。调整 DAG 执行频率,使其与上游频率、资源限制和业务需求保持一致。
在 Google Analytics 4 中,除非您使用每天更新,否则 BigQuery Export 数据最多可能会延迟一天(具体取决于您的时区)。
配置
本部分介绍了数据流程的配置。
Cloud Composer 连接
在 Cloud Composer 中创建以下连接。如需了解详情,请参阅“管理 Airflow 连接”文档。
连接名称 | 目的 |
dv360_cdc_bq
|
对于“原始数据集”>“CDC 数据集”转移。 |
dv360_reporting_bq
|
对于 CDC 数据集 > 报告数据集传输。 |
报告设置
您可以使用报告设置文件 src/GA4/config/reporting_settings.yaml
配置和控制 Cortex Framework 为 GA4 最终报告层生成数据的方式。此文件用于控制报告层 BigQuery 对象(表、视图、函数或存储过程)的生成方式。
如需了解详情,请参阅自定义报告设置文件。
后续步骤
- 如需详细了解其他数据源和工作负载,请参阅数据源和工作负载。
- 如需详细了解在生产环境中部署的步骤,请参阅 Cortex Framework Data Foundation 部署前提条件。