与 TikTok 集成
本页介绍了将 TikTok 中的数据作为 Cortex Framework Data Foundation 营销工作负载的数据源所需的配置。
TikTok 是一款以短视频而闻名的热门社交媒体应用,Cortex Framework 可以提供数据来分析整体营销效果。通过整合来自 TikTok 和各种来源的数据,您可以更全面地了解目标受众群体以及社交媒体广告系列在不同平台上的效果。
下图描述了如何通过 Cortex Framework Data Foundation 的营销工作负载获取 TikTok 数据:
配置文件
config.json
文件用于配置连接到数据源以从各种工作负载传输数据所需的设置。此文件包含 TikTok 的以下参数:
"marketing": {
"deployTikTok": true,
},
"TikTok": {
"deployCDC": true,
"datasets": {
"cdc": "",
"raw": "",
"reporting": "REPORTING_TikTok"
}
}
下表介绍了每项营销参数的值:
参数 | 含义 | 默认值 | 说明 |
marketing.deployTikTok
|
部署 TikTok | true
|
为 TikTok 数据源执行部署。 |
marketing.TikTok.deployCDC
|
为 TikTok 部署 CDC 脚本 | true
|
生成 TikTok CDC 处理脚本,以便在 Cloud Composer 中作为 DAG 运行。 |
marketing.TikTok.datasets.cdc
|
适用于 TikTok 的 CDC 数据集 | 适用于 TikTok 的 CDC 数据集。 | |
marketing.TikTok.datasets.raw
|
适用于 TikTok 的原始数据集 | TikTok 的原始数据集。 | |
marketing.TikTok.datasets.reporting
|
适用于 TikTok 的报告数据集 | "REPORTING_TikTok"
|
适用于 TikTok 的报告数据集。 |
数据模型
本部分使用实体关系图 (ERD) 介绍 TikTok 数据模型。
基本视图
这些是 ERD 中的蓝色对象,是 CDC 表上的视图,除了一些列名称别名之外,没有其他转换。请参阅 src/marketing/src/TikTok/src/reporting/ddls
中的脚本。
报告数据视图
这些是 ERD 中的绿色对象,是包含汇总指标的报告视图。请参阅 src/marketing/src/TikTok/src/reporting/ddls
中的脚本。
API 连接
Cortex Framework 使用 TikTok Reporting API(版本 v1.3)作为 TikTok 数据的权威来源。Cortex Framework 使用同步模式,并调用基本报告 API 来检索广告和广告组的效果指标。这样可确保 Cortex Framework 能够访问 TikTok 中最新、准确的信息,从而实现有效的数据分析和报告。
如需详细了解 API 关联,请参阅 TikTok Reporting API。
账号身份验证
如需配置 TikTok 账号和账号身份验证,请按以下步骤操作:
- 如果您还没有 TikTok 开发者账号,请先设置一个。
- 创建一个用于 Cortex Framework 集成的应用。如需了解详情,请参阅 面向商家的 TikTok API。请确保在应用的范围中选择以下两个选项:
Ad Account Management/Ad Account Information
Reporting/All
- 获取 TikTok 指南中所述的应用 ID、密钥和长期访问令牌,并分别将其存储在 Secret Manager 中,并使用以下名称:
- 应用 ID:
cortex_tiktok_app_id
- Secret:
cortex_tiktok_app_secret
- 长期访问令牌:
cortex_tiktok_access_token
- 应用 ID:
数据新鲜度和延迟
一般而言,Cortex Framework 数据源的数据新鲜度受上游连接允许的程度以及 DAG 执行频率的限制。调整 DAG 执行频率,使其与上游频率、资源限制和业务需求保持一致。
借助 TikTok Marketing API,大多数数据(不包括转化数据)几乎可以实时获取。
Cloud Composer 连接
在 Cloud Composer 中创建以下连接。如需了解详情,请参阅“管理 Airflow 连接”文档。
连接名称 | 目的 |
tiktok_raw_dataflow
|
对于 TikTok API > BigQuery 原始数据集 |
tiktok_cdc_bq
|
对于原始数据集 > CDC 数据集传输 |
tiktok_reporting_bq
|
对于 CDC 数据集 > 报告数据集传输 |
Cloud Composer 服务账号权限
向 Cloud Composer 中使用的服务账号(如 tiktok_raw_dataflow
连接中所配置)授予 Dataflow 权限。请参阅 Dataflow 文档中的说明。
此外,同一服务账号还应具有 Secret Manager Accessor 访问权限。
提取设置
通过 src/TikTok/config/ingestion_settings.yaml
文件中的设置控制 Source to Raw
和 Raw to CDC
数据流水线。本部分介绍了每个数据流水线的参数。
来源到原始表
此部分包含用于控制如何从 TikTok 提取数据以及数据在原始数据集中的最终位置的条目。每个条目都对应一个包含从 TikTok API 提取的该实体数据的原始表。根据这些配置参数,Cortex Framework 会创建 Airflow DAG,以运行 Dataflow 流水线来处理来自 TikTok API 的数据。
以下参数用于控制每个条目的 Source to Raw
设置:
参数 | 说明 |
base_table
|
原始数据集中存储实体数据(例如“广告”数据)的表。 |
load_frequency
|
为此实体运行 DAG 以处理数据的频率。如需详细了解可能的值,请参阅 Airflow 文档。 |
schema_file
|
src/table_schema 目录中的架构文件,用于将 API 响应字段映射到目标表的列名称。
|
partition_details
|
可选:如果您希望出于性能考虑对此表进行分区。如需了解详情,请参阅表分区。 |
cluster_details
|
可选:如果您希望出于性能考虑对此表进行分片。如需了解详情,请参阅集群设置。 |
将原始表转换为 CDC 表
此部分包含用于控制数据从原始表迁移到 CDC 表的方式的条目。每个条目都对应于一个 CDC 表(该表又对应于为 Source to Raw table
提及的实体)。
以下参数用于控制每个条目的 Raw to CDC
设置:
参数 | 说明 |
base_table
|
CDC 数据集中用于存储 CDC 转换后的原始数据的表(例如 auction_ad_performance )
|
load_frequency
|
此实体的 DAG 用于填充 CDC 表的运行频率。如需了解详情,请参阅 Airflow 文档,详细了解可能的值。 |
row_identifiers
|
用于为此表格构成唯一记录的列的列表(以英文逗号分隔)。 |
partition_details
|
可选:如果您希望出于性能考虑对此表进行分区。如需了解详情,请参阅表分区。 |
cluster_details
|
可选:如果您希望出于性能考虑对此表进行分片。如需了解详情,请参阅集群设置。 |
报告设置
使用报告设置文件 src/TikTok/config/reporting_settings.yaml
配置和控制 Cortex Framework 如何为 TikTok 最终报告层生成数据。
此文件用于控制报告层 BigQuery 对象(表、视图、函数或存储过程)的生成方式。
如需了解详情,请参阅自定义报告设置文件。
后续步骤
- 如需详细了解其他数据源和工作负载,请参阅数据源和工作负载。
- 如需详细了解在生产环境中部署的步骤,请参阅 Cortex Framework Data Foundation 部署前提条件。