构建营销数据仓库

本文介绍了如何从多个来源收集数据以创建以前不可用的再营销列表。使用这些列表,您可以全方位了解客户信息。了解客户如何与您的品牌进行互动后,您可以提升生命周期价值 (LTV) 并实现更深入的营销数据洞见。

营销者的角色正从传统广告系列执行转变为相关实时互动。数据捕获和可追溯绩效分析推动了旧模式,因此当今的营销者使用数据支持的客户数据洞见、以绩效为导向的策略以及主动而周到的定位。

这种新方法带来了一系列全新挑战。例如,存储的价格一直以来都比较便宜,导致了数据量迅猛暴增,而将数据收集到一个地方进行分析仍然是一大挑战。一些复杂因素包括:

  • 数据源和格式多种多样,但通常彼此孤立。
  • 分析工具以及提取、转换和加载 (ETL) 工具多种多样,可能难以实现。
  • 技术资源稀缺。
  • 缺乏测试和原型设计的灵活性。

本文将介绍这些因素,并帮助您了解如何创建可用于自己的数据的工作流。本文假定您具备结构化查询语言 (SQL) 基础知识。对于机器学习相关的某些部分,您可能需要数据分析师或数据科学家的帮助。

使用场景

本例中的虚构公司是一家在线化妆品零售商,您担任首席营销官。您希望获得关键数据洞见,同时尽量减少与 DevOps 团队的技术互动。您的 IT 资源有限,但得到了数据科学家的帮助。

您面临的主要挑战是要通过跟踪广告支出的投资回报率 (ROI) 来优化营销预算,而您面临以下数据难题。

  • 数据分散在 Google Analytics 360、客户关系管理 (CRM) 和 Campaign Manager 产品以及其他来源中。
  • 客户和销售数据存储在 CRM 系统中。
  • 某些数据采用了不可查询的格式。
  • 没有可用于分析数据并与组织的其他人共享结果的常用工具。

本文中的方法解决了这些问题,并概述了以下解决方案。

  • 将数据收集到公共存储位置。
  • 转换该数据,使其可以查询并可以与不同来源的数据拼接。
  • 获取标准报告 API 中不可用的报告维度。
  • 利用机器学习作业发现用户组。

通过执行这些任务,您可以创建之前不可用的再营销列表。

架构

以下架构示意图说明了从各种来源提取数据到做出再营销决策的过程。

从数据提取到再营销决策
图 1:从提取数据到做出再营销决策。
  • 在此示意图中,某些数据集的颜色较浅,表示这些数据不属于本文所述到特定使用场景,但是您可以使用相同的方式处理这些数据。例如,虽然本文向您介绍如何对 Campaign Manager 数据运行 Google Ad Manager 或 YouTube 查询,但您可以对导出到 BigQuery 的数据执行相同操作。
  • 该示意图包含一个标记为更高级 (More advanced) 的部分。在中心位置整合数据时,数据科学家可以帮助您使用数据执行更高级的工作,例如机器学习。

功能要求

此部分根据以下功能要求介绍技术选项。

  • 收集和存储数据
  • 转换数据
  • 分析数据
  • 直观呈现数据
  • 激活数据

收集和存储数据

获得数据洞见的第一步是将您的数据整合到一个中心位置。选择有助于从最重要的营销渠道和数据源有效收集信息的技术,可从 Google 数据开始。

BigQuery 提供存储功能和查询引擎,可以从各种来源提取数据。在本文中,您要收集与以下内容相关的数据:

  • Google 广告BigQuery Data Transfer Service 可以从 Google Marketing Platform、Google Ads 或 YouTube 等来源顺畅自动地提取数据。
  • Analytics 360:了解数据新鲜度的选项,从每 10 分钟更新一次到每天更新一次,找到最适合您需求的选项。Analytics 360 可以直通 BigQuery。
  • 第一方数据:您可以从 CRM 或销售终端 (POS) 等来源提取数据。在大多数情况下,您可以使用 bq 命令行工具API网页界面离线执行此数据提取。您可以在本地或从 Cloud Storage 加载数据。对于大数据集或当您考虑构建数据湖时,推荐从 Cloud Storage 加载数据。
数据收集过程
图 2:收集和整合数据。

转换

本节介绍如何准备数据进行分析,包括清理和重新设置数据格式,以在大数据集中实现一致性。您希望分析师能够通过很少编码甚至无需编码即可清理数据,例如,通过可扩缩和运行分布式转换的可视化工具来清理数据。

您可以使用 BigQuery,也可以使用数据视图执行一个表到另一个表的批量转换。但对于更高级的转换,您可能更倾向于使用可视化工具,这样便能以最小的编程要求通过复杂的处理流水线运行数 TB 的数据。

假设您有一个键值对字符串,例如导出到 Campaign Manager 活动表中的 Other_data 字段:

key1=value1&key2=value2&...keyN=valueN

您希望将此字符串拆分为包含如下所示的列和值的表:

key1 | key2 | … | keyN
----------------------
val1 | val2 | … | valN

让键名称以列的形式显示有助于与其他现有表拼接。键可以包含自定义信息,例如您的 CRM 用户 ID、产品列表或 Urchin 跟踪模块 (UTM) 数据。

Trifacta 的 Cloud Dataprep 提供了一种名为“配方”的功能,您可以使用此功能来定义转换。配方是在分布式环境的后台运行的一系列任务。

Cloud Dataprep 配方

定义配方时,Trifacta 的 Cloud Dataprep 可提供数据外观的预览。请注意,在下面的屏幕截图中,在存储已转换数据时,该数据会包含新的列,例如 treatments、products、concerns 和 membership。

存储已转换的数据

Trifacta 的 Cloud Dataprep 还支持各种输入和输出源(包括 BigQuery),这使其成为此解决方案的不错选择。Trifacta 的 Cloud Dataprep 可以读取从 Campaign Manager 导入的 BigQuery 数据集,并将结果保存回 BigQuery。

分析

集中保存已清理数据后,您可以开始分析该数据以获得数据洞见。获取 BigQuery 中提供的数据具有以下几大优势:

  • 您可以对更大的数据运行查询,例如比 Google Ad Manager 报告 API 或界面可以处理的数据还要大的数据。
  • 您可以访问更精细的数据,这些数据在界面或报告 API 中并非总是可用。
  • 您可以使用公共键处理和连接来自多个来源的数据。

本节的其余部分介绍您可以使用可用数据执行的操作。此节分为两部分:

  • 标准分析,需具备一些结构化查询语言 (SQL) 基础知识,主要关注两种类型的分析:

    • 描述性分析,用于查看业务中发生的情况
    • 诊断性分析,用于了解发生该情况的原因
  • 基于机器学习的分析,可能需要数据分析师或数据科学家,可解锁新的分析,例如:

    • 预测性分析,通过历史数据预测结果
    • 规范性分析,预测结果并准备策略

标准分析

与广告相关的产品可以创建数 GB 甚至数 TB 的日常日志数据,其分析难度可能非常大。开箱即用型报告工具有时会限制可以查询的维度,并非总能提供正确连接,或者根本无法查询所有可用原始数据,而是提供聚合。

描述性分析和诊断性分析通常需要进行探索,这意味着对大数据运行查询。此类工具需要可扩容的架构。但是,以最小的基础架构开销和合理的费用进行构建可能很有难度,尤其是在技术资源有限的情况下。一种解决方案是使用 BigQuery。BigQuery 是一种存储和查询引擎,数秒内(无需数分钟或数小时)即可运行数 TB 的数据查询,且无需设置服务器。

在 BigQuery 中运行查询的最简单方法是使用交互式界面,但此查询数据页面介绍了其他可用选项。

高级分析和丰富

如果您的技术较为熟练或团队中有数据分析师或数据科学家,请尝试运行预测算法,获取额外知识,然后可以将这些知识重新提取到数据集中。一些典型的任务包括:

  • 使用非监督式机器学习将客户聚簇在类似受众群体中。
  • 使用回归预测销售数额或客户 LTV。
  • 使用评论等方式运行产品情感分析。

虽然算法在机器学习中很重要,但实现良好预测的关键在于训练模型所依靠的数据的量和质。BigQuery 提取数据后,您需要准备好以下内容:

  • 可以链接各种 GCP 组件以简化数据科学任务的交互式工具。
  • 能够以最小的 DevOps 大规模运行训练和预测的机器学习平台。

Cloud Machine Learning Engine 可以通过托管且可扩缩的方式运行 TensorFlow 模型以进行培训和预测,同时还新增了超参数调整等功能。TensorFlow 是一种领先开源软件 (OSS) 数值库,最初由 Google 发布。

Cloud Datalab 提供具有新增功能的 Jupyter 笔记本即服务以连接到 GCP 产品(如 BigQueryCloud Storage 或 Cloud Machine Learning Engine),或连接到 Perception API(如 Cloud Natural Language)。数据科学家可以使用 Cloud Datalab 运行交互式分析会话,并连接所有这些产品之间的接点。Cloud Datalab 包括其他标准库,如 NumPyPandas

例如,通过 Cloud Datalab,您可以使用 Natural Language 预测来进行一些情感分析。从直方图中看出,大多数客户对产品和/或品牌持积极态度。

x = pd.Series(df.avg_sentiment, name="sentiment")
fig, ax = plt.subplots()
ax.set_title("Avg. Sentiment For All Products")
ax = sns.distplot(x, ax=ax)

情感分析

直观呈现

您可能觉得在 BigQuery 界面中编写 SQL 查询或在笔记本中编写 Python 代码很麻烦。请考虑以下示例:

  • 经理需要快速访问可操作的信息中心。
  • 技术知识有限的分析师需要详细分析数据。

凭借 Google Data Studio,您可以从头开始或使用预配置的模板快速创建可共享的业务信息中心。这样做具有很多优势:

  • 可通过拖放功能提供对数据的访问权限。
  • 有助于协作创建有意义的信息中心。
  • 您能够与决策者共享预构建的信息中心。

以下示例显示了来自多个来源的数据。

  • 在中间行的左侧,您可以看到 Google Analytics 360 报告,右侧是 Campaign Manager。
  • 在最上面一行的中心列中,蓝点图显示了针对 LTV 绘制的客户互动度。

显示来自多个来源的数据

激活

通过将原始数据保存在公共位置(这些数据可通过代码和信息中心访问),以及利用可操作数据的平台,许多营销决策能够得以实现,例如:

  • 关于频率如何影响每个广告系列对每位用户的转化效果的描述性分析。 获得此信息有助于您在构建再营销广告系列时能够根据特定用户列表调整频率。BigQuery 对原始 Campaign Manager 数据的访问权限可以实现获取此信息。

  • 用于了解广告系列和网站行为对销售的影响的诊断性分析。 要激活这些分析,您可以使用 SQL 语句在大数据中创建 ID 连接。

  • 关于特定用户的 LTV 的预测性分析。 通过预测特定用户组的价值,您可以运行营销广告系列来增加销售额。其中一个例子是上图中的蓝点图,您可能会发现,如果用户互动度较高,则品牌互动度有限的一组用户会具有很高的购买潜力。您可以通过连接数据和使用机器获得此数据洞见,从而细分客户群并预测 LTV 额。

  • 关于产品情感的规范性分析。 通过分析文本评论和评分的发展变化,您可以通过预测某一用户群体对具有某些特征的产品的接受程度,帮助防止不准确的定位。例如,您可以使用情感分析和客户细分来完成此任务。

后续步骤

  • 阅读 Analytics 360 实战宝典
  • 了解 BigQuery Data Transfer Service 及其用于各种 Google 产品的标准查询。
  • 请考虑使用 Airflow 自动执行这些步骤。
  • 根据您自己的情况试用其他 Google Cloud Platform 功能。查阅我们的教程
此页内容是否有用?请给出您的反馈和评价:

发送以下问题的反馈:

此网页
Solutions