本文中的信息提供了有关数据混合的实用建议和深入信息,可帮助您了解混合功能的运作方式,并解决复杂的使用情形。为了充分利用本文中的内容,您应该已经熟悉数据混合的基础知识,这些知识在本主题中的其他文章中有所介绍。
混合数据集应仅包含可用数据的一部分
最佳实践是,您应仅在基于混合项的图表中添加要直观呈现的特定字段。原因如下:
- 混合可能会创建非常大的数据集,这可能会导致性能缓慢,并且可能增加 BigQuery 等付费服务的查询费用。
- 基于混合项的图表会计算混合项中的所有行,即使这些行未在图表中使用也是如此。
- 例如,假设您创建了一个包含 10 个字段的混合。然后,您可以定义一个仅使用其中 1 个字段的图表。Looker Studio 会计算 10 个字段的混合,然后在混合输出中查询该 1 个字段以创建图表。
- 只有当您的混合包含部分基础数据时,才会重新汇总。
使用混合功能重新汇总指标
您从底层数据源中添加的指标会在混合中显示为未汇总的数字。如果混合包含的字段少于底层数据源中的全部字段,系统会根据新数据重新汇总这些数字。如果您需要对已汇总的字段应用其他汇总方式(例如计算平均值的平均值),以这种方式使用混合功能会很有用。
如需了解详情,请参阅使用混合功能重新汇总数据。
基于单个数据源创建混合
混合数据集不必使用不同的数据源。您可能还会发现,通过混合来自同一数据源的多个表来重新汇总数据会很有用。
例如,假设您有一个数据集,其中包含美国人口最多的州中人口最多的前三个县的人口数据,如下表所示:
状态 |
郡 |
人口(2023 年预测值) |
---|---|---|
加利福尼亚 |
洛杉矶县 |
10,014,009 |
加利福尼亚 |
圣地亚哥县 |
3,298,634 |
加利福尼亚 |
橙县 |
3,186,989 |
得克萨斯州 |
Harris County |
4,731,145 |
得克萨斯州 |
达拉斯县 |
2,613,539 |
得克萨斯州 |
塔兰特县 |
2,110,640 |
纽约 |
金斯县(布鲁克林) |
2,736,074 |
纽约 |
皇后区 |
2,405,464 |
纽约 |
布朗克斯县 |
1,418,890 |
您想计算某个州中每个郡的人口百分比;但为此,您需要将每个州的总人口作为单独的字段。该数据集中不提供该指标,但您可以通过执行以下步骤,将人口数据源与自身混合,从而获取该指标:
- 使用您的基准数据集创建数据源。
- 向报告添加使用该数据源的图表。
- 使用两个表创建一个混合。每个表都将使用您在第 1 步中创建的数据源。
- 对于表 1,请添加以下字段:
- 州/省/自治区/直辖市、郡/县、人口。
- 将“Population”(人口)重命名为“CountyPopulation”(县级人口)。
- 对于表 2,只需添加人口字段,并将其重命名为州人口。
- 对于表 1,请添加以下字段:
- 对于联接条件,请使用左外部联接,将表 1 中的 State 与表 2 中的 State 相关联。
- 点击保存。
- 点击 X 返回报告编辑器。
接下来,按照以下步骤向报告中添加新图表(例如表格),并选择组合作为图表的数据源:
- 将 State、County、CountyPopulation 和 StatePopulation 字段添加到图表中。
- 如需计算每个郡的州人口百分比,请向图表中添加一个计算字段,该字段使用您新汇总的数据:
- 在“属性”面板中,点击添加指标,然后点击添加字段。
- 为该字段命名(例如)州人口百分比。
- 在公式框中,输入
(CountyPopulation / StatePopulation)*100
。 - (可选)设置显示格式,以按您所需的级别显示百分比值(例如,百分比 (2) 表示小数点后有两位数)。
完成后,您的表格应如下所示:
状态 |
郡 |
CountyPopulation |
StatePopulation |
占州人口的百分比 |
---|---|---|---|---|
加利福尼亚 |
洛杉矶县 |
10014009 |
16499632 |
60.69 |
得克萨斯州 |
Harris County |
4731145 |
9455324 |
50.04 |
加利福尼亚 |
圣地亚哥县 |
3298634 |
16499632 |
19.99 |
加利福尼亚 |
橙县 |
3186989 |
16499632 |
19.32 |
纽约 |
金斯县(布鲁克林) |
2736074 |
6560428 |
41.71 |
得克萨斯州 |
达拉斯县 |
2613539 |
9455324 |
27.64 |
纽约 |
皇后区 |
2405464 |
6560428 |
36.67 |
得克萨斯州 |
塔兰特县 |
2110640 |
9455324 |
22.32 |
纽约 |
布朗克斯县 |
1418890 |
6560428 |
21.63 |
混合中的表格顺序
Looker Studio 会按顺序评估混合中的联接配置,从最左侧的配置开始。然后,将每个联接的结果应用于右侧的下一个联接。例如,在三表混合中,系统会先评估表 1(最左)和表 2(中间)之间的联接配置,然后表 2 和表 3(最右)之间的联接配置会使用这些结果。
自动创建的混合内容中的表格顺序
当您混合使用所选图表时,Looker Studio 会为每个图表创建一个表,然后将图表中的字段添加到相应的表中。混合图表中表格的顺序与您选择图表的顺序一致:所选的第一个图表会成为第一个(最左侧)表格,所选的第二个图表会成为第二个表格,依此类推。
Looker Studio 还会自动为每个表创建联接配置,并使用左外连接类型。
如果默认配置不符合您的需求,或者表格之间没有明确的联系,您可以修改混合项以符合您的目标。
表会在混合之前创建
系统会先查询混合中的每个表的数据,然后再将这些数据联接到最终的混合。在执行任何联接之前,表中的日期范围、过滤条件和计算字段会应用于生成表的查询。这些因素可能会影响混合表中包含的数据,并更改混合的输出结果。
混合数据可能比原始数据包含的行数更多
与基于组合数据源的各个数据源的图表相比,您可能会在混合图表中看到更多数据。具体结果可能取决于您的数据以及为混合选择的关联配置。例如,左外联接会包含左侧表中的所有记录,以及右侧表中与联接条件中相同值的所有记录。如果联接条件存在多个匹配项,则混合数据中显示的行数可能会多于最左侧数据源中显示的行数。
混合数据集以及明确的日期范围和过滤条件
您可以通过以下两种方式限制混合数据集中的行数:使用日期范围或应用过滤条件。您可以限制基于混合数据的图表或构成混合数据的表格中的行数。不妨将该过程视为“预混合”或“后混合”。
当您对混合表格中的表应用日期范围或过滤条件时,这些过滤条件会在数据与混合表格中的其他表联接之前生效。超出日期范围或被过滤条件排除的行无法供联接查询处理。
当您基于混合数据对图表应用日期范围或过滤器时,您将其应用于创建混合数据之后的数据(“混合后”)。
这种差异可能会对图表中显示的结果产生重大影响,具体取决于您的数据和您配置混合方式。
混合和继承的过滤器
只要过滤条件与混合前或混合后的数据兼容,混合报告就会继承报告、网页或组级过滤条件。如果过滤器与混合使用的基础数据源兼容,则过滤器会对预混合数据执行操作。否则,过滤器会对混合后的数据进行操作。如果过滤器与混合前或混合后的数据不兼容,系统会忽略该过滤器。
详细了解过滤条件继承。
当基于混合的数据的图表受到继承过滤条件的约束时,Looker Studio 会按以下五个步骤处理数据:
(预混合):
- 第 1 步:系统会根据混合数据面板中指定的维度对数据进行分组和汇总。
- 第 2 步:系统会将继承的维度过滤条件和兼容的指标过滤条件应用于混合数据面板中包含的数据源。
(混合):
- 第 3 步:系统会使用指定的联接配置对数据进行混合。
(混合后):
- 第 4 步:系统会根据图表中的维度对数据进行分组和汇总。
- 第 5 步:如果指标过滤条件与混合数据兼容,系统会将其应用于图表。