使用数据洞察直观呈现 BigQuery 数据

BigQuery 是一个 PB 级的分析数据仓库,可用于对大量数据近乎实时地运行 SQL 查询。

数据可视化工具可帮助您理解 BigQuery 数据,还可帮助您以交互方式分析数据。您可以借助可视化工具来识别趋势、对其进行响应,并使用数据进行预测。在本教程中,您将使用 Google 数据洞察来直观呈现 BigQuery 出生率示例表中的数据。

目标

在本教程中,您将执行以下操作:

  • 连接到 BigQuery 数据源
  • 通过创建报告和图表来直观呈现 BigQuery 数据

费用

利用 Google Data Studio BigQuery 连接器,您可以在 Google Data Studio 内访问 BigQuery 表中的数据。 BigQuery 是一款付费产品,通过 Google Data Studio 访问 BigQuery 时会产生 BigQuery 使用费。BigQuery 每月提供 1 TB 的免费查询用量。如需了解详情,请参阅 BigQuery 价格页面。

准备工作

在开始学习本教程之前,请使用 Google Cloud Console 创建或选择一个项目并启用结算功能。

  1. 登录您的 Google 帐号。

    如果您还没有 Google 帐号,请注册一个新帐号

  2. 在 Google Cloud Console 的项目选择器页面上,选择或创建一个 Google Cloud 项目。

    转到项目选择器页面

  3. 确保您的 Cloud 项目已启用结算功能。 了解如何确认您的项目是否已启用结算功能

  4. 新项目会自动启用 BigQuery。如需在先前存在的项目中激活 BigQuery,请转到 启用 BigQuery API。

    启用 API

使用 Google 数据洞察和 BigQuery 连接器创建报告和图表

在本教程的这一部分中,我们要使用 Google 数据洞察和 BigQuery 连接器来直观呈现 BigQuery 中的数据。您要创建数据源、报告和图表,从而直观显示出生率示例表中的数据。

创建数据源

要在 Google Data Studio 中创建报告,第一步是为报告创建数据源。一份报告可以有一个或多个数据源。创建 BigQuery 数据源时,Google Data Studio 会使用 BigQuery 连接器。

您必须具有相应的权限才能将 BigQuery 数据源添加到 Google Data Studio 报告中。此外,应用于 BigQuery 数据集的权限也会应用于您在 Google Data Studio 中创建的报告、图表和信息中心。共享 Google Data Studio 报告时,只有具备适当权限的用户才能看到报告组件。

创建数据源的步骤如下:

  1. 打开 Google 数据洞察

  2. 报告页面的 Start with a Template 部分,点击空白报告 (Start with a Template) 模板。这会创建一份新的无标题报告。

    空白模板

  3. 看到系统提示时,填写营销资料接收设置以及帐号和隐私设置,然后点击保存。保存设置后,您可能需要再次点击空白模板。

  4. Add data to report 窗口的搜索框中,输入 BigQuery

    添加数据源

  5. Google 连接器部分中,将鼠标悬停在 BigQuery 上方,然后点击选择

  6. 授权部分,点击授权。这允许 Google 数据洞察访问您的 Google Cloud 项目。

  7. 请求权限 (Request for permission) 对话框中,点击允许以允许 Google Data Studio 查看 BigQuery 中的数据。如果您以前使用过 Google Data Studio,则可能不会收到此提示。

  8. 对于我的项目,点击公开数据集 (Public Datasets)。

  9. 对于结算项目 (Billing Project),点击您之前创建的 Cloud 项目的名称。

  10. 对于公共数据集,点击示例 (samples)。

  11. 对于表格,点击 natality

    出生率表

  12. 在窗口的右上角,点击连接。Google Data Studio 连接到 BigQuery 数据源后,系统会显示表的字段。您可以使用此页面调整字段属性,或者创建新的计算字段。

  13. natality 表中,yearsource_year 字段作为整数存储。如需在 Google Data Studio 中将这些列用作字符串,请将这些列的类型更改为文本。在 yearsource_year 字段右侧的类型列中,点击数字,然后从下拉列表中选择文本

    “字段”对话框

  14. 点击添加到报告

    添加到报告

  15. 出现提示时,点击添加到报告

  16. 请求权限 (Request for permission) 对话框中,点击允许以允许 Google Data Studio 查看和管理 Google 云端硬盘中的数据。如果您以前使用过 Google Data Studio,则可能不会收到此提示。

使用计算字段创建条形图

将出生率数据源添加到报告后,下一步是创建直观显示。首先创建一个条形图。该条形图显示每年的总出生人数。要按年显示出生人数,请创建计算字段。

要创建一个条形图来显示各年的总出生人数,请按如下方法操作:

  1. (可选)在页面顶部,点击未命名报告以更改报告名称。例如,输入 BigQuery tutorial

  2. 报告编辑器加载完成后,点击插入 > 条形图

  3. 使用手柄,将图表放在报表上。

  4. 数据标签页上,注意“数据源”的值(出生率),以及“维度”和“指标”的默认值。

  5. 由于您要按年份绘制出生人数图表,因此维度应设置为 source_year。如果 source_year 不是默认维度,请点击可用字段中的 source_year 并将其拖动到默认维度上以替换该维度。

  6. 指标部分,点击添加指标

  7. 在指标选择器中,点击创建字段 (Create field)。

  8. 要显示每年出生的孩子数量(按性别),您可以创建计算字段。在本教程中,您要计算 is_male 字段中的条目数。如果孩子的性别是男,则 is_male 中的值为 true;如果孩子的性别是女,则该值为 false。在新建指标窗口的名称部分中,输入 birth_count

  9. 对于公式,输入以下内容:COUNT(is_male)

  10. 点击应用

  11. 点击报告页面以关闭指标选择器。

  12. 添加指标后,将鼠标悬停在默认指标上,然后点击右侧的删除图标。“维度”应设置为 source_year,“指标”应设置为 birth_count

  13. 请注意,图表默认情况下按降序排序。首先会显示出生人数最多的年份。

    总出生人数图表

  14. 为了增强图表显示效果,可以更改条形标签。在“条形图属性”(Bar chart properties) 窗口中,点击样式标签。

  15. 条形图部分中选中显示数据标签

    显示标签

    图表中每个条形的顶端显示了出生总人数。

  16. source_year(而不是 birth_count)对数据进行排序。在“条形图属性”(Bar chart properties) 窗口的数据标签页的排序部分中,执行以下操作:

    • 点击新字段
    • 在排序选择器中,滚动到图表中已存在的字段,然后选择 source_year
    • 点击对话框以外的位置以关闭排序选择器。
    • 点击降序,然后选择升序。 此时屏幕显示内容会更改为按升序显示各年份的出生人数。

    按升序排列出生人数

过滤图表

目前,此条形图显示了每年出生的男孩和女孩总数。下面我们添加过滤条件,以便仅显示每年出生的女孩人数。

  1. 在“条形图属性”(Bar chart properties) 窗口中,点击数据标签。

  2. 过滤部分,点击添加过滤条件 (Add a filter)。

  3. 创建过滤条件窗口中执行以下操作:

    • 对于名称,输入 Female birth count
    • 点击包含,将其更改为排除
    • 点击选择字段,然后选择 is_male
    • 点击选择条件,然后选择正确
    • 点击保存

    “创建过滤条件”窗口

请注意,图表已更新为仅显示每年出生的女孩人数。另请注意,图例并未改变。图例名称仍然体现了指标的名称 - birth_count

过滤后的图表

使用自定义查询创建图表

借助使用“自定义查询”选项创建图表功能,您可以利用 BigQuery 的全部查询功能,例如联接、联合和分析功能。

您也可以通过创建视图来利用 BigQuery 的全部查询功能。视图是由 SQL 查询定义的虚拟表。您可以添加包含视图的数据集作为数据源,以查询视图中的数据。如需详细了解视图,请参阅使用视图

如果将 SQL 查询指定为 BigQuery 数据源,查询结果会采用表的格式,并且该格式会成为数据源的字段定义(架构)。如果使用自定义查询作为数据源,Google Data Studio 会将您的 SQL 用作所生成的每个 BigQuery 查询的内部 select 语句。如需详细了解 Google Data Studio 中的自定义查询,请参阅在线帮助

使用自定义查询添加条形图

要为使用自定义查询数据源的报告添加条形图,请执行以下操作:

  1. 从菜单选项中选择页面 > 新建页面 (Page > New page)。

  2. 点击插入 > 条形图

  3. 使用手柄,将图表放在报表上。

  4. 条形图属性 (Bar chart properties) 窗口的数据标签页上,注意将数据源设置为 natality。点击 natality 以打开选择数据源窗口。

  5. 点击创建新数据源

  6. Google 连接器 (Google Connectors) 部分中,将鼠标悬停在 BigQuery 上方,然后点击选择

  7. 对于我的项目,点击自定义查询 (Custom query)。

  8. 对于项目,选择您的 Google Cloud 项目。

  9. 输入自定义查询窗口中输入以下标准 SQL 查询:

    SELECT
     source_year,
     sum(case when is_male then 1 else 0 end) as male_births,
     sum(case when is_male then 0 else 1 end) as female_births
    FROM
     `bigquery-public-data.samples.natality`
    GROUP BY
     source_year
    ORDER BY
     source_year
    DESC
    

    此查询使用 CASE 语句来计算 is_male 布尔值字段,以确定给定年份出生的女性人数和男性人数。

  10. 查询选项下,验证已取消选中使用旧版 SQL。这样就可以使用 BigQuery 标准 SQL 语法了。

    自定义查询

  11. 在窗口顶部,点击未命名数据源,将数据源名称更改为 Male female case query

  12. 在窗口的右上角,点击连接。Google Data Studio 连接到 BigQuery 数据源后,系统会使用查询结果确定表架构。

  13. 显示架构时,请注意每个字段的类型和聚合。 默认情况下,source_year 的格式设置为“数字”,“汇总”设置为“无”。在 source_year 字段右侧的类型列中,点击数字,然后选择文本。确认“汇总”已设置为“无”。

    过滤后的图表

  14. 点击添加到报告

  15. 出现提示时,点击添加到报告

  16. 点击后退箭头以关闭“选择数据源”(Select Data Source) 窗口。

  17. Google Data Studio 可能无法正确确定图表的适当指标。由于您按照年份绘制男性和女性的出生人数图表,因此“指标”的值应该是 female_birthsmale_births。在“条形图属性”(Bar chart properties) 窗口的数据标签页的指标部分中,点击记录计数 (Record Count)。

  18. 在指标选择器中,选择 female_births

  19. 指标部分,点击添加指标

  20. 在指标选择器中,选择 male_births。此图表现在使用单独的条形分别显示了每年出生的男孩和女孩人数。

    过滤后的图表

  21. 图表应按照 female_births 降序排序。按照与上张图表中相同的方式,将此排序依据更改为 source_year。在排序部分中,点击 female_births

  22. 在排序选择器中,选择 source_year。现在,图表按降序显示了每年的男性和女性出生人数。

  23. 为了便于阅读,我们要更改图表样式。在条形图属性 (Bar chart properties) 窗口中,点击样式标签。

  24. 请注意,根据向图表添加指标的顺序,每个条形都具有一个默认颜色。点击调色板中的第二个方块,将其从红色更改为蓝色。

    过滤后的图表

  25. 点击调色板中的第一个方块,将其从蓝色更改为红色。

    此时的图表显示效果应如下所示:

    彩色条形图

查看您的查询历史记录

您可以通过检查 BigQuery 网页界面中的查询历史记录来查看通过 BigQuery 连接器提交的查询。利用查询历史记录,您可以估算查询费用,并且可以保存查询以便在其他情景中使用。

检查查询历史记录的步骤如下:

控制台

  1. 在 Cloud Console 中打开 BigQuery 页面。

    转到 BigQuery 页面

  2. 点击左侧导航栏中的查询历史记录

  3. 此时系统会显示查询列表,最先显示的是最新的查询。 点击某一查询即可查看该查询的详细信息,例如“作业 ID”和“处理字节数”。

清理

为避免因本教程中使用的资源导致您的 Google Cloud Platform 帐号产生费用,请执行以下操作:

  1. 在 Cloud Console 中,转到管理资源页面。

    转到“管理资源”

  2. 在项目列表中,选择要删除的项目,然后点击删除
  3. 在对话框中输入项目 ID,然后点击关闭以删除项目。

删除项目后,Google 数据洞察就无法再查询数据,因为数据源与项目相关联。如果您不想删除 Cloud Platform 项目,可以删除 Google Data Studio 报告和数据源。

要删除 Google Data Studio 资源,请执行以下操作:

  1. 打开 Google 数据洞察

  2. 报告页面上 BigQuery 教程 (BigQuery tutorial) 报告的右侧,点击“更多”按钮 “更多”按钮,然后选择移除

  3. 点击数据源

  4. 出生率数据源的右侧,点击“更多”按钮,再选择移除

  5. Male female case query 数据源右侧,点击“更多”按钮,再选择移除

后续步骤

  • 详细了解如何为 BigQuery 编写查询 - BigQuery 文档中的查询数据部分介绍了如何运行查询以及如何创建用户定义的函数 (UDF) 等。

  • 探索 BigQuery 语法 - BigQuery 中的首选 SQL 查询语言是标准 SQL,SQL 参考中介绍了标准 SQL。如需了解 BigQuery 的旧版 SQL 语法,请参阅查询参考(旧版 SQL)