使用 Data Studio 直观呈现 BigQuery 数据

BigQuery 是一个 PB 级的分析数据仓库,可用于对大量数据近乎实时地运行 SQL 查询。

数据可视化工具可帮助您理解 BigQuery 数据,还可帮助您以交互方式分析数据。您可以借助可视化工具来识别趋势、对其进行响应,并使用数据进行预测。在本教程中,您将使用 Google Data Studio 来直观呈现 BigQuery 出生率示例表中的数据。

目标

在本教程中,您将执行以下操作:

  • 连接到 BigQuery 数据源
  • 通过创建报告和图表来直观呈现 BigQuery 数据

费用

利用 Google Data Studio BigQuery 连接器,您可以在 Google Data Studio 内访问 BigQuery 表中的数据。BigQuery 是一款付费产品,通过 Google Data Studio 访问 BigQuery 时会产生 BigQuery 使用费。BigQuery 每月提供 1 TB 的免费查询用量。如需了解详情,请参阅 BigQuery 价格页面。

准备工作

在开始本教程之前,请使用 Google Cloud Platform Console 创建或选择项目并启用结算功能。

  1. 登录您的 Google 帐号。

    如果您还没有 Google 帐号,请注册新帐号

  2. 选择或创建 Google Cloud Platform 项目。

    转到“管理资源”页面

  3. 确保您的 Google Cloud Platform 项目已启用结算功能。

    了解如何启用结算功能

  4. 新项目中会自动启用 BigQuery。要在现有的项目中启用 BigQuery,请 启用BigQuery API。

    启用 API

使用 Google Data Studio 和 BigQuery 连接器创建报告和图表

在本教程的这一部分中,我们要使用 Google Data Studio 和 BigQuery 连接器来直观呈现 BigQuery 中的数据。您要创建数据源、报告和图表,从而直观显示出生率实例表中的数据。

创建数据源

要在 Google Data Studio 中创建报告,第一步是为报告创建数据源。一份报告可以有一个或多个数据源。创建 BigQuery 数据源时,Google Data Studio 会使用 BigQuery 连接器。

您必须具有相应的权限才能将 BigQuery 数据源添加到 Google Data Studio 报告中。此外,应用于 BigQuery 数据集的权限也会应用于您在 Google Data Studio 中创建的报告、图表和信息中心。共享 Google Data Studio 报告时,只有具备适当权限的用户才能看到报告组件。

创建数据源的步骤如下:

  1. 打开 Google Data Studio

  2. 报告页面的“开始新报告”(Start a new report) 部分中,点击空白 (Blank) 模板。这会创建一份新的无标题报告。

    空白模板

  3. 看到系统提示时,填写营销首选项 (Marketing Preferences) 和帐号与隐私 (Account and Privacy) 设置,然后点击保存。保存设置后,您可能需要再次点击空白 (Blank) 模板。

  4. 添加数据源 (Add a data source) 窗口中,点击新建数据源 (Create new data source)。

    添加数据源

  5. Google 连接器 (Google Connectors) 部分中,将鼠标悬停在 BigQuery 上方,然后点击选择

  6. 授权部分中,点击授权。这允许 Google Data Studio 访问您的 Google Cloud Platform (GCP) 项目。

  7. 请求权限 (Request for permission) 对话框中,点击允许以允许 Google Data Studio 查看 BigQuery 中的数据。如果您以前使用过 Google Data Studio,则可能不会收到此提示。

  8. 对于我的项目,点击公开数据集 (Public Datasets)。

  9. 对于结算项目 (Billing Project),点击您先前创建的 GCP 项目的名称。

  10. 公开数据集 (Public Dataset) 部分中,点击示例 (samples)。

  11. 部分中,点击 natality

    出生率表

  12. 在窗口的右上角,点击连接。Google Data Studio 连接到 BigQuery 数据源后,系统会显示表的字段。您可以使用此页面调整字段属性,或者创建新的计算字段。

  13. natality 表中,yearsource_year 字段作为整数存储。要在 Google Data Studio 中将这些列用作字符串,请将这些列的类型更改为文本。在 yearsource_year 字段右侧的类型列中,点击数字,然后从下拉列表中选择文本

    “字段”对话框

  14. 点击添加到报告 (Add to report)。

    添加到报告

  15. 出现提示时,点击添加到报告 (Add to report)。

  16. 请求权限 (Request for permission) 对话框中,点击允许以允许 Google Data Studio 查看和管理 Google 云端硬盘中的数据。如果您以前使用过 Google Data Studio,则可能不会收到此提示。

使用计算字段创建条形图

将出生率数据源添加到报告后,下一步是创建直观显示。首先创建一个条形图。该条形图显示每年的总出生人数。要按年显示出生人数,请创建计算字段。

要创建一个条形图来显示各年的总出生人数,请按如下方法操作:

  1. (可选)在页面顶部,点击无标题报告 (Untitled Report) 以更改报告名称。例如,输入 BigQuery tutorial

  2. 报告编辑器加载完成后,点击插入 > 条形图

  3. 使用手柄,将图表放在报表上。

  4. 数据标签页上,注意“数据源”的值(出生率),以及“维度”和“指标”的默认值。

  5. 由于您要按年份绘制出生人数图表,因此维度应设置为 source_year。如果 source_year 不是默认维度,请点击可用字段 (Available Fields) 中的 source_year 并将其拖动到默认维度上以替换该维度。

  6. 指标部分,点击添加指标

  7. 在指标选择器中,点击创建字段 (Create field)。

  8. 要显示每年出生的孩子数量(按性别),您可以创建计算字段。在本教程中,您要计算 is_male 字段中的条目数。如果孩子的性别是男,则 is_male 中的值为 true;如果孩子的性别是女,则该值为 false。在新建指标窗口的名称部分中,输入 birth_count

  9. 公式 (Formula) 部分,输入以下内容:COUNT(is_male)

  10. 点击应用

  11. 点击报告页面以关闭指标选择器。

  12. 添加指标后,将鼠标悬停在默认指标上,然后点击右侧的删除图标。“维度”应设置为 source_year,指标应设置为 birth_count

  13. 请注意,图表默认情况下按降序排序。首先会显示出生人数最多的年份。

    总出生人数图表

  14. 为了增强图表显示效果,可以更改条形标签。在“条形图属性”(Bar chart properties) 窗口中,点击样式标签。

  15. 条形图部分中选中显示数据标签 (Show data labels)。

    显示标签

    图表中每个条形的顶端显示了出生总人数。

  16. source_year 而非 birth_count 排序数据。在“条形图属性”(Bar chart properties) 窗口数据标签页的排序部分中,执行以下操作:

    • 点击新建字段 (New field)。
    • 在排序选择器中,滚动到图表字段 (Chart Fields) 并选择 source_year
    • 点击对话框以外的位置以关闭排序选择器。
    • 点击降序,然后选择升序。此时屏幕显示内容会更改为按升序显示各年份的出生人数。

    按升序排列出生人数

过滤图表

目前,此条形图显示了每年出生的男孩和女孩总数。下面我们添加过滤条件,以便仅显示每年出生的女孩人数。

  1. 在“条形图属性”(Bar chart properties) 窗口中,点击数据标签。

  2. 过滤部分中,点击添加过滤条件 (Add a filter)。

  3. 创建过滤条件 (Create filter) 窗口中执行以下操作:

    • 名称部分,输入 Female birth count
    • 点击包括 (Include),将其更改为排除 (Exclude)。
    • 点击选择字段,然后选择 is_male
    • 点击选择条件 (Select a condition),然后选择 True
    • 点击保存

    “创建过滤条件”(Create filter) 窗口

请注意,图表已更新为仅显示每年出生的女孩人数。另请注意,图例并未改变。图例名称仍然体现了指标的名称 - birth_count

过滤后的图表

使用自定义查询创建图表

借助使用“自定义查询”选项创建图表功能,您可以利用 BigQuery 的全部查询功能,例如联接、联合和分析功能。

您也可以通过创建视图来利用 BigQuery 的全部查询功能。视图是由 SQL 查询定义的虚拟表。您可以添加包含视图的数据集作为数据源,来查询视图中的数据。要详细了解视图,请参阅使用视图

如果将 SQL 查询指定为 BigQuery 数据源,查询结果会采用表的格式,并且该格式会成为数据源的字段定义(架构)。如果使用自定义查询作为数据源,Google Data Studio 会将您的 SQL 用作所生成的每个 BigQuery 查询的内部 select 语句。如需详细了解 Google Data Studio 中的自定义查询,请参阅在线帮助

使用自定义查询添加条形图

要为使用自定义查询数据源的报告添加条形图,请执行以下操作:

  1. 从菜单选项中选择页面 > 新建页面 (Page > New page)。

  2. 点击插入 > 条形图

  3. 使用手柄,将图表放在报表上。

  4. 条形图属性 (Bar chart properties) 窗口的数据标签页上,注意将数据源设置为 natality。点击 natality 以打开选择数据源 (Select Data Source) 窗口。

  5. 点击创建新数据源 (Create new data source)。

  6. Google 连接器 (Google Connectors) 部分中,将鼠标悬停在 BigQuery 上方,然后点击选择

  7. 对于我的项目,点击自定义查询 (Custom query)。

  8. 项目部分中选择您的 GCP 项目。

  9. 输入自定义查询 (Enter custom query) 窗口中输入以下标准 SQL 查询:

    SELECT
     source_year,
     sum(case when is_male then 1 else 0 end) as male_births,
     sum(case when is_male then 0 else 1 end) as female_births
    FROM
     `bigquery-public-data.samples.natality`
    GROUP BY
     source_year
    ORDER BY
     source_year
    DESC
    

    此查询使用 CASE 语句来计算 is_male 布尔值字段,以确定给定年份出生的女性人数和男性人数。

  10. 查询选项下,验证已取消选中使用旧版 SQL。这样就可以使用 BigQuery 标准 SQL 语法了。

    自定义查询

  11. 在窗口顶部,点击未命名数据源 (Untitled data source),将数据源名称更改为 Male female case query

  12. 在窗口的右上角,点击连接。Google Data Studio 连接到 BigQuery 数据源后,系统会使用查询结果确定表架构。

  13. 显示架构时,请注意每个字段的类型和聚合。默认情况下,source_year 的格式设置为“数字”,“聚合”(Aggregation) 设置为“无”。在 source_year 字段右侧的类型列中,点击数字,然后选择文本。确认“聚合”(Aggregation) 已设置为“无”。

    过滤后的图表

  14. 点击添加到报告 (Add to report)。

  15. 出现提示时,点击添加到报告 (Add to report)。

  16. 点击后退箭头以关闭“选择数据源”(Select Data Source) 窗口。

  17. Google Data Studio 可能无法正确确定图表的适当指标。由于您按照年份绘制男性和女性的出生人数图表,因此指标的值应该是 female_birthsmale_births。在“条形图属性”(Bar chart properties) 窗口数据标签的指标部分中,点击记录计数 (Record Count)。

  18. 在指标选择器中,选择 female_births

  19. 指标部分,点击添加指标

  20. 在指标选择器中,选择 male_births。此图表现在使用单独的条形分别显示了每年出生的男孩和女孩人数。

    过滤后的图表

  21. 图标应按照 female_births 降序排序。按照与上涨图表中相同的方式,将此更改为 source_year。在排序部分中点击 female_births

  22. 在排序选择器中,选择 source_year。现在,图表按降序显示了每年的男性和女性出生人数。

  23. 为了便于阅读,我们要更改图表样式。在条形图属性 (Bar chart properties) 窗口中,点击样式标签。

  24. 请注意,根据向图表添加指标的顺序,每个条形都具有一个默认颜色。点击调色板中的第二个方块,将其从红色更改为蓝色。

    过滤后的图表

  25. 单击调色板中的第一个方块,将其从蓝色更改为红色。

    此时的图表显示效果应如下所示:

    彩色条形图

查看您的查询历史记录

您可以通过检查 BigQuery 网页界面中的查询历史记录来查看通过 BigQuery 连接器提交的查询。利用查询历史记录,您可以估算查询费用,并且可以保存查询以便在其他情景中使用。

要检查查询历史记录,请按如下所述操作:

Console

  1. 在 GCP Console 中打开 BigQuery 网页界面。
    转到 BigQuery 网页界面

  2. 点击左侧导航栏中的查询历史记录

  3. 此时系统会显示查询列表,其中,最新的查询列在最前面。点击某一查询即可查看该查询的详细信息,例如“作业 ID”和“处理字节数”。

经典版界面

  1. 转到 BigQuery 网页界面。

    转到 BigQuery 网页界面

  2. 点击 Query History

  3. 此时系统会显示查询列表,其中,最新的查询列在最前面。点击 Open Query 可以查看查询的详细信息,例如“Job ID”和“Bytes Processed”。

    彩色条形图

清理

为避免因本教程中使用的资源而导致我们向您的 Google Cloud Platform 帐号收取费用,请执行以下操作:

  1. 在 GCP Console 中,转到“项目”页面。

    转到“项目”页面

  2. 在项目列表中,选择要删除的项目,然后点击删除
  3. 在对话框中输入项目 ID,然后点击关闭以删除项目。

删除项目后,Google Data Studio 就无法再查询数据,因为数据源与项目相关联。如果您不想删除 Cloud Platform 项目,可以删除 Google Data Studio 报告和数据源。

要删除 Google Data Studio 资源,请执行以下操作:

  1. 打开 Google Data Studio

  2. 报告页面上 BigQuery 教程 (BigQuery tutorial) 报告的右侧,点击“更多”按钮 “更多”按钮,然后选择移除

  3. 点击数据源

  4. 出生率数据源的右侧,点击“更多”按钮,再选择移除

  5. Male female case query 数据源右侧,点击“更多”按钮,再选择移除

后续步骤

  • 详细了解如何为 BigQuery 编写查询 - BigQuery 文档中的查询数据部分介绍了如何运行查询以及如何创建用户定义的函数 (UDF) 等。

  • 探索 BigQuery 语法 - BigQuery 中的首选 SQL 查询语言是标准 SQL,SQL 参考中介绍了标准 SQL。如需了解 BigQuery 的旧版 SQL 语法,请参阅查询参考(旧版 SQL)

此页内容是否有用?请给出您的反馈和评价:

发送以下问题的反馈:

此网页