使用 BigQuery 数据画布进行分析

如需提供有关 BigQuery Studio 数据画布的反馈或请求支持,请发送电子邮件至 datacanvas-feedback@google.com

BigQuery Studio 数据画布是 BigQuery 中的 Gemini 功能,可让您使用自然语言提示和图形界面查找、转换、查询和直观呈现数据,分析工作流。

对于分析工作流,BigQuery 数据画布使用有向无环图 (DAG),该图提供了工作流的图形视图。在 BigQuery 数据画布中,您可以迭代查询结果,并在一个位置处理多个查询分支。

BigQuery 数据画布旨在帮助您完成从数据到洞见的历程。您无需具备特定工具或产品的技术知识即可处理数据。BigQuery 数据画布与 Dataplex 元数据搭配使用,以根据自然语言确定适当的表。

BigQuery 数据画布使用 Gemini in BigQuery 查找数据、创建 SQL、生成图表以及创建数据摘要。

了解 Gemini for Google Cloud 如何以及何时使用您的数据

能力

借助 BigQuery 数据画布,您可以执行以下操作:

  • 使用关键字搜索语法以及 Dataplex 元数据来查找表、视图或具体化视图等资产。

  • 使用自然语言来执行基本 SQL 查询,如下所示:

    • 包含 FROM 子句、数学函数、数组和结构体的查询。
    • 对两个表执行 JOIN 操作。
  • 使用以下类型的图形直观呈现数据:

    • 条形图
    • 热图
    • 线形图
    • 饼图
    • 散点图
  • 使用自然语言来创建自定义可视化内容,以描述您想要的内容。

  • 自动生成数据分析。

限制

  • 自然语言命令可能不适用于以下语言:

    • BigQuery ML
    • Apache Spark
    • 对象表
    • BigLake
    • INFORMATION_SCHEMA 个视图
    • JSON
    • 嵌套和重复字段
    • 复杂的函数和数据类型,例如 DATETIMETIMEZONE
  • 数据可视化功能不适用于地理图图表。

准备工作

  1. 确保已为您的 Google Cloud 项目启用 Gemini in BigQuery。管理员通常执行此步骤。
  2. 确保您拥有使用 BigQuery 数据画布的必要 Identity and Access Management (IAM) 权限

所需的角色

如需获得使用 BigQuery 数据画布所需的权限,请让管理员向您授予项目的以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

如需详细了解 BigQuery 中的 IAM 角色和权限,请参阅 IAM 简介

使用 BigQuery 数据画布

您可以在 Google Cloud 控制台、查询或表格中使用 BigQuery 数据画布。

  1. 转到 BigQuery 页面。

    转到 BigQuery

  2. 点击 创建数据画布

    “创建数据画布”图标。

  3. 自然语言提示字段中,输入自然语言提示。

    例如,如果您输入 Find me tables related to trees,BigQuery 数据画布会返回可能的表格列表,包括 bigquery-public-data.usfs_fia.plot_treebigquery-public-data.new_york_trees.tree_species 等公共数据集。

  4. 请选择一个表。

    系统会将所选表的表单元格添加到 BigQuery 数据画布中。如需查看架构信息、查看表详细信息或预览数据,请选择表单元格中的各个标签页。

尝试示例工作流

本部分演示了在分析工作流中使用 BigQuery 数据画布的不同方法。

示例工作流:查找、查询和直观呈现数据

在此示例中,您将使用 BigQuery 数据画布中的自然语言提示来查找数据、生成查询并修改查询。然后,创建图表。

提示 1:查找数据

  1. 在 Google Cloud 控制台中,进入 BigQuery 页面。

    转到 BigQuery

  2. 点击 创建数据画布

    “创建数据画布”图标。

  3. 自然语言提示字段中,输入以下自然语言提示:

    Chicago taxi trips
    

    BigQuery 数据画布会根据 Dataplex 元数据生成潜在表列表。您可以选择多个表。

  4. 选择 bigquery-public-data.chicago_taxi_trips.taxi_trips 表格,然后点击添加到画布

    taxi_trips 的表单元格会添加到 BigQuery 数据画布中。如需查看架构信息、查看表详细信息或预览数据,请选择表单元格中的各个标签页。

提示 2:在所选表中生成 SQL 查询

如需为 bigquery-public-data.chicago_taxi_trips.taxi_trips 表生成 SQL 查询,请执行以下操作:

  1. 在数据画布中,点击查询

  2. 自然语言提示字段中,输入以下内容:

    Get me the 100 longest trips
    

    BigQuery 数据画布生成类似于以下内容的 SQL 查询:

    SELECT
      taxi_id,
      trip_start_timestamp,
      trip_end_timestamp,
      trip_miles
    FROM
      `bigquery-public-data.chicago_taxi_trips.taxi_trips`
    ORDER BY
      trip_miles DESC
    LIMIT
      100;
    

提示 3:修改查询

如需修改您生成的查询,您可以手动修改查询,也可以更改自然语言提示并重新生成查询。在本示例中,您将使用自然语言提示修改查询,以仅选择客户使用现金付款的行程。

  1. 自然语言提示字段中,输入以下内容:

    Get me the 100 longest trips where the payment type is cash
    

    BigQuery 数据画布生成类似于以下内容的 SQL 查询:

    SELECT
      taxi_id,
      trip_start_timestamp,
      trip_end_timestamp,
      trip_miles
    FROM
      `PROJECT_ID.chicago_taxi_trips_123123.taxi_trips`
    WHERE
      payment_type = 'Cash'
    ORDER BY
      trip_miles DESC
    LIMIT
      100;
    

    在前面的示例中,PROJECT_ID 是您的 Google Cloud 项目的 ID。

  2. 如需查看查询结果,请点击运行

创建图表

  1. 在数据画布中,点击可视化
  2. 点击创建条形图

    BigQuery 数据画布会创建一个条形图,按行程 ID 显示最长行程里程数。BigQuery 数据画布除了提供图表之外,还汇总了支持可视化的数据的一些关键详细信息。

  3. 可选:执行以下一个或多个操作:

    • 如需修改图表,请点击修改,然后在修改可视化窗格中修改图表。
    • 如需共享数据画布,请点击共享,然后点击共享链接以复制 BigQuery 数据画布链接。
    • 如需清理数据画布,请选择 more_vert 更多操作,然后选择 more_vert 清除画布。 此步骤会生成空白画布。

工作流示例:联接表

在此示例中,您将使用 BigQuery 数据画布中的自然语言提示来查找数据和联接表。然后,将查询导出为笔记本。

提示 1:查找数据

  1. 自然语言提示字段中,输入以下提示:

    Information about trees
    

    BigQuery 数据画布会推荐几个包含树相关信息的表。

  2. 在本示例中,请选择 bigquery-public-data.new_york_trees.tree_census_1995 表,然后点击添加到画布

    表格会显示在画布上。

提示 2:按地址联接表

  1. 在数据画布上,点击联接

    BigQuery 数据画布会建议要联接的表。

  2. 如需打开新的自然语言提示字段,请点击搜索表格

  3. 自然语言提示字段中,输入以下提示:

    Information about trees
    
  4. 选择 bigquery-public-data.new_york_trees.tree_census_2005 表,然后点击添加到画布

    表格会显示在画布上。

  5. 在数据画布上,点击联接

  6. 在此画布上部分,选中表格单元格复选框,然后点击确定

  7. 自然语言提示字段中,输入以下提示:

    Join on address
    

    BigQuery 数据画布建议 SQL 查询在地址上联接这两个表。

    SELECT
      *
    FROM
      `bigquery-public-data.new_york_trees.tree_census_2015` AS t2015
    JOIN
      `bigquery-public-data.new_york_trees.tree_census_1995` AS t1995
    ON
      t2015.address = t1995.address;
    
  8. 如需运行查询并查看结果,请点击运行

将查询导出为笔记本

借助 BigQuery 数据画布,您可以将查询导出为笔记本。

  1. 在数据画布中,点击导出为笔记本
  2. 保存笔记本窗格中,输入笔记本的名称和您要将其保存到的区域。
  3. 点击保存。笔记本已成功创建。
  4. 可选:如需查看创建的笔记本,请点击打开

示例工作流:使用提示修改图表

在此示例中,您将在 BigQuery 数据画布中使用自然语言提示来查找、查询和过滤数据,然后修改可视化详细信息。

提示 1:查找数据

  1. 如需查找有关美国姓名的数据,请输入以下提示:

    Find data about USA names
    

    BigQuery 数据画布会生成表列表。

  2. 在本示例中,请选择 bigquery-public-data.usa_names.usa_1910_current 表,然后点击添加到画布

提示 2:查询数据

  1. 如需查询数据,请在数据画布中点击查询,然后输入以下提示:

    Summarize this data
    

    BigQuery 数据画布生成类似于以下内容的查询:

    SELECT
      state,
      gender,
      year,
      name,
      number
    FROM
      `bigquery-public-data.usa_names.usa_1910_current`
    
  2. 点击运行。查询结果会显示。

提示 3:过滤数据

  1. 在数据画布中,点击查询这些结果
  2. 如需过滤数据,请在 SQL 提示字段中输入以下提示:

    Get me the top 10 most popular names in 1980
    

    BigQuery 数据画布生成类似于以下内容的查询:

    SELECT
      name,
      SUM(number) AS total_count
    FROM
      `bigquery-public-data`.usa_names.usa_1910_current
    WHERE
      year = 1980
    GROUP BY
      name
    ORDER BY
      total_count DESC
    LIMIT
      10;
    

    运行查询时,您会得到一个表,其中包含 1980 年新生儿使用最多的 10 个名字。

提示 4:创建和修改图表

  1. 在数据画布中,点击可视化

    BigQuery 数据画布会推荐几个可视化选项,包括条形图、饼图、折线图和自定义可视化。

  2. 在本示例中,点击创建条形图

    BigQuery 数据画布会创建一个类似如下的条形图:

    使用最多的 10 个名字的条形图。

BigQuery 数据画布除了提供图表之外,还汇总了支持可视化的数据的一些关键详细信息。若要修改图表,您可以点击可视化详情并在侧边栏中修改图表。

提示 5:修改可视化详情

  1. 可视化提示字段中,输入以下内容:

    Create a bar chart sorted high to low, with a gradient
    

    BigQuery 数据画布会创建一个类似如下的条形图:

    使用最多的 10 个名字的已排序条形图。

  2. 可选:如需进行其他更改,请点击修改

    此时系统会显示修改可视化效果窗格。您可以修改详细信息,例如图表标题、x 轴名称和 y 轴名称。此外,如果点击 JSON 编辑器标签页,您可以根据 JSON 值直接修改图表。

价格

使用 BigQuery 数据画布时,您需要根据基于计算或存储的价格模式付费。在预览版期间,将 Gemini 与 BigQuery 数据画布搭配使用不会产生额外费用。

提供反馈

您可以通过向 Google 提交反馈,帮助改进 BigQuery 数据画布建议。如需提供反馈,请执行以下操作:

  1. 在 Google Cloud 控制台工具栏中,点击提交反馈

  2. 可选:如需复制 DAG JSON 信息以为您的反馈提供更多上下文,请点击 复制

  3. 如需填写表单并提供反馈,请点击表单

数据共享设置适用于整个项目,且只能由拥有 serviceusage.services.enableserviceusage.services.list IAM 权限的项目管理员设定。如需详细了解可信测试员计划中的数据使用方式,请参阅 Google Cloud 中的 Gemini 可信测试员计划

如需提供有关此功能的直接反馈,您还可以联系 datacanvas-feedback@google.com

后续步骤