使用 BigQuery 数据画布进行分析

BigQuery Studio 数据画布是 Gemini in BigQuery 功能的一部分,可让您使用自然语言提示和图形界面来查找、转换、查询和直观呈现数据,以便处理分析工作流。

对于分析工作流,BigQuery 数据画布使用有向无环图 (DAG),以图形方式显示工作流。在 BigQuery 数据画布中,您可以迭代查询结果,并在一个位置处理多个查询分支。

BigQuery 数据画布旨在加速分析任务,并帮助数据分析师、数据工程师等数据专业人士完成从数据到洞见的历程。您无需具备特定工具的技术知识,只需对读写 SQL 有基本的了解即可。BigQuery 数据画布与 Dataplex 元数据搭配使用,以根据自然语言确定适当的表。

BigQuery 数据画布不适合业务用户直接使用。

BigQuery 数据画布使用 Gemini in BigQuery 查找数据、创建 SQL、生成图表以及创建数据摘要。

了解 Gemini for Google Cloud 如何以及何时使用您的数据

功能

借助 BigQuery 数据画布,您可以执行以下操作:

  • 将自然语言查询或关键字搜索语法与 Dataplex 元数据搭配使用,以查找表、视图或物化视图等资产。

  • 使用自然语言来执行基本 SQL 查询,例如:

    • 包含 FROM 子句、数学函数、数组和结构体的查询。
    • 针对两个表的 JOIN 操作。
  • 使用以下图形类型可视化数据:

    • 条形图
    • 热图
    • 线形图
    • 饼图
    • 散点图
  • 使用自然语言描述您想要的内容,从而创建自定义可视化。

  • 自动生成数据分析。

限制

  • 自然语言指令可能无法很好地与以下各项搭配使用:

    • BigQuery ML
    • Apache Spark
    • 对象表
    • BigLake
    • INFORMATION_SCHEMA 视图
    • JSON
    • 嵌套和重复字段
    • 复杂的函数和数据类型,例如 DATETIMETIMEZONE
  • 数据可视化功能不适用于地理图图表。

提示最佳实践

通过使用合适的提示技术,您可以生成复杂的 SQL 查询。以下建议可帮助 BigQuery 数据画布优化您的自然语言提示,从而提高查询的准确性:

  • 撰写清晰的文字。请明确说明您的要求,避免模糊不清。

  • 直截了当地提问。为了获得最准确的答案,请一次只问一个问题,并使用简洁的提示。如果需要,请在 BigQuery 数据画布中将问题拆分为不同的节点。

  • 提供清晰明确的说明。在问题中突出显示关键字。

  • 指定操作顺序。以清晰有序的方式提供说明。将任务分解为专注的小步骤。

  • 优化和迭代。尝试使用不同的短语和方法,看看哪种方法能带来最佳结果。

如需了解详情,请参阅 BigQuery 数据画布的提示最佳实践

准备工作

  1. 确保已为您的 Google Cloud 项目启用 Gemini in BigQuery。此步骤通常由管理员执行。
  2. 确保您拥有必要的 Identity and Access Management (IAM) 权限,以使用 BigQuery 数据画布。

所需的角色

如需获得使用 BigQuery 数据画布所需的权限,请让管理员向您授予项目的以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

如需详细了解 BigQuery 中的 IAM 角色和权限,请参阅 IAM 简介

使用 BigQuery 数据画布

您可以在 Google Cloud 控制台、查询或表格中使用 BigQuery 数据画布。

  1. 转到 BigQuery 页面。

    转到 BigQuery

  2. 在查询编辑器中,点击 SQL 查询旁边的 新建,然后点击数据画布

    “创建数据画布”图标。

  3. 自然语言提示字段中,输入自然语言提示。

    例如,如果您输入 Find me tables related to trees,BigQuery 数据画布会返回可能的表格列表,包括 bigquery-public-data.usfs_fia.plot_treebigquery-public-data.new_york_trees.tree_species 等公共数据集。

  4. 请选择一个表。

    系统会将所选表的表节点添加到 BigQuery 数据画布中。 如需查看架构信息、查看表详细信息或预览数据,请选择表节点中的各个标签页。

试用示例工作流

本部分演示了在分析工作流中使用 BigQuery 数据画布的不同方法。

工作流示例:查找、查询和直观呈现数据

在本例中,您将使用 BigQuery 数据画布中的自然语言提示查找数据、生成查询和修改查询。然后,创建一个图表。

提示 1:查找数据

  1. 在 Google Cloud 控制台中,进入 BigQuery 页面。

    转到 BigQuery

  2. 在查询编辑器中,点击 SQL 查询旁边的 新建,然后点击数据画布

    “创建数据画布”图标。

  3. 自然语言提示字段中,输入以下自然语言提示:

    Chicago taxi trips
    

    BigQuery 数据画布会根据 Dataplex 元数据生成潜在表列表。您可以选择多个表。

  4. 选择 bigquery-public-data.chicago_taxi_trips.taxi_trips 表,然后点击添加到画布

    taxi_trips 的表节点会添加到 BigQuery 数据画布中。如需查看架构信息、查看表详细信息或预览数据,请选择表节点中的各个标签页。

提示 2:在所选表中生成 SQL 查询

如需为 bigquery-public-data.chicago_taxi_trips.taxi_trips 表生成 SQL 查询,请执行以下操作:

  1. 在数据画布中,点击查询

  2. 自然语言提示字段中,输入以下内容:

    Get me the 100 longest trips
    

    BigQuery 数据画布生成类似于以下内容的 SQL 查询:

    SELECT
      taxi_id,
      trip_start_timestamp,
      trip_end_timestamp,
      trip_miles
    FROM
      `bigquery-public-data.chicago_taxi_trips.taxi_trips`
    ORDER BY
      trip_miles DESC
    LIMIT
      100;

提示 3:修改查询

如需修改生成的查询,您可以手动修改查询,也可以更改自然语言提示并重新生成查询。在本示例中,您将使用自然语言提示修改查询,以仅选择客户使用现金付款的行程。

  1. 自然语言提示字段中,输入以下内容:

    Get me the 100 longest trips where the payment type is cash
    

    BigQuery 数据画布生成类似于以下内容的 SQL 查询:

    SELECT
      taxi_id,
      trip_start_timestamp,
      trip_end_timestamp,
      trip_miles
    FROM
      `PROJECT_ID.chicago_taxi_trips_123123.taxi_trips`
    WHERE
      payment_type = 'Cash'
    ORDER BY
      trip_miles DESC
    LIMIT
      100;

    在上述示例中,PROJECT_ID 是您的 Google Cloud 项目的 ID。

  2. 如需查看查询结果,请点击运行

创建图表

  1. 在数据画布中,点击可视化
  2. 点击创建条形图

    BigQuery 数据画布会创建一个条形图,按行程 ID 显示最长行程里程数。BigQuery 数据画布除了提供图表之外,还汇总了支持可视化的数据的一些关键详细信息。

  3. 可选:执行以下一个或多个操作:

    • 如需修改图表,请点击修改,然后在修改可视化窗格中修改图表。
    • 如需共享数据画布,请点击共享,然后点击共享链接以复制 BigQuery 数据画布链接。
    • 如需清理数据画布,请选择 更多操作,然后选择 清除画布。 此步骤会生成一个空白画布。

工作流示例:联接表

在本例中,您将使用 BigQuery 数据画布中的自然语言提示查找数据和联接表。然后,您可以将查询导出为笔记本。

提示 1:查找数据

  1. 自然语言提示字段中,输入以下提示:

    Information about trees
    

    BigQuery 数据画布会推荐几个包含树相关信息的表。

  2. 在此示例中,选择 bigquery-public-data.new_york_trees.tree_census_1995 表,然后点击添加到画布

    表格会显示在画布上。

提示 2:按地址联接表

  1. 在数据画布上,点击联接

    BigQuery 数据画布会建议要联接的表。

  2. 如需打开新的自然语言提示字段,请点击搜索表格

  3. 自然语言提示字段中,输入以下提示:

    Information about trees
    
  4. 选择 bigquery-public-data.new_york_trees.tree_census_2005 表,然后点击添加到画布

    表格会显示在画布上。

  5. 在数据画布上,点击联接

  6. 在此画布上部分,选中表格单元格复选框,然后点击确定

  7. 自然语言提示字段中,输入以下提示:

    Join on address
    

    BigQuery 数据画布建议 SQL 查询在地址上联接这两个表。

    SELECT
      *
    FROM
      `bigquery-public-data.new_york_trees.tree_census_2015` AS t2015
    JOIN
      `bigquery-public-data.new_york_trees.tree_census_1995` AS t1995
    ON
      t2015.address = t1995.address;
  8. 如需运行查询并查看结果,请点击运行

将查询导出为笔记本

借助 BigQuery 数据画布,您可以将查询导出为笔记本。

  1. 在数据画布中,点击导出为笔记本
  2. 保存笔记本窗格中,输入笔记本的名称和要将其保存到的区域。
  3. 点击保存。笔记本已成功创建。
  4. 可选:如需查看创建的笔记本,请点击打开

工作流示例:使用提示修改图表

在本例中,您将使用 BigQuery 数据画布中的自然语言提示查找、查询和过滤数据,然后修改可视化图表详细信息。

提示 1:查找数据

  1. 如需查找与美国人名相关的数据,请输入以下提示:

    Find data about USA names
    

    BigQuery 数据画布会生成表列表。

  2. 在此示例中,选择 bigquery-public-data.usa_names.usa_1910_current 表,然后点击添加到画布

提示 2:查询数据

  1. 如需查询数据,请在数据画布中点击查询,然后输入以下提示:

    Summarize this data
    

    BigQuery 数据画布生成类似于以下内容的查询:

    SELECT
      state,
      gender,
      year,
      name,
      number
    FROM
      `bigquery-public-data.usa_names.usa_1910_current`
  2. 点击运行。系统会显示查询结果。

提示 3:过滤数据

  1. 在数据画布中,点击查询这些结果
  2. 如需过滤数据,请在 SQL 提示字段中输入以下提示:

    Get me the top 10 most popular names in 1980
    

    BigQuery 数据画布生成类似于以下内容的查询:

    SELECT
      name,
      SUM(number) AS total_count
    FROM
      `bigquery-public-data`.usa_names.usa_1910_current
    WHERE
      year = 1980
    GROUP BY
      name
    ORDER BY
      total_count DESC
    LIMIT
      10;

    运行查询后,您会得到一个表,其中包含 1980 年新生儿使用最多的 10 个名字。

创建和修改图表

  1. 在数据画布中,点击可视化

    BigQuery 数据画布会推荐几个可视化选项,包括条形图、饼图、折线图和自定义可视化。

  2. 在此示例中,请点击创建条形图

    BigQuery 数据画布会创建一个类似如下的条形图:

    使用最多的 10 个名字的条形图。

BigQuery 数据画布除了提供图表之外,还汇总了支持可视化的数据的一些关键详细信息。若要修改图表,您可以点击可视化详情并在侧边栏中修改图表。

提示 4:修改可视化图表详情

  1. 可视化图表提示字段中,输入以下内容:

    Create a bar chart sorted high to low, with a gradient
    

    BigQuery 数据画布会创建一个类似如下的条形图:

    使用最多的 10 个名字的已排序条形图。

  2. 可选:如需进行进一步更改,请点击修改

    系统随即会显示修改可视化图表窗格。您可以修改图表标题、x 轴名称和 y 轴名称等详细信息。此外,如果点击 JSON 编辑器标签页,您可以根据 JSON 值直接修改图表。

查看所有数据画布

如需查看项目中所有数据画布的列表,请执行以下操作:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,点击数据画布旁边的 查看操作,然后执行以下操作之一:

  • 如需在当前标签页中打开该列表,请点击全部显示
  • 如需在新标签页中打开该列表,请点击在以下位置全部显示> 新标签页
  • 如需在拆分标签页中打开该列表,请点击在以下位置全部显示> 拆分标签页

查看数据画布元数据

如需查看数据画布元数据,请执行以下操作:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,展开您的项目和数据画布文件夹,然后根据需要展开共享数据画布文件夹。点击要查看其元数据的数据画布的名称。

  3. 查看摘要窗格,查看有关数据画布的信息,例如其使用的区域和上次修改日期。

使用数据画布版本

您可以查看、比较和恢复数据画布的版本。

查看和比较数据画布版本

如需查看数据画布的不同版本并将其与当前版本进行比较,请执行以下操作:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,展开您的项目和数据画布文件夹,然后根据需要展开共享数据画布文件夹。点击要查看其活动的数据画布的名称。

  3. 点击活动标签页,可查看按日期降序排列的数据画布版本列表。

  4. 点击数据画布版本旁边的 查看操作,然后点击比较。此时会打开比较窗格,将您选择的数据画布版本与当前的数据画布版本进行比较。

  5. 可选:如需以内嵌方式(而不是在单独的窗格中)比较版本,请点击比较,然后点击内嵌

恢复数据画布版本

使用以下任一选项来恢复数据画布版本。 通过从比较窗格中恢复数据,您可以在选择是否恢复之前将数据画布的先前版本与当前版本进行比较。

“活动”窗格

  1. 探索器窗格中,展开您的项目和数据画布文件夹,然后根据需要展开共享数据画布文件夹。点击要恢复其旧版本的数据画布的名称。
  2. 选择活动窗格。
  3. 点击要恢复的数据画布版本旁边的 查看操作,然后点击恢复
  4. 点击确认以确认操作。

“比较”窗格

  1. 探索器窗格中,展开您的项目和数据画布文件夹,然后根据需要展开共享数据画布文件夹。点击要恢复其旧版本的数据画布的名称。
  2. 选择活动窗格。
  3. 点击数据画布版本旁边的 查看操作,然后点击比较。此时会打开比较窗格,将您选择的数据画布版本与最新的数据画布版本进行比较。
  4. 如果要在比较后恢复之前的数据画布版本,请点击恢复
  5. 点击确认以确认操作。

价格

如需详细了解此功能的价格,请参阅 Gemini in BigQuery 价格概览

配额和限制

如需了解此功能的配额和限制,请参阅 Gemini in BigQuery 的配额

提供反馈

您可以通过向 Google 提交反馈,帮助改进 BigQuery 数据画布建议。如需提供反馈,请执行以下操作:

  1. 在 Google Cloud 控制台工具栏中,点击提交反馈

  2. 可选:如需复制 DAG JSON 信息,为您的反馈提供更多上下文,请点击 复制

  3. 如需填写表单并提供反馈,请点击表单

数据共享设置适用于整个项目,且只能由拥有 serviceusage.services.enableserviceusage.services.list IAM 权限的项目管理员设定。如需详细了解可信测试员计划中的数据使用方式,请参阅 Google Cloud 中的 Gemini 可信测试员计划

如需直接提供有关此功能的反馈,您还可以联系 datacanvas-feedback@google.com

后续步骤