使用 Gemini 准备数据

本文档介绍了如何为 BigQuery 中的数据准备生成和管理 SQL 代码建议。

如需了解详情,请参阅 BigQuery 数据准备简介

准备工作

在 BigQuery 中打开数据准备编辑器

通过创建新的数据准备、根据现有表创建数据准备或打开现有的数据准备,您可以在 BigQuery 中打开数据准备编辑器。如需详细了解创建数据准备时会发生什么情况,请参阅数据准备入口点

BigQuery Studio 页面上,您可以通过以下方式进入数据准备编辑器:

新建

如需在 BigQuery 中创建新的数据准备,请按照以下步骤操作:

  1. 在 Google Cloud 控制台中,前往 BigQuery Studio 页面。
    前往 BigQuery
  2. 前往创建新列表,然后点击数据准备。数据准备编辑器会显示在新建未命名的数据准备标签页中。
  3. 在编辑器的搜索栏中,输入表名或关键字,然后选择一个表。系统会为该表打开数据准备编辑器,并在数据标签页上显示数据预览,以及显示 Gemini 提供的一组初始的数据准备建议。

    数据准备资源出现在探索器窗格内,您日后可以在该窗格中访问此数据准备资源。
  4. 可选:如需简化视图,请点击全屏全屏以开启全屏模式。

根据现有表进行新建

如需根据现有表创建新的数据准备,请按照以下步骤操作:

  1. 在 Google Cloud 控制台中,前往 BigQuery Studio 页面。
    前往 BigQuery
  2. 探索器窗格中,将指针悬停在某个表的上方。
  3. 依次点击 more_vert 菜单 > 查询位置 > 数据准备。系统会为该表打开数据准备编辑器,并在数据标签页上显示数据预览,以及显示 Gemini 提供的一组初始的数据准备建议。

    数据准备资源出现在探索器窗格内,您日后可以在该窗格中访问此数据准备资源。
  4. 可选:如需简化视图,请点击全屏全屏以开启全屏模式。

打开现有的数据准备

如需为现有的数据准备打开编辑器,请按照以下步骤操作:

  1. 在 Google Cloud 控制台中,前往 BigQuery Studio 页面。
    前往 BigQuery
  2. 探索器窗格中,点击您的项目名称和数据准备
  3. 选择现有的数据准备。系统会显示数据准备流水线的图表视图。
  4. 在图表中选择其中一个节点。系统会为该表打开数据准备编辑器,并在数据标签页上显示数据预览,以及显示 Gemini 提供的一组初始的数据准备建议。
  5. 可选:如需简化视图,请点击全屏全屏以开启全屏模式。

创建数据准备步骤

您需要分步准备数据。您可以预览或应用 Gemini 建议的步骤。此外,您还可以优化建议,或应用自己的步骤。如需详细了解受支持的数据准备步骤,请参阅支持的步骤

查看、修改和应用 Gemini 提供的建议

在前面的步骤中,当您为表打开数据准备编辑器时,Gemini 会检查您加载的表中的数据和架构,并生成建议。

在数据视图中查看数据时,点击列名称或特定单元格。Gemini 会生成特定于该列或单元格的过滤和转换建议。

将 Gemini 提供的建议作为数据准备步骤进行应用:

  1. 在数据视图中,前往步骤列表并查看建议。
  2. 可选:如需预览建议卡片的结果,请点击预览
  3. 可选:如需使用自然语言修改建议卡片,请点击修改

    如需详细了解如何修改建议,请参阅通过示例改进建议使用自然语言或 SQL 表达式添加步骤

  4. 点击应用

点击已应用的步骤并检查步骤列表后,您可以在数据视图中执行以下操作:

  • 点击 more_vert 菜单并进行更改,以修改或移除列表中的步骤。
  • 选择列表中的任意步骤,即可查看此特定步骤的数据样本和架构。
  • 选择列表中的某个步骤,以便在所选步骤后插入新步骤。

通过示例改进建议

如需优化 Gemini 提供的建议,请为它提供一个示例,说明单元格中的数据应该是什么样子:

  1. 在数据视图中,修改一到三个单元格的值,以演示该列中的值应该是什么样子。例如,输入一个日期,并采用您希望用于所有日期的格式。Gemini 会根据您的更改生成新的建议。

  2. 如需修改建议卡片,请点击修改

  3. 点击应用

使用自然语言或 SQL 表达式添加步骤

如果没有任何建议符合您的需求,请点击添加步骤,选择步骤类型,然后用自然语言输入描述您的意图的提示,以添加您自己的步骤。

添加转换

  1. 在数据视图中,点击添加步骤,然后选择转换选项。
  2. 说明字段中,输入提示,例如 Convert the state column to a uppercase
  3. 点击发送发送

    Gemini 会根据您的提示生成 SQL 表达式和新的说明。

  4. 目标列列表中,选择或输入列名称。

  5. 可选:如需更新 SQL 表达式,请修改提示,然后点击发送发送,或手动输入 SQL 表达式。

  6. 可选:点击预览,然后查看该步骤。

  7. 点击应用

过滤表格行

如需添加用于移除行的过滤操作,请按照以下步骤操作:

  1. 在数据视图中,依次点击添加步骤 > 过滤
  2. 说明字段中,输入提示,例如 Column ID should not be NULL
  3. 点击生成。 Gemini 会根据您的提示生成 SQL 表达式和新的说明。
  4. 可选:如需更新 SQL 表达式,请修改提示,然后点击发送发送,或手动输入 SQL 表达式。
  5. 可选:点击预览,然后查看该步骤。
  6. 点击应用

过滤表达式格式

用于过滤的 SQL 表达式会保留与指定条件匹配的行。这等同于 SELECT … WHERE SQL_EXPRESSION 语句。

例如,要保留 year 列大于或等于 2000 的记录,条件为 year >= 2000

表达式必须遵循 BigQuery SQL WHERE 子句的语法。

配置错误表并添加验证规则

您可以添加一个用于创建验证规则的过滤器,该验证规则会将错误发送到错误表,或导致数据准备工作失败。

配置错误表

如需配置错误表,请按照以下步骤操作:

  1. 在数据视图中,前往工具栏,然后依次点击更多 > 错误表
  2. 点击启用错误表
  3. 定义表位置。
  4. 可选:定义错误保留时长上限。
  5. 点击保存

添加验证规则

如需添加验证规则,请按照以下步骤操作:

  1. 在数据视图中,依次点击添加步骤 > 过滤
  2. 输入相应步骤的说明。
  3. WHERE 子句的形式输入 SQL 表达式。
  4. 可选:如果您希望 SQL 表达式充当验证规则,请选中验证失败的行会转到错误表复选框。此外,您还可以在数据准备工具栏中,依次点击更多 > 错误表,将过滤更改为验证。
  5. 可选:点击预览,然后查看该步骤。
  6. 点击应用

删除列

如需从数据准备中删除列,请按照以下步骤操作:

  1. 在架构视图中,点击要删除的列旁边的 more_vert 菜单
  2. 点击删除。系统会为已删除的列添加新的已应用步骤。

使用 Gemini 添加联接操作

在数据准备中,如需在两个来源之间添加联接操作步骤,请按照以下步骤操作:

  1. 在数据准备中某个节点的数据视图中,前往步骤列表,然后点击添加步骤 > 联接
  2. 添加联接对话框中,点击浏览,然后选择联接操作所涉及的另一个表(称为联接右侧)。
  3. 可选:选择要执行的联接操作的类型,例如内联接
  4. 在以下字段中查看 Gemini 生成的联接键信息:

    • 联接说明:联接操作的 SQL 表达式的自然语言说明。在您修改此说明并点击发送发送后,Gemini 会建议新的 SQL 联接条件。
    • 联接条件:联接操作的 ON 子句中的 SQL 表达式。您可以使用 LR 限定符来分别指左侧源表和右侧源表。例如,要将左侧表中的 customer_id 列与右侧表中的 customer_id 列相联接,请输入 L.customerId = R.customerId。这些限定符不区分大小写。

  5. 可选:如需优化 Gemini 提供的建议,请修改联接说明字段,然后点击发送发送

  6. 可选:如需预览数据准备的联接操作设置,请点击预览

  7. 点击应用

    创建了联接操作步骤。您选择的源表(联接的右侧)和联接操作会反映在已应用的步骤列表中以及数据准备的图表视图里的节点中。

添加或更改目标表

如需为数据准备的输出添加或更改目标表,请按照以下步骤操作:

  1. 在数据视图中,依次点击添加 > 目标
  2. 选择存储目标表的项目。
  3. 选择其中一个数据集,或加载新的数据集。
  4. 输入目标表。如果该表不存在,数据准备会在首次运行时创建一个新表。如需了解详情,请参阅写入模式
  5. 选择您的数据集作为目标数据集。
  6. 点击保存

进行数据准备

在添加数据准备步骤、配置目标并修复所有验证错误后,您可以对数据样本执行测试运行,也可以部署步骤并安排数据准备工作。如需了解详情,请参阅安排数据准备工作

刷新数据准备样本

样本中的数据不会自动进行刷新。如果数据准备的源表中的数据发生了更改,但这些更改未反映在数据准备的数据样本中,请点击更多 > 刷新样本

后续步骤