使用 Gemini 准备数据

本文档介绍了如何在 BigQuery 中为数据准备生成和管理 SQL 代码建议。

如需了解详情,请参阅 BigQuery 数据准备简介

准备工作

在 BigQuery 中打开数据准备编辑器

您可以通过以下方式在 BigQuery 中打开数据准备编辑器:创建新的准备数据,根据现有表创建准备数据,或打开现有准备数据。如需详细了解创建数据准备流程时会发生的情况,请参阅数据准备入口点

BigQuery Studio 页面上,您可以通过以下方式前往数据准备编辑器:

新建

如需在 BigQuery 中创建新的准备数据流程,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,前往 BigQuery Studio 页面。
    前往 BigQuery
  2. 前往创建新列表,然后点击数据准备。 数据准备编辑器会显示在新的未命名数据准备标签页中。
  3. 在编辑器的搜索栏中,输入表格名称或关键字,然后选择一个表格。系统会打开表格的数据准备编辑器,在数据标签页中显示数据预览,并显示 Gemini 提供的一组初始数据准备建议。

    “探索器”窗格中会显示数据准备资源,您日后可以在此处访问此准备。
  4. 可选:如需简化视图,请点击 fullscreen(全屏)Full screen(全屏)以开启全屏模式。

基于表格创建新数据

如需根据现有表创建新的准备数据流程,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,前往 BigQuery Studio 页面。
    Go to BigQuery
  2. 探索器窗格中,将指针悬停在某个表上。
  3. 依次点击 more_vert 菜单 > 查询 > 数据准备。系统会打开表格的数据准备编辑器,在数据标签页中显示数据预览,并显示 Gemini 提供的一组初始数据准备建议。

    “探索器”窗格中会显示数据准备资源,您日后可以在此处访问此准备。
  4. 可选:如需简化视图,请点击 fullscreen(全屏)Full screen(全屏)以开启全屏模式。

打开现有

如需打开现有数据准备的编辑器,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,前往 BigQuery Studio 页面。
    Go to BigQuery
  2. 探索器窗格中,依次点击您的项目名称和数据准备
  3. 选择现有的数据准备。系统会显示数据准备流水线的图表视图。
  4. 选择图表中的某个节点。系统会打开表格的数据准备编辑器,在数据标签页中显示数据预览,并显示 Gemini 提供的一组初始数据准备建议。
  5. 可选:如需简化视图,请点击 fullscreen(全屏)Full screen(全屏)以开启全屏模式。

创建数据准备步骤

您需要分步准备数据。您可以预览或应用 Gemini 建议的步骤。您还可以优化建议,或应用自己的步骤。如需详细了解支持的数据准备步骤,请参阅支持的步骤

查看和应用 Gemini 提供的建议

当您在上一步中为表格打开数据准备编辑器时,Gemini 会检查您加载的表格中的数据和架构,并生成建议。

在数据视图中查看数据时,请点击列名称或特定单元格。Gemini 会生成特定于该列或单元格的过滤条件和转换建议。

将 Gemini 提供的建议作为数据准备步骤应用:

  1. 在数据视图中,前往步骤列表并查看建议。
  2. 可选:如需修改建议卡片中的说明或 SQL 表达式,请点击预览
  3. 点击应用
  4. 可选:如需让 Gemini 提供更实用的建议,请提供示例,然后重复上述步骤。

点击已应用的步骤并检查步骤列表后,您可以在数据视图中执行以下操作:

  • 如需修改或移除步骤,请点击 more_vert 菜单,然后进行更改。
  • 选择列表中的任意步骤,即可查看此特定步骤的数据示例和架构。
  • 选择列表中的某个步骤,以在所选步骤后插入新步骤。

通过示例改进建议

如需微调 Gemini 提供的建议,请向其提供单元格中数据应有的示例:

  1. 在数据视图中,修改一到三个单元格的值,以演示该列中的值应如何显示。例如,输入一个日期,以便系统根据该日期的格式设置所有日期的格式。Gemini 会根据您所做的更改生成新的建议。

  2. 如需修改建议卡片,请点击预览

  3. 点击应用

手动添加步骤

如果没有任何建议符合您的需求,请点击添加步骤,选择步骤类型,然后输入说明和 SQL 表达式,以添加您自己的步骤。

添加转换

  1. 数据视图中,选择一个列,然后依次点击添加步骤 > 转换
  2. 输入相应步骤的说明。
  3. 输入 SQL 表达式。
  4. 目标列字段中,选择一个列或创建一个新列。
  5. 可选:点击预览,然后查看该步骤。
  6. 点击应用

过滤表格行

如需添加用于移除行的数据过滤条件,请按以下步骤操作:

  1. 在数据视图中,依次点击添加步骤 > 过滤
  2. 输入相应步骤的说明。
  3. 输入 SQL 表达式。
  4. 可选:点击预览,然后查看该步骤。
  5. 点击应用

过滤条件表达式格式

过滤条件的 SQL 表达式会保留与指定条件匹配的行。这等同于 SELECT … WHERE SQL_EXPRESSION 语句。

例如,若要保留 year 列大于或等于 2000 的记录,则条件为 year >= 2000

表达式必须遵循 WHERE 子句的 BigQuery SQL 语法。

配置错误表并添加验证规则

您可以添加一个用于创建验证规则的过滤器,该规则会将错误发送到错误表或导致数据准备作业失败。

配置错误表

如需配置错误表,请按以下步骤操作:

  1. 在数据视图中,前往工具栏,然后依次点击更多 > 错误表格
  2. 点击启用错误表
  3. 定义表位置。
  4. 可选:定义错误保留时长上限。
  5. 点击保存

添加验证规则

如需添加验证规则,请按以下步骤操作:

  1. 在数据视图中,依次点击添加步骤 > 过滤
  2. 输入相应步骤的说明。
  3. 输入一个 SQL 表达式,采用 WHERE 子句的形式。
  4. 可选:如果您希望 SQL 表达式用作验证规则,请选中验证失败的行会转到错误表复选框。您还可以在数据准备工具栏中,依次点击更多 > 错误表格,将过滤条件更改为验证。
  5. 可选:点击预览,然后查看该步骤。
  6. 点击应用

删除列

如需从数据准备流程中删除列,请按以下步骤操作:

  1. 在架构视图中,点击要删除的列旁边的 more_vert 菜单
  2. 点击删除。系统会为已删除的列添加新的已应用步骤。

添加联接运算

如需在数据准备过程中在两个来源之间添加联接操作步骤,请按以下步骤操作:

  1. 在数据准备流程中某个节点的数据视图中,前往步骤列表,然后依次点击添加步骤 > 联接
  2. 配置联接对话框中,选择联接操作中涉及的另一个表(称为联接的右侧)。
  3. 可选:为每个表选择联接键。联接键必须具有相同的数据类型。
  4. 可选:选择要执行的联接操作类型,例如内连接
  5. 可选:如需在指定联接键之前准备右侧表(例如,当联接中的两个列的数据类型不同时),请按以下步骤操作:

    1. 保存联接,但未选择联接键。
    2. 前往图表视图,然后选择右侧的源表。
    3. 准备右侧表格,例如转换列的数据类型。
    4. 通过设置键来修改您在上一步中保存的联接。
  6. 点击创建

系统会保留所有表行,即使其中一个表中没有相应的值也是如此。

保存步骤后,您选择的源表(联接的右侧)和联接操作会反映在已应用步骤列表以及数据准备的图表视图中的节点中。

添加或更改目标表

如需为数据准备输出添加或更改目标表,请按以下步骤操作:

  1. 在数据视图中,依次点击添加 > 目标位置
  2. 选择存储目标表的项目。
  3. 选择其中一个数据集,或加载新的数据集。
  4. 输入目标表。如果该表不存在,数据准备工具会在首次运行时创建一个新表。如需了解详情,请参阅写入模式
  5. 选择您的数据集作为目标数据集。
  6. 点击保存

运行数据准备

如需执行数据准备步骤并将准备好的数据加载到目标表中,请安排一次性或定期运行数据准备作业:

  1. 保存数据准备中的所有待处理更改。
  2. 在数据准备工具栏中,点击安排
  3. 输入时间表名称。
  4. 输入与执行作业关联的服务账号名称。
  5. 设置频率。
  6. 点击创建时间表

如需了解详情,请参阅安排数据准备作业

刷新数据准备示例

选段中的数据不会自动刷新。如果数据准备的源表中的数据发生了变化,但这些更改未反映在准备的数据样本中,请点击更多 > 刷新样本

后续步骤