管理数据准备

本文档介绍了如何管理BigQuery 中的数据准备,包括授予所需的 Identity and Access Management (IAM) 角色以及在 Dataplex 中管理元数据。

数据准备是指由 Dataform 提供支持的 BigQuery 资源。

准备工作

  1. 确保您已启用 Gemini for Google Cloud API
  2. 如需在 Dataplex 中管理数据准备元数据,请确保在您的 Google Cloud 项目中启用 Dataplex API

所需的角色

为确保 Dataform 服务账号拥有在 BigQuery 中准备数据所需的权限,请参阅 Dataform 服务账号所需的角色

如需获得在 BigQuery 中准备数据所需的权限,请让管理员向您授予项目的以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

如需在 Dataplex 中管理数据准备元数据,请确保您拥有所需的 Dataplex 角色dataform.repository.get 权限。

查看现有的数据准备

如需查看现有数据准备情况的列表,请按以下步骤操作:

  1. BigQuery Studio 页面上,前往浏览器窗格。
  2. 展开您的项目。
  3. 展开数据准备列表。

通过增量处理数据来优化数据准备

如需配置将准备好的数据写入目标表的方式,请按以下步骤操作。

  1. 在 Google Cloud 控制台中,前往 BigQuery Studio 页面。

    转到 BigQuery

  2. 活动窗格中,选择您的数据准备。

  3. 在数据准备工具栏中,依次选择更多 > 写入模式

  4. 选择其中一个选项。如需了解详情,请参阅写入模式

  5. 点击保存

帮助改进建议

您可以与 Google 共享提交给预览版功能的提示数据,以帮助改进 Gemini 建议。如需共享提示数据,请按照以下步骤操作:

  1. 在 BigQuery 中打开数据准备编辑器
  2. 在数据准备工具栏中,依次点击设置 更多
  3. 选择共享数据以改进 Gemini in BigQuery

数据共享设置适用于整个项目,且只能由拥有 serviceusage.services.enableserviceusage.services.list IAM 权限的项目管理员设定。如需详细了解可信测试员计划中的数据使用方式,请参阅 适用于 Google Cloud 的可信测试员计划

数据准备版本

BigQuery 数据准备不支持查看、比较或恢复数据准备版本。

如需按时间顺序查看数据准备版本列表,请按以下步骤操作:

  1. BigQuery Studio 页面上,前往浏览器窗格。
  2. 选择数据准备。版本会在分层图表窗格的活动标签页中列出。

下载数据准备

如需下载 YAML 文件中的数据准备,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,前往 BigQuery Studio 页面。

    转到 BigQuery

  2. 浏览器窗格中,展开您的项目和数据准备文件夹。点击要下载的数据准备的名称。

  3. 点击下载。数据准备工作会以 YAML 文件格式(例如 NAME data preparation.dp.yaml)保存。

上传数据准备文件

如需通过 YAML 文件上传数据准备流程,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,前往 BigQuery Studio 页面。

    转到 BigQuery

  2. 探索器面板中,展开您的项目。

  3. 前往数据准备文件夹,然后依次点击more_vert 菜单 > 上传到数据准备

  4. 上传数据准备文件对话框中,选择要上传的文件,或输入数据准备文件的网址。

  5. 为数据准备输入名称。

  6. 选择用于管理和存储资源的数据准备位置。

  7. 点击上传

在 Dataplex 中管理元数据

借助 Dataplex,您可以存储和管理数据准备工作所需的元数据。默认情况下,Dataplex 中提供数据准备功能,无需额外配置。

您可以使用 Dataplex 在所有 BigQuery 位置管理数据准备工作。在 Dataplex 中管理数据准备工作时,需要遵守 Dataplex 配额和限制以及 Dataplex 价格

Dataplex 会自动从数据准备中检索以下元数据:

  • 数据资源名称
  • 数据资产父级
  • 数据资产位置
  • 数据资产类型
  • 相应的 Google Cloud 项目

Dataplex 会将数据准备情况记录为条目,并附上以下条目值:

系统条目组
数据准备的系统条目组@dataform。如需在 Dataplex 中查看数据准备条目的详细信息,您需要查看 dataform 系统条目组。如需了解如何查看条目组中的所有条目列表,请参阅 Dataplex 文档中的查看条目组的详细信息
系统条目类型
数据准备的系统条目类型dataform-code-asset。如需查看数据准备的详细信息,您需要查看 dataform-code-asset 系统条目类型,使用基于方面过滤条件过滤结果,并dataform-code-asset 方面中的 type 字段设置为 DATA_PREPARATION。然后,选择所选数据准备的条目。 如需了解如何查看所选条目类型的详细信息,请参阅 Dataplex 文档中的查看条目类型的详细信息。如需了解如何查看所选条目的详细信息,请参阅 Dataplex 文档中的查看条目的详细信息
系统方面类型
数据准备的系统方面类型dataform-code-asset。如需使用方面为 Dataplex 中的数据准备提供更多背景信息,请为数据准备条目添加注释,查看 dataform-code-asset 方面类型,使用基于方面的过滤条件过滤结果,并dataform-code-asset 方面中的 type 字段设置为 DATA_PREPARATION。如需了解如何使用方面为条目添加注释,请参阅 Dataplex 文档中的管理方面和丰富元数据
类型
数据画布的类型为 DATA_PREPARATION。借助此类型,您可以在基于方面过滤条件中使用 aspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION 查询,从而在 dataform-code-asset 系统条目类型和 dataform-code-asset 方面类型中过滤数据准备。

如需了解如何在 Dataplex 中搜索资产,请参阅 Dataplex 文档中的在 Dataplex 中搜索数据资产

后续步骤