管理数据准备
本文档介绍了如何管理BigQuery 中的数据准备,包括授予所需的 Identity and Access Management (IAM) 角色以及在 Dataplex 中管理元数据。
数据准备是指由 Dataform 提供支持的 BigQuery 资源。
准备工作
- 确保您已启用 Gemini for Google Cloud API。
- 如需在 Dataplex 中管理数据准备元数据,请确保在您的 Google Cloud 项目中启用 Dataplex API。
所需的角色
为确保 Dataform 服务账号拥有在 BigQuery 中准备数据所需的权限,请参阅 Dataform 服务账号所需的角色。
如需获得在 BigQuery 中准备数据所需的权限,请让管理员向您授予项目的以下 IAM 角色:
-
BigQuery Data Editor (
roles/bigquery.dataEditor
) -
Service Usage Consumer (
roles/serviceusage.serviceUsageConsumer
)
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
如需在 Dataplex 中管理数据准备元数据,请确保您拥有所需的 Dataplex 角色和 dataform.repository.get
权限。
查看现有的数据准备
如需查看现有数据准备情况的列表,请按以下步骤操作:
- 在 BigQuery Studio 页面上,前往浏览器窗格。
- 展开您的项目。
- 展开数据准备列表。
通过增量处理数据来优化数据准备
如需配置将准备好的数据写入目标表的方式,请按以下步骤操作。
在 Google Cloud 控制台中,前往 BigQuery Studio 页面。
在活动窗格中,选择您的数据准备。
在数据准备工具栏中,依次选择更多 > 写入模式。
选择其中一个选项。如需了解详情,请参阅写入模式。
点击保存。
帮助改进建议
您可以与 Google 共享提交给预览版功能的提示数据,以帮助改进 Gemini 建议。如需共享提示数据,请按照以下步骤操作:
- 在 BigQuery 中打开数据准备编辑器。
- 在数据准备工具栏中,依次点击设置 更多。
- 选择共享数据以改进 Gemini in BigQuery。
数据共享设置适用于整个项目,且只能由拥有 serviceusage.services.enable
和 serviceusage.services.list
IAM 权限的项目管理员设定。如需详细了解可信测试员计划中的数据使用方式,请参阅 适用于 Google Cloud 的可信测试员计划。
数据准备版本
BigQuery 数据准备不支持查看、比较或恢复数据准备版本。
如需按时间顺序查看数据准备版本列表,请按以下步骤操作:
- 在 BigQuery Studio 页面上,前往浏览器窗格。
- 选择数据准备。版本会在分层图表窗格的活动标签页中列出。
下载数据准备
如需下载 YAML 文件中的数据准备,请按以下步骤操作:
在 Google Cloud 控制台中,前往 BigQuery Studio 页面。
在浏览器窗格中,展开您的项目和数据准备文件夹。点击要下载的数据准备的名称。
点击下载。数据准备工作会以 YAML 文件格式(例如
NAME data preparation.dp.yaml
)保存。
上传数据准备文件
如需通过 YAML 文件上传数据准备流程,请按以下步骤操作:
在 Google Cloud 控制台中,前往 BigQuery Studio 页面。
在探索器面板中,展开您的项目。
前往数据准备文件夹,然后依次点击more_vert 菜单 > 上传到数据准备。
在上传数据准备文件对话框中,选择要上传的文件,或输入数据准备文件的网址。
为数据准备输入名称。
选择用于管理和存储资源的数据准备位置。
点击上传。
在 Dataplex 中管理元数据
借助 Dataplex,您可以存储和管理数据准备工作所需的元数据。默认情况下,Dataplex 中提供数据准备功能,无需额外配置。
您可以使用 Dataplex 在所有 BigQuery 位置管理数据准备工作。在 Dataplex 中管理数据准备工作时,需要遵守 Dataplex 配额和限制以及 Dataplex 价格。
Dataplex 会自动从数据准备中检索以下元数据:
- 数据资源名称
- 数据资产父级
- 数据资产位置
- 数据资产类型
- 相应的 Google Cloud 项目
Dataplex 会将数据准备情况记录为条目,并附上以下条目值:
- 系统条目组
- 数据准备的系统条目组为
@dataform
。如需在 Dataplex 中查看数据准备条目的详细信息,您需要查看dataform
系统条目组。如需了解如何查看条目组中的所有条目列表,请参阅 Dataplex 文档中的查看条目组的详细信息。 - 系统条目类型
- 数据准备的系统条目类型为
dataform-code-asset
。如需查看数据准备的详细信息,您需要查看dataform-code-asset
系统条目类型,使用基于方面过滤条件过滤结果,并将dataform-code-asset
方面中的type
字段设置为DATA_PREPARATION
。然后,选择所选数据准备的条目。 如需了解如何查看所选条目类型的详细信息,请参阅 Dataplex 文档中的查看条目类型的详细信息。如需了解如何查看所选条目的详细信息,请参阅 Dataplex 文档中的查看条目的详细信息。 - 系统方面类型
- 数据准备的系统方面类型为
dataform-code-asset
。如需使用方面为 Dataplex 中的数据准备提供更多背景信息,请为数据准备条目添加注释,查看dataform-code-asset
方面类型,使用基于方面的过滤条件过滤结果,并将dataform-code-asset
方面中的type
字段设置为DATA_PREPARATION
。如需了解如何使用方面为条目添加注释,请参阅 Dataplex 文档中的管理方面和丰富元数据。 - 类型
- 数据画布的类型为
DATA_PREPARATION
。借助此类型,您可以在基于方面过滤条件中使用aspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION
查询,从而在dataform-code-asset
系统条目类型和dataform-code-asset
方面类型中过滤数据准备。
如需了解如何在 Dataplex 中搜索资产,请参阅 Dataplex 文档中的在 Dataplex 中搜索数据资产。
后续步骤
- 详细了解如何在 BigQuery 中准备数据。
- 了解如何手动或按计划运行数据准备流程。
- 了解如何创建数据准备流程。