管理数据湖中的数据资产

本页面介绍了如何在现有 Dataplex 可用区中添加、升级和移除作为资产的 Cloud Storage 存储分区和 BigQuery 数据集。

概览

资产映射到 Cloud Storage 或 BigQuery 中存储的数据。您可以将存储在不同 Google Cloud 项目中的数据作为资产映射到数据湖内的单个可用区。您可以关联现有的 Cloud Storage 存储分区或 BigQuery 数据集,以便在数据湖中进行管理。

准备工作

  • 如果您尚未在该数据湖中创建数据湖可用区,请先执行此操作。

  • 大多数 gcloud lakes 命令需要位置信息。您可以使用 --location 标志指定位置。

访问权限控制

  • 如需移除资产,请授予包含 dataplex.lakes.deletedataplex.zones.deletedataplex.assets.delete IAM 权限的 IAM 角色。Dataplex 特定的 roles/dataplex.adminroles/dataplex.editor 角色可用于授予这些权限。

  • 如需添加资产,请授予包含 create - dataplex.lakes.createdataplex.zones.createdataplex.assets.create 权限的 IAM 角色。roles/dataplex.adminroles/dataplex.editor 角色包含这些权限。

  • 您还可以使用 roles/ownerroles/editor 旧版角色向用户或群组授予权限。

  • 您必须在挂接到 Dataplex 数据湖的资源上向 Dataplex 服务授权。对于创建数据湖的项目中的资源,系统会自动隐式授权。对于其他项目,请针对资源明确授权 Dataplex 服务。

如需了解详情,请参阅 Dataplex IAM 和访问权限控制

为 Cloud Storage 存储分区授予角色

如需将其他项目中的 Cloud Storage 存储桶关联到您的数据湖,您必须在包含该存储桶的项目中向 Dataplex 服务帐号(service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com)授予 Dataplex 服务帐号角色 (roles/dataplex.serviceAgent)(可通过控制台的详情页面获取)。此角色为 Dataplex 服务提供存储桶的必备管理员级角色,以便针对存储桶本身设置权限。

为 BigQuery 数据集授予角色

如需将其他项目中的 BigQuery 数据集关联到您的数据湖,您必须向 Dataplex 服务帐号授予该数据集的 BigQuery Administrator 角色。

VPC Service Controls 注意事项

Dataplex 不违反 VPC Service Controls 边界。在将资源添加到数据湖之前,请确保底层存储桶或数据集与该数据湖位于同一 VPC Service Controls 网络中。

如需了解详情,请参阅将 VPC Service Controls 与 Dataplex 搭配使用

添加资产

如需添加 Cloud Storage 存储桶或 BigQuery 数据集资源,您可以发出 Dataplex API 方法 lakes.zones.assets.create,或者在本地浏览器中打开的“数据可用区”页面上添加存储桶或数据集。

如果 Dataplex 数据湖区域与其中一个 Cloud Storage 存储桶区域之间没有重叠,则您无法将该存储桶添加到数据湖中的可用区。

如需详细了解 Cloud Storage 资产的区域位置,以及 Dataplex 在创建发布数据集时如何处理存储桶的位置,请参阅区域资源

控制台

  1. 在 Google Cloud 控制台中,打开 Dataplex 页面:

    在 Google Cloud 控制台中打开 Dataplex

  2. 管理页面上,点击要向其添加 Cloud Storage 存储桶或 BigQuery 数据集的数据湖。数据湖页面随即会打开。

    数据湖详情页面
  3. 可用区标签页上,点击您要添加资产的数据区域的名称。系统会打开该数据可用区的“数据可用区”页面。

  4. 素材资源标签页上,点击 + 添加素材资源。系统随即会打开添加资源页面。

  5. 点击 Add an Asset

  6. 类型字段中,选择 BigQuery 数据集Cloud Storage 存储桶

  7. 显示名称字段中,输入新资产的名称。

  8. ID 字段中,输入此资产的唯一 ID。

  9. (可选)输入说明

  10. 数据集存储分区字段(基于您的资源类型)中,点击浏览,以查找并选择您的 Cloud Storage 存储桶或 BigQuery 数据集。

  11. 可选:如果您的资产类型为 Cloud Storage 存储桶,并且您希望 Dataplex 管理该资产,请选中升级到代管式复选框。如果您选择此选项,则无需单独升级该资源。此选项不适用于 BigQuery 数据集。

  12. 点击继续

  13. 选择其余参数值。如需详细了解安全设置,请参阅湖安全

  14. 点击提交,添加素材资源。

  15. 确认您已返回数据可用区页面,并且新资产显示在资产列表中。

REST

使用 API Explorer,按照 API 说明添加存储桶

添加成功后,数据区域会自动进入活跃状态。如果失败,数据区域将回滚到先前的正常运行状态。

升级 Cloud Storage 存储桶资源

添加 Cloud Storage 存储桶类型的资源时,Dataplex 会自动发布该资源中托管的表的 BigQuery 外部表

升级 Cloud Storage 存储桶资产时,Dataplex 会移除附加的外部表并创建 BigLake 表。BigLake 表支持更好的精细安全性,包括行级、列级和动态数据遮盖。

您可以在 Google Cloud 控制台中升级 Cloud Storage 存储桶资源,也可以通过发布 Dataplex API 方法补丁来升级。

控制台

  1. 在 Google Cloud 控制台中,打开 Dataplex 页面:

    进入 Dataplex

  2. 管理页面上,点击数据湖的名称。数据湖页面随即会打开。

  3. 区域标签页上,点击数据区域的名称。数据可用区页面随即会打开。

  4. 资产标签页上,点击要升级的资产的名称。

  5. 点击升级为受管理的

REST

按照 API 说明使用 Cloud Explorer 升级存储桶资源

对 Cloud Storage 存储桶资源进行降级

当您降级 Cloud Storage 存储桶资源时,Dataplex 会移除附加的 BigLake 表并创建外部表。

您可以在 Google Cloud 控制台中降级 Cloud Storage 存储桶资源,也可以通过发出 Dataplex API 方法 Patch 并将 ResourceSpec 中的 readAccessMode 字段设置为 DIRECT

控制台

  1. 在 Google Cloud 控制台中,打开 Dataplex 页面:

    进入 Dataplex

  2. 管理页面上,点击数据湖的名称。数据湖页面随即会打开。

  3. 区域标签页上,点击数据区域的名称。数据可用区页面随即会打开。

  4. 资产标签页上,点击要升级的资产的名称。

  5. 点击从受管理的帐号降级

REST

按照 API 说明使用 Cloud Explorer 降级存储桶资源。请务必将 ResourceSpec 中的 readAccessMode 字段设置为 DIRECT

移除素材资源

您可以在 Google Cloud 控制台中移除 Cloud Storage 存储桶或 BigQuery 数据集资源,也可以通过发出 Dataplex API 方法 lakes.zones.assets.delete 来移除。请先从数据区域或数据湖中移除资源,然后再将其挂接到另一个数据区域或数据湖。

以下说明演示了如何使用 Google Cloud 控制台或 Dataplex API 移除 Dataplex 资源。

控制台

  1. 在 Google Cloud 控制台中,打开 Dataplex 页面:

    在 Google Cloud 控制台中打开 Dataplex

  2. 管理页面上,点击要从中移除 Cloud Storage 存储桶或 BigQuery 数据集的数据湖。系统会打开该数据湖的数据湖页面。

    数据湖详情页面
  3. 区域标签页上,点击要从中移除 Cloud Storage 存储桶或 BigQuery 数据集的数据区域的名称。系统会打开该数据可用区的“数据可用区”页面。

  4. 资产标签页上,通过选中资产名称左侧的复选框来选择资产。

  5. 点击删除资产即可移除资产。

  6. 在对话框中,点击删除以确认分离。

REST

按照 API 说明使用 Cloud Explorer 移除存储桶

后续步骤