管理数据湖中的数据资产

本页介绍了如何在现有 Dataplex 区域中将 Cloud Storage 存储桶和 BigQuery 数据集添加、升级和移除为资产。

概览

资产映射到存储在 Cloud Storage 或 BigQuery 中的数据。您 可以将存储在不同 Google Cloud 项目中的数据作为资产映射到单个 单个可用区内你可以挂接现有的 Cloud Storage 存储分区或 要从数据湖内部管理的 BigQuery 数据集。

准备工作

  • 如果您尚未创建数据湖,请先创建一个数据湖,然后在该数据湖中创建一个区域

  • 大多数 gcloud lakes 命令需要位置信息。您可以使用 --location 标志指定位置。

访问权限控制

  • 如需移除资产,请授予包含相应权限的 IAM 角色 dataplex.lakes.deletedataplex.zones.deletedataplex.assets.delete IAM 权限。Dataplex 专用 roles/dataplex.adminroles/dataplex.editor 角色可用于授予这些权限。

  • 如需添加资产,请授予包含 create 权限的 IAM 角色: dataplex.lakes.createdataplex.zones.createdataplex.assets.createroles/dataplex.adminroles/dataplex.editor 角色包含 权限。

  • 您还可以使用 roles/owner 向用户或群组授予权限 和 roles/editor 个旧版角色。

  • 您必须为正在访问的资源 连接到 Dataplex 数据湖。授权是自动进行的 为创建数据湖的项目中的资源隐式授予了权限。 对于其他项目,请为 Dataplex 服务授权 资源。

如需了解详情,请参阅 Dataplex IAM 和访问权限控制

为 Cloud Storage 存储桶授予角色

如需将其他项目中的 Cloud Storage 存储桶挂接到数据湖,您需要 必须向 Dataplex 服务账号授予 (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com, 从控制台的“数据湖详情”页面检索到的数据) 服务账号角色 (roles/dataplex.serviceAgent) 包含该存储桶。此角色可为 Dataplex 服务提供存储桶的必需管理员级角色,以便在存储桶本身上设置权限。

为 BigQuery 数据集授予角色

若要将其他项目中的 BigQuery 数据集附加到您的数据湖,您必须向 Dataplex 服务账号授予数据集的 BigQuery 管理员角色。

VPC Service Controls 注意事项

Dataplex 不违反 VPC Service Controls 边界。在向数据湖添加资产之前,请确保底层存储桶或数据集与数据湖位于同一 VPC Service Controls 网络中。

如需了解详情,请参阅使用 VPC Service Controls Dataplex

添加资产

您可以通过发出 Dataplex API 方法 lakes.zones.assets.create 或在本地浏览器中打开的数据区域页面上添加存储桶或数据集,来添加 Cloud Storage 存储桶或 BigQuery 数据集资产。

如果 Dataplex 数据湖区域与某个 Cloud Storage 存储桶区域没有重叠,则您无法将该存储桶添加到数据湖中的某个区域。

要详细了解 Cloud Storage 资产以及 Dataplex 如何处理 存储桶的位置,请参阅 区域资源

控制台

  1. 在 Google Cloud 控制台中,打开 Dataplex 页面:

    在 Google Cloud 控制台中打开 Dataplex

  2. 管理页面上,点击要迁移到的数据湖 您想要将 Cloud Storage 存储桶或 BigQuery 数据集。数据湖页面随即会打开。

    数据湖详情页面
  3. 区域标签页上,点击要为其添加资产的数据区域的名称。系统会打开相应数据区域的数据区域页面。

  4. 资产标签页上,点击 + 添加资产。系统随即会打开添加素材资源页面。

  5. 点击 Add an Asset(添加资产)。

  6. Type(类型)字段中,选择 BigQuery 数据集Cloud Storage 存储桶

  7. 显示名称字段中,输入新资产的名称。

  8. ID 字段中,为资产输入一个唯一 ID。

  9. (可选)输入说明

  10. 数据集存储桶字段(根据资产类型)中,点击浏览,找到并选择您的 Cloud Storage 存储桶或 BigQuery 数据集。

  11. 可选:如果您的资产类型为 Cloud Storage 存储桶,并且您希望 Dataplex 管理该资产,请选中升级为受管复选框。如果您选择此选项,则无需单独升级素材资源。此选项不适用于 BigQuery 数据集。

  12. 点击继续

  13. 选择其余参数值。如需详细了解安全设置,请参阅数据湖安全

  14. 点击提交以添加作品。

  15. 确认您已返回数据区域页面,您的新 该资源会显示在资源列表中。

REST

按照 API 说明使用 API Explorer 添加存储桶

添加成功后,数据可用区会自动进入活跃状态 状态。如果更新失败,则数据区域会回滚到之前的正常状态。

升级 Cloud Storage 存储桶资产

当您添加类型为 Cloud Storage 存储桶的资产时,Dataplex 会自动为资产中托管的表发布 BigQuery 外部表

当您升级 Cloud Storage 存储桶资产时,Dataplex 会移除关联的外部表并创建 BigLake 表。BigLake 表支持更精细的安全性, 包括行级、列级和动态数据遮盖。

您可以在 Google Cloud 控制台中升级 Cloud Storage 存储桶资产 或者发出 Dataplex API 方法, 修补

控制台

  1. 在 Google Cloud 控制台中,打开 Dataplex 页面:

    进入 Dataplex

  2. 管理页面上,点击数据湖的名称。数据湖页面随即会打开。

  3. 区域标签页上,点击数据区域的名称。通过 数据可用区页面。

  4. 资产标签页上,点击要 升级。

  5. 点击升级为受管理的账号

REST

按照 API 说明使用 Cloud Explorer 升级存储桶资产

降级 Cloud Storage 存储桶资产

当您降级 Cloud Storage 存储桶资产时,Dataplex 会移除关联的 BigLake 表并创建外部表。

您可以在 Google Cloud 控制台中将 Cloud Storage 存储桶资产降级 或者发出 Dataplex API 方法, Patch, 并将 readAccessMode 字段设置为 DIRECTResourceSpec

控制台

  1. 在 Google Cloud 控制台中,打开 Dataplex 页面:

    进入 Dataplex

  2. 管理页面上,点击数据湖的名称。系统随即会打开“湖泊”页面。

  3. 区域标签页上,点击数据区域的名称。通过 数据可用区页面。

  4. 素材资源标签页中,点击要升级的素材资源的名称。

  5. 点击从代管式降级

REST

按照 API 说明降级存储桶资产 使用 Cloud Explorer请务必在 ResourceSpec 中将 readAccessMode 字段设置为 DIRECT

移除素材资源

您可以在 Google Cloud 控制台中移除 Cloud Storage 存储桶或 BigQuery 数据集资产,也可以通过发出 Dataplex API 方法 lakes.zones.assets.delete 来移除。请先从数据区域或数据湖中移除资产,然后再将其附加到 别的。

以下说明介绍了如何使用 Google Cloud 控制台或 Dataplex API 移除 Dataplex 资产。

控制台

  1. 在 Google Cloud 控制台中,打开 Dataplex 页面:

    在 Google Cloud 控制台中 Google Cloud 控制台

  2. 管理页面上,点击您要从中移除 Cloud Storage 存储桶或 BigQuery 数据集的数据湖。系统会打开该数据湖的数据湖页面。

    数据湖详情页面
  3. 区域标签页中,点击您要从中移除 Cloud Storage 存储桶或 BigQuery 数据集的数据区域的名称。系统会打开该数据区域的“数据区域”页面。

  4. 资产标签页上,选中资产名称左侧的复选框以选择该资产。

  5. 点击删除资产即可移除该资产。

  6. 在对话框中,点击删除以确认分离。

REST

按照 API 说明使用 Cloud Explorer 移除存储桶

后续步骤