本页介绍了如何在现有 Dataplex 区域中将 Cloud Storage 存储分区和 BigQuery 数据集添加、升级和移除为资产。
概览
资产会映射到存储在 Cloud Storage 或 BigQuery 中的数据。您可以将存储在各个项目中的数据作为资产映射到数据湖中的单个区域。 Google Cloud 您可以附加现有的 Cloud Storage 存储分区或 BigQuery 数据集,以便从数据湖中进行管理。
准备工作
所需的角色
如需移除资源,请向包含
dataplex.lakes.delete
、dataplex.zones.delete
或dataplex.assets.delete
IAM 权限的 IAM 角色授予相应权限。Dataplex 特定的roles/dataplex.admin
和roles/dataplex.editor
角色可用于授予这些权限。如需添加资源,请授予包含
create
-dataplex.lakes.create
、dataplex.zones.create
或dataplex.assets.create
权限的 IAM 角色。roles/dataplex.admin
和roles/dataplex.editor
角色包含这些权限。您也可以使用
roles/owner
和roles/editor
旧版角色向用户或群组授予权限。您必须授权 Dataplex 服务访问要附加到 Dataplex 数据湖的资源。系统会自动隐式授予对创建数据湖所用项目中资源的授权。对于其他项目,请明确授权 Dataplex 服务访问资源。
如需了解详情,请参阅 Dataplex IAM 和访问权限控制。
为 Cloud Storage 存储分区授予角色
如需将其他项目中的 Cloud Storage 存储分区附加到您的数据湖,您必须向包含该存储分区的项目中的 Dataplex 服务账号 (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com
,从控制台中的数据湖详情页面检索) 授予 Dataplex 服务账号角色 (roles/dataplex.serviceAgent
)。此角色可为 Dataplex 服务提供存储分区的必需管理员级角色,以便在存储分区本身上设置权限。
为 BigQuery 数据集授予角色
若要将其他项目中的 BigQuery 数据集附加到您的数据湖,您必须向 Dataplex 服务账号授予数据集的 BigQuery 管理员角色。
VPC Service Controls 注意事项
Dataplex 不会违反 VPC Service Controls 边界。在向数据湖添加资产之前,请确保底层存储分区或数据集与数据湖位于同一 VPC Service Controls 网络中。
如需了解详情,请参阅将 VPC Service Controls 与 Dataplex 搭配使用。
添加资产
如果 Dataplex 数据湖区域与某个 Cloud Storage 存储分区区域不重叠,则您无法将该存储分区添加到数据湖中的某个区域。
如需详细了解 Cloud Storage 资产的区域位置以及 Dataplex 在创建发布数据集时如何处理存储分区的位置,请参阅区域性资源。
如需添加资源,请按以下步骤操作:
控制台
在 Google Cloud 控制台中,前往“Dataplex”页面。
在管理页面上,点击要向其添加 Cloud Storage 存储分区或 BigQuery 数据集的数据湖。系统随即会打开“湖泊”页面。
在区域标签页上,点击要向其添加资产的数据区域的名称。系统会打开相应数据区域的数据区域页面。
在资产标签页上,点击 + 添加资产。系统随即会打开添加素材资源页面。
点击添加资产。
在 Type 字段中,选择 BigQuery 数据集或 Cloud Storage 存储分区。
在显示名称字段中,输入新资产的名称。
在 ID 字段中,输入相应资产的唯一 ID。
(可选)输入说明。
在数据集或存储分区字段(根据资产类型)中,点击浏览,找到并选择您的 Cloud Storage 存储分区或 BigQuery 数据集。
可选:如果您的资产类型为 Cloud Storage 存储分区,并且您希望 Dataplex 管理该资产,请选中升级为受管复选框。如果您选择此选项,则无需单独升级素材资源。此选项不适用于 BigQuery 数据集。
点击继续。
选择其余参数值。如需详细了解安全设置,请参阅数据湖安全。
点击提交。
确认您已返回“数据区域”页面,并且新资产显示在资产列表中。
REST
如需添加资产,请使用 lakes.zones.assets.create 方法。
添加成功后,数据区域会自动进入活跃状态。如果更新失败,则数据区域会回滚到之前的正常状态。
升级 Cloud Storage 存储分区资产
当您添加类型为 Cloud Storage 存储分区的资产时,Dataplex 会自动为资产中托管的表发布 BigQuery 外部表。
当您升级 Cloud Storage 存储分区资产时,Dataplex 会移除关联的外部表并创建 BigLake 表。BigLake 表支持更精细的安全性,包括行级、列级和动态数据遮盖。
如需升级 Cloud Storage 存储分区素材资源,请按以下步骤操作:
控制台
在 Google Cloud 控制台中,前往“Dataplex”页面。
在管理页面上,点击数据湖的名称。系统随即会打开“湖泊”页面。
在区域标签页上,点击数据区域的名称。系统随即会打开“数据区域”页面。
在素材资源标签页中,点击要升级的素材资源的名称。
点击升级为受管理。
REST
如需升级存储分区资产,请使用 lakes.zones.assets.patch 方法。
降级 Cloud Storage 存储分区资产
当您降级 Cloud Storage 存储分区资产时,Dataplex 会移除关联的 BigLake 表并创建外部表。
控制台
在 Google Cloud 控制台中,前往“Dataplex”页面。
在管理页面上,点击数据湖的名称。系统随即会打开“湖泊”页面。
在区域标签页上,点击数据区域的名称。系统随即会打开“数据区域”页面。
在素材资源标签页中,点击要升级的素材资源的名称。
点击从“代管”模式降级。
REST
如需降级存储分区资产,请使用 lakes.zones.assets.patch 方法。确保在 ResourceSpec
中将 readAccessMode
字段设置为 DIRECT
。
移除素材资源
请先从数据区域或数据湖中移除资产,然后再将其附加到其他数据区域或数据湖。
如需移除资源,请按以下步骤操作:
控制台
在 Google Cloud 控制台中,前往“Dataplex”页面。
在管理页面上,点击您要从中移除 Cloud Storage 存储分区或 BigQuery 数据集的数据湖。系统会打开该数据湖的页面。
在区域标签页中,点击您要从中移除 Cloud Storage 存储分区或 BigQuery 数据集的数据区域的名称。系统会打开相应数据区域的“数据区域”页面。
在资产标签页上,选中资产名称左侧的复选框以选择该资产。
点击删除资产。
在确认对话框中点击删除。
REST
如需移除存储分区,请使用 lakes.zones,assets.delete 方法。
后续步骤
- 详细了解如何发现数据。
- 了解如何创建湖泊。
- 详细了解 Cloud Audit Logs。