本文档提供了有关使用 Dataplex 的指南和最佳实践。
为您的湖泊选择项目
选择托管数据湖的项目时,请考虑以下因素:
该项目必须与要存储到数据湖中的数据位于同一 VPC Service Controls 边界内。
数据湖服务账号需要对 Cloud Storage 存储分区或 BigQuery 数据集拥有管理员权限。Dataplex 会在 BigQuery 中为在 Cloud Storage 中发现的表创建外部表。Dataplex 还会在 Dataproc Metastore 服务中提供 BigQuery 表元数据以及在 Cloud Storage 存储分区中发现的表。Dataproc Metastore 位于数据湖项目中。
Cloud Storage 设置和限制
区域:Dataplex 在部分Google Cloud 区域支持单区域存储分区和多区域存储分区。
存储类别:支持所有存储类别的 Cloud Storage 存储分区(Standard、Nearline、Coldline、Archive)。访问或扫描 Nearline、Coldline 或 Archive 数据可能会产生额外的数据检索费用。
存储分区 ACL:Dataplex 仅支持采用统一访问控制的 Cloud Storage 存储分区。不支持精细访问权限控制。
请求者付款:不支持启用了请求者付款功能的 Cloud Storage 存储分区。
安全和权限指南
Dataplex 要求将 Dataplex 服务账号添加为受管理存储分区和数据集的管理服务账号。
借助 Dataplex,分析师可以访问多个项目中的 Cloud Storage 存储分区和 BigQuery 数据集。如需启用此访问权限,Dataplex 要求您向这些项目添加具有管理控制功能的 Dataplex 服务账号。
对于发现,Dataplex 会将 Dataproc Metastore 服务账号添加到 Cloud Storage 存储分区。如果您有自己的 Dataproc Metastore 集群,则可能希望让 Dataplex 数据湖使用您的 Dataproc Metastore 服务,这是您创建数据湖时的一个选项。
如果您选择添加对数据湖具有精细访问权限的 Cloud Storage 存储分区,Dataplex 将通过数据湖提供对该存储分区的完整访问权限,因为 Dataplex 权限会传播到存储分区中的所有对象。如果您需要精细访问权限,建议您将存储分区中的数据拆分到多个存储分区中。