最佳实践

本文档提供了使用 Dataplex 的指南和最佳实践。

为您的数据湖选择一个项目

选择用于托管数据湖的项目时,请考虑以下因素:

  • 项目必须与要位于数据湖中的数据属于同一 VPC Service Controls 边界

  • 数据湖服务帐号需要 Cloud Storage 存储分区或 BigQuery 数据集的管理员权限。Dataplex 会为在 Cloud Storage 中发现的表在 BigQuery 中创建外部表。Dataplex 还会在 Dataproc Metastore 中提供 BigQuery 表元数据以及在 Cloud Storage 存储桶中发现的表。Dataproc Metastore 位于数据湖项目中。

Cloud Storage 设置和限制

  • 区域:Dataplex 某些 Google Cloud 区域支持单区域和多区域存储分区。

  • 存储类别:支持所有存储类别的 Cloud Storage 存储分区(Standard、Nearline、Coldline、Archive)。访问或扫描 Nearline、Coldline 或 Archive 数据可能会产生额外的数据检索费用。

  • 存储分区 ACL:Dataplex 仅支持具有统一访问权限控制的 Cloud Storage 存储分区。不支持精细的访问权限控制。

  • 请求者付款:不支持启用了请求者付款功能的 Cloud Storage 存储分区。

安全与权限指南

Dataplex 需要将 Dataplex 服务帐号添加为代管式存储分区和数据集的管理服务帐号。

通过 Dataplex,分析师能够跨多个项目访问 Cloud Storage 存储分区和 BigQuery 数据集。如需启用此访问权限,Dataplex 需要向这些项目添加具有管理控制功能的 Dataplex 服务帐号。

对于 Discovery,Dataplex 会将 Dataproc Metastore 服务帐号添加到 Cloud Storage 存储分区中。如果您拥有自己的 Dataproc Metastore 集群,则可能需要让 Dataplex 数据湖使用 Dataproc Metastore 服务(您可以在创建数据湖时选择此选项)。

如果您选择添加对数据湖具有精细访问权限的 Cloud Storage 存储桶,Dataplex 将通过数据湖提供对该存储桶的完整访问权限,因为 Dataplex 权限会传播到该存储桶中的所有对象。如果您需要精细的访问权限,建议您将存储桶中的数据拆分到多个存储桶中。

后续步骤