Dataplex 最佳实践

本文档提供了有关使用 Dataplex 的指南和最佳实践。

为您的湖泊选择项目

选择托管数据湖的项目时,请考虑以下因素:

  • 项目必须属于同一 VPC Service Controls 边界 将数据保存在数据湖中

  • 数据湖服务账号需要以下账号的管理员权限: Cloud Storage 存储分区或 BigQuery 数据集。 Dataplex 会在 BigQuery 中为在 Cloud Storage 中发现的表创建外部表。Dataplex 还会在 Dataproc Metastore 中提供 BigQuery 表元数据以及在 Cloud Storage 存储桶中发现的表。通过 Dataproc Metastore 位于数据湖项目中。

Cloud Storage 设置和限制

  • 区域:Dataplex 支持单区域和 部分 Google Cloud 区域中的多区域存储分区。

  • 存储类别:支持所有存储类别的 Cloud Storage 存储桶(Standard、Nearline、Coldline、Archive)。访问或扫描可能会产生额外的数据检索费用 Nearline、Coldline 或 Archive 数据。

  • 存储分区 ACL:Dataplex 支持具有以下特征的 Cloud Storage 存储分区: 统一访问权限控制。 不支持精细的访问权限控制。

  • 请求者付款:不支持启用了请求者付款功能的 Cloud Storage 存储桶。

安全和权限指南

Dataplex 要求将 Dataplex 服务账号添加为受管理存储桶和数据集的管理服务账号。

借助 Dataplex,分析师能够访问 Cloud Storage 存储分区 和 BigQuery 数据集。如需启用此访问权限,Dataplex 要求您向这些项目添加具有管理控制功能的 Dataplex 服务账号。

对于发现,Dataplex 会将 Dataproc Metastore 服务账号添加到 Cloud Storage 存储桶。如果您有自己的 Dataproc Metastore 集群, 让 Dataplex 数据湖使用 Dataproc Metastore 服务,在创建 自己的数据湖。

如果您选择添加 Cloud Storage 存储桶, 对数据湖的精细访问权限 Dataplex 将提供通过数据湖对该存储桶的完整访问权限 因为 Dataplex 权限会传播到 存储桶。如果您需要精细访问权限,建议您将存储桶中的数据拆分到多个存储桶中。

后续步骤