Dataplex 最佳实践

本文档提供了使用 Dataplex。

为您的数据湖选择一个项目

选择用于托管数据湖的项目时,请考虑以下事项 因素:

  • 该项目必须属于同一 VPC Service Controls 边界 将数据保存在数据湖中

  • 数据湖服务账号需要以下账号的管理员权限: Cloud Storage 存储分区或 BigQuery 数据集。 Dataplex 在 BigQuery 中创建外部表 在 Cloud Storage 中发现的表。Dataplex 还让 可用的 BigQuery 表元数据,以及在 Cloud Storage 存储桶(位于 Dataproc Metastore 中)。通过 Dataproc Metastore 位于数据湖项目中。

Cloud Storage 设置和限制

  • 区域:Dataplex 支持单区域和 部分 Google Cloud 区域中的多区域存储分区。

  • 存储类别:全部的 Cloud Storage 存储分区 存储类别受支持 (Standard、Nearline、Coldline、Archive)。 访问或扫描可能会产生额外的数据检索费用 Nearline、Coldline 或 Archive 数据。

  • 存储分区 ACL:Dataplex 支持具有以下特征的 Cloud Storage 存储分区: 统一访问权限控制。 不支持精细的访问权限控制。

  • 请求者付款:具有 请求者付款功能已启用 不受支持。

安全和权限指南

Dataplex 需要添加 Dataplex 服务账号 作为代管式存储分区和数据集的管理服务账号。

借助 Dataplex,分析师能够访问 Cloud Storage 存储分区 和 BigQuery 数据集。如需启用此访问权限,请执行以下操作: Dataplex 需要添加 Dataplex 服务 拥有管理控制权的账号。

对于发现广告系列,Dataplex 添加了 将 Dataproc Metastore 服务账号迁移到 Cloud Storage 存储分区。如果您有自己的 Dataproc Metastore 集群, 让 Dataplex 数据湖使用 Dataproc Metastore 服务,在创建 自己的数据湖。

如果您选择添加 Cloud Storage 存储桶, 对数据湖的精细访问权限 Dataplex 将提供通过数据湖对该存储桶的完整访问权限 因为 Dataplex 权限会传播到 存储桶。如果您需要精细的访问权限,建议您将 将存储桶中的数据存放到多个存储桶中

后续步骤