本文档介绍了什么是 Dataplex 数据区域,以及如何将其添加到 Dataplex 数据湖。
概览
Dataplex 区域是 Dataplex 数据湖中的命名实体。它们是对非结构化、半结构化和结构化数据的逻辑分组,由多个资产(例如 Cloud Storage 存储分区、BigQuery 数据集和 BigQuery 表)组成。
一个数据湖可以包含一个或多个区域。虽然一个区域只能属于一个数据湖,但它可能包含指向其父级项目之外的项目的资源的资产。
您可以在 Dataplex 中为可用区选择配置。您可以选择两种类型的区域:原始区域和精选区域。
原始区域
原始区用于存储结构化数据、CSV 文件和 JSON 文件等半结构化数据,以及来自外部来源的任何格式的非结构化数据。在执行任何转换之前,原始数据区非常适合用于暂存原始数据。数据可以存储在 Cloud Storage 存储分区或 BigQuery 数据集中。
原始存储分区支持对读取和写入权限进行存储分区级或数据集级粒度控制。系统不限制可在原始可用区中存储的数据类型。
精选区域
精选区域用于存储结构化数据。数据可以存储在 Cloud Storage 存储分区或 BigQuery 数据集中。
Cloud Storage 存储分区支持的格式包括 Parquet、Avro 和 ORC。精选区域对于需要先处理才能用于分析的数据的暂存或已准备好用于分析的数据的提取非常有用。
对于 BigQuery 表,您必须拥有定义良好的架构和 Hive 风格分区。在精选区域中为给定表提供架构时,数据应符合为该表定义的架构,且不会出现架构漂移。这意味着,数据应与为表定义的架构兼容,并且新分区不得采用与表架构冲突的架构。
精选区域支持 Cloud Storage 存储分区级或 BigQuery 数据集级的精细读写权限。
准备工作
您必须先创建数据湖,然后才能向其添加区域。如果您尚未创建数据湖,请先创建一个。
大多数 gcloud lake
命令需要位置信息。您可以通过设置 --location
参数来指定位置。
所需的角色
如需获得添加可用区所需的权限,请让您的管理员为您授予项目的 Dataplex Administrator (roles/dataplex.admin
) IAM 角色。
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
此预定义角色可提供 dataplex.lakes.create
权限,该权限是为添加区域所必需的。
添加区域
您可以向数据湖添加多个可用区。您一次只能添加一个可用区,但在可用区创建期间仍可使用数据湖。
如需向现有湖泊添加区域,请按以下步骤操作:
控制台
在 Google Cloud 控制台中,前往 Dataplex。
前往管理视图。
在管理视图中,点击要为其添加区域的数据湖的名称。
在区域标签页中,点击
添加区域。为您的区域输入显示名称。
点击类型菜单。选择原始区域或精选区域。详细了解支持的可用区类型。
可选:输入说明。
在数据位置下,选择区域级或多区域。 您选择的选项日后无法更改。单区域数据和多区域数据不能混合到同一可用区。
可选:启用元数据发现,以便 Dataplex 自动扫描区域中的数据并从中提取元数据:
点击发现设置。
确保已选择启用元数据发现。
可选:在包含模式下,列出要包含在探索扫描中的文件。
可选:在排除模式下,列出要从探索扫描中排除的文件。如果您同时输入包含模式和排除模式,系统会先应用排除模式。
点击重复菜单,然后选择重复频率。如果您选择自定义,请在时间表字段中输入作业时间表。否则,系统会自动为您填充 Schedule 值。
点击时区菜单,然后选择一个时区。
点击创建。
REST
如需添加区域,请使用 lakes.zones.create 方法。
创建区域可能需要几分钟。
可用区创建成功后,可用区会自动进入活跃状态。如果失败,则数据湖会回滚到之前的状态。
创建区域后,您可以将存储在 Cloud Storage 存储分区和 BigQuery 数据集中的数据映射为区域中的资产。如需了解详情,请参阅添加资产。
后续步骤
- 了解如何管理存储分区。
- 了解如何创建湖泊。
- 详细了解 Cloud Audit Logs。