本页面介绍了区域,并说明了如何向 Dataplex 数据湖添加区域。
Dataplex 区域概念
数据区域是 Dataplex 数据湖中的已命名实体。它们是非结构化、半结构化和结构化数据的逻辑分组,由多个资源(例如 Cloud Storage 存储分区、BigQuery 数据集和 BigQuery 表)组成。
一个数据湖可以包含一个或多个区域。虽然一个区域只能属于一个湖,但它可能包含指向属于其父项目以外的项目的资源的资源。
您可以在 Dataplex 中为区域选择配置。有两种类型的区域可供选择:原始区域和精选区域。
原始区域
原始区域可存储结构化数据、半结构化数据(如 CSV 文件和 JSON 文件)以及来自外部来源的任何格式的非结构化数据。这对于在执行任何转换之前暂存原始数据非常有用。数据可以存储在 Cloud Storage 存储分区或 BigQuery 数据集中。
原始区域支持读写权限的存储桶级或数据集级粒度。如需了解详情,请参阅 IAM 和访问权限控制。
对可存储在原始区域中的数据的类型无限制。
精选区域
精选区域用于存储结构化数据。数据可以存储在 Cloud Storage 存储分区或 BigQuery 数据集中。
Cloud Storage 存储分区支持的格式包括 Parquet、Avro 和 ORC。 这对于暂存在用于分析之前需要处理的数据或传送可供分析的数据非常有用。
对于 BigQuery 表,您必须具有明确定义的架构和 Hive 样式的分区。在精选可用区中为给定表提供架构时,数据应与为表定义的架构一致,且不会发生架构偏移。
这意味着数据应与为表定义的架构兼容,并且新分区的架构不应与表架构冲突。
精选区域支持 Cloud Storage 存储桶级或 BigQuery 数据集级的读写权限粒度。如需了解详情,请参阅使用 IAM 进行访问权限控制。
准备工作
您必须先有数据湖,然后才能向数据湖添加区域。创建数据湖(如果尚未创建)。
大多数 gcloud lake
命令需要位置信息。您可以通过设置 --location
参数来指定位置。
访问权限控制
- 如需添加区域,您必须获得包含
dataplex.lakes.create
IAM 权限的 IAM 角色。Dataplex 专用角色roles/dataplex.admin
可用于授予 add 权限。
如需了解详情,请参阅使用 IAM 进行 Dataplex 访问权限控制。
添加区域
您可以通过发出 Dataplex API 方法 lakes.zones.create
或在 Google Cloud 控制台中添加区域,来创建数据湖并向现有数据湖添加新区域。
您可以向数据湖添加多个区域。您一次可以添加一个区域,但在创建区域时仍会使用数据湖。
控制台
在 Google Cloud 控制台中,前往 Dataplex:
前往管理数据视图。
在管理视图中,点击要为其添加地区的数据湖的名称。
在区域标签页中,点击
添加区域。输入您的地区的显示名称。
点击类型下拉菜单。选择 Raw Zone(原始区)或 Curated Zone(策展区)。详细了解支持的区域类型。
可选:输入说明。
在数据位置下,选择区域级或多区域级。 选择设置后便无法更改。单区域数据和多区域数据不能混合到同一可用区。
可选:启用元数据发现,以允许 Dataplex 自动扫描您的区域中的数据并从中提取元数据:
点击发现设置。
确保已选中启用元数据发现。
可选:在包含模式下,列出要包含在发现扫描中的文件。
可选:在排除模式下,列出要在发现扫描中排除的文件。如果您同时输入包含模式和排除模式,系统会首先应用排除模式。
点击重复下拉菜单,然后选择频率。
点击时区下拉菜单,然后选择一个时区。
如果在重复下选择了自定义,请在时间安排下输入作业时间表。否则,系统会自动为您填入时间安排值。
点击创建。
创建区域可能需要几分钟时间。
REST
按照 API 说明使用 API Explorer 添加区域。
成功创建区域后,该区域会自动进入活跃状态。如果失败,数据湖将回滚到之前的状态。
创建区域后,您可以将 Cloud Storage 存储分区和 BigQuery 数据集中存储的数据映射为区域中的资产。
后续步骤
- 详细了解如何管理存储分区。
- 详细了解如何创建数据湖。
- 详细了解 Cloud Audit Logs。