添加区域

这一页介绍了区域,并说明了如何将区域添加到 Dataplex 数据湖。

Dataplex 区域概念

数据区域是 Dataplex 数据湖中的已命名实体。它们分别是 非结构化数据、半结构化数据和结构化数据的逻辑分组, 由多种资源构成,例如 Cloud Storage 存储分区、BigQuery 数据集和 BigQuery 表。

一个数据湖可以包含一个或多个区域。一个可用区只能属于某个可用区 它可能包含指向属于项目的资源的资产 位于其父级项目外

您可以在 Dataplex 中为区域选择配置。还有 有两种区域供您选择:原始区域和精选区域。

原始区域

原始区域可存储结构化数据、半结构化数据(如 CSV 文件)和 JSON 文件以及任何格式的非结构化数据 来自外部来源的数据。这对于在执行任何操作之前 转换。数据可以存储在 Cloud Storage 存储分区中,也可以 BigQuery 数据集。

原始区域支持读写存储桶级或数据集级粒度 权限。如需了解详情,请参阅 IAM 和访问权限控制

对可存储在原始区域中的数据的类型无限制。

精选区域

精选区域用于存储结构化数据。数据可以存储在 Cloud Storage 存储分区中 或 BigQuery 数据集。

Cloud Storage 存储分区支持的格式包括 Parquet、Avro 和 ORC。 这对于暂存需要先处理的数据,然后才能用于 或传送可供分析的数据

对于 BigQuery 表,您必须具有明确定义的架构和 Hive 样式的分区。当您在精选的数据表中为给定表提供架构时 则数据应符合为无架构表定义的架构 偏移。

这意味着数据应与架构兼容 并且新分区的架构不应 与表架构冲突。

精选可用区支持 Cloud Storage 存储桶级 BigQuery 数据集级读写粒度 权限。如需了解详情,请参阅使用 IAM 进行访问权限控制

准备工作

您必须先有数据湖,然后才能向数据湖添加区域。如果您还没有 请先创建数据湖

大多数 gcloud lake 命令需要位置信息。您可以通过以下方式指定位置 设置 --location 参数。

访问权限控制

  • 如需添加可用区,您必须获得包含以下内容的 IAM 角色: dataplex.lakes.create IAM 权限。Dataplex 特定角色 roles/dataplex.admin 可用于授予 add 权限。

如需了解详情,请参阅使用 IAM 进行 Dataplex 访问权限控制

添加区域

您可以通过发出 Dataplex API 方法 lakes.zones.create 或在 Google Cloud 控制台中添加一个可用区即可。

您可以向数据湖添加多个区域。您一次只能添加一个可用区 在创建可用区时仍会使用您的数据湖。

控制台

  1. 在 Google Cloud 控制台中,前往 Dataplex:

    进入 Dataplex

  2. 前往管理数据视图。

  3. 管理视图中,点击您要添加的数据湖的名称 可用区

  4. 区域标签页中,点击 添加可用区

  5. 输入您的地区的显示名称

  6. 点击类型下拉菜单。选择 Raw Zone(原始区)或 Curated Zone(策展区)。了解 请参阅支持的地区类型了解详情。

  7. 可选:输入说明。

  8. 数据位置下,选择区域级多区域级。 选择设置后便无法更改。单区域和多区域 不能在同一可用区混用数据。

  9. 可选:启用元数据发现功能,以允许 Dataplex 自动扫描和从您可用区中的数据中提取元数据:

    1. 点击发现设置

    2. 确保已选中启用元数据发现

    3. 可选:在包含格式下,列出要添加到 发现扫描。

    4. 可选:在排除格式下,在 发现扫描。如果您同时输入包含和排除模式,请排除 模式。

    5. 点击重复下拉菜单,然后选择频率。

    6. 点击时区下拉菜单,然后选择一个时区。

    7. 如果您在重复周期下选择了自定义,请在时间安排下输入 作业时间表。 否则,系统会自动为您填入时间安排值。

  10. 点击创建

创建区域可能需要几分钟时间。

REST

按照 API 说明添加区域 使用 APIs Explorer

成功创建区域后,该区域会自动进入活跃状态。如果 数据湖就会回滚到之前的状态

创建区域后,您可以映射存储在 Cloud Storage 存储分区中的数据,并 将 BigQuery 数据集作为资产 可用区。

后续步骤