数据湖和可用区简介

企业的数据通常分布在数据湖、数据仓库和数据集市中。Dataplex Universal Catalog 是一种数据结构脉络,它通过将逻辑结构应用于不同的数据资产,来统一分布式数据并简化数据治理。

Dataplex Universal Catalog 通过使用以下结构来抽象化底层数据存储系统:数据湖、区域、资产和条目。

数据湖是代表数据域或业务单元的逻辑结构。例如,如果您需要根据群组使用情况整理数据,则可以为每个部门(例如零售、销售、财务)设置一个数据湖。

可用区

区域是数据湖中的子网域,可用于按以下条件对数据进行分类:

  • 阶段:例如,着陆、原始、精选数据分析和精选数据科学
  • 使用情况:例如,数据合同
  • 限制:例如,安全控制措施和用户访问权限级别

区域有两种类型:

  • 原始区域:包含原始格式的数据,这类数据不需要进行严格的类型检查。

  • 精选区域:包含经过清理、格式处理,可直接用于分析的数据。数据采用列式存储,经过 Hive 分区,并存储在 Parquet、Avro、Orc 文件或 BigQuery 表中。数据会接受类型检查,例如,禁止使用 CSV 文件,因为它们在 SQL 访问方面的性能不如其他文件。

资产

资产会映射到存储在 Cloud Storage 或 BigQuery 中的数据。您可以将存储在不同 Google Cloud 项目中的数据作为资产映射到单个区域。

条目数

实体表示结构化数据和半结构化数据(例如,表)以及非结构化数据(例如,文件集)的元数据。

后续步骤