企业的数据通常分布在数据湖、数据仓库和数据集市中。Dataplex Universal Catalog 是一种数据结构脉络,它通过将逻辑结构应用于不同的数据资产,来统一分布式数据并简化数据治理。
Dataplex Universal Catalog 通过使用以下结构来抽象化底层数据存储系统:数据湖、区域、资产和条目。
湖
数据湖是代表数据域或业务单元的逻辑结构。例如,如果您需要根据群组使用情况整理数据,则可以为每个部门(例如零售、销售、财务)设置一个数据湖。
可用区
区域是数据湖中的子网域,可用于按以下条件对数据进行分类:
- 阶段:例如,着陆、原始、精选数据分析和精选数据科学
- 使用情况:例如,数据合同
- 限制:例如,安全控制措施和用户访问权限级别
区域有两种类型:
原始区域:包含原始格式的数据,这类数据不需要进行严格的类型检查。
精选区域:包含经过清理、格式处理,可直接用于分析的数据。数据采用列式存储,经过 Hive 分区,并存储在 Parquet、Avro、Orc 文件或 BigQuery 表中。数据会接受类型检查,例如,禁止使用 CSV 文件,因为它们在 SQL 访问方面的性能不如其他文件。
资产
资产会映射到存储在 Cloud Storage 或 BigQuery 中的数据。您可以将存储在不同 Google Cloud 项目中的数据作为资产映射到单个区域。
条目数
实体表示结构化数据和半结构化数据(例如,表)以及非结构化数据(例如,文件集)的元数据。
后续步骤
- 将数据整理到各个数据湖和区域。
- 确保数据湖安全无虞。
- 使用 Google Cloud 控制台查看发现的元数据。
- 使用 API 查看发现的元数据。