Dataplex 是一个数据结构脉络,可统一分布式数据并自动对该数据进行数据管理和治理。
借助 Dataplex,您可以执行以下操作:
- 跨存储在多个 Google Cloud 项目中的数据构建特定于网域的数据网格,而无需移动任何数据。
- 使用一组权限来一致地治理和监控数据。
- 使用目录功能,跨越不同孤岛发现和管理元数据。如需了解详情,请参阅 Data Catalog 概览。
- 使用 BigQuery 和开源工具(如 SparkSQL、Presto 和 HiveQL)安全地查询元数据。
- 运行数据质量和数据生命周期管理任务,包括无服务器 Spark 任务。
- 使用全代管式无服务器 Spark 环境探索数据,轻松访问笔记本和 SparkSQL 查询。
为何使用 Dataplex?
企业的数据分布在数据湖、数据仓库和数据集市中。使用 Dataplex,您可以执行以下操作:
- 发现数据
- 挑选数据
- 统一数据,无需移动数据
- 根据业务需求整理数据
- 集中管理、监控和治理数据
借助 Dataplex,您可以跨这些分布式数据标准化和统一元数据、安全政策、治理、分类和数据生命周期管理。
Dataplex 的工作原理
Dataplex 以不需要移动或复制数据的方式管理数据。在您发现新的数据源时,Dataplex 会收集结构化和非结构化数据的元数据,并使用内置数据质量检查来增强完整性。
Dataplex 会自动在统一的 Metastore 中注册所有元数据。您可以使用各种服务和工具访问数据和元数据,包括:
- Google Cloud 服务,例如 BigQuery、Dataproc Metastore、Data Catalog。
- 开源工具,例如 Apache Spark 和 Presto。
术语
Dataplex 使用以下结构来抽象化底层数据存储系统:
数据湖:表示数据域或业务部门的逻辑结构。例如,如需根据群组使用情况整理数据,您可以为每个部门(如零售、销售、财务)设置一个数据湖。
区域:数据湖中的子网域,有助于按照以下指标对数据进行分类:
- 阶段:例如,着陆、原始、精选数据分析和精选数据科学。
- 用法:例如数据合约。
- 限制:例如安全控制和用户访问权限级别。
可用区分为两种类型:原始可用区和精选可用区。
原始区域:包含采用原始格式且不受严格类型检查限制的数据。
精选区域:包含已清理、格式化并准备好用于分析的数据。数据采用列式 Hive 分区,存储在 Parquet、Avro、Orc 文件或 BigQuery 表中。数据会接受类型检查,例如,为了禁止使用 CSV 文件,因为它们在 SQL 访问方面的性能表现不佳。
资产:映射到存储在 Cloud Storage 或 BigQuery 中的数据。您可以将存储在不同 Google Cloud 项目中的数据作为资产映射到单个可用区。
实体:表示结构化和半结构化数据(表)和非结构化数据(文件集)的元数据。
常见使用场景
本部分概述了 Dataplex 的常见使用场景。
以网域为中心的数据网格
通过这种类型的数据网格,数据会被整理到企业内的多个网域中,例如“销售”“客户”和“产品”。数据的所有权可以分散。您可以订阅来自不同网域的数据。例如,数据科学家和数据分析师可以从不同的领域提取数据,以实现机器学习和商业智能等业务目标。
在下图中,网域由 Dataplex 湖表示,并归单独的数据提供方所有。数据提供方在其网域中负责创建、挑选和访问权限控制。然后,数据使用者可以请求访问数据湖(网域)或可用区(子网域)以进行分析。
在这种情况下,数据管理员需要全面了解整个数据环境。
此图包含以下元素:
- Dataplex:多个数据网域的网格。
- 网域:销售、客户和产品数据湖。
- 网域内的可用区:适用于单个团队或提供代管式数据合同。
- 资源:存储在 Cloud Storage 存储桶或 BigQuery 数据集中的数据,可以存在于与 Dataplex 网格不同的 Google Cloud 项目中。
您可以将可用区内的数据拆分为原始层和精选层,从而扩展此场景。您可以通过为网域的每个组合以及原始或精选数据创建区域来实现此方法:
- 原始销售
- 精选促销
- 客户原始
- 精选客户
- 产品:原始
- 精选商品
基于就绪情况的数据分层
另一种常见使用场景是,您的数据只能供数据工程师访问,之后经过优化后可供数据科学家和分析师使用。在这种情况下,您可以设置数据湖以执行以下操作:
- 工程师可以访问的数据的原始可用区。
- 供数据科学家和分析师使用的精选数据区域。
后续步骤
- 开始使用 Dataplex
- 构建数据网格
- 创建数据湖
- 探索 Dataplex 中的目录功能