Dataplex 概览

Dataplex 是一种数据结构脉络,可统一分布式数据并自动执行数据管理和治理。

借助 Dataplex,您可以执行以下操作:

  • 跨存储在多个可用区中的数据构建特定领域的数据网格 而无需移动任何数据。
  • 使用一组权限一致地治理和监控数据。
  • 使用目录功能跨各种孤岛发现和管理元数据。 如需了解详情,请参阅 Dataplex Catalog 概览
  • 使用 BigQuery 和 SparkSQL、Presto 和 HiveQL 等开源工具安全地查询元数据。
  • 运行数据质量和数据生命周期管理任务,包括无服务器 Spark 任务。
  • 已弃用)使用全代管式 使用简单的 笔记本和 SparkSQL 查询的访问权限。

为何使用 Dataplex?

企业的数据分布在数据湖、数据仓库和 数据集。使用 Dataplex,您可以执行以下操作:

  • 发现数据
  • 整理数据
  • 统一数据,无需任何数据移动
  • 根据您的业务需求整理数据
  • 集中管理、监控和治理数据

借助 Dataplex,您可以将元数据标准化和统一 安全政策、治理、分类和数据生命周期管理 处理这些分布的数据。

图片

Dataplex 的工作原理

Dataplex 以无需移动数据的方式管理数据 或副本。在您识别新数据源时,Dataplex 会利用内置数据质量检查功能收集结构化和非结构化数据的元数据,以增强完整性。

Dataplex 会自动将所有元数据注册到统一的集群中, Metastore。您可以使用各种服务和工具访问数据和元数据,包括:

  • Google Cloud 服务,例如 BigQuery、Dataproc Metastore、Data Catalog。
  • 开源工具,例如 Apache Spark 和 Presto。

术语

Dataplex 让我们摆脱了底层数据存储系统, 使用以下结构:

  • 数据湖:表示数据网域或业务部门的逻辑结构。对于 例如,要根据群组使用情况整理数据,你可以为每个群组设置一个数据湖, 部门(例如零售、销售、财务)。

  • 区域:数据湖中的子网域,可用于按以下条件对数据进行分类:

    • 阶段:例如,着陆页、原始数据、管理的数据分析和管理的数据科学。
    • 用法:例如数据协定。
    • 限制:例如安全控制和用户访问权限级别。

    区域分为两种:原始区域和精选区域。

    • 原始区域:包含原始格式的数据,不需要进行严格的类型检查。

    • 精选区域:包含经过清理、格式化并准备好供其使用的数据 分析。数据是列式的,按 Hive 分区,存储在 Parquet 中, Avro、Orc 文件或 BigQuery 表。数据会接受 类型检查 - 例如,禁止使用 CSV 文件,因为 在 SQL 访问中表现不佳

  • 素材资源:映射到存储在 Cloud Storage 或 BigQuery 中的数据。 您可以将存储在单独 Google Cloud 项目中的数据作为资产映射到单个区域。

  • 实体:表示结构化数据、半结构化数据(表)和非结构化数据(文件集)的元数据。

常见使用场景

本部分概述了使用 Dataplex 的常见用例。

以网域为中心的数据网格

通过这种类型的数据网格,数据会整理到一个 例如“销售”“客户”和产品。数据的所有权 可以分散。您可以订阅来自不同网域的数据。对于 例如,数据科学家和数据分析师可以从不同的领域提取数据, 实现机器学习和商业智能等业务目标。

在下图中,网域由 Dataplex 表示 并由不同的数据提供方拥有。数据生产者自己创建 和访问权限控制权限然后,数据使用者可以请求访问数据湖(网域)或区域(子网域),以进行分析。

创建数据网格

在这种情况下,数据管理员需要保留对整个数据环境的整体视图。

此图表包含以下元素:

  • Dataplex:多个数据网域的网格。
  • 网域:销售数据、客户数据和商品数据的湖。
  • 网域中的可用区:适用于单个团队或提供受管理的数据 合同。
  • 资产:存储在 Cloud Storage 存储桶或 BigQuery 数据集,该数据集可以位于单独的 Google Cloud 中 从 Dataplex 网格中导入项目。

您可以将区域内的数据细分为原始图层和经过整理的图层,从而扩展此场景。您可以通过为网域和原始数据或经过整理的数据的每个排列创建可用区来实现此方法:

  • 原始销售
  • 精选促销活动
  • 客户原始数据
  • 精选客户
  • 原始商品
  • 精选商品

根据准备情况进行数据分层

另一个常见用例是只有数据工程师可以访问您的数据, 然后经过优化,提供给数据科学家和分析师使用。在 在本例中,您可以设置一个数据湖,使其包含以下内容:

  • 工程师可以访问的数据的原始区域。
  • 一个精选区域,用于存放提供给数据科学家和人员的 分析人员

湖泊和可用区

后续步骤