Dataplex Catalog 概览

本文档介绍了 Dataplex Catalog,它提供了 用于存储、管理和访问您的元数据的平台。

Dataplex Catalog 提供了一个统一的目录, BigQuery 等 Google Cloud 资源, 例如本地资源已收集 Google Cloud 资源的元数据 并将第三方资源的元数据 Dataplex Catalog。

借助 Dataplex Catalog,您可以使用其他业务和技术元数据丰富您的目录,以捕获有关资源的上下文和知识。借助 Dataplex Catalog,您可以搜索和发现组织中的数据,并对数据资产实现数据治理。

使用场景

您可以使用 Dataplex Catalog 执行以下操作:

  • 发现和了解您的数据。Dataplex Catalog 可让您了解整个组织中的数据资源。您可以通过该页面查找与数据使用需求相关的资源。它为数据资源提供了背景信息,有助于您了解数据资源是否适合数据使用方的需求。

  • 启用数据治理和数据管理。Dataplex Catalog 用于提供元数据,以便为数据治理和数据治理提供参考依据 管理功能

  • 为元数据维护一个可扩展且全面的存储库。 Dataplex Catalog 会存储自动从您的 Google Cloud 资源中收集的元数据,并提供对这些元数据的访问权限。您可以集成来自非 Google Cloud 系统的自有元数据。您可以通过额外的业务元数据和技术元数据注解来丰富所有元数据。

Dataplex Catalog 的运作方式

Dataplex Catalog 基于以下概念:

  • 条目:条目表示数据资产。大部分元数据描述 。这类似于 Data Catalog 中的条目。如需了解详情,请参阅条目

  • 切面:切面是条目中的一组相关元数据字段。 您可以将方面视为条目的构成要素,也可以视为条目的附加元数据。这与 Data Catalog 中的标记类似,但方面存储在条目中,而不是作为独立资源。如需了解详情,请参阅方面

  • 切面类型:切面类型是切面的可重复使用模板。每次 切面是切面类型的实例。类似于 Data Catalog 中的标记模板。 如需了解详情,请参阅切面类型

  • 条目组:条目组是条目的容器,可用作这些条目的管理单元。例如,您可以使用条目组为条目组中的条目配置 IAM 访问权限控制、项目归因或位置。这与 Data Catalog 中的条目组类似。如需了解详情,请参阅条目组

  • 条目类型:条目类型是用于创建条目的模板。它会确定基本元数据元素,并将其列为此类条目的必需切面。如需了解详情,请参阅条目类型

    条目和条目组
    图 1:条目和条目组
    切面类型和条目类型
    图 2.切面类型和条目类型

以下是 Dataplex Catalog 的一些使用场景:

  • 作为数据分析师或业务分析师,您可以搜索整个组织中的条目,并浏览与条目关联的元数据。对于 详情请参阅搜索数据资产
  • 作为数据所有者或数据管理员,您可以使用方面为条目添加注解,从而捕获其他技术和业务元数据。如需了解详情,请参阅管理方面和丰富元数据
  • 作为数据所有者或数据管理者,您可以在自己的数据结构中 定义注解标准(使用切面类型)和 自定义条目(使用条目类型)。如需了解详情,请参阅管理方面和丰富元数据
  • 作为数据工程师,您可以为自己的资源、 包括 Google Cloud 资源和来自第三方系统的资源。 Google Cloud 资源会自动通过 例如,Dataplex Catalog 和非 Google Cloud 资源 由你采摘的食物如需了解详情,请参阅 管理条目并注入自定义来源

如果您已经在使用 Data Catalog,请注意以下事项:

  • 您在以下位置创建的自定义条目、概览上下文和条目组 Data Catalog 已在 Dataplex Catalog 中提供。
  • 在 Data Catalog 中创建的标记和标记模板不适用于以下国家/地区: Dataplex Catalog。
  • 在 Dataplex Catalog 中搜索数据资产时,系统会同时包含直接在 Dataplex Catalog 中创建的元数据和从 Data Catalog 导入到 Dataplex Catalog 的元数据。
  • 在 Data Catalog 中搜索数据资产时,系统只会包含在 Data Catalog 中创建的元数据。
  • Data Catalog 中超过 1024 个字符的条目组说明会在 Dataplex Catalog 中截断为 1024 个字符。

Dataplex Catalog 与 Data Catalog

Dataplex Catalog 提供了在 Dataplex 中管理元数据的功能。它附带单独的元数据存储空间,以及一组集成到 Dataplex API 中的新 API 方法。

Dataplex Catalog 的主要功能包括:

  • 更强大的元模型

    • 输入的条目。您可以通过定义 自定义条目所需的元数据内容
    • 可供用户配置的自定义条目元模型,有助于提高自定义提取的稳健性,并改进自定义元数据的一致性和完整性。
    • 支持更广泛且更复杂的元数据,包括支持 嵌套结构,如列表、映射和数组。
  • 可伸缩性更强,包括能够通过单个原子 CRUD 操作与与条目关联的所有元数据进行交互,以及能够提取搜索或列表响应中关联的多个元数据注释。

下表比较了 Dataplex Catalog 和 Data Catalog 的功能:

Dataplex Catalog 与 Data Catalog 的比较
特征 Dataplex Catalog Data Catalog
支持的 Google Cloud 来源 支持的 Google Cloud 来源 部分。 条目和条目组中介绍的所有来源。
提取自定义来源

提取到由条目类型定义的受管结构的自定义条目中。

Data Catalog 自定义条目和条目组会在 Dataplex Catalog 中以 generic 条目类型的形式提供。

提取到通用自定义条目。
元数据丰富 系统使用切面和切面类型捕获条目的元数据上下文。 系统会使用标记和标记模板来捕获条目的元数据上下文。
搜索 搜索会在以下内容中执行:
  • 受支持的 Google Cloud 来源中所述的所有 Google Cloud 来源
  • 在 Dataplex Catalog 中创建的自定义条目
  • 在 Dataplex Catalog 中创建的切面
  • 在 Data Catalog 中创建并 引入 Dataplex Catalog

搜索结果仅包含与执行搜索的项目属于同一 VPC-SC 边界的资源。使用 Google Cloud 控制台时,这是控制台中选择的项目。

请注意,要搜索条目,您至少需要 Dataplex Catalog IAM 角色 用于搜索的项目上。系统会独立于所选项目检查搜索结果的权限。

搜索会在以下内容中执行:
  • 中所述的所有 Google Cloud 来源 条目和条目组
  • 在 Data Catalog 中创建的自定义条目
  • 在 Data Catalog 中创建的标记

下表介绍了 Dataplex Catalog 资源与 Data Catalog 资源之间的对应关系:

Dataplex Catalog 和 Data Catalog 之间的映射 资源
Dataplex Catalog 资源 Data Catalog 资源 说明
切面类型 (global) 公开标记模板 代码模板属于区域级资源。但您可以使用它们来创建 代码。标记模板对应于 global 方面 类型。
可选切面 公开标记 Data Catalog 中的公开标记对应于 Dataplex Catalog 中的可选切面。
条目组 条目组 对于 Google Cloud 来源,系统条目组,例如 @bigquery 在 Dataplex Catalog 中是每个项目建立的。
自定义条目必需的切面 自定义条目

Data Catalog 和 Dataplex Catalog 共享 类似的概念

标准条目属性在 Dataplex Catalog 中被建模为必需的方面。

系统条目必需切面 “系统(Google Cloud)”条目 描述内置实体的元数据,例如 Schema BigQuery 表,是在 系统定义的切面类型。

如需详细了解 而 Dataplex Catalog 不支持 Data Catalog, 请参阅 Dataplex Catalog 不支持的功能 部分。

支持的来源

系统会自动提取以下 Google Cloud 来源的元数据 导入 Dataplex Catalog:

  • Analytics Hub 交换和清单
  • BigQuery 数据集、表、模型、例程、连接和 已关联的数据集
  • Bigtable 实例、集群和表(包括列族详细信息)
  • Cloud SQL 实例、数据库、架构、表、视图 - 请参阅启用 Cloud SQL 集成
  • Dataproc Metastore 服务、数据库和表
  • Pub/Sub 主题
  • Spanner 实例、数据库、表和视图
  • Vertex AI 模型、数据集、特征组、特征视图和在线存储区实例

要将元数据从第三方来源导入至 Dataplex Catalog,您可以使用 代管式连接流水线

项目和位置限制条件

Dataplex Catalog 资源位于各种项目和位置中。存在以下限制:

  • 位置:

    • 条目的位置必须与条目类型的位置匹配,或者条目类型必须为 global
    • 添加到条目的切面必须基于存储的切面类型 位于同一位置,或者切面类型必须为 global
    • 条目类型必须由存储在同一个 作为条目类型。
  • 项目:

    • 如果条目类型引用自定义切面类型,则切面类型必须与条目类型位于同一位置和项目中。

Dataplex Catalog 不支持的功能

Data Catalog 中提供的以下功能 支持:

  • Dataplex Catalog 不支持专用切面和切面类型的概念。对切面的访问权限受 与包含切面的条目相关联的权限。 如需了解详情,请参阅 Dataplex IAM 角色
  • Dataplex Catalog 搜索不支持搜索政策标记;因此,谓词 policytagpolicytagid 在 Dataplex Catalog 搜索中不起作用。
  • 对于导入 Dataplex 目录的 Data Catalog 自定义条目,当前元数据的现有 IAM 权限不会自动传播到复制的元数据。您必须 在使用复制的元数据之前,为其明确配置 IAM 权限。
  • 不支持将敏感数据保护作业结果发送到 Dataplex Catalog。
  • 您无法使用 API 跨项目列出条目类型和切面类型。 您可以将列表请求的范围限定为项目。
  • 您无法附加业务术语表 Dataplex 条目列添加术语。
  • 创建条目类型后,您无法修改该条目类型中的必需切面类型列表。
  • 对于直接在 Dataplex Catalog 中创建的条目, 数据沿袭在 Google Cloud 控制台中显示沿袭事件 但不显示有关来源、目标或进程的详细信息。 此外,数据源流不会在 Google Cloud 控制台中显示任何条目的方面。

价格

Dataplex 使用元数据存储 SKU 来收取元数据存储费用。 如需了解详情,请参阅 Dataplex 价格

以下服务可免费使用:

  • 创建和管理 Dataplex Catalog 资源
  • Dataplex Catalog 的搜索 API 调用
  • 在 Google Cloud 控制台中的 Dataplex 目录页面上执行的搜索查询

后续步骤