Dataplex Catalog 概览

本文档介绍了 Dataplex Catalog,它提供了 用于存储、管理和访问您的元数据的平台。

Dataplex Catalog 提供了一个统一的目录, BigQuery 等 Google Cloud 资源, 例如本地资源已收集 Google Cloud 资源的元数据 并将第三方资源的元数据 Dataplex Catalog。

借助 Dataplex Catalog,您可以通过额外的功能 业务和技术元数据,以捕获有关您的业务的背景信息和知识 资源。借助 Dataplex Catalog,您可以搜索和发现 在整个组织范围内管理数据,并实现数据治理 资源。

使用场景

您可以使用 Dataplex Catalog 执行以下操作:

  • 发现和理解您的数据。Dataplex Catalog 让您可以清楚了解整个组织的数据资源。它让 您可以找到能满足数据使用需求的相关资源。它提供了上下文, 有助于您了解数据的适宜性 满足数据使用者需求的资源。

  • 实现数据治理和数据管理。Dataplex Catalog 用于提供元数据,为数据治理和数据治理提供参考依据 管理功能

  • 为元数据维护一个可扩展且全面的存储库。 Dataplex Catalog 会存储并提供对 会自动从您的 Google Cloud 资源中获取。您可以 集成来自非 Google Cloud 系统的元数据。您可以丰富所有 带有额外的业务和技术元数据注释。

Dataplex Catalog 的工作原理

Dataplex Catalog 基于以下概念:

  • 条目:条目表示数据资产。大部分元数据描述 。类似于 Data Catalog 中的条目。 如需了解详情,请参阅条目

  • 切面:切面是条目中的一组相关元数据字段。 切面可以解读为条目的构建块或 添加额外的元数据类似于 Data Catalog 中的标记, 但是,切面会存储在条目中,而不是作为独立资源。 如需了解详情,请参阅切面

  • 切面类型:切面类型是切面的可重复使用模板。每个 切面是切面类型的实例。类似于 Data Catalog 中的标记模板。 如需了解详情,请参阅切面类型

  • 条目组:条目组是条目的容器,条目组用作 是这些条目的管理单元例如,使用条目组 为 Cloud Logging 配置 IAM 访问权限控制、项目归因或位置, 条目组中的条目。类似于 Data Catalog 中的条目组。 如需了解详情,请参阅条目组

  • 条目类型:条目类型是用于创建条目的模板。它 规定了基本的元数据元素,这些元素以列表的形式列出, 必需切面。如需了解详情,请参阅 条目类型

    条目和条目组
    图 1:条目和条目组
    <ph type="x-smartling-placeholder">
    </ph> 切面类型和条目类型
    图 2.切面类型和条目类型

以下是 Dataplex Catalog 的一些使用场景:

  • 作为数据分析师或业务分析师,您可以在 并探索与这些条目关联的元数据。对于 详情请参阅搜索数据资产
  • 作为数据所有者或数据监管者,您可以捕获更多 为您的条目添加切面注解,从而创建业务元数据。如需更多信息 请参阅管理切面和丰富元数据
  • 作为数据所有者或数据管理者,您可以在自己的数据结构中 定义注解标准(使用切面类型)和 自定义条目(使用条目类型)。如需了解详情,请参阅 管理切面并丰富元数据
  • 作为数据工程师,您可以为自己的资源、 包括 Google Cloud 资源和来自第三方系统的资源。 Google Cloud 资源会自动通过 例如,Dataplex Catalog 和非 Google Cloud 资源 由你采摘的食物如需了解详情,请参阅 管理条目并注入自定义来源

如果您已经在使用 Data Catalog,请注意以下事项:

  • 您在以下位置创建的自定义条目、概览上下文和条目组 Data Catalog 已在 Dataplex Catalog 中提供。
  • 在 Data Catalog 中创建的代码和标记模板不适用于 Dataplex Catalog。
  • 在 Dataplex Catalog 中搜索数据资产时, 您在 Dataplex Catalog 中创建的元数据,以及 从 Data Catalog 导入 包含 Dataplex Catalog。
  • 在 Data Catalog 中搜索数据资产时,只有 包括在 Data Catalog 中创建的元数据。
  • Data Catalog 中的条目组说明数超过 1024 个字符在 Dataplex Catalog。

Dataplex Catalog 与 Data Catalog

Dataplex Catalog 提供了一种功能,可让您 Dataplex 中的元数据。它随附一个单独的元数据存储空间和一个 一组新的 API 方法,这些方法已集成到 Dataplex API 中。

Dataplex Catalog 的主要功能包括:

  • 更强大的元模型

    • 输入的条目。您可以通过定义 自定义条目所需的元数据内容
    • 用户可配置的元模型,用于自定义条目,有助于自定义 提升数据注入的稳健性,并改进自定义元数据的一致性和 全面性。
    • 支持更广泛且更复杂的元数据,包括支持 嵌套结构,如列表、映射和数组。
  • 提高了可伸缩性,包括能够与所有元数据进行交互 通过单个原子 CRUD 操作与条目相关联,并且 获取搜索或列表中关联的多个元数据注释的功能 响应。

下表比较了 Dataplex Catalog 的功能 和 Data Catalog:

Dataplex Catalog 和 Data Catalog 之间的比较
特征 Dataplex Catalog Data Catalog
支持的 Google Cloud 来源 支持的 Google Cloud 来源 部分。 条目和条目组中所述的所有来源。
自定义来源注入

注入到具有受管结构的自定义条目,定义如下: 条目类型。

Data Catalog 自定义条目和条目组提供 generic 条目类型下的 Dataplex Catalog。

注入通用自定义条目。
元数据扩充 使用切面和切面类型捕获条目的元数据上下文。 系统会使用标记和标记模板来捕获条目的元数据上下文。
搜索 对以下内容执行搜索: <ph type="x-smartling-placeholder">
    </ph>
  • 中所述的所有 Google Cloud 来源 支持的 Google Cloud 来源
  • 在 Dataplex Catalog 中创建的自定义条目
  • 在 Dataplex Catalog 中创建的切面
  • 在 Data Catalog 中创建并 引入 Dataplex Catalog

搜索结果仅包含属于同一 VPC-SC 边界,作为在其中执行搜索的项目。使用 Google Cloud 控制台中,这是在 控制台。

对以下内容执行搜索: <ph type="x-smartling-placeholder">
    </ph>
  • 中所述的所有 Google Cloud 来源 条目和条目组
  • 在 Data Catalog 中创建的自定义条目
  • 在 Data Catalog 中创建的标记

下表介绍了 Dataplex Catalog 资源的方式 与 Data Catalog 资源相对应:

Dataplex Catalog 和 Data Catalog 之间的映射 资源
Dataplex Catalog 资源 Data Catalog 资源 说明
切面类型 (global) 公开标记模板 标记模板属于区域级资源。但您可以使用它们来创建 代码。标记模板对应于 global 方面 类型。
可选切面 公开标记 Data Catalog 中的公共标记对应于 Dataplex Catalog。
条目组 条目组 对于 Google Cloud 来源,系统条目组(例如 @bigquery) 在 Dataplex Catalog 中是每个项目建立的。
自定义条目必需的切面 自定义条目

Data Catalog 和 Dataplex Catalog 共享 类似的概念

标准条目属性在 Dataplex Catalog。

系统条目必需切面 系统 (Google Cloud) 条目 描述内置实体的元数据,例如 Schema BigQuery 表,是在 系统定义的切面类型。

如需详细了解 而 Dataplex Catalog 不支持 Data Catalog, 请参阅 Dataplex Catalog 不支持的功能 部分。

支持的 Google Cloud 来源

系统会自动提取以下 Google Cloud 来源的元数据 导入 Dataplex Catalog:

  • Analytics Hub 广告交易平台和商品详情
  • BigQuery 数据集、表、模型、例程、连接和 已关联的数据集
  • Bigtable 实例、集群和表(包括列 家人群组详情)
  • Cloud SQL 实例、数据库、架构、表、视图
  • Dataproc Metastore 服务、数据库和表
  • Pub/Sub 主题
  • Spanner 实例、数据库、表和视图
  • Vertex AI 模型、数据集

项目和位置限制条件

Dataplex Catalog 资源位于各种项目中 和地理位置。存在以下限制:

  • 位置:

    • 条目的位置必须与条目类型的位置一致, 或者条目类型必须为 global
    • 添加到条目的切面必须基于存储的切面类型 位于同一位置,或者切面类型必须为 global
    • 条目类型必须由存储在同一个 作为条目类型。
  • 项目:

    • 如果某个条目类型引用自定义切面类型,则切面类型必须为 位于与条目类型相同的位置和项目中。

Dataplex Catalog 不支持的功能

Data Catalog 中提供的以下功能 支持:

  • 以下版本不支持私有切面和切面类型的概念: Dataplex Catalog。对切面的访问权限受 与包含切面的条目相关联的权限。 如需了解详情,请参阅 Dataplex IAM 角色
  • Dataplex Catalog 不支持搜索政策标记 搜索;因此,谓词 policytagpolicytagid 都不起作用 。
  • 对于引入到 Dataplex Catalog,您的 当前元数据不会自动传播到复制的元数据。您必须 在使用复制的元数据之前,为其明确配置 IAM 权限。
  • 正在将 Sensitive Data Protection 作业结果发送到 不支持 Dataplex Catalog。
  • 您无法使用 API 跨项目列出条目类型和切面类型。 您可以将列表请求的范围限定为项目。
  • 您无法附加业务术语表 Dataplex 条目列添加术语。
  • 经过以下操作后,您将无法修改条目类型中所需切面类型的列表: 您需要创建条目类型。

价格

Dataplex 使用元数据存储 SKU 来收取元数据存储费用。 如需了解详情,请参阅 Dataplex 价格

使用以下各项无需付费:

  • 创建和管理 Dataplex Catalog 资源
  • 针对 Dataplex Catalog 的搜索 API 调用
  • 过去 30 天内在 Dataplex Catalog 页面上执行的搜索查询 Google Cloud 控制台

后续步骤