Dataplex Catalog 概览

本文档介绍了 Dataplex Catalog,它提供了一个用于存储、管理和访问元数据的平台。

Dataplex 目录提供Google Cloud BigQuery 等资源以及其他资源(例如本地资源)的统一目录。Dataplex Catalog 会自动检索资源的元数据,您可以将第三方资源的元数据导入 Dataplex Catalog。 Google Cloud

借助 Dataplex Catalog,您可以使用其他业务和技术元数据丰富您的目录,以捕获有关资源的上下文和知识。借助 Dataplex Catalog,您可以搜索和发现组织中的数据,并对数据资产实现数据治理。

您可以将默认目录体验设置为 Dataplex Catalog。如果您使用的是 Data Catalog,请将 Data Catalog 内容和使用情况转移到 Dataplex Catalog。如需了解详情,请参阅从 Data Catalog 转换到 Dataplex Catalog

使用场景

您可以使用 Dataplex Catalog 执行以下操作:

  • 发现和了解您的数据。Dataplex Catalog 可让您查看整个组织中的数据资源。您可以通过该页面查找与数据使用需求相关的资源。它为数据资源提供了上下文,有助于您了解数据资源是否适合数据使用方的需求。

  • 启用数据治理和数据管理。Dataplex Catalog 提供元数据,可为您的数据治理和数据管理功能提供信息和支持。

  • 为元数据维护可扩展且全面的代码库。 Dataplex Catalog 会存储自动从您的资源中收集的元数据,并提供对这些元数据的访问权限。 Google Cloud 您可以集成非Google Cloud 系统中的自有元数据。您可以通过额外的业务元数据和技术元数据注解来丰富所有元数据。

Dataplex Catalog 的运作方式

Dataplex Catalog 基于以下概念:

  • 条目:条目表示数据资产。大多数元数据由条目中的方面描述。这类似于 Data Catalog 中的条目。如需了解详情,请参阅条目

  • “切面”:切面是条目中一组相关的元数据字段。您可以将方面视为条目的构成要素,也可以视为条目的附加元数据。这与 Data Catalog 中的标记类似,但方面存储在条目中,而不是作为独立资源。如需了解详情,请参阅方面

  • 切面类型:切面类型是切面的可重复使用模板。每个方面都是某个方面类型的实例。这类似于 Data Catalog 中的标记模板。如需了解详情,请参阅方面类型

  • 条目组:条目组是条目的容器,可用作这些条目的管理单元。例如,您可以使用条目组为条目组中的条目配置 Identity and Access Management 访问权限控制、项目归因或位置信息。这类似于 Data Catalog 中的条目组。如需了解详情,请参阅条目组

  • 条目类型:条目类型是用于创建条目的模板。它会确定基本元数据元素,并将其列为此类条目的必需切面。如需了解详情,请参阅条目类型

    条目和条目组
    图 1:条目和条目组
    切面类型和条目类型
    图 2. 切面类型和条目类型

以下是 Dataplex Catalog 的一些使用场景:

  • 作为数据分析师或业务分析师,您可以搜索整个组织中的条目,并探索与条目关联的元数据。如需了解详情,请参阅搜索数据资产
  • 作为数据所有者或数据管理员,您可以使用方面对条目进行注解,以捕获其他技术和业务元数据。如需了解详情,请参阅管理方面和丰富元数据
  • 作为数据所有者或数据管理员,您可以通过定义注释标准(使用方面类型)和自定义条目(使用条目类型)来确保元数据的一致性。如需了解详情,请参阅管理方面和丰富元数据
  • 作为数据工程师,您可以为资源(包括 Google Cloud 资源和第三方系统中的资源)创建统一的清单。Google Cloud 资源由 Dataplex Catalog 自动收集,非Google Cloud 资源由您收集。如需了解详情,请参阅管理条目和提取自定义来源

对于现有 Data Catalog 用户

如果您已经在使用 Data Catalog,请注意以下事项:

  • 您在 Data Catalog 中创建的自定义条目、概览上下文和条目组会在 Dataplex Catalog 中提供。
  • 作为管理员,您可以选择将 Data Catalog 标记模板和标记的内容同步到 Dataplex Catalog 中。如需了解详情,请参阅从 Data Catalog 转换到 Dataplex Catalog
  • 在 Dataplex Catalog 中搜索数据资产时,系统会同时包含直接在 Dataplex Catalog 中创建的元数据和从 Data Catalog 导入到 Dataplex Catalog 的元数据。
  • 在 Data Catalog 中搜索数据资产时,系统只会包含在 Data Catalog 中创建的元数据。
  • Data Catalog 中超过 1024 个字符的条目组说明会在 Dataplex Catalog 中截断为 1024 个字符。

如需详细了解如何将 Data Catalog 内容和使用情况转移到 Dataplex Catalog,请参阅从 Data Catalog 转换到 Dataplex Catalog

Dataplex Catalog 与 Data Catalog

Dataplex Catalog 提供了在 Dataplex 中管理元数据的功能。它附带单独的元数据存储空间,以及一组集成到 Dataplex API 中的新 API 方法。

Dataplex Catalog 的主要功能包括:

  • 更稳健的元模型

    • 输入的条目。您可以通过为自定义条目定义所需的元数据内容来强制执行最低元数据标准
    • 可供用户配置的自定义条目元模型,有助于提高自定义提取的稳健性,并改进自定义元数据的一致性和全面性。
    • 支持更多种类和更复杂的元数据,包括支持列表、映射和数组等嵌套结构。
  • 可伸缩性更强,包括能够通过单个原子 CRUD 操作与与条目关联的所有元数据进行交互,以及能够提取搜索或列表响应中关联的多个元数据注解。

下表比较了 Dataplex Catalog 和 Data Catalog 的功能:

Dataplex Catalog 与 Data Catalog 的比较
功能 Dataplex Catalog Data Catalog
支持的 Google Cloud 来源 本文档支持的 Google Cloud 来源部分中所述的所有来源。 条目和条目组中介绍的所有来源。
提取自定义来源

提取到由条目类型定义的受管结构的自定义条目中。

Data Catalog 自定义条目和条目组在 Dataplex Catalog 中以 generic 条目类型提供。

提取到通用自定义条目。
元数据丰富化 系统使用切面和切面类型捕获条目的元数据上下文。 系统使用代码和代码模板捕获条目的元数据上下文。
搜索 搜索会在以下内容中执行:
  • 支持的 Google Cloud 来源中介绍的所有 Google Cloud 来源
  • 在 Dataplex Catalog 中创建的自定义条目
  • 在 Dataplex Catalog 中创建的切面
  • 在 Data Catalog 中创建并导入 Dataplex Catalog 的自定义条目

搜索结果仅包含与执行搜索的项目属于同一组织和同一 VPC-SC 边界的资源。使用 Google Cloud 控制台时,这是控制台中选择的项目。

请注意,若要搜索条目,您需要在用于搜索的项目中至少拥有一个 Dataplex Catalog IAM 角色。系统会独立于所选项目检查搜索结果的权限。

搜索会在以下内容中执行:
  • 条目和条目组中介绍的所有 Google Cloud 来源
  • 在 Data Catalog 中创建的自定义条目
  • 在 Data Catalog 中创建的标记
数据沿袭

数据沿袭会使用 Dataplex API 检索资产节点的条目详情。

Google Cloud 控制台会显示关联的方面。

数据传承会使用 Data Catalog API 检索资产节点的条目详情。

Google Cloud 控制台会显示附加的代码和术语表术语。

下表介绍了 Dataplex Catalog 资源与 Data Catalog 资源之间的对应关系:

Dataplex Catalog 和 Data Catalog 资源之间的映射
Dataplex Catalog 资源 Data Catalog 资源 说明
方面类型 (global) 公开标记模板 代码模板属于区域级资源。不过,您可以使用这些代码在不同地区创建代码。标记模板对应于 Dataplex Catalog 中的 global 切面类型。
可选切面 公开标记 Data Catalog 中的公开标记对应于 Dataplex Catalog 中的可选切面。
条目组 条目组 对于 Google Cloud 来源,Dataplex Catalog 中会为每个项目建立系统条目组(例如 @bigquery)。
自定义条目所需的方面 自定义条目

Data Catalog 和 Dataplex Catalog 在自定义条目方面采用了类似的概念。

标准条目属性在 Dataplex Catalog 中被建模为必需的方面。

系统条目必需的方面 系统 (Google Cloud) 条目 系统会在系统定义的方面类型的必需方面中捕获描述内置实体(例如 BigQuery 表的 Schema)的元数据。

如需详细了解 Data Catalog 中提供但 Dataplex Catalog 不支持的功能,请参阅本文档中的Dataplex Catalog 不支持的功能部分。

支持的来源

以下 Google Cloud 来源的元数据会自动提取到 Dataplex Catalog:

  • Analytics Hub 交换和清单
  • BigQuery 数据集、表、模型、日常安排、连接和关联的数据集
  • Bigtable 实例、集群和表(包括列族详细信息)
  • Dataform 代码库和代码资产
  • Cloud SQL 实例、数据库、架构、表、视图 - 请参阅启用 Cloud SQL 集成
  • Dataproc Metastore 服务、数据库和表
  • Pub/Sub 主题
  • Spanner 实例、数据库、表和视图
  • Vertex AI 模型、数据集、特征组、特征视图和在线存储区实例

如需将元数据从第三方来源导入 Dataplex Catalog,您可以使用受管理的连接流水线

项目和位置限制

Dataplex Catalog 资源位于各种项目和位置中。存在以下限制:

  • 位置:

    • 条目的位置必须与条目类型的位置匹配,或者条目类型必须为 global
    • 添加到条目的方面必须基于与条目存储在同一位置的方面类型,或者方面类型必须为 global
    • 条目类型必须由与条目类型存储在同一位置的切面类型组成。
  • 项目:

    • 如果条目类型引用自定义切面类型,则切面类型必须与条目类型位于同一位置和项目中。

Dataplex Catalog 不支持的功能

Dataplex Catalog 不支持 Data Catalog 中提供的以下功能:

  • Dataplex Catalog 中不存在专用切面和专用切面类型(与 Data Catalog 中的专用标记和专用标记模板相对应)的概念。
  • Dataplex Catalog 搜索不支持搜索政策标记;因此,谓词 policytagpolicytagid 在 Dataplex Catalog 搜索中不起作用。
  • 将 Data Catalog 自定义条目组、自定义条目、标记模板和标记导入 Dataplex Catalog 后,其原始权限不会保留。您必须先为复制的元数据明确配置 IAM 权限,然后才能使用它。
  • Terraform 不支持管理方面和自定义条目。不过,您可以使用受管理的连接流水线元数据导入 API 方法,以编程方式大规模管理自定义元数据。(Terraform 支持条目组、条目类型和切面类型;请参阅使用 Terraform 预配 Dataplex 资源。)
  • 不支持将敏感数据保护检查结果直接发送到 Dataplex Catalog。不过,您可以将敏感数据保护检查结果发送到 Data Catalog,然后将结果转移到 Dataplex Catalog
  • 您无法使用此 API 列出各个项目中的条目类型和方面类型。您只能将列表请求的范围限定为一个项目。
  • 您无法将业务术语表(预览版)术语附加到 Dataplex Catalog 条目的列。
  • 不支持将 Dataplex 数据湖、可用区、资产和实体注册为 Dataplex Catalog 中的条目。此外,使用 Dataplex Catalog 搜索功能时不支持按数据湖或区域进行过滤。您可以独立于 Dataplex Catalog 使用数据湖和区域。
  • 不支持管理员搜索功能,该功能可确保完全召回。

如需比较 Dataplex Catalog 和 Data Catalog 支持的功能和资源,请参阅本文档中的 Dataplex Catalog 与 Data Catalog 部分。

价格

Dataplex 使用元数据存储 SKU 来按元数据存储量收费。如需了解详情,请参阅 Dataplex 价格

以下服务可免费使用:

  • 创建和管理 Dataplex Catalog 资源
  • Dataplex Catalog 的搜索 API 调用
  • 在 Google Cloud 控制台中的 Dataplex 目录页面上执行的搜索查询

后续步骤