本文档介绍了 Dataplex Catalog,它提供了 用于存储、管理和访问您的元数据的平台。
Dataplex Catalog 提供了一个统一的目录, BigQuery 等 Google Cloud 资源, 例如本地资源已收集 Google Cloud 资源的元数据 并将第三方资源的元数据 Dataplex Catalog。
借助 Dataplex Catalog,您可以使用其他业务和技术元数据丰富您的目录,以捕获有关资源的上下文和知识。借助 Dataplex Catalog,您可以搜索和发现组织中的数据,并对数据资产实现数据治理。
使用场景
您可以使用 Dataplex Catalog 执行以下操作:
发现和了解您的数据。Dataplex Catalog 可让您了解整个组织中的数据资源。您可以通过该页面查找与数据使用需求相关的资源。它为数据资源提供了背景信息,有助于您了解数据资源是否适合数据使用方的需求。
启用数据治理和数据管理。Dataplex Catalog 用于提供元数据,以便为数据治理和数据治理提供参考依据 管理功能
为元数据维护一个可扩展且全面的存储库。 Dataplex Catalog 会存储自动从您的 Google Cloud 资源中收集的元数据,并提供对这些元数据的访问权限。您可以集成来自非 Google Cloud 系统的自有元数据。您可以通过额外的业务元数据和技术元数据注解来丰富所有元数据。
Dataplex Catalog 的运作方式
Dataplex Catalog 基于以下概念:
条目:条目表示数据资产。大部分元数据描述 。这类似于 Data Catalog 中的条目。如需了解详情,请参阅条目。
切面:切面是条目中的一组相关元数据字段。 您可以将方面视为条目的构成要素,也可以视为条目的附加元数据。这与 Data Catalog 中的标记类似,但方面存储在条目中,而不是作为独立资源。如需了解详情,请参阅方面。
切面类型:切面类型是切面的可重复使用模板。每次 切面是切面类型的实例。类似于 Data Catalog 中的标记模板。 如需了解详情,请参阅切面类型。
条目组:条目组是条目的容器,可用作这些条目的管理单元。例如,您可以使用条目组为条目组中的条目配置 IAM 访问权限控制、项目归因或位置。这与 Data Catalog 中的条目组类似。如需了解详情,请参阅条目组。
条目类型:条目类型是用于创建条目的模板。它会确定基本元数据元素,并将其列为此类条目的必需切面。如需了解详情,请参阅条目类型。
以下是 Dataplex Catalog 的一些使用场景:
- 作为数据分析师或业务分析师,您可以搜索整个组织中的条目,并浏览与条目关联的元数据。对于 详情请参阅搜索数据资产。
- 作为数据所有者或数据管理员,您可以使用方面为条目添加注解,从而捕获其他技术和业务元数据。如需了解详情,请参阅管理方面和丰富元数据。
- 作为数据所有者或数据管理者,您可以在自己的数据结构中 定义注解标准(使用切面类型)和 自定义条目(使用条目类型)。如需了解详情,请参阅管理方面和丰富元数据。
- 作为数据工程师,您可以为自己的资源、 包括 Google Cloud 资源和来自第三方系统的资源。 Google Cloud 资源会自动通过 例如,Dataplex Catalog 和非 Google Cloud 资源 由你采摘的食物如需了解详情,请参阅 管理条目并注入自定义来源。
如果您已经在使用 Data Catalog,请注意以下事项:
- 您在以下位置创建的自定义条目、概览上下文和条目组 Data Catalog 已在 Dataplex Catalog 中提供。
- 在 Data Catalog 中创建的标记和标记模板不适用于以下国家/地区: Dataplex Catalog。
- 在 Dataplex Catalog 中搜索数据资产时,系统会同时包含直接在 Dataplex Catalog 中创建的元数据和从 Data Catalog 导入到 Dataplex Catalog 的元数据。
- 在 Data Catalog 中搜索数据资产时,系统只会包含在 Data Catalog 中创建的元数据。
- Data Catalog 中超过 1024 个字符的条目组说明会在 Dataplex Catalog 中截断为 1024 个字符。
Dataplex Catalog 与 Data Catalog
Dataplex Catalog 提供了在 Dataplex 中管理元数据的功能。它附带单独的元数据存储空间,以及一组集成到 Dataplex API 中的新 API 方法。
Dataplex Catalog 的主要功能包括:
更强大的元模型
- 输入的条目。您可以通过定义 自定义条目所需的元数据内容
- 可供用户配置的自定义条目元模型,有助于提高自定义提取的稳健性,并改进自定义元数据的一致性和完整性。
- 支持更广泛且更复杂的元数据,包括支持 嵌套结构,如列表、映射和数组。
可伸缩性更强,包括能够通过单个原子 CRUD 操作与与条目关联的所有元数据进行交互,以及能够提取搜索或列表响应中关联的多个元数据注释。
下表比较了 Dataplex Catalog 和 Data Catalog 的功能:
特征 | Dataplex Catalog | Data Catalog |
---|---|---|
支持的 Google Cloud 来源 | 支持的 Google Cloud 来源 部分。 | 条目和条目组中介绍的所有来源。 |
提取自定义来源 | 提取到由条目类型定义的受管结构的自定义条目中。 Data Catalog 自定义条目和条目组会在 Dataplex Catalog 中以 | 提取到通用自定义条目。 |
元数据丰富 | 系统使用切面和切面类型捕获条目的元数据上下文。 | 系统会使用标记和标记模板来捕获条目的元数据上下文。 |
搜索 | 搜索会在以下内容中执行:
搜索结果仅包含与执行搜索的项目属于同一 VPC-SC 边界的资源。使用 Google Cloud 控制台时,这是控制台中选择的项目。 请注意,要搜索条目,您至少需要 Dataplex Catalog IAM 角色 用于搜索的项目上。系统会独立于所选项目检查搜索结果的权限。 |
搜索会在以下内容中执行:
|
下表介绍了 Dataplex Catalog 资源与 Data Catalog 资源之间的对应关系:
Dataplex Catalog 资源 | Data Catalog 资源 | 说明 |
---|---|---|
切面类型 (global ) |
公开标记模板 | 代码模板属于区域级资源。但您可以使用它们来创建
代码。标记模板对应于 global 方面
类型。 |
可选切面 | 公开标记 | Data Catalog 中的公开标记对应于 Dataplex Catalog 中的可选切面。 |
条目组 | 条目组 | 对于 Google Cloud 来源,系统条目组,例如 @bigquery
在 Dataplex Catalog 中是每个项目建立的。 |
自定义条目必需的切面 | 自定义条目 | Data Catalog 和 Dataplex Catalog 共享 类似的概念 标准条目属性在 Dataplex Catalog 中被建模为必需的方面。 |
系统条目必需切面 | “系统(Google Cloud)”条目 | 描述内置实体的元数据,例如 Schema
BigQuery 表,是在
系统定义的切面类型。 |
如需详细了解 而 Dataplex Catalog 不支持 Data Catalog, 请参阅 Dataplex Catalog 不支持的功能 部分。
支持的来源
系统会自动提取以下 Google Cloud 来源的元数据 导入 Dataplex Catalog:
- Analytics Hub 交换和清单
- BigQuery 数据集、表、模型、例程、连接和 已关联的数据集
- Bigtable 实例、集群和表(包括列族详细信息)
- Cloud SQL 实例、数据库、架构、表、视图 - 请参阅启用 Cloud SQL 集成
- Dataproc Metastore 服务、数据库和表
- Pub/Sub 主题
- Spanner 实例、数据库、表和视图
- Vertex AI 模型、数据集、特征组、特征视图和在线存储区实例
要将元数据从第三方来源导入至 Dataplex Catalog,您可以使用 代管式连接流水线。
项目和位置限制条件
Dataplex Catalog 资源位于各种项目和位置中。存在以下限制:
位置:
- 条目的位置必须与条目类型的位置匹配,或者条目类型必须为
global
。 - 添加到条目的切面必须基于存储的切面类型
位于同一位置,或者切面类型必须为
global
。 - 条目类型必须由存储在同一个 作为条目类型。
- 条目的位置必须与条目类型的位置匹配,或者条目类型必须为
项目:
- 如果条目类型引用自定义切面类型,则切面类型必须与条目类型位于同一位置和项目中。
Dataplex Catalog 不支持的功能
Data Catalog 中提供的以下功能 支持:
- Dataplex Catalog 不支持专用切面和切面类型的概念。对切面的访问权限受 与包含切面的条目相关联的权限。 如需了解详情,请参阅 Dataplex IAM 角色。
- Dataplex Catalog 搜索不支持搜索政策标记;因此,谓词
policytag
和policytagid
在 Dataplex Catalog 搜索中不起作用。 - 对于导入 Dataplex 目录的 Data Catalog 自定义条目,当前元数据的现有 IAM 权限不会自动传播到复制的元数据。您必须 在使用复制的元数据之前,为其明确配置 IAM 权限。
- 不支持将敏感数据保护作业结果发送到 Dataplex Catalog。
- 您无法使用 API 跨项目列出条目类型和切面类型。 您可以将列表请求的范围限定为项目。
- 您无法附加业务术语表 Dataplex 条目列添加术语。
- 创建条目类型后,您无法修改该条目类型中的必需切面类型列表。
- 对于直接在 Dataplex Catalog 中创建的条目, 数据沿袭在 Google Cloud 控制台中显示沿袭事件 但不显示有关来源、目标或进程的详细信息。 此外,数据源流不会在 Google Cloud 控制台中显示任何条目的方面。
价格
Dataplex 使用元数据存储 SKU 来收取元数据存储费用。 如需了解详情,请参阅 Dataplex 价格。
以下服务可免费使用:
- 创建和管理 Dataplex Catalog 资源
- Dataplex Catalog 的搜索 API 调用
- 在 Google Cloud 控制台中的 Dataplex 目录页面上执行的搜索查询
后续步骤
- 了解如何在 Dataplex Catalog 中搜索数据资产。
- 了解如何管理素材资源和丰富元数据。
- 了解如何管理条目和提取自定义来源。