本文档介绍了 Dataplex Catalog,它提供了 用于存储、管理和访问您的元数据的平台。
Dataplex Catalog 提供了一个统一的目录, BigQuery 等 Google Cloud 资源, 例如本地资源已收集 Google Cloud 资源的元数据 并将第三方资源的元数据 Dataplex Catalog。
借助 Dataplex Catalog,您可以通过额外的功能 业务和技术元数据,以捕获有关您的业务的背景信息和知识 资源。借助 Dataplex Catalog,您可以搜索和发现 在整个组织范围内管理数据,并实现数据治理 资源。
使用场景
您可以使用 Dataplex Catalog 执行以下操作:
发现和理解您的数据。Dataplex Catalog 让您可以清楚了解整个组织的数据资源。它让 您可以找到能满足数据使用需求的相关资源。它提供了上下文, 有助于您了解数据的适宜性 满足数据使用者需求的资源。
实现数据治理和数据管理。Dataplex Catalog 用于提供元数据,为数据治理和数据治理提供参考依据 管理功能
为元数据维护一个可扩展且全面的存储库。 Dataplex Catalog 会存储并提供对 会自动从您的 Google Cloud 资源中获取。您可以 集成来自非 Google Cloud 系统的元数据。您可以丰富所有 带有额外的业务和技术元数据注释。
Dataplex Catalog 的工作原理
Dataplex Catalog 基于以下概念:
条目:条目表示数据资产。大部分元数据描述 。类似于 Data Catalog 中的条目。 如需了解详情,请参阅条目。
切面:切面是条目中的一组相关元数据字段。 切面可以解读为条目的构建块或 添加额外的元数据类似于 Data Catalog 中的标记, 但是,切面会存储在条目中,而不是作为独立资源。 如需了解详情,请参阅切面。
切面类型:切面类型是切面的可重复使用模板。每个 切面是切面类型的实例。类似于 Data Catalog 中的标记模板。 如需了解详情,请参阅切面类型。
条目组:条目组是条目的容器,条目组用作 是这些条目的管理单元例如,使用条目组 为 Cloud Logging 配置 IAM 访问权限控制、项目归因或位置, 条目组中的条目。类似于 Data Catalog 中的条目组。 如需了解详情,请参阅条目组。
条目类型:条目类型是用于创建条目的模板。它 规定了基本的元数据元素,这些元素以列表的形式列出, 必需切面。如需了解详情,请参阅 条目类型。
<ph type="x-smartling-placeholder">
以下是 Dataplex Catalog 的一些使用场景:
- 作为数据分析师或业务分析师,您可以在 并探索与这些条目关联的元数据。对于 详情请参阅搜索数据资产。
- 作为数据所有者或数据监管者,您可以捕获更多 为您的条目添加切面注解,从而创建业务元数据。如需更多信息 请参阅管理切面和丰富元数据。
- 作为数据所有者或数据管理者,您可以在自己的数据结构中 定义注解标准(使用切面类型)和 自定义条目(使用条目类型)。如需了解详情,请参阅 管理切面并丰富元数据。
- 作为数据工程师,您可以为自己的资源、 包括 Google Cloud 资源和来自第三方系统的资源。 Google Cloud 资源会自动通过 例如,Dataplex Catalog 和非 Google Cloud 资源 由你采摘的食物如需了解详情,请参阅 管理条目并注入自定义来源。
如果您已经在使用 Data Catalog,请注意以下事项:
- 您在以下位置创建的自定义条目、概览上下文和条目组 Data Catalog 已在 Dataplex Catalog 中提供。
- 在 Data Catalog 中创建的代码和标记模板不适用于 Dataplex Catalog。
- 在 Dataplex Catalog 中搜索数据资产时, 您在 Dataplex Catalog 中创建的元数据,以及 从 Data Catalog 导入 包含 Dataplex Catalog。
- 在 Data Catalog 中搜索数据资产时,只有 包括在 Data Catalog 中创建的元数据。
- Data Catalog 中的条目组说明数超过 1024 个字符在 Dataplex Catalog。
Dataplex Catalog 与 Data Catalog
Dataplex Catalog 提供了一种功能,可让您 Dataplex 中的元数据。它随附一个单独的元数据存储空间和一个 一组新的 API 方法,这些方法已集成到 Dataplex API 中。
Dataplex Catalog 的主要功能包括:
更强大的元模型
- 输入的条目。您可以通过定义 自定义条目所需的元数据内容
- 用户可配置的元模型,用于自定义条目,有助于自定义 提升数据注入的稳健性,并改进自定义元数据的一致性和 全面性。
- 支持更广泛且更复杂的元数据,包括支持 嵌套结构,如列表、映射和数组。
提高了可伸缩性,包括能够与所有元数据进行交互 通过单个原子 CRUD 操作与条目相关联,并且 获取搜索或列表中关联的多个元数据注释的功能 响应。
下表比较了 Dataplex Catalog 的功能 和 Data Catalog:
特征 | Dataplex Catalog | Data Catalog |
---|---|---|
支持的 Google Cloud 来源 | 支持的 Google Cloud 来源 部分。 | 条目和条目组中所述的所有来源。 |
自定义来源注入 | 注入到具有受管结构的自定义条目,定义如下: 条目类型。 Data Catalog 自定义条目和条目组提供
| 注入通用自定义条目。 |
元数据扩充 | 使用切面和切面类型捕获条目的元数据上下文。 | 系统会使用标记和标记模板来捕获条目的元数据上下文。 |
搜索 | 对以下内容执行搜索:
<ph type="x-smartling-placeholder">
搜索结果仅包含属于同一 VPC-SC 边界,作为在其中执行搜索的项目。使用 Google Cloud 控制台中,这是在 控制台。 请注意,要搜索条目,您至少需要 Dataplex Catalog IAM 角色 用于搜索的项目上。搜索结果权限为 与所选项目分开检查 |
对以下内容执行搜索:
<ph type="x-smartling-placeholder">
|
下表介绍了 Dataplex Catalog 资源的方式 与 Data Catalog 资源相对应:
Dataplex Catalog 资源 | Data Catalog 资源 | 说明 |
---|---|---|
切面类型 (global ) |
公开标记模板 | 标记模板属于区域级资源。但您可以使用它们来创建
代码。标记模板对应于 global 方面
类型。 |
可选切面 | 公开标记 | Data Catalog 中的公共标记对应于 Dataplex Catalog。 |
条目组 | 条目组 | 对于 Google Cloud 来源,系统条目组(例如 @bigquery )
在 Dataplex Catalog 中是每个项目建立的。 |
自定义条目必需的切面 | 自定义条目 | Data Catalog 和 Dataplex Catalog 共享 类似的概念 标准条目属性在 Dataplex Catalog。 |
系统条目必需切面 | 系统 (Google Cloud) 条目 | 描述内置实体的元数据,例如 Schema
BigQuery 表,是在
系统定义的切面类型。 |
如需详细了解 而 Dataplex Catalog 不支持 Data Catalog, 请参阅 Dataplex Catalog 不支持的功能 部分。
支持的 Google Cloud 来源
系统会自动提取以下 Google Cloud 来源的元数据 导入 Dataplex Catalog:
- Analytics Hub 广告交易平台和商品详情
- BigQuery 数据集、表、模型、例程、连接和 已关联的数据集
- Bigtable 实例、集群和表(包括列 家人群组详情)
- Cloud SQL 实例、数据库、架构、表、视图 - 请参阅启用 Cloud SQL 集成
- Dataproc Metastore 服务、数据库和表
- Pub/Sub 主题
- Spanner 实例、数据库、表和视图
- Vertex AI 模型、数据集
项目和位置限制条件
Dataplex Catalog 资源位于各种项目中 和地理位置。存在以下限制:
位置:
- 条目的位置必须与条目类型的位置一致,
或者条目类型必须为
global
。 - 添加到条目的切面必须基于存储的切面类型
位于同一位置,或者切面类型必须为
global
。 - 条目类型必须由存储在同一个 作为条目类型。
- 条目的位置必须与条目类型的位置一致,
或者条目类型必须为
项目:
- 如果某个条目类型引用自定义切面类型,则切面类型必须为 位于与条目类型相同的位置和项目中。
Dataplex Catalog 不支持的功能
Data Catalog 中提供的以下功能 支持:
- 以下版本不支持私有切面和切面类型的概念: Dataplex Catalog。对切面的访问权限受 与包含切面的条目相关联的权限。 如需了解详情,请参阅 Dataplex IAM 角色。
- Dataplex Catalog 不支持搜索政策标记
搜索;因此,谓词
policytag
和policytagid
都不起作用 。 - 对于引入到 Dataplex Catalog,您的 当前元数据不会自动传播到复制的元数据。您必须 在使用复制的元数据之前,为其明确配置 IAM 权限。
- 正在将 Sensitive Data Protection 作业结果发送到 不支持 Dataplex Catalog。
- 您无法使用 API 跨项目列出条目类型和切面类型。 您可以将列表请求的范围限定为项目。
- 您无法附加业务术语表 Dataplex 条目列添加术语。
- 经过以下操作后,您将无法修改条目类型中所需切面类型的列表: 您需要创建条目类型。
- 对于直接在 Dataplex Catalog 中创建的条目, 数据沿袭在 Google Cloud 控制台中显示沿袭事件 但不显示有关来源、目标或进程的详细信息。 此外,数据沿袭不会显示 Google Cloud 控制台。
价格
Dataplex 使用元数据存储 SKU 来收取元数据存储费用。 如需了解详情,请参阅 Dataplex 价格。
使用以下各项无需付费:
- 创建和管理 Dataplex Catalog 资源
- 针对 Dataplex Catalog 的搜索 API 调用
- 过去 30 天内在 Dataplex Catalog 页面上执行的搜索查询 Google Cloud 控制台
后续步骤
- 了解如何在 Dataplex Catalog 中搜索数据资产。
- 了解如何管理资产和丰富元数据。
- 了解如何管理条目和注入自定义来源。