Dataplex Universal Catalog 提供了一个用于存储、管理和访问元数据的中央平台。本文档介绍了 Dataplex Universal Catalog 的元数据管理功能。
Dataplex Universal Catalog 提供 Google Cloud 和本地资源的统一清单。Dataplex Universal Catalog 会自动检索并存储 Google Cloud 资源的元数据。您还可以将第三方资源的自有元数据导入 Dataplex Universal Catalog。
您可以使用其他业务和技术元数据来丰富资产清单,这些元数据可捕获有关资源的上下文和知识。您还可以搜索和发现组织内的数据,并对数据资产启用数据治理。
您可以将默认目录体验设置为 Dataplex Universal Catalog。如果您使用的是 Data Catalog,请将独立 Data Catalog 内容和用法转换到 Dataplex Universal Catalog。如需了解详情,请参阅从 Data Catalog 转换到 Dataplex Universal Catalog。
元数据管理的运作方式
Dataplex Universal Catalog 中的元数据管理功能基于以下概念:
- 条目
条目表示数据资源。这与 Data Catalog 中的条目类似。
示例:名为
test-project.sales_data.customer_orders
的 BigQuery 表表示为一个条目。条目的列表示数据资产的特定子部分,例如 BigQuery 表中的单个列或 JSON 文件中的字段。通过列,您可以将元数据附加到条目中的各个字段,而不仅仅是整个条目。您无需直接定义列;当您将
schema
类型的切面附加到条目时,系统会自动创建列。列也称为路径。示例:如需将
customer_orders
条目中的email_address
字段描述为包含个人身份信息 (PII),您可以将一个切面附加到email_address
列。如需详细了解条目,请参阅条目。
- 切面
切面是一组相关的元数据字段。您可以将切面附加到条目,以描述整个条目。大多数元数据都由条目中的切面来描述。这与 Data Catalog 中的标记类似。不过,切面存储在条目中,而不是作为独立资源存储。
示例:如需定义
customer_orders
实体的所有列(例如order_id
、order_date
和email_address
),您可以将schema
切面附加到customer_orders
实体。如需指定email_address
列包含邮箱,您可以将schema
切面附加到email_address
列。如需详细了解切面,请参阅切面。
- 条目类型
条目类型是用于创建条目的模板。它确立了必要的元数据元素,以这种类型条目的必需切面列表的形式列出。条目类型用于指定特定数据资产所需的切面类型。
示例:为确保所有条目都具有必需的元数据,您可以创建一个名为
StandardOperationalTable
的条目类型,该类型要求将OwnerInfo
切面附加到此类型的任何新条目。如需详细了解条目类型,请参阅条目类型。
- 切面类型
切面类型是可重复使用的切面模板。每个切面都是切面类型的一个实例。这与 Data Catalog 中的标记模板类似。
示例:如需为联系信息定义可重用的模板,您可以定义一个名为
ContactInfo
的切面类型,其中包含owner_name
、email
和support_team
字段。然后,您可以根据此模板创建ContactInfo
切面,并将其附加到条目或列。如需详细了解切面类型,请参阅切面类型。
- 条目组
条目组是条目的容器,可作为这些条目的管理单元。例如,使用条目组可配置 Identity and Access Management 访问权限控制、项目归因或条目组中条目的位置。这与 Data Catalog 中的条目组类似。
示例:财务团队希望一次性管理所有表的权限。他们可以创建一个名为
production_finance_data
的条目组,并在其中包含customer_orders
表、quarterly_revenue
表和employee_salaries
表的条目。如需详细了解条目组,请参阅条目组。
图 1:条目和条目组 图 2. 切面类型和条目类型
Dataplex Universal Catalog 与 Data Catalog 的比较
Dataplex Universal Catalog 提供集成式功能来管理元数据。元数据存储和 API 方法已集成到 Dataplex API 中。
Dataplex Universal Catalog 中的主要元数据管理功能包括:
更强大的元模型
- 类型条目。您可以为自定义条目定义必需的元数据内容,以强制实施最低元数据标准
- 用于自定义条目的用户可配置元模型,有助于使自定义注入更可靠,并提高自定义元数据的一致性和全面性。
- 支持更多种类和更复杂的元数据,包括支持列表、映射和数组等嵌套结构。
提高了可伸缩性,包括能够通过单个原子 CRUD 操作与条目关联的所有元数据进行交互,以及能够在搜索或列表响应中提取关联的多个元数据注解。
下表比较了 Dataplex Universal Catalog 和 Data Catalog 的元数据管理功能:
功能 | Dataplex Universal Catalog | Data Catalog |
---|---|---|
支持的 Google Cloud 来源 | 本文档的支持的 Google Cloud 来源部分中所述的所有来源。 | 条目和条目组中所述的所有来源。 |
自定义来源注入 | 以受控结构(由条目类型定义)注入到自定义条目中。 Data Catalog 自定义条目和条目组在 Dataplex Universal Catalog 中以 | 注入到通用自定义条目中。 |
元数据丰富化 | 条目的元数据上下文通过业务术语库、切面和切面类型来捕获。 | 条目的元数据上下文通过业务术语库、标记和标记模板来捕获。 |
搜索 | 系统以下各项执行搜索:
搜索结果仅包含与执行搜索的项目属于同一组织和同一 VPC-SC 边界的资源。使用 Google Cloud 控制台时,这是在控制台中选择的项目。 请注意,如需搜索条目,您需要对用于搜索的项目至少拥有以下一个 IAM 角色:Dataplex Catalog Admin、Dataplex Catalog Editor 或 Dataplex Catalog Viewer。搜索结果的权限检查独立于所选项目。 |
系统以下各项执行搜索:
|
数据沿袭 |
数据沿袭通过使用 Dataplex API 检索资产节点的条目详细信息。 Google Cloud 控制台会显示附加的切面。 |
数据沿袭通过使用 Data Catalog API 检索资产节点的条目详细信息。 |
业务术语库 |
借助业务术语库,您可以为业务术语构建分类,并将这些术语与数据资产和列相关联。您可以使用搜索功能来发现与某个术语相关联的资产。 |
借助业务术语库,您可以为业务术语构建分类,并将这些术语与列相关联。您可以使用搜索功能来发现与某个术语相关联的资产。 |
下表介绍了 Dataplex Universal Catalog 中的资源与 Data Catalog 资源之间的对应关系:
Dataplex Universal Catalog 资源 | Data Catalog 资源 | 说明 |
---|---|---|
切面类型 (global ) |
公开标记模板 | 标记模板属于区域级资源。但是,您可以使用它们在各区域中创建标记。标记模板对应于 Dataplex Universal Catalog 中的 global 切面类型。 |
可选切面 | 公开标记 | Data Catalog 中的公开标记对应于 Dataplex Universal Catalog 中的可选切面。 |
条目组 | 条目组 | 对于 Google Cloud 来源,系统条目组(例如 @bigquery )是在 Dataplex Universal Catalog 中按项目建立的。 |
自定义条目所需的切面 | 自定义条目 | Data Catalog 和 Dataplex Universal Catalog 在自定义条目方面具有相似的概念。 标准条目属性在 Dataplex Universal Catalog 中建模为必需的切面。 |
系统条目所需的切面 | 系统 (Google Cloud) 条目 | 描述内置实体的元数据(例如 BigQuery 表的 Schema )会捕获在系统定义的切面类型的必需切面中。 |
业务术语库 | 业务术语库 | 使用术语库构建业务术语分类,从而在整个企业内标准化业务上下文。 |
如需详细了解 Data Catalog 中提供但 Dataplex Universal Catalog 不支持的功能,请参阅本文档中的 Dataplex Universal Catalog 不支持的元数据管理功能部分。
对于现有 Data Catalog 用户
如果您已在使用 Data Catalog,请注意以下事项:
- 您在 Data Catalog 中创建的自定义条目、概览上下文、术语库和条目组可在 Dataplex Universal Catalog 中使用。
- 作为管理员,您可以选择让 Data Catalog 标记模板和标记的内容同时在 Dataplex Universal Catalog 中可用。如需了解详情,请参阅从 Data Catalog 转换到 Dataplex Universal Catalog。
- 在 Dataplex Universal Catalog 中搜索数据资产时,直接在 Dataplex Universal Catalog 中创建的元数据以及从 Data Catalog 导入 Dataplex Universal Catalog 中的元数据会包含在内。
- 在 Data Catalog 中搜索数据资产时,只有在 Data Catalog 中创建的元数据会包含在内。
- Data Catalog 中超过 1,024 个字符的条目组说明在 Dataplex Universal Catalog 中会被截断为 1,024 个字符。
- 作为管理员,如需使您在 Data Catalog 中创建的术语库以及业务术语与列之间的关联链接在 Dataplex Universal Catalog 中可用,请按照转换流程操作。
如需详细了解如何将独立 Data Catalog 内容和用法转换到 Dataplex Universal Catalog,请参阅从 Data Catalog 转换到 Dataplex Universal Catalog。
支持的来源
- 自动发现 Cloud Storage 数据
- 来自以下 Google Cloud 来源的元数据会自动注入到 Dataplex Universal Catalog 中:
- BigQuery Sharing(以前称为 Analytics Hub)交换和清单
- BigQuery 数据集、表、模型、例程、连接和关联的数据集
- Bigtable 实例、集群和表(包括列族详细信息)
- Dataform 仓库和代码资产
- Cloud SQL 实例、数据库、架构、表、视图 - 请参阅启用 Cloud SQL 集成
- Dataproc Metastore 服务、数据库和表
- Pub/Sub 主题
- Spanner 实例、数据库、表和视图
- Vertex AI 模型、数据集、特征组、特征视图和在线存储区实例
如需将元数据从第三方来源导入 Dataplex Universal Catalog,您可以使用托管式连接流水线。
项目和位置限制条件
Dataplex Universal Catalog 中的目录资源位于各个项目和位置中。存在以下限制:
位置:
- 条目的位置必须与条目类型的位置匹配,或者条目类型必须为
global
。 - 添加到条目的切面必须基于与条目存储在同一位置的切面类型,或者切面类型必须为
global
。 - 条目类型必须由存储在条目类型所在位置的切面类型组成。
- 条目的位置必须与条目类型的位置匹配,或者条目类型必须为
项目:
- 如果条目类型引用了自定义切面类型,则这些切面类型必须与条目类型位于同一位置和项目中。
Dataplex Universal Catalog 不支持的元数据管理功能
Data Catalog 中提供的以下功能在 Dataplex Universal Catalog 中不受支持:
- Dataplex Universal Catalog 中没有非公开切面和非公开切面类型(与 Data Catalog 中的非公开标记和非公开标记模板相对应)的概念。
- Dataplex Universal Catalog 搜索不支持搜索政策标记;因此,谓词
policytag
和policytagid
在 Dataplex Universal Catalog 搜索中不起作用。 - 将 Data Catalog 自定义条目组、自定义条目、标记模板和标记导入 Dataplex Universal Catalog 时,其原始权限不会转移。您必须先为复制的元数据明确配置 IAM 权限,然后才能使用该元数据。
- Terraform 不支持管理切面和自定义条目。您可以改为使用托管式连接流水线或元数据导入 API 方法以程序化方式大规模管理自定义元数据。(Terraform 支持条目组、条目类型和切面类型;请参阅使用 Terraform 预配 Dataplex Universal Catalog 资源。)
- 不支持将 Sensitive Data Protection 检查结果直接发送到 Dataplex Universal Catalog 中的目录。不过,您可以将 Sensitive Data Protection 检查结果发送到 Data Catalog,然后将结果转换到 Dataplex Universal Catalog。
- 您无法使用 API 列出各个项目中的条目类型和切面类型。您可以将列表请求的范围限定为仅限项目。
- 不支持将数据湖、区域、资产和实体注册为 Dataplex Universal Catalog 条目。这意味着附加到数据湖、区域、资产和实体的 Data Catalog 元数据不会转移到 Dataplex Universal Catalog 中的目录。此外,使用 Dataplex Universal Catalog 搜索时,不支持搜索区域和实体,也不支持按数据湖和区域进行过滤。在 Dataplex Universal Catalog 中,您可以独立于目录使用数据湖和区域。
- 不支持可确保完全召回的管理员搜索。不过,您可以将元数据导出到 Cloud Storage,然后从 BigQuery 中查询这些元数据。
如需比较 Dataplex Universal Catalog 和 Data Catalog 中支持的功能和资源,请参阅本文档中的 Dataplex Universal Catalog 与 Data Catalog 对比部分。
价格
Dataplex Universal Catalog 使用元数据存储 SKU 来收取元数据存储费用。如需了解详情,请参阅 Dataplex Universal Catalog 价格。
以下各项可免费使用:
- 在 Dataplex Universal Catalog 中创建和管理目录资源
- 针对 Dataplex Universal Catalog 的搜索 API 调用
- 在Google Cloud 控制台中的 Dataplex Universal Catalog 页面上执行的搜索查询
后续步骤
- 了解如何在 Dataplex Universal Catalog 中搜索资源。
- 了解如何管理资产并丰富元数据。
- 了解如何管理条目和注入自定义来源。
- 详细了解如何从 Data Catalog 转换到 Dataplex Universal Catalog。
- 详细了解如何将术语库转换到 Dataplex Universal Catalog。