标记和标记模板

使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

大规模记录数据条目非常困难,特别是在组织中有不同需求的不同组使用时。通常,每个组都会创建自己的一组文档和元数据来描述相同的数据,导致工作量重复和信息不完整。Data Catalog 使用标记解决了这个问题,这使得组织可以在统一服务中创建、搜索和管理其所有数据条目的元数据。

本文档介绍了两个关键的 Data Catalog 概念:

  • 标记。允许您通过附加自定义元数据字段为数据条目提供上下文。

  • 代码模板:可用于快速创建新代码且可重复使用的结构。

标记

标记是一种业务元数据。向数据条目添加标记有助于为需要用到素材资源的任何人提供有意义的上下文。例如,通过标记,您可以了解特定数据条目的负责人、是否包含个人身份信息 (PII)、资产的数据保留政策以及数据质量得分。

标记可以是公开标记,也可以是私有标记。每种类型的代码都有自己的独特优势,可以满足您的业务需求。

专用代码

专用标记提供严格的访问控制。仅当您同时获得了针对私有标记模板和数据条目的必要查看权限时,才能搜索或查看与标记关联的数据条目。

若想在 Data Catalog 页中搜索专用标记,您需要使用 tag: 搜索语法或搜索过滤条件。

私密标记适用于如下情况:您需要在标记中存储一些敏感信息,并且除了检查用户是否拥有查看带标记的条目的权限之外,您还希望应用其他访问限制。

公开标记

与私有代码相比,公开代码的搜索和控制权限不太严格。任何对数据条目拥有所需查看权限的用户都可以查看与其关联的所有公开标记。只有当您在 Data Catalog 中使用 tag: 语法进行搜索或查看未附加的标记模板时,才需要查看公共标记的权限。

公开标记支持简单搜索以及在 Data Catalog 搜索页中使用谓词进行搜索。创建代码模板时,控制台中会默认显示用于创建公开代码模板的选项。

例如,假设您有一个名为 employee data 的公开标记模板,用于为 NameLocationSalary 这三个数据条目创建标记。在这三个数据条目中,只有名为 HR 的特定组的成员才能查看 Salary 数据条目。另外两个数据条目具有公司所有员工的查看权限。

如果不属于 HR 群组的员工使用 Data Catalog 搜索页并搜索 employee 一词,则搜索结果中仅显示 NameLocation 数据条目以及关联的公开标记。

公开标记在众多场景中都很有用,而且这些标记直观易用。公开标记仅支持使用谓词进行搜索和搜索,而不公开标记仅支持使用谓词进行搜索。

附加到数据条目的示例代码

下图展示了一个示例客户表 cust_tbl 以及附加到该表及其列的多个业务元数据标记。

示例客户表

标记模板

要开始标记数据,您首先需要创建一个或多个标记模板。标记模板可以是公开标记模板,也可以是私有标记模板。当您创建标记模板时,控制台中会默认显示用于创建公共标记模板的选项。标记模板是一组称为字段的元数据键值对。设置一组模板类似于为元数据创建数据库架构。

您可以按主题构建标签。例如:

  • 数据治理标记,其中包含数据治理员、留存日期、删除日期、个人身份信息(是或否)、数据分类(公开、机密、敏感、监管)的字段
  • 数据质量标记,其中包含质量问题、更新频率、SLO 信息的字段
  • 数据使用情况标记,其中包含热门用户、热门查询、每日平均用户数的字段

然后,您可以组合使用并匹配标记,仅使用与每个数据资产和业务需求相关的标记。

代码中的字段

标记包含一个或多个可存储信息的字段。标记中的字段由标记模板定义,每个字段都可用于存储一个或多个。每个标记都是标记模板的一个实例,可应用于整个数据条目,或应用于特定的表或列。例如,某个列上的标记可以告诉您,该列是否包含个人身份信息、是否已被弃用,或者使用了什么公式来计算特定值。

每个字段都包含 ID显示名类型。类型可以是 stringdoublebooleanenum(枚举)或 datetime。当类型是 enum 时,模板还会存储该字段允许的值。

字段以有序集合的形式存储在模板中,其中顺序表示字段相相对于其他字段的重要性。

除非是必填字段,否则这些字段均为选填字段。使用模板时,必须为必填字段提供值,而选填字段可以留空。

创建模板后,您无法将可选字段更改为必填字段。

代码中的字段示例

以下是快速入门中的标记模板示例,其中包含多种字段类型:

标记模板示例

以下是使用模板创建的代码,每个字段都提供了

标记示例

为了帮助您着手使用,Data Catalog 中提供了一组示例标记模板库,用于展示常见的标记用例。通过这些示例,您可以了解代码植入的强大功能、从中汲取灵感,或着手创建您自己的代码植入基础架构。

要使用标记模板模板库,请执行以下步骤:

  1. 在控制台中,转到 Dataplex 代码模板页面。

    转到代码模板

  2. 点击创建代码模板

    模板库会显示在创建模板页面中。

从模板库中选择一个模板后,您可以像使用其他任何标记模板一样使用此模板。您可以添加和删除特性,还可以根据业务需求更改模板中的任何内容。然后,您可以使用 Data Catalog 搜索模板字段和值。

标记访问权限控制

标记及其元数据可能包含敏感信息,而数据治理团队可能希望特定标记仅对选定的用户组可见。Data Catalog 提供了对标记模板的访问权限控制,这些设置会扩展到使用该模板创建的所有标记。

您可以通过多种访问权限控制配置来设置代码模板,例如:

  • 只有模板创建者才能用于创建标记的代码模板
  • 创建仅对一组特定用户可见的代码的标记模板
  • 一组所选用户创建的代码模板,可用于创建仅对另一组(可能完全相同)用户可见的代码
  • 对组织或项目的所有用户可见的标记模板(公开标记)

您可以使用 IAM 角色授予或拒绝对标记模板的访问权限。这些代码可以提供创建、修改和使用代码模板的权限。以下是一些可用的 Data Catalog 角色:

  • 要允许用户创建或更新代码模板,您必须授予他们代码模板创建者角色。

  • 要允许用户将代码应用于数据条目,您必须授予他们代码模板用户角色。

如需了解详情,请参阅 Data Catalog Identity and Access Management

区域资源

每个标记模板和标记都存储在特定的 GCP 地区中。您可以使用标记模板在任何区域中创建标记,因此如果数据条目分布在多个区域,您就无需创建模板副本。

后续步骤