标记和标记模板

大规模提供数据资源文档很困难,当组织内具有不同需求的不同组都在使用资源时尤其如此。通常,每个组都会创建自己的一组文档和元数据来描述相同的数据,从而导致重复信息和不完整信息。Data Catalog 通过标记解决了此问题,使组织可以在统一的服务中创建、搜索和管理其所有数据资源的元数据。

本页面介绍了两个 Data Catalog 主要概念:标记标记模板,前者允许您通过附加自定义元数据字段来提供数据资源的上下文,后者是可重复使用的结构,可用于快速创建新标记。

标记

标记有时称为“业务元数据”。向数据资源添加标记有助于为每个需要使用资源的人员提供有意义的上下文。例如,您可以通过标记了解谁负责特定数据资源,而无论该资源是否包含个人身份信息 (PII)、资源的数据保留政策、数据质量等。

标记包含一个或多个可存储信息的字段。标记中的字段由标记模板定义,每个字段都可用于存储一个或多个。每个标记都是标记模板的实例,可应用于整个数据资产或者特定表或列。例如,某个列上的标记可以告诉您,该列是否包含个人身份信息、是否已被弃用,或者使用了什么公式来计算特定值。

下图展示了一个示例客户表 cust_tbl 以及附加到该表及其列的多个业务元数据标记。

示例客户表

标记模板

要开始标记数据,您首先需要创建一个或多个标记模板。标记模板是一组称为字段的元数据键值对。拥有一组模板就如同拥有元数据的数据库架构。

这样您就可以按主题设计标记的结构。例如:

  • 数据治理标记,其中包含数据治理员、留存日期、删除日期、个人身份信息(是或否)、数据分类(公开、机密、敏感、监管)的字段
  • 数据质量标记,其中包含质量问题、更新频率、SLO 信息的字段
  • 数据使用情况标记,其中包含热门用户、热门查询、每日平均用户数的字段

然后,您可以组合使用并匹配标记,仅使用与每个数据资产和业务需求相关的标记。

如需了解如何创建标记模板,请参阅标记表快速入门

字段类型

每个字段都包含 ID显示名类型。类型可以是 stringdoublebooleanenum(枚举)或 datetime。当类型是 enum 时,模板还会存储该字段允许的值。

下面是快速入门中的一个标记模板示例,其中包含多个字段类型:

标记模板示例

下面是通过模板创建的标记,其中包含为每个字段提供的

标记示例

字段以有序集合的形式存储在模板中,其中顺序表示字段相相对于其他字段的重要性。

除非是必填字段,否则这些字段均为选填字段。使用模板时,必须为必填字段提供值,而选填字段可以留空。

为了帮助您入门,Data Catalog 包含一个示例标记模板库,用于演示常见的标记用例。您可以通过这些示例了解标记的强大功能,从中发掘灵感,或者将其用作创建自己的标记基础架构的起点。

要查找标记模板库,请点击创建,然后选择创建标记模板。模板库会显示在创建模板页面的顶部。

从模板库中选择一个模板后,您可以像使用其他任何标记模板一样使用此模板。您可以添加和删除特性,还可以根据业务需求更改模板中的任何内容。然后,您可以使用 Data Catalog 搜索模板字段和值。

访问权限控制机制

标记及其元数据可能包含敏感信息,而数据治理团队可能希望特定标记仅对选定的用户组可见。Data Catalog 提供对模板的访问权限控制,这些设置会扩展到使用此模板创建的所有标记。

您可以设置具有多个访问权限控制配置的模板,例如:

  • 仅可供模板创建者用来创建标记的模板
  • 其创建的标记仅对选定的一组用户可见的模板
  • 可供选定的一组用户用来创建仅对另一组(可能相同)用户可见的标记的模板

您可以使用 IAM 角色授予或拒绝对标记模板的访问权限。这些角色提供创建、修改和使用模板的权限。例如,tagTemplateUser 角色可授予使用标记模板来标记资源的权限。

如需了解详情,请参阅 Data Catalog Identity and Access Management

在多个项目中使用标记模板

Google Cloud 中的所有内容均属于项目,包括标记模板。但是,您可以使用一个项目中的标记模板在另一个项目中创建标记,前提是您授权另一个项目使用模板。预定义的 IAM 角色可帮助您实现这一目标,例如 TagTemplate OwnerCreatorUserViewer 角色。

例如:如果项目 A 向项目 B 拥有的服务帐号授予 TagTemplate User 角色,那么项目 B 便可以使用其模板创建标记。项目 A 也可以授权同一服务帐号使用 Tag Editor 角色修改已创建的标记。

如果项目 A 未向项目 B 授权,项目 B 就无法使用项目 A 的标记模板标记自己的数据资源,它必须创建自己的模板。

最佳做法:如果模板与多个项目相关,我们建议在中央项目中创建模板。此外,您的数据治理团队应该拥有共享标记模板,并代表组织维护这些模板。

区域资源

每个标记模板和标记都存储在特定的 GCP 地区中。您可以使用标记模板在任何地区创建标记,因此,如果您的数据资源分布在多个地区,则无需创建模板的副本。