标记和标记模板

大规模记录数据条目非常困难,当组织中具有不同需求的不同群组使用这些条目时更是如此。通常,每个群组都会创建自己的一组文档和元数据来描述相同的数据,从而导致工作重复和信息不完整。Data Catalog 使用标记解决了这个问题。借助标记,组织可以在统一的服务中创建、搜索和管理其所有数据条目的元数据。

本文档介绍了两个关键的 Data Catalog 概念:

  • 标记。可附加到数据条目以提供上下文的自定义元数据字段。

  • 代码模板。可重复使用的结构,可用于快速创建新代码。

标记

标记是一种业务元数据。向数据条目中添加标记有助于为需要使用该资产的任何人提供有意义的上下文。例如,标记可以告诉您以下信息:特定数据条目的负责人、其中是否包含个人身份信息 (PII)、资产的数据保留政策以及数据质量得分。

标签可以是公开标签,也可以是不公开标签。每种类型的代码都有自己独特的优势,可以满足您的业务需求。

非公开标记

非公开标记提供严格的访问权限控制。仅当您被授予对不公开标记模板和数据条目的所需查看权限时,才能搜索或查看与标记关联的标记和数据条目。

要在 Data Catalog 页面中搜索私有标记,您需要使用 tag: 搜索语法或搜索过滤条件。

非公开标记适合以下场景:您需要在标记中存储一些敏感信息,以及您希望应用除了检查用户是否有权查看标记条目以外的其他访问权限限制。

公开标记

与非公开标记相比,公开标记提供的搜索和查看标记的访问权限控制不那么严格。对数据条目具有所需查看权限的任何用户都可以查看与其关联的所有公开标记。仅当您使用 tag: 语法在 Data Catalog 中执行搜索或查看未附加的标记模板时,才需要公共标记的查看权限。

公开标记支持在 Data Catalog 搜索页面中使用简单搜索和带有谓词的搜索。当您创建标记模板时,Google Cloud 控制台中的默认和推荐选项是创建公开标记模板的选项。

例如,假设您有一个名为 employee data 的公开标记模板,用于为三个名为 NameLocationSalary 的数据条目创建标记。在三个数据条目中,只有名为 HR 的特定群组的成员才能查看 Salary 数据条目。公司的所有员工的都可以查看另外两个数据条目。

如果任何不属于 HR 群组的员工使用 Data Catalog 搜索页面并使用 employee 一词进行搜索,搜索结果将仅显示带有相关公开标记的 NameLocation 数据条目。

公开标记在很多情况下都很有用,并且这些标记直观易用。公开标记支持使用谓词进行简单的搜索和搜索,而不公开标记仅支持使用谓词进行搜索。

附加到数据条目的示例代码

下图展示了一个示例客户表 cust_tbl 以及附加到该表及其列的多个业务元数据标记。

该示例使用表标记来描述数据治理、质量和使用情况,并使用列标记来标记社会保障号 (SSN) 和联系信息等个人身份信息。
图 1. Data Catalog 支持在表级层和列级层进行标记。

标记模板

要开始标记数据,您首先需要创建一个或多个标记模板。标记模板可以是公开标记模板或非公开标记模板。当您创建标记模板时,Google Cloud 控制台中的默认和推荐选项是创建公开标记模板的选项。标记模板是一组称为“字段”的元数据键值对。拥有一组模板就如同拥有元数据的数据库架构。

您可以按主题设计标记的结构。例如:

  • 数据治理标记,其中包含数据治理员、留存日期、删除日期、个人身份信息(是或否)、数据分类(公开、机密、敏感、监管)的字段
  • 数据质量标记,其中包含质量问题、更新频率、SLO 信息的字段
  • 数据使用情况标记,其中包含热门用户、热门查询、每日平均用户数的字段

然后,您可以组合使用并匹配标记,仅使用与每个数据资产和业务需求相关的标记。

代码中的字段

标记包含一个或多个可存储信息的字段。代码中的字段由代码模板定义,每个字段都可用于存储一个或多个。每个标记都是标记模板的一个实例,可应用于整个数据条目,也可应用于特定的表或列。例如,某个列上的标记可以告诉您,该列是否包含个人身份信息、是否已被弃用,或者使用了什么公式来计算特定值。

每个字段均包含 ID、显示名和类型。类型可以是 stringdoublebooleanenum(枚举)或 datetime。当类型是 enum 时,模板还会存储该字段允许的值。

字段以有序集合的形式存储在模板中,其中顺序表示字段相相对于其他字段的重要性。

除非是必填字段,否则这些字段均为选填字段。使用模板时,必须为必填字段提供值,而选填字段可以留空。

创建模板后,您不能将可选字段更改为必填字段。

代码中的示例字段

以下是quickstart中的标记模板示例,其中包含多个字段类型:

示例标记模板定义了数据源、行数、是否存在 PII 和 PII 类型的字段。
图 2. Data Catalog 标记模板。

以下是通过该模板创建的代码,并为每个字段提供了相应的

该示例代码表明其数据来自命名表,包含数亿行,并且没有个人身份信息。
图 3. 通过标记模板创建的代码。

为了帮助您入门,Data Catalog 包含一个示例标记模板库,用于演示常见的标记用例。您可以通过这些示例了解标记的强大功能,从中发掘灵感,或者将其用作创建自己的标记基础架构的起点。

如需使用标记模板库,请执行以下步骤:

  1. 在 Google Cloud 控制台中,转到 Dataplex 标记模板页面。

    转到“标记模板”

  2. 点击创建标记模板

    模板库会显示在创建模板页面中。

从模板库中选择一个模板后,您可以像使用其他任何标记模板一样使用此模板。您可以添加和删除特性,还可以根据业务需求更改模板中的任何内容。然后,您可以使用 Data Catalog 搜索模板字段和值。

标记访问权限控制

标记及其元数据可能包含敏感信息,而数据治理团队可能希望某些标记仅对选定的用户组可见。Data Catalog 提供对标记模板的访问权限控制,这些设置会扩展到使用该模板创建的所有标记。

您可以使用多种访问权限控制配置来设置标记模板,例如:

  • 只有模板创建者可以用来创建标记的标记模板
  • 一个标记模板,用于创建仅对一组选定用户可见的标记
  • 标记模板,一组选定的用户可用来创建仅对另一组用户(可能是相同的用户)可见的代码模板
  • 对组织或项目的所有用户可见的标记模板(公开标记)

您可以使用 IAM 角色授予或拒绝对标记模板的访问权限。这些权限提供了创建、修改和使用标记模板的权限。以下是一些可用的 Data Catalog 角色:

  • 如要允许用户创建或更新标记模板,您必须向其授予 Tag template Creator 角色。

  • 要允许用户将标记应用于数据条目,您必须向其授予标记模板用户角色。

如需了解详情,请参阅 Data Catalog Identity and Access Management

区域资源

每个标记模板和标记都存储在特定的 Google Cloud 区域中。您可以使用标记模板在任何区域创建标记,因此如果您的数据条目分布在多个区域中,则无需创建模板副本。

后续步骤