标记和标记模板

大规模记录数据条目很困难,尤其是当组织中需求不同的不同组使用这些条目时。通常,每个群组都会创建自己的一组文档和元数据来描述相同的数据,从而导致工作重复和信息不完整。Data Catalog 使用标记解决了这一问题,标记使组织能够在统一服务中创建、搜索和管理所有数据条目的元数据。

本文档介绍了 Data Catalog 的两个关键概念:

  • 标记。自定义元数据字段,可附加到数据条目以提供上下文。

  • 代码模板。可重复使用的结构,可用于快速创建新代码。

标记

标记是一种业务元数据。向数据条目添加标签有助于为需要使用相应资源的任何人提供有意义的上下文。例如,您可以通过标记了解特定数据条目的负责人、其中是否包含个人身份信息 (PII)、资产的数据保留政策以及数据质量得分等信息。

标记可以是公开标记,也可以是不公开标记。为满足您的业务需求,每类代码都有一些独特的优势。

非公开标记

非公开标记提供严格的访问权限控制。只有当您同时拥有私有标记模板和数据条目所需的查看权限时,才能搜索或查看标记以及与标记关联的数据条目。

如需在 Data Catalog 页面中搜索私有标记,您需要使用 tag: 搜索语法或搜索过滤条件。

非公开标记适合以下场景:您需要在标记中存储一些敏感信息,以及您希望应用除了检查用户是否有权查看标记条目以外的其他访问权限限制。

公开标记

与非公开标记相比,公开标记提供的搜索和查看标记的访问权限控制不那么严格。对数据条目具有所需查看权限的任何用户都可以查看与其关联的所有公开标记。只有在使用 tag: 语法在 Data Catalog 中执行搜索或查看未附加的标记模板时,才需要查看公共标记的权限。

公开标记支持在 Data Catalog 搜索页面中使用简单搜索和带有谓词的搜索。当您创建标记模板时,Google Cloud 控制台中的默认和推荐选项是创建公开标记模板的选项。

例如,假设您有一个名为 employee data 的公开标记模板,用于为三个名为 NameLocationSalary 的数据条目创建标记。在三个数据条目中,只有名为 HR 的特定群组的成员才能查看 Salary 数据条目。公司的所有员工的都可以查看另外两个数据条目。

如果任何非 HR 群组成员的员工使用 Data Catalog 搜索页面并使用 employee 一词进行搜索,则搜索结果仅显示带有相关公开标记的 NameLocation 数据条目。

公开标记适用于各种场景,并且这些标记直观易用。公开标记支持使用谓词进行简单的搜索和搜索,而不公开标记仅支持使用谓词进行搜索。

附加到数据条目的示例标记

下图展示了一个示例客户表 cust_tbl 以及附加到该表及其列的多个业务元数据标记。

该示例使用表标记来描述数据治理、质量和使用情况,并使用列标记来标记社会保障号 (SSN) 和联系信息等个人身份信息。
图 1. Data Catalog 支持在表和列级别进行标记。

标记模板

要开始标记数据,您首先需要创建一个或多个标记模板。标记模板可以是公开标记模板或非公开标记模板。当您创建标记模板时,Google Cloud 控制台中的默认和推荐选项是创建公开标记模板的选项。标记模板是一组称为“字段”的元数据键值对。拥有一组模板就如同拥有元数据的数据库架构。

您可以按主题设计标记的结构。例如:

  • 数据治理标记,其中包含数据治理员、留存日期、删除日期、个人身份信息(是或否)、数据分类(公开、机密、敏感、监管)的字段
  • 数据质量标记,其中包含质量问题、更新频率、SLO 信息的字段
  • 数据使用情况标记,其中包含热门用户、热门查询、每日平均用户数的字段

然后,您可以组合使用并匹配标记,仅使用与每个数据资产和业务需求相关的标记。

代码中的字段

标记包含一个或多个可存储信息的字段。代码中的字段由标记模板定义,每个字段都可用于存储一个或多个。每个标记都是标记模板的一个实例,可以应用于整个数据条目,也可以应用于特定的表或列。例如,某个列上的标记可以告诉您,该列是否包含个人身份信息、是否已被弃用,或者使用了什么公式来计算特定值。

每个字段均包含 ID、显示名和类型。类型可以是 stringdoublebooleanenum(枚举)或 datetime。当类型是 enum 时,模板还会存储该字段允许的值。

字段以有序集合的形式存储在模板中,其中顺序表示字段相相对于其他字段的重要性。

除非是必填字段,否则这些字段均为选填字段。使用模板时,必须为必填字段提供值,而选填字段可以留空。

创建模板后,您无法将可选字段更改为必填字段。

代码中的示例字段

下面是quickstart中的标记模板示例,它包含多个字段类型:

示例代码模板定义了数据源、行数、是否存在个人身份信息以及个人身份信息类型的字段。
图 2. Data Catalog 标记模板。

下面是使用模板创建的代码,并为每个字段提供了 values

该示例代码表明其数据来自命名的表格,包含数亿行,并且不包含个人身份信息。
图 3. 使用代码模板创建的代码。

为了帮助您入门,Data Catalog 包含一个示例标记模板库,用于演示常见的标记用例。您可以通过这些示例了解标记的强大功能,从中发掘灵感,或者将其用作创建自己的标记基础架构的起点。

如需使用标记模板库,请执行以下步骤:

  1. 在 Google Cloud 控制台中,转到 Dataplex 标记模板页面。

    转到“标记模板”

  2. 点击创建标记模板

    模板库会显示在创建模板页面中。

从模板库中选择一个模板后,您可以像使用其他任何标记模板一样使用此模板。您可以添加和删除特性,还可以根据业务需求更改模板中的任何内容。然后,您可以使用 Data Catalog 搜索模板字段和值。

标记访问权限控制

标记及其元数据可能包含敏感信息,并且数据治理团队可能希望某些标记仅对选定的用户组可见。Data Catalog 提供对标记模板的访问权限控制,这些设置扩展到使用此模板创建的所有标记。

您可以设置具有多种访问权限控制配置的标记模板,例如:

  • 只有模板创建者才能用于创建标记的标记模板
  • 一种标记模板,用于创建仅对一组选定的用户可见的标记
  • 一种标记模板,可供一组选定的一组用户用于创建仅对另一组(可能相同)用户可见的标记
  • 组织或项目的所有用户均可查看的标记模板(公开标记)

您可以使用 IAM 角色授予或拒绝对标记模板的访问权限。这些权限可提供创建、修改和使用代码模板的权限。以下是一些可用的 Data Catalog 角色:

  • 要允许用户创建或更新代码模板,您必须向其授予 Tag Template Creator 角色。

  • 要允许用户将代码应用于数据条目,您必须向其授予 Tag Template 用户角色。

如需了解详情,请参阅 Data Catalog Identity and Access Management

区域资源

每个标记模板和标记都存储在特定的 Google Cloud 区域中。您可以使用标记模板在任何区域中创建标记,因此,如果您的数据条目分布在多个区域,则无需创建模板副本。

后续步骤