大规模记录数据条目非常困难,尤其是当 组织内具有不同需求的不同群组。通常每个群组 创建自己的一组文档和元数据来描述相同的数据, 这会导致重复的工作和不完整的信息。Data Catalog 可解决 组织可以创建、搜索和 在统一的服务中管理所有数据条目的元数据。
本文档介绍了两个关键的 Data Catalog 概念:
标记。您可以附加到数据条目的自定义元数据字段 提供上下文。
代码模板。可重复使用的结构,可用于快速创建新代码。
标记
标记是一种业务元数据。 向数据条目中添加标记有助于为需要 使用该资源。例如,标签可以告诉您 特定数据条目中是否包含个人身份信息 个人身份信息 (PII)、资产的数据保留政策以及数据质量得分。
标签可以是公开标签,也可以是不公开标签。每种类型的代码都有一些 以满足您的业务需求。
非公开标记
非公开标记提供严格的访问权限控制。您可以搜索 或仅在您 已授予对非公开标记模板和数据所需的查看权限 条目。
要在 Data Catalog 页面中搜索不公开标记,您需要满足以下条件: 您可以使用 tag: 搜索语法或搜索过滤器。
非公开标记适合以下场景:您需要在标记中存储一些敏感信息,以及您希望应用除了检查用户是否有权查看标记条目以外的其他访问权限限制。
公开标记
与非公开标记相比,公开标记提供的搜索和查看标记的访问权限控制不那么严格。对数据条目具有所需查看权限的任何用户都可以查看与其关联的所有公开标记。查看权限 仅在 Data Catalog 中执行搜索时才需要为公开标记 (使用 tag: 语法或在查看未附加的标记模板时)。
公开标记支持在 Data Catalog 搜索页面中使用简单搜索和带有谓词的搜索。当您创建标记模板时,Google Cloud 控制台中的默认和推荐选项是创建公开标记模板的选项。
例如,假设您有一个名为 employee data
的公开标记模板,用于为三个名为 Name
、Location
和 Salary
的数据条目创建标记。在三个数据条目中,只有名为 HR
的特定群组的成员才能查看 Salary
数据条目。公司的所有员工的都可以查看另外两个数据条目。
如果任何非 HR
群组成员的员工使用 Data Catalog
搜索页,并使用“employee
”一词进行搜索,则搜索结果会显示
只有 Name
和 Location
数据条目具有关联的公开标记。
公开标记适用于各种场景,并且这些标记直观 使用。公开标记支持使用谓词进行简单的搜索和搜索,同时 私有标记仅支持使用谓词进行搜索。
附加到数据条目的示例代码
下图展示了一个示例客户表 cust_tbl
以及附加到该表及其列的多个业务元数据标记。
标记模板
要开始标记数据,您首先需要创建一个或多个标记模板。标记模板可以是公开标记模板或非公开标记模板。当您创建标记模板时,Google Cloud 控制台中的默认和推荐选项是创建公开标记模板的选项。标记模板是一组称为“字段”的元数据键值对。拥有一组模板就如同拥有元数据的数据库架构。
您可以按主题设计标记的结构。例如:
- 数据治理标记,其中包含数据治理员、留存日期、删除日期、个人身份信息(是或否)、数据分类(公开、机密、敏感、监管)的字段
- 数据质量标记,其中包含质量问题、更新频率、SLO 信息的字段
- 数据使用情况标记,其中包含热门用户、热门查询、每日平均用户数的字段
然后,您可以组合使用并匹配标记,仅使用与每个数据资产和业务需求相关的标记。
代码中的字段
标记包含一个或多个可存储信息的字段。代码中的字段 均由标记模板定义,而每个字段可用于存储 一个或多个 values。每个代码都是一个代码模板实例, 应用于整个数据条目,或者应用于特定的表或列。例如,某个列上的标记可以告诉您,该列是否包含个人身份信息、是否已被弃用,或者使用了什么公式来计算特定值。
每个字段均包含 ID、显示名和类型。类型可以是 string
、double
、boolean
、enum
(枚举)或 datetime
。当类型是 enum
时,模板还会存储该字段允许的值。
字段以有序集合的形式存储在模板中,其中顺序表示字段相相对于其他字段的重要性。
除非是必填字段,否则这些字段均为选填字段。使用模板时,必须为必填字段提供值,而选填字段可以留空。
创建模板后,您不能将可选字段更改为必填字段。
代码中的示例字段
以下是快速入门中的标记模板示例: 包含多个字段类型:
以下是通过该模板创建的代码,并为每个字段提供了相应的值:
查看标记模板库
为了帮助您入门,Data Catalog 包含一个示例标记模板库,用于演示常见的标记用例。您可以通过这些示例了解标记的强大功能,从中发掘灵感,或者将其用作创建自己的标记基础架构的起点。
如需使用标记模板库,请执行以下步骤:
在 Google Cloud 控制台中,转到 Dataplex 标记模板页面。
点击创建标记模板。
模板库会显示在创建模板页面中。
从模板库中选择一个模板后,您可以像使用其他任何标记模板一样使用此模板。您可以添加和删除特性,还可以根据业务需求更改模板中的任何内容。然后,您可以使用 Data Catalog 搜索模板字段和值。
标记访问权限控制
标记及其元数据可能包含敏感信息和数据治理 团队可能希望只对选定的用户群组显示某些代码。 Data Catalog 提供对标记模板的访问权限控制, 设置会扩展到使用该模板创建的所有代码。
您可以使用多种访问权限控制配置来设置标记模板,例如:
- 只有模板创建者可以用来创建标记的标记模板
- 一个标记模板,用于创建仅对一组选定用户可见的标记
- 一个标记模板,一组选定的用户可用它来创建 仅对另一组用户(可能是相同的用户)可见
- 对组织或项目的所有用户可见的标记模板(公开标记)
您可以使用 IAM 角色授予或拒绝对标记模板的访问权限。这些方法提供了 拥有创建、修改和使用代码模板的权限。以下是一些 可用的 Data Catalog 角色:
如要允许用户创建或更新标记模板,您必须向其授予 Tag template Creator 角色。
要允许用户将标记应用于数据条目,您必须向其授予标记模板用户角色。
请参阅 Data Catalog Identity and Access Management 。
区域资源
每个标记模板和标记都存储在特定的 Google Cloud 区域中。您可以使用标记模板在任何区域创建代码,因此无需 如果您有数据条目分布在多个 区域。
后续步骤
了解查看和附加公开及私有标记所需的角色和权限。 请参阅查看公开标记和专用标记的角色和将标记附加到 Google Cloud 资源的角色。
了解如何使用公开和不公开标记来搜索数据条目。 请参阅 Data Catalog 搜索语法。
创建一个示例公开标记模板和一些标记。请参阅使用 Data Catalog 标记 BigQuery 表。