使用 Data Catalog

Data Catalog 是 Dataplex 的一项功能,通过自动对 BigQuery 资源的元数据(例如表、数据集、视图和模型)进行编目来与 BigQuery 集成。本文档介绍如何使用 Data Catalog 搜索这些资源、查看数据沿袭以及添加标记。

搜索 BigQuery 资源

如需使用 Data Catalog 搜索 BigQuery 数据集、表和已加星标的项目,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,转到 Dataplex 搜索页面。

    转到搜索

  2. 搜索字段中,输入查询,然后点击搜索

    Data Catalog 搜索可让您在项目和组织中查找数据。

    如需优化搜索参数,请使用过滤条件面板。例如,在系统部分中,选中 BigQuery 复选框。结果会过滤为 BigQuery 系统。

您可以通过 Google Cloud 控制台在 Data Catalog 中执行基本搜索。如需详细了解如何在 Google Cloud 控制台中进行搜索,请参阅打开公共数据集

数据沿袭

数据沿袭是 Dataplex 的一项功能,可让您跟踪数据在系统中的移动方式:数据来自何处、传递到何处以及对其应用了哪些转换。您可以直接从 BigQuery 访问数据沿袭功能。

在 BigQuery 项目中启用数据沿袭会使 Dataplex 自动记录由以下操作创建的表的沿袭信息:

准备工作

在本部分中,您将启用 Data Planage API 并向用户授予 Identity and Access Management (IAM) 角色,以提供执行本文档中的每个任务所需的权限。

启用数据沿袭

  1. 在 Google Cloud 控制台的项目选择器页面上,选择包含您要跟踪其沿袭的资源的项目。

    转到“项目选择器”

  2. 启用 Data Lineage API 和 Data Catalog API。

    启用 API

所需 IAM 角色

启用 Data Lineage API 后,它会自动跟踪沿袭信息。

如需获得查看沿袭可视化图表所需的权限,请让管理员向您授予以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

如需了解详情,请参阅数据沿袭角色

在 BigQuery 中查看沿袭图

如需从 BigQuery 查看数据沿袭可视化图,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器面板中,展开您的项目和数据集,然后选择一个表。

  3. 点击沿袭标签页。

    数据沿袭标签页。

    此时将显示您的数据沿袭可视化图。

    数据沿袭图。

  4. 可选:选择一个节点,以查看构建沿袭信息涉及的实体或流程的更多详情。

如需详细了解数据沿袭,请参阅数据沿袭简介

标记和标记模板

标记使组织可以在统一的服务中创建、搜索和管理其所有数据条目的元数据。

本部分介绍 Data Catalog 的两个主要概念:

  • 标记可让您通过附加自定义元数据字段为数据条目提供上下文。

  • 标记模板是可用于快速创建新标记的可重复使用结构。

标记

Data Catalog 提供两种标记:非公开标记和公开标记。

非公开标记

非公开标记提供严格的访问权限控制。只有在您获得对非公开标记模板和数据条目的必要查看权限后,才能搜索或查看标记以及与标记关联的数据条目。

如要在 Data Catalog 页面中搜索非公开标记,您需要使用 tag: 搜索语法或搜索过滤条件。

非公开标记适合以下场景:您需要在标记中存储一些敏感信息,以及您希望应用除了检查用户是否有权查看标记条目以外的其他访问权限限制。

公开标记

与非公开标记相比,公开标记提供的搜索和查看标记的访问权限控制不那么严格。对数据条目具有所需查看权限的任何用户都可以查看与其关联的所有公开标记。仅当您使用 tag: 语法在 Data Catalog 中执行搜索或当您查看未附加的标记模板时,才需要公开标记的查看权限。

公开标记支持在 Data Catalog 搜索页面中使用简单搜索和带有谓词的搜索。当您创建标记模板时,Google Cloud 控制台中的默认和推荐选项是创建公开标记模板的选项。

例如,假设您有一个名为 employee data 的公开标记模板,用于为三个名为 NameLocationSalary 的数据条目创建标记。在三个数据条目中,只有名为 HR 的特定群组的成员才能查看 Salary 数据条目。公司的所有员工的都可以查看另外两个数据条目。

如果某个员工不是 HR 的成员并在 Data Catalog 搜索页中使用 employee 一词进行搜索,搜索结果仅显示 NameLocation 数据条目和关联的公开标记。

公共标记的适用场景很广泛。公开标记支持简单搜索和使用谓词的搜索,而非公开标记仅支持使用谓词的搜索。

标记模板

如要开始标记元数据,您首先需要创建一个或多个标记模板。标记模板可以是公开标记模板或非公开标记模板。当您创建标记模板时,Google Cloud 控制台中的默认和推荐选项是创建公开标记模板的选项。标记模板是一组称为“字段”的元数据键值对。拥有一组模板就如同拥有元数据的数据库架构。

您可以按主题设计标记的结构。例如:

  • data governance 标记,其中包含数据治理员、留存日期、删除日期、个人身份信息(是或否)、数据分类(公开、机密、敏感、监管)的字段
  • data quality 标记,其中包含质量问题、更新频率、SLO 信息的字段
  • data usage 标记,其中包含热门用户、热门查询、每日平均用户数的字段

然后,您可以组合使用并匹配标记,仅使用与每个数据资产和业务需求相关的标记。

为了帮助您入门,Data Catalog 包含一个示例标记模板库,用于演示常见的标记用例。您可以通过这些示例了解标记的强大功能,从中发掘灵感,或者将其用作创建自己的标记基础架构的起点。

如需使用标记模板库,请执行以下步骤:

  1. 在 Google Cloud 控制台中,转到 Dataplex 标记模板页面。

    转到“标记模板”

  2. 点击创建标记模板

    模板库会显示在创建模板页面中。

从模板库中选择模板后,您可以像使用其他任何标记模板一样使用此模板。您可以添加或删除特性,还可以根据业务需求更改模板中的任何内容。然后,您可以使用 Data Catalog 搜索模板字段和值。

如需详细了解标记和标记模板,请参阅标记和标记模板

区域资源

每个标记模板和标记都存储在特定的 Google Cloud 区域中。您可以使用标记模板在任何区域创建标记,因此,如果您的元数据条目分布在多个区域,则无需创建模板的副本。