Data Catalog 概览

如果没有合适的工具,数据资源管理起来可能非常耗时且昂贵。 Data Catalog 提供了一个集中的位置,组织可在此查找、挑选和描述其数据资源。

Data Catalog 是 Google Cloud 数据分析产品系列中的一项可扩缩全托管式元数据管理服务。

使用 Data Catalog

您可以通过两种主要方式与 Data Catalog 互动:

  • 搜索您有权访问的数据资源
  • 使用元数据标记资源

此外,Data Catalog 还可与 Cloud Data Loss Prevention (DLP) 互动,通过 Cloud Data Loss Prevention 强大的自动标记机制自动识别敏感数据。

Data Catalog 的工作原理

Data Catalog 可以为来自以下 Google Cloud 存储系统源的数据资源的原生元数据编制目录:

  • BigQuery 数据集、表和视图
  • Pub/Sub 主题

您还可以使用 Data Catalog API 创建和管理自定义数据资源类型的条目。

数据分类后,您可以使用标签将自己的元数据添加到这些资源中。

技术和业务元数据

Data Catalog 可处理两种类型的元数据:技术元数据业务元数据。如需了解差异,请查看下面的 Data Catalog 示例条目:

Data Catalog 示例条目

  • 技术元数据:如上面的红色框所示,它来自数据资产所在的基础存储系统,其中包括以下内容:
    • 项目信息,例如名称和 ID
    • 资源名称和说明
    • Google Cloud 资源标签
    • BigQuery 表和视图的架构名称和说明
  • 业务元数据:如上面的蓝色框所示,这是用户使用 Data Catalog 标签生成且已应用于资源的元数据。业务元数据始终关联到技术元数据条目。

搜索和发现

Data Catalog 提供强大的结构化搜索功能和基于谓词的过滤功能,可用于数据资源的技术和业务元数据。您必须有权读取数据资源的元数据才能搜索并发现这些元数据。Data Catalog 不会将数据资源中的数据编入索引。Data Catalog 会将用于描述资源的元数据编入索引。

Data Catalog 可控制某些元数据(例如,用户生成的标记),但对于源自底层存储系统的所有元数据来说,Data Catalog 是一种只读服务,反映了底层存储系统提供的元数据和权限。对于资源的原生元数据,其添加、移除或更新等修改操作均可在底层存储系统中完成。

对于给定项目,Data Catalog 会自动为 Cloud Storage、Cloud Bigtable 或 Google 表格中的所有 BigQuery 数据集、表、视图和外部表编制目录。Data Catalog 还将自动为该项目的 Pub/Sub 主题编制目录。

除了可以为您有权访问其元数据的项目 ID 中的资源编制目录之外,Data Catalog 还可以为存储在 BigQuery 项目(包含公共数据集)中的数据编制目录。

标签

大规模提供数据资源文档很困难,当组织内的不同组都在使用数据时尤其如此。每个组都可能拥有自己的一组文档,用于描述数据资源。 Data Catalog 标记模板可帮助您在一个位置创建和管理有关数据资源的公共元数据。将标记附加到数据资源意味着在 Data Catalog 系统中可以发现此标记。使用此功能,您还可以构建其他使用数据资源的这些上下文元数据的应用并采取进一步操作。

如何与 Data Catalog 互动

您可以使用 Cloud Consolegcloud 命令行界面 (CLI) 和 Data Catalog API,或使用 Cloud 客户端库调用 API 来访问 Data Catalog。

后续步骤

  • 要开始使用 Data Catalog,请参阅快速入门
  • 如需查看使用 Data Catalog 功能的说明,请参阅操作指南