Data Catalog 概览

Data Catalog 是 Google Cloud 数据分析产品系列中的一项可扩缩全托管式元数据管理服务。

为什么需要 Data Catalog?

如今,大多数组织需要处理海量并且还在不断增长的数据资产。

组织内的数据相关方(使用者、提供者和管理员)面临着诸多挑战:

  • 搜索可提供洞见的数据

    • 数据使用者不知道什么数据在什么位置。他们不得不在随意闯入的数据“沼泽”中浏览数据。
    • 数据使用者不知道应该使用哪些数据来获取数据洞见,因为大多数数据没有完备的记录,即使有记录,也没有得到妥善维护。
    • 无法找到数据,如果数据仅留存在人脑中,通常意味着数据丢失。
  • 了解数据

    • 数据是否新鲜、干净、经过验证并且获准用于生产环境?
    • 多个数据集副本中的哪一个数据集是最有价值且最新的?
    • 数据集之间是什么关系?
    • 谁在使用数据?谁是数据的所有者?
    • 谁以及哪些进程在转换数据?
  • 使数据有用

    • 数据提供者缺乏向使用者提供数据的高效方法。如果没有自助服务,使用者可能会使提供者不堪重负。区区几个数据工程师无法手动向数以千计的数据分析师提供数据。

    • 如果数据使用者不得不查找请求数据访问权限的方法、请求数据、在响应时间未知的情况下等待、上报,然后再次等待,则会浪费宝贵的时间。

如果没有正确的工具,上述挑战将严重阻碍数据的高效利用。Data Catalog 提供了一个集中的位置,使组织能够:

  • 获得统一视图,减少搜索正确数据的麻烦。
  • 通过技术元数据和业务元数据丰富数据,从而根据数据进行决策,更快获得数据洞见。
  • 改善数据管理,从而提高运营效率和工作效率。
  • 掌握数据的所有权,从而增强对数据的信心。

使用 Data Catalog

您可以通过两种主要方式与 Data Catalog 互动:

  • 搜索您有权访问的数据资源
  • 使用元数据标记资源

此外,Data Catalog 还可与 Cloud Data Loss Prevention (DLP) 互动,通过 Cloud Data Loss Prevention 强大的自动标记机制自动识别敏感数据。

Data Catalog 的工作原理

Data Catalog 可以为来自以下 Google Cloud 存储系统源的数据资源的原生元数据编制目录:

  • BigQuery 数据集、表和视图
  • 发布/订阅主题
  • Dataproc Metastore 服务、数据库和表

您还可以使用 Data Catalog API 创建和管理自定义数据资源类型的条目。

数据分类后,您可以使用标签将自己的元数据添加到这些资源中。

技术和业务元数据

Data Catalog 可处理两种类型的元数据:技术元数据业务元数据。如需了解差异,请查看下面的 Data Catalog 示例条目:

  • 技术元数据:如上面的 BigQuery 表详细信息下所示,此元数据源自数据资产所在的底层存储系统,并包括以下内容:

    • 项目信息,例如名称和 ID
    • 资源名称和说明
    • Google Cloud 资源标签
    • BigQuery 表和视图的架构名称和说明
  • 业务元数据:如上面的标记 (1) 下所示,此元数据是用户使用 Data Catalog 标记生成且已应用于资产的元数据。业务元数据始终关联到技术元数据条目。

搜索和发现

Data Catalog 提供强大的结构化搜索功能和基于谓词的过滤功能,可用于数据资源的技术和业务元数据。您必须有权读取数据资源的元数据才能搜索并发现这些元数据。Data Catalog 不会将数据资源中的数据编入索引。Data Catalog 会将用于描述资源的元数据编入索引。

Data Catalog 可控制某些元数据(例如,用户生成的标记),但对于源自底层存储系统的所有元数据来说,Data Catalog 是一种只读服务,反映了底层存储系统提供的元数据和权限。对于资源的原生元数据,其添加、移除或更新等修改操作均可在底层存储系统中完成。

对于给定项目,Data Catalog 会自动为以下资产编制目录:

  • Cloud Storage、Cloud Bigtable 或 Google 表格中的 BigQuery 数据集、表、视图和外部表
  • 发布/订阅主题
  • Dataproc Metastore 服务、数据库和表

除了可以为您有权访问其元数据的项目 ID 中的资源编制目录之外,Data Catalog 还可以为存储在 BigQuery 项目(包含公共数据集)中的数据编制目录。

标签

大规模提供数据资源文档很困难,当组织内的不同组都在使用数据时尤其如此。每个组都可能拥有自己的一组文档,用于描述数据资源。 Data Catalog 标记模板可帮助您在一个位置创建和管理有关数据资源的公共元数据。将标记附加到数据资源意味着在 Data Catalog 系统中可以发现此标记。使用此功能,您还可以构建其他使用数据资源的这些上下文元数据的应用并采取进一步操作。

如何与 Data Catalog 互动

您可以使用 Cloud Consolegcloud 命令行界面 (CLI) 和 Data Catalog API,或使用 Cloud 客户端库调用 API 来访问 Data Catalog。

后续步骤

  • 要开始使用 Data Catalog,请参阅快速入门
  • 如需查看使用 Data Catalog 功能的说明,请参阅操作指南