什么是 Data Catalog?

Data Catalog 是 Google Cloud 数据分析产品系列中的一项可扩缩全托管式元数据管理服务。

为什么需要 Data Catalog?

如今,大多数组织需要处理海量并且还在不断增长的数据资产。

组织中的数据利益相关方(使用方、提供方和管理员)面临着多个挑战:

  • 搜索可提供洞见的数据

    • 数据使用者不知道数据的位置和来源。他们需要应对“沼泽”数据。
    • 数据使用者不知道应该使用哪些数据来获取数据洞见,因为大多数数据没有完备的记录,即使有记录,也没有得到妥善维护。
    • 无法找到数据,如果数据仅留存在人脑中,通常意味着数据丢失。
  • 了解数据

    • 数据是否新鲜、干净、经过验证并且获准用于生产环境?
    • 在多个重复的集中,哪个数据集具有相关性且是最新的?
    • 一个数据集与另一个数据集之间有何关系?
    • 谁在使用数据?谁是数据的所有者?
    • 谁以及哪些进程在转换数据?
  • 使数据有用

    • 数据提供者缺乏向使用者提供数据的高效方法。如果没有自助服务,使用者可能会使提供者不堪重负。区区几个数据工程师无法手动向数以千计的数据分析师提供数据。

    • 如果数据使用者不得不查找请求数据访问权限的方法、请求数据、在响应时间未知的情况下等待、上报,然后再次等待,则会浪费宝贵的时间。

如果没有合适的工具,挑战会成为高效利用数据的主要障碍。Data Catalog 提供了一个集中位置,可让组织实现以下目标:

  • 获得统一视图,减少搜索正确数据的麻烦。
  • 通过技术和业务元数据来丰富数据,支持数据驱动型决策,加快数据分析速度。
  • 改善数据管理,从而提高运营效率和工作效率。
  • 掌握数据的所有权,从而增强对数据的信心。

Data Catalog 功能

Data Catalog 提供两个主要功能:

  • 搜索您有权访问的数据条目
  • 使用元数据标记数据条目

此外,Data Catalog 还可以利用 Cloud Data Loss Prevention (DLP) 扫描的结果,以标记模板的形式直接在 Data Catalog 中识别敏感数据。

Data Catalog 的工作原理

Data Catalog 可为不同 Google Cloud 系统来源的数据条目编制元数据。

您还可以使用 Data Catalog API 创建和管理自定义数据资源类型的条目。

为数据编制目录后,您可以使用标签将自己的元数据添加到这些资产中。

Data Catalog 会对来自 Pub/Sub、BigQuery、Dataplex、Dataproc Metastore 和 Cloud Storage 的数据条目进行编目。

图 1. Data Catalog 的架构

Data Catalog 元数据

Data Catalog 可处理两种类型的元数据:技术元数据业务元数据。如需详细了解元数据,请参阅 Data Catalog 元数据

搜索和发现

Data Catalog 为与数据条目关联的技术和业务元数据提供了简单但基于谓词的搜索体验。您必须有权访问数据条目的元数据,才能对元数据应用搜索和发现功能。Data Catalog 不会将数据条目中的数据编入索引。Data Catalog 只会将描述资产的元数据编入索引。

Data Catalog 控制某些元数据,如用户生成的标记。 对于源自底层存储系统的所有元数据,Data Catalog 是一项只读服务,反映了底层存储系统提供的元数据和权限。您可以在底层存储系统中进行修改,以添加、更新或删除数据条目的元数据。

如需详细了解 Data Catalog 搜索,请参阅使用 Data Catalog 搜索数据资源

自动编制资产目录

对于给定项目,Data Catalog 会自动为以下 Google Cloud 资产编制目录:

  • BigQuery 数据集、表、视图。
  • Pub/Sub 主题。
  • Dataplex 数据湖、区域、表和文件集。
  • (公开预览):Dataproc Metastore 服务、数据库和表。
  • (公开预览):Analytics Hub 关联的数据集。

除了可以为您有权访问其元数据的项目 ID 中的资源编制目录之外,Data Catalog 还可以为存储在 BigQuery 项目(包含公共数据集)中的数据编制目录。

编制非 GCP 资产目录

如需对非 GCP 系统中的元数据进行编目,您可以使用以下项目:

访问 Data Catalog

您可以使用以下任一方式访问 Data Catalog:

后续步骤