Data Catalog 概览

Dataplex 的 Data Catalog 功能是组织数据资产的中央目录。Data Catalog 会自动为 Google Cloud 来源(例如 BigQuery、Vertex AI、Pub/Sub、Spanner、Bigtable 等)编目元数据。Data Catalog 还会通过发现功能为 Cloud Storage 中的表和文件集元数据编制索引。

您可以使用 Dataplex 受管的组织级元数据搜索功能发现数据。您可以使用关键业务情境进一步丰富元数据,并启用沿袭跟踪、数据分析、数据质量检查和访问权限控制功能。

借助 Data Catalog,组织可以更好地发现数据、管理元数据和进行治理。

为什么需要 Data Catalog?

大多数组织需要处理海量并且还在不断增长的数据资产。组织内的数据相关方(使用者、提供者和管理员)面临着多重挑战,包括:

  • 搜索可提供洞见的数据

    • 数据使用者不知道数据的位置和来源。他们不得不在数据“沼泽”中浏览数据。
    • 数据使用者不知道应该使用哪些数据来获取数据洞见,因为大多数数据没有完备的记录,即使有记录,也没有得到妥善维护。
    • 无法找到数据,如果数据仅留存在人脑中,通常意味着数据丢失。
  • 了解数据

    • 数据是否新鲜、干净、经过验证并且获准用于生产环境?
    • 多个数据集副本中的哪一个数据集是最有价值且最新的?
    • 数据集之间是什么关系?
    • 谁在使用数据?谁是数据的所有者?
    • 谁以及哪些进程在转换数据?
  • 使数据有用

    • 数据提供者缺乏向使用者提供数据的高效方法。如果没有自助服务,使用者可能会使提供者不堪重负。区区几个数据工程师无法手动向数以千计的数据分析师提供数据。

    • 如果数据使用者不得不查找请求数据访问权限的方法、请求数据、在响应时间未知的情况下等待、上报,然后再次等待,则会浪费宝贵的时间。

如果没有合适的工具,这些挑战将严重阻碍数据的高效利用。Data Catalog 提供了一个集中式代码库,可让组织实现以下目标:

  • 获得统一视图,减少搜索正确数据的麻烦。
  • 通过技术元数据和业务元数据丰富数据,支持数据驱动型决策制定,更快获得数据洞见。
  • 改善数据管理,从而提高运营效率和工作效率。
  • 掌握数据的所有权,从而增强对数据的信心。

Data Catalog 功能

Data Catalog 提供三项主要功能:

  • 搜索您有权访问的数据条目
  • 使用元数据标记数据条目
  • 为 BigQuery 表提供列级安全性

此外,Data Catalog 还可以利用 Sensitive Data Protection 扫描的结果,以标记模板的形式直接在 Data Catalog 中识别敏感数据。

Data Catalog 的工作原理

Data Catalog 可以为来自不同 Google Cloud 系统的资产元数据编制目录。

您还可以使用 Data Catalog API 与自定义数据源集成。

数据分类后,您可以使用标签将自己的元数据添加到这些资源中。

Data Catalog 可从 Google Cloud 数据源(例如 BigQuery、Pub/Sub、Dataproc Metastore 和 Cloud Storage)以及非云数据源(例如 Hive 和 Oracle)中发现元数据。
图 1. Data Catalog 会从 Google Cloud 服务和自定义数据源读取元数据。

Data Catalog 元数据

Data Catalog 可处理两种类型的元数据:技术元数据业务元数据。如需详细了解元数据,请参阅 Data Catalog 元数据

搜索和发现

Data Catalog 为与数据条目相关的技术和业务元数据提供了强大的基于谓词的搜索体验。您必须有权读取数据条目的元数据,才能对元数据应用搜索和发现功能。Data Catalog 不会将数据条目中的数据编入索引。Data Catalog 仅将用于描述资源的元数据编入索引。

Data Catalog 可控制某些元数据,例如用户生成的标记。 对于源自底层存储系统的所有元数据来说,Data Catalog 是一种只读服务,反映了底层存储系统提供的元数据和权限。您可以在底层存储系统中进行修改,以添加、更新或删除数据条目的元数据。

如需详细了解 Data Catalog 搜索,请参阅使用 Data Catalog 搜索数据资源

自动编制资产目录

对于给定项目,Data Catalog 会自动为以下 Google Cloud 资产编制目录:

  • 与 Analytics Hub 关联的数据集
  • BigQuery 数据集、表、模型、日常安排和连接
  • Bigtable 实例、集群和表(包括列族详细信息)
  • Dataplex 数据湖、区域、表和文件集
  • Dataproc Metastore 服务、数据库和表
  • Pub/Sub 主题
  • Spanner 实例、数据库、表和视图
  • Vertex AI 模型数据集Vertex AI Feature Store 资源

除了可以为您有权访问其元数据的项目 ID 中的资源编制目录之外,Data Catalog 还可以为存储在 BigQuery 项目(包含公共数据集)中的数据编制目录。

编制非 Google Cloud 资产目录

如需对贵组织中非 Google Cloud 系统中的元数据进行编目,您可以使用以下项目:

访问 Data Catalog

您可以使用以下方式访问 Data Catalog 功能:

后续步骤