Data Catalog 概览

Dataplex 的 Data Catalog 功能是中央目录 组织的数据资产。Data Catalog 自动 从 BigQuery、Google Cloud 等 Google Cloud 来源 Vertex AI、Pub/Sub、Spanner、Bigtable 等等。Data Catalog 还会通过发现功能为 Cloud Storage 中的表和文件集元数据编制索引。

您可以使用 Dataplex 的受控组织范围发现数据 元数据搜索功能。您可以使用关键的业务情境进一步丰富元数据,并启用谱系跟踪、数据分析、数据质量检查和访问控制功能。

借助 Data Catalog,组织可以更好地发现数据、管理元数据和实现治理。

为什么需要 Data Catalog?

如今,大多数组织需要处理海量并且还在不断增长的数据资产。

组织内的数据相关方(使用者、提供者和管理员)面临着多重挑战:

  • 搜索可提供洞见的数据

    • 数据使用者不知道数据的位置和来源。他们必须 浏览数据“沼泽”。
    • 数据使用者不知道应该使用哪些数据来获取数据洞见,因为大多数数据没有完备的记录,即使有记录,也没有得到妥善维护。
    • 无法找到数据,如果数据仅留存在人脑中,通常意味着数据丢失。
  • 了解数据

    • 数据是否新鲜、干净、经过验证并且获准用于生产环境?
    • 在多个重复集中,哪个数据集具有相关性且是最新的?
    • 数据集之间是什么关系?
    • 谁在使用数据?谁是数据的所有者?
    • 谁以及哪些进程在转换数据?
  • 使数据有用

    • 数据提供者缺乏向使用者提供数据的高效方法。如果没有自助服务,使用者可能会使提供者不堪重负。区区几个数据工程师无法手动向数以千计的数据分析师提供数据。

    • 如果数据使用者必须了解如何请求获取数据,则会浪费宝贵的时间 数据访问、在未指定响应时间的情况下等待、上报并再次等待。

如果没有合适的工具,挑战就会成为主要障碍 对数据的使用。Data Catalog 提供了一个集中式的 可帮助组织实现以下目标的存储库:

  • 获得统一视图,减少搜索正确数据的麻烦。
  • 通过使用技术和业务元数据丰富数据,支持数据驱动型决策,并缩短数据分析时间。
  • 改善数据管理,从而提高运营效率和工作效率。
  • 掌握数据的所有权,从而增强对数据的信心。

Data Catalog 功能

Data Catalog 提供三项主要功能:

  • 搜索您有权访问的数据条目
  • 使用元数据标记数据条目
  • 提供列级别安全性 对于 BigQuery 表

此外,Data Catalog 还可以利用 Sensitive Data Protection 扫描的结果,以标记模板的形式直接在 Data Catalog 中识别敏感数据。

Data Catalog 的工作原理

Data Catalog 可以为来自不同 Google Cloud 系统的资产元数据编制目录。

您还可以使用 Data Catalog API 与自定义数据源集成。

数据分类后,您可以使用标签将自己的元数据添加到这些资源中。

Data Catalog 从 Google Cloud 数据中发现元数据
  例如 BigQuery、Pub/Sub
  Dataproc Metastore、Cloud Storage
  非云数据源,如 Hive 和 Oracle。
图 1. Data Catalog 会从 Google Cloud 服务和自定义数据源读取元数据。

Data Catalog 元数据

Data Catalog 可处理两种类型的元数据:技术元数据业务元数据。如需详细了解元数据,请参阅 Data Catalog 元数据

搜索和发现

Data Catalog 提供基于谓词的强大搜索 拥有与数据条目相关的技术元数据和业务元数据的经验。您必须有权读取数据条目的元数据,才能对元数据应用搜索和发现功能。Data Catalog 不 为数据条目中的数据编制索引。Data Catalog 仅将用于描述资源的元数据编入索引。

Data Catalog 可控制某些元数据,例如用户生成的标记。 对于源自底层存储系统的所有元数据, Data Catalog 是一项只读服务,反映的是 由底层存储系统提供的权限和权限。您可以在底层存储系统中进行修改,以添加、更新或删除数据条目的元数据。

如需详细了解 Data Catalog 搜索,请参阅 使用 Data Catalog 搜索数据资产

自动对资产进行编目

对于给定项目,Data Catalog 会自动为以下 Google Cloud 资产编制目录:

  • 与 Analytics Hub 关联的数据集
  • BigQuery 数据集、表、模型、日常安排和连接
  • Bigtable 实例、集群和表(包括列族详细信息)
  • Dataplex 数据湖、区域、表和文件集
  • Dataproc Metastore 服务、数据库和表
  • Pub/Sub 主题
  • Spanner 实例、数据库、表和视图
  • Vertex AI 模型数据集Vertex AI Feature Store 资源

除了可以为您有权访问其元数据的项目 ID 中的资源编制目录之外,Data Catalog 还可以为存储在 BigQuery 项目(包含公共数据集)中的数据编制目录。

编制非 Google Cloud 资产目录

如需对组织中非 Google Cloud 系统中的元数据进行编目,您可以使用 以下:

访问 Data Catalog

您可以使用以下方式访问 Data Catalog 功能:

后续步骤