Data Catalog 概览

Dataplex 的 Data Catalog 功能是组织数据资产的集中清单。Data Catalog 会自动对来自 BigQuery、Vertex AI、Pub/Sub、Spanner、Bigtable 等 Google Cloud 来源的元数据进行编目。Data Catalog 还通过发现功能将 Cloud Storage 中的表和文件集元数据编入索引。

您可以使用 Dataplex 受治理的组织级元数据搜索功能轻松发现数据。您可以使用关键业务情境进一步丰富元数据,并启用沿袭跟踪、数据分析、数据质量检查和访问权限控制功能。

使用 Data Catalog,组织可以实现更好的数据发现、元数据管理和治理。

为什么需要 Data Catalog?

如今,大多数组织需要处理海量并且还在不断增长的数据资产。

组织中的数据利益相关方(使用方、生产者和管理员)面临诸多挑战:

  • 搜索可提供洞见的数据

    • 数据使用者不知道数据的位置和来源。他们得在数据“沼泽”中导航。
    • 数据使用者不知道应该使用哪些数据来获取数据洞见,因为大多数数据没有完备的记录,即使有记录,也没有得到妥善维护。
    • 无法找到数据,如果数据仅留存在人脑中,通常意味着数据丢失。
  • 了解数据

    • 数据是否新鲜、干净、经过验证并且获准用于生产环境?
    • 多个重复集中的哪个数据集相关且是最新的?
    • 两个数据集之间有何关系?
    • 谁在使用数据?谁是数据的所有者?
    • 谁以及哪些进程在转换数据?
  • 使数据有用

    • 数据提供者缺乏向使用者提供数据的高效方法。如果没有自助服务,使用者可能会使提供者不堪重负。区区几个数据工程师无法手动向数以千计的数据分析师提供数据。

    • 如果数据使用者必须了解如何请求数据访问权限、在未指定响应时间的情况下等待、上报并再次等待,就会浪费宝贵的时间。

如果没有合适的工具,这些挑战会成为有效使用数据的主要障碍。Data Catalog 提供了一个集中式代码库,可让组织实现以下目的:

  • 获得统一视图,减少搜索正确数据的麻烦。
  • 通过技术和业务元数据丰富数据,支持数据驱动型决策,并加快数据分析速度。
  • 改善数据管理,从而提高运营效率和工作效率。
  • 掌握数据的所有权,从而增强对数据的信心。

Data Catalog 功能

Data Catalog 提供三项主要功能:

  • 搜索您有权访问的数据条目
  • 使用元数据标记数据条目
  • 为 BigQuery 表提供列级别安全性

此外,Data Catalog 可以根据敏感数据保护扫描的结果,以标记模板的形式直接在 Data Catalog 中识别敏感数据。

Data Catalog 的工作原理

Data Catalog 可以为来自不同 Google Cloud 系统的资产元数据编制目录。

您还可以使用 Data Catalog API 与自定义数据源集成。

将数据编目后,您可以使用标签将自己的元数据添加到这些资产中。

Data Catalog 可以从 Google Cloud 数据源(例如 BigQuery、Pub/Sub、Dataproc Metastore 和 Cloud Storage)以及非云数据源(例如 Hive 和 Oracle)发现元数据。
图 1. Data Catalog 会从 Google Cloud 服务和自定义数据源中读取元数据。

Data Catalog 元数据

Data Catalog 可处理两种类型的元数据:技术元数据业务元数据。如需详细了解元数据,请参阅 Data Catalog 元数据

搜索和发现

Data Catalog 针对与数据条目关联的技术和业务元数据提供了基于谓词的强大搜索体验。您必须有权读取数据条目的元数据,以便对元数据应用搜索和发现。Data Catalog 不会将数据条目中的数据编入索引。Data Catalog 只会将描述资产的元数据编入索引。

Data Catalog 可控制某些元数据,例如用户生成的标记。 对于源自底层存储系统的所有元数据,Data Catalog 是一种只读服务,反映了底层存储系统提供的元数据和权限。您可以在底层存储系统中进行修改,以添加、更新或删除数据条目的元数据。

如需详细了解 Data Catalog 搜索,请参阅使用 Data Catalog 搜索数据资产

自动编制资产目录

对于给定项目,Data Catalog 会自动为以下 Google Cloud 资产编制目录:

  • Analytics Hub 关联的数据集
  • BigQuery 数据集、表、模型、日常安排和连接
  • Dataplex 数据湖、可用区、表和文件集
  • Dataproc Metastore 服务、数据库和表
  • Pub/Sub 主题
  • Bigtable 实例、集群和表(包括列族详细信息)
  • Vertex AI 模型数据集Vertex AI Feature Store 资源 注意:如果项目名称包含 :,Dataplex 不会为在该项目中创建的 FeatureViewFeature 资源编制目录。
  • Spanner 实例、数据库、表和视图

除了可以为您有权访问其元数据的项目 ID 中的资源编制目录之外,Data Catalog 还可以为存储在 BigQuery 项目(包含公共数据集)中的数据编制目录。

编制非 Google Cloud 资产目录

如需为组织中非 Google Cloud 系统的元数据编制目录,您可以使用以下方法:

访问 Data Catalog

您可以使用以下工具访问 Data Catalog 功能:

后续步骤