Data Catalog 概览

Dataplex 的 Data Catalog 功能是中央目录 组织的数据资产。Data Catalog 自动 从 BigQuery、Google Cloud 等 Google Cloud 来源 Vertex AI、Pub/Sub、Spanner、Bigtable 等等。Data Catalog 还会将表和文件集元数据编入索引 通过发现功能从 Cloud Storage 加载数据。

您可以使用 Dataplex 的受控组织范围发现数据 元数据搜索功能。您可以使用关键数据 业务情境,并启用沿袭跟踪、数据分析和数据质量 检查和访问权限控制功能

借助 Data Catalog,组织可以获得更好的数据 发现、元数据管理和治理。

为什么需要 Data Catalog?

如今,大多数组织需要处理海量并且还在不断增长的数据资产。

数据相关方(使用方、生产方和管理员) 组织面临着多种挑战:

  • 搜索可提供洞见的数据

    • 数据使用者不知道数据的位置和来源。他们必须 浏览数据“沼泽”。
    • 数据使用者不知道应该使用哪些数据来获取数据洞见,因为大多数数据没有完备的记录,即使有记录,也没有得到妥善维护。
    • 无法找到数据,如果数据仅留存在人脑中,通常意味着数据丢失。
  • 了解数据

    • 数据是否新鲜、干净、经过验证并且获准用于生产环境?
    • 在多个重复集中,哪个数据集具有相关性且是最新的?
    • 不同数据集之间有何关联?
    • 谁在使用数据?谁是数据的所有者?
    • 谁以及哪些进程在转换数据?
  • 使数据有用

    • 数据提供者缺乏向使用者提供数据的高效方法。如果没有自助服务,使用者可能会使提供者不堪重负。区区几个数据工程师无法手动向数以千计的数据分析师提供数据。

    • 如果数据使用者必须了解如何提出请求,则会损失宝贵的时间 数据访问、在未指定响应时间的情况下等待、上报并再次等待。

如果没有合适的工具,挑战就会成为主要障碍 对数据的使用。Data Catalog 提供了一个集中式的 可帮助组织实现以下目标的存储库:

  • 获得统一视图,减少搜索正确数据的麻烦。
  • 通过使用技术和业务元数据丰富数据,支持数据驱动型决策,并缩短数据分析时间。
  • 改善数据管理,从而提高运营效率和工作效率。
  • 掌握数据的所有权,从而增强对数据的信心。

Data Catalog 功能

Data Catalog 提供三项主要功能:

  • 搜索您有权访问的数据条目
  • 使用元数据标记数据条目
  • 提供列级别安全性 对于 BigQuery 表

此外,Data Catalog 还可以基于 敏感数据保护扫描,以识别敏感数据 以标记模板的形式直接在 Data Catalog 中存储数据。

Data Catalog 的工作原理

Data Catalog 可以为来自不同 Google Cloud 系统的资产元数据编制目录。

您还可以使用 Data Catalog API 与自定义数据源集成。

在数据编目后,您可以使用标记将自己的元数据添加到这些资产。

<ph type="x-smartling-placeholder">
</ph> Data Catalog 从 Google Cloud 数据中发现元数据
  例如 BigQuery、Pub/Sub
  Dataproc Metastore、Cloud Storage
  非云数据源,如 Hive 和 Oracle。 <ph type="x-smartling-placeholder">
</ph> 图 1. Data Catalog 从 Google Cloud 服务中读取元数据 自定义数据源

Data Catalog 元数据

Data Catalog 可处理两种类型的元数据:技术元数据业务元数据。如需详细了解元数据,请参阅 Data Catalog 元数据

搜索和发现

Data Catalog 提供基于谓词的强大搜索 拥有与数据条目相关的技术元数据和业务元数据的经验。您 必须拥有读取数据条目元数据的权限, 对元数据应用搜索和发现。Data Catalog 不 为数据条目中的数据编制索引。Data Catalog 只会将 用于描述资产的元数据。

Data Catalog 可控制某些元数据,例如用户生成的标记。 对于源自底层存储系统的所有元数据, Data Catalog 是一项只读服务,反映的是 提供的所有权限和权限您可以在以下位置进行修改: 以便向底层存储系统添加、更新或删除数据的元数据 条目。

如需详细了解 Data Catalog 搜索,请参阅 使用 Data Catalog 搜索数据资产

自动对资产进行编目

对于给定项目,Data Catalog 会自动为以下 Google Cloud 资产编制目录:

  • Analytics Hub 关联的数据集
  • BigQuery 数据集、表、模型、日常安排和连接
  • Bigtable 实例、集群和表(包括列族详细信息)
  • Dataplex 数据湖、区域、表和文件集
  • Dataproc Metastore 服务、数据库和表
  • Pub/Sub 主题
  • Spanner 实例、数据库、表和视图
  • Vertex AI 模型数据集Vertex AI Feature Store 资源

除了可以为您有权访问其元数据的项目 ID 中的资源编制目录之外,Data Catalog 还可以为存储在 BigQuery 项目(包含公共数据集)中的数据编制目录。

为非 Google Cloud 资产编制目录

如需对组织中非 Google Cloud 系统中的元数据进行编目,您可以使用 以下:

访问 Data Catalog

您可以通过以下方式访问 Data Catalog 功能:

后续步骤