从 Dataproc Metastore 同步到 Data Catalog

您可以启用从 Dataproc Metastore 服务同步到 Data Catalog,以利用元数据发现和元数据管理服务。启用后,数据库和表元数据(如架构信息)会自动从 Dataproc Metastore 同步到 Data Catalog。

借助 Data Catalog,您可以标记和搜索服务专用资源,例如数据库和表。

什么是 Data Catalog

Data Catalog 是 Google Cloud 数据分析产品系列中的一项可扩缩全代管式元数据管理服务。它可让您集中查看技术元数据和业务元数据,还为这些元数据提供了标记机制。

如需了解详情,请参阅以下 Data Catalog 特性指南:

权限

Data Catalog 遵循 Dataproc Metastore 级别权限。对于从 Dataproc Metastore 同步到 Data Catalog 的元数据,在 Dataproc Metastore 中指定的 IAM 权限也适用于 Data Catalog 中的元数据。

Data Catalog 会在访问时检查每个 Metastore 数据库/表的权限,使得只有拥有 Dataproc Metastore 服务访问权限的用户才能看到作为 Data Catalog 中的条目的已同步服务资源。

启用 Data Catalog 同步

启用 Data Catalog 同步后,Data Catalog 会对您的 Dataproc Metastore 服务实时执行完全同步操作。

它会同步以下元数据:

  • 实例
  • 数据库,包括名称和说明
  • 表,包括名称、说明和架构(包含说明的列)
  • 数据库属性
  • 表属性

下表显示了 Dataproc Metastore 和 Data Catalog 之间的资源映射:

Dataproc Metastore 资源 Data Catalog 资源
实例 条目组
条目
数据库 条目
条目
架构

使用 Google Cloud Console 创建或更新 Dataproc Metastore 服务时,您可以启用将 Dataproc Metastore 服务同步到 Data Catalog。 您可以通过同样的方式停用同步。

创建一个启用了 Data Catalog 同步的服务

Data Catalog 同步默认处于停用状态。

如需为新服务启用 Data Catalog 同步,请执行以下操作:

控制台

  1. 在 Cloud Console 中,打开 Dataproc Metastore 页面:

    在 Cloud Console 中打开 Dataproc Metastore

  2. Dataproc Metastore 页面顶部,点击创建按钮。此时会打开创建服务页面。

  3. 根据需要配置服务。

  4. 元数据集成下,启用 Data Catalog 同步,以将 Dataproc Metastore 服务同步到 Data Catalog。

  5. 点击提交

为现有服务启用或停用 Data Catalog 同步

如需为现有服务启用或停用 Data Catalog 同步,请执行以下操作:

控制台

  1. 在 Cloud Console 中,打开 Dataproc Metastore 页面:

    在 Cloud Console 中打开 Dataproc Metastore

  2. Dataproc Metastore 页面上,点击您要更新的服务的名称。该服务的服务详细信息页面会打开。

  3. 配置标签页下,点击修改按钮。此时会打开修改服务页面。

  4. 元数据集成部分中,点击以开启或关闭 Data Catalog 同步启用

  5. 点击提交按钮以更新服务。

使用 Data Catalog 进行搜索

您可以使用 Data Catalog 来搜索已同步的 Dataproc Metastore 元数据。

虽然 Dataproc Metastore 没有任何自定义搜索选项,但您可以通过多种方式搜索不同的 Dataproc Metastore 资源:

  • Dataproc Metastore 实例
    • 按显示名
    • 标准 Data Catalog 方式 - 按标记等
  • 数据库
    • 按显示名
    • 按说明
    • 按 Dataproc Metastore 实例
    • 标准 Data Catalog 方式 - 按标记等
  • 表:
    • 按显示名
    • 按说明
    • 按列名称
    • 按列说明
    • 按数据库
    • 按 Dataproc Metastore 实例
    • 标准 Data Catalog 方式 - 按标记等

常见问题解答

  • 等待 6 小时,再检查 Data Catalog 中的元数据的完成度和正确性。

  • 如果您怀疑 Dataproc Metastore 到 Data Catalog 的同步存在问题,请使用过滤条件 textPayload=~".*Publish.*" 检查 Dataproc Metastore Cloud Logging 中的元数据发布日志。如需详细了解如何访问日志,请参阅访问 Logging 中的作业日志

  • 如果停用 Data Catalog 同步,元数据将不再从 Dataproc Metastore 同步到 Data Catalog。但是,已同步的元数据将保留在 Data Catalog 中。

  • 如果您删除 Dataproc Metastore 实例,相应的实例、数据库和表条目也会从 Data Catalog 中移除。

  • Data Catalog 遵循标准 Google Cloud 保留期限。

  • 为 Dataproc Metastore 启用 Data Catalog 同步时没有额外的费用。

后续步骤