将 Dataproc Metastore 同步到 Data Catalog

本文档介绍如何将 Dataproc Metastore 元数据与 Data Catalog 同步。

将这两项服务同步后,您可以使用 Data Catalog 管理您的 Dataproc Metastore 元数据。例如,通过使用 Data Catalog,您可以标记和搜索特定的 Dataproc Metastore 资源,例如数据库和表。

什么是 Data Catalog

Data Catalog 是一项可伸缩的全代管式元数据管理服务。它为技术元数据和业务元数据提供了统一的视图和标记机制。

如需了解详情,请参阅以下 Data Catalog 特性指南:

准备工作

所需的角色

如需获取将 Dataproc Metastore 元数据与 Data Catalog 同步所需的权限,请让管理员根据最小权限原则授予您项目的在 Data Catalog 中查看已同步的 Dataproc Metastore 条目 (roles/metastore.metadataViewer) IAM 角色。 如需详细了解如何授予角色,请参阅管理访问权限

此预定义角色包含将 Dataproc Metastore 元数据与 Data Catalog 同步所需的权限。如需查看所需的确切权限,请展开所需权限部分:

所需权限

如需将 Dataproc Metastore 元数据与 Data Catalog 同步,需要具备以下权限:

  • 如需获取 Dataproc Metastore 数据库,请执行以下操作: metastore.databases.get
  • 如需列出 Dataproc Metastore 数据库,请执行以下操作: metastore.databases.list
  • 如需获取 Dataproc Metastore 表,请执行以下操作: metastore.tables.get
  • 如需列出 Dataproc Metastore 表,请执行以下操作: metastore.tables.list

您也可以使用自定义角色或其他预定义角色来获取这些权限。

如需详细了解特定的 Dataproc Metastore 角色和权限,请参阅使用 IAM 管理访问权限

各项服务的权限如何运作

Data Catalog 遵循 Dataproc Metastore 级别权限。对于从 Dataproc Metastore 同步到 Data Catalog 的元数据,在 Dataproc Metastore 中指定的 IAM 权限也适用于 Data Catalog 中的元数据。

Data Catalog 在访问时会检查每个 Metastore 数据库和表的权限,以便只有有权访问 Dataproc Metastore 服务的用户才能看到已同步的服务资源作为 Data Catalog 中的条目。

Data Catalog 同步如何与 Dataproc Metastore 协同工作

使用 Google Cloud 控制台创建或更新 Dataproc Metastore 服务时,您可以启用 Dataproc Metastore 到 Data Catalog 的同步。您也可以通过同样的方式停用同步功能。

启用 Data Catalog 同步后,数据库和表元数据会自动从 Dataproc Metastore 同步到 Data Catalog。

Data Catalog 会同步以下元数据:

  • Instances.
  • 数据库,包括名称和说明。
  • 表,包括名称、说明和架构(带有说明的列)。

下表显示了 Dataproc Metastore 和 Data Catalog 之间的资源映射:

Dataproc Metastore 资源 Data Catalog 资源
实例 条目组
条目
数据库 条目
条目
架构

注意事项

  • Dataproc Metastore 元数据与 Data Catalog 完全同步最多可能需要 6 个小时。初始同步完成后,系统会按需同步增量更改(例如表或数据库更新)。如果按需同步失败,该同步将包含在每 6 小时进行一次的批量重新运行中。

  • 如果您怀疑同步存在问题,请使用过滤条件 textPayload=~".*Publish.*" 检查 Dataproc Metastore Cloud Logging 中的元数据发布日志。如需详细了解如何访问日志,请参阅访问 Logging 中的作业日志

  • 如果停用 Data Catalog 同步,您的元数据会停止从 Dataproc Metastore 同步到 Data Catalog。不过,已同步的元数据仍将保留在 Data Catalog 中。

  • 如果您删除 Dataproc Metastore 实例,相应的实例、数据库和表条目也会从 Data Catalog 中移除。

  • 存储在 Data Catalog 中的 Dataproc Metastore 元数据符合标准 Google Cloud 保留期限。

  • 为 Dataproc Metastore 启用 Data Catalog 同步时没有额外的费用。

创建一个启用了 Data Catalog 同步的服务

Data Catalog 同步默认处于停用状态。

要为新服务启用 Data Catalog 同步,请按照以下说明操作。

控制台

  1. 在 Google Cloud 控制台中,打开 Dataproc Metastore 页面:

    转到 Dataproc Metastore

  2. Dataproc Metastore 页面顶部,点击创建

    此时会打开创建服务页面。

  3. 选择您要使用的 Dataproc Metastore 版本。

  4. 元数据集成下,点击 Data Catalog 同步

  5. 对于其余服务配置选项,请使用提供的默认值。也可以根据需要配置服务

  6. 点击提交

为现有服务启用或停用 Data Catalog 同步

要为现有服务启用或停用 Data Catalog 同步,请按照以下说明操作。

控制台

  1. 在 Google Cloud 控制台中,打开 Dataproc Metastore 页面:

    转到 Dataproc Metastore

  2. Dataproc Metastore 页面上,点击要更新的服务。

    该服务的服务详细信息页面会打开。

  3. 配置标签页下,点击修改

    系统随即会打开修改服务页面。

  4. 元数据集成下,开启或关闭 Data Catalog 同步

  5. 点击提交

使用 Data Catalog 进行搜索

您可以使用 Data Catalog 搜索已同步的 Dataproc Metastore 元数据。

虽然 Dataproc Metastore 没有自定义搜索选项,但您可以通过多种方式搜索不同的 Dataproc Metastore 资源,其中包括:

  • Dataproc Metastore 实例
    • 按显示名
    • 标准 Data Catalog 函数 - 例如,使用标记。
  • 数据库
    • 按显示名
    • 按说明
    • 按 Dataproc Metastore 实例
    • 标准 Data Catalog 函数 - 例如,使用标记。
  • 表格
    • 按显示名
    • 按说明
    • 按列名称
    • 按列说明
    • 按数据库
    • 按 Dataproc Metastore 实例
    • 标准 Data Catalog 函数 - 例如,使用标记。

后续步骤