将 Dataproc Metastore 同步到 Data Catalog

本文档介绍了如何同步 Dataproc Metastore 元数据 和 Data Catalog

将这两项服务同步后,您可以使用 Data Catalog 管理您的 Dataproc Metastore 元数据。例如,通过使用 Data Catalog,您可以标记和搜索特定的 Dataproc Metastore 资源,例如数据库和表。

什么是 Data Catalog

Data Catalog 是一项可伸缩的全代管式元数据管理服务 服务。它为技术人员提供了统一的视图和标记机制 和业务元数据

如需了解详情,请参阅以下 Data Catalog 特性指南:

准备工作

所需的角色

要获取将 Dataproc Metastore 元数据与 Data Catalog 同步所需的权限, 请让管理员授予您 基于最小权限原则,在 Data Catalog 中查看已同步的 Dataproc Metastore 条目 (roles/metastore.metadataViewer) IAM 角色。 如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

此预定义角色包含 拥有将 Dataproc Metastore 元数据与 Data Catalog 同步所需的权限。如需查看所需的确切权限,请展开所需权限部分:

所需权限

要将 Dataproc Metastore 元数据与 Data Catalog 同步,需要以下权限:

  • 如需获取 Dataproc Metastore 数据库,请执行以下操作: metastore.databases.get
  • 如需列出 Dataproc Metastore 数据库,请执行以下操作: metastore.databases.list
  • 如需获取 Dataproc Metastore 表,请执行以下操作: metastore.tables.get
  • 如需列出 Dataproc Metastore 表,请执行以下操作: metastore.tables.list

您也可以使用自定义角色或其他预定义角色来获取这些权限。

如需详细了解特定 Dataproc Metastore 角色和权限,请参阅使用 IAM 管理访问权限

服务之间的权限运作方式

Data Catalog 遵循 Dataproc Metastore 级别权限。对于从 Dataproc Metastore 同步到 Data Catalog 的元数据,在 Dataproc Metastore 中指定的 IAM 权限也适用于 Data Catalog 中的元数据。

Data Catalog 会检查每个 Metastore 的权限 数据库和表,这样,只有有权访问 Dataproc Metastore 服务能够看到同步的服务 将资源作为条目添加到 Data Catalog 中。

Data Catalog 同步如何与 Dataproc Metastore 配合使用

您可以为 Data Catalog 启用 Dataproc Metastore 在创建或更新 Dataproc Metastore 服务时同步 Google Cloud 控制台您可以通过同样的方式停用同步功能。

启用 Data Catalog 同步后,数据库和表元数据 自动从 Dataproc Metastore 同步到 Data Catalog。

Data Catalog 会同步以下元数据:

  • Instances.
  • 数据库,包括名称和说明。
  • 表,包括名称、说明和架构(包含说明的列)。

下表显示了 Dataproc Metastore 和 Data Catalog 之间的资源映射:

Dataproc Metastore 资源 Data Catalog 资源
实例 条目组
条目
数据库 条目
条目
架构

注意事项

  • 最多可能需要 6 个小时才能启动您的 Dataproc Metastore 元数据与 Data Catalog 完全同步。初始 同步完成后,系统会按需同步增量更改(如表或 数据库更新)。如果按需同步失败,该同步将批量进行 重新运行一次。

  • 如果您怀疑同步出现问题,请检查元数据 在 Dataproc Metastore Cloud Logging 中发布日志 过滤条件为 textPayload=~".*Publish.*"。 如需详细了解如何访问日志,请参阅访问 Logging 中的作业日志

  • 如果停用 Data Catalog 同步,则元数据会停止同步 从 Dataproc Metastore 复制到 Data Catalog。 不过,已同步的元数据仍将保留在 Data Catalog 中。

  • 如果您删除 Dataproc Metastore 实例,相应的实例、数据库和表条目也会从 Data Catalog 中移除。

  • 存储在 Data Catalog 中的 Dataproc Metastore 元数据 遵循标准的 Google Cloud 保留期限。

  • 为 Dataproc Metastore 启用 Data Catalog 同步时没有额外的费用。

创建一个启用了 Data Catalog 同步的服务

Data Catalog 同步默认处于停用状态。

如需为新服务启用 Data Catalog 同步,请按照以下说明操作。

控制台

  1. 在 Google Cloud 控制台中,打开 Dataproc Metastore 页面:

    转到 Dataproc Metastore

  2. Dataproc Metastore 页面顶部,点击创建

    此时会打开创建服务页面。

  3. 选择要使用的 Dataproc Metastore 版本。

  4. 元数据集成下,点击 Data Catalog 同步

  5. 对于其余服务配置选项,请使用提供的默认值。 或者根据需要配置服务

  6. 点击提交

为现有服务启用或停用 Data Catalog 同步

要为现有服务启用或停用 Data Catalog 同步,请执行以下操作: 请按照以下说明操作。

控制台

  1. 在 Google Cloud 控制台中,打开 Dataproc Metastore 页面:

    转到 Dataproc Metastore

  2. Dataproc Metastore 页面上,点击要更新的服务。

    该服务的服务详细信息页面会打开。

  3. 配置标签页下,点击修改

    系统随即会打开修改服务页面。

  4. 元数据集成下,切换 Data Catalog 同步

  5. 点击提交

使用 Data Catalog 进行搜索

您可以使用以下命令搜索已同步的 Dataproc Metastore 元数据: Data Catalog 的数据。

虽然 Dataproc Metastore 没有自定义搜索选项 您可以通过多种方式搜索不同的 Dataproc Metastore 资源,包括:

  • Dataproc Metastore 实例
    • 按显示名
    • 标准 Data Catalog 函数 - 例如,通过使用标记。
  • 数据库
    • 按显示名
    • 按说明
    • 按 Dataproc Metastore 实例
    • 标准 Data Catalog 函数 - 例如,通过使用标记。
  • 表格
    • 按显示名
    • 按说明
    • 按列名称
    • 按列说明
    • 按数据库
    • 按 Dataproc Metastore 实例
    • 标准 Data Catalog 功能,例如使用标记。

后续步骤