Dataproc Metastore 概览

Dataproc Metastore 是在 Google Cloud 上运行的全代管式 Apache Hive Metastore (HMS)。(HMS) 是开源大数据生态系统中用于管理技术元数据(例如关系型数据库中的架构、分区和列统计信息)的既定标准。

Dataproc Metastore 具有高可用性、自动修复功能并且无服务器。用它来管理数据湖元数据,并在您使用的各种数据处理引擎与工具之间提供互操作性。

Dataproc Metastore 的工作原理

您可以通过将 Dataproc Metastore 服务连接到 Dataproc 集群来使用该服务。Dataproc 集群包括依赖 HMS 来推动查询规划和执行的组件。

此集成可让您在作业之间保留表信息,或使元数据可供其他集群和其他处理引擎使用。

例如,与手动跟踪文件名相比,实现 Metastore 可能有助于您指定一部分文件包含收入数据。在这种情况下,您可以为这些文件定义一个表,并将元数据存储在 Dataproc Metastore 中。之后,您可以将其连接到 Dataproc 集群,并使用 Hive、Spark SQL 或其他查询服务查询表中以获取信息。

Dataproc Metastore 版本

创建 Dataproc Metastore 服务时,您可以选择使用 Dataproc Metastore 2 服务Dataproc Metastore 1 服务

  • Dataproc Metastore 2 是新一代服务,除了 Dataproc Metastore 1 功能外,还提供横向可伸缩性。如需了解详情,请参阅功能和优势

  • Dataproc Metastore 2 的定价方案与 Dataproc Metastore 不同。如需了解详情,请参阅定价方案和伸缩配置

常见使用场景

除非另有说明,否则本部分中列出的所有用例均受 Dataproc Metastore 2 和 Dataproc Metastore 1 支持。

  • 为数据赋予含义。创建在多个临时 Dataproc 集群之间共享的集中式元数据代码库。使用不同的开源软件 (OSS) 引擎,例如 [Apache Hive](https://hive.apache.org、Apache SparkPresto)。

  • 构建统一的数据视图。在 Google Cloud 服务(例如 Dataproc、Dataplex 和 BigQuery)之间提供互操作性,或使用 Google Cloud 上的其他开源合作伙伴产品。

特性和优势

除非另有说明,否则本部分中列出的所有功能均受 Dataproc Metastore 2 和 Dataproc Metastore 1 支持。

  • OSS 兼容性。连接到现有的数据处理引擎,例如 Apache Hive、Apache Spark 和 Presto。

  • 管理。在几分钟内创建或更新 Metastore,完成全面配置的监控和操作任务。

  • 集成。与其他 Google Cloud 产品集成,例如使用 BigQuery 作为 Dataproc 集群的元数据来源。

  • 内置安全功能。使用成熟的 Google Cloud 安全协议,例如 Identity and Access Management (IAM)Kerberos 身份验证

  • 简单导入。将存储在外部 Hive Metastore Metastore 中的现有元数据导入到 Dataproc Metastore 服务。

  • 自动备份。配置自动 Metastore 备份,以帮助避免数据丢失。

  • 性能监控。设置性能层级,以动态响应高度密集型工作负载和峰值,而无需预热或缓存。

  • 高可用性 (HA)

    • Dataproc Metastore 2:提供可用区级高可用性 (HA),无需任何特定配置或持续管理。通过跨所选区域中的多个可用区自动复制后端数据库和 HMS 服务器来实现这一点。除了可用区级高可用性外,Dataproc Metastore 2 还支持区域级高可用性和灾难恢复 (DR)。
    • Dataproc Metastore 1:默认情况下,它提供可用区级高可用性 (HA),无需任何特定配置或持续管理。这是通过跨您所选区域的多个可用区自动复制后端数据库和 HMS 服务器来实现的,
  • 可伸缩性

    • Dataproc Metastore 2:使用横向扩缩系数来确定您的服务在给定时间需要使用多少资源。扩缩系数可以手动控制,也可以根据需要设置为自动扩缩。
    • Dataproc Metastore 1:设置服务时,请选择开发者层级或企业层级。此层级决定了您的服务在给定时间需要使用多少资源。
  • 支持。获享标准的 Google Cloud 服务等级协议 (SLA) 和支持渠道。

与 Google Cloud 的集成

除非另有说明,否则本部分中列出的所有集成均受 Dataproc Metastore 1 和 Dataproc Metastore 2 支持。

  • Dataproc。连接到 Dataproc 集群,以便您可以为 OSS 大数据工作负载提供元数据。
  • BigQuery。查询您的 Dataproc 工作负载中的 BigQuery 数据集。
  • Dataplex。查询在 Dataplex 数据湖中发现的结构化和半结构化数据。
  • Data Catalog -将 Dataproc Metastore 与 Data Catalog 同步,以启用元数据的搜索和发现。
  • 日志记录和监控。将 Dataproc Metastore 与 Cloud Monitoring 和 Logging 产品集成。
  • 身份验证和 IAM。依赖于其他 Google Cloud 产品使用的标准 OAuth 身份验证,该身份验证支持使用精细的 Identity and Access Management 角色实现对各个资源的访问权限控制。

后续步骤