Dataproc Metastore 概览

Dataproc Metastore 是在 Google Cloud 上运行的全代管式 Apache Hive Metastore (HMS)。 (HMS) 是开源大数据领域的成熟标准 用于管理技术元数据(例如架构、分区和列)的生态系统, 存储在关系型数据库中的统计信息

Dataproc Metastore 具有高可用性、自动修复功能并且无服务器。 使用它来管理数据湖 并在各种数据处理引擎之间提供互操作性 和工具。

Dataproc Metastore 的工作原理

您可以通过将 Dataproc Metastore 服务连接到 Dataproc 集群。Dataproc 集群包括 依赖于 HMS 来推动查询规划和执行的组件。

借助此集成,您可以在作业之间保留表格信息, 其他集群和其他处理引擎可用的元数据。

例如,实现 Metastore 可能有助于您将某个子集指定为 ,而不是手动跟踪文件名。 在这种情况下,您可以为这些文件定义一个表,并将元数据存储在 Dataproc Metastore。然后,您就可以将其连接到 Dataproc 集群并查询表中以获取信息, Spark SQL 或其他查询服务。

Dataproc Metastore 版本

创建 Dataproc Metastore 服务时,您可以选择使用 Dataproc Metastore 2 服务Dataproc Metastore 1 服务

  • Dataproc Metastore 2 是新一代的服务, 除了 Dataproc Metastore 1 功能外,还可以实现横向可伸缩性。 如需了解详情,请参阅功能和优势

  • Dataproc Metastore 2 的定价方案不同于 Dataproc Metastore。如需了解详情,请参阅定价方案和伸缩配置

常见使用场景

Dataproc Metastore 支持本部分中列出的所有用例 2 和 Dataproc Metastore 1(除非另有说明)。

  • 为数据赋予含义。创建集中式元数据代码库 由多个临时 Dataproc 集群共享使用 不同的开源软件 (OSS) 引擎,例如 [Apache Hive](https://hive.apache.org) 、Apache SparkPresto

  • 构建统一的数据视图。能够在不同平台之间 Google Cloud 服务,例如 Dataproc、Dataplex、 或 BigQuery 中使用其他开源合作伙伴产品, Google Cloud

特性和优势

Dataproc Metastore 支持本部分中列出的所有功能 2 和 Dataproc Metastore 1(除非另有说明)。

  • OSS 兼容性。连接到您现有的数据处理引擎, 例如 Apache Hive、Apache Spark 和 Presto

  • 管理。在几分钟内创建或更新 Metastore,只需 全面配置的监控和运营任务。

  • 集成。与其他 Google Cloud 产品集成,例如 使用 BigQuery 作为 Dataproc 的元数据来源 集群。

  • 内置安全功能。使用成熟的 Google Cloud 安全协议、 例如 Identity and Access Management (IAM)Kerberos 身份验证

  • 简单导入。导入存储在外部 Hive Metastore 中的现有元数据 Metastore 转换为 Dataproc Metastore 服务。

  • 自动备份。配置自动 Metastore 备份有助于避免 数据丢失。

  • 性能监控。设置性能层以动态响应 高密集型工作负载和高峰时段,无需预热或缓存。

  • 高可用性 (HA)

    • Dataproc Metastore 2:提供可用区级高可用性 (HA) 而无需任何特定配置或日常管理。这是 通过自动复制后端数据库和 HMS 服务器完成 您所选区域内的多个可用区中的实例除了可用区级高可用性外, Dataproc Metastore 2 支持区域级高可用性和 灾难恢复 (DR)。
    • Dataproc Metastore 1:默认情况下, 高可用性 (HA) 测试,而无需任何特定配置或 管理。这是通过自动复制后端数据库来实现的 和 HMS 服务器在所选区域内的多个可用区之间
  • 可伸缩性

    • Dataproc Metastore 2:使用横向缩放比例 确定您的服务在给定时间需要使用多少资源。 缩放比例可以手动控制或设置为自动扩缩 。
    • Dataproc Metastore 1:选择开发者层级或 企业版。此层级决定了 您的服务在给定时间需要使用的许多资源
  • 支持。获享标准的 Google Cloud 服务等级协议 (SLA) 和支持渠道。

与 Google Cloud 的集成

Dataproc Metastore 支持本部分中列出的所有集成 1 和 Dataproc Metastore 2(除非另有说明)。

  • Dataproc。连接到 Dataproc 集群,以便为您提供 适用于 OSS 大数据工作负载的元数据。
  • BigQuery。在 Dataproc 中查询 BigQuery 数据集 工作负载
  • Dataplex。查询在 Dataplex 数据湖。
  • Data Catalog -将 Dataproc Metastore 与 Data Catalog 同步 以便搜索和发现元数据。
  • 日志记录和监控。将 Dataproc Metastore 与 Cloud Monitoring 和 Cloud Logging 产品。
  • 身份验证和 IAM。依靠其他人使用的标准 OAuth 身份验证机制 Google Cloud 产品,支持使用精细的 Identity and Access Management 角色 对个别资源启用访问权限控制。

后续步骤