Dataproc Metastore 概览

Dataproc Metastore 是在 Google Cloud 上运行的全代管式 Apache Hive Metastore (HMS)。 (HMS) 是开源大数据领域的成熟标准 用于管理技术元数据(例如架构、分区和列)的生态系统, 存储在关系型数据库中的统计信息。

Dataproc Metastore 具有高可用性、自动修复功能和无服务器架构。使用它来管理数据湖 并在各种数据处理引擎之间提供互操作性 和工具。

Dataproc Metastore 的工作原理

您可以将 Dataproc Metastore 服务连接到 Dataproc 集群,以便使用该服务。Dataproc 集群包括 依赖于 HMS 来推动查询规划和执行的组件。

通过此集成,您可以在作业之间保留表信息,或将元数据提供给其他集群和其他处理引擎。

例如,实现 Metastore 可能有助于您将某个子集指定为 ,而不是手动跟踪文件名。 在这种情况下,您可以为这些文件定义一个表,并将元数据存储在 Dataproc Metastore。然后,您就可以将其连接到 Dataproc 集群,并使用 Hive 查询表以获取信息, Spark SQL 或其他查询服务。

Dataproc Metastore 版本

创建 Dataproc Metastore 服务时,您可以选择使用 Dataproc Metastore 2 服务Dataproc Metastore 1 服务

  • Dataproc Metastore 2 是新一代服务,除了提供 Dataproc Metastore 1 功能之外,还支持横向扩缩。如需了解详情,请参阅功能和优势

  • Dataproc Metastore 2 的定价方案不同于 Dataproc Metastore。如需了解详情,请参阅定价方案和伸缩配置

常见使用场景

除非另有说明,否则本部分列出的所有使用场景均受 Dataproc Metastore 2 和 Dataproc Metastore 1 支持。

  • 为数据赋予含义。创建集中式元数据代码库 由多个临时 Dataproc 集群共享使用 不同的开源软件 (OSS) 引擎,例如 [Apache Hive](https://hive.apache.org) 、Apache SparkPresto

  • 构建统一的数据视图。能够在不同平台之间 Google Cloud 服务,例如 Dataproc、Dataplex、 或 BigQuery 中使用其他开源合作伙伴产品, Google Cloud

特性和优势

Dataproc Metastore 支持本部分中列出的所有功能 2 和 Dataproc Metastore 1(除非另有说明)。

  • OSS 兼容性。连接到您现有的数据处理引擎, 例如 Apache Hive、Apache Spark 和 Presto

  • 管理。借助经过全面配置的监控和操作任务,您可以在几分钟内创建或更新元存储。

  • 集成。与其他 Google Cloud 产品集成,例如 使用 BigQuery 作为 Dataproc 的元数据来源 集群。

  • 内置安全功能。使用成熟的 Google Cloud 安全协议、 例如 Identity and Access Management (IAM)Kerberos 身份验证

  • 简单导入。导入存储在外部 Hive Metastore 中的现有元数据 Metastore 转换为 Dataproc Metastore 服务。

  • 自动备份。配置自动 Metastore 备份,以帮助避免数据丢失。

  • 性能监控。设置性能层以动态响应 高密集型工作负载和高峰时段,无需预热或缓存。

  • 高可用性 (HA)

    • Dataproc Metastore 2:提供可用区高可用性 (HA),无需进行任何特定配置或持续管理。这是 通过自动复制后端数据库和 HMS 服务器完成 您所选区域内的多个可用区中的实例除了可用区级高可用性外, Dataproc Metastore 2 支持区域级高可用性和 灾难恢复 (DR)。
    • Dataproc Metastore 1:默认情况下, 高可用性 (HA) 测试,而无需任何特定配置或 管理。这是通过自动复制后端数据库来实现的 和 HMS 服务器在所选区域内的多个可用区之间
  • 可伸缩性

    • Dataproc Metastore 2:使用横向扩缩因子确定您的服务在给定时间需要使用多少资源。缩放比例可以手动控制或设置为自动扩缩 。
    • Dataproc Metastore 1:在设置服务时,您可以选择开发者层级或企业层级。此层级决定了 您的服务在给定时间需要使用的许多资源
  • 支持。获享标准的 Google Cloud 服务等级协议 (SLA) 和支持渠道。

与 Google Cloud 的集成

Dataproc Metastore 支持本部分中列出的所有集成 1 和 Dataproc Metastore 2(除非另有说明)。

  • Dataproc。连接到 Dataproc 集群,以便为您提供 适用于 OSS 大数据工作负载的元数据。
  • BigQuery。在 Dataproc 工作负载中查询 BigQuery 数据集。
  • Dataplex。查询在 Dataplex 数据湖。
  • Data Catalog -将 Dataproc Metastore 与 Data Catalog 同步 以便搜索和发现元数据。
  • 日志记录和监控。将 Dataproc Metastore 与 Cloud Monitoring 和 Logging 产品集成。
  • 身份验证和 IAM。依靠其他人使用的标准 OAuth 身份验证机制 Google Cloud 产品,支持使用精细的 Identity and Access Management 角色 对个别资源启用访问权限控制。

后续步骤