什么是 Dataproc Metastore?

Dataproc Metastore 是在 Google Cloud 上用于数据分析产品的全代管式无服务器 Apache Hive Metastore (HMS),具有自动修复功能,并且在区域内具有高可用性。它支持 HMS,作为管理关系实体元数据的关键组成部分,并在开源数据生态系统中为数据处理应用提供互操作性。

为何使用 Dataproc Metastore?

本部分介绍 Dataproc Metastore 使用场景和功能。

Dataproc Metastore 使用场景

Dataproc Metastore 使用场景包括:

  • 集中式元数据代码库,可以在运行不同开源引擎(例如 Apache HiveApache SparkPresto)的各种临时 Dataproc 集群之间共享。

  • 一个统一视图,显示了 Google Cloud 中的开源表,提供 Cloud Bigtable 等云原生服务与 Google Cloud 上其他各种开源合作伙伴产品之间的互操作性。

Dataproc Metastore 功能

Dataproc Metastore 提供以下功能:

  • OSS 兼容性 - Dataproc Metastore 提供与 OSS 完全兼容的 Metastore。它可以无缝集成您的现有数据处理堆栈,例如 Apache Hive、Apache Spark、Presto。这可实现 Google Cloud 服务与开源合作伙伴之间的更多互操作性。

  • 管理 — Dataproc Metastore 消除了管理 HMS 的负担。借助经过全面配置的监控和操作任务,您可以在几分钟内创建或更新 HMS 实例。

  • 集成 - 除了简化 HMS 的服务管理外,Dataproc Metastore 还能够与 Dataproc 等现有 Google Cloud 产品集成。您可以使用正在运行的 Dataproc Metastore 服务作为 Dataproc 集群的元数据来源。

  • 简单导入 — 导入功能允许您将存储在外部数据库中的现有元数据导入 Dataproc Metastore。

  • 安全性 — 您可以使用 Google Cloud 提供的安全解决方案保障 Dataproc Metastore 服务的安全。您还可以设置 Cloud IAM 权限并使用 Kerberos 身份验证

  • 可靠性 — Dataproc Metastore 服务会定期备份,因此您无需担心 HMS 数据耐用性。

  • 高性能 - 每个层级都提供可靠的资源分配,以应对高强度工作负载(无需预热或缓存)即可响应峰值 HMS 调用。

  • 随着数据湖的扩容而扩缩 - 当数据湖准备就绪或快速创建新的元存储时,您可以在层级之间轻松切换。

  • 缩短停机时间并提高工作效率 — Google Cloud 可提供服务等级协议 (SLA) 和支持。

Dataproc Metastore 包含哪些内容?

如需了解 Dataproc Metastore 支持的开源 (Apache Hive) 版本,请参阅 Dataproc Metastore 版本政策

Dataproc Metastore 使用入门

如需快速开始使用 Dataproc Metastore,请参阅《快速入门:部署 Dataproc Metastore》。您可以通过以下方式访问 Dataproc Metastore: